arXiv雑要約
画像・音声 - 2026/05/19 公開
SVL:効率的な3Dオープンワールド理解のためのスパイクベースのビジョン言語事前学習 [cs.CV]目的:3Dオープンワールド理解のためのスパイクニューラルネットワーク事前学習フレームワーク
- 3D認識は,ロボット工学や自動運転など,様々な応用分野で重要である。
- 既存のスパイクニューラルネットワークは,性能面で人工ニューラルネットワークに劣ることが課題である。
- マルチモーダルな理解と汎化能力の向上を目指し,効率的な事前学習手法を開発する。
- 提案手法SVLは,ゼロショット3D分類において最先端の人工ニューラルネットワークモデルを上回る性能を達成した。
- 3D分類,DVSアクション認識,3D検出,3Dセグメンテーションなど,様々なダウンストリームタスクにおいて既存のスパイクニューラルネットワークよりも高い性能を示した。
- SVLは,SNNがオープンワールド3D質疑応答を実行することを可能にし,場合によってはANNを上回る性能を発揮する。
リモートセンシングパンシャープニングのための高速カーネル空間拡散 [cs.CV]目的:リモートセンシング画像におけるパンシャープニングの品質向上と推論速度の高速化
- リモートセンシングは,地球観測において重要な役割を果たし,環境モニタリングや資源管理に不可欠である。
- 従来のパンシャープニング手法は,リモートセンシングデータの持つグローバルな情報を十分に活用できていない場合がある。
- 本研究は,拡散モデルの遅延という課題を克服し,高品質かつ高速なパンシャープニングを実現することを目指す。
- KSDiffは,グローバルコンテキストを強化した畳み込みカーネルを生成することで,パンシャープニングの品質を向上させる。
- KSDiffは,従来の拡散ベースのパンシャープニング手法と比較して,500倍以上の高速な推論速度を実現する。
- 低ランクコアテンソル生成器とユニファイドファクター生成器を統合し,構造を意識したマルチヘッドアテンション機構を用いることで,効率的なカーネル生成を可能にする。
疎から密へ:LLMにおけるビデオ理解の損失なし加速のための無償の昼食 [cs.CV, cs.CL]目的:ビデオ大規模言語モデルにおけるビデオ理解の加速
- ビデオデータの活用は,多様な応用において重要性が増しており,高性能な処理が求められている。
- 現在のビデオ大規模言語モデルは,自己回帰的性質から,入力シーケンス長が長いと推論遅延が増大する。
- アテンションスコアの疎性を利用し,高速化と精度維持を両立する新たなデコーディング戦略を提案する。
- 提案手法StDは,疎なトップKアテンションと密なフルアテンションを組み合わせることで,ビデオ処理を最大1.94倍高速化する。
- StDは,チューニングフリーかつプラグアンドプレイで実装でき,標準的なビデオLLMから疎なビデオLLMへの移行を容易にする。
- StDは,モデルの性能を維持しながら,高速化を実現し,効率的なビデオ理解を可能にする。
幾何編集可能かつ外観保持する物体合成 [cs.CV]目的:幾何学的特性を満たしつつ,物体の詳細な外観を保持した物体合成
- 視覚情報処理において,現実世界の画像を編集・合成する技術は重要であり,多様な応用が期待される。
- 既存手法では,物体の形状と外観を同時に制御することが難しく,品質の低下や不自然な合成結果が生じやすい。
- 本研究は,物体の形状編集と外観保持を両立する新しい物体合成手法を提案し,より自然で高品質な合成を目指す。
- 提案手法DGADは,セマンティック埋め込みを用いて幾何学的変換を捉え,クロスアテンション機構により外観特徴を整合させる。
- DGADは,CLIP/DINOや参照ネットワークを活用し,セマンティック埋め込みと外観保持表現を分離して統合する。
- 公開ベンチマークにおける実験により,DGADの有効性が確認された。
構造化ラベリングがエンドツーエンド自動運転のための高速なビジョン言語モデルを可能にする [cs.MA, cs.CV, cs.AI]目的:エンドツーエンド自動運転に向けたビジョン言語モデルの高速化
- 自動運転は,社会の安全性と利便性向上に不可欠な技術である。
- 既存の言語記述データセットは機械学習に適しておらず,冗長性が高い。
- 構造化されたデータセットとコンパクトなモデルによる効率的な意思決定を目指す。
- 新データセットNuScenes-Sは,機械学習に優しい構造化された表現を提供する。
- FastDriveは0.9BパラメータのコンパクトなVLMであり,高速な推論を実現する。
- 構造化データセットにおいて,意思決定タスクで約20%の精度向上と,10倍以上の高速化を達成した。
HSG-12M:非ヘミチアン結晶のエネルギースペクトルからの空間マルチグラフの大規模ベンチマーク [cs.LG, cond-mat.mes-hall, cond-mat.other, cs.AI, cs.CV]目的:非ヘミチアン量子物理学におけるハミルトニアンスペクトルグラフのデータセット
- AIによる科学研究の変革が進む中,大規模かつ高品質なドメイン特化型データセットの不足が課題である。
- 非ヘミチアン量子物理学のスペクトルグラフは重要だが,手動抽出に依存しており,体系的な研究が困難であった。
- 本研究は,ハミルトニアンをスペクトルグラフへ自動的に変換するパイプラインを開発し,大規模データセットを構築することで,この問題を解決する。
- HSG-12Mは,1160万個の静的および510万個の動的ハミルトニアンスペクトルグラフを含む,大規模な空間マルチグラフデータセットである。
- 既存のグラフベンチマークが単純なエッジを仮定する中,HSG-12Mは幾何学的情報を保持するマルチエッジに対応し,重要なギャップを埋める。
- スペクトルグラフが多項式,ベクトル,行列の普遍的なトポロジカルフィンガープリントとして機能することが示され,代数とグラフの新たな関連性を提供する。
幾何形状を考慮した4Dビデオ生成によるロボット操作 [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボット操作のための4Dビデオ生成
- ロボットが複雑な環境で効果的に計画し,相互作用するためには,物理世界の動的な理解が不可欠である。
- 既存のビデオ生成モデルは動的なシーンのモデリングに潜在能力を示すものの,時間的整合性と幾何学的整合性を両立させるのが困難である。
- 複数視点からの幾何学的整合性を確保することで,より安定した未来予測を可能にし,ロボット操作の汎化性能を高める。
- 提案手法は,クロスビュー点マップアラインメントによる幾何学的制約を導入し,一貫性のある4Dビデオ生成を実現した。
- カメラ姿勢を入力とせず,単一のRGB-D画像から複数の視点での未来予測が可能となった。
- シミュレーションおよび実世界のデータセットにおいて,既存手法よりも視覚的に安定し,空間的に整列した予測結果が得られた。
浅い深層学習でも,きめ細かい少数ショット学習で優れた性能を発揮できる [cs.CV]目的:きめ細かい少数ショット学習における,浅い深層学習アーキテクチャの有効性
- 深層学習は幅広い分野で活用され,特にきめ細かい少数ショット学習において重要な役割を果たす。
- 浅い深層バックボーンは,抽象度の低い視覚的特徴を抽出しやすいという課題があった。
- 位置情報を考慮した特徴クラスタリングにより,浅いネットワークでも高い性能を実現することを目指す。
- 提案手法LCN-4は,従来のConvNet-4ベースの手法を大きく上回り,ResNet12ベースの手法と同等以上の性能を達成した。
- 位置情報を補償するグリッド位置エンコーディングと,周波数領域の位置埋め込み技術が,特徴抽出における位置情報の損失を軽減した。
- 実験結果は,浅い深層アーキテクチャでも,きめ細かい少数ショット学習において優れた性能を発揮できることを裏付けた。
MetaLab:画像認識における数ショット学習の変革 [cs.CV]目的:画像認識における数ショット学習の効率的な手法
- 画像認識技術は,様々な分野で応用が期待されており,その重要性は高い。
- 大規模なデータセットがない状況での画像認識精度は,依然として課題である。
- 数ショット学習において,高精度かつ汎化性能の高い手法を確立すること。
- 提案手法MetaLabは,CIELab色空間変換と特徴抽出を行うLabNetと,明度グラフと色グラフ間の相互学習を促進するLabGNNを組み合わせる。
- 粗粒度,細粒度,クロスドメインのベンチマークにおいて,高い精度とロバスト性,そして汎化能力が確認された。
- MetaLabは,クラスあたり1つのサンプルで人間の認識上限に迫る99%の精度を達成し,視覚的なずれも少ない。
色彩を契機として:Few-Shot学習器の変革 [cs.CV]目的:Few-Shot学習における人間の色彩知覚メカニズムのシミュレーション
- 人間は優れた色彩知覚能力を持ち,それがメタ学習能力の一因である。Few-Shot学習への応用が期待される。
- 従来のメタ学習手法は抽象的な特徴抽出に偏り,直感的で重要な色彩情報の活用が不十分であった。
- 色彩情報の活用とチャネル間相互作用により,Few-Shot学習の汎化性能,ロバスト性,転移学習能力の向上を目指す。
- 提案手法ColorSense Learnerは,チャネル間特徴抽出とインタラクティブ学習により,無関係な特徴をフィルタリングし,識別的な特徴を捉える。
- ColorSense Distillerは知識蒸留を活用し,教師モデルの知識を学生ネットワークのメタ学習能力に組み込む。
- 11のFew-Shotベンチマークでの実験により,提案手法の優れた汎化性能,ロバスト性,転移学習能力が確認された。
ピクセルから場所へ:大規模言語モデルの画像地理位置特定能力を評価するための体系的ベンチマーク [cs.CV]目的:画像地理位置特定能力の評価
- 災害対応,デジタルフォレンジック,位置情報に基づくインテリジェンスなど,多様な応用において重要性が増している。
- 大規模言語モデルの画像地理位置特定能力は十分に探求されていない。
- 大規模言語モデルの空間推論能力を厳密に評価し,位置情報認識AIシステムの構築に貢献する。
- 本研究で開発したIMAGEO-Benchは,精度,距離誤差,地理空間バイアス,推論プロセスを体系的に評価する。
- 実験の結果,クローズドソースモデルの方が一般的に優れた推論能力を示すことが明らかになった。
- 大規模言語モデルは,リソース豊富な地域(北米,西ヨーロッパなど)で性能が高く,代表性の低い地域では性能が低下する地理空間バイアスが見られた。
単眼ノーマルマップによるイベントベース物体検出の性能向上 [cs.CV]目的:イベントベース物体検出における性能向上
- 自動運転の安全性向上には,悪条件下の物体検出技術が不可欠である。
- 従来のカメラは照明の影響を受けやすい。イベントカメラも反射などに対処が難しい。
- RGB由来のサーフェスノーマルマップで幾何学的制約を加え,イベントベース検出を支援する。
- 提案手法NRE-Netは,ノーマルマップ,RGB画像,イベントの3つの情報を統合する。
- DSEC-Det-subとPKU-DAVIS-SODでの評価で,AP50が3.0%向上した。
- SFNetやSODFormerなどの既存手法と比較しても,一貫して高い性能を示した。
VLMにおける継続学習:忘却を超えた調査と分類 [cs.CV, cs.LG]目的:視覚言語モデル(VLM)および大規模マルチモーダル言語モデル(MLLM)の継続学習に関する調査と分類
- AI分野において,視覚と言語を統合するモデルの重要性が高まっている。従来のモデルでは,継続学習が困難であった。
- VLMは,学習データの変化に適応できず,性能が著しく低下する「破滅的忘却」の問題を抱えている。
- VLMとMLLM特有の忘却メカニズムを解明し,継続学習を可能にするための新たな手法を確立することを目指す。
- 本調査では,VLMとMLLMの継続学習における課題を包括的にレビューし,4つの主要なパラダイムを提示した。
- ドメインと能力の二軸で評価するベンチマークの重要性を強調し,CoT評価による詳細な診断分析の必要性を示した。
- 今後の研究の方向性として,構成的なゼロショット学習,embodied AI,自律エージェント生態系などを提案した。
フーリエ圧縮器:ビジョン言語モデルのための周波数領域の視覚トークン圧縮 [cs.RO, cs.CV, cs.AI]目的:ビジョン言語モデルにおける視覚トークン圧縮戦略
- 高解像度画像・動画入力により,ビジョン言語モデルの計算コストと推論時間が課題となっている。
- 既存のトークン圧縮手法では,情報損失や表現分布の歪みが生じ,性能低下を招く可能性がある。
- 周波数領域に着目し,視覚表現の冗長性を除去することで,効率的な圧縮を実現する。
- フーリエ圧縮器は,パラメータ不要で汎用性の高いモジュールであり,周波数領域で視覚表現の冗長性を除去する。
- 画像認識ベンチマークにおいて,元の精度を96%以上維持しつつ,推論FLOPsを最大83.8%削減し,生成速度を31.2%向上させた。
- LLaVAやQwen-VLアーキテクチャで一貫して良好な結果を示し,動画理解タスクにも適用可能である。
内視鏡診断のための自己整合性検証によるクローズドループなエージェント的推論:EndoCogniAgent [cs.CL, cs.AI, cs.CL, cs.CV]目的:内視鏡診断におけるエージェント的推論フレームワーク
- 内視鏡診断は,医療現場において重要な役割を担う検査であり,診断精度向上へのニーズは高い。
- 既存のAIシステムは,詳細な証拠の獲得と多段階の推論が十分に連携しておらず,誤った診断につながる可能性がある。
- 本研究は,自己整合性検証によるクローズドループな推論を通じて,内視鏡診断における信頼性を高めることを目指す。
- EndoCogniAgentは,内視鏡診断を制御された状態更新プロセスとして定式化し,各推論段階で次の証拠獲得アクションを選択する。
- 専門ツールが対応する観察を抽出し,知識および時間的一貫性に基づいて自己整合性検証を行うことで,診断状態を更新する。
- 実験の結果,知覚タスクで85.23%,推論タスクで71.13%の臨床受容率を達成し,自己整合性検証の有効性が示された。
移動赤外微小ターゲット検出のためのハイパーグラフに基づく時間的強化・アライメントネットワーク [cs.CV]目的:移動赤外微小ターゲット検出の性能向上
- 赤外線による微小ターゲット検出は,監視やセキュリティなど多くの分野で重要である。
- ターゲットが小さく,コントラストが低いため,検出が困難である。
- ハイパーグラフを用いて時空間相関を高め,検出性能の向上を目指す。
- 提案手法HyperTeaは,CNN,RNN,HGNNを統合した初のモデルである。
- グローバル・ローカル時間的強化モジュールと時間的アライメントモジュールにより,特徴量の表現力を高める。
- DAUBとIRDSTデータセットでの実験で,最先端の性能を達成した。
DASH:効果的かつ隠蔽性の高い敵対的サンプルを合成するためのメタ攻撃フレームワーク [cs.CV, cs.LG]目的:効果的かつ知覚的に整合性のある敵対的サンプルの生成
- 機械学習モデルの脆弱性を評価する上で,敵対的サンプルの生成は重要な研究課題である。
- 既存の敵対的サンプルは,知覚的な品質が低く,人間の視覚と一致しない場合が多い。
- Lpノルム制約下での攻撃手法の知見を活かし,知覚的な効果を高めることを目指す。
- DAASHは,複数のLpノルム制約に基づく攻撃手法を戦略的に組み合わせることで,効果的かつ知覚的に整合性のある敵対的サンプルを生成する。
- CIFAR-10,CIFAR-100,ImageNetにおいて,最新の知覚的攻撃手法(AdvAD等)を凌駕する攻撃成功率と視覚品質を達成した。
- DAASHは未知の防御に対しても優れた汎化性能を示し,新たな防御に対する評価の強力なベースラインとなる。
ROVR-Open-Dataset:自律運転のための大規模深度データセット [cs.CV]目的:自律運転における深度推定の性能向上
- 自動運転や無人システムの空間認識において,深度推定は不可欠な要素である。
- 既存のデータセットは多様性や規模に限界があり,性能向上の飽和が見られる。
- 現実世界の運転の複雑さを捉えるための,大規模で多様かつコスト効率の良いデータセットを提供する。
- ROVRは,北米,ヨーロッパ,アジアで収集された20万枚の高解像度画像を含む大規模データセットである。
- 軽量なデータ収集パイプラインにより,スケーラブルなデータ収集と,統計的に十分な正解データによるロバストなモデル学習が可能となる。
- 実験により,現在のアーキテクチャが持つフォトメトリック崩壊,幾何学的混乱,レンジ飽和という3つの明確な失敗モードが特定された。
拡大鏡:Vision Transformerにおける識別的特徴を増幅するためのプラグアンドプレイ型注意モジュール [cs.CV, cs.AI, cs.LG]目的:識別的特徴の増幅
- 画像認識において,詳細な視覚的分類は重要な課題である。識別能力向上が求められている。
- 既存手法では,広範な文脈に注目しがちで,タスクに関連する微細な領域への注力が不十分である。
- 本研究は,識別的な特徴を増幅することで,詳細な視覚的分類の精度向上を目指す。
- 提案手法The Loupeは,Vision Transformerに軽量な空間ゲーティングモジュールを組み込む。
- CUB-200-2011データセットにおいて,Swin-BaseとSwin-Tinyの性能をそれぞれ91.72%と88.61%に向上させた。
- 学習されたマスクは,しばしば識別的な鳥の部位と一致し,空間ゲーティングの有効性を示唆する。
FedKLPR:KLガイダンスによるプルーニング適応型連合学習による人物再識別 [cs.CV, cs.AI, cs.LG]目的:人物再識別における連合学習の軽量化と通信効率の向上
- 人物再識別は,知的監視や公共の安全確保において基盤技術である。
- クライアントデータの非IID性により,連合学習の実用化が課題となっている。
- データ分布の偏りに対処し,通信コストを削減する手法を提案する。
- 提案手法FedKLPRは,KLダイバージェンスに基づき統計的異質性を緩和し,収束性を向上させる。
- 非構造化プルーニングとPRAWを組み合わせることで,モデルの圧縮と重要度の評価を行い,効率的な集約を実現する。
- CRRにより,過度な圧縮を抑制し,精度を維持することで,通信コストを40-42%削減し,高い性能を達成する。
順序適応修正:ノイズラベルを持つ順序画像分類のためのデータ中心アプローチ [cs.RO, math.OC, cs.CV, cs.AI, cs.LG]目的:ノイズラベルの検出と修正
- 画像認識における教師あり学習では,ラベル付きデータが不可欠である。
- 順序画像分類では,クラス境界が曖昧で,ラベルノイズが発生しやすい。
- ラベル分布学習を用いて,ノイズラベルを動的に修正し,データ活用を最大化する。
- 提案手法ORDACおよびその拡張版は,様々なノイズシナリオ下でモデル性能を大幅に向上させた。
- Adienceデータセット(40%ノイズ)において,ORDAC_Rは平均絶対誤差を0.86から0.62に,リコールを0.37から0.49にそれぞれ低減した。
- 本研究は,ラベル分布を用いた適応的なラベル修正が,ノイズデータ下での順序分類モデルのロバスト性と精度を向上させる有効な戦略であることを示唆する。
RadGame:AIを活用した放射線科教育プラットフォーム [cs.CV, cs.AI]目的:放射線科教育のためのAI搭載型ゲームプラットフォーム
- 放射線科医の育成は医療の質に直結し,高度な専門知識と経験が求められる。
- 従来の教育方法は指導医の負担が大きく,学習機会の拡大と迅速なフィードバックが課題である。
- AIを活用し,学習者への即時的かつ大規模なフィードバック提供による教育効果の向上を目指す。
- RadGameの活用により,病変局在化の精度が従来の受動的学習法と比較して68%向上した。
- レポート作成精度の向上も認められ,従来の学習法と比較して31%の改善が見られた。
- AI駆動型ゲーム化は,放射線科教育におけるスケーラブルでフィードバックに富んだ学習環境を提供する可能性を示す。
MaskAttn-SDXL:制御可能な領域レベルのテキストから画像生成 [cs.HC, cs.CL, eess.SY, cs.SY, cs.CV, cs.LG]目的:テキストから画像生成における制御性の向上
- テキストから画像生成技術は急速に進歩しており,多様な応用が期待される分野である。
- 複雑なプロンプトや複数オブジェクトの生成において,モデルの信頼性や一貫性に課題がある。
- U-NetとTransformerの欠点を補い,オブジェクトの属性混合や空間関係の誤りを抑制する。
- MaskAttn-SDXLは,SDXLパイプラインに組み込むだけで利用可能であり,追加の学習データは不要である。
- 本手法は,クロスアテンション層に空間的ゲート機構を導入することで,不要な関係性を抑制し,生成画像の品質を向上させる。
- 計算コストを抑えつつ,生成画像のオブジェクト構成の一貫性を高めることができる。
CoUn:対照学習による機械的アンラーニングの強化 [cs.LG, cs.AI, cs.CV]目的:機械的アンラーニングの有効性向上
- プライバシー保護の重要性が増しており,データ削除要求への対応が不可欠である。
- 既存のアンラーニング手法は,効果が限定的であり,十分なデータ削除が困難である。
- 保持データのみを用いた再学習の原理に基づき,効果的なデータ削除を目指す。
- CoUnは,対照学習と教師あり学習を活用し,保持データの表現を調整することで,忘却データの表現を間接的に変更する。
- 実験の結果,CoUnは様々なデータセットとモデル構造において,最先端のアンラーニング手法よりも優れた性能を示すことが確認された。
- CoUnの対照学習モジュールを既存手法に統合することで,それらのアンラーニング有効性を高めることも可能である。
FUNCanon: 関数的オブジェクト正準化による姿勢認識型アクションプリミティブ学習による汎用的なロボット操作 [cs.IR, cs.RO, cs.AI, cs.CV]目的:汎用的なロボット操作のための姿勢認識型アクションプリミティブ学習
- ロボットの汎用的なスキル獲得は,複雑なタスクを効率的に実行するために不可欠である。
- 既存の手法では,特定のタスクに特化したポリシーとなり,汎化性能が低いという課題がある。
- 機能的オブジェクト正準化により,ロボットが物体と姿勢を考慮した操作を学習し,汎化性能を向上させる。
- 提案手法FunCanonは,長時間の操作タスクを,アクター,動詞,オブジェクトで定義されるアクションチャンクのシーケンスに変換する。
- 機能的オブジェクト正準化は,物体を共通の機能的フレームにマッピングし,アフォードンスからの手がかりを活用する。
- シミュレーションおよび実環境での実験により,カテゴリーレベルの汎化,タスク間の行動再利用,および堅牢なsim2real展開が実証された。
CoLLM-NAS:効率的な知識誘導型ニューラルアーキテクチャ探索のための協調的大規模言語モデル [cs.RO, math.OC, cs.AI, cs.CV, cs.LG]目的:ニューラルアーキテクチャ探索における知識誘導型探索
- 深層学習モデルの性能向上には,適切なニューラルアーキテクチャの設計が不可欠である。
- 従来のNAS手法は計算コストが高く,探索空間が広大であるという課題を抱えている。
- LLMを活用し,探索効率と性能を向上させることで,NASの課題を解決する。
- CoLLM-NASは,既存のNAS手法および従来の探索アルゴリズムを上回り,最先端の結果を達成した。
- ImageNetおよびNAS-Bench-201の実験により,CoLLM-NASが探索コストを4-10倍削減できることが示された。
- CoLLM-NASは,MobileNet,ShuffleNet,AutoFormerなど,様々な探索空間で優れた汎化性能を発揮した。
VA-Adapter:超音波基礎モデルを心エコー探触子誘導への適応 [cs.DC, cs.CV]目的:心エコー探触子誘導のための超音波基礎モデルの適応
- 心疾患の検出には心エコーが不可欠だが,熟練した検査者の不足が課題である。
- 個々の患者における画像特徴や3次元構造のばらつきが,正確な誘導を困難にしている。
- 超音波基礎モデルを活用し,患者固有の3次元構造理解能力を付与することで,高精度な誘導を目指す。
- VA-Adapterは,既存の探触子誘導モデルと比較して優れた性能を発揮する。
- VA-Adapterは,学習パラメータ数を大幅に削減しながら,高い誘導精度を達成した。
- VA-Adapterは,過去の視覚・行動系列から心臓解剖学的構造を推論することで,熟練者の認知プロセスを模倣する。
DocReward:文書構造化と様式化のための文書報酬モデル [cs.CV, cs.AI, cs.CL]目的:プロフェッショナルな文書生成における構造と様式の専門性を評価する報酬モデル
- 業務文書の可読性は重要であり,テキスト品質だけでなく構造と様式も影響する。
- 既存の生成モデルはテキスト品質に偏っており,構造と様式の専門性が不足している。
- 構造と様式の専門性を向上させる報酬モデルが求められている。
- DocRewardは,内容品質に依存しないフレームワークにより,構造と様式を評価する。
- 11.7万組の文書ペアから構成されるDocPairデータセットを利用し,モデルを訓練した。
- 評価実験の結果,DocRewardはGPT-5を14.6ポイント上回る性能を示した。
SSL4RL:視覚言語推論のための自己教師あり学習を内在的報酬として再検討 [cs.CV, cs.AI]目的:視覚言語モデルの性能向上
- 視覚言語モデルは,画像とテキストを統合し高い能力を示すが,視覚的証拠の活用が不十分な場合がある。
- 強化学習はモデルを目的の行動に適合できるが,視覚言語モデルへの応用は,報酬メカニズムの課題により困難であった。
- 自己教師あり学習を報酬として活用し,強化学習による視覚言語モデルの性能向上を目指す。
- SSL4RLは,自己教師あり学習タスクを強化学習の報酬として利用する新しいフレームワークである。
- 画像回転予測やマスクされたパッチの再構成といったSSLの目的を,人間のデータやAI評価者なしで報酬信号に変換する。
- 実験により,SSL4RLは視覚中心型および視覚言語推論ベンチマークにおいて性能が大幅に向上することが示された。
地形の中の針:ラベル不足下における半教師あり擬似ラベルを用いた考古遺跡発見 [cs.LG, cs.AI, cs.CV]目的:考古遺跡の発見可能性推定
- 遺跡は文化遺産であり,その発見は歴史理解や文化資源の保護に不可欠である。
- 遺跡は稀にしか存在せず,ラベル付けされたデータが極端に不足しているという課題がある。
- ラベル不足という課題に対し,半教師あり学習で遺跡発見の精度向上を目指す。
- 本研究では,デジタル標高モデルを用いた実験で,最先端手法LAMAPと同等の性能を達成した。
- 衛星画像を用いた実験では,交差検証により性能を維持しつつ,解釈性の高い予測地図を作成できた。
- 半教師あり学習は,広大でラベルの少ない地形において,未発見遺跡の特定に有効であることが示唆された。
SAM 2++:あらゆる粒度でのトラッキング [cs.CV]目的:多様な粒度でのターゲット状態に対応可能な統一的なトラッキングフレームワークの開発
- 多様なタスクが存在するトラッキング分野において,汎用性の高いモデルが求められている。
- 既存のトラッカーは特定のタスクに特化しており,マルチタスク学習データの活用が困難である。
- 異なる粒度を統一的に扱えるフレームワークを構築し,トラッキングの汎用性と効率性を高める。
- SAM 2++は,マスク,バウンディングボックス,点といった異なる粒度を統合的に処理できる。
- タスク固有のプロンプトと統一的なデコーダーにより,パイプライン全体を再設計することなくタスク結果を出力する。
- 多様な粒度でトラッキングを可能にする,豊富なアノテーションを持つ大規模データセットTracking-Any-Granularityを構築した。
SonarSweep:平面スイープによるソナーとビジョンの融合による堅牢な3D再構成 [cs.HC, cs.RO, cs.AI, cs.CV]目的:水中環境における3D再構成の精度向上
- 水中環境でのロボットや自律システムの応用拡大には,正確な3D環境認識が不可欠である。
- 視界不良や幾何学的制約により,単一のモダリティでは十分な再構成が困難である。
- ソナーとビジョンの情報を統合し,既存手法の課題であるアーチファクトの低減と複雑なシーンのモデリングを目指す。
- SonarSweepは,ソナーとビジョンのデータを融合するための深層学習フレームワークであり,平面スイープアルゴリズムを適用することで精度の高い深度マップを生成する。
- シミュレーションと実環境の両方での実験において,SonarSweepは既存手法を上回り,特に濁度の高い環境下で優れた性能を示す。
- コードと,ステレオカメラとソナーの同期データを含む新しいデータセットを公開し,さらなる研究を促進する。
高度な大規模言語モデル解析のためのフラクタルに着想を得た計算アーキテクチャの準備 [cs.LG, cs.CV]目的:フラクタル設計原理に基づくCNNアーキテクチャの自動生成と評価
- 深層学習モデルの性能向上には,最適なネットワーク構造の探索が不可欠である。
- 従来のNAS手法は計算コストが高く,効率的な探索が課題であった。
- フラクタル構造を利用することで,効率的かつ安定した学習が期待できる。
- 提案手法FractalNetは,フラクタルテンプレートを用いて多様なCNNアーキテクチャを自動生成した。
- CIFAR-10データセットにおいて,生成されたアーキテクチャは平均して60-70%の検証精度を達成した。
- 特に,わずか5エポックで80.18%のピーク精度を記録し,フラクタル構造の有効性を示した。
生成画像事前学習の再考:次のピクセル予測のスケーリングはどこまで進んでいるか [cs.CV, cs.LG]目的:自己回帰的次のピクセル予測のスケーリング特性
- 画像認識や生成AIの性能向上には,大規模な事前学習が不可欠である。
- 既存の画像事前学習は,計算資源とデータ量の最適なバランスが不明である。
- 計算資源の制約下で,画像生成と画像分類の最適なスケーリング戦略を解明する。
- 32x32の固定解像度では,画像分類と画像生成で最適なスケーリングが異なることが示された。
- 画像生成には,画像分類よりも3~5倍速くデータ量を増加させる必要がある。
- 解像度が高まるにつれて,モデルサイズはデータサイズよりも大幅に速く成長する必要がある。
表現と学習パラダイムの変化下における分布外検出の体系的分析 [cs.LG, cs.CV]目的:分布外検出における主要因の体系的な評価
- 機械学習モデルの信頼性向上は重要であり,未知のデータへの対応能力が不可欠である。
- 分布外検出は,モデルが未知のデータに遭遇した際に誤った予測を回避するための課題である。
- 学習された表現とスコア設計が検出性能に与える影響を明確にすることを目指す。
- 検出器の性能は,スコア設計よりも学習された表現に依存する傾向が明らかになった。
- CNNでは周辺の分布外検出でマージンベースのスコアが優位,シフトが大きくなるほど幾何学的なスコアが競争的になる。
- ファインチューニングされたViTでは,再構成ベースおよび残差ベースのスコアが上位にランクインする。
ストリーミングトーカ―:自己回帰拡散モデルによる音声駆動3D顔面アニメーション [cs.CV]目的:音声駆動3D顔面アニメーションの実現
- リアルタイムなコミュニケーションにおいて,自然な顔面表現は不可欠である。
- 既存手法は長い音声入力に対し,遅延や処理能力の問題を抱えている。
- 音声の長さに依存せず低遅延で高品質なアニメーション生成を目指す。
- 提案手法は,入力をストリーミング形式で処理する自己回帰拡散モデルを用いる。
- 過去のフレームを動的な条件として活用し,リアルタイム合成を可能にした。
- 実験結果から,提案手法が柔軟性と効率性において優れていることが示された。
スパースオートエンコーダはトピックモデルである [cs.CV, cs.LG]目的:スパースオートエンコーダのトピックモデルとしての解釈
- 埋め込み表現の分析において,オートエンコーダの役割と実用性が問われている。
- オートエンコーダの特徴が,制御可能な方向性を持つと捉えられている点が課題である。
- オートエンコーダをトピックモデルとして捉え,テーマ分析への応用を目指す。
- スパースオートエンコーダの目的関数が,連続トピックモデルにおける事後確率最大化推定に対応することを示した。
- SAE-TMというトピックモデルフレームワークを開発し,テキストおよび画像データセットで高いコヒーレンスと多様性を持つトピックを生成できることを確認した。
- 画像データセットにおけるテーマ構造の分析や,浮世絵におけるトピックの変化を追跡するなど,大規模テーマ分析への有効性を示唆した。
位置合わせ不要深度超解像のための多次のマッチングネットワーク [cs.CV]目的:位置合わせ不要な深度超解像フレームワークの開発
- 深度情報は,自動運転やロボット工学など幅広い分野で不可欠であり,高精度な深度復元が求められている。
- 従来の深度超解像手法は,RGB画像と深度情報の厳密な位置合わせを前提としており,現実世界での応用が困難であった。
- RGB画像と深度情報のずれがあっても,効果的に特徴を抽出・統合し,高精度な深度超解像を実現することを目指す。
- 提案手法MOMNetは,RGB画像と深度情報の多次のマッチング機構により,位置ずれに対するロバスト性を実現した。
- 多次の特徴空間における一致するRGB情報を適応的に検索・選択し,深度情報の補完に活用する。
- 実験結果から,MOMNetは位置ずれのあるデータセットおよび位置合わせ済みのデータセットの両方において,優れた性能を示すことが確認された。
変形可能な画像登録のための潜在表現レベル方策最適化:MorphSeek [cs.CV]目的:変形可能な画像登録における潜在表現レベルの最適化
- 医療画像解析において,画像の変形を正確に捉えることは,疾患の診断や治療計画において不可欠である。
- 高次元の変形空間とボクセルレベルの教師データの不足が,変形可能な画像登録の課題となっている。
- 潜在空間での効率的な探索と粗い段階から細かい段階への洗練を通じて,高精度な変形を学習することを目指す。
- MorphSeekは,3つの3D登録ベンチマーク(OASIS脳MRI,LiTS肝臓CT,Abdomen MR-CT)において,競争力のあるベースラインと比較して,一貫したDiceスコアの改善を達成した。
- 本手法は,パラメータコストを最小限に抑え,ステップレベルの遅延オーバーヘッドを低く保ちながら,高いラベル効率を維持した。
- MorphSeekは,高次元設定におけるスケーラブルな視覚的アラインメントのための,原理に基づいたバックボーン非依存かつオプティマイザ非依存なソリューションを提供する。
MotionDuet:ビデオによる正則化テキスト学習を用いた二重条件付き3Dヒューマンモーション生成 [cs.GR]目的:3Dヒューマンモーション生成のためのマルチモーダルフレームワーク
- 映画,アニメーション,ゲーム,具現化された知能など,様々な分野で3Dヒューマンモーション生成が不可欠である。
- 既存手法では,高レベルなテキスト記述からモーションを生成するか,ビデオのみで条件付けを行うため,生成ダイナミクスと現実世界のモーション統計との間にギャップがある。
- ビデオ由来の表現分布との整合性を図り,より現実的で制御可能なヒューマンモーション生成を目指す。
- MotionDuetは,ビデオからの情報をモーション生成に活用することで,現実世界のモーション統計に即した,より自然な動きを実現する。
- Dual-stream Unified Encoding and Transformation (DUET) と Distribution-Aware Structural Harmonization (DASH) loss を用いることで,異なるモダリティ間のギャップを埋めている。
- オートガイダンス機構により,テキストと視覚的シグナルのバランスを調整し,制御性を高めつつ多様性を維持している。
PartDiffuser: 離散拡散によるパーツごとの3Dメッシュ生成 [cs.CV]目的:アーティストがデザインしたメッシュ生成におけるグローバル構造の一貫性とローカル詳細の忠実度とのバランス
- 3Dコンテンツ制作において,高品質なメッシュ生成は重要な課題である。現実世界の形状を正確に再現するためには不可欠。
- 既存の自己回帰型手法では,エラーの蓄積や,全体構造と詳細な局所表現のバランスが課題となっていた。
- パーツごとに処理することで,グローバルなトポロジーを維持しつつ,高周波な幾何学的特徴を高精度に再構築すること。
- 提案手法PartDiffuserは,既存の最先端モデルと比較して,詳細な3Dメッシュ生成において大幅な性能向上を示した。
- パーツごとの処理と,点群を用いた階層的な幾何学的条件付けにより,グローバルとローカルの生成タスクを効果的に分離している。
- 生成されたメッシュは,豊富なディテールを持ち,現実世界での応用に適していることが確認された。
SteadyDancer:初回フレーム保持と調和のとれた人間画像アニメーション [cs.CV]目的:人間画像アニメーションにおける調和と一貫性,および初回フレームの保持
- 人間画像のアニメーション技術は,エンターテインメントやコミュニケーションの分野で重要性が増している。
- 既存手法では,参照画像と動画のずれにより,外観の変化や不自然な動きが生じやすい。
- 初回フレームの同一性を維持しつつ,正確な動作制御を実現する手法の開発。
- SteadyDancerは,参照画像と動画の条件の不一致を解消するCondition-Reconciliation Mechanismを提案した。
- Synergistic Pose Modulation Modulesにより,参照画像との互換性の高い姿勢表現を生成し,自然な動きを実現した。
- 提案手法は,外観の忠実性と動作制御において最先端の性能を達成し,学習に必要なリソースも削減した。
教師なし核インスタンスセグメンテーション:プロトタイプ誘導プロンプティング [cs.CV]目的:核インスタンスセグメンテーションの実現
- 病理学におけるデータ駆動型臨床洞察と,その後の応用を支える重要な技術である。
- 既存手法は,大量の教師データや計算コストのかかるファインチューニングに依存している。
- 教師データや再学習を必要としない,スケーラブルな核インスタンスセグメンテーションを目指す。
- SPROUTは,組織学的知識に基づいた参照プロトタイプを用いてドメインギャップを軽減する。
- 部分最適輸送スキームを通じて特徴量のアライメントを徐々に誘導し,SAMによる正確な核の輪郭抽出を可能にする。
- 複数の病理組織学的ベンチマークで,教師なし・再学習なしで競争力のある性能を達成した。
Lotus-2:強力な画像生成モデルによる幾何学的密な予測の高度化 [cs.CV]目的:単一画像からのピクセル単位の幾何学的特性の復元
- 画像認識における3次元構造理解は,ロボティクスや拡張現実など,多様な応用分野において不可欠である。
- 2次元画像から3次元構造を推定する問題は本質的に解が定まらず,データの量や質に限界がある。
- 大規模な事前学習済み生成モデルの持つ知識を活用し,安定かつ高精度な幾何学的予測を実現する。
- Lotus-2は,拡散モデルを決定論的な世界事前知識として活用する,2段階の決定論的フレームワークである。
- 最初の段階で全体的な構造を生成し,次の段階でノイズを含まない決定論的なフローマッチングにより詳細を洗練する。
- わずか59Kの訓練サンプルで,単眼深度推定と表面法線予測において最先端の結果を達成した。
幾何構造を考慮したオーディオ符号化のための二次元量子化 [cs.SD, cs.AI, cs.IT, cs.LG, eess.SP, math.IT]目的:幾何構造を考慮したオーディオ符号化における二次元量子化方式
- 近年,高品質な音声再構成が可能になり,効率的な音声データ処理が求められている。
- 従来の量子化手法では,潜在空間の幾何構造が制限され,特徴量間の相関を捉えにくいという課題がある。
- 特徴量ペアを二次元グリッドに投影・量子化することで,表現学習やコードブック利用効率の向上を目指す。
- 提案手法Q2D2は,既存の量子化手法と同程度のコードブックサイズで,高い音声圧縮効率を実現した。
- Q2D2は,客観評価・主観評価ともに,最先端モデルと比較して競争力のある,あるいはそれ以上の性能を示した。
- 詳細な消去実験により,本研究のデザインの有効性が確認された。
PhyDetEx:T2Vモデルの物理的妥当性の検出と説明 [cs.CV]目的:T2Vモデルの物理的妥当性を検出・説明する手法の開発
- 近年,テキストから動画を生成するモデルが進化しているが,物理法則の理解は未知数である。
- 既存の画像言語モデルは,生成された動画の物理的に不可能な内容を識別するのが困難である。
- T2Vモデルが生成した動画の物理的妥当性を評価し,違反する物理法則を説明することを目指す。
- 物理的妥当性検出用のデータセットPIDを構築し,画像言語モデルをファインチューニングする手法を提案した。
- ファインチューニングされたモデルPhyDetExは,物理的にありえないイベントを検出し,その根拠を説明できる。
- 最先端のT2Vモデルを評価した結果,物理法則への理解は依然として課題であることが示された。
ニューラルネットワークからアルゴリズムロジックを抽出する検索拡張生成アプローチ [cs.CV, cs.SE]目的:ニューラルネットワークのアルゴリズムロジックの抽出
- 既存のニューラルネットワークコンポーネントの再利用は研究効率に不可欠である。
- オープンソースリポジトリからそのようなモジュールを発見,抽出,検証することが困難である。
- NN-RAGは,大規模で多様なPyTorchコードベースから検証済みのニューラルモジュールの検索可能なライブラリを構築する。
- NN-RAGは,19の主要リポジトリから1,289個の候補ブロックを抽出し,941個(73.0%)を検証した。
- 検証されたモジュールの80%以上が構造的にユニークであることが示された。
- NN-RAGはLEMURデータセットに72%の新規ネットワーク構造を提供し,アーキテクチャパターンのリポジトリ間での移行を可能にした。
二重レベルのエビデンス収集によるオープンセット顔偽造検出 [cs.CV]目的:オープンセット顔偽造検出における新規偽造カテゴリの識別
- オンラインコンテンツの信頼性確保が重要であり,顔偽造技術の発展はそれを脅かす。
- 既存手法は二値分類や既知の偽造カテゴリの認識に偏り,未知の偽造手法への対応が課題。
- 新規偽造カテゴリの出現を検出し,現実世界での応用可能性を高めることを目指す。
- 提案手法DLEDは,空間レベルと周波数レベルでカテゴリ固有のエビデンスを抽出し統合することで,予測の不確実性を推定する。
- 多様な設定での実験により,DLEDが最先端の性能を達成することが示された。
- 特に,新規偽造カテゴリの識別において,既存のベースラインモデルを平均20%上回る性能を示した。
微分可能な疎なカーネル複体による効率的な空間可変畳み込み [cs.GR, cs.CV]目的:空間可変で複雑なカーネルの効率的な畳み込み手法
- 画像処理やコンピュータグラフィックスにおける基礎演算であり,高性能な処理が求められる。
- 計算資源に制約のある環境では,直接的な高密度畳み込みは計算コストが高すぎるという課題がある。
- 疎なカーネルを用いた微分可能な分解により,効率と精度の両立を目指す。
- 提案手法は,焼きなまし法よりも高い精度,低ランク分解よりも低いコストを実現した。
- 非凸形状のカーネルに対しても,適切な初期化戦略により良好な最適解を得られる。
- カーネル空間での補間により,再学習やランタイムオーバーヘッドなしで空間可変フィルタリングが可能である。
心電図ファウンデーションモデルの微調整による冠動脈CTアンギオグラフィー検査結果の予測 [cs.CV, cs.AI]目的:冠動脈CTアンギオグラフィー検査結果の予測
- 虚血性心疾患は世界的な健康問題であり,効率的なスクリーニング法の開発が求められている。
- 冠動脈CTアンギオグラフィー検査は有用だが,資源と放射線被曝のリスクがある。
- 心電図AIモデルを用いて,虚血性心疾患のリスク層別化を補完し,効率的な検査選択を可能にする。
- 本研究で開発したAI-ECGモデルは,血管ごとに0.683〜0.744のAUC値を達成し,外部検証においても一貫した性能を示した。
- モデル予測確率は,CCTAで定義された狭窄の重症度と単調に増加し,リスク層別化に利用可能であることが示された。
- AIによるリスク層別化をガイドラインに基づくPTPカテゴリーと統合することで,検査除外性能が向上し,予後不良イベントのリスクが明確に分離された。
