arXiv雑要約

画像・音声 - 2026/03/12 公開

効率的な自己回帰型画像生成のための局所性を考慮した並列デコーディング [cs.CY, cs.HC, cs.CV, cs.AI]目的：自己回帰型画像生成の高速化
- 画像生成は，AI技術の発展により，その重要性が増している。
- 従来の自己回帰型画像生成は逐次処理であり，処理速度が課題となっていた。
- 並列化による高速化と生成品質の両立を目指す。
- 提案手法により，生成ステップ数を大幅に削減することに成功した。
- ImageNetクラス条件付き生成において，生成品質を維持しつつ，既存手法よりも大幅に低遅延を実現した。
- 局所性を考慮した生成順序により，グループ内依存性を最小限に抑え，生成品質を向上させた。
Link: https://arxiv.org/abs/2507.01957
視覚認識における解釈可能性に関する調査 [cs.CV]目的：視覚認識における解釈可能性の体系的な調査
- 近年，視覚認識モデルの性能は飛躍的に向上し，社会実装が拡大しているため。
- 特に安全性が重要となる分野では，モデルの判断根拠の説明が不可欠である。
- 視覚認識モデルの解釈可能性向上に向けた研究動向を把握し，今後の方向性を示す。
- 本調査では，人間の視点に基づいた多次元的な分類体系を確立した。
- 解釈可能性評価の基準や指標をまとめ，各カテゴリーの定性的・定量的な評価を行った。
- マルチモーダル大規模言語モデルの解釈可能性や応用例，今後の展望について議論した。
Link: https://arxiv.org/abs/2507.11099
コンテンツを意識したMambaによる学習画像圧縮 [cs.CV]目的：学習画像圧縮における性能向上
- 画像圧縮はデータ量を削減し，効率的な画像伝送・保存に不可欠である。
- 既存のMambaモデルは，コンテンツに依存しない固定的な走査方法に制限されている。
- コンテンツ間の相関を考慮した動的な処理により，冗長性の削減を目指す。
- 提案手法であるContent-Aware Mamba (CAM) は，画像コンテンツに応じて処理を動的に適応させる。
- CAMは，コンテンツ類似トークン間の相互作用を優先するコンテンツ適応型トークン置換戦略を採用する。
- CMICはKodak，Tecnick，CLICデータセットにおいて，VTM-21.0をそれぞれ15.91%，21.34%，17.58%上回るBDレートを達成した。
Link: https://arxiv.org/abs/2508.02192
音声からLaTeXへ：数式と文の変換のための新しいモデルとデータセット [cs.CV]目的：音声数式および文のLaTeXへの変換
- 教育や研究分野において，講義の文字起こしやノート作成への応用が期待される分野である。
- 音声数式の変換は曖昧性を含むため難易度が高く，既存研究ではデータセットや多言語対応が不十分であった。
- 大規模なデータセットと新たなモデルにより，より高精度な音声数式LaTeX変換を目指す。
- 本研究では，英語とロシア語の66,000件以上の音声データセットを公開し，音声言語モデルの適用により，MathSpeechベンチマークで高い性能を示した。
- 提案するS2L-equationsベンチマークでは，既存のMathSpeechモデルを36ポイント以上上回り，LaTeXフォーマットのアーティファクトを考慮しても高い性能を維持した。
- 数学的な文の認識における新たなベンチマークを確立し，40%の数式CERを達成した。これにより，マルチモーダルAI研究の基盤を築く。
Link: https://arxiv.org/abs/2508.03542
エージェントは相手が何を望んでいると思うか？他者の目的の推定のためのレベル2逆ゲーム [cs.GT, cs.MA]目的：エージェント間の戦略的相互作用の解釈
- 複数エージェント間の戦略的相互作用を理解する上で不可欠な研究分野である。
- 既存の手法は，エージェントが互いの目的を完全に理解していると仮定しており，現実世界での状況を捉えきれていない。
- エージェントが互いの目的をどのように推定しているかを推論するフレームワークを提案し，精度向上を目指す。
- 本研究では，エージェントが互いの目的に関して異なる推定を持っている必要性を示す。
- レベル2推論の非凸性を理論的に証明し，効率的な勾配ベース手法を開発した。
- 都市走行のシミュレーション実験において，レベル1の手法では見逃す微妙な誤 alignment を検出することに成功した。
Link: https://arxiv.org/abs/2508.03824
DSER：効率的な光場深度推定のためのスペクトルエピポーラ表現 [cs.CV]目的：光場深度推定の精度と効率の改善
- 光場画像は臨場感の高い映像表現を可能にするが，深度推定は計算コストが高い。
- 光場データは角度サンプリングの粗さ，オクルージョン，テクスチャの少なさにより深度推定が困難である。
- スペクトルエピポーラ表現を用いて，光場深度推定の精度と効率を向上させる。
- DSERは，エピポーラ領域におけるスペクトル正則化を導入し，高精度な深度マップを生成する。
- 従来の古典的な手法やハイブリッド手法と比較して，構造的に整合性の高い深度マップを効率的に生成できる。
- スペクトルエピポーラ正則化が，スケーラブルでノイズに強い光場深度推定のための有効な誘導バイアスであることが示された。
Link: https://arxiv.org/abs/2508.08900
ピクセルモーション拡散がロボット制御に必要なものである [cs.RO, cs.CV]目的：言語条件付きロボット操作のための統一された拡散ベースのフレームワーク
- ロボット制御は，人間のような柔軟な行動を実現するため，重要な研究分野である。
- シミュレーションと現実世界のギャップが大きく，実世界での応用が困難である。
- 拡散モデルとモーション中心表現を組み合わせ，スケーラブルでロバストなロボット学習を目指す。
- DAWNは，高度なモーション意図と低レベルのロボットアクションをピクセルモーション表現で結びつける。
- CALVINベンチマークにおいて，最先端の結果を達成し，マルチタスク性能の高さを示した。
- 限られた実世界のデータでも，わずかなファインチューニングで現実世界への信頼性の高い転移を実現した。
Link: https://arxiv.org/abs/2509.22652
マルチモーダルデータスペクトル：マルチモーダルデータセットは多次元である [cs.CV, cs.CL, cs.LG]目的：マルチモーダル学習における，モダリティ内依存性とモダリティ間依存性の相互作用の定量化
- マルチモーダル学習の発展には，各モダリティの貢献度と，それらの関係性を理解することが不可欠である。
- 既存のベンチマーク評価では，これらの依存性の性質と相互作用が十分に解明されていない。
- マルチモーダルデータセットの特性を定量的に把握し，ベンチマーク設計と評価を改善すること。
- 視覚的質問応答ベンチマーク23個における大規模な実験により，各モダリティへの依存度が大幅に異なることが明らかになった。
- テキストのみのバイアスを軽減する意図を持つベンチマークが，意図せず画像のみへの依存性を高めている事例が発見された。
- モデルサイズや種類に関わらず，モダリティ間の相互作用よりも，各モダリティを独立して利用する傾向が見られた。
Link: https://arxiv.org/abs/2509.23499
離散的な唇のセマンティクスとマルチスケールグローバル-ローカル注意を用いた効率的な音声視覚分離 [cs.SD, cs.CV]目的：効率的な音声視覚分離手法の開発
- 騒音環境下での音声分離は，音声認識やコミュニケーションにおいて重要な役割を果たす。
- 既存手法はパラメータ数が多く，計算コストが高いため，組み込み用途などへの適用が困難である。
- 軽量でありながら高性能な音声視覚分離手法を開発し，実用的なシステムへの応用を目指す。
- 提案手法 Dolphin は，既存の最先端モデルを上回る分離品質を達成した。
- Dolphin は，パラメータ数を50%以上削減し，MACs を 2.4 倍以上，GPU 推論速度を 6 倍以上向上させた。
- これらの結果から，Dolphin は現実世界での高性能 AVSS に適した実用的かつデプロイ可能なソリューションであると言える。
Link: https://arxiv.org/abs/2509.23610
PD-Diag-Net：パーキンソン病の補助診断のための脳MRIに基づく臨床的先験知識を活用したネットワーク [cs.CV]目的：パーキンソン病の補助診断手法
- パーキンソン病は患者の生活の質を著しく低下させる神経変性疾患であり，罹患率が増加傾向にある。
- 現在の診断は専門医の知識に依存しやすく，早期発見の遅れや機会損失が生じやすい。
- 脳MRI画像から直接パーキンソン病のリスク評価と補助診断を自動化し，診断の遅延を改善する。
- PD-Diag-Netは，外部テストデータで86％の精度，初期段階診断で96％以上の精度を達成した。
- 既存の高度な手法と比較して，20％以上の性能向上を示した。
- 脳領域の関連性や加齢に関する先験知識を活用することで，診断精度と解釈可能性を高めた。
Link: https://arxiv.org/abs/2509.23719
空間と運動の認識：視覚言語行動モデルにおける潜在的行動の強化 - 幾何学的・動的認識の導入 [cs.CV]目的：潜在的行動モデルの性能向上
- ロボット工学やコンピュータビジョンの分野において，人間のような知能を持つ具現化された知能の開発は重要である。
- 既存の潜在的行動モデルは，空間理解の不足や時間的な距離による脆弱性といった課題を抱えている。
- 幾何学的・動的な認識を導入し，時間的な一貫性を高めることで，モデルの頑健性と汎化性能を向上させる。
- 提案手法Farsighted-LAMは，幾何学的な空間エンコーディングと多段階の時間モデリングにより，構造的な事前知識と動的な運動パターンを捉える。
- SSM-VLAは，Farsighted-LAMを基盤とし，視覚的なChain-of-Thoughtモジュールを統合することで，環境力学に関する明示的な推論を可能にする。
- シミュレーションと現実世界の双方におけるVLAタスクで最先端の性能を達成し，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2509.26251
オープンボキャブラリイベントベース物体検出のための，ビジョン言語知識蒸留による適応的なイベントストリームスライシング [eess.SY, cs.SY, cs.CV]目的：オープンボキャブラリイベントベース物体検出の実現
- イベントカメラは高速応答性を持つため，物体検出において重要性が増している。
- 既存のイベントベース検出手法は，事前に定義されたカテゴリに限定される。
- イベントデータにおけるオープンボキャブラリ物体検出を可能にすること。
- CLIPのセマンティック理解を活用し，イベントデータに対する知識蒸留フレームワークを提案。
- 空間注意機構に基づく蒸留により，イベントデータから直接有用な特徴を学習。
- スパイクニューラルネットワークと畳み込みニューラルネットワークのハイブリッド構造により，イベントデータの情報損失を抑制。
Link: https://arxiv.org/abs/2510.00681
等変的分裂：不完全データからの自己教師あり学習 [cs.CV]目的：不完全データからの再構成ネットワークの学習
- 逆問題の解決において，教師データ取得が困難な場合でも学習を可能とする手段として重要。
- 不完全な観測モデル下では，再構成の質が低下し，偏りのある推定結果となる課題がある。
- 等変性に基づく損失関数とネットワーク構造により，偏りのない再構成を目指す。
- 提案手法は，画像補完，高速磁気共鳴イメージング，低解像度CT，圧縮センシングにおいて最先端の性能を達成した。
- 自己教師あり分裂損失と等変再構成ネットワークの組み合わせにより，教師あり損失のバイアスを低減できる。
- 高度にランク不足な前方モデルにおいても，高い再構成性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.00929
MonitorVLM：鉱山作業における安全違反検出のためのビジョン言語フレームワーク [cs.CE, cs.CV, cs.AI]目的：鉱山作業における安全違反の自動検出
- 鉱山は危険な環境であり，労働者の安全確保が重要である。
- 従来の安全点検は手間がかかり，大規模環境での監視には限界がある。
- 本研究は，映像から安全違反を自動的に検出し，労働安全衛生の向上を目指す。
- MonitorVLMは，40の鉱山規制に関する9,000件のVQAデータセットを構築した。
- 句フィルタリングモジュールにより，推論速度を13.56%向上させつつ，精度を維持した。
- 行動拡大モジュールにより，精度が3.45%，再現率が8.62%向上した。
Link: https://arxiv.org/abs/2510.03666
SDGraph：疎・密グラフ構造による多層スケッチ表現学習 [cs.CL, cs.RO, cs.CL, cs.GR]目的：効果的なスケッチ情報を捉えた多層スケッチ表現の学習
- 自由描画スケッチは，画像とは異なる特性を持つため，専用の学習手法が求められている。
- 既存手法は，スケッチにおける「効果的な情報」の定義が不明確で，性能が制約されている。
- スケッチレベル，ストロークレベル，点レベルの多層的な表現を学習し，有効な情報を捉える。
- 提案手法SDGraphは，疎グラフと密グラフの組み合わせにより，多層スケッチ表現を効率的に学習する。
- 分類タスクと検索タスクにおいて，最先端手法と比較してそれぞれ1.15%，2.30%の精度向上を達成した。
- ベクトル化されたスケッチ生成の品質も32.93%向上し，高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.12192
InstantSfM：深層学習時代のGPUネイティブSfMへ [cs.CV]目的：深層学習パイプラインとのシームレスな統合を目指した，GPUベースのグローバルSfMシステム
- 3D再構成やニューラルシーン表現など，多様な応用において不可欠な技術である。
- 既存のSfMシステムはCPU中心であり，大規模シーンでのスケーラビリティが課題となっていた。
- 最適化フレームワーク内でスケール曖昧性を解消し，数値的安定性を向上させる。
- InstantSfMは，多様なデータセットにおいて最先端の効率性を実現した。
- 大規模シーンにおいて，確立された古典的なパイプラインや最近の学習ベースの手法と比較して同等の再構成精度を維持している。
- 大規模シーンにおいて，COLMAPと比較して約40倍の高速化を達成した。
Link: https://arxiv.org/abs/2510.13310
幾何学的潜在レンダリングと補完によるマルチビューカスタマイズ拡散 [cs.CV, cs.AI]目的：マルチビューカメラポーズ制御とカスタマイズの同時実現
- 生成モデルの制御可能性向上のためには，カメラ制御とプロンプトによるカスタマイズが不可欠である。
- 既存モデルは幾何学的整合性を保ったカスタマイズが難しく，または明示的な視点制御が欠けている。
- マルチビューの一貫性とカスタマイズの忠実度を両立する新たなフレームワークを提案し，その課題を解決する。
- MVCustomは，被写体の形状と特徴を学習し，時間的な一貫性を活用してマルチビューの一貫性を高める。
- 深度を考慮した特徴量レンダリングと一貫性に基づいた潜在的補完により，幾何学的整合性と視点の正確な整合を強化する。
- 実験により，MVCustomがマルチビューの一貫性とカスタマイズの忠実度において，最もバランスの取れた性能を示すことが示された。
Link: https://arxiv.org/abs/2510.13702
階層型ローカル注意による超高解像度画像生成：UltraGen [eess.SY, cs.SY, cs.CV]目的：超高解像度画像の効率的な生成手法
- 高精細なテクスチャや全体構造の再現が求められる応用において，超高解像度画像生成の重要性が増している。
- 既存の拡散モデルは，注意機構の計算複雑性や高解像度学習データの不足により，2MP以下の解像度にとどまっている。
- 効率的かつ大規模な超高解像度画像生成を可能にし，計算資源の制約を克服することを目指す。
- 提案手法UltraGenは，階層型ローカル注意と低解像度グローバルガイダンスを導入することで，計算効率と生成品質を両立している。
- 高解像度潜在空間を固定サイズローカルウィンドウに分割し，注意機構の計算量を大幅に削減するとともに，グローバルな意味情報を注入する。
- 事前学習済みのモデルを8Kを超える解像度まで拡張し，10倍以上の高速化とメモリ使用量の削減を実現した。
Link: https://arxiv.org/abs/2510.16325
REALM：ガウススプラッティング上の3D推論セグメンテーションと編集のためのMLLMエージェントフレームワーク [cs.CV]目的：複雑な指示と3Dオブジェクトの正確な位置づけの間のギャップを埋めること
- 画像やロボティクス分野において，人間のような複雑な指示を理解することが重要である。
- 既存の3Dセグメンテーション手法は，曖昧な指示の解釈に苦戦している。
- 3D空間理解を伴う指示に基づいたセグメンテーションを可能にすること。
- REALMは，大規模な3D固有の追加学習なしで，オープンワールドの推論ベースセグメンテーションを実現する。
- ガウススプラッティング表現上でセグメンテーションを実行し，高品質なレンダリングによりMLLMの理解を促進する。
- 独自のGlobal-to-Local Spatial Grounding戦略により，視点選択への感度を軽減し，正確な3Dマスクを得る。
Link: https://arxiv.org/abs/2510.16410
ニューラル音声コーデックの潜在空間における音声強調モデリング戦略 [cs.IR, cs.SD, eess.AS]目的：ニューラル音声コーデックの潜在表現を利用した音声強調のモデリング
- 音声処理技術は，通信，医療，エンターテイメントなど，幅広い分野で重要である。
- 騒音環境下での音声品質劣化は，音声認識やコミュニケーションの妨げとなる課題である。
- ニューラル音声コーデックの潜在空間を利用し，効率的な音声強調手法の開発を目指す。
- 連続潜在表現による予測は，離散トークン予測よりも一貫して高い性能を示すことが判明した。
- 自己回帰モデルは高品質だが，明瞭度と効率の面で非自己回帰モデルが実用的である。
- エンコーダのファインチューニングを追加することで，全体的な強調性能が向上する。
Link: https://arxiv.org/abs/2510.26299
地域エネルギー市場における選好表明の簡素化：組み合わせ時計オークション [eess.SY, cs.GT, cs.SY]目的：地域エネルギー市場における複雑な選好表明の簡素化
- 分散型エネルギー資源の増加により，新たな市場プラットフォームの必要性が高まっている。
- プロシューマーは複雑な選好を持ち，認知・計算資源が限られているため，市場への参加が困難である。
- 直感的で分かりやすい形式での選好表明を可能にし，市場への参加を促進すること。
- 組み合わせ時計オークションと機械学習を融合することで，プロシューマーは製品の価格予測や複雑な入札形式を必要とせずに選好を表明できる。
- 機械学習による価格発見プロセスが収束を加速させ，線形価格設定ルールが透明性と解釈可能性を高める。
- 数値シミュレーションにより，約15回の時計反復で清算価格への収束が確認された。
Link: https://arxiv.org/abs/2510.27306
DeepEyesV2：自律的マルチモーダルモデルへ [cs.CV, cs.AI]目的：マルチモーダルモデルにおける，外部ツールを活用した推論能力の向上
- 画像とテキストを理解するだけでなく，外部ツールを活用するAIの重要性が高まっている。
- 単純な強化学習では，ツール利用のパターンを確立することが難しい。
- ツール利用のパターンを確立し，文脈に応じた最適なツール選択を可能にすること。
- DeepEyesV2は，データ構築，学習方法，モデル評価の観点から，自律的マルチモーダルモデルを構築した。
- RealX-Benchという，現実世界でのマルチモーダル推論を評価するためのベンチマークを新たに提案した。
- DeepEyesV2は，現実理解，数学的推論，検索を必要とするタスクにおいて高い有効性を示した。
Link: https://arxiv.org/abs/2511.05271
D-GAP：周波数空間とピクセル空間におけるデータセット非依存かつ勾配誘導による拡張を通して，領域外ロバスト性を向上 [cs.CV, cs.AI]目的：領域外ロバスト性の向上
- 現実世界のコンピュータビジョン応用において，ロバスト性は不可欠である。背景，スタイル，取得機器の変化に対応する必要がある。
- 汎用的なデータ拡張は一貫した効果を示さず，データセット固有の拡張は専門知識を要する。
- 周波数成分への学習バイアスを軽減し，領域外性能の低下を防ぐことを目指す。
- D-GAPは，周波数空間とピクセル空間の両方で標的を絞った拡張を導入することで，領域外ロバスト性を向上させる。
- タスク勾配から周波数空間の感度マップを計算し，異なる周波数成分に対する深層モデルの反応の強さを反映し，適応的に振幅を補間する。
- 現実世界のデータセットで平均OOD性能が+5.3%，ベンチマークデータセットで+1.9%向上した。
Link: https://arxiv.org/abs/2511.11286
音声圧縮コーデックの評価 [cs.SD]目的：音声圧縮コーデックの知覚的品質評価
- デジタル化が進む現代において，音声データの効率的な保存と伝送は重要である。
- 従来の評価は圧縮率に偏っており，音の知覚的品質の評価が不十分であった。
- 知覚的品質を考慮したコーデック選択の指針を示すことを目指す。
- 複数の音声圧縮コーデックについて，圧縮性能と知覚的品質を測定・可視化し評価した。
- デジタル音声圧縮技術が知覚的品質に与える影響を明らかにした。
- コーデック選択時の知見を提供し，ユーザーの判断を支援する。
Link: https://arxiv.org/abs/2511.11527
MediRound：医療画像における多段階エンティティレベル推論セグメンテーション [cs.CV, cs.AI]目的：医療画像における多段階エンティティレベル推論セグメンテーション
- 医療教育において，段階的な知識習得が重要である。画像認識技術はその支援に貢献しうる。
- 既存のセグメンテーション手法は，単一の質問への対応に限られ，多段階の推論をサポートできていない。
- 多段階の質問応答を通してエンティティレベルでの推論を行い，医療知識の理解を深めることを目指す。
- 本研究では，多段階の医療セグメンテーション対話データセットMR-MedSegを構築した。
- 提案手法MediRoundは，多段階推論セグメンテーションにおいて，従来の参照セグメンテーション手法を上回る性能を示した。
- 推論時のエラー伝播を抑制するため，軽量な判断・修正メカニズムを導入した。
Link: https://arxiv.org/abs/2511.12110
X-WIN：予測的センシングによる胸部X線画像の世界モデル構築 [cs.DC, quant-ph, cs.CV]目的：胸部CTからの体積情報を蒸留し，潜在空間での2D投影予測を通して胸部X線画像の世界モデル
- 胸部X線画像は疾患診断に不可欠だが，2D画像のため構造の重複により3D解剖学的構造の把握が困難である。
- 2D画像であるため，解剖学的構造の重ね合わせが生じ，表現学習や疾患診断の精度が制限される。
- 3D解剖学的構造の知識を内在化した世界モデルを構築し，3D空間での変換下におけるX線画像の予測を可能にすること。
- X-WINは，線形プロービングおよびFew-shotファインチューニングを用いた多様な下流タスクにおいて，既存の基盤モデルを上回る性能を示す。
- X-WINは，3D CTボリュームを再構築するための2D投影をレンダリングする能力も実証している。
- アフィニティ誘導型コントラスト対比損失を導入することで，同一ボリュームからの投影間の相互類似性を活用し，豊富な相関情報を捉えている。
Link: https://arxiv.org/abs/2511.14918
REMSA：制約を考慮したエージェントによるリモートセンシング用ファウンデーションモデルの選択 [cs.CV, cs.AI]目的：リモートセンシングにおけるファウンデーションモデル選択の自動化
- リモートセンシング技術は，地球観測や環境モニタリングにおいて不可欠であり，多様な応用が期待される。
- 利用可能なリモートセンシング用ファウンデーションモデルの情報が散在しており，適切なモデル選択が困難である。
- 自然言語による問い合わせに基づき，制約を考慮した自動化されたモデル選択手法を確立すること。
- 本研究では，160を超えるリモートセンシング用ファウンデーションモデルを網羅した構造化データベースRS-FMDを構築した。
- REMSAは，ユーザーの質問を解釈し，制約を明確化し，文脈学習を通じてモデルをランク付けすることで，自動化されたモデル選択を実現する。
- 専門家による評価の結果，REMSAは既存手法を上回り，実用的な意思決定アプリケーションへの応用が期待される。
Link: https://arxiv.org/abs/2511.17442
光と影：実世界画像のベクトル化のための照明を考慮した手法 [cs.CV]目的：実世界画像のベクトル化
- 画像処理分野において，編集可能なベクトルデータへの変換は重要である。
- 既存手法では，複雑な画像を正確にベクトル化することが困難である。
- 視覚的な忠実性と編集性を両立したベクトル化手法を開発する。
- 提案手法COVecは，光と影の原理に基づき，アルベド，影，光の層に分離する。
- COVecは，ベクトルデータ上で初めて固有画像分解を導入した。
- 実験結果から，COVecは既存手法と比較して，視覚的な忠実性と編集性が向上することが示された。
Link: https://arxiv.org/abs/2511.20034
CostNav：物理AIエージェントの現実的な経済コスト評価のためのナビゲーションベンチマーク [cs.AI, cs.CE, cs.CV, cs.LG, cs.RO]目的：現実世界の経済コストを考慮した物理AIエージェントのナビゲーション評価
- 自律配送システムの商業化には，タスク成功率だけでなく経済的制約が不可欠である。
- 既存のナビゲーションベンチマークは現実世界の経済的制約を無視しており，商業的実現可能性との乖離がある。
- 商業的実現可能性を評価するための，現実世界の経済コストを考慮したナビゲーションベンチマークを提供する。
- 既存のナビゲーション手法は経済的に非効率であり，いずれもマイナスの利益率を示すことがわかった。
- RGBカメラとGPSのみを搭載したCANVASは，LiDARを搭載したNav2よりも経済的に優れていることが示された。
- CostNavは，ナビゲーション研究の指標と商業的実現可能性との間のギャップを定量的に示す初の物理ベースの経済ベンチマークである。
Link: https://arxiv.org/abs/2511.20216
AD-R1：公平なワールドモデルを用いたエンドツーエンド自律運転のための閉ループ強化学習 [cs.CV]目的：エンドツーエンド自律運転のための閉ループ強化学習フレームワーク
- 自動運転技術は，交通安全の向上や移動の効率化に不可欠であり，社会実装が期待されている。
- 強化学習による自動運転は有望視される一方，ワールドモデルの過度な楽観主義が課題となっていた。
- 危険予測の精度向上により，より安全な自動運転エージェントの実現を目指す。
- 本研究では，危険な状況を予測するために，カウンターファクチュアル合成パイプラインを用いて，ワールドモデルを訓練した。
- その結果，提案手法は，リスク予見ベンチマークにおいて，既存手法を大きく上回る性能を示した。
- ワールドモデルを内部批評家として統合することで，シミュレーションにおける安全違反を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2511.20325
TEAR：テキスト-ビデオモデルに対する時間的認識型自動敵対的テスト [cs.CV]目的：テキスト-ビデオモデルの安全性評価
- 生成AIの発展に伴い，特に動画生成における安全性確保が重要課題となっている。
- 既存の安全性評価手法は静的な画像やテキストに偏っており，動画特有の時間的変化を捉えきれない。
- 動画生成における時間的ダイナミクスを悪用した攻撃を検出し，モデルの脆弱性を明らかにすること。
- 提案手法TEARは，時間的認識型のテスト生成器を用いて，悪意のある動画出力を誘発する巧妙なプロンプトを自動的に生成する。
- TEARは，オープンソースおよび商用テキスト-ビデオモデルに対して80%以上の攻撃成功率を達成し，既存手法を大幅に上回る有効性を示した。
- プロンプトの隠蔽性と敵対的効果を改善する改良モデルを導入し，攻撃成功率を継続的に向上させている。
Link: https://arxiv.org/abs/2511.21145
自分が知らないことを知るワールドモデル - 較正された不確実性による制御可能な動画生成 [cs.CV, cs.AI, cs.RO]目的：制御可能な動画生成における不確実性の定量化
- 動画生成技術は，ロボティクスなどの分野で応用が期待されており，現実世界とのインタラクションにおいて重要である。
- 既存の動画生成モデルは，物理現実と乖離した動画を生成する「幻覚」を起こしやすく，信頼性に課題がある。
- 生成モデルが自身の不確実性を認識し，それを表現することで，幻覚の軽減を目指す。
- 提案手法C3は，サブパッチレベルでの高密度な信頼度推定を可能にし，不確実性の箇所を正確に特定する。
- 厳密な得点ルールを用いて，正誤性と較正性を同時に学習する新しいフレームワークを開発した。
- 大規模なロボット学習データセットと実世界での評価により，学習データ内および外での較正された不確実性推定と分布外検出の有効性が示された。
Link: https://arxiv.org/abs/2512.05927
超低ビットレートにおける知覚的画像圧縮のための浅いエンコーダ [cs.CG, cs.CV]目的：超低ビットレート画像圧縮におけるエンコーディングの簡素化と復元品質の維持
- 帯域幅や計算資源が限られた環境下で，画像圧縮技術の重要性が高まっている。
- 既存手法は大規模な事前学習済みエンコーダに依存し，低消費電力デバイスへの実装が困難である。
- 浅いエンコーダを用いながらも，高画質・高リアリティな復元を可能にするフレームワークを提案する。
- 提案手法AEICは，超低ビットレートにおいて既存手法を上回るレート・歪み・知覚的性能を達成した。
- 1080P画像に対し，35.8 FPSという優れたエンコード効率を実現し，既存手法と同等の復元速度を維持した。
- デュアルサイド特徴蒸留により，浅いエンコーダの効率を向上させ，軽量化と高性能化を両立した。
Link: https://arxiv.org/abs/2512.12229
GTR-Turbo：エージェント型VLM学習のための秘密の無料教師 [cs.CV, cs.AI]目的：エージェント型VLM学習のための報酬密度の向上と，長期的な信用割当問題の解決
- 視覚と言語モデルを基盤とするマルチモーダルエージェントのRLは，複雑なタスク遂行において重要である。
- 従来のRLは報酬が疎であり，長期的な信用割当が困難であるため，学習が停滞しやすい。
- 高価な教師モデルに依存せず，効率的に報酬密度を高め，安定した学習を実現することを目指す。
- GTR-Turboは，RL訓練中に生成されたチェックポイントの重みを統合することで，教師モデルの代替を実現した。
- 従来のGTRと同等の性能を達成しつつ，訓練時間を50％，計算コストを60％削減することに成功した。
- 多様な視覚エージェントタスクにおいて，ベースラインモデルの精度を10～30％向上させた。
Link: https://arxiv.org/abs/2512.13043
TLS点群投影を用いたYOLOv8と説明可能なAIによる樹種分類の高度化 [cs.CV, cs.AI]目的：樹種分類のための深層学習モデルの解釈可能性向上
- 森林資源管理において，樹種の正確な識別は重要な課題である。効率的な森林管理や生物多様性の保全に不可欠。
- 深層学習モデルは高い分類精度を示すが，その判断根拠が不明確であり，信頼性向上が課題となっている。
- 本研究は，深層学習モデルの判断根拠を可視化し，樹種分類の解釈可能性を高めることを目指す。
- YOLOv8を用いた樹種分類において，平均精度96%（SD = 0.24%）を達成した。
- Finer-CAMを用いることで，識別的な領域が忠実に特定できることが示された。
- モデルは主に樹冠の領域を重視して樹種分類を行っており，樹種によって重視する部位に違いが見られた。
Link: https://arxiv.org/abs/2512.16950
SVBench：ソーシャル推論における動画生成モデルの評価 [cs.RO, cs.CV]目的：動画生成モデルにおけるソーシャル推論能力の評価
- 動画生成技術の発展は目覚ましいが，人間の持つ社会性理解が組み込まれていない。
- 既存の動画生成モデルは，表面的にはリアルでも，社会的に一貫性のある行動を生成できない。
- 本研究は，動画生成モデルのソーシャル推論能力を定量的に評価するための基盤を構築する。
- 提示されたSVBenchは，人間の社会認知パラダイムに基づいた新たな評価基準である。
- 最先端の7つの動画生成システムに対する大規模な評価の結果，表面的な妥当性と深いソーシャル推論の間には明確なギャップが存在することが示された。
- 現在のモデルは，社会的に根拠のある行動を生成する能力に限界があることが示唆されている。
Link: https://arxiv.org/abs/2512.21507
低照度アニメ風景画像強調のためのデータ相対論的確実性フレームワーク [cs.CV, cs.LG, cs.MM]目的：低照度アニメ風景画像の品質劣化改善
- 自然画像処理技術の発展は著しいが，アニメ風景画像への応用は未だ十分ではない。
- アニメ風景画像は特有の表現方法を持つため，既存の低照度画像強調手法では十分な効果が得られない場合がある。
- データに内在する照度条件の多様性に着目し，不確実性を考慮した学習方法を提案することで，画像強調の性能向上を目指す。
- 提案手法であるデータ相対論的確実性（DRU）フレームワークは，照度条件の不確実性を明示的に定量化する。
- DRUフレームワークをEnlightenGANsに適用した実験により，最先端手法を上回る知覚的・審美的品質が確認された。
- 本研究は，データ中心学習の新たなパラダイムを提示し，視覚および言語分野への応用が期待される。
Link: https://arxiv.org/abs/2512.21944
Cosmos-H-Surgical：ワールドモデリングによる手術ロボットの方策学習 [cs.RO, cs.CV]目的：手術ロボットの方策モデル学習
- 手術支援ロボットの自律化は，医療の質の向上と負担軽減に不可欠である。
- 手術ロボット学習には十分なデータがないため，自律化が困難である。
- 未ラベル手術動画と生成モデルを活用し，データ効率の良い学習を目指す。
- Cosmos-H-Surgicalは，手術特化の物理AIワールドモデルとアクション記述データセットSATAを基盤とする。
- 合成手術動画から偽のロボット運動情報を推論し，データ拡張を実現した。
- 拡張データで訓練した方策は，実ロボット上での性能が実データのみで訓練したモデルを上回る。
Link: https://arxiv.org/abs/2512.23162
隙間を気にせず：解像度に依存しない網膜OCT解析のための暗黙的ニューラル表現 [cs.HC, cs.SY, eess.SY, cs.CV]目的：解像度に依存しない網膜OCT解析のための暗黙的ニューラル表現の活用
- 網膜OCTは，網膜疾患の診断に不可欠な画像診断技術である。
- 既存のOCT画像はスライス間隔が大きく，異方性があり，十分な体積解析が困難である。
- 暗黙的ニューラル表現を用いて，網膜OCTの体積解析を可能にし，より正確な病態評価を目指す。
- 暗黙的ニューラル表現を用いることで，異なる解像度の画像データに対しても適用可能な解析フレームワークを構築した。
- Bスキャン間の補間には，網膜構造を保持するための追加情報を取り入れ，より滑らかな3次元表現を実現した。
- 解像度に依存しない網膜アトラスを構築し，様々なOCTデータに対する汎用的な解析を可能にした。
Link: https://arxiv.org/abs/2601.02447
深層学習を用いたルーチン病理組織標本からの膵癌臨床的に関連する分子サブタイプの推論 [cs.LG, cs.CV, eess.IV]目的：膵癌の分子サブタイプの推論
- 膵癌は予後不良であり，分子サブタイピングによる個別化医療が重要である。
- 従来の分子サブタイピングはコストや時間，組織量に制約があり，臨床応用が限られている。
- ルーチン病理組織標本から迅速かつ低コストで分子サブタイプを予測する手法を開発する。
- PanSubNetは，H&E染色標本から分子サブタイプを高い精度（AUC 88.5%）で予測可能であった。
- 外部検証データセット（TCGA）においても高い汎化性（AUC 84.0%）を示し，転移性疾患において予後層別化能を向上させた。
- 予測の不確実性は分類ノイズではなく，中間的な転写状態に関連していることが示された。
Link: https://arxiv.org/abs/2601.03410
思考連鎖圧縮は盲目的であってはならない：デュアルパスアンカーリングによる効率的なマルチモーダル推論のためのV-Skip [cs.MM, cs.CL, cs.CV]目的：マルチモーダル大規模言語モデルにおける効率的な推論
- マルチモーダル推論は，言語と視覚情報を統合し，高度なタスクを可能にするため重要である。
- 思考連鎖（CoT）は性能向上に寄与する一方，その自己回帰的な性質が遅延の問題を引き起こす。
- 視覚的情報を考慮したトークン圧縮により，遅延を削減しつつ精度を維持することを目指す。
- V-Skipは，視覚的アンカーを重視するデュアルパスゲーティング機構により，トークン重要度を評価する。
- Qwen2-VLおよびLlama-3.2ファミリーを用いた実験で，V-Skipは2.9倍の高速化を達成し，精度損失は無視できるレベルであった。
- 特に，DocVQAにおいて30%以上の性能向上を示し，微細な視覚的詳細を保持することに貢献した。
Link: https://arxiv.org/abs/2601.13879
PLANING：ストリーミング3D再構成のための疎結合三角形-ガウスフレームワーク [cs.CV]目的：ストリーミング3D再構成のための効率的なフレームワーク
- 3D再構成は，ロボティクスやAR/VRなど幅広い分野で重要であり，リアルタイム処理が求められている。
- 既存手法は，高品質なレンダリングと正確な形状の再現を両立できず，計算コストが高いという課題がある。
- 高品質かつ高速なストリーミング3D再構成を実現し，大規模シーンのモデリングを可能にすることを目指す。
- PLANINGは，三角形とニューラルガウスを疎結合させたハイブリッド表現を用いることで，高品質な再構成と効率的な処理を両立した。
- PGSRと比較して，Chamfer-L2距離を18.52%改善し，ARTDECOをPSNRで1.31dB上回る性能を示した。
- ScanNetV2シーンを100秒以下で再構成し，2D Gaussian Splattingと比較して5倍以上の高速化を実現した。
Link: https://arxiv.org/abs/2601.22046
トレーニング不要ゼロショット合成画像検索のためのパラコズム生成 [cs.IR, cs.CY, cs.HC, cs.SI, cs.CV]目的：ゼロショット合成画像検索における性能向上
- 画像検索技術は，大量の画像データから目的の画像を効率的に見つけ出す上で不可欠である。
- 合成画像検索は，参照画像とテキストによる指示から画像を検索するため，指示の解釈が難しい。
- この研究は，指示された「心像」を直接生成することで検索精度を高めることを目指す。
- 提案手法Paracosmは，大規模マルチモーダルモデルを用いてクエリの「心像」を生成し，画像検索を行う。
- データベース内の実画像に対応する合成画像を生成することで，ドメインギャップを解消している。
- 既存のゼロショット手法と比較して，難しいベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.00813
WebAccessVL：ウェブアクセシビリティのための違反認識VLM [cs.HC, cs.AI, cs.CV]目的：ウェブサイトのアクセシビリティ違反の自動修正
- ウェブアクセシビリティは，情報への公平なアクセスを保証し，多様な人々を含むすべての人々のデジタル包容性を促進する上で重要である。
- ウェブサイトの多くはアクセシビリティガイドラインに違反しており，障害を持つユーザーの利用を困難にしている。
- 本研究は，ウェブサイトのアクセシビリティ違反を自動的に特定し，修正することで，より包括的なウェブ環境を実現することを目指す。
- 提案手法は，生のデータと比較して違反数を96.0%削減し，GPT-5よりも87%高い性能を示した。
- 実験結果から，修正されたウェブサイトは元の視覚的デザインとコンテンツを適切に維持していることが確認された。
- 違反情報を条件としてVLMに組み込むことで，反復的なチェック・ループによる改善戦略を可能にした。
Link: https://arxiv.org/abs/2602.03850
KVSmooth：キーバリュースムージングによるマルチモーダル大規模言語モデルの幻覚軽減 [cs.CV]目的：マルチモーダル大規模言語モデルにおける幻覚の軽減
- マルチモーダル大規模言語モデルは多様なタスクで進歩しているが，信頼性の高い利用には課題が残る。
- 既存モデルは，デコーディング中に意味がずれ，視覚的事実から乖離する幻覚を起こしやすい。
- 本研究は，キーバリュースムージングを通じて，効率的に幻覚を軽減することを目的とする。
- KVSmoothは，隠れ状態に対するアテンションエントロピー誘導のアダプティブスムージングを行うことで，幻覚を軽減する。
- 実験結果から，KVSmoothは幻覚の度合い（$\mathit{CHAIR}_{S}$）を41.8から18.2に大幅に減少し，F1スコアを77.5から79.2に向上させた。
- 既存手法と比較して，KVSmoothは精度と再現率の両方を向上させ，汎用性の高さを示した。
Link: https://arxiv.org/abs/2602.04268
UniWeTok：コードブックサイズ2の128乗を持つ統一されたバイナリトークナイザー - 統一マルチモーダル大規模言語モデルのために [cs.OS, cs.MA, cs.CV, cs.AI]目的：統一マルチモーダル大規模言語モデルのための，高精度な再構成，複雑な意味抽出，および生成適性を同時にサポートする視覚表現
- マルチモーダル大規模言語モデルの発展には，画像とテキストを統合するための効率的な視覚表現が不可欠である。
- 既存の視覚トークナイザーは，高精度な再構成と意味抽出，生成適性という相反する目標を同時に満たすことが困難である。
- 本研究では，巨大なバイナリコードブックを用いて，このギャップを埋める統一的な離散トークナイザーUniWeTokを開発する。
- UniWeTokは，ImageNetにおいて最先端の画像生成性能（FID: UniWeTok 1.38 vs. REPA 1.42）を達成し，大幅に少ない計算量で学習可能である。
- 汎用ドメインにおいては，マルチモーダル理解，画像生成（DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84），および編集（GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06）において高い性能を示す。
- Pre-Post DistillationやSigLu活性化関数などの技術により，UniWeTokは様々な画像解像度や知覚に敏感なシナリオへの適応性を高めている。
Link: https://arxiv.org/abs/2602.14178
TikArt：強化学習による絞り込み探索を用いた微細視覚推論の安定化 [cs.CV, cs.AI]目的：微細視覚推論の性能向上
- マルチモーダルLLMの発展に伴い，画像理解の精度向上が求められている。
- 既存手法では，微小物体や複雑な領域の識別が困難である。
- 絞り込み探索を通じて，重要な視覚情報を効率的に取得する。
- TikArtは，言語推論と絞り込み行動（ズーム，セグメンテーション）を繰り返すTAOループを用いる。
- RUR（Relative Uncertainty Reduction）という報酬関数を導入することで，長期的な学習を安定化させている。
- 高解像度画像推論，マルチモーダル理解，セグメンテーションにおいて，ベースラインモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2602.14482
OmniVTON++：主たるポーズ誘導によるトレーニング不要型汎用バーチャル試着 [cs.CV]目的：汎用的なバーチャル試着手法の開発
- 衣服のバーチャル試着は，Eコマースやファッション分野において重要な技術である。
- 既存手法は特定のデータに依存し，汎用性に欠けるという課題がある。
- データ依存性を解消し，様々な条件下で適用可能な手法を確立すること。
- OmniVTON++は，トレーニング不要で多様なデータセットや衣服タイプに対応可能である。
- 構造化衣服モルフィング，主たるポーズ誘導，連続境界ステッチングの連携により，衣服の適合性，人物構造の一貫性，境界の連続性を実現する。
- 単一の衣服・人物だけでなく，複数衣服・人物，アニメキャラクターの試着にも対応し，応用範囲を拡大する。
Link: https://arxiv.org/abs/2602.14552
GOT-JEPA：関節埋め込み予測アーキテクチャを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的：汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
- 視覚システムは変化に適応し，オクルージョンを詳細に推論する能力が重要である。
- 既存の追跡器は学習データに依存し，未知の状況での頑健性や汎化性能が課題である。
- オクルージョンに対する詳細なモデリングと，より頑健な追跡を実現することを目指す。
- GOT-JEPAは，画像特徴の予測から追跡モデルの予測へとJEPAを拡張した事前学習フレームワークである。
- 教師モデルと生徒モデルを用いて，ノイズの多い画像から信頼性の高い追跡モデルを予測するように学習する。
- OccuSolverを導入し，オブジェクトの視認性推定とオクルージョンパターンの詳細な把握を強化することで追跡性能を向上させた。
Link: https://arxiv.org/abs/2602.14771
ZACH-ViT：医療画像のためのコンパクトなVision Transformerにおける状況依存型誘導バイアス [cs.CV, cs.LG, eess.IV]目的：医療画像におけるVision Transformerの性能向上
- 医療画像診断の精度向上は，臨床現場における重要な課題である。
- 従来のVision Transformerは，自然画像向けに最適化されており，医療画像のような空間情報が弱い場合に性能が低下する。
- 空間情報に依存しないアーキテクチャにより，医療画像診断におけるVision Transformerの性能を改善すること。
- ZACH-ViTは，位置埋め込みと[CLS]トークンを削除することで，パッチ処理において置換不変性を実現した。
- BloodMNISTにおいて顕著な優位性を示し，PathMNISTでも競争力のある性能を発揮した。
- 空間構造が強固なデータセット（OCTMNIST，OrganAMNIST）では優位性が低下し，データ構造とアーキテクチャの整合性の重要性が示唆された。
Link: https://arxiv.org/abs/2602.17929