arXiv雑要約

画像・音声 - 2026/04/21 公開

オーディオビジュアル音声強調：アーキテクチャ設計と展開戦略 [cs.SD, eess.SP]目的：オーディオビジュアル音声強調システムの設計，展開，および評価
- 没入型マルチメディアサービスの実現には不可欠であり，その重要性が増している
- ネットワーク遅延，アップリンク容量，計算遅延によって性能が制約される
- 5Gエッジネットワーク環境におけるリアルタイムオーディオビジュアル音声強調の実現
- エッジコンピューティングは，リアルタイムの整合性制約を満たすために重要である
- アップリンク容量は，インタラクティブAVSEサービスの主要なボトルネックとなることが多い
- 5Gおよび有線イーサネットが，非圧縮オーディオ・ビデオチャンクの遅延要件を満たす
Link: https://arxiv.org/abs/2508.08468
ソニックステーション：ゴーストセルを用いない音響放射のハイブリッド数値解法 [cs.SD, cs.GR, cs.NA, math.NA]目的：複雑な形状における音響放射シミュレーションの精度と効率の向上
- デジタルメディア制作において，物理ベースの音響効果合成が不可欠であり，音響放射シミュレーションはその重要な要素である。
- 従来のゴーストセル法は，複雑な形状の境界において精度低下や計算失敗を引き起こすという課題があった。
- ゴーストセルを用いずに，複雑な形状や動的境界を持つ音響放射シミュレーションを実現し，既存手法の課題を解決する。
- 本手法は，FDTDとTDBEMを連携させることで，近傍場でのTDBEMの精度と，遠方場でのFDTDの効率を両立している。
- 境界グリッド同期戦略により，シミュレーション精度を維持しつつ，FDTDとTDBEMをシームレスに統合できる。
- 実験結果から，複雑なシーンにおいて，本手法が既存手法よりも高い精度と効率を示すことが確認された。
Link: https://arxiv.org/abs/2508.08775
AIM 2025 Rip Current セグメンテーション (RipSeg) チャレンジ報告 [cs.CV]目的：沖潮の自動セグメンテーション技術の進歩
- 世界中で沖潮は重大な水難事故のリスクであり，ビーチの安全確保は喫緊の課題である。
- 沖潮の正確な視覚的検出は重要だが，十分な研究が進んでいない分野である。
- 多様な条件下での沖潮セグメンテーション性能向上を目指し，現実的なベンチマークを提供する。
- 参加チームは深層学習アーキテクチャ，ドメイン適応，事前学習モデル，ドメイン汎化戦略を活用した。
- 評価指標としてF1，F2，AP50，AP[50:95]を組み合わせた複合スコアを使用し，堅牢なランキングを確立した。
- 本報告はデータセット，競争フレームワーク，評価指標，最終結果の概要を示すとともに，今後の課題と方向性を示す。
Link: https://arxiv.org/abs/2508.13401
サイクル一貫性のある前方・逆レンダリングのための単段階拡散モデル：Ouroboros [cs.CV]目的：前方および逆レンダリングにおけるサイクル一貫性の確保
- リアルな画像生成は，コンピュータビジョンやグラフィックスの根幹をなす技術である。
- 既存手法では，前方・逆レンダリングが独立しており，サイクル不整合や推論速度の遅延が課題となっていた。
- 相互強化された単段階拡散モデルを用いて，サイクル一貫性を保ちつつ高速なレンダリングを実現すること。
- Ouroborosは，前方および逆レンダリングを扱う2つの単段階拡散モデルから構成されるフレームワークである。
- 提案手法は，多様なシーンで最先端の性能を示し，既存の拡散ベースの手法と比較して大幅に高速な推論速度を実現した。
- Ouroborosは，追加学習なしにビデオ分解に適用でき，フレーム間の整合性を高めつつ高品質な逆レンダリングを維持できる。
Link: https://arxiv.org/abs/2508.14461
TinySR：現実世界画像超解像のための拡散モデルの枝刈り [cs.CV]目的：現実世界画像超解像における，計算コストとモデルサイズの削減
- 現実世界の画像には様々な劣化が含まれるため，高品質な復元技術が求められる。
- 拡散モデルは強力だが，反復処理による計算負荷が高く，リアルタイム処理が困難である。
- モデルの軽量化と高速化を実現し，リアルタイムでの超解像処理を可能にすること。
- TinySRは，ダイナミックな活性化と拡張・腐食戦略による効率的な枝刈りにより，モデルを大幅に小型化。
- TSD-SRと比較して，最大5.68倍の高速化と83%のパラメータ削減を達成し，計算コストを大幅に削減。
- TinySRは，知覚的な品質を維持しながら，リアルタイム性能を実現したコンパクトで効果的な拡散モデルである。
Link: https://arxiv.org/abs/2508.17434
自律宇宙探査のための適応型量子化クレーター検出システム [cs.CL, cs.LG, cs.AI, cs.CV, cs.ET, cs.SY, eess.SY]目的：惑星クレーターの自律検出システムの理論的アーキテクチャ
- 宇宙探査は科学的発見と人類の知識拡大に不可欠であり，その重要性は増している。
- 高性能な深層学習モデルは計算資源を大量に消費し，宇宙探査機の限られた計算能力との乖離が生じている。
- 限られた計算資源下で高精度な環境認識を実現し，自律的な惑星探査を可能にすること。
- 本研究では，INT8量子化ニューラルネットワークと適応型マルチセンサー融合モジュールを組み合わせたAQ-PCDSysの理論的アーキテクチャを提案した。
- 空間的注意機構における整数再量子化乗数を導出し，光学画像とデジタル標高モデルを特徴レベルで能動的に選択・融合することで，信頼性の高い知覚を実現する。
- アンカーフリーな中心からエッジへの回帰ヘッドとFP16座標変換を用いることで，非対称な月面のクレーターを高精度に検出可能となる。
Link: https://arxiv.org/abs/2508.18025
Pref-GRPO：ペアワイズな選好報酬に基づくGRPOによる安定したテキスト-画像強化学習 [cs.CV]目的：テキスト-画像生成における安定性の向上
- 近年の進歩により，テキスト-画像生成の強化においてGRPOベースの強化学習が重要視されている。
- 従来のポイントワイズ報酬モデルでは，わずかなスコア差が正規化によって増幅され，誤った最適化を招くことがある。
- 選好報酬に基づく最適化によって，報酬ハッキングを抑制し，より安定した学習を実現すること。
- Pref-GRPOは，画像のペアワイズ比較により，わずかな画質の違いを識別し，安定した学習を可能にする。
- 既存のベンチマークの評価基準が粗いため，モデルの包括的な評価が困難であるという課題を解決するため，UniGenBenchを導入した。
- UniGenBenchは，600のプロンプトを用いて，セマンティックな一貫性を詳細に評価し，Pref-GRPOの有効性を検証した。
Link: https://arxiv.org/abs/2508.20751
認知慣性を組み込んだ自律運転における時間的整合性のある計画 [cs.DC, cs.CV]目的：自律運転における時間的整合性のある計画の実現
- 自動運転技術は，人手を介さずに安全かつ効率的な移動を可能にするため，社会実装が期待されている。
- 既存のビジョン言語モデルは，環境の連続的な理解が難しく，意思決定の不安定さや複雑な操作の失敗を引き起こす。
- 認知慣性を導入することで，安定した内部表現を構築し，時間的整合性の高い自律運転を実現することを目指す。
- CogDriver-Agentは，Bench2DriveにおけるDriving Scoreを22%向上させ，nuScenesにおける平均L2誤差を21%削減した。
- この結果は，長期的な意思決定と模倣精度の両方において大幅な改善が見られ，時間的整合性のある内部状態を維持することに成功した証拠となる。
- CogDriverは，より信頼性の高い自律運転に向けて，重要な一歩を踏み出したと言える。
Link: https://arxiv.org/abs/2509.00789
NOOUGAT：オンラインおよびオフライン多物体追跡の統合に向けて [cs.CV]目的：オンラインとオフラインの多物体追跡を統合するフレームワーク
- 現実世界の応用では，時間的な制約が多様であるため，柔軟な追跡手法が求められている。
- 既存のオンライン追跡器は，長期的な遮蔽に弱く，オフライン追跡器は長いシーケンスの処理に限界がある。
- 任意の時間範囲で動作可能な，統合的な追跡システムの開発を目指す。
- NOOUGATは，非重複のサブクリップを処理する統一的なグラフニューラルネットワーク（GNN）フレームワークを採用している。
- 新しい自己回帰型長期追跡（ALT）層により，サブクリップ間の融合を実現し，遅延と時間的文脈のトレードオフを制御する。
- DanceTrack，SportsMOT，MOT20において，オンラインおよびオフラインの両方で最先端の性能を達成している。
Link: https://arxiv.org/abs/2509.02111
GeoArena：大規模ビジョン言語モデルにおけるオープンワールド地理的推論の評価 [cs.CV]目的：オープンワールド地理的推論の評価
- 地理的推論は，視覚的証拠と空間的知識を統合する重要な認知能力である。
- 既存の評価方法は，静的なデータセットと定義済みのラベルに依存しており，オープンワールド推論に適していない。
- より人間の地理的推論に合致した，動的で人間の選好に基づく評価フレームワークを構築すること。
- 本研究では，人間の判断に基づいたペアワイズ推論アラインメントタスクとして評価を行うGeoArenaを提案した。
- GeoArenaを用いて17の最先端LVLMを評価し，数千件の人間の判断データを収集し，既存のベンチマークを補完した。
- モデルの行動に関する詳細な分析，人間の選好の信頼性，地理的推論の質に影響を与える要因を明らかにした。
Link: https://arxiv.org/abs/2509.04334
InternScenes：現実的なレイアウトを持つ大規模シミュレーション可能屋内シーンデータセット [cs.DL, cs.SI, cs.RO, cs.CV, cs.RO]目的：大規模かつ多様な屋内シーンデータセットの提供
- 具現化されたAIの発展には，多様性と現実性を備えた3Dシーンデータセットが不可欠である。
- 既存のデータセットは，規模や多様性の不足，簡略化されたレイアウト，オブジェクトの衝突といった課題を抱えている。
- 現実的で複雑なレイアウトを備えた大規模データセットにより，AIモデルの学習を促進し，より高度なタスクを可能とする。
- InternScenesは，現実世界のデータ，手続き型生成，デザイナー作成のシーンを統合した約4万件の多様なシーンを含む大規模データセットである。
- データセットは196万個の3Dオブジェクトと15種類のシーンタイプ，288個のオブジェクトクラスを網羅し，複雑なレイアウトを実現している。
- シーンレイアウト生成とポイント目標ナビゲーションのベンチマーク実験により，InternScenesが新しい課題を提示し，モデル学習のスケーリングを可能にすることが示された。
Link: https://arxiv.org/abs/2509.10813
VC-Inspector: 事実分析を用いたビデオキャプションの参照なし評価の高度化 [cs.CV, cs.CL]目的：ビデオキャプションの参照なし評価のための手法
- ビデオキャプションの自動評価は，ビデオ理解システムの性能向上に不可欠である。
- 既存の評価指標は，文脈理解の限界や事実に基づいた正確性の評価の弱さがある。
- 事実に基づいた正確性を重視した，再現可能で信頼性の高い評価手法を開発する。
- VC-Inspectorは，人間の判断との高い相関性を示し，最先端の性能を達成した。
- 多様なドメイン（VATEX-Eval，Flickr8K-Expert，Flickr8K-CF）において，高い汎化性能が確認された。
- キャプション改善の可能性を示唆し，解釈可能な評価フレームワークを提供する。
Link: https://arxiv.org/abs/2509.16538
ビデオからのオブジェクト認識ステレオ音声生成：StereoFoley [cs.SD, cs.MM, eess.AS]目的：ビデオからオブジェクトを認識したステレオ音声の生成
- 映像と音響を結びつける研究は，没入感の高いメディア体験の創出に不可欠である。
- 既存の映像-音声生成モデルはモノラルに限定されるか，空間的な正確性に欠ける場合が多い。
- 空間認識を考慮したステレオ音声を生成することで，よりリアルな音響体験を実現する。
- StereoFoleyは，48kHzのセマンティックに整合性があり，時間的に同期され，空間的に正確なステレオ音声を生成する。
- 大規模な合成データ生成パイプラインを導入し，ビデオ分析，オブジェクトトラッキング，そして動的な音量調整を組み合わせた。
- 新しいステレオオブジェクト認識指標とリスニングテストの結果から，オブジェクトと音声の対応が明確であることが示された。
Link: https://arxiv.org/abs/2509.18272
カメラ制御パノラマビデオ生成のためのエピポーラ認識拡散モデルCamPVG [cs.CV]目的：カメラ制御パノラマビデオの生成
- ビデオ生成におけるカメラ制御技術の重要性が高まっている分野である。
- パノラマビデオ生成において，幾何学的に整合性の取れた生成が困難である。
- パノラマ画像の複雑な表現と球面投影の課題を克服し，高品質なビデオ生成を目指す。
- 本研究では，精密なカメラ姿勢制御に基づいてパノラマビデオを生成する拡散モデルCamPVGを提案する。
- パノラマPlücker埋め込みと球面エピポーラモジュールにより，幾何学的制約を強化し，高品質かつ一貫性のあるビデオ生成を実現した。
- 実験結果から，提案手法が既存手法を大幅に上回り，カメラ軌跡に一致する高品質なパノラマビデオを生成することが示された。
Link: https://arxiv.org/abs/2509.19979
EditVerse：文脈学習による画像・動画編集と生成の統合 [cs.CV]目的：画像と動画の生成・編集を統合する統一的なフレームワーク
- 画像処理技術は，コンテンツ制作や情報伝達において不可欠であり，その発展は社会に大きな影響を与える。
- 動画編集・生成は，アーキテクチャの制約とデータ不足により，画像処理ほど進んでいない。
- 多様なタスクに対応可能な，画像と動画を統一的に扱えるモデルを構築すること。
- EditVerseは，テキスト，画像，動画を統一的なトークン系列として扱うことで，高い性能を実現した。
- 大規模な動画編集データセットと画像・動画データセットを組み合わせた学習パイプラインを構築した。
- EditVerseBenchという，指示に基づく動画編集のベンチマークを新たに提案し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2509.20360
CaTS-Bench：言語モデルは時系列データを記述できるか [cs.LG, cs.AI, cs.CV]目的：時系列データの記述能力評価のためのベンチマーク
- 時系列データは，金融，医療，科学など様々な分野で広く利用されており，その分析は重要である。
- 既存のベンチマークは合成データや汎用的なキャプションに依存しており，メタデータや視覚的表現が不十分である。
- 本研究は，時系列データに対する文脈を考慮した推論能力を評価し，より自然な記述を可能にすることを目的とする。
- CaTS-Benchは，11の多様なドメインを対象とした，人間が書き直した1746個の高品質なキャプションを含む包括的なベンチマークである。
- 最先端のVision-Languageモデルの評価により，数値的なニュアンスを捉えるのが難しいことが明らかになった。
- オープンソースモデルを合成データでファインチューニングすることで，大幅な性能向上が見られた。
Link: https://arxiv.org/abs/2509.20823
長尺ビデオ理解のためのビデオパネル [cs.CV, cs.AI]目的：長尺ビデオ理解における既存モデルの性能最大化
- 画像や短尺ビデオに比べ，長尺ビデオ理解は難題であり，その重要性が増している。
- 既存のビデオ言語モデルは長尺ビデオにおいて性能が低く，複雑なモジュールが求められている。
- 限られたデータでモデルをファインチューニングするのではなく，既存モデルの性能を向上させる。
- 本手法は，複数のフレームをパネルとして統合することで，空間情報を犠牲に時間解像度を高める。
- 学習やパラメータ調整を必要とせず，既存のビデオ言語モデルに容易に組み込むことができる。
- TimeScope (Long) データセットにおいて，ビデオ質問応答の精度を最大19.4%向上させた。
Link: https://arxiv.org/abs/2509.23724
AIM-CoT：視覚言語推論のための能動的情報駆動型マルチモーダルChain-of-Thought [cs.CV]目的：視覚言語推論における性能向上
- 画像とテキストを組み合わせた推論は，AIの高度な理解能力の実現に不可欠である。
- 既存手法では，視覚的証拠の選択と挿入タイミングの制御が不十分である。
- 文脈強化と能動的視覚探索により，視覚的証拠の選択と挿入タイミングを改善する。
- 提案手法AIM-CoTは，文脈強化による注意マップ生成，能動的視覚プロービング，動的注意シフトトリガーにより，視覚的証拠の選択と挿入タイミングを最適化する。
- 3つのベンチマークと4つのバックボーンを用いた実験により，AIM-CoTが一貫して優れた性能を示すことが確認された。
- 既存手法が抱える粒度間の不均衡問題と静的なトリガーの問題を克服し，視覚言語推論の精度を向上させた。
Link: https://arxiv.org/abs/2509.25699
画像去ノイズ化のための新しい4次グレーレベル指標ベースの伝送拡散モデル [cs.CV]目的：画像去ノイズ化手法
- 画像処理において，ノイズ除去は画質向上に不可欠であり，多様な応用分野で求められている。
- 従来の2次偏微分方程式モデルでは，初期段階でブロック状の歪みが発生しやすいという課題があった。
- この研究は，より自然な画像復元を可能にする，新たなノイズ除去モデルを提案することで，この課題を解決することを目指す。
- 提案モデルは，従来の2次モデルと比較して，ピーク信号対雑音比（PSNR）および平均構造類似性指標（MSSIM）の両方で優れた結果を示した。
- SAR画像のような真値がない場合でも，スペックル指数（SI）を用いてノイズ低減効果が確認された。
- 提案モデルをカラー画像に拡張した結果，構造と色の整合性を維持しながら，優れた性能が得られた。
Link: https://arxiv.org/abs/2509.26010
ProfVLM：マルチビューにおける熟練度推定のための軽量なビデオ・言語モデル [cs.CV, cs.CL]目的：アクションの品質評価と技能熟練度の推定
- 技能の評価は，ロボット工学や教育など様々な分野で重要であり，より客観的かつ詳細な評価手法が求められている。
- 既存手法では，評価の根拠となる推論過程が明示されず，単なるラベルやスコアの提示に留まる点が課題であった。
- マルチビュー動画から熟練度と専門家のような自然言語フィードバックを同時に生成することで，解釈可能な評価を実現する。
- ProfVLMは，既存の分類ベース手法と比較して，パラメータ数を最大20分の1，学習時間を最大60%削減しつつ，最先端の性能を達成した。
- このモデルは，TimeSformerバックボーンからのマルチビュー特徴を動的に融合し，言語モデルに投影するAttentiveGatedProjectorを中核としている。
- 生成された自然言語の批評は，パフォーマンスレベルと整合性があり，解釈可能なアクション品質評価のパラダイムシフトを示唆している。
Link: https://arxiv.org/abs/2509.26278
SemMorph3D：メッシュ誘導ガウスを用いた意味情報に基づいた3Dモルフィング [cs.CL, cs.CL, cs.CV]目的：マルチビュー画像からの3D形状とテクスチャの，意味情報を考慮したモルフィング手法
- 3Dコンテンツの作成は，現実世界の再現や仮想現実など，様々な分野で重要性が増している。
- 既存の3Dモルフィング手法は，形状の構造的保全性と複雑な外観の表現の両立が課題であった。
- 構造と外観の欠点を克服し，ラベルなしデータでも安定した3Dモルフィングを実現すること。
- 本手法は，メッシュを幾何学的アンカーとして利用することで，ガウスの構造化を誘導し，形状の断片化を防ぐ。
- 提案する二重ドメイン最適化戦略により，ラベルなしで意味的な対応関係を確立し，形状と色の一貫性を保つ。
- TexMorphベンチマークにおいて，既存手法を大幅に上回り，トポロジーの安定性と色の一貫性を向上させた。
Link: https://arxiv.org/abs/2510.02034
双曲線空間とユークリッド空間を組み合わせたソフトトリプレット損失：単一空間の深層距離学習を超えて [cs.CL, cs.CV]目的：深層距離学習における性能向上
- データ間の意味的類似性を捉える深層距離学習は，画像検索や推薦システム等に応用が期待される。
- 双曲線空間での代理ベース損失の適用には課題があり，大規模データセットでの効率的な学習が困難であった。
- 双曲線空間とユークリッド空間を組み合わせることで，学習精度と安定性を高めることを目指す。
- 提案手法であるCHEST損失は，双曲線空間とユークリッド空間双方で損失を組み合わせ，学習の安定化と精度向上を実現した。
- CHEST損失は，大規模データセットにおける学習効率の向上に貢献する。
- 4つのベンチマークデータセットで最先端の性能を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2510.05643
視覚トークン圧縮手法の評価フレームワーク：適切なベンチマークの利用状況について [cs.CL, cs.CV]目的：視覚トークン圧縮手法の評価に関する課題と改善策
- 大規模マルチモーダル言語モデルの推論高速化が重要視されており，視覚トークン圧縮はその主要な手法の一つである。
- 既存のベンチマークは，視覚トークン圧縮特有の課題を評価するには不適切であり，誤った評価につながる可能性がある。
- 既存ベンチマークのノイズを低減し，より公平で有意義な評価を可能にするフレームワークを提案する。
- 一般的なベンチマークにおいて，単純な画像ダウンサンプリングが高度な圧縮手法よりも優れた性能を示すという意外な結果が得られた。
- 既存のベンチマークには，視覚トークン圧縮の評価に無関係なサンプルが多く含まれていることが示唆された。
- ダウンサンプリングを活用することで，圧縮に敏感なサンプルとそうでないサンプルを識別し，ベンチマークのノイズを低減できることが示された。
Link: https://arxiv.org/abs/2510.07143
ControlAudio：漸進的拡散モデリングによるテキスト指示，タイミング指示，そして理解可能な音声生成への取り組み [cs.SD, cs.AI, cs.CL, eess.AS]目的：テキスト指示，タイミング指示，および理解可能な音声内容を含む，詳細な制御信号を用いたテキストから音声への生成
- 音声合成技術は，人間とコンピュータのインタラクションやコンテンツ制作において重要な役割を担う。
- 高品質な音声生成には大量のデータが必要だが，詳細な制御信号付きのデータは不足している。
- データ不足を克服し，より高度な制御が可能な音声生成モデルを開発すること。
- ControlAudioは，テキスト，タイミング，音素特徴などの情報を段階的に学習する拡散モデルである。
- 大量のテキスト-音声ペアで事前学習された拡散トランスフォーマー(DiT)を基盤とし，タイミングと音素特徴を段階的に統合する。
- 客観評価と主観評価の両方で，既存手法を大きく上回る優れた性能を示した。
Link: https://arxiv.org/abs/2510.08878
注意誘導画像歪みによるMLLMの性能向上 [cs.CL, cs.CL, cs.CV, cs.LG]目的：MLLMにおける詳細な知覚的根拠付けの精度向上
- 視覚情報と言語情報を統合するMLLMは，多様なタスクで活用が期待されている。
- MLLMは複雑なシーンにおいて，小さな詳細や空間関係を見落としがちである。
- モデルの注意機構を活用し，重要領域に解像度を集中させることで精度向上を目指す。
- 提案手法AttWarpは，入力画像の解像度をモデルの注意に基づいて再配分する。
- 5つのベンチマークと4つのMLLMにおいて，AttWarpは既存手法を上回る精度向上を示した。
- 注意誘導による画像歪みは，クエリに関連する情報を優先しつつ，文脈を維持する。
Link: https://arxiv.org/abs/2510.09741
Uni-MMMU：大規模多分野多modal統一ベンチマーク [cs.CV]目的：視覚的理解と生成を統合する統一マルチモーダルモデルの真の統合度評価
- AIの進歩に伴い，視覚情報とテキスト情報を統合するモデルの重要性が増している。
- 既存のベンチマークは，視覚的理解と生成を分離して評価することが多く，両者の相乗効果が見過ごされている。
- 視覚的理解と生成を組み合わせた評価を通じて，統一モデルの能力向上を目指す。
- Uni-MMMUは，科学，コーディング，数学，パズルなど8つの分野で，視覚的理解と生成の双方向的な関係を評価する。
- 評価の結果，既存モデル間に性能差が確認され，異なるmodal間の依存関係に関する新たな知見が得られた。
- Uni-MMMUは，統一モデルの発展のための信頼性の高い基盤を提供する。
Link: https://arxiv.org/abs/2510.13759
ドキュメント理解のためのマルチモーダル検索拡張生成：サーベイ [cs.CL, cs.CV]目的：ドキュメント理解のためのマルチモーダル検索拡張生成に関する体系的な調査
- 金融分析や科学的発見など，様々な応用においてドキュメント理解は不可欠である。
- 従来のOCRベースの手法は構造の詳細を失い，ネイティブなマルチモーダルLLMはコンテキストモデリングに苦戦する。
- ドキュメントのマルチモーダルな性質に対応し，包括的なドキュメントインテリジェンスを実現する。
- 本サーベイでは，ドメイン，検索モダリティ，粒度に基づいた分類体系を提案し，マルチモーダルRAGの進展をレビューした。
- グラフ構造やエージェントフレームワークに関する研究，主要なデータセット，ベンチマーク，応用，業界での導入事例をまとめた。
- 効率性，微細な表現，堅牢性に関する未解決の課題を強調し，ドキュメントAIの将来の進歩のロードマップを示した。
Link: https://arxiv.org/abs/2510.15253
エンドツーエンドな聞く，見る，話す，行動する [cs.CL, cs.AI, cs.CL, cs.CV, cs.RO, eess.AS]目的：人間らしいインタラクションの実現
- 人間は生まれつきマルチモーダルな情報処理を行うため，その模倣は重要である。
- 従来のモデルでは，複数のモダリティを同時に処理することが困難であった。
- 視覚，テキスト，音声，行動を統合的に処理するモデルを開発すること。
- ELLSAは，視覚，テキスト，音声，行動を同時に処理する初のフルデュプレックス，エンドツーエンドモデルである。
- SA-MoEアーキテクチャにより，各モダリティを専門家ルーティングし，干渉を軽減している。
- 対話や行動の交代，指示の拒否など，高度なマルチモーダル行動を可能にした。
Link: https://arxiv.org/abs/2510.16756
DeepDetect：包括的な高密度キーポイント学習 [cs.CL, cs.CV]目的：画像におけるキーポイント検出性能の向上
- 画像処理や3D再構成など，多くのコンピュータビジョンの基礎技術である。
- 従来の検出器は，光度変化に弱く，キーポイント密度や再現率が低い場合がある。
- DeepDetectは，多様な条件下で高密度かつ適応性のあるキーポイント検出を目指す。
- DeepDetectは，古典的な検出器の利点を深層学習で統合した，包括的な高密度検出器である。
- Oxford，HPatches，Middleburyデータセットにおいて，既存の検出器を上回る性能を示した。
- キーポイント密度，再現率，正解マッチ数，ステレオ3D再構成におけるボクセル数で最高値を達成した。
Link: https://arxiv.org/abs/2510.17422
視覚的に豊かな文書に対するハイブリッドベクトル検索：シングルベクトル効率とマルチベクトル精度の両立 [cs.IR, cs.CV]目的：視覚的に豊かな文書の検索手法
- 法的調査，科学的検索，企業知識管理など，様々な分野で視覚的情報を含む文書の検索が不可欠である。
- 従来の検索手法は，効率性か精度かのトレードオフが存在し，両立が課題であった。
- 効率性と精度を両立するハイブリッドベクトル検索フレームワークを提案し，その有効性を検証すること。
- 提案手法HEAVENは，VS-Pagesを用いたシングルベクトル検索で候補ページを効率的に抽出し，その後にマルチベクトル検索で再ランク付けを行う。
- HEAVENは，4つのベンチマークにおいて，マルチベクトルモデルと同等のRecall@1性能(99.87%)を達成しつつ，クエリごとの計算量を大幅に削減(99.82%)した。
- 新しいベンチマークViMDocを導入し，現実的な条件での検索システム評価を可能にした。
Link: https://arxiv.org/abs/2510.22215
画像復元のための残差拡散ブリッジモデル [cs.HC, cs.CV]目的：画像復元における汎用的な確率的経路の確立
- 画像処理分野において，画像の劣化は避けられず，高品質な復元技術が求められている。
- 既存のブリッジモデルは，理論的な考察が不足しており，汎用性に限界がある。
- 損傷領域の適応的な復元と，未損傷領域の保護を実現し，復元性能を向上させる。
- 残差拡散ブリッジモデル（RDBM）を提案し，拡散ブリッジの確率微分方程式を再構築した。
- 既存のブリッジモデルはRDBMの特殊例であることが示され，RDBMの最適性が実証された。
- 多様な画像復元タスクにおいて，提案手法が最先端の性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2510.23116
病理学における基礎モデルの再考：失敗を超えて [cs.AI, cs.CV]目的：病理学における基礎モデルの概念的不一致の解消
- 病理診断は医療において不可欠であり，AIによる支援が急務である。
- 既存の基礎モデルは，病理画像特有の複雑さを捉えきれていない。
- 病理画像に特化したモデル設計による精度向上を目指す。
- 既存の基礎モデルは，病理画像において低い精度，不安定性，高い計算コストを示す。
- 問題はチューニングではなく，組織の組み合わせの多様性を表現できない埋め込み表現や，自己教師あり学習，パッチ設計，ノイズに対する脆弱性にある。
- 大規模自然画像に対するアプローチの前提が組織画像には当てはまらず，生物学的な画像に特化したモデルが必要である。
Link: https://arxiv.org/abs/2510.23807
EMGから音声への変換：自己教師あり学習音声モデルの利用 [cs.SD, cs.CL, eess.AS]目的：筋電図信号からの音声合成
- 運動麻痺患者とのコミュニケーション手段確立が重要である。
- 従来の音声合成は，発話能力喪失者には困難である。
- 筋電図信号と音声モデルの関係性を解明し，直接的な音声合成を目指す。
- 自己教師あり学習(S3)モデルが筋活動の電気的パワーと強い線形関係にあることが示された。
- S3モデルが，発話器官の動きを暗黙的に符号化している可能性が示唆された。
- 筋電図信号からS3表現空間へのマッピングによる，音声合成が可能となった。
Link: https://arxiv.org/abs/2510.23969
通行料金なしの交通制御：自律型交差点のための非金銭的フレームワーク [cs.GT, cs.MA]目的：自律型交差点管理を活用した経路選択への影響
- 都市交通は複雑化しており，コネクテッド・オートマティブビークルに対応した新たな制御戦略が必要とされている。
- 従来の交通制御は，多くの場合，金銭的なインセンティブに依存しており，プライバシーや公平性の問題がある。
- 非金銭的な手段による交通制御を通じて，交通効率の向上を目指す。
- 提案手法は，交差点における時間ベースのスケジュール調整により，経路依存的な遅延または進捗を導入し，交通を社会的に効率的な流れへと導く。
- このモデルは，経路依存的なノードコストを持つ混雑ゲームとして定式化され，均衡フローの一意性が証明された。
- シウフォールズネットワークにおける実験では，提案手法により，ユーザ均衡とシステム最適フロー間の効率ギャップが最大71％削減された。
Link: https://arxiv.org/abs/2511.01421
密なマーク：点追跡による人間の頭部画像の正準埋め込みの学習 [cs.CV]目的：人間の頭部画像の高品質な稠密対応
- 顔認識や頭部追跡など，コンピュータビジョンの応用において，頭部の正確な3次元形状把握が不可欠である。
- 既存手法では，ポーズの変化や個人差により，頭部の稠密対応が困難であり，ロバストな表現が求められている。
- 多様なポーズと個人に対して一貫性のある，解釈可能な正準空間の構築を目指す。
- 提案手法では，Vision Transformerを用いて画像ピクセルごとに3次元埋め込みを予測し，正準立方体空間にマッピングする。
- 点追跡によるペアワイズ点マッチデータと，顔ランドマーク，セグメンテーションによる多タスク学習により，ロバストな表現を獲得した。
- 3D Morphable Modelを用いた単眼頭部追跡において，最先端の結果を達成し，頭部形状の正確な把握に貢献する。
Link: https://arxiv.org/abs/2511.02830
ノイズ注入：小規模データセットにおける分布外汎化性能の向上 [cs.CL, cs.CV, cs.AI]目的：画像認識における分布外汎化性能の向上
- 画像認識モデルは，多様なデータに対応できる汎化性能が重要である。
- モデルが訓練データに特有な特徴に過剰適合し，未知のデータへの汎化が困難になる場合がある。
- 訓練時にノイズを注入することで，モデルのロバスト性を高め，分布外データへの汎化性能を改善する。
- ノイズ注入により，分布内データと分布外データ間の性能差を0.10-0.20から0.01-0.06に大幅に縮小できた。
- ガウスノイズ，スペックルノイズ，ポアソンノイズ，塩コショウノイズといった基本的なノイズ注入手法が有効であることが示された。
- AUC，F1スコア，精度，再現率，特異度といった主要な評価指標で一貫した改善が見られた。
Link: https://arxiv.org/abs/2511.03855
スプラトグラフィー：映画制作における課題に対する疎な多視点動的ガウススプラッティング [cs.AR, cs.CV, cs.GR, cs.MM]目的：映画制作における疎なカメラ配置下での動的3次元再構成
- 映像制作において，リアルな3次元再構成は重要な役割を担う。より高品質な映像表現への要求が高まっている。
- 既存手法は，カメラ配置が疎であると，複雑な動的特徴の表現が難しく，再構成品質が低下する。
- 本研究は，疎なカメラ配置下でも高品質な動的3次元再構成を可能にすることを目的とする。
- 前景と背景を分離することで，それぞれに適した学習を行うことで，再構成品質を向上させた。
- 特に3次元シーンにおいて，既存手法を最大3PSNR上回り，モデルサイズを半分に抑えることができた。
- 明示的なマスクなしで，透明なテクスチャを含む分割された動的再構成を実現した。
Link: https://arxiv.org/abs/2511.05152
フラクタルに着想を得た計算アーキテクチャによる自動ニューラル設計探索の準備 [cs.LG, cs.CV]目的：自動ニューラル設計探索のための計算アーキテクチャ
- 大規模言語モデルの性能向上には，多様なモデル構造の効率的な探索が不可欠である。
- 既存のニューラルネットワーク探索手法は，計算コストが高く，多様性に欠ける場合がある。
- フラクタル構造を活用することで，効率的かつ多様なモデル探索を実現することを目指す。
- フラクタルに基づくアーキテクチャは，高い性能と計算効率を示すことが確認された。
- 提案手法は，1,200種類以上のニューラルネットワーク変種を生成可能であり，構造の多様性を実現する。
- フラクタル設計は，自動アーキテクチャ探索において実行可能かつ資源効率の良い手法である。
Link: https://arxiv.org/abs/2511.07329
圧縮と照合：マルチモーダル埋め込みのための効率的な事前学習パラダイム [cs.CV, cs.IR]目的：マルチモーダル埋め込みの効率的な事前学習手法
- 近年，画像とテキストを組み合わせた処理が重要視されており，そのための表現学習が不可欠である。
- 既存手法では，大規模な計算資源を必要とし，効率的な学習が課題となっていた。
- 事前学習段階で圧縮を行うことで，効率性と効果を両立した埋め込みモデルの構築を目指す。
- 提案手法CoMaは，限られた事前学習データでも，既存のマルチモーダル大規模言語モデルを高性能な埋め込みモデルへと変換できる。
- MMEBベンチマークにおいて，同規模のモデル中で最先端の結果を達成し，効率と効果の両面で最適化を実現した。
- CoMaは，入力内容の理解を深め，その上でコントラスティブ学習を行うことで，優れた性能を発揮する。
Link: https://arxiv.org/abs/2511.08480
Lumos3D：低照度3Dシーン復元のシングルフォワードフレームワーク [cs.CL, cs.DB, cs.CV]目的：低照度3Dシーン復元手法
- 3Dシーンの取得は重要だが，低照度環境下ではその品質が著しく低下する。
- 既存手法はカメラ位置の事前計算やシーン固有の最適化に依存し，実環境での応用が困難である。
- カメラ位置を必要とせず，シーン固有の最適化なしに低照度3Dシーンを復元することを目指す。
- Lumos3Dは，教師ネットワークからの知識蒸留とLumos損失の導入により，高品質な3Dシーン復元を可能にする。
- Lumos3Dは，シングルデータセットでの学習後，追加のシーン固有の学習や最適化なしで推論を実行できる。
- 実環境データセットでの実験により，Lumos3Dがシーン固有手法と同等の復元結果を達成することが示された。
Link: https://arxiv.org/abs/2511.09818
SHRUG-FM：地球観測のための信頼性重視型基盤モデル [cs.CV, cs.AI, cs.LG]目的：地球観測における基盤モデルの信頼性向上のためのフレームワーク
- 地球観測は，気候変動や災害対策において不可欠であり，高精度な情報が求められる。
- 基盤モデルは，学習データに偏りがあると，未知の環境下で信頼性が低下する課題がある。
- 信頼性の低い予測を検出し，予測を控えることで，現実世界での利用における安全性を高める。
- SHRUG-FMは，入力空間，埋め込み空間における分布外検出と，予測不確実性の３つの指標を統合する。
- ３つの災害マッピングタスクにおいて，従来の単一指標を用いた手法よりも予測リスクを低減することを示した。
- 浅い決定木を用いることで，予測を控える閾値の解釈性を担保し，安全な利用を促進する。
Link: https://arxiv.org/abs/2511.10370
ビデオP2R：知覚から推論への動画理解 [cs.CV, cs.AI, cs.LG]目的：大規模動画言語モデルにおける動画推論能力の向上
- 動画理解は，AI技術の発展において不可欠であり，様々な応用分野への貢献が期待される。
- 大規模動画言語モデルへの強化学習の適用は困難であり，動画推論能力の向上が課題となっている。
- 知覚と推論を明確に分離したフレームワークにより，動画の推論能力を向上させることを目指す。
- 提案手法VideoP2Rは，知覚と推論を別プロセスとしてモデル化する新しい強化学習フレームワークである。
- 高質なプロセスを意識したChain-of-ThoughtデータセットVideoP2R-CoT-162Kを構築し，PA-GRPOアルゴリズムを導入した。
- 7つの動画推論・理解ベンチマークのうち6つで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.11113
EmoVerse：解釈可能な視覚感情分析のためのMLLM駆動感情表現データセット [cs.CV]目的：解釈可能な視覚感情分析のための大規模感情表現データセット
- 視覚情報と人間の感情の乖離を埋める試みであり，感情理解の深化に不可欠である。
- 既存データセットは画像全体に単一の感情ラベルを付与するのみで，感情が生じる根拠が不明確である。
- 視覚要素と感情の関連性を明らかにし，感情分析の解釈可能性を高めることを目指す。
- EmoVerseは，背景・属性・主題(B-A-S)の要素分解と視覚領域への対応付けにより，感情の理由を詳細に分析可能である。
- 本データセットは，カテゴリカル感情状態(CES)と次元感情空間(DES)の両方の注釈を含み，離散的・連続的な感情表現を統合的に扱える。
- 視覚的特徴とDES表現の対応を学習する解釈可能なモデルを提示し，詳細な説明可能性を実現している。
Link: https://arxiv.org/abs/2511.12554
BridgeEQA：実世界の橋梁点検のための仮想具現化エージェント [cs.CV, cs.AI]目的：橋梁点検におけるエピソード記憶型質問応答のベンチマーク
- 現実世界での具現化エージェント活用は，インフラ維持管理において重要性を増している。
- エピソード記憶型質問応答のベンチマークが不足しており，現実的な環境での応用が困難である。
- 橋梁点検という課題を通して，エピソード記憶型質問応答の性能向上を目指す。
- 200の橋梁シーンから構成される，2,200組の質問応答ペアからなるBridgeEQAベンチマークを公開した。
- モデルが関連画像を引用する能力を評価する，Image Citation Relevanceという新しい評価指標を提案した。
- 最新のビジョン言語モデルの性能に大きな差があることを明らかにし，EMVRという新たな手法を提案した。
Link: https://arxiv.org/abs/2511.12676
OmniZip：高速全モダル大規模言語モデルのための音声誘導動的トークン圧縮 [cs.IR, eess.SY, cs.SY, math.OC, cs.CV]目的：全モダル大規模言語モデルにおける計算コストの削減
- 近年，音声と映像を統合的に理解する全モダル大規模言語モデルの研究が活発化している。
- 長時間の音声・映像トークン列の処理には計算コストがかかり，ボトルネックとなっている。
- 音声の情報を活用し，マルチモーダルなトークンを動的に圧縮することで，推論速度とメモリ使用量を改善する。
- OmniZipは，他の最先端手法と比較して，3.42倍の推論速度向上と1.4倍のメモリ削減を達成した。
- 学習を必要とせず，音声に誘導されることで，マルチモーダルなトークン表現を最適化し，推論を高速化する。
- 全モダル大規模言語モデルの性能を維持しつつ，計算効率を大幅に改善する。
Link: https://arxiv.org/abs/2511.14582
BOP-ASK：ビジョン言語モデルのための物体相互作用推論 [cs.CV, cs.RO]目的：物体相互作用推論のための大規模データセット
- 現実世界の応用には，精密な3D定位や物体間の物理的適合性理解が不可欠である。
- 既存の評価基準は，高レベルな関係性に偏っており，詳細な空間理解を評価できていない。
- 詳細な空間理解と物体相互作用推論能力をVLMsに付与することを目的とする。
- BOP-ASKは，6つのタスクに対応する15万枚以上の画像と3300万の質問回答ペアを含む。
- BOP-ASKで学習したモデルは，ベースラインモデルを上回り，優れた性能を発揮する。
- 物体や把持ポーズ推定，経路計画，詳細な物体中心空間推論などの創発的機能を示す。
Link: https://arxiv.org/abs/2511.16857
FireScope：思考の連鎖オラクルを用いた山火事リスク予測 [cs.CV, cs.LG]目的：山火事リスクの予測
- 地球温暖化により山火事の頻度と規模が増大しており，社会への影響が深刻であるため。
- 既存手法は，因果関係の推論やマルチモーダルな理解が不十分で，汎化性能が低いという課題がある。
- 視覚的，気候的，地理的要素を統合し，大陸を跨いだ汎化性能を持つリスク予測モデルを構築すること。
- FireScopeは，米国で学習し，ヨーロッパでテストすることで，大幅な性能向上を達成した。
- 専門家によるフィードバックと自動解析により，FireScopeの推論過程が忠実かつ意味的に妥当であることが確認された。
- 言語に基づく推論が，視覚的生成における汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2511.17171
大規模言語モデルとビジョン言語モデルにおける数え上げメカニズムの理解 [cs.CV, cs.AI]目的：大規模言語モデルおよびビジョン言語モデルにおける数値情報の表現と計算
- AIの能力向上には，基本的な数値処理能力の理解が不可欠である。
- モデルがどのように数を数え，数値情報を処理しているかのメカニズムは未解明である。
- モデル内部の数え上げメカニズムを解明し，その過程を詳細に分析すること。
- 個々のトークンや視覚的特徴が潜在的な位置情報と数値を符号化し，文脈間で転移可能であることが示された。
- 数値表現は層ごとに徐々に現れ，下位層は少数のカウントを，上位層はより大きなカウントを表現することが明らかになった。
- モデルはテキストの区切り文字のような構造的手がかりに依存しており，それが項目数の追跡を助け，数値予測の精度に大きく影響することがわかった。
Link: https://arxiv.org/abs/2511.17699
NVGS: 3Dガウススプラッティングにおけるオクルージョンカリングのためのニューラル可視性 [cs.RO, cs.CL, cs.CV, cs.GR]目的：3Dガウススプラッティングにおけるオクルージョンカリングの実現
- 3Dコンテンツの高品質なレンダリングは，VR/ARなどの応用において不可欠である。
- ガウスの半透明性により，効率的なオクルージョンカリングが困難であった。
- ニューラルネットワークを用いてガウスの可視性を学習し，オクルージョンカリングを可能とする。
- 提案手法は，シーン内のガウスの可視性関数を学習することで，オクルージョンカリングを実現した。
- Tensor Coreを活用した高速な計算により，レンダリングパイプラインに組み込める。
- VRAM使用量と画像品質の点で既存手法を上回り，LoD技術とも相補的な効果を示す。
Link: https://arxiv.org/abs/2511.19202
音楽譜理解ベンチマーク：大規模言語モデルの楽譜全体理解能力の評価 [cs.CL, cs.SD, cs.AI]目的：音楽譜レベルの理解に関する評価基準
- 音楽は人類の文化において重要な役割を担うため，その理解は不可欠である。
- 大規模言語モデルにおける楽譜全体の解釈能力は，十分に検証されていない。
- 楽譜全体の理解能力を客観的に評価し，モデルの改善を促すこと。
- MSU-Benchは，テキスト形式（ABC記譜法）と視覚形式（PDF）の両方に対応した，楽譜レベルの理解を評価するためのベンチマークである。
- 15以上の最先端モデルの評価により，モダリティ間の性能差，レベルごとの不安定さ，多層的な正しさの維持の難しさが明らかになった。
- ファインチューニングにより，モダリティを問わず性能が大幅に向上し，MSU-Benchはマルチモーダル推論研究の堅牢な基盤となることが示された。
Link: https://arxiv.org/abs/2511.20697