arXiv雑要約

画像・音声 - 2026/04/21 公開

MODEST：多光学レンズによる奥行きのある立体画像データセット [cs.CV, cs.AI, cs.LG, eess.IV]目的：実光学条件下における信頼性の高い深度推定
- 自動運転や拡張現実などのカメラビジョン技術において，深度推定は不可欠な要素である。
- 大規模かつ高精細な実写ステレオDSLRデータセットが不足しており，実世界への汎化が課題となっている。
- 実写光学系のリアリズムを再現し，深度推定や奥行きのある画像生成における課題解決を目指す。
- 本データセットは，5472×3648ピクセルの高解像度ステレオ画像18000枚を提供し，焦点距離と絞りを系統的に変化させている。
- 多様なシーンにおいて，10種類の焦点距離（28-70mm）と5種類の絞り（f/2.8-f/22）を組み合わせた50の光学設定で撮影された画像を使用している。
- 本研究は，合成データと実写光学系の乖離を埋め，最先端の深度推定手法の課題を明らかにしている。
Link: https://arxiv.org/abs/2511.20853
OVOD-Agent：積極的視覚的推論と自己進化型検出のためのマルコフ・バンディットフレームワーク [cs.AI, cs.CV]目的：オープンボキャブラリ物体検出の性能向上
- 視覚情報と言語情報を統合することで，物体検出の汎化性能を高めることが期待されている。
- 既存手法は固定されたカテゴリ名に限定され，マルチモーダル学習とユニモーダル推論の乖離が生じている。
- テキスト空間の探索を通して，より効果的な物体検出を実現することを目指す。
- OVOD-Agentは，カテゴリマッチングを能動的な視覚的推論と自己進化型検出に変換する。
- 視覚的文脈の遷移をマルコフ決定過程としてモデル化し，バンディットモジュールで探索信号を生成する。
- COCOとLVISでの実験により，特に稀なカテゴリにおいて性能向上が確認された。
Link: https://arxiv.org/abs/2511.21064
PowerCLIP：コントラスト学習のための冪集合アラインメント [cs.AR, cs.CV]目的：コントラスト学習における冪集合アラインメントによる画像とテキストの関連付け最適化
- 画像と言語を関連付ける研究は，多様なタスクで高い性能を示す基盤技術である。
- 複数領域にまたがる意味構造の捉え方が課題であり，詳細な構成的理解が困難である。
- 冪集合アラインメントを通じて，画像領域とテキストフレーズ間の関連性を網羅的に最適化する。
- PowerCLIPは，画像領域とテキストの解析木間の損失を最小化することで，構成的な意味理解を強化する。
- 非線形集約器(NLA)を導入し，計算量を大幅に削減しつつ，損失値を高精度に近似する。
- ゼロショット分類および検索タスクにおいて，最先端手法を上回り，構成性とロバスト性を実証する。
Link: https://arxiv.org/abs/2511.23170
Mammo-FM：乳房画像診断，予後予測，レポート作成のための領域特化型基盤モデル [cs.CV]目的：乳房画像診断，病理学的局在化，構造化レポート生成，および癌リスク予後予測を統合的に行うための基盤モデル
- 乳癌は女性の死亡原因上位であり，早期発見と適切な治療が重要である。
- 既存の汎用的な基盤モデルでは，乳房画像特有のタスクにおける性能が十分でない場合がある。
- 乳房画像診断に関わる一連のタスクを効率的に処理できる，領域特化型の基盤モデルを開発すること。
- Mammo-FMは，14万件以上の症例を含む大規模なデータセットで事前学習された，乳房画像診断に特化した初の基盤モデルである。
- 既存の汎用的な基盤モデルと比較して，Mammo-FMは，より少ないパラメータで優れた性能を示すことが示された。
- 画像とテキスト間の整合性により，視覚的およびテキストによる解釈可能性が向上し，臨床現場での利用を促進する。
Link: https://arxiv.org/abs/2512.00198
MVAD：マルチモーダルAI生成ビデオ・オーディオ検出のためのベンチマークデータセット [cs.CV]目的：マルチモーダルAI生成ビデオ・オーディオ検出のための包括的なデータセット
- AI技術の発展に伴い，ビデオ・オーディオコンテンツの偽造が容易になり，情報セキュリティ上の懸念が高まっている。
- 既存のデータセットは主に映像のみに焦点を当てており，音声を含むものは顔のディープフェイクに限られるため，汎用的な検出システムの開発を阻害している。
- 現実的なビデオ・オーディオの偽造パターンを網羅し，多様な生成モデルを用いた高品質なデータセットを提供することで，この課題を解決する。
- MVADは，リアルな映像スタイルとアニメスタイル，多様なコンテンツカテゴリ，そしてビデオ・オーディオのデータタイプを網羅する。
- 本データセットは，３つの現実的なビデオ・オーディオ偽造パターンに基づき生成された本物のマルチモーダルなサンプルを含む。
- MVADは，AI生成コンテンツの検出における信頼性の高いシステム開発を支援するための基盤となる。
Link: https://arxiv.org/abs/2512.00336
ViT³：ビジョンにおけるテスト時学習の解放 [cs.CV]目的：ビジョンにおけるテスト時学習のデザイン原則の確立
- 効率的な系列モデリングが求められる中で，テスト時学習は有望な手法として注目されている。
- 視覚的テスト時学習のデザインは依然として難しく，内側モジュールや学習方法に関する指針が不足している。
- 効果的な視覚的テスト時学習のデザイン原則を明らかにし，今後の発展を促すことを目指す。
- 実験と分析の結果，効果的な視覚的テスト時学習のための6つの実用的な知見が得られた。
- 得られた知見を基に，線形計算複雑度と並列化可能な計算を持つ純粋なテスト時学習アーキテクチャViT³を開発した。
- ViT³は，画像分類，生成，物体検出，セマンティックセグメンテーションなどの多様なタスクで，既存の線形複雑度モデルと同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2512.01643
フローベースモデルにおける高速尤度評価とサンプリングのための共同蒸留 [cs.LG, cs.CV]目的：フローベースモデルにおける尤度評価とサンプリングの高速化
- 生成モデルの比較やファインチューニング，様々な応用において，尤度評価は重要な役割を果たす。
- 拡散モデルやフローベースモデルは，尤度計算に膨大な計算コストを要するという課題があった。
- サンプリングと尤度評価の両方を大幅に高速化する手法を開発し，計算ボトルネックを解消する。
- 本研究では，尤度評価とサンプリングに必要なニューラル関数評価（NFE）数を2桁削減する「F2D2」を提案した。
- F2D2は，連続正規化フローの基盤となる速度場を共有することで，サンプリング軌跡と累積ダイバージェンスを同時に蒸留する。
- 実験により，F2D2が少ないステップ数で高精度な尤度評価と高品質なサンプル生成を両立できることが示された。
Link: https://arxiv.org/abs/2512.02636
生物音響のための状態空間モデル：Transformerとの比較評価 [cs.SD, cs.AI]目的：生物音響におけるMambaアーキテクチャの有効性評価
- 環境音響学は，生態系の変化を捉え，生物多様性保全に不可欠である。
- Transformerモデルは高性能だが，計算資源を多く必要とする点が課題である。
- 計算効率の高いモデルを開発し，実環境でのモニタリングを可能にすること。
- BioMambaは，多様な分類・検出タスクにおいて，Transformerモデル(AVES)と同等の性能を発揮した。
- BioMambaはAVESと比較して，VRAM消費量を大幅に削減することに成功した。
- Mambaアーキテクチャは，環境モニタリングにおける計算効率の良い代替手段となり得る。
Link: https://arxiv.org/abs/2512.03563
リアルアバター：無限長に対応するリアルタイム音声駆動アバター生成 [cs.CV]目的：リアルタイム，ストリーミング，無限長のアバター生成
- 近年，アバター技術はコミュニケーションやエンターテイメントにおいて重要な役割を担っている。
- 既存の拡散モデルは逐次的なノイズ除去と長期的ドリフトにより，リアルタイム性と無限長生成が困難である。
- 本研究では，拡散モデルのアルゴリズムとシステムを共同設計し，この問題を解決することを目指す。
- 提案手法Live Avatarは，140億パラメータの拡散モデルに対し，45FPS，TTFF 1.21秒を達成した。
- 二段階パイプラインとタイムステップ強制並列化により，高速かつ安定なアバター生成を実現した。
- 長期的ドリフトや視覚的アーティファクトを抑制し，10000秒を超える無限長生成を可能にした。
Link: https://arxiv.org/abs/2512.04677
CARI4D：人間と物体のインタラクションのカテゴリに依存しない4次元再構成 [cs.CV]目的：人間と物体のインタラクションの4次元再構成
- 人間理解，ゲーム，ロボット学習などへの応用が期待され，重要な研究分野である。
- 単一のRGB画像からは，未知の物体情報，深度の曖昧さ，オクルージョン，複雑な動きにより，一貫した3次元・時間的再構成が困難である。
- カテゴリに依存せず，汎用的な人間と物体のインタラクションの4次元再構成を実現し，その精度向上を目指す。
- 提案手法CARI4Dは，既存手法と比較して，分布内データセットで38%，未知データセットで36%高い再構成精度を達成した。
- 学習に使用したカテゴリを超えて汎化可能であり，インターネット上の動画にもゼロショットで適用できる。
- 個々の予測を統合し，レンダリングと照合を繰り返すことで空間・時間・ピクセルレベルでの整合性を確保している。
Link: https://arxiv.org/abs/2512.11988
コーナーケースでの運転：エンドツーエンド自動運転のための実世界敵対的閉ループ評価プラットフォーム [cs.CV, cs.RO]目的：エンドツーエンド自動運転システムの評価
- 自動運転技術の安全性向上は社会実装において不可欠であり，極めて重要な課題である。
- 現実世界で収集困難な危険な状況（コーナーケース）が，自動運転システムの安全性を評価する上で課題となっている。
- 実世界環境において，敵対的な状況を生成し，自動運転システムの潜在的な問題を検出することを目的とする。
- 本プラットフォームは，フローマッチングに基づき，現実的な運転画像を効率的かつ安定的に生成できる。
- 敵対的な交通ポリシーに基づき，UniADやVADといったエンドツーエンドモデルの性能劣化をコーナーケースにおいて評価できる。
- 本プラットフォームは，自動運転システムの潜在的な問題を効果的に検出し，安全性と信頼性の向上に貢献する。
Link: https://arxiv.org/abs/2512.16055
FlashLips：拡散モデルやGANを用いない再構成による100FPSのマスクフリーな潜在的リップシンク [cs.CV]目的：マスクフリーなリップシンクシステムの実現
- 映像制作における人物の口の動きの調整は，リアリティを高める上で不可欠である。
- 既存手法は計算コストが高く，リアルタイム処理が困難である場合が多い。
- リアルタイム性と高品質性を両立するリップシンク手法を開発すること。
- FlashLipsは，再構成に基づき，拡散モデルやGANを用いることなくリアルタイムなリップシンクを実現した。
- U-Netモデルを用いて，単一GPU上で100FPS以上の処理速度を達成し，既存モデルと同等の視覚品質を維持した。
- 自己教師あり学習により，明示的なマスクなしで，口元の編集を正確に行うことが可能となった。
Link: https://arxiv.org/abs/2512.20033
クロスサブジェクトソフトROI融合による統一マルチモーダル脳デコーディング [cs.LG, cs.CV, eess.IV]目的：マルチモーダル脳デコーディングにおけるセマンティック情報の再構築と自然言語記述の生成
- 脳活動から意味情報を読み取ることで，認知メカニズムの解明やブレイン・マシン・インターフェースの発展に貢献する。
- 個人間の脳機能の多様性により，異なる被験者間での汎化性能が課題となっている。
- 脳機能の多様性を克服し，個人間の知識転移を可能にする新たなアプローチを確立する。
- 提案手法BrainROIは，NSDデータセットにおける脳キャプション評価で最先端の性能を達成した。
- クロスサブジェクト設定において，BLEU-4やCIDErなどの評価指標で既存手法を上回る明確な改善が確認された。
- 解釈可能なプロンプト最適化により，プロンプト設計の安定性と透明性が向上し，生成される記述の質が改善された。
Link: https://arxiv.org/abs/2512.20249
MegaRAG：マルチモーダル知識グラフに基づく検索拡張生成 [cs.AI, cs.CL, cs.CV, cs.IR]目的：マルチモーダル知識グラフを用いた検索拡張生成手法
- LLMの知識獲得能力向上は，未学習文書への対応を可能にし，応用範囲を拡大する。
- 既存のRAGは，文脈長の制限により，長文コンテンツの深い推論が困難である。
- 視覚情報を含むマルチモーダルな推論能力を備えたRAGの実現を目指す。
- 本研究では，知識グラフ構築，検索，応答生成に視覚情報を組み込んだMegaRAGを提案する。
- MegaRAGは，テキストとマルチモーダル両方のデータセットにおいて，既存のRAG手法を上回る性能を示す。
- 視覚的，テキスト的，空間的な情報を統合することで，より高度な内容理解を可能にする。
Link: https://arxiv.org/abs/2512.20626
欠損パターン木に基づく決定グループ化とアンサンブルによる，深層不完全マルチビュークラスタリングにおけるペア利用の強化 [cs.LG, cs.CV]目的：不完全マルチビュークラスタリングにおけるペア利用率の向上
- 現実世界のデータは多くの場合マルチビューであり，多様な応用において重要な役割を果たす。
- マルチビューデータには欠損パターンが不一致な場合が多く，クラスタリングの性能を低下させる。
- 欠損パターンに対応し，利用可能なペアを最大限活用することでクラスタリング精度を向上させる。
- 提案手法では，欠損パターン木を用いてデータを複数の決定集合にグループ化し，各集合内でマルチビュークラスタリングを行う。
- 決定集合間のクラスタリング結果をアンサンブルすることで，不確実性に基づく重みを付与し，よりロバストな出力を得る。
- アンサンブルの知識を個々のビュー固有のクラスタリングモデルに伝達し，相互に強化することで性能を向上させている。
Link: https://arxiv.org/abs/2512.21510
多連結自由曲面における境界適合螺旋ツールパスのためのトポロジー保存スカラー場最適化 [cs.RO, cs.GR]目的：多連結自由曲面上の境界適合螺旋ツールパス生成のためのスカラー場最適化手法
- 自動車・航空宇宙産業における高精度かつ効率的な部品加工に，複雑な形状への工具経路計画が不可欠である。
- スカラー場最適化は多目的ツールパス生成の統一的な枠組みを提供するものの，境界適合性と特異点の解消が課題であった。
- 多連結曲面における境界適合性と連続性を確保しつつ，特異点問題を解決する。
- 本研究では，等値線分岐や終端を引き起こす零勾配特異点を解消しつつ，境界適合性を維持する効率的な戦略を提案した。
- 提唱手法は，既存手法と比較して，加工効率を14.24%向上，スキップ高さを5.70%均一化し，振動を10%以上低減することを示した。
- 本戦略は，高性能な機械加工分野への幅広い応用が期待される。
Link: https://arxiv.org/abs/2512.22502
エキソビボとインビボのギャップを埋める：鏡面反射のある手術環境における単眼深度推定のための合成事前知識 [cs.CV, cs.RO]目的：単眼深度推定の精度向上
- 自律手術ロボットの実現には，正確な深度推定が不可欠である。近年，その重要性が増している。
- 既存手法は，公開データセットでは高い精度を示すが，実際の臨床環境では性能が低下する課題がある。
- 手術特有の鏡面反射や変形に強く，臨床環境で有効な深度推定手法を開発することを目指す。
- 本研究では，Depth Anything V2の合成事前知識を活用し，DV-LORAを用いて医療分野への適応を効率化する。
- 公開データセットSCAREDにおいて，新規評価プロトコル下で，高鏡面反射領域における二乗相対誤差を17％以上削減した。
- 臨床内視鏡シーケンス90件からなる実手術検証データセットROCAL-T 90を新たに提供し，臨床環境での頑健性を実証した。
Link: https://arxiv.org/abs/2512.23786
RainFusion2.0：時空間認識とハードウェア効率の良いブロック単位の疎注意 [cs.CV]目的：動画および画像生成における高速化
- 動画・画像生成は，様々な応用において重要な技術であり，その効率化が求められている。
- 拡散Transformerモデルは計算コストが高く，実用上の制約となっている。
- 本研究は，ハードウェアに依存せず，低オーバーヘッドで効率的な疎注意機構を開発し，計算コストを削減することを目指す。
- RainFusion2.0は，80%の疎性を達成しながら，動画品質を損なうことなく，エンドツーエンドで1.5～1.8倍の高速化を実現した。
- ブロック単位の平均値を代表トークンとして活用し，疎なマスク予測を行うことで，計算効率を高めている。
- 多様な生成モデルやハードウェアプラットフォームにおいて有効性が確認され，汎用性も示された。
Link: https://arxiv.org/abs/2512.24086
TimeColor：時間的連結による柔軟な参照カラー化 [cs.CV]目的：異種多様な参照画像を用いたスケッチベースの動画カラー化
- 動画のカラー化は，古い映像の修復や，アニメーション制作において重要な技術である。
- 既存手法では，最初のフレームのみを参照対象としており，他の有用な情報源を活用できていない。
- 複数の参照画像を効果的に活用し，より高品質で一貫性のある動画カラー化を実現すること。
- TimeColorは，参照画像を潜在的なフレームとして時間的に連結することで，複数の参照画像を同時に処理可能にした。
- これにより，モデルのパラメータ数を固定したまま，カラーの忠実度，IDの一貫性，時間的安定性が向上した。
- Sakuga-42Mデータセットにおける実験により，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2601.00296
視覚言語モデルにおける誤った推論のベンチマーク：MMErroR [cs.CL, cs.CL, cs.CV, cs.AI, cs.LG]目的：視覚言語モデルの誤った推論検出能力の評価
- 近年のマルチモーダル学習の進展は目覚ましいが，モデルが内容を真に理解しているか疑問視されている。
- 既存のベンチマークは正答率に焦点を当てており，推論過程の誤りを検出する評価が不足している。
- 視覚と言語の両方の文脈から誤った推論を検出し，その種類を分類する能力の評価を目指す。
- MMErroRは，1997サンプルからなるマルチモーダルベンチマークであり，各サンプルに一貫した推論エラーが含まれている。
- 評価した12種類のVLMsにおいて，最良のGemini-3-Pro-Previewでさえ，エラーを正しく分類できたのは66.65%にとどまった。
- エラーの正確な特定能力は，マルチモーダルモデルの潜在能力を把握するための貴重な洞察を提供する。
Link: https://arxiv.org/abs/2601.03331
多階層データモデリングによる音声対話からの半教師あり疾患検出 [cs.SD, cs.AI]目的：音声対話からの疾患検出手法
- 音声による疾患検出は，医療現場での早期発見や効率的な診断に貢献しうる重要な研究分野である。
- 臨床データの不足や主観的なアノテーション，そして音声データ内の微細な特徴と全体的なラベルとの乖離が課題である。
- 多階層的なデータモデリングにより，ラベル付きデータが少ない状況でも高精度な疾患検出を目指す。
- 提案手法は，フレームレベル，セグメントレベル，セッションレベルの多階層表現を統合的に学習することで，疑似ラベルの品質を向上させる。
- 実験の結果，本手法はモデルに依存せず，言語や条件に強く，少ないラベルデータでも高い性能を発揮することが示された。
- わずか11サンプルのみで，フル教師あり学習の90%の性能を達成し，弱教師あり学習の有効性を実証した。
Link: https://arxiv.org/abs/2601.04744
言語特定事前知識なしでのヒエログリフ文字のストロークレベル構造解析の実現 [cs.CL, cs.CL, cs.CL, cs.CV, cs.CL]目的：ヒエログリフ文字のストロークレベル構造解析手法
- ヒエログリフは豊富な意味・文化情報を内包するが，その構造的情報を活用した研究は限られていた。
- 既存の手法は言語特有であり，手作業による労力が大きいという課題があった。
- 言語特定事前知識なしで，ヒエログリフのストロークレベル構造を自動的に解析することを目的とする。
- 提案手法HieroSAは，文字画像をストロークレベルの線分表現に変換し，言語横断的な一般化を可能にする。
- 実験により，HieroSAが文字内部の構造と意味を効果的に捉えることが示された。
- 本研究は，ヒエログリフ文字のより深い理解を促すグラフェマティクス分析ツールとしての可能性を示す。
Link: https://arxiv.org/abs/2601.05508
音声大規模言語モデルにおけるモダリティ推論ギャップの解消 [cs.CL, cs.SD, eess.AS]目的：音声大規模言語モデルのモダリティ推論ギャップの縮小
- 音声処理と自然言語処理の融合は，人間と機械の自然な対話を可能にする上で重要である。
- 音声入力に対する推論性能がテキスト入力に比べて劣るという課題が存在する。
- Transformer層間の表現のずれと長鎖推論における振る舞いの逸脱を是正することを目指す。
- TARSという，非対称な報酬設計に基づく強化学習フレームワークを提案した。
- このフレームワークは，隠れ状態の類似度と生成出力の整合性を評価する二つの信号を用いる。
- MMSUやOBQAなどのベンチマークにおいて，最先端の性能を達成し，モダリティ推論ギャップを大幅に縮小した。
Link: https://arxiv.org/abs/2601.05543
報道の多角的プレビューにおける見過ごされがちな情報の検出と修正 [cs.CV, cs.SI]目的：多角的ニュースプレビューにおける誤解を招く情報の省略の検出と修正
- ソーシャルメディアでの情報拡散は速いが，誤解や偏った判断を招く可能性もある。
- 記事全体を読むことなくプレビューのみで判断する場合，重要な文脈が抜け落ちやすい。
- プレビューが誘導する誤解を検出し，より正確な報道を実現することを目的とする。
- 既存のLVLM（大規模言語・視覚モデル）は，省略に基づく誤解の検出に課題があることが明らかになった。
- OMGuardは，LVLMの精度を向上させ，誤解を招くヘッダーを修正することで，より正確な情報伝達を可能にする。
- 誤解の多くは，グローバルなフレームの変化よりも，背景情報の欠如など局所的なナラティブの変化に起因する。
Link: https://arxiv.org/abs/2601.05563
文脈が重要：VLMアクション解析とLLMシーケンス分類によるピア認識型学生行動エンゲージメント測定 [cs.CV, cs.AI]目的：学生の行動エンゲージメント測定
- 教育の質と学生のエンゲージメント向上には，教室内の学生の行動理解が不可欠である。
- 既存手法は多様な行動をモデル化するために大量の注釈付きデータが必要だが，プライバシー問題がデータ収集を制限している。
- 本研究は，ピアの行動を示す教室の文脈を考慮したエンゲージメント測定を目指す。
- 提案手法では，数少ないサンプルで学生のアクション認識を行うVLMのファインチューニングを活用する。
- 連続的で予測不可能な行動に対応するため，時間窓技術を用いて動画を分割し，LLMでアクションシーケンスを分類する。
- 実験結果から，提案手法が学生のエンゲージメントを効果的に識別できることが示された。
Link: https://arxiv.org/abs/2601.06394
木を見て森を見ず：効率的な視覚的推論のための潜在的な重ね合わせ [cs.CL, cs.CV]目的：視覚的推論における潜在的な重ね合わせによる効率化
- 大規模な視覚言語モデルの推論能力向上は，AI研究において重要な課題である。
- 既存の推論方法は，離散的なトークン化により視覚情報の詳細が失われる問題がある。
- 潜在的な重ね合わせを用いて，視覚情報の保持と効率的な推論を両立することを目指す。
- 提案手法Laserは，動的なウィンドウを用いたアラインメント学習により，視覚的推論の精度を向上させる。
- Laserは，グローバルな特徴を確率的に重ね合わせることで，早期のセマンティック崩壊を防ぐ。
- 実験の結果，Laserは既存手法を上回り，推論に必要なトークン数を大幅に削減することに成功した。
Link: https://arxiv.org/abs/2601.06803
現実の写真に基づく顔のみの反事実を用いて，ビジョン言語モデルにおける社会的な偏りを測定する [cs.CV, cs.AI, cs.CL]目的：ビジョン言語モデルにおける社会的な偏りの測定
- 社会的に重要な場面で利用が増加しており，人口統計学的要因に起因する偏りが懸念されている。
- 実世界の画像は，背景や服装などと混同されており，偏りの原因特定が困難である。
- 顔の特徴のみを操作することで，実画像に近い形で偏りを定量的に評価することを目指す。
- 顔の特徴のみを編集する反事実評価により，人口統計学的要因の影響を分離的に評価できる。
- 構築したFOCUSデータセットとREFLECTベンチマークを用いて，最先端のVLMsにおける偏りを検証した。
- 厳密な視覚的制御下でも人口統計学的差異が残り，タスクの設計が偏りの評価に重要であることが示された。
Link: https://arxiv.org/abs/2601.06931
RSA-Bench：現実世界の音響シナリオにおける音声大規模モデルのベンチマーク [cs.SD]目的：音声大規模モデルの現実環境における頑健性の評価
- 音声認識技術は，多様な応用分野で重要性を増しており，その性能向上は不可欠である。
- 既存の評価方法では，現実世界の複雑な音響環境を十分に再現できず，モデルの汎化性能を正確に測れない。
- 現実的な音響環境下での音声大規模モデルの弱点を明らかにし，よりロバストなモデル開発に貢献すること。
- 音声大規模モデルは，低レベルの認識タスクでは比較的高い性能を維持するが，高次の推論タスクでは著しく性能が低下する。
- 「声のような」干渉音（例：背景の笑い声）は，機械的なノイズよりもモデルに大きな悪影響を及ぼすことが示された。
- 標準的な音声強調処理が，音声大規模モデルの性能劣化を招く場合があり，ノイズ除去による意味歪みが影響していると考えられる。
Link: https://arxiv.org/abs/2601.10384
効率的な幻覚軽減のためのアテンション空間コントラストガイダンス [cs.CV, cs.AI, cs.LG]目的：大規模ビジョン言語モデルにおける幻覚軽減
- ビジョン言語モデルの性能向上は，画像とテキストの理解を深める上で不可欠である。
- 既存モデルは言語事前知識に偏りやすく，視覚的証拠に基づかない幻覚を起こしやすい。
- 視覚に基づいた，より忠実なテキスト生成を促すことで幻覚を軽減することを目指す。
- アテンション空間コントラストガイダンス（ACG）は，自己注意層で幻覚を引き起こすクロスモーダルバイアスを抑制する。
- ACGは，画像条件付きとテキストのみのアテンションパスを構築し，効率的なガイダンスを実現する。
- CHAIRおよびPOPEでの実験により，既存手法と比較して忠実性が向上し，低遅延であることが示された。
Link: https://arxiv.org/abs/2601.13707
思考の流れを画像化：視覚的潜在的推論のためのテキスト思考の流れのレンダリング [cs.CL, cs.CV]目的：大規模言語モデルの潜在的推論過程の可視化と効率化
- 大規模言語モデルの推論能力向上は，自然言語処理の重要な課題である。
- 思考の流れ（CoT）は有効だが，冗長性が高く計算コストが大きいという課題がある。
- テキストによる思考の流れを画像に変換し，推論過程の可視化と高速化を目指す。
- RoTフレームワークにより，テキスト思考の流れを画像として表現することで，潜在的な推論過程を明示的に追跡可能にした。
- 既存の画像言語モデルを活用することで，追加の事前学習を必要とせず，容易に実装できる。
- 数学的・論理的推論タスクにおいて，CoTと比較して3〜4倍のトークン圧縮と大幅な推論速度向上を達成した。
Link: https://arxiv.org/abs/2601.14750
VideoThinker：LLMによるツール推論を用いた能動的ビデオLLMの構築 [cs.CV, cs.AI]目的：長編ビデオ理解のための能動的なビデオLLMの構築
- ビデオLLMは，映像コンテンツの理解において重要な役割を担う。特に長編ビデオの理解は困難である。
- 既存モデルは，均一にサンプリングされたフレームに基づく静的な推論に頼るため，時間的局在化が弱く，情報損失が大きい。
- 本研究は，合成されたツール操作軌跡を用いて，能動的なビデオLLMを訓練し，長編ビデオ理解の性能を向上させることを目指す。
- VideoThinkerは，強力な言語モデルを用いてキャプション空間で複数ステップのツール使用シーケンスを生成することで，大規模なビデオとツール推論データセットを構築する。
- 訓練データは，キャプションを対応するフレームに置き換えることで生成され，モデルに長編ビデオ理解能力を要求しない。
- VideoThinkerは，既存のモデルと比較して，長編ビデオベンチマークにおいて大幅な性能向上を示し，ツールによる合成データと適応的な検索・ズーム推論の有効性を示す。
Link: https://arxiv.org/abs/2601.15724
道路ひび割れ自動位置特定による高速道路維持管理の誘導 [cs.CV]目的：高速道路維持管理を誘導するための道路ひび割れの位置特定手法
- 経済発展には高速道路網が不可欠であり，維持管理は重要な課題である。
- 気候変動による温度変化が路面に負担をかけ，維持コストが増加している。
- オープンソースデータを用いて，効率的な維持管理戦略の策定を支援する。
- 提案手法は，航空画像とOpenStreetMapを活用し，YOLOv11を微調整することで，高いひび割れ検出性能を実現した。
- スイスの相対ひび割れ密度指数(RHCD)は，長期陸上温度振幅や交通量との弱い相関を示し，新たな指標としての価値を示唆した。
- RHCDの高い値は都市部や交差点付近で観察され，予測結果の妥当性が確認された。
Link: https://arxiv.org/abs/2601.16737
意味拡張による音声言語モデルの汎化可能なプロンプトチューニング [cs.SD, cs.AI, eess.AS]目的：音声言語モデルにおけるプロンプトチューニングの汎化性能向上
- 近年の音声言語モデルの発展に伴い，言語と音声を連携させる技術の重要性が増している。
- 既存のプロンプトチューニング手法は，学習データに過剰適合し，未知のデータへの汎化性能が低いという課題がある。
- プロンプト埋め込み空間のセマンティック構造を明示的に正規化することで，汎化性能の低下を抑制することを目指す。
- 提案手法であるSEPTは，大規模言語モデルを用いて生成されたセマンティックな近傍情報を組み込み，プロンプト埋め込み空間を正規化する。
- SEPTは，イントラクラスの凝縮性とインタークラスの分離性を促進するセマンティック拡張損失を導入する。
- 実験の結果，SEPTは既存のプロンプトチューニング手法と比較して，汎化性能を一貫して向上させることを示した。
Link: https://arxiv.org/abs/2601.20867
空間正則化を考慮した二分岐協調推論によるトレーニングフリーOVSS：リモートセンシング画像への応用 [cs.CV]目的：トレーニングフリーなオープンボキャブラリセマンティックセグメンテーションの性能向上
- リモートセンシング画像は多様なスケールと複雑な境界を持つため，高精度なセマンティックセグメンテーションが求められる。
- 既存のトレーニングフリーOVSS手法は，CLIPとVFMの浅い融合に留まり，複雑な画像に対応できない。
- 空間正則化と二分岐協調推論により，リモートセンシング画像のセグメンテーション精度を向上させる。
- 提案手法SDCIは，クロスモデルアテンション融合モジュールにより，異なるモデル間の協調推論を促進する。
- 双方向クロスグラフ拡散リファインメントモジュールは，反復的なランダムウォーク拡散を通してセグメンテーションスコアの信頼性を高める。
- 低レベルのスーパーピクセル構造と凸最適化に基づく協調予測メカニズムにより，オブジェクト境界の精度を向上させる。
Link: https://arxiv.org/abs/2601.21159
GeoRC：位置情報推論チェーンのベンチマーク [cs.CL, cs.CV, cs.AI, cs.CL, cs.LG]目的：位置情報推論チェーンの評価基準
- 画像とテキストを理解するモデルの性能向上は，多様な応用分野で重要である。
- 既存モデルは位置予測は高いが，その根拠となる視覚的証拠の説明が苦手である。
- GeoGuessrのチャンピオンレベルの専門家による推論チェーンを基に，モデルの推論能力を評価する。
- 本ベンチマークにより，大規模な商用モデルでも専門家レベルの推論チェーン生成には至らないことが示された。
- 小規模なオープンソースモデルは，画像情報なしで位置情報を推測するよりもわずかにしか性能が良くないことが明らかになった。
- モデルが画像から詳細な視覚的特徴を抽出する能力に課題があることが示唆された。
Link: https://arxiv.org/abs/2601.21278
押し出しによる形状の構築学習 [cs.GR, cs.AI]目的：形状構築の表現形式と，それを用いた3Dメッシュ生成手法
- 3Dモデリングは，様々な分野で不可欠であり，その自動化へのニーズは高い。
- 既存の生成モデルは，生成されるメッシュの品質や多様性に課題が残る。
- テキストによる記述から3Dメッシュを生成し，高品質かつ多様な形状を創出する。
- 本研究では，メッシュ構築を面押し出しのシーケンスとして表現するText Encoded Extrusions (TEE) を提案した。
- 大規模言語モデル(LLM)を用いてTEEから3Dメッシュを生成することで，任意の面数に対応し，かつ多様体メッシュを生成可能である。
- 学習された押し出しシーケンスは既存メッシュへの適用も可能であり，生成に加えて編集機能も実現した。
Link: https://arxiv.org/abs/2601.22858
ドメイン汎化のための特権イベントベース予測正則化 (PEPR) [cs.CV]目的：ドメイン汎化問題に対するロバストなRGBモデルの学習
- 現実世界での深層学習モデル利用において，学習データと異なる環境下での性能低下が課題となる。
- 既存手法では，RGBとイベントカメラ間の直接的な特徴量アラインメントがセマンティック情報を損なう。
- イベントカメラを用いた予測正則化により，RGBモデルのドメインシフトに対するロバスト性を高める。
- 提案手法PEPRは，RGBエンコーダがイベントベースの潜在特徴を予測するように学習させることで，ロバスト性を向上させる。
- PEPRは，従来のドメインアラインメント手法と比較して，物体検出およびセマンティックセグメンテーションで優れた性能を示す。
- 特に，昼夜間のドメインシフトに対する耐性が向上し，汎化性能が改善される。
Link: https://arxiv.org/abs/2602.04583
DisCa：蒸留適合型学習可能な特徴キャッシュによるビデオ拡散Transformerの加速 [cs.CV, cs.AI]目的：ビデオ拡散Transformerの加速機構の開発
- ビデオ生成の分野で拡散モデルが成功を収める一方，計算コストが課題となっている。
- 特徴キャッシュは高速化に有効だが，圧縮率を上げるとセマンティクスや詳細が失われやすい。
- 蒸留と特徴キャッシュの組み合わせによる，より効率的なビデオ生成の実現を目指す。
- 蒸留と適合する学習可能な特徴キャッシュ機構を導入し，高次元特徴進化の正確な捕捉を可能にした。
- 大規模ビデオモデルにおける蒸留の安定性を高めるため，Restricted MeanFlowアプローチを提案した。
- 生成品質を維持しつつ，最大で11.8倍の加速を実現した。
Link: https://arxiv.org/abs/2602.05449
PlanViz：コンピュータ利用タスクのための計画志向型画像生成・編集の評価 [cs.CL, cs.CV]目的：コンピュータ利用タスクにおける画像生成・編集の評価基準
- 日常生活に密接に関わるコンピュータ利用タスクの効率化は重要である。
- 既存のマルチモーダルモデルは，空間推論や手順理解が不十分である。
- コンピュータ利用タスクに適応した画像生成・編集能力の評価方法を確立する。
- PlanVizベンチマークを提案し，ルート計画，作業図，Web/UI表示の3つのサブタスクを設計した。
- 人間によるアノテーションと品質管理プロセスにより，データ品質を確保した。
- タスク適応型スコアPlanScoreを提案し，生成画像の正確性，視覚的品質，効率性を評価した。
Link: https://arxiv.org/abs/2602.06663
二重終端一貫性モデル [cs.CE, cs.CL, cs.CV]目的：拡散モデルとフローベース生成モデルの効率的な生成
- 拡散モデルやフローベースモデルは高品質な画像を生成するが，計算コストが高いという課題がある。
- 一貫性モデルは高速化に有効だが，学習の不安定性やサンプリングの柔軟性の低さが問題となる。
- 重要な軌跡クラスタを選択することで，学習の安定化と効率化を目指す。
- 提案手法である二重終端一貫性モデル（DE-CM）は，不安定な自己教師あり項に起因する損失のずれを抑制し，学習を安定化させる。
- DE-CMは，PF-ODE軌跡を分解し，重要な3つのサブ軌跡を最適化対象とすることで，サンプリング時の誤差蓄積を軽減する。
- ImageNet 256x256データセットにおいて，ワンステップ生成でFIDスコア1.70を達成し，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2602.10764
一人称視点動画における音理解のベンチマーク：EgoSound [cs.CV]目的：一人称視点動画における音理解能力の評価
- 人間の知覚は視覚だけでなく，聴覚も重要な役割を果たす。特に，臨場感のある体験においては，音の情報が不可欠である。
- 既存のマルチモーダル大規模言語モデルは，視覚と言語の理解に優れるものの，音理解能力は十分ではない。
- 本研究は，一人称視点動画における音理解能力を定量的に評価するためのベンチマークを構築し，モデルの課題を明確にすることを目指す。
- EgoSoundは，Ego4DとEgoBlindのデータセットを統合し，7つのタスクを含む音理解のベンチマークである。
- 9つの最先端モデルを用いた実験の結果，現在のモデルは基本的な音認識能力を持つものの，空間的・因果的理解には限界があることが示された。
- EgoSoundは，マルチセンサリな一人称視点知能の発展に貢献し，視覚と聴覚の融合を促進する基盤となる。
Link: https://arxiv.org/abs/2602.14122
衝突する粒子のグラフニューラルネットワーク：海氷フロウモデリングへの応用 [cs.LG, cs.AI, cs.CV, physics.comp-ph]目的：海氷の動力学学習と予測
- 気候変動に伴う海氷の減少と，その予測の重要性が高まっている。
- 従来の数値モデルは計算コストが高く，大規模なシミュレーションが困難である。
- GNNとデータ同化を組み合わせることで，効率的かつ高精度な海氷モデルを構築する。
- 提案モデル（Collision-captured Network）は，従来の数値モデルに比べ，計算時間を大幅に短縮できることが示された。
- データ同化技術の導入により，観測データに基づいた高精度な海氷予測が可能となった。
- 周辺氷帯（MIZ）における予測の改善が期待され，機械学習とデータ同化の融合の可能性を示唆する。
Link: https://arxiv.org/abs/2602.16213
ベクトル空間の彫刻：プルーニングとマージによる効率的なマルチベクトル視覚文書検索 [cs.MA, cs.DC, cs.RO, cs.CL, cs.CV, cs.IR]目的：視覚的に豊かな文書の大規模コーパス内から関連ページを検索すること
- マルチモーダル検索応用の重要性が増しており，視覚文書検索は不可欠な要素である。
- 最先端のマルチベクトル法は性能が高いが，計算コストが非常に高く，効率化が課題である。
- プルーニングとマージを組み合わせることで，圧縮率と特徴表現の忠実性のトレードオフを解消する。
- 提案手法「プルーニングとマージ」は，適応的なプルーニングにより低情報領域を除去し，高品質な埋め込み表現を生成する。
- その上で，階層的なマージにより圧縮率を高め，ノイズの影響を抑制しつつ，セマンティック内容を効果的に要約する。
- 29の視覚文書検索データセットにおける実験で，既存手法を凌駕し，高圧縮率下でも堅牢な性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.19549
美しさが役に立たないとき：最新のテキストから画像へのモデルが信頼性の高い訓練データ生成器として失敗する理由の調査 [cs.RO, cs.CV, cs.AI]目的：テキストから画像へのモデルを用いた合成データ生成の性能低下
- 画像認識技術の発展には，大量の訓練データが不可欠である。データ収集のコストやプライバシーの問題もある。
- 近年，合成データが訓練データの代替手段として注目されているが，その実用性には疑問が残されている。
- 最新のテキストから画像へのモデルが，現実世界のデータ分布を適切に反映した訓練データを生成できない問題を解決する。
- 最新のテキストから画像へのモデルは，視覚的な品質は向上しているにも関わらず，訓練データ生成器としての性能は低下している。
- これは，モデルが美的観点に偏り，データの多様性や現実世界の分布を十分にカバーできていないことが原因である。
- 生成モデルのリアリズム向上と，データとしてのリアリズム向上は必ずしも一致しないという重要な示唆が得られた。
Link: https://arxiv.org/abs/2602.19946
QuadSync：タッカー分解による四焦点テンソル同期 [cs.CV, cs.NA, math.NA, math.OC]目的：四焦点テンソルを用いたnカメラの復元
- 三次元構造復元において，カメラの配置復元は重要な課題である。
- 従来の二焦点テンソルでは情報量が限られ，正確な復元が困難な場合がある。
- 四焦点テンソルを活用し，よりロバストなカメラ配置復元を実現する。
- 本研究では，四焦点テンソルがタッカー分解に適していることを示し，その因子行列がカメラ行列に対応することを発見した。
- タッカー分解，ADMM，反復加重最小二乗法を用いた，四焦点テンソル同期アルゴリズムを提案した。
- シミュレーション実験により，提案手法が現代的なデータセットで有効であることが示された。
Link: https://arxiv.org/abs/2602.22639
マルチスペクトルデモザイクにおける透視等変微調整：教師データなし [cs.CV]目的：マルチスペクトルデモザイクの性能向上
- 手術や自動運転など，リアルタイムなスペクトル画像処理の需要が高まっている。
- 従来のデモザイク手法はぼやけやすく，教師あり学習は高価な教師データが必要である。
- 教師データなしで，より高精度なマルチスペクトルデモザイクを実現すること。
- 提案手法PEFDは，カメラの投影幾何学を利用し，従来のデモザイク手法よりも多くの情報量を活用する。
- PEFDは，1-3チャンネル画像向けの事前学習済みモデルを適応させることで，教師データなしでの効率的な学習を実現した。
- 手術および自動車データセットにおいて，PEFDは既存手法を大幅に上回り，教師あり学習に近い性能を示した。
Link: https://arxiv.org/abs/2603.01332
逐語表現から要旨へ：意味情報ボトルネックによるピラミッド型マルチモーダルメモリの蒸留 [cs.CV, cs.AI, cs.CL, cs.IR, cs.MM]目的：長視野ビデオエージェントのためのピラミッド型マルチモーダルメモリの蒸留
- 近年，マルチモーダル大規模言語モデルの性能は飛躍的に向上しているが，長期的なビデオ理解には限界がある。
- 既存手法は，高遅延な視覚中心アプローチか，詳細情報の欠落や幻覚を起こしやすいテキスト中心アプローチに偏っている。
- 人間の認知効率に着想を得たメモリ構造を構築し，情報圧縮とタスク関連情報の保持のバランスを最適化する。
- 提案手法MM-Memは，4つのベンチマークにおいて最先端の性能を達成し，オフラインおよびストリーミングタスクの両方で高い汎化能力を示した。
- MM-Memは，感覚バッファ，エピソードストリーム，象徴的スキーマといった階層的なメモリ構造により，詳細な知覚痕跡を高度な意味スキーマへと効果的に蒸留する。
- 意味情報ボトルネックに基づく目的関数と，SIB-GRPOによる最適化により，メモリの圧縮とタスク関連情報の保持とのトレードオフを調整している。
Link: https://arxiv.org/abs/2603.01455
非同期Provenanceとウォーターマークによる認証の矛盾 [cs.CR, cs.CV, cs.MM, eess.IV]目的：デジタルコンテンツの認証における矛盾の形式化と実証
- デジタルコンテンツの信頼性確保は重要であり，偽造防止が急務である。
- C2PAとウォーターマークは独立して検証されるため，矛盾が生じうる。
- 両者の検証結果を統合することで，矛盾を検出し信頼性を高める。
- C2PAマニフェストとウォーターマークが矛盾する「Integrity Clash」を形式化・実証した。
- 標準的な編集パイプラインで，矛盾するコンテンツが生成可能であることを示した。
- Provenanceとウォーターマークを共同評価するプロトコルで，100%の分類精度を達成した。
Link: https://arxiv.org/abs/2603.02378
負のテキスト選択に注意を払う：VLMを用いたOOD検出における距離の一貫性の追求 [cs.CV]目的：OOD検出における性能向上
- 機械学習モデルを現実世界で活用するには，未知のデータに対する検出能力が不可欠である。
- 既存手法は，VLMが最適化されたモダリティ間距離との矛盾を生じさせ，性能を低下させている。
- モダリティ間距離の一貫性を高めることで，OOD検出の精度を改善することを目指す。
- 提案手法InterNegは，テキストと視覚の両面からモダリティ間距離を強化するシンプルなフレームワークである。
- ImageNetベンチマークでFPR95を3.47%削減し，Near-OODベンチマークでAUROCを5.50%向上させた。
- 複数のベンチマークにおいて，既存手法を上回る最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.02618
トポロジーを意識したグローバルアクション推論による視覚言語ナビゲーション（TagaVLM） [cs.CV, cs.RO]目的：視覚言語ナビゲーションにおける大規模視覚言語モデルの性能向上
- ロボットの自律的な移動を実現する上で，環境理解とナビゲーションは重要な課題である。
- 既存の大規模言語モデルは，静的な画像とテキストの事前学習に偏っており，動的で空間的なナビゲーションには不向きである。
- 視覚・空間情報をテキストに変換する際の情報の損失を軽減し，モデルのグローバルな行動能力を向上させる。
- 提案手法TagaVLMは，視覚言語モデルのバックボーンにトポロジー構造を明示的に組み込むことで，空間的な推論能力を向上させている。
- R2Rベンチマークにおいて，TagaVLMはSuccess Rate (SR) 51.09%，SPL 47.18を達成し，既存手法を大きく上回った。
- 小規模なオープンソースVLMsへのターゲットを絞った改良が，モデルの単純なスケールアップよりも効果的であることを示している。
Link: https://arxiv.org/abs/2603.02972