arXiv雑要約

画像・音声 - 2026/03/25 公開

視覚言語モデルは測定に耐えうるか？MeasureBenchによる視覚的測定読解のベンチマーク [cs.CY, cs.CV, cs.AI]目的：視覚的測定読解のベンチマーク
- 現実世界を理解するためには，視覚情報と数値の正確な読み取りが不可欠である。
- 既存の視覚言語モデルは，視覚的測定の読解において十分な性能を発揮できていない。
- 視覚言語モデルの視覚的数値認識と空間的知覚能力の向上を目指す。
- 新しいベンチマークMeasureBenchを開発し，多様な測定器の画像を網羅した。
- 最先端の視覚言語モデルでも，測定読解は依然として困難であることが示された。
- 合成データを用いた強化学習ファインチューニングにより，性能が大幅に向上した。
Link: https://arxiv.org/abs/2510.26865
段階的DMD：サブ区間内スコアマッチングによる少数ステップ分布一致蒸留 [cs.CV]目的：スコアベース生成モデルを効率的な1ステップ生成器へと蒸留する手法
- 生成モデルの効率化は，計算資源の制約下での応用展開に不可欠である。
- 1ステップ蒸留モデルは，生成多様性や複雑なタスクにおける性能が課題となる。
- 多段階蒸留の不安定性と効率低下を解消し，多様性と性能を向上させる。
- 提案手法Phased DMDは，段階的な分布一致とサブ区間内スコアマッチングにより，学習を容易にし，モデル容量を拡張する。
- Qwen-Image-20BやWan2.2-28B等の最先端モデルの蒸留実験により，Phased DMDが動画生成におけるモーションダイナミクスと視覚的忠実度，画像生成における出力多様性を向上させることが示された。
- SNR範囲をサブ区間に分割し，より高精度なモデルの改良を実現することで，複雑な分布の捕捉を可能にする。
Link: https://arxiv.org/abs/2510.27684
UniAVGen：非対称クロスモーダル相互作用による統一的な音声と動画生成 [cs.CV]目的：音声と動画の同時生成
- 近年，音声と動画を組み合わせたコンテンツの重要性が増しており，その自動生成技術への期待が高まっている。
- 既存のオープンソースの音声・動画生成手法では，クロスモーダルモデリングが不十分で，唇の動きと音声の同期や意味の一貫性に課題がある。
- UniAVGenは，クロスモーダル相互作用を強化し，これらの課題を克服することを目指している。
- UniAVGenは，二つの並行した拡散Transformer（DiT）を用いた統合的なフレームワークであり，一貫性のあるクロスモーダル潜在空間を構築する。
- 非対称クロスモーダル相互作用メカニズムにより，双方向かつ時間的に整合性の取れたクロスアテンションを実現し，正確な時空間同期と意味的な一貫性を確保する。
- UniAVGenは，少ない学習データ（130万 vs 3010万）でも，従来のモデルと比較して，音声と動画の同期性，音色の整合性，感情の一貫性において優位性を示す。
Link: https://arxiv.org/abs/2511.03334
災害対応におけるコペルニクス衛星の可能性：Sentinel-1とSentinel-2による建物被害の抽出 [cs.CC, cs.IR, cs.CV]目的：災害時の建物被害評価
- 人道支援活動において，迅速な被害状況把握が不可欠である。
- 高解像度画像は入手が限られる場合が多く，広域的な被害評価が困難である。
- コペルニクス衛星データによる，迅速かつ広域な被害評価手法を確立する。
- Sentinel-1とSentinel-2の画像を用いて，多くの災害シナリオにおいて建物被害を比較的良好に検出・マッピングできることが示された。
- 建物構造の複雑さは，被害マッピングの精度向上に寄与せず，複雑なモデルは未知の災害への汎化性能が低い傾向にある。
- コペルニクス衛星画像は，高解像度画像と併用することで，広域的な迅速被害評価において有効なデータソースとなりうる。
Link: https://arxiv.org/abs/2511.05461
多視点クラスタリングのための自己グラフ混合対照表現学習：MoEGCL [cs.CV, cs.LG]目的：多視点クラスタリングにおける表現学習手法
- データ解析において，多視点からの情報を統合することで，より高精度な分析が可能となる。
- 既存手法では，粗視点なグラフ融合が課題であり，詳細な情報が失われる可能性がある。
- サンプルレベルでのきめ細かいグラフ融合により，表現学習の精度向上を目指す。
- 提案手法MoEGCLは，自己グラフ混合モジュールと自己グラフ対照学習モジュールにより，高精度な多視点クラスタリングを実現した。
- 特に，MoEGFは，従来の視点レベル融合ではなく，サンプルレベルでのきめ細かい融合を可能にする。
- 実験結果から，MoEGCLが深層多視点クラスタリングタスクにおいて最先端の結果を達成することが示された。
Link: https://arxiv.org/abs/2511.05876
偏光散乱と機械学習手法を用いた水中微小プラスチック粒子の分類 [cs.CV]目的：水中微小プラスチック粒子の分類
- 海洋汚染の深刻化に伴い，微小プラスチックによる生態系への影響評価が急務である。
- 従来の光学的手法では，微小プラスチックの多様な特性と水の影響で検出・分類が困難である。
- 不透明な微小プラスチックの分類を可能とする新しい手法の開発が求められている。
- 120度後方散乱偏光反射と深層学習を組み合わせた分類フレームワークを構築した。
- 線形偏光角度と線形偏光度が分類に寄与すること，およびそれらを組み合わせることで平均テスト精度83％を達成した。
- 畳み込みニューラルネットワークは粒子の微細構造に関連する内部偏光テクスチャを利用しており，従来の強度画像では得られない情報に基づいていることが示された。
Link: https://arxiv.org/abs/2511.06901
遠隔分光検出によるCH$_{4}$点源の運用機械学習 [cs.AI, cs.CV]目的：メタン点源検出のための機械学習システム
- 地球温暖化の緩和には，人為起源メタン源の削減が極めて有効である。
- 従来のメタン検出手法では，誤検出が多く，手動での検証に手間がかかる。
- 衛星搭載分光計を用いた自動メタン点源検出システムの運用を目指す。
- 本研究では，3つの分光計ミッションから収集した大規模なデータセットを用いて，深層学習モデルを構築・比較評価した。
- モデルのアンサンブルにより，誤検出を74%以上削減することに成功した。
- 11ヶ月の運用期間中，25,000以上のハイパースペクトル製品を処理し，2,851件のメタン漏洩を特定，834件のステークホルダーに通知した。
Link: https://arxiv.org/abs/2511.07719
DI3CL：動的インスタンスと輪郭一致を用いたSAR土地被覆分類基盤モデル [cs.CV]目的：SAR土地被覆分類のための汎用的な基盤モデルの開発
- SAR画像は天候に左右されず広範囲を観測可能であり，土地利用の変化把握に不可欠である。
- 既存手法は教師あり学習に依存し，大量のラベル付きデータが必要で，汎化性能が低い。
- ラベル付けコストを削減し，多様な環境への適応性を高める基盤モデルを構築すること。
- 提案手法DI3CLは，既存手法と比較して，SAR土地被覆分類タスクにおいて優れた性能を示す。
- 動的インスタンスモジュールと輪郭一致モジュールにより，モデルは土地被覆対象物の構造的識別能力が向上する。
- 大規模多様データセットSARSenseを活用し，モデルのロバスト性と汎化性能を向上させている。
Link: https://arxiv.org/abs/2511.07808
MOON2.0：Eコマース製品理解のための動的なモダリティバランス型マルチモーダル表現学習 [cs.CV, cs.AI, cs.IR, cs.LG]目的：Eコマース製品理解のためのマルチモーダル表現学習
- Eコマースにおける製品理解は，顧客体験の向上や売上増加に不可欠である。
- 既存のマルチモーダル大規模言語モデルは，モダリティ間の不均衡やノイズに弱い。
- 製品内の視覚情報とテキスト情報の連携を強化し，ノイズの影響を軽減する。
- MOON2.0は，モダリティバランスを動的に調整することで，マルチモーダル共同学習を促進する。
- デュアルレベルアライメントにより，製品内の意味的整合性をより効果的に活用する。
- MBE2.0ベンチマークにおいて最先端のゼロショット性能を達成し，マルチモーダルアライメントの改善を示す。
Link: https://arxiv.org/abs/2511.12449
赤ちゃんの目を通して見る学習：初期視覚的経験が人間と機械における強靭な視覚知能を可能にする [eess.SY, cs.SY, cs.CV]目的：初期視覚的経験が，人間と機械の視覚知能の強靭性に与える影響の解明
- 視覚は，人間が世界を理解し，行動するための最も重要な感覚の一つである。
- 機械の視覚システムは，現実世界の複雑さや変化に対する頑健性が課題である。
- 乳幼児の視覚発達過程を模倣することで，機械の視覚システムの頑健性を向上させる。
- 初期視覚的経験を模倣した学習（CATDiet）により，物体認識の頑健性が向上することが示された。
- 学習モデルは，脳の発達パターンと類似した変化を示し，乳幼児の視覚的行動を再現した。
- CATDietで初期化し，標準的な学習と組み合わせることで，更なる性能向上が確認された。
Link: https://arxiv.org/abs/2511.14440
音声と映像を用いた深偽造検出のための自己教師あり表現の調査 [cs.CV, cs.LG, cs.SD]目的：音声と映像を用いた深偽造検出における自己教師あり表現の有効性評価
- 近年，映像や音声処理において自己教師あり学習が注目されており，その応用範囲は広い。
- 深偽造技術の高度化に伴い，その検出は重要な課題となっているが，十分な検出性能は得られていない。
- 既存研究では活用が不十分であった自己教師あり表現を深偽造検出に応用し，その有効性を検証する。
- 自己教師あり表現は深偽造検出に関連する情報を捉えており，異なるモダリティ間で補完的な関係にあることが示された。
- 特に音声情報に基づいた表現は高い汎化性能を示し，最先端の結果を達成した。
- 現実世界のデータに対する汎化性能向上が課題であり，それはデータセットの難易度によるものと考えられる。
Link: https://arxiv.org/abs/2511.17181
歩行者横断意図予測のためのマルチモーダル融合ネットワーク [cs.CV, cs.AI]目的：歩行者横断意図の予測
- 自動運転車の実用化において，歩行者の行動予測は安全確保の鍵となる。
- 歩行者の行動は多様であり，状況に左右されるため，正確な予測が困難である。
- 多様な情報を統合し，より高精度な歩行者横断意図予測を実現する。
- 提案手法では，視覚情報と動き情報の7種類の要素をマルチモーダルに融合することで，高い予測性能を達成した。
- TransformerとDepth-guided attentionモジュールにより，各モダリティ間の相補的な情報を効果的に抽出・統合した。
- JAADデータセットを用いた実験により，提案手法が既存手法を上回る有効性が確認された。
Link: https://arxiv.org/abs/2511.20008
見るべき場所をモデルに示す：視覚誘導注意によるMLLMの幻覚軽減 [cs.CV]目的：MLLMにおける幻覚の軽減
- MLLMは視覚情報を解釈する上で重要な役割を担うが，その性能向上が課題となっている。
- MLLMの視覚注意機構の局所化能力の限界が，幻覚を引き起こす主要な原因となっている。
- 視覚トークンの意味内容を利用した正確な視覚接地を構築し，注意を誘導することで幻覚を軽減する。
- 提案手法VGAは，追加の学習を必要とせず，視覚トークンの意味内容に基づき正確な視覚接地を構築する。
- VGAは，生成時にすでに記述された領域を抑制することで，視覚への誘導を動的に洗練させる。
- 多様なMLLMと幻覚ベンチマークを用いた実験で，VGAが最先端の脱幻覚性能を達成することが示された。
Link: https://arxiv.org/abs/2511.20032
HalDec-Bench：画像キャプションにおける幻覚検出器のベンチマーク [cs.CV]目的：画像キャプションにおける幻覚検出器の性能評価
- 画像とテキストの整合性は，画像キャプション生成や視覚言語モデルの重要な課題である。
- 既存のベンチマークでは，異なるモデルや幻覚の種類に対する汎化性能の評価が困難である。
- 多様なモデルと幻覚タイプに対応可能な包括的なベンチマークを提供し，評価を可能にすること。
- HalDec-Benchは，多様な視覚言語モデルによって生成されたキャプションと，人間による幻覚の注釈を含む。
- 検出器は，応答の先頭付近の文を正しいと判断する傾向があることが示された。
- 強力な視覚言語モデルをフィルタとして使用することで，データセットのノイズを大幅に削減できる可能性が示唆された。
Link: https://arxiv.org/abs/2511.20515
DINO-Tok：視覚トークナイザーへのDINOの適応 [cs.CV]目的：高次元潜在空間における意味的豊かさと再構成忠実度のバランス
- 視覚生成の進歩は潜在生成モデルに依拠し，その性能は効果的な視覚トークナイザーに左右される。
- 既存のトークナイザーは，意味的豊かさと再構成忠実度の両立が難しく，高次元潜在空間で問題が生じている。
- DINOのような事前学習済みVFMを直接活用し，高忠実度で意味的に整合した視覚トークナイザーを構築すること。
- DINO-Tokは，DINOエンコーダーを基盤とし，連続オートエンコーディングと離散ベクトル量子化をサポートする。
- ImageNet 256x256において，連続オートエンコーディングで0.28 rFID，離散VQで1.10 rFIDという高い再構成性能を達成した。
- 拡散モデルで1.82 gFID，自己回帰モデルで2.44 gFIDという優れた少ステップ生成性能を示し，DINOの有効性を実証した。
Link: https://arxiv.org/abs/2511.20565
潜在拡散反転には潜在空間の理解が必要である [cs.LG, cs.CV]目的：潜在拡散モデルにおける記憶現象の解析
- 生成モデルの安全性確保は重要であり，特に学習データの漏洩リスクの評価が不可欠である。
- 潜在拡散モデルは，従来の反転手法に対して頑健であると考えられていた。
- 潜在空間における記憶の偏りを特定し，プライバシーリスク軽減に貢献する。
- 拡散モデルは，デコーダの引き戻し距離が高い潜在コード領域で過学習しやすいことが示された。
- 潜在コード内の表現次元ごとに記憶への寄与度が異なり，寄与度の低い次元の除去が有効であることが確認された。
- 記憶寄与度の低い次元を除去することで，メンバーシップ推論の性能が向上し，誤検知率1%における真陽性率が大幅に改善された。
Link: https://arxiv.org/abs/2511.20592
インペインティングから層分解へ：生成インペインティングモデルの画像層分解への再利用 [cs.CV]目的：画像層分解
- 画像編集の柔軟性向上に不可欠であり，コンテンツ制作の可能性を広げる。
- 単一画像を層分解する手法とデータが限られており，課題が残されている。
- 生成インペインティングモデルを軽量なファインチューニングで画像層分解に応用し，解決を目指す。
- 拡散ベースのインペインティングモデルを適応させ，画像層分解において優れた性能を発揮した。
- 潜在空間での詳細保持のため，線形アテンション複雑度を持つ新しいマルチモーダルコンテキスト融合モジュールを導入した。
- オープンソースアセットから構築された合成データセットのみで学習し，オブジェクト除去とオクルージョン回復において優れた結果を得た。
Link: https://arxiv.org/abs/2511.20996
キャプテン・サファリ：姿勢整合3Dメモリを備えたワールドエンジン [cs.CV]目的：姿勢に依存した3Dメモリによる動画生成
- 没入型体験の向上に不可欠であり，バーチャルリアリティや拡張現実の発展を支える。
- 既存システムは，複雑な屋外環境や激しいカメラ移動において，3Dの一貫性や軌道追従性に課題がある。
- 姿勢に依存したメモリを用いて，長尺で安定した3D構造を持つ動画生成を実現する。
- Captain Safariは，既存のカメラ制御型ジェネレーターを大幅に上回る性能を示す。
- 特に，動画品質，3Dの一貫性，軌道追従性の全てにおいて優れた結果が得られた。
- 50人参加の人間による評価実験では，67.6%の選好が本手法に寄せられた。
Link: https://arxiv.org/abs/2511.22815
TRivia：表認識のためのビジョン言語モデルの自己教師ありファインチューニング [eess.SY, cs.SY, cs.CV]目的：表認識のためのビジョン言語モデルの自己教師ありファインチューニング手法
- 文書解析において表認識は重要な要素であり，情報抽出の精度向上に貢献する。
- 表認識モデルの性能向上には大規模なラベル付きデータが必要だが，その作成にはコストがかかる。
- ラベルなし画像のみで高性能な表認識モデルを構築し，データ不足の問題を解決する。
- TRiviaは，グループ相対ポリシー最適化に基づき，自己教師ありで表認識を学習する。
- 本手法により，ラベルなしデータから表の構造を認識し，推論する能力を獲得できる。
- TRivia-3Bは，既存システム（Gemini 2.5 Pro，MinerU2.5など）を複数のベンチマークで上回る性能を示した。
Link: https://arxiv.org/abs/2512.01248
nuScenesの再検証：自動運転における進歩と課題 [cs.CV, cs.RO]目的：自動運転データセットnuScenesの作成経緯，拡張，影響，および関連研究の包括的な調査
- 自動運転技術は社会実装が期待されており，その開発には質の高いデータセットが不可欠である。
- 既存のデータセットは，収録環境やセンサーの種類に偏りがある場合があり，汎用的な自動運転システムの開発を妨げる。
- nuScenesデータセットの技術的詳細や影響を明らかにすることで，今後のデータセット開発の指針を示す。
- nuScenesは，レーダーデータを含む最初のデータセットであり，多種多様な都市環境での走行データを収録している。
- 本研究では，nuScenesの作成過程や拡張版（nuImages，Panoptic nuScenes）の詳細を明らかにした。
- nuScenesは，その後の多くのデータセットや評価基準の標準化に影響を与え，自動運転研究を大きく前進させた。
Link: https://arxiv.org/abs/2512.02448
マスクングが重要である：3Dシーン言語理解のためのLLMの空間推論能力の解き放ち [cs.CV, cs.AI]目的：3Dシーン言語理解におけるLLMの空間推論能力向上
- 3Dシーン言語理解は，ロボティクスや拡張現実など，多様な応用分野において不可欠である。
- 既存手法は，言語モデルの標準的なデコーダーを使用しており，3Dシーン特有の空間構造を考慮できていない。
- 空間構造を考慮したアダプティブなマスクング戦略により，3DシーンにおけるLLMの空間推論能力の限界を克服すること。
- 提案手法3D-SLIMは，空間密度に基づくGeometry-adaptive Maskと，指示文へのアクセスを可能にするInstruction-aware Maskを導入した。
- 3D-SLIMは，追加のパラメータやアーキテクチャ変更を必要とせず，多様な3Dシーン言語タスクで性能向上を達成した。
- 実験結果は，デコーダー設計が3Dマルチモーダル推論において重要な役割を果たすことを示唆している。
Link: https://arxiv.org/abs/2512.02487
GeoDiT：地理空間理解のための拡散ベースのVision-Languageモデル [cs.CV]目的：地理空間理解のための拡散ベースVision-Languageモデルの提案
- 地理空間データは社会基盤や環境分析に不可欠であり，その高度な理解が求められている。
- 既存の自己回帰モデルは，地理空間データの並列性に適合せず，構造化された出力が困難である。
- 本研究は，並列的な洗練プロセスに基づき，地理空間データの構造的理解を可能とする。
- GeoDiTは，地理空間領域に特化した初の拡散ベースVision-Languageモデルである。
- 画像キャプション生成，視覚的根拠付け，マルチオブジェクト検出において，従来モデルを上回る性能を達成した。
- 生成プロセスとデータの構造を整合させることで，複雑な地理空間分析において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2512.02505
LiDARシーケンスからの不確実性認識4Dワールドモデリング [cs.CV, cs.RO]目的：LiDARシーケンスからの動的3D環境モデリング
- 自動運転や具現化されたAIにおいて，信頼性の高い4Dワールド構築は不可欠である。
- 既存の生成フレームワークは，空間領域の不確実性のばらつきを考慮していない。
- 複雑な領域における生成アーティファクトの軽減と，時間的安定性の向上を目指す。
- U4Dは，事前に学習されたセグメンテーションモデルを用いて空間的不確実性マップを推定する。
- 高エントロピー領域を高精度に再構成し，残りの領域を構造的事前知識に基づいて合成する。
- 空間・時間表現を適応的に融合するMoSTブロックにより，時間的な一貫性を確保している。
Link: https://arxiv.org/abs/2512.02982
ViDiC：動画の差分キャプション生成 [cs.RO, cs.CV]目的：動画ペア間の類似点と相違点に関する詳細な記述
- 動的シーンの視覚的差異理解は，画像認識と自然言語処理の融合における重要な課題である。
- 既存の画像差分キャプション生成モデルでは，時間的な連続性やイベントの変化を捉えきれない。
- 動画内の変化を正確に捉え，より高度な動画理解と編集認識を実現することを目標とする。
- ViDiCタスクとViDiC-1Kデータセットを新たに提案し，マルチモーダル大規模言語モデルの比較記述能力を評価した。
- 提案された二重チェックリストフレームワークにより，類似点と相違点の認識精度を個別に測定することが可能となった。
- 19の代表的なマルチモーダルモデルの実験結果から，比較記述と差異認識能力に大きな差があることが示された。
Link: https://arxiv.org/abs/2512.03405
運転前に考える：ワールドモデルに着想を得た自律走行車のためのマルチモーダルグラウンディング [cs.CV, cs.AI]目的：自律走行車における自然言語コマンドに基づいたターゲットオブジェクトの局所化
- 自動運転技術の発展において，人間らしい指示理解は不可欠であり，安全性向上に繋がる。
- 既存手法は，曖昧な指示や状況変化への対応が難しく，3次元空間認識と未来予測が不足している。
- ワールドモデルの原理に基づき，未来の状態を予測することで，よりロバストな局所化を実現する。
- 提案手法ThinkDeeperは，Spatial-Aware World Modelを用いて，未来の空間状態を予測し，曖昧性解消に役立てる。
- マルチモーダル入力と未来状態を融合するhypergraph-guided decoderにより，高次の空間依存性を捉え，局所化の精度を向上させる。
- 新規データセットDrivePilotを構築し，６つのベンチマークで最先端技術を上回り，特に困難な状況下で優れた性能を示す。
Link: https://arxiv.org/abs/2512.03454
アーク勾配降下法：位相を意識したユーザー制御可能なステップダイナミクスを持つ，幾何学的に動機付けられた勾配降下法に基づく最適化手法（概念実証） [cs.LG, cs.AI, cs.CL, cs.CV, cs.NE]目的：最適化手法ArcGDの定式化，実装，および評価
- 機械学習モデルの性能は最適化手法に大きく依存するため，より高性能な最適化手法の開発が重要である。
- 従来の最適化手法では，複雑な損失関数において局所最適解に陥りやすく，汎化性能が低い場合がある。
- 本研究では，幾何学的な視点に基づいた新しい最適化手法ArcGDを開発し，過学習に強く汎化性能の高いモデルの学習を目指す。
- ArcGDは，非凸ベンチマーク関数において，Adamと比較して一貫して高い性能を示した。
- CIFAR-10画像分類データセットにおいて，ArcGDはAdamW，Adam，SGD，Lionといった最先端の最適化手法を上回り，最高の平均テスト精度（50.7％）を達成した。
- ArcGDは，長期的な学習においても性能が向上し続け，過学習に強い耐性を示した。
Link: https://arxiv.org/abs/2512.06737
CHIMERA：モルフィング指向指標を用いたゼロショット画像モルフィングのための適応キャッシュ注入と意味的アンカープロンプティング [cs.RO, cs.RO, physics.class-ph, cs.CV]目的：拡散モデルを用いた画像モルフィングにおける，不安定な中間画像を改善する手法
- 画像モルフィングは，視覚効果やコンテンツ生成において重要な技術であり，その品質向上が求められている。
- 既存手法では，特徴再利用の偏りや意味的整合性の欠如により，滑らかで自然なモルフィングが困難である。
- 本研究では，キャッシュ注入と意味的アンカープロンプティングにより，これらの問題を解決し，高品質なモルフィングを実現する。
- CHIMERAは，多段階の拡散特徴をキャッシュし，時間ステップに応じて再注入することで，安定したデノイジングと段階的な融合を可能にする。
- 意味的アンカープロンプティングにより，視覚言語モデルを用いて共有のアンカープロンプトを生成し，中間画像の意味的 coherence を向上させる。
- 提案するGLCS指標は，グローバルな調和とローカルなスムーズな遷移を同時に評価し，モルフィングの品質を客観的に評価する。
Link: https://arxiv.org/abs/2512.07155
幾何学誘導条件付き拡散によるモーションマグニフィケーション [cs.CV]目的：モーションマグニフィケーションの性能向上
- 映像内の微細な動きを可視化することで，医療，セキュリティ，エンターテイメントなど幅広い応用が期待される。
- 既存手法では，微小な動きの増幅時に，フォトーンノイズが真の微小モーションに干渉し，ノイズが顕著になる。
- 幾何学的な手がかりを利用し，構造的に整合性の高いモーションマグニフィケーションを実現することで，ノイズ問題を解決する。
- 提案手法GeoDiffMMは，オプティカルフローを条件として，拡散モデルに基づいたラグランジュVMMフレームワークを採用している。
- ノイズフリーなオプティカルフロー拡張戦略により，フォトーンノイズを含まない多様な非剛体モーションフィールドを合成し，モデルの汎化性能を向上させている。
- 実験結果から，GeoDiffMMは最先端手法を凌駕し，モーションマグニフィケーションの性能を大幅に改善することが示された。
Link: https://arxiv.org/abs/2512.08325
メタファーに基づくテキスト-画像モデルへの脱獄攻撃 [cs.CR, cs.AI, cs.CV]目的：テキスト-画像モデルの安全性脆弱性の解明と，多様な防御機構に対する攻撃手法の開発
- テキスト-画像モデルの安全性確保は重要であり，悪意のある画像生成を防ぐ必要がある。
- 既存の攻撃手法は，防御機構の種類を事前に知っていることを前提としており，未知の防御に対しては有効性が低い。
- 本研究では，防御機構の種類を事前に知らずとも攻撃可能なメタファーに基づく攻撃手法を提案する。
- メタファーに基づく脱獄攻撃（MJA）は，多様な防御機構を持つテキスト-画像モデルに対し，高い攻撃性能を発揮する。
- MJAは，既存の6つのベースライン手法と比較して，少ないクエリ数でより強力な攻撃を実現する。
- メタファーは意味の曖昧性を生み出し，モデルの潜在的な意味解釈を通してセンシティブな画像生成を誘発する。
Link: https://arxiv.org/abs/2512.10766
大規模言語モデルを用いた統一的なファイングレイン動画協調理解への道：UFVideo [cs.CV]目的：統一的な多粒度協調理解能力を有する動画LLMの開発
- 動画理解は，人間が視覚情報から世界を理解する上で不可欠であり，様々な応用分野で重要性が増している。
- 既存の動画LLMは特定のタスクに特化しており，動画の全体的な理解や多様な粒度での認識が課題となっていた。
- 本研究は，グローバル，ピクセル，時間的スケールを網羅する多粒度な動画理解を可能にするモデルを構築し，その能力を検証することを目指す。
- UFVideoは，単一モデル内で異なるスケールの動画理解を柔軟に処理する，統一的な視覚-言語誘導アライメントを設計した。
- 新設したUFVideo-Benchにおいて，GPT-4oを凌駕する柔軟性と優位性が実証された。
- 9つの公開ベンチマークにおける評価を通じて，多様な動画理解タスクに対する有効性が確認された。
Link: https://arxiv.org/abs/2512.11336
拡散モデルを用いたUAVベースの人体検出のための粗々から細かい階層的アラインメント [cs.RO, cs.DC, astro-ph.IM, cs.PF, cs.RO, cs.CV]目的：UAVベースの人体検出におけるドメインギャップの縮小
- UAVによる人体検出は，監視や救助活動において重要な役割を担う。
- UAVベースの人体検出では，高品質な学習データが不足している。
- 合成データと実データの間のドメインギャップを解消し，検出精度を向上させる。
- 本研究では，拡散モデルを用いた3段階の階層的アラインメントフレームワーク(CFHA)を提案した。
- CFHAは，グローバルなスタイルとローカルなコンテンツのドメイン差異を明示的に分離し，それを埋めることで，合成データからUAVベースの人体検出のためのデータを変換する。
- Semantic-Droneベンチマークにおいて，mAP50が最大+14.1%向上し，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2512.13869
タスク指向型データ合成と制御修正サンプリングによるリモートセンシングセマンティックセグメンテーション [cs.DB, cs.CV]目的：リモートセンシングセマンティックセグメンテーションのためのデータ合成手法
- リモートセンシング技術は，環境モニタリングや防災など広範な分野で活用されており，その重要性は高い。
- セマンティックセグメンテーションの精度向上が課題であり，そのためには大量の学習データが必要となる。
- データアノテーションのコストを削減し，セグメンテーション精度を向上させるためのデータ合成手法を確立する。
- 提案手法TODSynthは，マルチモーダル拡散変換器(MM-DiT)とタスクフィードバックに基づくサンプリング戦略により，合成データの品質を向上させる。
- テキスト，画像，マスクの結合注意機構と完全なファインチューニングにより，特に少量データや複雑なシーンにおけるセグメンテーション性能が向上する。
- 制御修正フローマッチング(CRFM)は，生成初期段階でセマンティック損失に基づいてサンプリング方向を調整し，画像の安定性を高める。
Link: https://arxiv.org/abs/2512.16740
指示内容を指し示す：視覚に基づいた行動方針 [cs.CV, cs.RO]目的：視覚と言語を整合させ，具現化された制御を実現する方針
- ロボット工学において，人間との自然なコミュニケーションは重要な課題である。
- 従来のVLAモデルは，テキスト指示のみでは曖昧な参照解決に課題があった。
- 本研究は，視覚的手がかりを用いて参照曖昧性を解消し，正確な物体レベルの認識を目指す。
- Point-VLAは，テキストのみのVLAモデルよりも，特に複雑な状況下で優れた性能を示した。
- ピクセルレベルでの視覚的認識により，曖昧な物体参照問題を効果的に解決することが示された。
- 自動データアノテーションパイプラインにより，大規模な視覚に基づいたデータセットの構築が可能となった。
Link: https://arxiv.org/abs/2512.18933
シュレーディンガーのナビゲーター：ゼロショット物体ナビゲーションのための未来集合の想像 [cs.RO, cs.AI, cs.CV]目的：ゼロショット物体ナビゲーションにおける将来の可能性の検討
- サービスロボットや家庭用ロボットには，未知の環境での物体探索能力が不可欠である。
- 既存手法はシミュレーションでは成功するものの，現実環境の遮蔽や潜在的危険により苦戦している。
- 不確実性下での安全な行動を促すため，複数の未来を考慮したナビゲーションを目指す。
- 本研究で提案するSchr\"odinger's Navigatorは，複数の未来を想像することで，頑健な自己位置推定と物体検出を実現した。
- 遮蔽物や潜在的危険がある環境下でも，既存手法を上回る安全なナビゲーション性能を示した。
- 未来を考慮したナビゲーションは，不確実な現実世界でのゼロショットナビゲーションのスケーラビリティと汎用性を高める有効な戦略である。
Link: https://arxiv.org/abs/2512.21201
インペインティングから編集へ：生成ブートストラップによるロバストなマスクフリー視覚的ダビングの解禁 [cs.HC, cs.CV]目的：マスクフリー視覚的ダビング技術の開発
- 動画編集において，顔の口元を音声に合わせて自然に修正する技術は需要が高い。
- 既存手法はマスク処理を用いるため，動画の文脈が失われ，品質が低下しやすい。
- 高品質な疑似ペアデータ生成と編集モデルのブートストラップによる解決を目指す。
- 提案手法X-Dubは，拡散Transformerを活用した生成ブートストラップフレームワークである。
- マスク処理を必要とせず，既存手法を凌駕する口元同期，視覚品質，ロバスト性を実現した。
- 多様なシナリオに対応可能なベンチマークX-DubBenchを新たに提示した。
Link: https://arxiv.org/abs/2512.25066
聴覚視覚エンティティの一貫性とエージェント検索による階層的な長編ビデオ理解 [cs.CV, cs.AI, cs.IR]目的：長編ビデオ理解のためのフレームワーク
- 長編ビデオの理解は，多様な応用において重要であり，その処理能力が求められる。
- 既存手法は，情報の断片化やグローバルな一貫性喪失といった課題を抱えている。
- 聴覚視覚エンティティの一貫性と階層的なビデオインデックスを活用し，問題を解決する。
- 提案手法HAVENは，聴覚と視覚のエンティティ一貫性を統合することで，一貫性のある推論を実現した。
- 階層的なビデオインデックスとエージェント検索メカニズムにより，動的な検索と推論が可能になった。
- LVBenchにおいて，全体精度84.1%，特に推論カテゴリで80.1%を達成し，最先端性能を示した。
Link: https://arxiv.org/abs/2601.13719
U3-xi：不確実性を組み込むことによる話者認識の限界拡大 [cs.SD]目的：話者認識における不確実性の推定と組み込みによる性能向上
- 話者認識は，セキュリティや音声インターフェースにおいて重要な技術であり，その精度向上は不可欠である。
- 従来のシステムでは，音声フレームに含まれるノイズや話者以外の情報が，認識精度を低下させる要因となっている。
- 本研究は，各フレームの不確実性を推定し，それに基づいて重みを調整することで，より高精度な話者認識を実現することを目指す。
- 提案手法U3-xiは，話者埋め込みの信頼性と解釈性を向上させるための包括的なフレームワークである。
- ECAPA-TDNNに適用した結果，VoxCeleb1テストセットにおいて，EERが21.1%，minDCFが15.57%それぞれ相対的に改善された。
- 本手法はモデルに依存せず，様々な話者エンコーダに容易に適用可能である。
Link: https://arxiv.org/abs/2601.15719
Vision-DeepResearch：マルチモーダル大規模言語モデルにおける深層調査能力の促進 [eess.SY, cs.SY, eess.SP, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける深層調査能力の向上
- 画像処理と自然言語処理の融合が，より高度なAIシステムの実現に不可欠である。
- 既存手法では，現実世界におけるノイズや複雑な情報統合が困難である。
- マルチターン，マルチエンティティ，マルチスケールの検索を通して，深層調査能力を向上させる。
- 本研究では，Vision-DeepResearchという新しい深層調査パラダイムを提案し，ノイズの多い環境下での検索を強化した。
- 数百回のエンジンとのインタラクションを可能にし，深層調査能力をモデルに組み込むことで，既存モデルを大幅に上回る性能を実現した。
- GPT-5，Gemini-2.5-pro，Claude-4-Sonnetといった高性能なモデルと比較しても優れた結果を示した。
Link: https://arxiv.org/abs/2601.22060
PaperBanana：AI研究者向け学術図表の自動生成 [cs.CL, cs.CV]目的：学術論文用図表の自動生成手法
- AI研究の進展に伴い，論文作成の効率化が重要課題となっている。
- 図表作成は，時間と労力を要するボトルネックとなっている。
- 論文作成における図表作成の自動化を目指す。
- PaperBananaは，最新のVLMと画像生成モデルを活用し，図表の自動生成を実現した。
- PaperBananaBenchを用いて厳密に評価した結果，既存手法を上回る性能を示した。
- 図表の正確性，簡潔性，可読性，美観において優れた結果が得られた。
Link: https://arxiv.org/abs/2601.23265
1S-DAug：少ないショット汎化のためのワンショットデータ拡張 [cs.CV, cs.AI, cs.LG]目的：少ないショット学習におけるロバストな汎化性能の向上
- 機械学習において，少数の学習データから未知のクラスを認識する能力は重要である。
- 従来のテスト時データ拡張は，少ないショット学習においては効果を発揮しにくいという課題がある。
- 本研究では，単一の画像から多様なバリエーションを生成し，汎化性能を向上させることを目指す。
- 1S-DAugは，テスト時に単一の画像から多様で忠実なバリエーションを生成する。
- 従来の幾何学的変換と制御されたノイズ注入，そしてノイズ除去拡散過程を組み合わせることで，ロバストな特徴表現を獲得する。
- 4つの標準ベンチマークデータセットにおいて，モデルのパラメータ更新なしにFSLの性能を改善し，miniImagenetでは最大20%の精度向上を達成した。
Link: https://arxiv.org/abs/2602.00114
残差デコーディング：履歴に基づいた残差ガイダンスによる大規模視覚言語モデルの幻覚軽減 [cs.CV, cs.AI]目的：大規模視覚言語モデルにおける幻覚の軽減
- 視覚と言語を統合したAI研究は，多様な応用可能性を秘めており重要である。
- 大規模言語モデルは言語的な先入観に影響されやすく，視覚情報と乖離した幻覚を生じやすい。
- 視覚情報との整合性を高め，言語モデルの先入観による幻覚を抑制すること。
- 提案手法ResDecは，訓練不要で履歴情報を活用し，幻覚を効果的に抑制する。
- ResDecは，視覚的根拠に基づいた応答を改善し，オブジェクトの幻覚を減少させる。
- ResDecは，既存のLVLMベンチマークにおいても優れた性能を示す汎用性を持つ。
Link: https://arxiv.org/abs/2602.01047
FlyPrompt：脳に触発されたランダム拡張ルーティングと時間的アンサンブルエキスパートによる汎用継続学習 [cs.MA, cs.LG, cs.AI, cs.CV]目的：汎用継続学習における課題解決
- 近年，データ駆動型AIの重要性が増しており，継続的に学習する能力が求められている。
- 既存手法は，複数エポックの訓練や明示的なタスク情報に依存し，リアルタイム環境への適応が難しい。
- エキスパートパラメータの割り当てと表現能力の向上を通じて，継続学習の性能向上を目指す。
- FlyPromptは，ショウジョウバエの階層的記憶システムに着想を得たフレームワークである。
- 提案手法は，インスタンスレベルでのエキスパート活性化と動的な決定境界適応を実現し，優れた性能を示す。
- CIFAR-100，ImageNet-R，CUB-200において，最先端手法を最大12.43%上回る成果が得られた。
Link: https://arxiv.org/abs/2602.01976
中心視覚における時間的な緩慢さが意味のある物体学習を促進する [cs.CV]目的：意味のある物体表現の形成における中心視覚と緩慢学習の役割
- 人間は，最小限の監督下で自己中心的な視覚ストリームから意味のある物体表現を獲得する。
- 視覚システムは視野の中心部のみを高解像度で処理し，時間的に近い入力に対して類似表現を学習する。
- 中心視覚と緩慢学習が，人間の視覚経験に類似した状況下でどのように物体表現を形成するかを解明する。
- 中心視覚による学習において，時間的な緩慢さを活用することで，物体意味の異なる側面をより良くエンコードすることが示された。
- 特に中心視覚に焦点を当てることで，前景物体特徴の抽出が強化される。
- 時間的な緩慢さ，特に眼球運動との組み合わせを考慮することで，モデルは物体に関するより広範な意味情報をエンコードできるようになる。
Link: https://arxiv.org/abs/2602.04462
FastVMT：ビデオモーション転送における冗長性の排除 [cs.CV]目的：ビデオモーション転送の高速化
- ビデオ生成技術は，テキストからの映像合成を可能にし，創造的な表現を拡張する点で重要である。
- 既存手法は計算コストが高く，リアルタイムな処理が困難であるという課題がある。
- 本研究は，ビデオフレーム間の小さな動きと拡散過程における勾配の変化の緩やかさを利用し，計算冗長性を削減する。
- FastVMTは，DiTアーキテクチャにおける計算冗長性を特定し，局所的な注意機構と勾配の再利用により高速化を実現した。
- 提案手法は，既存手法と比較して平均3.43倍の速度向上を達成した。
- 生成されたビデオの視覚的な品質と時間的な一貫性は損なわれていない。
Link: https://arxiv.org/abs/2602.05551
SurgMotion：手術ビデオの普遍的理解のためのビデオネイティブな基盤モデル [cs.CV]目的：手術ビデオの普遍的理解を可能にする基盤モデルの開発
- 手術の質向上や医療教育において，手術ビデオの解析は不可欠である。
- 既存モデルは，高解像度のピクセル再構成に注力しすぎ，重要な手術構造の理解が不十分である。
- SurgMotionは，ピクセル再構成から潜在的な動き予測へと学習パラダイムをシフトし，この課題を解決する。
- SurgMotionは，ビデオ関節埋め込み予測アーキテクチャ(V-JEPA)を基盤とし，手術ビデオに特化した3つの技術革新を導入している。
- 実験の結果，SurgMotionは17のベンチマークで最先端手法を凌駕し，手術ワークフロー認識，アクショントリプレット認識，スキル評価等で大幅な性能向上を示した。
- SurgMotionは，動きに焦点を当てた手術ビデオ理解の新たな標準を確立した。
Link: https://arxiv.org/abs/2602.05638
音声LLMが耳を傾けないとき：多言語における様相調停の研究 [cs.CL, cs.SD, eess.AS]目的：音声とテキストの矛盾に対する言語モデルの様相調停の傾向
- 近年のLLMは，音声とテキストの両方を処理可能になり，その活用が期待されている。
- 音声とテキストが矛盾する場合，LLMがどちらを信頼すべきかという問題が存在する。
- 本研究は，LLMが音声とテキストの矛盾をどのように解決するかを検証する。
- 音声とテキストが矛盾する場合，LLMはテキストを信頼する傾向が強いことが示された。
- Gemini 2.0 FlashとGPT-4oは，音声の代わりにテキストの書き起こしを用いた場合に比べて，テキストを優先する割合が有意に高い。
- テキストの書き起こしを意図的に破損させることで，テキストの優先度を下げることが可能である。
Link: https://arxiv.org/abs/2602.11488
即時クエリのための洗練：暗黙的ニューラル場のための分離された洗練パラダイム [cs.LG, cs.CE, cs.CV, cs.GR]目的：暗黙的ニューラル場の表現の精度と速度のトレードオフの解決
- 大規模な3Dシミュレーションの代替手段として，暗黙的ニューラル表現の重要性が高まっている。
- 深層MLPは推論コストが高く，効率的な埋め込みベースのモデルは表現力が不足するという課題がある。
- 表現力と効率性を両立し，高速な推論を可能にする新しいパラダイムの提案。
- 提案手法であるDRRは，オフラインで表現を洗練し，高速な推論パスを実現する。
- 複数のアンサンブルシミュレーションデータセットにおいて，最先端の精度を達成し，推論速度も大幅に向上した。
- DRRパラダイムは，速度と品質のバランスを保ちながら，強力で実用的なニューラル場サロゲートを構築するための有効な戦略を提供する。
Link: https://arxiv.org/abs/2602.15155
SeaCache：拡散モデルの高速化のためのスペクトル進化を考慮したキャッシュ [cs.CV]目的：拡散モデル推論の高速化
- 画像生成において拡散モデルが重要な役割を担うが，処理速度が課題となっている。
- 既存のキャッシュ手法は，コンテンツとノイズを区別できず，効率が低下する。
- スペクトル進化に基づき，ノイズを抑制し，効率的なキャッシュスケジュールを確立する。
- SeaCacheは，スペクトル的に整列された表現に基づいて再利用判断を行うことで，既存手法を上回る性能を示す。
- SEAフィルタは，コンテンツ関連成分を保持しつつノイズを抑制し，冗長性の推定精度を向上させる。
- 多様な画像生成モデルで実験を行い，SeaCacheが最先端の速度と品質のトレードオフを実現することを確認した。
Link: https://arxiv.org/abs/2602.18993
CADプロンプトによるSAM3：産業用オブジェクトの幾何条件インスタンスセグメンテーション [cs.CV]目的：産業用オブジェクトの幾何条件に基づくインスタンスセグメンテーション手法
- 製造業や3Dプリンティングにおいて，オブジェクトの認識と分離は自動化と品質管理に不可欠である。
- 自然言語による指示は表現力に限界があり，特殊なオブジェクトや詳細な記述が困難な場合に課題となる。
- CADモデルの幾何学的な情報を活用し，外観に依存しないセグメンテーションを実現する。
- CADモデルのレンダリング画像をプロンプトとしてSAM3を利用することで，外観に左右されないセグメンテーションが可能となった。
- シミュレーション環境で多様な視点とシーンを学習することで，単一段階でのマスク予測を実現した。
- 言語や外観だけでは困難なオブジェクトに対しても，安定したセグメンテーションが可能となった。
Link: https://arxiv.org/abs/2602.20551
計算病理における知識蒸留のためのMomentum Memory [cs.CV]目的：知識蒸留による計算病理モデルの性能向上
- ゲノミクスと組織病理学の統合は癌診断に有望だが，臨床応用にはデータ不足が課題である。
- 既存の知識蒸留法はバッチ内の比較に依存し，不安定で性能が低下する。
- 本研究は，バッチ間での情報を集約することで，知識蒸留の安定性と精度を向上させる。
- 提案手法MoMKDは，TCGA-BRCAデータセットにおいて最先端のMILやマルチモーダルKD手法を上回る性能を示した。
- MoMKDは，ヒストロジー画像のみを用いた推論においても，高い性能と汎化能力を発揮する。
- 本研究は，計算病理のための堅牢かつ汎用的な知識蒸留パラダイムを確立した。
Link: https://arxiv.org/abs/2602.21395