arXiv雑要約

画像・音声 - 2026/03/06 公開

テキスト画像拡散モデルに対する効果的かつ解釈可能なプロンプト反転 [cs.CV]目的：テキスト画像拡散モデルにおけるプロンプト反転手法
- 画像生成技術の発展に伴い，生成された画像の出所や権利関係の特定が重要になっている。
- 既存のプロンプト反転手法は，生成された画像との類似性やプロンプトの自然さに課題が残されている。
- 生成画像と意味的に一致し，解釈可能なプロンプトを効率的に復元することを目的とする。
- 提案手法は，MS COCO，LAION，Flickr，DiffusionDBなどのデータセットにおいて，既存手法を上回る画像類似性，テキスト整合性，プロンプトの解釈性，汎化性能を示した。
- 事前学習済みの画像キャプションモデルと潜在空間での逆エンジニアリングを組み合わせることで，高品質なプロンプトを生成することに成功した。
- 生成されたプロンプトは，クロスコンセプト画像合成，コンセプト操作，進化的な複数コンセプト生成，教師なしセグメンテーションなどの応用が可能であることを示した。
Link: https://arxiv.org/abs/2506.03067
HypeVPR：遠近図から等矩形図への視覚場所認識における双曲空間の活用 [cs.CV]目的：遠近図から等矩形図への視覚場所認識のための双曲空間における階層的埋め込みフレームワーク
- 視覚環境は本質的に階層構造を持つため，効果的な場所認識にはその構造の捉えが不可欠である。
- 遠近図と等矩形図間のマッチングは，異なる視点と表現形式が絡み合い，困難を伴う。
- 双曲空間の階層構造表現能力を用いて，効率的かつロバストな場所認識を実現すること。
- HypeVPRは，双曲空間における階層的特徴集約機構により，広範なコンテキスト情報と詳細な局所情報を符号化する。
- HypeVPRの階層構造は，追加の訓練なしに精度と効率のトレードオフを柔軟に制御することを可能にする。
- 検索の高速化とデータベースストレージ要件の削減に貢献し，競争力のある性能を達成する。
Link: https://arxiv.org/abs/2506.04764
FLAIR-HUB：土地被覆および作物のマッピングのための大規模マルチモーダルデータセット [cs.CV]目的：土地被覆および作物のマッピングのための大規模マルチモーダルデータセット
- 地球観測データの活用は，地球規模での土地被覆や作物のモニタリング精度向上に不可欠である。
- 大規模で多様な地球観測データの処理とアノテーションは，高度な技術と資源を要する課題である。
- 多様な地球観測データの活用を促進するため，高品質なアノテーション付きデータセットの提供を目指す。
- FLAIR-HUBは，フランス国内2528km²をカバーする，高解像度（20cm）アノテーション付きのマルチセンサー土地被覆データセットである。
- 6つの異なるモダリティ（航空写真，Sentinel-1/2時系列，SPOT画像，地形データ，過去の航空写真）を組み合わせることで，マルチモーダル融合の効果を検証した。
- マルチモーダル融合による土地被覆マッピングにおいて，ほぼ全てのモダリティを使用することで，78.2%の精度，65.8%のmIoUを達成した。
Link: https://arxiv.org/abs/2506.07080
HSG-12M：非エルミート結晶のエネルギースペクトルに由来する空間マルチグラフの大規模ベンチマーク [cs.LG, cond-mat.mes-hall, cond-mat.other, cs.AI, cs.CV]目的：非エルミート量子物理学におけるハミルトニアンスペクトルグラフのデータセット構築と，それを用いたグラフニューラルネットワークのベンチマーク
- AIによる科学研究の変革が期待される中，高品質なドメイン特化型データセットの不足が課題となっている。
- 非エルミート量子物理学のハミルトニアンスペクトルグラフは重要な情報を持つものの，手動抽出に依存し，体系的な研究が困難であった。
- 本研究は，自動化されたパイプラインを用いて大規模なハミルトニアンスペクトルグラフデータセットを構築し，空間マルチグラフ学習の新たな可能性を拓く。
- Poly2Graphパイプラインにより，177TBのデータから1160万個の静的および510万個の動的ハミルトニアンスペクトルグラフを含むHSG-12Mデータセットを構築した。
- HSG-12Mは，空間に埋め込まれた複数経路を保持する空間マルチグラフの初の本格的な大規模データセットである。
- 既存のGNNを用いたベンチマークにより，空間マルチエッジ学習における新たな課題が明らかになった。スペクトルグラフは多項式，ベクトル，行列の普遍的なトポロジカルフィンガープリントとして機能する。
Link: https://arxiv.org/abs/2506.08618
InterActHuman：レイアウトに沿った音声条件によるマルチコンセプトの人体アニメーション [cs.CV, cs.AI, cs.SD]目的：マルチコンセプト人体アニメーションの実現
- 人間と物体のインタラクションを理解することは，より自然な映像生成に不可欠である。
- 既存手法は単一の対象にしか対応できず，複数のコンセプトを扱えない点が課題である。
- 複数のコンセプトと個々のアイデンティティを正確に制御し，インタラクションを再現することを目指す。
- 提案手法は，マスク予測器を用いて参照画像と生成映像の外観を一致させ，レイアウト情報を推論する。
- 各アイデンティティの空間的・時間的範囲に条件を強く結び付けることで，高品質な対話映像を生成する。
- 実験結果から，明示的なレイアウト制御が暗黙的な手法や既存手法よりも有効であることが示された。
Link: https://arxiv.org/abs/2506.09984
LVLMにおける視覚的プロンプト検索のための損失指向ランキングAutoV [cs.CV]目的：視覚的プロンプトのインスタンス適応的識別
- 大規模言語モデルの成功を受け，画像理解能力向上のため視覚的プロンプトが注目されている。
- 単一の視覚的プロンプト設計では性能が飽和し，プロンプトエンジニアリングの効果が薄れている。
- 適切な視覚的プロンプトを自動で検索し，手動アノテーションなしに性能向上を目指す。
- AutoVは，入力画像とテキストクエリから最適な視覚的プロンプトを候補プールから自動的に選択する。
- 視覚的プロンプトの品質評価に損失指向ランキングを用い，LVLMの予測損失に基づいて自動的な教師信号を生成する。
- 様々なLVLMにおいて，画像理解，キャプション生成，グラウンディング，分類タスクの性能が向上した（例：LLaVA-OVで10.2％，Qwen2.5-VLで3.8％）。
Link: https://arxiv.org/abs/2506.16112
追跡可能な証拠に基づいた視覚的根拠推論：評価と方法論 [cs.CL, cs.CV, cs.AI, cs.CL]目的：視覚的根拠推論能力の包括的な評価と，それを向上させるための訓練パラダイム
- 画像認識と自然言語処理の融合により，より高度なAIシステムの開発が期待される。
- 既存の評価指標では，視覚的根拠に基づいた推論能力を十分に評価できていない。
- 視覚的根拠の追跡可能性を高めることで，推論の精度と説明可能性を向上させる。
- TreeBenchは，複雑なシーンにおける微細な対象物の認識，バウンディングボックス評価による証拠の追跡，そしてオブジェクト間の相互作用を問う第二階層の推論を特徴とする。
- TreeBenchを用いた評価の結果，最先端モデルであっても60%の正答率に達せず，視覚的根拠推論の困難性が示された。
- TreeVGRは，Qwen2.5-VL-7Bを基盤とし，強化学習による共同学習により，V* Bench，MME-RealWorld，TreeBenchにおいて性能向上を達成した。
Link: https://arxiv.org/abs/2507.07999
任意のノイズに基づく拡散モデルのデザイン空間の解明 [cs.CV, cs.LG]目的：任意のノイズ拡散モデルのデザイン空間の解明
- 拡散モデルは画像生成において重要な役割を担うが，その設計空間の理解は不十分である。
- 既存のEDMはガウスノイズに依存しており，多様なノイズパターンに対応できないという課題がある。
- 本研究は，任意のノイズパターンを統一的に扱うための理論的枠組みを構築し，復元距離の最小化を目指す。
- 本研究で提案するEDAは，ノイズパターンの柔軟性を拡張しつつ，EDMのモジュール性を維持している。
- 理論的に，ノイズの複雑度が増加しても，復元時の計算オーバーヘッドは発生しないことが証明された。
- MRI，CT，自然画像の復元タスクにおいて，EDAは専門的な手法と同等以上の性能を示し，高い汎化能力を持つことが確認された。
Link: https://arxiv.org/abs/2507.18534
SAMPO-Path: 病理画像セグメンテーションのための意図整合型優先度最適化 [cs.CV]目的：病理画像セグメンテーションにおける臨床的セグメンテーション意図への適合
- 病理画像解析は，疾患診断や予後予測に不可欠であり，高精度なセグメンテーション技術が求められている。
- 既存手法では，多様でノイズの多いプロンプトにより意図と予測のずれが生じ，セグメンテーション精度が低下しやすい。
- SAMPOは，不完全なプロンプトから高精度なセグメンテーションを実現し，臨床的意図との整合性を高めることを目指す。
- SAMPOは，Direct Preference Optimization (DPO)を純粋な画像ファウンデーションモデルに初めて適用し，わずかなプロンプトでも正確なセグメンテーションを可能にした。
- オンラインでのプロンプト品質に基づいたペア生成，多マスクを用いた優先度学習，およびハイブリッド損失関数により，安定した学習を実現した。
- 2つのデータセットと12の外部検証データセットで，セグメンテーション精度，プロンプト変動へのロバスト性，および臨床的意図への適合性が向上した。
Link: https://arxiv.org/abs/2508.02464
Vevo2：音声と歌声生成のための統一的かつ制御可能なフレームワーク [cs.SD, cs.AI, cs.CL]目的：音声および歌声の制御可能な生成
- 音声技術は，人間と機械のコミュニケーションにおいて不可欠であり，その進化は様々な応用を可能にする。
- 歌声生成においては，表現豊かな歌唱を実現するためのデータ不足と制御の困難さが課題である。
- Vevo2は，歌声生成におけるデータ制約と制御性を克服し，より自然で表現力豊かな生成を目指す。
- Vevo2は，音声と歌声を統一的に扱えるフレームワークであり，相互に利点をもたらすことが示された。
- 音楽記号に依存しないプロソディトークナイザと，内容・スタイルを統合的にエンコードするトークナイザを導入し，柔軟な制御を可能にした。
- テキスト，プロソディ，スタイル，音色に対する制御に加え，明示的・暗黙的なプロソディ学習戦略により，音声と歌声の連携を強化した。
Link: https://arxiv.org/abs/2508.16332
重要度正則化による多重モダリティトラッカーの最適化 [cs.CV]目的：多重モダリティトラッカーの最適化
- 画像認識技術は，自動運転やロボティクスなど，多くの分野で不可欠である。
- 既存のファインチューニング手法は，柔軟性と安定性のバランスを取ることが難しい。
- パラメータの重要度を考慮した正則化により，多重モダリティへの転移学習を改善する。
- 提案手法は，パラメータの重要度を考慮した正則化によって，多重モダリティ間の転移学習性を大幅に向上させる。
- 事前学習済みモデルの持つ知識を最大限に活用しつつ，新しいモダリティに適応する能力を高める。
- 様々な多重モダリティトラッキングベンチマークにおいて，最先端技術を上回る性能を示す。
Link: https://arxiv.org/abs/2508.17488
コードスイッチングベトナム語・英語音声認識のための二段階音素中心アーキテクチャ：TSPC [cs.SD, cs.AI, cs.CL, eess.AS]目的：ベトナム語・英語コードスイッチング音声認識のための新たなアーキテクチャ
- 音声認識技術は，多様な言語環境でのコミュニケーションを円滑にする上で重要である。
- コードスイッチング音声認識は，言語間の微妙な音韻変化を捉えるのが難しく，既存手法では性能が十分でない。
- ベトナム語と英語間のコードスイッチング音声認識における音響モデルの改善を目指す。
- 提案手法TSPCは，既存のベースラインモデル（PhoWhisper-base）と比較して，一貫して高い性能を示す。
- TSPCは，少ない学習リソースで，有意に低い単語誤り率19.06%を達成した。
- 音素に基づいた二段階アーキテクチャは，音素適応や言語変換を可能にし，複雑なコードスイッチングシナリオにおける性能向上に貢献する。
Link: https://arxiv.org/abs/2509.05983
特権情報を用いた強化学習によるクアッドローターのナビゲーション [cs.RO, cs.AI, cs.CV]目的：クアッドローターナビゲーション手法
- ロボット工学において，自律的なナビゲーションは重要な課題である。
- 大規模な障害物がある環境では，従来の学習ベースの手法は課題が残る。
- 大規模な障害物を回避するためのナビゲーション性能向上を目指す。
- 提案手法は，フォトリアリスティックなシミュレーション環境で86%の成功率を達成した。
- ベースライン戦略と比較して，34%の性能向上を示した。
- 屋外の障害物が多い環境で20回の飛行実験を行い，衝突なく合計589メートルを飛行した。
Link: https://arxiv.org/abs/2509.08177
SAM：Mamba-2状態空間オーディオ言語モデル [cs.RO, cs.CL, cs.SD, eess.AS]目的：オーディオ言語モデルにおける状態空間モデルの設計原則
- 音声と言語の理解は，人間と機械のコミュニケーションにおいて不可欠な要素である。
- 既存のTransformerモデルはパラメータ数が多く，計算コストが高いという課題がある。
- より効率的かつ高性能なオーディオ言語モデルのバックボーンを確立すること。
- SAM-2.7BはAudioSetで21.1 mAP，AudioCapsで17.6 SPICEを達成し，より大きなTransformerモデルに匹敵する性能を示す。
- 状態空間モデル（SSM）は，コンパクトな音声トークン表現からより大きな恩恵を受けることが示された。
- 指示応答の監督学習を取り入れることで，MMAU-Soundの精度が大幅に向上（22.8から56.8へ）。
Link: https://arxiv.org/abs/2509.15680
ノイズのある画像セグメンテーション系列からの遠方物体位置特定 [cs.CV, cs.RO]目的：遠方物体位置特定手法
- ドローンによる山火事監視など，安全性が求められる監視において，3次元物体位置特定は不可欠である。
- 遠方物体や計算資源の制約下では，専用センサーや3次元シーン再構成が困難である。
- 計算資源制約下における，ドローンを用いた遠方物体位置特定問題の解決を目指す。
- マルチビュー三角測量またはパーティクルフィルタのいずれかを用いて位置特定が可能であることを示した。
- パーティクルフィルタは形状と不確実性の推定も提供する。
- 提案手法を既存の画像セグメンテーションモデルと組み合わせることで，信頼性の高い山火事監視システムを構築できる。
Link: https://arxiv.org/abs/2509.20906
ノイズから音符へ：拡散モデルに基づく自動ドラムトランスクリプションの生成と改良 [cs.SD, cs.LG, eess.AS]目的：自動ドラムトランスクリプションのための生成と改良手法
- 音楽情報処理において，ドラム音の自動認識は作曲や音楽分析に不可欠である。
- 既存手法は識別的な枠組みに限定され，柔軟性やロバスト性に課題があった。
- 拡散モデルを活用し，より高精度かつ柔軟なドラムトランスクリプションを実現すること。
- 拡散モデルを用いた生成的なアプローチにより，速度と精度のトレードオフを柔軟に調整可能になった。
- アニールされた擬似ハバー損失関数により，二値の音符発現と連続的なベロシティ値を効率的に最適化することに成功した。
- 音楽ファウンデーションモデルからの特徴量を組み込むことで，未知のドラム音に対しても高いロバスト性を実現し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2509.21739
BridgeDrive：自律運転における閉ループ軌道計画のための拡散ブリッジポリシー [cs.RO, cs.RO, cs.AI, cs.CV, cs.LG]目的：自律運転における閉ループ軌道計画のための拡散ブリッジポリシー
- 自動運転の実現には，多様な運転行動を安全かつ柔軟に計画する技術が不可欠である。
- 既存の拡散モデルを用いた計画手法では，計画の安全性や反応性に課題があり，実用化が難しい場合がある。
- 拡散モデルの理論的な整合性を保ちつつ，安全かつリアルタイムな閉ループ軌道計画を実現することを目指す。
- 提案手法BridgeDriveは，粗いアンカー軌道から文脈を考慮した洗練された計画への変換を拡散ブリッジとして定式化する。
- 実験の結果，Bench2Driveの閉ループ評価ベンチマークにおいて，既存手法を大幅に上回る性能が確認された。
- 特に，PDM-LiteとLEADデータセットにおいて，それぞれ7.72%と2.45%の成功率向上を達成した。
Link: https://arxiv.org/abs/2509.23589
ハイパースフェリカル潜在変数が連続トークン自己回帰的生成を改善する [cs.CV, cs.LG]目的：画像生成における自己回帰モデルの性能向上
- 画像生成技術は，その多様性と品質から注目されており，様々な応用が期待されている。
- 連続トークン自己回帰モデルは，潜在拡散モデルやマスク生成モデルと比較して性能が劣ることが課題となっていた。
- VAE潜在空間の不均一な分散を抑制し，自己回帰的デコードの安定化を図る。
- SphereARは，AR入力と出力を固定半径のハイパースフェア上に制約することで，分散崩壊の主要原因であるスケール成分を除去する。
- ImageNet生成において，SphereAR-HはARモデルとして最高の結果を達成し，FIDスコア1.34を記録した。
- より小規模なSphereAR-L(479M)とSphereAR-B(208M)も，より大規模なベースラインモデルと同等かそれ以上の性能を示した。
Link: https://arxiv.org/abs/2509.24335
3Dフーリエ場を用いた連続空間時間ビデオ超解像 [cs.CV]目的：連続空間時間ビデオ超解像の新しい定式化
- ビデオの高品質化は，視覚体験の向上や様々な応用分野において重要である。
- 従来のビデオ超解像は，空間情報と時間情報を分離し，動き補償が不安定になりがちである。
- 空間時間情報を統合的に捉え，より自然で高精度なビデオ超解像を実現することを目指す。
- 提案手法は，空間情報と時間情報を同時に捉え，従来の基盤手法よりもシャープで時間的に一貫性のある再構成を可能にする。
- 3Dビデオフーリエ場（VFF）を用いることで，任意の位置での柔軟なサンプリングと，エイリアシングのない再構成を可能にする。
- 大規模な空間時間受容野を持つニューラルエンコーダにより，VFFの係数を予測し，計算効率も高い。
Link: https://arxiv.org/abs/2509.26325
EgoTraj-Bench：自己視点ノイズのある観測下でのロバストな軌道予測に向けて [cs.CV, cs.AI, cs.RO]目的：自己視点環境におけるロバストな軌道予測手法の開発
- 人間中心の環境下でのロボットナビゲーションにおいて，正確な軌道予測は不可欠である。
- 従来の軌道予測手法は，観測履歴がノイズを含まないことを前提としており，現実の自己視点環境における課題に対応できていない。
- 現実的な自己視点環境におけるノイズを考慮した，ロバストな軌道予測を可能にするベンチマークとモデルの提供。
- EgoTraj-Benchは，ノイズを含む自己視点視覚履歴と，クリーンな俯瞰視点の将来軌道を対応付けた初のリアルワールドベンチマークである。
- 提案手法BiFlowは，履歴観測のノイズ除去と将来運動の予測を同時に行う二重ストリームフローマッチングモデルである。
- BiFlowは，EgoAnchor機構により，過去の特徴を予測デコーダに条件付けすることで，エージェントの意図をより良くモデル化し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2510.00405
VidGuard-R1：推論型MLLMと強化学習によるAI生成動画の検出と説明 [cs.CV, cs.LG]目的：AI生成動画の検出と説明
- AI生成技術の急速な発展に伴い，偽情報拡散防止の重要性が高まっている。
- 既存の検出手法は，静的なデータセットに依存し，生成モデルの進化に対応できない。
- 本研究は，多段階の物理的不整合を捉え，よりロバストな検出を実現する。
- VidGuard-R1は，グループ相対的方策最適化(GRPO)を用いて，高精度なゼロショット性能を達成した。
- モデルは，時間的安定性と拡散を考慮した報酬モデルにより，「物理に基づいた」アーティファクトを発見する。
- 14万組の難易度の高い動画ペアからなるデータセットを構築し，推論に基づいた明確な根拠を提供する。
Link: https://arxiv.org/abs/2510.02282
SpineBench：SpineMed-450kコーパスを活用した臨床的に重要なレベル認識ベンチマーク [cs.CV, cs.AI]目的：脊椎疾患の診断支援のための，レベル認識型のマルチモーダルデータセットおよび評価フレームワーク
- 脊椎疾患は世界中で多くの患者を苦しめており，適切な診断と治療が重要である。
- 既存のAI診断支援システムは，脊椎の特定レベルを考慮したデータセットの不足により，その能力に限界がある。
- 脊椎のレベルに応じた精緻な画像解析と，臨床現場での活用を可能にするデータセットおよび評価方法を確立する。
- SpineMed-450kは，45万件以上の脊椎画像と指示を含む大規模データセットであり，レベルに応じた推論を可能にする。
- SpineBenchは，脊椎疾患診断におけるレベル識別，病理評価，手術計画などの臨床的に重要な側面を評価するためのフレームワークである。
- SpineMed-450kでファインチューニングされたモデルは，複数の大規模ビジョン言語モデルと比較して，一貫して高い性能を示した。
Link: https://arxiv.org/abs/2510.03160
TerraCodec：地球観測データの圧縮 [cs.CV]目的：地球観測データの効率的な圧縮手法の開発
- 地球観測衛星は膨大なデータ量を生成するため，その保存と伝送は重要な課題である。
- 既存の地球観測データ圧縮技術は断片的であり，大規模な事前学習済みコーデックは公開されていない。
- 時間方向の冗長性を活用した効率的な地球観測ビデオコーデックの開発を目指す。
- TerraCodecは，古典的なコーデックと比較して，同等の画質で3〜10倍高い圧縮率を達成した。
- Temporal Transformerモデル（TEC-TT）は，時間的な依存関係を活用し，ゼロショットクラウドインペインティングにおいて最先端の手法を上回った。
- 本研究は，地球観測におけるニューラルコーデックの有効性を示すものである。
Link: https://arxiv.org/abs/2510.12670
真に自己教師ありな新規視点合成は転移可能である [cs.CV, cs.AI, cs.LG]目的：新規視点合成における転移可能性の評価
- 3次元シーンの理解や生成において，異なる視点からの情報を活用する技術は重要である。
- 既存の自己教師あり新規視点合成モデルは，異なる3次元シーン間での視点推定が転移しないという課題がある。
- 本研究は，3次元幾何学的な事前知識なしに，視点とシーン内容を分離し，転移可能な視点推定を実現することを目指す。
- 提案手法XFactorは，既存の視点推定モデルと比較して，転移可能性において大幅な性能向上を達成した。
- XFactorは，幾何学的な制約や3次元表現を用いずに，潜在変数の視点推定が現実世界の視点と高い相関を示すことを明らかにした。
- 転移可能性を定量化するための新たな指標を導入し，大規模実験を通してXFactorの有効性を検証した。
Link: https://arxiv.org/abs/2510.13063
テキストから3D生成：マルチビュー再構成ネットワークをビデオ生成器に統合する手法 [cs.CV]目的：テキストからの3Dシーン生成
- 視覚コンテンツ生成と3D再構成の分野は急速に進歩しており，新たな可能性を拓いている。
- 既存のテキストから3D生成モデルは，生成される3D形状の品質が十分ではない場合がある。
- ビデオ生成器と3D再構成システムを組み合わせることで，より高品質な3D生成を目指す。
- 提案手法VIST3Aは，テキストからビデオ生成モデルと3D再構成システムを効果的に統合するフレームワークである。
- モデルの結合において，両コンポーネントの知識を保持し，最適な結合層を特定する手法を導入した。
- VIST3Aは，既存のテキストから3D生成モデルと比較して，生成される3D形状の品質を大幅に向上させる。
Link: https://arxiv.org/abs/2510.13454
堅牢かつ効率的な脳腫瘍セグメンテーションのためのDRBD-Mamba：解析的洞察を伴う [cs.CV]目的：脳腫瘍セグメンテーションの精度向上と効率化
- 臨床診断や治療において，正確な脳腫瘍セグメンテーションは不可欠である。
- 腫瘍の異質性により，高精度なセグメンテーションは依然として困難である。
- Mambaの効率性を維持しつつ，脳腫瘍セグメンテーションにおける計算負荷を軽減し，汎化性能を高める。
- 提案手法DRBD-Mambaは，空間充填曲線とゲート融合モジュールにより，計算効率を維持しつつ長距離依存性を捉える。
- BraTS2023を用いた厳密な評価により，既存手法と比較して，腫瘍コアと増強腫瘍のDice係数において平均1.16%と1.68%の改善を達成した。
- また，DRBD-Mambaは既存手法と同等の精度を維持しながら，15倍の効率向上を実現し，堅牢性と計算優位性を示した。
Link: https://arxiv.org/abs/2510.14383
空間推論における最小限の十分性の追求 [cs.CV, cs.AI]目的：空間推論のための最小限の十分な情報セットの構築
- 視覚と言語を結びつける能力は，AIにとって重要であり，ロボティクスや拡張現実などの応用を可能にする。
- 既存のVision-Languageモデルは，3次元理解能力の不足や，冗長な情報による推論の誤りに課題を抱えている。
- 本研究では，必要十分な情報を効率的に抽出し，推論の精度向上と解釈可能性の向上を目指す。
- 提案手法MSSRは，3Dシーンから必要な情報をプログラム的に取得し，冗長性を排除することで，空間推論の性能を大幅に向上させた。
- 特に，SOGモジュールによる言語に基づいた方向性の抽出は，ロバストな推論を可能にする重要な要素である。
- 得られた解釈可能な推論経路は，将来のモデル学習のための高品質なデータ源となる可能性がある。
Link: https://arxiv.org/abs/2510.16688
3Dシーンにおける根拠に基づいた思考の連鎖(Chain-of-Thought)の誘発：SceneCOT [cs.CV, cs.AI]目的：3Dシーンにおける根拠に基づいた思考の連鎖(Chain-of-Thought)推論のメカニズム
- 3Dシーン理解は，ロボット工学や拡張現実など，多様な分野で重要性を増している。
- 既存の3D大規模言語モデルは，人間のようなシーン・オブジェクトに基づいた推論が不十分である。
- 複雑な推論をより小さな問題に分割し，視覚的な手がかりに基づいた推論を可能にすること。
- 本研究では，3Dシーンにおける根拠に基づいた思考の連鎖(SceneCOT)という新しいフレームワークを提案した。
- 大規模なデータセットSCENECOT-185Kを構築し，高品質な185Kのインスタンスを提供した。
- 実験結果から，提案手法は高い精度と整合性で3Dシーン推論を実現できることが示された。
Link: https://arxiv.org/abs/2510.16714
1ステップ音声強調のためのシュレーディンガーブリッジマンバ [cs.SD, cs.AI, cs.LG, eess.AS]目的：効率的な音声強調の実現
- 音声は重要なコミュニケーション手段であり，その品質向上は不可欠である。
- 騒音や残響は音声の知覚的な品質を著しく低下させる。
- リアルタイム処理可能な高性能な音声強調手法の開発。
- 提案手法SBMは，複数の評価指標において既存の生成モデルや識別モデルを上回る性能を示した。
- シュレーディンガーブリッジ学習パラダイムは，多様なアーキテクチャで性能向上に寄与することが確認された。
- マンバアーキテクチャは，自己注意機構やLSTMと比較して，シュレーディンガーブリッジ学習パラダイム下でより優れた性能を発揮する。
Link: https://arxiv.org/abs/2510.16834
あらゆる領域の把握：マルチモーダルLLMのための精密な文脈的ピクセル理解に向けて [cs.RO, cs.CV, cs.AI, cs.CL]目的：マルチモーダルLLMにおける，精密かつ文脈に沿った領域レベルの視覚理解
- マルチモーダルLLMは急速に発展しているが，複雑なシーンにおける詳細な分析が課題となっている。
- 既存の領域レベルLLMは，孤立した領域の理解に最適化されており，グローバルな文脈を考慮していない。
- GARは，グローバル文脈を活用し，領域間の相互作用をモデル化することで，この問題を解決する。
- GARは，RoIアラインメント特徴リプレイ技術により，精密な知覚と複数プロンプト間の相互作用モデリングを可能にする。
- GAR-1Bは，DLC-BenchにおいてDAM-3Bを4.5%上回り，最先端のキャプション能力を維持する。
- GAR-8Bは，VideoRefer-7Bを上回る性能を示し，動画への高い汎化能力を持つことを示す。
Link: https://arxiv.org/abs/2510.18876
FLoC：長編動画理解のための施設配置に基づく効率的なビジュアルトークン圧縮 [cs.CV, cs.AI]目的：長編動画理解におけるビジュアルトークン圧縮手法
- 長編動画理解は，大規模言語モデルと組み合わせることで発展しており，重要な研究分野である。
- 長編動画から生成される大量のビジュアルトークンが，モデルのスケーラビリティを著しく制限している。
- ビジュアルトークン数を削減し，計算効率を向上させながら，動画理解の性能を維持することを目的とする。
- FLoCは，施設配置関数に基づき，限られたビジュアルトークン数内で代表的かつ多様なトークンを選択する。
- 遅延貪欲アルゴリズムを用いることで，効率的にトークン数を削減し，ほぼ最適な性能を保証する。
- FLoCは，学習不要でモデルやクエリに依存せず，様々な動画-LLMに容易に組み込むことができる。
Link: https://arxiv.org/abs/2511.00141
MotionStream：インタラクティブなモーション制御によるリアルタイム動画生成 [cs.RO, cs.CV, cs.LG]目的：リアルタイム動画生成のための技術
- 動画生成技術は，エンターテインメント，教育，コミュニケーションなど，幅広い分野で重要性が増している。
- 既存のモーション条件付き動画生成は，遅延が大きく，リアルタイムインタラクションが困難である。
- 本研究は，低遅延でインタラクティブなリアルタイム動画生成を実現することを目指す。
- MotionStreamは，単一のGPU上で最大29FPSのストリーミング生成を可能にし，サブセカンドの遅延を実現した。
- 自己強制と分布マッチング蒸留を用いた因果的生徒モデルを開発し，高速なリアルタイム推論を可能にした。
- スライディングウィンドウ注意機構とアテンションシンクを導入することで，無限長の動画生成を効率的に実現した。
Link: https://arxiv.org/abs/2511.01266
SASG-DA：疎性認識に基づくセマンティック誘導拡散データ拡張による筋電ジェスチャ認識 [cs.CV, cs.AI, cs.HC]目的：筋電ジェスチャ認識のためのデータ拡張手法
- 人間機械インタラクションにおいて，筋電信号に基づくジェスチャ認識は，リハビリテーションや義肢制御において重要な役割を果たす。
- 深層学習モデルは，十分な学習データがない場合，過学習を起こしやすく，汎化性能が低いという課題がある。
- 本研究は，信頼性と多様性を兼ね備えたデータ拡張により，過学習を抑制し，認識性能と汎化性能を向上させることを目指す。
- 提案手法SASG-DAは，セマンティック表現の誘導とガウスモデルによるサンプリングを組み合わせることで，忠実で多様なデータを生成する。
- 疎性認識サンプリングにより，データ分布の網羅性とサンプル有用性を高め，特に表現の少ない領域を探索する。
- Ninapro DB2, DB4, DB7などのベンチマークデータセットでの実験により，既存のデータ拡張手法と比較して，SASG-DAが大幅に性能向上することを示した。
Link: https://arxiv.org/abs/2511.08344
超音波モニタ検出のための全自動データラベリング [cs.DC, cs.CV]目的：超音波モニタ検出モデルを訓練するためのラベル付きデータ生成手法
- 超音波画像は医療診断に不可欠であり，迅速かつ正確な画像処理が求められる。
- 従来の画像転送はDICOMに依存し，ボトルネックとなっている場合がある。
- DICOMに依存しない画像抽出・修正パイプラインの構築を目指す。
- 本研究で開発された手法は，人間のアノテーションなしに超音波画像を抽出・修正できる。
- 修正された画像は，元のDICOM画像と同等の精度で心臓視点の分類を可能にする。
- 心臓視点の分類において，0.79のバランスのとれた精度を達成した。
Link: https://arxiv.org/abs/2511.13197
DAP：自律走行のための離散トークン自己回帰プランナー [cs.AI, cs.CV]目的：自律走行のためのプランニング手法
- データ量とモデル規模の拡大による性能向上は，自律走行において不可欠だが未解決の課題である。
- 自己回帰モデルはデータスケーリングに有効だが，エゴ車両の軌跡予測のみでは教師信号が疎であり，シーンの変化がエゴ車両の行動を制約しにくい。
- BEVセマンティクスとエゴ車両の軌跡を共同予測することで，包括的な表現学習と動的な条件付けを実現し，プランニングの精度向上を目指す。
- DAPは，コンパクトな1億6千万パラメータでありながら，オープンループおよびNAVSIMベンチマークにおいて最先端の性能を達成した。
- BEVとエゴ車両の行動を離散トークンで自己回帰的に処理する手法は，スケーラブルなプランニングパラダイムを提供する。
- 教師あり学習と強化学習を組み合わせたファインチューニングにより，性能をさらに向上させている。
Link: https://arxiv.org/abs/2511.13306
欠損モダリティに対するロバストな脳腫瘍セグメンテーションのためのクロスモーダル構成的自己知識蒸留 [cs.CV, cs.AI]目的：脳腫瘍セグメンテーションにおけるロバスト性向上
- 臨床診断と治療計画において，正確な脳腫瘍セグメンテーションは不可欠である。
- 実際の臨床環境では，MRIモダリティの欠損が頻繁に発生し，深層学習モデルの性能を著しく低下させる。
- 様々なモダリティの欠損状況下でも，高い性能と汎化能力を維持できるセグメンテーション手法を開発する。
- 提案手法CCSＤは，様々なモダリティ欠損シナリオにおいて，最先端の性能を達成した。
- CCSＤは，モダリティ間の知識伝達と，段階的なモダリティドロップアウトによるロバスト性向上を実現する。
- 実験結果は，CCSＤが汎化性能と安定性に優れることを示唆している。
Link: https://arxiv.org/abs/2511.14599
マルチモーダルKVキャッシュ圧縮の再検討：周波数領域誘導型外れ値KV対応アプローチ [cs.LG, cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルにおけるKVキャッシュ圧縮手法
- マルチモーダルLLMの推論コストは高く，高速化が求められている。
- 既存手法は注意スコアに依存し，効率的な注意カーネルとの互換性に課題がある。
- KV行列の分布に着目し，重要な外れ値KVを保持することで圧縮性能を向上させる。
- FlashCacheは，周波数領域で主要成分をモデル化し，外れ値KVを優先的に保持する。
- 動的な予算配分により，層ごとにKVキャッシュサイズを適応的に調整する。
- 実験の結果，FlashCacheはKVメモリ使用量を80%削減し，デコーディング速度を最大1.69倍向上させた。
Link: https://arxiv.org/abs/2511.16786
MambaTAD：状態空間モデルと長距離時系列行動検出 [cs.RO, cs.CV, cs.AI]目的：長距離時系列行動検出のためのモデル
- 動画理解において，行動認識と局在化は重要な課題である。動画から行動を正確に特定し，時間的な位置を特定する必要がある。
- 従来の行動検出手法は，長時間の行動を捉えるグローバルな認識と効率的な検出ヘッドの不足に課題がある。
- MambaTADは，長距離モデリングとグローバル特徴検出能力を導入し，より正確な行動検出を目指す。
- MambaTADは，Diagonal-Masked Bidirectional State-Space (DMBSS)モジュールを導入し，グローバルな特徴融合と行動検出を促進する。
- また，多粒度特徴とグローバルな認識を用いて検出を段階的に改善するグローバル特徴融合ヘッドを導入する。
- 実験結果から，MambaTADは複数のベンチマークにおいて優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.17929
観察者・行動者：疎な視点からのガウススプラッティングを用いた能動的視覚模倣学習 [cs.RO, cs.CV, cs.LG]目的：能動的視覚模倣学習のための新しい枠組み
- ロボットの視覚的タスク遂行において，最適な視点からの情報取得は不可欠である。
- 従来の視覚模倣学習では，視点の固定化による遮蔽問題が課題となっていた。
- 遮蔽の少ない，よりロバストな方策学習を可能にすること。
- 提案手法ObActは，観察者アームが最適な視点を見つけ，行動者アームの視覚情報を向上させる。
- 軌跡転移学習では遮蔽なしで145%，遮蔽ありで233%の性能向上が確認された。
- 行動クローニング学習ではそれぞれ75%と143%の性能向上が認められた。
Link: https://arxiv.org/abs/2511.18140
単眼動画からの3Dヘッドアバター再構成：ソフトバインディングと時間的密度制御 [cs.CV]目的：単眼動画からの高忠実度でアニメーション可能な3Dヘッドアバター再構成
- 現実世界を再現するバーチャルアバターの需要が高まっており，高品質な3Dヘッドモデルの生成が不可欠である。
- 既存手法では，ガウススプラッティングの剛体性と，遮蔽領域の表現が課題となっていた。
- UV適応ソフトバインディングと時間的密度制御により，より自然で詳細なアバター再構成を目指す。
- STAvatarは，UV適応ソフトバインディングと時間的密度制御という2つの主要コンポーネントから構成される。
- UV適応ソフトバインディングは，画像情報と幾何学的情報を活用し，ガウスごとの特徴オフセットをUV空間で学習する。
- 実験結果から，STAvatarは特に細かいディテールや遮蔽領域の再構成において，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2511.19854
RadarVLM：レーダーシーン理解のためのビジョン言語モデルアプローチ [cs.CV]目的：レーダーシーン理解のための統一的なシーンレベル表現の学習
- 悪天候や長距離条件下でも信頼性の高い知覚を提供するため，自動運転等の安全な走行に不可欠である。
- 既存の機械学習アプローチは，タスクごとに異なるアーキテクチャと学習目標で断片化されている。
- レーダーデータと自然言語による構造化された空間的指導により，この断片化を解消し，精度の高い空間推論を実現する。
- 提案手法SG-CLIPは，従来のCLIPと比較してF1スコアを最大50％相対的に改善した。
- セグメンテーションにおいて，平均精度（AP）は21％向上し，言語によるグラウンディングが空間的に構造化された表現を生み出すことを示した。
- 局所化を考慮した評価指標により，従来の言語的類似性だけでは捉えられない空間的精度を直接評価できる。
Link: https://arxiv.org/abs/2511.21105
PowerCLIP：コントラスト学習のためのパワセットアラインメント [cs.CV]目的：コントラスト事前学習におけるパワセットアラインメントによる性能向上
- 画像とテキストの関連性を学習する研究は，様々な応用において重要である。
- 複数の画像領域にまたがる構文の意味を捉えることが難しい。
- 画像領域とテキストのフレーズのアラインメントを最適化し，構文理解を向上させる。
- PowerCLIPは，パワセットアラインメントにより，画像領域とテキストフレーズ間のアラインメントを網羅的に最適化する。
- 効率的な非線形集約器（NLA）を導入することで計算量を大幅に削減し，精度を維持している。
- ゼロショット分類と検索タスクにおいて，最先端の方法を上回る性能を示し，PowerCLIPの有効性を実証している。
Link: https://arxiv.org/abs/2511.23170
DPAC：拡散サンプリングのための分布保持敵対的制御 [cs.RO, cs.CV, cs.AI, cs.LG]目的：拡散サンプリングにおける敵対的制御の性能劣化とその原因の解明
- 拡散モデルは高品質な画像生成を可能にするが，制御可能性の向上が課題である。
- 敵対的制御は目標クラスへの到達を可能にするが，軌道間の乖離によりサンプル品質が低下する。
- 拡散過程における軌道間のKL divergenceを最小化し，敵対的制御と生成品質のバランスをとる。
- 敵対的制御のエネルギーと知覚的忠実度との間に原理的な繋がりがあることが示された。
- DPACは，拡散モデルのスコア幾何学に基づいた接空間への射影を通じて，分布のずれを抑制する。
- ImageNet-100での実験により，DPACがFIDと推定パスKLを低減し，攻撃成功率を維持することが確認された。
Link: https://arxiv.org/abs/2512.01153
情報ユニークネスに基づくビデオ圧縮の再考：UniComp [cs.CV]目的：ビデオ表現における情報忠実度の最大化
- ビデオデータ量は増大の一途を辿っており，効率的な圧縮技術が不可欠である。
- 従来の圧縮手法では，重要な視覚情報の損失が課題となっていた。
- 情報ユニークネスを用いて，冗長性を削減し，圧縮効率を向上させる。
- UniCompは，既存の圧縮手法と比較して，限られた計算資源下で重要な視覚トークンをより良く保持できることが示された。
- 情報ユニークネスが，トークン圧縮の有効性に重要な役割を果たすことが明らかになった。
- フレームグループ融合，トークン割り当て，空間動的圧縮の3つのモジュールが，効率的な圧縮を実現している。
Link: https://arxiv.org/abs/2512.03575
エネルギー適応型MixupとフレームレベルAttentionを用いた音声感情認識のための多損失学習 [cs.SD, cs.AI, eess.AS]目的：音声感情認識における性能向上
- 人間とコンピュータのインタラクションにおいて，感情を認識する技術は重要である。
- 感情の複雑さや注釈付きデータの不足により，高い性能を達成することが難しい。
- 多様な音声サンプル生成とフレームレベルの特徴抽出により，認識精度を向上させる。
- 提案手法は，エネルギー適応型MixupとフレームレベルAttentionを組み合わせた多損失学習フレームワークである。
- IEMOCAP，MSP-IMPROV，RAVDESS，SAVEEの4つのデータセットで最先端の性能を達成した。
- この結果は，提案手法の有効性とロバスト性を示唆している。
Link: https://arxiv.org/abs/2512.04551
位相保存拡散：構造に沿った生成のための位相保持拡散 [cs.RO, cs.SY, eess.SY, cs.CV, cs.GR, cs.LG, cs.RO]目的：構造に沿った生成
- 画像生成技術は，無条件生成やテキストからの画像生成で進歩している。
- 従来の拡散モデルは位相情報を破壊し，幾何学的整合性が求められるタスクには不向きである。
- 入力の位相を保存しつつ振幅をランダム化することで，構造に沿った生成を実現する。
- 位相保存拡散(\phi-PD)は，モデルのアーキテクチャ変更や追加パラメータなしに，構造に沿った生成を可能にする。
- 周波数選択的構造化ノイズ(FSSノイズ)により，単一の周波数カットオフパラメータで構造の剛性を制御できる。
- CARLAシミュレータを用いた実験で，\phi-PDはsim-to-realプランナの転送性能を大幅に向上させた。
Link: https://arxiv.org/abs/2512.05106
MultiAPI Spoof：音声詐欺検出のためのマルチAPIデータセットとローカルアテンションネットワーク [cs.SD]目的：音声詐欺検出のためのマルチAPIデータセットとローカルアテンションネットワーク
- 音声詐欺は，セキュリティやプライバシーに関わる重大な脅威であり，対策が急務である。
- 既存のデータセットは，限定的なモデルに依存しており，現実世界の多様なAPI環境に対応できていない。
- 多様なAPIで生成された音声データを用いて，よりロバストな詐欺検出手法を開発すること。
- MultiAPI Spoofデータセットは，30種類のAPIを用いて生成された約230時間の合成音声を含む。
- 提案手法Nes2Net-LAは，ローカルアテンション機構により，音声詐欺の特徴抽出性能を向上させる。
- 実験結果から，Nes2Net-LAは最先端の性能を示し，未知の詐欺条件下でも高い堅牢性を示すことが確認された。
Link: https://arxiv.org/abs/2512.07352
大規模言語モデルによる自動プロキシ探索：トレーニングフリーな混合精度量子化の革命 [cs.LG, cs.CV]目的：混合精度量子化のための自動プロキシ探索手法
- 深層学習モデルのメモリ消費量は大きい。量子化はモデルを軽量化し，実用的な展開を可能にする重要な技術である。
- 従来の量子化手法は，計算コストが高いか，専門家の知識が必要であり，効率性と柔軟性に課題があった。
- 本研究は，専門家の介入やトレーニングを必要としない，より効率的かつ自動的なプロキシ探索手法を確立することを目指す。
- 本研究では，大規模言語モデルと進化戦略を活用した，トレーニングフリーな自動プロキシ探索フレームワークTAPを提案した。
- TAPは，軽量な直接選好最適化（DPO）戦略コントローラーにより，プロキシ生成の精度を向上させるタスク認識型フィードバックループを実現した。
- 主要なベンチマーク実験において，TAPは最先端の性能を達成し，混合精度量子化コミュニティに新たな視点を提供する。
Link: https://arxiv.org/abs/2512.07419
EgoCampus：一人称視点歩行者の視線モデルとデータセット [cs.CV]目的：実世界におけるナビゲーション中の人間の視線注意予測
- ナビゲーションシステムやロボティクスの分野において，人間の視線情報は重要な手がかりとなる。
- 屋外環境における歩行者の視線データの収集・分析は困難であり，データセットの不足が課題である。
- 屋外環境下での歩行者の視線データを活用し，ナビゲーションを支援するモデルを開発すること。
- EgoCampusデータセットは，大学キャンパスの25の経路，6km以上の距離，80人以上の歩行者の視線データを収録している。
- 収集システムにはMetaのProject Ariaグラスが用いられ，視線追跡，RGBカメラ，慣性センサー，GPSなどの豊富なデータが得られている。
- EgoCampusNetという，屋外環境下での歩行者の視線を予測する新しい手法が提案されている。
Link: https://arxiv.org/abs/2512.07668
DriverGaze360：物体レベルのガイダンスによる全方向運転者注意モデル [cs.CV]目的：運転者注意の予測
- 自動運転システムの安全性向上には，運転者の注意状況の理解が不可欠である。
- 従来のモデルは視野が狭く，多様な運転状況への対応が課題であった。
- 全方位の運転者注意モデルを構築し，周辺状況の把握能力を向上させる。
- 大規模な360度視野の運転者注意データセットDriverGaze360を構築した。
- セマンティックセグメンテーションを活用したDriverGaze360-Netにより，注意マップと注視対象物の同時学習を実現した。
- 広視野の運転画像において，最先端の注意予測性能を達成した。
Link: https://arxiv.org/abs/2512.14266