arXiv雑要約

画像・音声 - 2026/03/19 公開

SLAM Adversarial Lab：不利条件下におけるVisual SLAMの堅牢性評価のための拡張可能フレームワーク [cs.RO, cs.CV]目的：Visual SLAMシステムの堅牢性評価
- SLAMは，ロボット工学や自動運転などの分野で重要な役割を担う技術である。
- 現実世界では，悪天候などの不利条件下でSLAMシステムの性能が低下する可能性がある。
- 多様な悪条件下でSLAMシステムの弱点を特定し，性能向上に貢献すること。
- SALは，霧や雨などの悪条件を，既存のデータセットを変換する摂動として表現する。
- 霧の可視距離など，現実世界で解釈しやすい単位で摂動の強度レベルを設定可能である。
- SALは7つのSLAMアルゴリズムと3つのデータセットを用いて，悪条件下における評価実験を行った。
Link: https://arxiv.org/abs/2603.17165
汎用マルチモーダルLLMは，人間の注目度を介して生体認証の専門知識を獲得する [cs.CV, cs.AI]目的：虹彩プレゼンテーション攻撃検出における汎用マルチモーダル大規模言語モデル(MLLM)の活用
- 生体認証はセキュリティの根幹であり，その信頼性確保は重要である。特に虹彩認証は高精度だが，攻撃への対策が急務である。
- 新たな攻撃手法が頻出するため，既存のモデルでは対応が困難であり，柔軟な適応能力が求められている。
- 本研究は，プライバシーを保護しつつ，人間の知識を活用してMLLMによる虹彩攻撃検出の精度向上を目指す。
- 事前学習済みのvision transformerが，明示的な学習なしに多くの虹彩攻撃タイプを分類できることを示した。
- 人間の注目度（攻撃指標の言語的記述）を構造化されたプロンプトに組み込むことで，モデルは曖昧さを解消し，精度が向上した。
- Gemini 2.5 Proは，専門的なCNNベースラインや人間検査者よりも優れた性能を示し，Llama 3.2-Visionはほぼ同等の性能を達成した。
Link: https://arxiv.org/abs/2603.17173
Patient4D：単眼手術室ビデオからの時間的に一貫性のある患者体メッシュ復元 [cs.CV]目的：単眼手術室ビデオからの患者体メッシュ復元
- 手術支援ARの発展には，患者の3Dモデルが不可欠であり，その精度が臨床応用の成否を左右する。
- 既存のHMR手法は，安定したカメラ環境下での動作を前提としており，手術室のような動的な環境下では性能が低下する。
- 手術中のドレープによる遮蔽やカメラの動きに対応し，安定した3Dモデルの復元を実現すること。
- Patient4Dは，時間的一貫性を重視した再構成パイプラインであり，安定性の高いキーフレームを利用するPose Lockingと，シルエットに基づくRigid Fallbackを導入。
- 手術用ドレープ下での評価では，平均IoUが0.75に達し，既存手法と比較して失敗フレームを30.5%から1.3%に大幅に削減。
- 静止性に関する事前知識の活用が，臨床ARにおける単眼再構成の精度向上に大きく貢献することが示された。
Link: https://arxiv.org/abs/2603.17178
ビジュアル製品検索ベンチマーク [cs.MA, cs.CV, cs.IR]目的：画像からの信頼性の高い製品識別
- 産業・商業における部品調達やメンテナンス等において，正確な製品識別は不可欠である。
- 大規模で変化し続けるカタログから正確な製品を検索する視覚的検索の性能が課題である。
- 現実的な制約下での，製品識別システムの性能評価指標を確立すること。
- 最新のビジュアル埋め込みモデルの性能を，様々な産業データセットを用いて評価した。
- 汎用モデルと産業用途向けモデルの性能を比較し，両者の強みと弱みを明らかにした。
- このベンチマークは，実運用レベルの製品識別システムにおける視覚的埋め込みアプローチの限界を示す。
Link: https://arxiv.org/abs/2603.17186
費用対効果の高いAI委譲のための適応型契約 [cs.CE, physics.comp-ph, cs.GT, cs.AI, cs.LG]目的：AI委譲における費用対効果の最大化
- AIの活用が拡大する中で，外部への委譲は重要性を増している。
- 評価のノイズが大きい場合，支払いが増加し，コストが課題となる。
- 評価コストを抑えつつ，AI委譲の経済的メリットを向上させる。
- 適応型契約は，初期の粗い信号に基づいて詳細な評価を必要に応じて選択的に行うことで，リソースを節約する。
- 最適な適応型契約を効率的に計算するアルゴリズムが提案され，近似困難性も示された。
- 質問応答とコード生成のデータセットを用いた実験により，適応性の利点が実証された。
Link: https://arxiv.org/abs/2603.17212
整合性が言語モデルを規範的，記述的でないものにする [cs.CL, cs.AI, cs.GT]目的：言語モデルの整合性と人間の意思決定予測の比較
- 言語モデルの性能向上は，人間とのより良い協調を可能にする上で重要である。
- 整合性調整されたモデルが，人間の実際の行動を正確に反映しているか不明である。
- 戦略的ゲームにおけるモデルの予測精度を評価し，整合性の影響を解明する。
- 整合性調整されたモデルは，一回の意思決定や規範的な予測が有効な状況では予測性能が高い。
- 複数回の戦略的ゲームでは，整合性調整されていないモデルの方が人間の選択をより正確に予測する。
- 整合性は，モデルの利用可能性と人間行動の代理としての利用可能性との間にトレードオフを生む。
Link: https://arxiv.org/abs/2603.17218
SA-CycleGAN-2.5D：三重平面コンテキストを用いた自己注意型CycleGANによる多施設MRI調和 [cs.CV, cs.AI, cs.LG]目的：多施設におけるMRI画像間の調和
- 多施設研究では，スキャナ依存性の影響が再現性に大きく関わる。
- 既存手法では空間的な特徴を考慮できず，スキャナの影響を十分に除去できていない。
- グローバルな強度相関をモデル化し，空間情報を保持した調和を目指す。
- 本研究で提案するSA-CycleGAN-2.5Dは，MMDを99.1%削減し，ドメイン分類器の精度をほぼ偶然レベルまで低下させた。
- 特に，異種から均質への変換において，グローバルな注意機構が統計的に不可欠であることが確認された。
- 2Dの効率性と3Dの一貫性を両立し，腫瘍の病理生理を維持した調和画像を得ることで，再現性のある多施設ラジゲノミクス解析を可能にする。
Link: https://arxiv.org/abs/2603.17219
効率的な4Dガウスストリーミングのための適応アンカーポリシー [cs.SI, cs.DB, cs.IR, eess.SY, cs.SY, cs.CV]目的：4Dガウスストリーミングにおける効率的なアンカー選択ポリシーの提案
- リアルタイムレンダリングや自由視点ビデオの実現に不可欠であり，動的なシーンの再構成における重要性が増している
- 既存手法は固定されたアンカー数を使用するため，シーンの複雑さに応じて計算資源の割り当てが非効率である
- シーンの複雑さに応じた最適なアンカー数を決定し，再構成品質と処理速度のバランスを改善する
- 提案手法EGSは，強化学習を用いてアンカーの予算と選択を最適化し，既存手法FPSと比較して品質と効率のトレードオフを改善した
- 高速レンダリングにおいて，アンカー数を8分の1に削減しつつ，PSNRを0.52〜0.61dB向上させ，処理速度を1.29〜1.35倍に高速化した
- 高画質化においても，少ないアンカー数で既存手法と同等の性能を維持した
Link: https://arxiv.org/abs/2603.17227
ドロップオフから回復へ：MLLMにおけるセグメンテーションのメカニズム分析 [cs.CV, cs.AI, cs.LG]目的：MLLMにおけるセグメンテーション能力のメカニズム
- 画像認識技術の高度化は，様々な応用分野において不可欠である。
- MLLMの空間理解能力は未知数であり，セグメンテーション性能に課題がある。
- MLLMのセグメンテーション処理メカニズムを解明し，性能向上に貢献する。
- アダプター層でセグメンテーション表現が低下する現象が確認された。
- LLM層において，注意機構を介した表現の洗練により，セグメンテーション性能が回復する様子が明らかになった。
- 因果注意の制約を双方向注意が緩和することで，セグメンテーションの回復が促進されることが示された。
Link: https://arxiv.org/abs/2603.17228
月面ナビゲーションのためのDEMアンカリングによるVisual SLAM [cs.RO, cs.CV]目的：月面における長距離ナビゲーションのための高精度なSLAMシステム
- 将来の月探査ミッションにおいて，自律走行ロボットの長距離移動と正確な位置推定は不可欠である。
- GPSの不在，極端な照度変化，テクスチャの少ないレゴリスが，月面での長距離ナビゲーションを困難にしている。
- DEMを利用して絶対的な表面制約を加え，長期間にわたるドリフトを抑制することで，ナビゲーション精度向上を目指す。
- DEMアンカリングは，ベースラインのSLAM手法と比較して絶対軌道誤差を継続的に低減することが示された。
- 繰り返し地形や視覚的に曖昧な地形においても，長距離ナビゲーションにおけるドリフトを抑制する効果が確認された。
- Unreal Engineによるシミュレーションデータと，エトナ山で収集された実データを用いて検証された。
Link: https://arxiv.org/abs/2603.17229
惑星探査におけるニューラルラディアンスマップの活用と経路計画 [cs.RO, cs.CV]目的：惑星探査車の自律航行のための経路計画手法
- 惑星探査は科学的発見の機会を提供する。探査の加速には，高度な自律性が不可欠である。
- 既存の探査車の自律性は，容易に構築・保存できるグローバルマップの欠如により制限されている。
- ニューラルラディアンスマップを用いて，オンラインでの航行に使用可能なマップを構築し，経路計画の効率化を目指す。
- ニューラルラディアンスマップを活用した経路計画フレームワークを提案し，局所情報と大域情報を統合した。
- ニューラルラディアンスマップから抽出した地形特徴を用いて，カーネルリッジ回帰により局所コストを補間し，走行不可能な領域を回避する経路再計画を可能にした。
- シミュレーション実験の結果，提案手法は既存手法と比較して，コストが低く，経路計画の成功率が高いことが示された。
Link: https://arxiv.org/abs/2603.17236
GigaWorld-Policy：効率的な行動中心型ワールド-行動モデル [cs.CV]目的：ロボットのポリシー学習のための，行動を中心としたワールド-行動モデルの開発
- ロボットの自律的な行動を可能にするためには，環境を予測し，適切な行動を計画する能力が不可欠である。
- 既存のワールド-行動モデルは，計算コストが高く，視覚情報と行動表現が複雑に絡み合っているという課題がある。
- GigaWorld-Policyは，これらの課題を解決し，効率的かつ高精度な行動予測を実現することを目的とする。
- GigaWorld-Policyは，従来の最先端モデルMotusと比較して，9倍の速度で動作することが示された。
- また，RoboTwin 2.0において，pi-0.5と比較して95%の性能向上を達成した。
- 行動予測とビデオ生成の両方による教師あり学習により，物理的に妥当な行動学習を促進している。
Link: https://arxiv.org/abs/2603.17240
ドキュメント解析におけるレイアウトエラー検出の評価ベンチマークLED [cs.CV, cs.CL]目的：ドキュメントレイアウト分析における構造的エラーの検出
- ドキュメント理解は，情報検索や知識獲得において不可欠であり，その精度向上が求められている。
- 既存の評価指標は，レイアウトの論理的な一貫性を捉えきれず，構造的エラーの検出が困難である。
- レイアウトエラーの検出に特化したベンチマークを確立し，構造的理解能力を評価する。
- 本研究で提案するLEDベンチマークは，8種類の標準化されたエラータイプを定義し，エラーシミュレーションを可能にする。
- 実験の結果，最先端のマルチモーダルモデルにおいて，LEDは構造理解の弱点を明確に示し，詳細な評価を可能にした。
- LEDは，ドキュメント理解モデルの構造的堅牢性と推論能力を診断するための統一的かつ説明可能なベンチマークとなる。
Link: https://arxiv.org/abs/2603.17265
ConfusionBench：教育ビデオにおける混乱認識と局在化のための専門家による検証済みベンチマーク [cs.CV]目的：教育ビデオにおける学生の混乱認識と局在化のための高品質なベンチマークデータセット
- 教育AI分野において，学生の学習状況を把握し，効果的な指導を行う上で重要である。
- 既存の混乱データセットは，ラベルのノイズ，粗い時間的注釈，専門家による検証の不足といった課題を抱えている。
- 信頼性の高い詳細な混乱認識と時間的に正確な分析を可能にする，高品質なベンチマークデータセットを構築すること。
- ConfusionBenchは，モデル支援スクリーニング，研究者によるキュレーション，専門家による検証を含む多段階フィルタリングパイプラインを用いて構築された。
- 提案手法を用いた評価実験の結果，プロプライエタリモデルは全体的に性能が高いが，遷移セグメントを過剰に予測する傾向がある。
- 一方，オープンソースモデルはより保守的で，検出の見落としが起こりやすいことが示された。学生の混乱レポート視覚化は，教育専門家の介入決定と学習計画の適応を支援する。
Link: https://arxiv.org/abs/2603.17267
制限付き加法コストによる雑用割り当て：EFX，MMS，効率性の同時達成 [cs.GT]目的：制限付き加法コストを持つ雑用に対する公平かつ効率的な割り当て
- 学術論文査読は，専門家による質の高い評価が不可欠であり，効率的な査読者割り当てが重要である。
- 査読者の負担や専門性を考慮せず，単純な割り当てでは公平性や効率性が損なわれる可能性がある。
- 査読者の希望を反映しつつ，全体のコストを最小化する公平な割り当て方法を確立すること。
- 提案アルゴリズムは，EFXとMMSという2つの公平性基準を同時に満たすことが示された。
- 提案アルゴリズムは，最適な社会的コストの2近似を達成し，その近似比率が最適であることが証明された。
- 多項式時間で実行可能なアルゴリズムでは，より弱い公平性保証が得られることも示された。
Link: https://arxiv.org/abs/2603.17270
DANCE：動的3次元CNNプルーニング：エッジにおけるエネルギー効率のためのフレーム，チャネル，特徴の適応 [cs.CV, cs.AI]目的：3次元CNNにおけるエネルギー効率の最大化
- 動画・画像処理においてCNNは重要な役割を果たすが，計算資源の制約がある。
- 入力サンプルの計算複雑さに応じて動的に適応できず，エネルギー消費が大きい。
- 入力に応じて動的にプルーニングを行い，エネルギー効率を向上させる。
- 提案手法DANCEは，性能への影響を最小限に抑えつつ，電力効率を大幅に向上させる。
- AVAにより，ネットワーク全体のニューロン活性化の分散を増加させ，プルーニングを容易にする。
- AAPにより，フレーム，チャネル，特徴を動的にプルーニングし，MAC演算とメモリアクセスを削減する。Jetson NanoとSnapdragon 8 Gen 1での検証で高速化とエネルギー効率の向上が確認された。
Link: https://arxiv.org/abs/2603.17275
物語生成における一貫性とスタイル制御のためのファインチューニング手法 [eess.SY, cs.SY, cs.CV, cs.AI]目的：物語生成における一貫性とスタイル制御
- 物語視覚化は，感情に訴えかける表現を可能にする重要な技術である。
- 既存手法では，登場人物の不整合やアイデンティティの変動が課題となっていた。
- 登場人物と視覚的スタイルの一貫性を高めることによって物語生成の品質向上を目指す。
- 提案手法では，Group-Shared Attention (GSA)というメカニズムを導入し，フレーム間のアイデンティティの一貫性を構造的に符号化している。
- Direct Preference Optimization (DPO)を活用することで，視覚的な忠実性とアイデンティティの保存を同時に強化している。
- ViStoryBenchでの評価により，Character Identity (CIDS)とStyle Consistency (CSD)で最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.17295
オープンエージェントWebエコシステムのためのインセンティブ効率ルーティングフレームワークIEMAS [cs.NI, cs.GT]目的：オープンな分散型マルチエージェントシステムにおけるインセンティブと効率の最適化
- 大規模な知能を実現するため，分散型マルチエージェントシステムが注目されている。
- 自己利益優先のエージェントの存在により，システム全体の効率的なリソース管理が課題である。
- LLM推論に特化したインセンティブメカニズムを導入し，システム性能と経済的効率を両立させる。
- IEMASは，不確実性下でのQoS予測モデルとVCGに基づく二部マッチング機構を統合している。
- これにより，真実性の高い能力報告と社会最適性を保証し，KVキャッシュアフィニティを活用して計算冗長性を最小限に抑える。
- シミュレーションの結果，平均サービスコストが35%削減され，エンドツーエンドレイテンシが最大2.9%改善された。
Link: https://arxiv.org/abs/2603.17302
3D MRIに基づくアルツハイマー病分類：漏洩を考慮した件ベース評価によるマルチモーダル3D CNN [cs.CV]目的：アルツハイマー病の分類
- アルツハイマー病は高齢化社会において重要な健康問題であり，早期診断が不可欠である。
- 既存研究ではMRI画像を2Dスライスで分析することが多く，脳の3次元構造を十分に活用できていない。
- 脳の空間的関係性を捉え，より正確なアルツハイマー病の分類を目指す。
- 提案手法は，OASIS 1データセットを用いて5分割交差検証を行い，平均精度72.34%±4.66%，ROC AUC 0.7781±0.0365を達成した。
- GradCAMによる可視化の結果，モデルは海馬や脳室など，アルツハイマー病に関連する脳領域に注目していることが確認された。
- スライスベース分析との比較実験により，本手法がボリューメトリックMRI分析の潜在的な利点を裏付ける結果が得られた。
Link: https://arxiv.org/abs/2603.17304
交響曲：長編動画理解のための認知に着想を得たマルチエージェントシステム [cs.CL, q-bio.NC, cs.CV, cs.AI]目的：長編動画理解における推論能力の向上
- 動画理解は，AIの応用範囲を広げる上で重要であり，特に長編動画の理解は困難な課題である。
- 既存のマルチモーダル大規模言語モデルエージェントは，情報密度が高く時間的な広がりが長い長編動画の理解に苦戦している。
- 本研究は，人間の認知パターンを模倣することで，複雑な長編動画の理解を可能にする。
- Symphonyは，長編動画理解を細粒度のサブタスクに分解し，リフレクション機能を強化した深い推論協調メカニズムを組み込む。
- 動画内の関連性の高いセグメントを特定するためのVLMベースのグラウンディングアプローチを提供し，複雑な問題を正確に特定する能力を向上させる。
- 実験結果から，SymphonyはLVBench，LongVideoBench，VideoMME，MLVUで最先端の性能を達成し，LVBenchで前述の手法を5.0%上回る。
Link: https://arxiv.org/abs/2603.17307
視覚言語モデルによる反復推論：長期的身体化タスクの進捗推定 [cs.CL, cs.CV, cs.AI]目的：長期的身体化タスクの進捗推定
- 身体化エージェントが長期的なタスクを実行するには，正確な進捗推定が不可欠である。
- 既存手法は動画理解に偏っており，VLMsの複雑な推論能力を活用できていない。
- VLMsの計算コストを抑えつつ，推論能力を維持し，進捗推定の精度向上を目指す。
- 提案手法$\text{R}^2$VLMは，局所的な動画スニペットを反復的に処理する推論フレームワークを持つ。
- これにより，タスク分解やステップの完了状況を明示的に記録するChain of Thought（CoT）を維持し，時間的依存性を考慮した推論が可能となる。
- ALFREDとEgo4Dデータセットを用いた実験で，進捗推定と関連タスクにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.17312
提案不要なクエリ誘導ネットワークによるグラウンデッドマルチモーダル固有表現認識 [cs.CV]目的：グラウンデッドマルチモーダル固有表現認識の精度向上
- 画像とテキストを統合し，より高度な情報処理を可能にするため，マルチモーダル研究が重要である。
- 既存手法では，汎用的な物体検出器が固有表現認識に必要な詳細な領域を見落とすことがある。
- テキストによる誘導とクロスモーダル相互作用により，より正確なグラウンディングを実現する。
- 提案するクエリ誘導ネットワーク(QGN)は，マルチモーダルな推論とデコーディングを統合している。
- QGNは，テキスト誘導とクロスモーダル相互作用により，高精度なグラウンディングを実現する。
- 広く利用されているベンチマークにおいて，比較対象のGMNERモデルを上回る性能を達成した。
Link: https://arxiv.org/abs/2603.17314
MedSAD-CLIP：トークン・パッチ交差注意を用いた医療異常検出・セグメンテーションのための教師ありCLIP [cs.CV]目的：医療画像の異常領域検出と局在化
- 医療診断支援において，異常部位の特定と位置特定は不可欠であり，その精度向上が求められている。
- 既存のCLIPベース手法は，局在精度が粗く，セグメンテーション品質が限定的であるという課題がある。
- 限られた数のラベル付き異常データを用いてCLIPを教師ありで適応させ，局在精度と汎化性能を向上させる。
- 提案手法MedSAD-CLIPは，トークン・パッチ交差注意機構(TPCA)により，病変の局在化精度を向上させる。
- 軽量な画像アダプターと学習可能なプロンプトトークンにより，CLIPエンコーダーを効率的に医療ドメインに適応させる。
- マージンベースの画像・テキスト対照損失を用いることで，正常・異常表現間の識別能を強化し，優れた性能を達成した。
Link: https://arxiv.org/abs/2603.17325
FineViT：緻密な再キャプションによる高精度視覚認識の段階的実現 [cs.CV]目的：緻密な視覚認識能力の向上
- マルチモーダル大規模言語モデルの性能向上には，視覚エンコーダーの重要性が増している。
- 既存のCLIPベースのエンコーダーは，低解像度での事前学習やノイズの多いデータにより，詳細な空間タスクで課題がある。
- 高精度な視覚情報を維持し，段階的な学習を通じてエンコーダーの性能を向上させる。
- FineViTは，数十億件の高品質な再キャプション画像テキストペアを用いて，高解像度で視覚エンコーダーをゼロから学習する。
- さらに，LLMとの整合性を高めることで，局所的な視覚認識能力を強化する。
- 実験の結果，FineViTはゼロショット認識と検索において最先端の性能を示し，特に長文脈検索で優れた結果を達成した。
Link: https://arxiv.org/abs/2603.17326
限られた通信下における自己設定ネットワークを用いた標的被覆ゲームにおける分散均衡探索 [cs.CL, eess.SY, cs.GT, cs.MA, cs.SY, math.OC]目的：標的被覆ゲームにおける分散均衡探索
- 標的監視は，セキュリティや環境モニタリング等，多岐にわたる分野で重要な課題である。
- 大規模なセンサーネットワークでは，均衡解の計算が計算量的に困難となる。
- 通信制約下で効率的に均衡解へ収束する分散アルゴリズムを提案し，実用性を高める。
- 提案手法は，通信帯域幅制約下で自己設定ネットワークを構築し，分散的に標的被覆を最大化する。
- 理論的保証により，提案手法がゲームの近似均衡解に収束することが示された。
- シミュレーション結果から，提案手法がベースラインと比較して，より高い標的被覆率とゲーム価値を達成することが確認された。
Link: https://arxiv.org/abs/2603.17335
高解像度没入型ディスプレイにおける天体サーベイ画像データのスケールを意識したナビゲーション [cs.HC, astro-ph.IM, cs.GR]目的：天体サーベイ画像データのスケールを意識したナビゲーション
- 天文学研究では，広大な宇宙空間を俯瞰しつつ，詳細な構造を把握することが重要である。
- 従来のデスクトップ環境では，画像の一部しか表示できず，全体像の把握が困難である。
- 高解像度没入型ディスプレイを用いた，スケールを意識したナビゲーション手法を提案する。
- 本研究では，高解像度没入型ディスプレイ環境における天体サーベイ画像データのナビゲーションフレームワークを提示した。
- Vera C. Rubin Observatory等のデータを用いて，代表的な使用例を検討し，没入型環境での分析におけるデザインの知見を得た。
- 本研究は，エクストリームスケールの科学画像探索のための没入型インタラクションパラダイムの開発に貢献する。
Link: https://arxiv.org/abs/2603.17337
EvoGuard：実用的かつ進化するAI生成画像検出のための拡張可能なエージェント型強化学習フレームワーク [cs.DL, eess.SY, cs.SY, cs.CV]目的：AI生成画像の検出
- AI生成画像の急増により誤情報の拡散リスクが高まっており，その検出が重要である。
- 従来の検出手法は低レベル特徴に依存し，汎化性能が課題であった。
- 多様な検出器を組み合わせ，新たな検出器を容易に統合することで，変化し続ける脅威に対応する。
- EvoGuardは，最先端の検出器をツールとして活用し，能力を考慮した動的なオーケストレーションにより高精度を実現した。
- 低コストなバイナリラベルのみを用いた強化学習により，詳細なアノテーションの必要性を排除した。
- 新たな検出器のプラグアンドプレイによる統合が可能であり，訓練なしで性能向上が期待できる。
Link: https://arxiv.org/abs/2603.17343
OnlineHMR：ビデオベースのオンラインワールド連動ヒューマンメッシュ復元 [cs.CV]目的：ビデオからの3Dヒューマンボディの復元
- AR/VR等の応用展開において，リアルタイムな人体姿勢推定は不可欠である。
- 既存手法はオフライン処理が主であり，インタラクティブなフィードバックループには不向きである。
- リアルタイム性と精度の両立を目指し，オンライン処理を可能にする手法を提案する。
- 提案手法OnlineHMRは，システムレベルでの因果性，忠実性，時間的一貫性，効率性を満たす。
- 因果的キーバリューキャッシュとスライディングウィンドウ学習戦略により，ストリーミング推論を実現する。
- 人間中心のインクリメンタルSLAMにより，物理的に妥当な軌道補正下でオンラインワールド連動を実現した。
Link: https://arxiv.org/abs/2603.17355
資産点検のための3次元再構成ベンチマーク [cs.CV, eess.IV]目的：資産点検を目的とした3次元再構成手法の性能評価
- 老朽化する社会インフラの維持管理において，正確な3次元モデルの重要性が高まっている。
- 既存の3次元再構成データセットは，実際の資産点検環境における課題を十分に網羅していない。
- 資産点検における3次元再構成の性能向上を目指し，評価用のデータセットを構築した。
- 提案データセットを用いて既存手法を評価した結果，高密度な撮影経路や複雑な表面条件下で課題が明らかになった。
- 現在の再構成手法は，資産点検のような環境下でのスケーラビリティに課題があることが示唆された。
- 本研究は，実用的な3次元再構成技術開発に向けた新たな方向性を示唆している。
Link: https://arxiv.org/abs/2603.17358
MCoT-MVS：マルチモーダルChain-of-Thought推論による多層的視覚選択を用いた合成画像検索 [cs.CV]目的：合成画像検索における性能向上
- 画像とテキストを組み合わせた検索は，より高度な情報検索のニーズに応える上で重要である。
- 既存手法では，テキスト修正プロンプト下で参照画像からユーザー意図を正確に捉えきれない場合がある。
- マルチモーダルなChain-of-Thought推論を用いて，参照画像から適切な視覚的特徴を選択し，検索精度を高める。
- 本研究では，マルチモーダル大規模言語モデル（MLLM）を活用し，多層的な視覚特徴選択を行うMCoT-MVSを提案する。
- 提案手法は，参照画像から識別的なパッチレベルおよびインスタンスレベルのセマンティクスを効果的に抽出し，合成クエリとターゲット画像の埋め込み空間を整合させる。
- CIRRおよびFashionIQの2つのベンチマークにおいて，既存手法を凌駕し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.17360
材質を意識した3Dパーツのグループ化：非テクスチャメッシュにおける手法 [cs.CV]目的：非テクスチャメッシュにおける材質を意識したパーツグループ化
- 現実世界の形状は，同じ材質を共有する反復構造を含むことが多い。効率的な材質設定が重要である。
- 反復構造を持つメッシュの材質設定は，手動でのパーツ特定と選択が必要で，手間と時間がかかる。
- 材質の推定に基づいてパーツグループを自動的に取得し，材質設定の効率化を図る。
- 提案手法「Material Magic Wand」は，選択されたパーツに基づき，同じ材質を持つ可能性の高い他のパーツを自動的に取得する。
- パーツエンコーダが，局所的な形状と全体的なコンテキストを考慮した材質を意識した埋め込みを生成する点が鍵となる。
- 100形状・241クエリからなるデータセットを用いて有効性を検証し，インタラクティブな材質設定アプリケーションでの実用性を示した。
Link: https://arxiv.org/abs/2603.17370
VLMの脱獄に対する理解と防御：脱獄関連表現シフトを通して [cs.CV, cs.AI]目的：VLMの脱獄現象のメカニズム解明と，それに対する防御手法の開発
- 大規模ビジョン言語モデル(VLM)の安全性確保は，その社会実装において重要な課題である。
- VLMは，テキストのみの場合と比較して，画像入力によって脱獄が容易になるという問題がある。
- 画像による表現シフトが脱獄の主要因であるという仮説を検証し，その影響を軽減する。
- VLMは，入力が有害かどうかを表現空間上で識別できることが示された。
- 脱獄サンプルは，拒否サンプルとは異なる内部状態を形成しており，有害意図の認識失敗が原因ではないことが示唆された。
- 提案手法JRS-Remは，複数のシナリオで高い防御性能を示しつつ，通常のタスク性能を維持することが確認された。
Link: https://arxiv.org/abs/2603.17372
ショット認識に基づくビデオフレームサンプリング：ビデオ理解への応用 [cs.CL, cs.CV]目的：効率的な長編ビデオ理解のためのフレームサンプリング手法
- ビデオ理解は，視覚情報と言語情報を統合する上で重要であり，多様な応用が期待される分野である。
- 既存のフレームサンプリング手法では，ビデオ全体の網羅性と重要なイベントの捕捉のバランスが課題となっていた。
- ビデオのショット構造と，ショット内での変化を考慮したサンプリングにより，より信頼性の高いビデオ理解を目指す。
- 提案手法InfoShotは，ビデオを意味的に一貫性のあるショットに分割し，各ショットから主要な内容と変化を捉える2つのキーフレームを選択する。
- 情報理論に基づき，ショット構造とショット内の変化に関する情報を最大限に保持するように設計されている。
- 実験の結果，異常検知率およびビデオQAの精度が向上し，既存手法と同等またはそれ以上の性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.17374
ステレオ世界モデル：カメラ誘導ステレオビデオ生成 [cs.CV]目的：ステレオビデオ生成のための外観と双眼幾何学の同時学習
- 仮想現実やロボティクスなど，人間の視覚システムを模倣した臨場感あふれる体験の実現が求められている。
- 従来のステレオビデオ生成は，深度推定や補完に依存し，計算コストが高く，一貫性に課題があった。
- RGB情報のみを用いて，効率的かつ高品質なステレオビデオ生成を実現し，様々な応用を可能にすること。
- ステレオワールドは，従来の単眼から変換する方法よりもステレオの一貫性，深度精度，カメラ動作の忠実度を向上させた。
- 3倍以上の高速な生成速度を実現し，視点の一貫性を5%向上させた。
- 深度推定やインペインティングなしに，エンドツーエンドの双眼VRレンダリングや，大規模な深度情報を活用したロボットの学習を可能にする。
Link: https://arxiv.org/abs/2603.17375
VisionNVS：仮想シフトパラダイム下における新規視点合成のための自己教師ありインペインティング [cs.CV]目的：新規視点合成における自己教師ありインペインティング手法
- 自動運転におけるシミュレーションの精度向上が不可欠であり，そのためには現実的な視点生成が重要である。
- 学習時に存在しない視点での合成は難しく，教師データの不足がボトルネックとなっている。
- 仮想シフト戦略を用いて，既存画像から自己教師あり学習を実現し，その問題を解決する。
- VisionNVSは，仮想シフト戦略により，学習データを活用した高精度な視点合成を可能にした。
- 擬似3Dシーム合成戦略により，カメラ間の空間的一貫性を高め，現実世界の photometric discrepancy に対応した。
- LiDAR依存型ベースラインと比較して，幾何学的精度と視覚品質が向上し，スケーラブルな運転シミュレーションを実現した。
Link: https://arxiv.org/abs/2603.17382
音韻論誘導手話モーション生成：拡散モデルのベースラインと条件付け分析 [cs.CV]目的：テキストに基づいた3Dアバター手話モーションの生成
- 手話は聴覚障害者にとって重要なコミュニケーション手段であり，自然な生成技術が求められている。
- テキストから自然で正確な手話モーションを生成することは依然として困難な課題である。
- 音韻属性の条件付けが，手話モーション生成に有効か検証する。
- 拡散モデルをベースラインとして確立し，最先端のCVAE手法よりも高い性能を示した。
- 音韻属性を自然言語に翻訳することで，CLIPベースの条件付けが効果的になることが明らかになった。
- テキストエンコーダーと属性表現が，手話モーション生成の重要な要素であることが示唆された。
Link: https://arxiv.org/abs/2603.17388
ファウンデーションモデルを活用した高精度な材料分類 [cs.CV]目的：材料分類の精度向上
- デジタルコンテンツや現実世界の応用において，材料特性の正確な認識が重要である。
- 注釈付きデータの不足が，材料分類の精度と汎化性能の限界となっている。
- ファウンデーションモデルを活用し，データ不足を克服し分類精度を高める。
- 提案手法では，材料に焦点を当てた多様で高品質な訓練データセットを生成する画像生成・自動ラベル付けパイプラインを導入した。
- ビジョン・言語ファウンデーションモデル（VLM）からの情報を活用し，事前知識の組み込みと共同微調整により，汎化性能を維持しつつ材料固有の特徴への適応を実現した。
- 複数のデータセットで実験を行った結果，提案手法が著しい性能向上を示すことを実証した。合成データセットは現実世界の材料の特徴を捉え，VLMからの事前知識の統合が最終的な性能を向上させる。
Link: https://arxiv.org/abs/2603.17390
ジェスチャーを意識した事前学習とトークン融合による3D手ポーズ推定 [cs.MA, cs.IR, q-bio.NC, cs.CV]目的：3D手ポーズ推定の精度向上
- AR/VR，ヒューマンコンピュータインタラクション等への応用が期待される重要な研究分野である。
- 単眼RGB画像からの3D手ポーズ推定は，ジェスチャーの曖昧さから精度向上が課題である。
- ジェスチャー情報を活用し，3D手ポーズ推定の性能を向上させることを目指す。
- ジェスチャーを意識した事前学習により，最先端のEANetベースラインと比較して精度が向上した。
- 学習済みのジェスチャー埋め込みは，アーキテクチャを変更せずに他のモデルへも転移可能である。
- パラメータ，関節，構造的制約に関する多層的な目的関数が有効であることが示された。
Link: https://arxiv.org/abs/2603.17396
モーション適応型時間注意機構によるStable Diffusionを用いた軽量ビデオ生成 [cs.CV]目的：軽量ビデオ生成のためのモーション適応型時間注意機構
- ビデオ生成技術は，コンテンツ制作や表現の可能性を広げる上で重要である。
- 既存のビデオ生成モデルは計算コストが高く，軽量化が課題となっている。
- 計算コストを抑えつつ，高品質なビデオ生成を実現することを目的とする。
- 提案手法は，モーションに応じて時間注意の受容野を動的に調整し，高解像度かつ一貫性のあるビデオ生成を可能にする。
- わずか2.9%の追加パラメータで，WebVid検証において競争力のある結果を達成した。
- 標準的なノイズ除去目的のみで十分な時間的な正則化が実現することを示し，明示的な時間一貫性損失を必要としない。
Link: https://arxiv.org/abs/2603.17398
可変レート極限画像圧縮のための劣化を考慮した任意のスケール超解像 [cs.CV, cs.AI]目的：可変レート極限画像圧縮を可能にするための劣化を考慮した任意のスケール超解像技術の開発
- 近年，画像圧縮技術は高度化の一途をたどり，データ容量の削減が求められている。
- 従来の拡散モデルを用いた極限画像圧縮は，ビットレートごとにモデルを訓練する必要があり，計算コストが高い。
- 単一のモデルで多様なビットレートに対応し，極限圧縮時の情報損失を軽減することを目指す。
- 提案手法ASSR-EICは，任意のスケール超解像を活用することで，柔軟なビットレート制御と適応的なレート依存再構成を実現した。
- 圧縮率とリサイズに合わせた拡散事前分布を活用し，高忠実度かつ高リアリズムな画像復元を可能にした。
- 実験の結果，ASSR-EICは極限画像圧縮において最先端の性能を示し，従来の課題を克服した。
Link: https://arxiv.org/abs/2603.17408
ゼロショット学習のための相互因果的意味蒸留ネットワーク [cs.CV, cs.LG]目的：ゼロショット学習における，見たことのないクラスの認識
- オープンワールド環境下での画像認識の応用範囲拡大に貢献する。
- 既存手法では，視覚特徴と属性特徴間の潜在的な意味的知識の学習が不十分である。
- 視覚特徴と属性特徴間の因果関係を学習し，より信頼性の高い特徴表現を獲得すること。
- 提案手法MSDN++は，視覚から属性への注意と，属性から視覚への注意という2つのサブネットを相互に学習させる。
- その結果，既存の強豪手法と比較して，CUB，SUN，AWA2，FLOなどのベンチマークデータセットで大幅な性能向上を達成した。
- MSDN++は，ゼロショット学習における最先端の性能を実現した。
Link: https://arxiv.org/abs/2603.17412
動きを意識した参照画像セグメンテーション [cs.CV]目的：参照画像セグメンテーションにおける動きに関する性能向上
- 画像とテキストから対象物を特定する技術であり，ロボティクスや画像検索に応用が期待される。
- 既存手法では，見た目に関するクエリに比べて，動きに関するクエリの性能が著しく低いという課題がある。
- 動きに焦点を当てたデータ拡張と学習方法により，動きに関するクエリの精度向上を目指す。
- 動きに関する表現を多く含むようにデータ拡張を行うことで，モデルが動きの特徴を捉えやすくなった。
- 画像とテキストの情報を統合した学習手法により，文脈に応じた表現の違いを考慮した学習が可能となった。
- 提案手法は，既存の参照画像セグメンテーションモデルにおいて，動きに関するクエリの性能を大幅に改善した。
Link: https://arxiv.org/abs/2603.17413
ビデオ拡散モデルにおける敵対的ハイブリッド微調整によるモーションアラインメント [cs.CV]目的：ビデオ拡散モデルのモーションアラインメント改善
- 動画生成技術は，現実世界を忠実に再現する上で不可欠であり，その重要性は増している。
- 既存の動画拡散モデルは，微調整後にモーションの忠実度が低下するという課題がある。
- モーションの一貫性を向上させ，動的な度合いの崩壊を解決することを目的とする。
- 提案手法SHIFTは，ピクセルフラックスに基づく報酬を用いて，動画拡散モデルのモーションアラインメントを改善する。
- SHIFTは，通常の教師あり微調整とアドバンテージ加重微調整を統合したスケーラブルなフレームワークである。
- 実験結果から，SHIFTは動的な度合いの崩壊を効率的に解決し，収束速度を向上させることが示された。
Link: https://arxiv.org/abs/2603.17426
ECHO：感情に配慮し，文脈を認識するインタラクティブな頭部生成に向けて [cs.CV]目的：感情的適切性と文脈的認識を備えたインタラクティブな頭部生成
- 自然な対話において，表情は文脈と感情によって変化するため，リアルなアバター作成には不可欠である。
- 既存手法は短い時間枠でのみ情報を処理するため，文脈に沿わない表情になりやすい。
- 長距離文脈を考慮し，音声と行動信号の干渉を軽減することで，より自然な表情生成を目指す。
- 提案手法ECHOは，長距離文脈理解モジュールと空間認識分離クロスアテンションモジュールを備える。
- ECHOは，文脈に沿った感情的な表情を生成し，唇の動きと同期させることを可能にする。
- 実験の結果，ECHOは既存手法と比較して，インタラクティブな頭部生成において優れた性能を示す。
Link: https://arxiv.org/abs/2603.17427
AdaZoom-GUI：指示の改良による適応的ズームに基づくGUIグラウンディング [cs.CV, cs.AI]目的：GUIグラウンディングの精度向上
- GUIとの対話は自動化の鍵であり，視覚情報と自然言語の理解が不可欠である。
- 高解像度画像，小さなUI要素，曖昧な指示により，GUIスクリーンショット上でのグラウンディングは困難である。
- 高精度なGUI要素の特定と，より的確な指示理解を実現することを目的とする。
- AdaZoom-GUIは，適応的なズームと指示の改良により，GUIグラウンディングの精度を向上させた。
- 指示を詳細化することで，モデルが正確な要素の特定に集中できるようにした。
- 必要な場合にのみズームインを行うことで，計算コストを抑えつつ精度を向上させた。
Link: https://arxiv.org/abs/2603.17441
FACE-net：検索による感情的ビデオキャプション生成のための事実的較正と感情の拡張 [cs.CV]目的：感情的ビデオキャプション生成における事実と感情の偏りを軽減すること
- ビデオコンテンツの感情的な側面を記述することは，人間と機械のインタラクションにおいて重要である。
- 既存手法では，事実と感情の情報を十分に活用できず，記述に偏りが生じる場合がある。
- 事実と感情の情報を協調的に抽出し，生成プロセスをガイドすることで，この偏りを解消することを目指す。
- 外部リポジトリから関連文を検索し，ビデオの情報を補強することで，意味情報を拡張した。
- 不確実性の推定による事実的較正モジュールにより，事実情報を抽出し，ビデオの内容と相互作用させ，精度を向上させた。
- 感情の拡張モジュールは，較正された事実情報を専門家として活用し，ビデオと感情辞書から感情を生成・統合することで，感情表現を適応的に強化した。
- 動的な偏り調整ルーティングモジュールを設計し，サンプルごとの偏りを予測・調整することで，事実と感情のバランスを改善した。
Link: https://arxiv.org/abs/2603.17455
AR-CoPO：コントラスト最適化による自己回帰型動画生成の調整 [cs.RO, cs.CV]目的：自己回帰型動画生成とコントラスト最適化による調整手法
- 動画生成技術は，エンターテインメントや教育など，幅広い分野で応用が期待されている。
- 強化学習による人間のフィードバックからの調整は困難であり，生成品質の向上に課題がある。
- 初期化ノイズの影響を受けやすい既存手法の課題を克服し，より効果的な調整を目指す。
- AR-CoPOは，ランダムに選択されたチャンクで近傍候補を構築し，シーケンスレベルの報酬を割り当てることで，チャンクレベルの調整を実現した。
- 参照ロールアウトの再生バッファを用いた半オンポリシー学習戦略により，生成品質が向上した。
- 実験の結果，AR-CoPOは，ベースラインと比較して，ドメイン外の汎化性能とドメイン内の人間の選好との整合性が向上した。
Link: https://arxiv.org/abs/2603.17461
VirPro：弱学習単眼3D検出のための視覚参照確率的プロンプト学習 [cs.CV, cs.AI]目的：弱学習単眼3D検出における性能向上
- 3D物体検出は自動運転やロボティクス等の分野で重要であり，実世界の注釈コスト削減が課題。
- 既存手法では，手動で作成したテキスト記述が視覚的多様性を捉えきれず，汎化性能が制限される。
- シーンに依存した表現学習を可能にし，弱学習環境下での検出精度を向上させることを目指す。
- 提案手法VirProは，適応的なマルチモーダル事前学習パラダイムにより，既存の弱学習フレームワークに容易に組み込める。
- アダプティブプロンプトバンク（APB）とマルチガウスプロンプトモデリング（MGPM）により，視覚的曖昧性を考慮したプロンプトを生成する。
- KITTIベンチマークでの実験結果から，VirProを統合することで最大4.8%の平均精度向上を確認した。
Link: https://arxiv.org/abs/2603.17470
クロスアテンション機構の再考：ドメイン適応学習のための有益なノイズの活用 [cs.SI, cs.RO, cs.MA, cs.NI, cs.CV, cs.AI]目的：ドメイン適応学習における表現学習の性能向上
- 教師なしドメイン適応は，ラベルなしターゲットドメインへの知識転移に不可欠。
- ドメインギャップやスケールギャップが性能低下の大きな要因となっている。
- クロスアテンション機構に有益なノイズを加えることで，ロバスト性を高める。
- 提案手法DACSMは，VisDA-2017, Office-Home, DomainNetにおいて最先端の性能を達成した。
- 特にVisDA-2017の「トラック」クラスで+5.9%の性能向上を示し，スケール差異への強固さを示した。
- ドメイン翻訳，ノイズ強化アテンション，スケール対応アライメントの組み合わせが有効であることが示された。
Link: https://arxiv.org/abs/2603.17474
UniSAFE：統一マルチモーダルモデルの安全性評価のための包括的ベンチマーク [cs.CL, cs.CV, cs.AI, cs.CL]目的：統一マルチモーダルモデルの安全性評価
- マルチモーダルモデルは多様な応用可能性を持つが，安全性評価は不可欠である。
- 既存の安全性ベンチマークはタスク・モダリティが分散し，総合的な評価が困難である。
- マルチモーダルモデルのシステムレベルの脆弱性を包括的に評価する手段を提供する。
- UniSAFEは7種類のI/Oモダリティ組み合わせに対応した包括的なベンチマークである。
- 評価の結果，マルチイメージ合成や複数ターン設定において安全性の問題が顕著であった。
- 画像出力タスクはテキスト出力タスクよりも脆弱性が高いことが示された。
Link: https://arxiv.org/abs/2603.17476