arXiv雑要約

画像・音声 - 2026/03/12 公開

定量的応答均衡を戦略的洗練度の尺度として：LLM評価のための理論と検証 [cs.GT]目的：大規模言語モデルの戦略的洗練度を測るための定量的応答均衡に基づく評価フレームワーク
- LLMの能力評価は重要だが，その根拠が不明確な場合が多い。
- 既存のTheory of Mindベンチマークは集計スコアのみで，戦略的思考か表面的なヒューリスティクスか判断が困難。
- LLMの戦略的思考能力を定量的に評価し，人間との比較を可能にすること。
- 4つの戦略ゲームの均衡が導出され，それぞれのゲームが異なる認知能力をターゲットとしている。
- モデルの行動を人間データと比較可能な連続スケールに配置するlambdaパラメータが推定された。
- 1,855ゲームの検証により，ブラフの頻度が均衡と一致し，モデル間のlambda値と能力プロファイルにばらつきが見られた。
Link: https://arxiv.org/abs/2603.10029
多Modal感情認識のための適応型Modalバランス動的意味グラフ微分ネットワーク [cs.MM, cs.AI, cs.SD]目的：多Modal対話における感情認識の精度向上
- 対話システムや人間機械インタラクションにおいて，感情理解は重要な要素である。
- 既存手法では，感情依存性のモデリングや多Modal表現学習に課題が残る。
- 冗長な信号の除去と，各Modalの貢献度を均衡させることで認識精度を高める。
- 提案手法AMB-DSGDNは，テキスト，音声，視覚の各Modalに対し，グラフ構造を用いて感情依存性をモデル化する。
- 微分グラフ注意機構により，注意マップの差異を計算し，共有ノイズを除去し，Modal固有の特徴を抽出する。
- 適応型Modalバランス機構により，各Modalの感情モデリングへの貢献度に応じたドロップアウト確率を推定する。
Link: https://arxiv.org/abs/2603.10043
コード空間応答オラクル：大規模言語モデルを用いた解釈可能なマルチエージェントポリシーの生成 [cs.GT, cs.AI, cs.LG]目的：解釈可能なマルチエージェントポリシーの生成
- マルチエージェントシステムは，複雑な問題解決に不可欠であり，その性能向上は重要である。
- 従来の強化学習に基づく手法は，得られたポリシーの解釈が難しく，信頼性やデバッグに課題がある。
- 大規模言語モデルを活用し，人間が理解しやすいコードとしてポリシーを生成することで，解釈可能性を高める。
- コード空間応答オラクル（CSRO）は，従来の強化学習オラクルを大規模言語モデルに置き換えることで，解釈可能なポリシーを生成する。
- CSROは，LLMにコード生成を促すことで，複雑かつ人間らしい戦略を発見し，競争力のある性能を達成する。
- 本研究は，不透明なポリシーパラメータの最適化から，解釈可能なアルゴリズム的行動の合成への視点の転換を提供する。
Link: https://arxiv.org/abs/2603.10098
4DEquine：単眼ビデオからの4D馬の再構成における運動と外観の分離 [cs.CV]目的：単眼ビデオからの4D馬の再構成
- 動物福祉の向上に貢献するため，馬などの動物の4D再構成技術が重要視されている。
- 従来の4D動物再構成は，時間と計算コストがかかり，不完全な観察に弱いという課題があった。
- 運動と外観を分離することで，効率的かつロバストな4D馬の再構成を実現することを目指す。
- 本研究では，運動再構成と静的形状再構成の二つのサブ問題を分離する4DEquineという新しいフレームワークを提案する。
- 合成データのみで学習することで，APT36KとAiMの実際のデータセットで最先端の性能を達成した。
- 提案手法と新しいデータセットの有効性が，詳細な実験によって実証された。
Link: https://arxiv.org/abs/2603.10125
HG-Lane：悪天候および照明条件下におけるレーンシーンの高忠実度生成（再アノテーションなし） [cs.CV]目的：悪天候および照明条件下におけるレーンシーンの高忠実度生成
- 自動運転の安全性確保に不可欠なレーン検出技術の発展は，社会実装に向けた重要な課題である。
- 既存のレーン検出データセットは，雨，雪，霧などの悪天候データが不足しており，実環境での信頼性が課題である。
- 悪天候や照明条件が変化する環境下でもロバストなレーン検出を実現し，自動運転の安全性を向上させる。
- 提案手法HG-Laneは，再アノテーションなしで高忠実度なレーンシーン生成を可能にするフレームワークである。
- HG-Laneを用いて構築したベンチマークにおいて，既存のレーン検出ネットワークの性能が大幅に向上した。
- 例えば，CLRNetを用いた場合，ベンチマークにおける全体的なmF1スコアが20.87%向上した。
Link: https://arxiv.org/abs/2603.10128
非平衡最適輸送辞書学習による教師なしハイパースペクトル画像クラスタリング [cs.CL, cs.CV, cs.LG, math.ST, stat.TH]目的：教師なしハイパースペクトル画像クラスタリング手法
- ハイパースペクトル画像は高次元な分光情報を持つため，画像解析において重要な役割を果たす。
- 従来の統計的手法では，ラベル付け作業が困難であり，自動化されたセグメンテーションが課題である。
- Wasserstein空間における辞書学習の弱点を克服し，よりロバストなクラスタリングを実現する。
- 非平衡Wasserstein重心を用いることで，データの下位次元表現を学習し，クラスタリングの精度を向上させた。
- 提案手法は，既存の辞書学習手法と比較して，外れ値やノイズに対するロバスト性が高いことが示された。
- 学習された表現に対してスペクトルクラスタリングを適用することで，教師なしラベル学習が効果的に行える。
Link: https://arxiv.org/abs/2603.10132
コンピュータ利用エージェントのためのビデオベース報酬モデリング [cs.CL, cs.RO, cs.HC, cs.RO, cs.HC, cs.RO, cs.DB, cs.CV, cs.CL]目的：コンピュータ利用エージェントのタスク成功予測
- エージェントの能力向上に伴い，ユーザー指示の充足度を評価する手法の重要性が増している。
- 従来の評価手法では，エージェントの内部状態に依存するため，スケーラビリティに課題がある。
- ビデオ映像のみからタスク成功を予測する報酬モデルを構築し，評価のスケーラビリティを向上させる。
- 53kの高品質なビデオ・タスク・報酬のデータセット（ExeVR-53k）を構築した。
- 敵対的指示翻訳を用いて，ステップレベルのアノテーション付きネガティブサンプルを生成した。
- ExeVRM 8Bは，Ubuntu，macOS，Windows，AndroidでGPT-5.2やGemini-3 Proなどの強力なモデルを上回り，84.7%の精度と87.7%のリコールを達成した。
Link: https://arxiv.org/abs/2603.10178
デルタK：クロスアテンション拡張によるマルチインスタンス生成の強化 [cs.CV, cs.AI]目的：拡散モデルにおける複雑なマルチインスタンスシーンの概念省略の改善
- 画像生成の分野では拡散モデルが優れているが，複雑なシーンにおける概念の再現が課題。
- 既存手法は注意マップのスケーリングに頼り，構造的なノイズを悪化させる可能性がある。
- 欠落概念のセマンティックシグナルを注入し，安定した構造的アンカーを生成すること。
- デルタKは，拡散過程の初期段階で欠落概念のセマンティックシグナルを注入することで，概念省略を抑制する。
- 動的なスケジューリング機構により，ノイズを安定した構造に固定しつつ既存の概念を保持する。
- DiTモデルやU-Netアーキテクチャなど，様々なモデルで有効性が確認された。
Link: https://arxiv.org/abs/2603.10210
FusionNet：4D心臓モデルのためのフレーム補間ネットワーク [cs.CL, cs.CV, cs.LG]目的：4D心臓運動の高時間分解能推定
- 心臓疾患の診断において，心臓の動きを可視化する心臓磁気共鳴画像法は不可欠である。
- 従来の心臓磁気共鳴画像法は，長時間拘束と時間分解能の低下が課題となっていた。
- 短時間での撮影画像から，高時間分解能の4D心臓運動を復元することを目指す。
- 提案手法FusionNetは，Dice係数において0.897以上の性能を達成した。
- 既存手法よりも正確に心臓形状を復元できることが確認された。
- 本研究のコードは公開されており，利用可能である。
Link: https://arxiv.org/abs/2603.10212
術前MRIを用いた大腸肝転移の術後生存予測のための自動化ラディオミクスフレームワーク [cs.CL, cs.CV]目的：大腸肝転移の術後生存予測
- 肝転移は治療可能だが，患者の予後には大きなばらつきがあり，個別化医療が重要である。
- 生存予測の精度が不十分であり，無益な手術を避けることが課題となっている。
- 術前MRIから自動的に特徴を抽出し，生存予測の精度向上を目指す。
- 提案するフレームワークは，肝臓，腫瘍，脾臓の自動セグメンテーションにおいて高い精度を示した。
- セグメンテーションの精度が向上したことで，ラディオミクス解析による生存予測のC-indexは0.69を達成した。
- 本研究は，セグメンテーションとラディオミクスを組み合わせた自動化された予後予測の可能性を示す。
Link: https://arxiv.org/abs/2603.10216
ロボット超音波がCBCTに生命を吹き込む [cs.CV, cs.AI, cs.RO]目的：手術中CBCTの変形を考慮したリアルタイム更新
- CBCTは介入計画に不可欠な3次元解剖学的情報を提供する。安全かつ正確な手術を支援する上で重要である。
- 従来のCBCTは静的な画像であり，呼吸や操作による軟部組織の変形を捉えられない。ナビゲーションのずれが生じる問題がある。
- ロボット超音波を用いて組織変形を推定し，CBCT画像をリアルタイムで更新することで，ナビゲーション精度を向上させる。
- ロボット超音波とCBCTのマルチモーダル対応を高精度に確立し，変形を考慮したリアルタイム更新を実現した。
- USCorUNetと呼ばれる軽量なネットワークを開発し，超音波画像から正確な変形場を推定した。
- 提案手法は，放射線被曝を繰り返すことなく，手術中のCBCTガイダンスを動的に改善することが示された。
Link: https://arxiv.org/abs/2603.10220
OilSAM2：スケーラブルなSARオイル流出検知のためのメモリ拡張SAM2 [cs.CV]目的：SAR画像からのオイル流出セグメンテーションの性能向上
- SAR画像によるオイル流出検知は，環境保護と防災において重要な役割を果たす。
- オイル流出の形状や外観は変化しやすく，時間的な連続性がない場合が多い。
- 無秩序なSAR画像群においても，オイル流出を正確にセグメンテーションすること。
- OilSAM2は，テクスチャ，構造，セマンティックレベルの表現を明示的にモデル化する階層的特徴認識マルチスケールメモリバンクを導入した。
- セマンティックなずれを抑制するため，意味的乖離と構造的変動に基づいてメモリを更新する戦略を提案した。
- 2つの公開SARオイル流出データセットにおいて，OilSAM2は最先端のセグメンテーション性能を達成した。
Link: https://arxiv.org/abs/2603.10231
なぜそこにそれがあるのか：画像分類のための構造化された説明 [cs.RO, cs.CL, cs.CV, cs.LG]目的：画像分類モデルの意思決定過程の構造化された説明
- 深層学習の性能向上に伴い，モデルの透明性と信頼性の確保が重要視されている。
- 既存の説明手法は，多くの場合，構造化されていない情報しか提供しない。
- モデルの挙動を忠実に説明し，モデルの最適化を支援する手法を開発する。
- I2Xフレームワークは，学習過程におけるチェックポイントでのプロトタイプ抽出を通じて，構造化された説明を構築する。
- I2Xは，MNISTとCIFAR10での実験により，様々な画像分類モデルの推論過程を明らかにする有効性を示す。
- I2Xによって特定された不確実なプロトタイプを利用した標本摂動により，モデルの精度を向上させることが可能。
Link: https://arxiv.org/abs/2603.10234
段階的非均衡クラス増分学習における統一的な表現に向けて：一つのアダプターですべてを [cs.CV, cs.LG]目的：段階的非均衡クラス増分学習における課題克服
- 継続的な学習は，人間の学習能力を模倣する上で重要であり，AIの応用範囲を広げる。
- 従来のクラス増分学習手法は，タスク間のクラス数が均衡していることを前提としており，現実世界の状況に対応できない。
- タスクの規模に応じた適応的な学習を実現し，非均衡なタスクストリーム下での性能低下を抑制すること。
- 提案手法One-Aは，タスク更新を単一のアダプターに統合することで，推論コストを一定に保ちながら，不均衡な更新に対処する。
- One-Aは，主要なタスクから学習された支配的な部分空間を維持しつつ，情報量の少ない更新を抑制する非対称な部分空間アライメントを用いる。
- 複数のベンチマークにおいて，One-Aは競合する精度を達成し，推論オーバーヘッドを大幅に削減することを示した。
Link: https://arxiv.org/abs/2603.10237
リアルタイム非線形モード合成：Max環境における実装 [cs.SD, eess.AS]目的：リアルタイム非線形モード合成手法の実装と応用
- 音響モデリングは，現実世界の音響現象を再現し，新たな音響表現を可能にする重要な分野である。
- 従来の音響合成手法では，複雑な非線形現象のリアルタイム処理が困難であった。
- 本研究は，Max環境において非線形モード合成を効率的に実現し，その利用を促進することを目的とする。
- 本研究で開発された\texttt{nlm}は，弦，膜，板などの物理パラメータをインタラクティブに制御できるMax外部オブジェクト群である。
- これにより，作曲家，演奏家，音響デザイナーが非線形モード合成の表現力を容易に探求することが可能となる。
- 本ソフトウェアはオープンソースとして公開されており，自由な利用と開発を促進する。
Link: https://arxiv.org/abs/2603.10240
脳障害分類のためのクロスビュー対照的アラインメントによる画像・ROI表現の共同学習 [cs.CG, math.CO, cs.CV, cs.AI]目的：脳画像とROIに基づくグラフ表現の共同学習
- 脳画像解析は，精神疾患の診断や病態理解に不可欠であり，近年その重要性が増している。
- 画像全体とROIに着目した解析はそれぞれ有効だが，両者の関係性や相補性は十分に解明されていない。
- 画像とROI表現を統合的に学習し，脳障害分類の性能向上を目指す。
- 提案手法は，画像とROI表現を共通の潜在空間にアラインメントすることで，分類性能を向上させた。
- 画像のみ，ROIのみ，および両者を組み合わせた構成で評価した結果，共同学習が常に最良の結果を示した。
- 解釈可能性分析から，画像とROI表現が異なる特徴を捉え，互いに補完し合うことが示唆された。
Link: https://arxiv.org/abs/2603.10253
ID-LoRA: アイデンティティ駆動による文脈内LoRAを用いたオーディオ・ビデオ個別化 [cs.SD, cs.CV, cs.GR]目的：オーディオとビデオの個別化
- ビデオコンテンツの個別化ニーズが高まっており，より自然でパーソナライズされた体験が求められている。
- 既存手法では，視覚と聴覚を分離して扱うため，音声が映像と同期せず，自然な連動性が得られない。
- テキストや画像に基づいて，人物の外見と音声を同時に制御し，より自然な個別化を実現すること。
- ID-LoRAは，単一のモデルで人物の外見と音声を共同生成し，テキスト，画像，音声クリップによって両方のモダリティを制御する。
- 参照トークンと生成トークンの識別困難性に対し，負のTemporal PositionとRoPE領域の分離によって対処した。
- 人間の主観評価において，音声の類似性と話し方のスタイルにおいて，Kling 2.6 Proよりも高い評価を得た。
Link: https://arxiv.org/abs/2603.10256
バングラ文字のナンバープレート認識のためのYOLOとVision-Language OCRを用いた堅牢な深層学習フレームワーク [cs.CV]目的：バングラ文字のナンバープレート認識システムの開発
- 交通管理システムの高度化において，ナンバープレート認識は重要な役割を果たす。
- バングラ文字の複雑な文字体系と不均一なレイアウトのため，ナンバープレートの検出が困難である。
- バングラ文字のナンバープレート認識における検出精度と認識精度の向上を目指す。
- 提案システムは，YOLOv8アーキテクチャに基づいた二段階適応学習戦略により，ナンバープレートの検出性能を向上させた。
- ViT + BanglaBERTモデルが文字レベルおよび単語レベルで優れた認識結果を示し，それぞれ0.1323と0.1068のエラー率を達成した。
- 本システムは，異なる環境や照明条件下での外部データセットにおいても安定した性能を発揮し，その堅牢性を示した。
Link: https://arxiv.org/abs/2603.10267
ADMMにおけるスコアベースノイズ除去器の制御：収束するプラグアンドプレイフレームワーク [cs.LG, cs.AI, cs.CV]目的：スコアベース生成モデルを用いた逆問題解決におけるADMM統合の収束性確保
- 逆問題解決において，スコアベース生成モデルは強力な事前分布として注目されている。
- ADMM反復における双対変数の影響により，スコア関数の訓練データ多様体とADMM反復の幾何学的不一致が生じる。
- この研究は，不一致問題と収束性問題を解決し，ADMMとスコアベースノイズ除去器を効果的に統合する。
- 本研究では，ADMMに組み込むためのAC-DCデノイザーを提案し，自動修正，方向性修正，スコアベースノイズ除去の3段階で構成される。
- 適切なデノイザーパラメータ下では，各ADMM反復が弱非拡大写像となり，一定ステップサイズで固定点への収束が保証される。
- AC-DCデノイザーは有界デノイザーであり，適応的ステップサイズスケジュール下で収束が示される。様々な逆問題で性能向上が確認された。
Link: https://arxiv.org/abs/2603.10281
グラフ上の即時決選投票：排除領域と歪み [cs.GT]目的：グラフ構造における即時決選投票(IRV)の特性解明
- 投票制度の設計は，社会の意思決定において重要な役割を担う。
- 候補者選択における戦略的投票や，投票順位の影響評価が課題。
- グラフ構造上でのIRVにおける排除領域の特定と歪みの分析。
- 木構造グラフ上では，排除領域の判定と最小排除領域の発見が多項式時間で可能となる。
- 排除領域の判定問題は，一般的なグラフではco-NP困難であり，最小排除領域問題もNP困難である。
- IRVの歪みに関する上限と下限を，様々なシナリオにおいて提示。
Link: https://arxiv.org/abs/2603.10290
模倣から直感へ：オープンインスタンス動画分類のための内在的推論 [cs.CV]目的：オープンインスタンス動画分類における内在的推論の実現
- 動画分類は，映像データの理解において不可欠であり，様々な応用分野で活用されている。
- 既存のモデルは，データの分布が均一な場合に優れるが，現実世界の多様な分布への対応が課題である。
- 多様な分布を持つオープンインスタンス動画分類において，モデルの推論能力を向上させることを目指す。
- 提案手法DeepIntuitは，まず教師あり学習で推論能力を初期化し，その後，強化学習によって推論の一貫性を高める。
- DeepIntuitは，さらに直感的なキャリブレーション段階を導入し，推論過程から得られた情報を分類器に効率的に転移させる。
- 実験結果から，DeepIntuitは単純な特徴の模倣を超え，内在的推論を進化させることで，オープンインスタンス動画分類において大幅な性能向上を達成することが示された。
Link: https://arxiv.org/abs/2603.10300
PRoADS：潜在的最適化と後退オイラー反転を用いた，証明可能な安全でロバストな音声拡散ステガノグラフィ [cs.RO, cs.HC, cs.CL, cs.CR, cs.MM, cs.SD]目的：音声拡散モデルを用いた，安全かつロバストな音声ステガノグラフィフレームワーク
- デジタルコンテンツの秘匿は重要であり，盗聴や改ざんから保護する必要がある。
- 従来のステガノグラフィ手法は，圧縮やノイズに対して脆弱であることが課題である。
- 拡散モデルの再構成誤差を低減し，高いビット誤り率を抑制することを目的とする。
- PRoADSは，初期ノイズに秘密メッセージを埋め込むことでステガノグラフィを実現している。
- 潜在的最適化と後退オイラー反転により，潜像空間の再構成誤差と拡散反転誤差を最小化している。
- 64kbps MP3圧縮下で0.15%という低いビット誤り率を達成し，既存手法を大幅に上回る堅牢性を示した。
Link: https://arxiv.org/abs/2603.10314
生成AIウォーターマークの直交的脆弱性：空間および潜在的Provenanceの比較実験的ベンチマーク [cs.CR, cs.CV]目的：生成AIウォーターマークの空間的および潜在的なProvenanceにおける脆弱性の比較検証
- 生成AIの急速な普及により，デジタルコンテンツの信頼性確保が重要課題となっている。
- 既存のウォーターマーク技術は，最新の生成AI編集ツールに対する堅牢な評価が不足している。
- 本研究は，単一ドメインのウォーターマーク技術の脆弱性を明らかにし，マルチドメイン暗号アーキテクチャの必要性を示す。
- 空間的ウォーターマークは，Img2Img変換などのピクセル書き換えアルゴリズムに対して高い脆弱性を示す。
- 潜在的ウォーターマークは，静的クロッピングなどの幾何学的歪みに対して高い脆弱性を示す。
- 空間的・潜在的ウォーターマークは，互いに排他的な脆弱性を有しており，単一ドメインのウォーターマーク技術では十分な防御が困難である。
Link: https://arxiv.org/abs/2603.10323
鼻装着型低音量音声インターフェース NasoVoce：常時利用可能な音声対話のために [cs.HC, cs.AI, cs.LG, cs.SD]目的：常時利用可能な音声対話のための鼻装着型インターフェース
- 音声インターフェースは，ハンズフリーでの操作を可能にし，多様な分野での利便性向上に貢献する。
- 既存の手法では，語彙サイズ，装着性，静寂性，ノイズ耐性のバランスが課題となっていた。
- 本研究は，低音量音声（囁き声など）を確実に捉え，ノイズに強い音声インターフェースの実現を目指す。
- NasoVoceは，鼻梁にマイクと振動センサーを搭載し，音声と振動の両方の信号を統合することで，高品質かつノイズに強い音声認識を可能にする。
- 評価実験の結果，Whisper Large-v2を用いた音声認識精度が向上し，PESQ，STOI，MUSHRAの評価においても良好な結果が得られた。
- NasoVoceは，常時利用可能で，連続的かつ目立たないAI音声対話のための実用的なインターフェースであることを実証した。
Link: https://arxiv.org/abs/2603.10324
周波数制御された柔軟な4D表情合成 [cs.GR]目的：4D表情合成手法の開発
- コンピュータビジョンやグラフィックス分野において，表情の再現は重要な課題である。
- 既存手法では，表情変化のフレーム間運動の柔軟性や滑らかさに課題が残る。
- 表情シーケンスの柔軟かつ自然な生成を可能にする手法を提案する。
- 提案手法FC-4DFSは，周波数制御LSTMネットワークと，時間的コヒーレンス損失，そして多段階ID認識変位ネットワークを組み合わせる。
- これにより，CoMAとFlorence4Dデータセットにおいて，異なる長さの4D表情シーケンスを高精度に生成することに成功した。
- 提案手法は，最先端の結果を達成し，表情シーケンスの生成において高い柔軟性を示す。
Link: https://arxiv.org/abs/2603.10326
燃料計：大規模マルチモーダルモデルにおける思考連鎖長の事前推定 [cs.CV]目的：大規模マルチモーダルモデルにおける思考連鎖長の事前推定法
- 近年の応用において，大規模マルチモーダルモデルが広く利用されている。
- 思考連鎖（CoT）の長さが予測困難であり，計算資源の非効率な利用や精度低下を招く。
- 思考連鎖長を事前に推定し，効率的なリソース配分と精度向上を目指す。
- 提案手法Fuel Gaugeは，隠れたパラメータから思考連鎖長を予測する。
- KVキャッシュの事前割り当てにより，メモリ断片化を解消し，サービス効率を向上させる。
- 思考連鎖長の調整により，過剰思考や不十分思考を抑制し，精度を改善する。
Link: https://arxiv.org/abs/2603.10335
ランドマーク誘導による4D顔表情生成 [cs.GR]目的：4D顔表情の生成
- 顔表情はコミュニケーションにおいて重要な役割を担うため，その生成技術は様々な分野で求められている。
- 既存手法は表情ラベルに依存し，個人差への対応が不十分であるという課題があった。
- 個人差に強く，より自然な顔表情生成を実現することを目指している。
- 中立的なランドマークをガイドとして用いることで，個人差に強い4D顔表情生成モデルを提案した。
- ID識別器とランドマーク自動符号化器を導入し，生成された表情が個人を特定可能であることを担保している。
- 変位デコーダにクロスアテンション機構を追加することで，与えられた個人に合った表情生成を可能にした。
Link: https://arxiv.org/abs/2603.10337
コンセプトゲートによる視覚的蒸留を用いた，視覚言語行動モデルにおける視覚的混乱の克服 [cs.CV, cs.AI, cs.RO, cs.SY, eess.SY]目的：視覚的混乱環境下における，視覚言語行動モデルの精度と推論能力のギャップ解消
- ロボットによる複雑な操作を実現するためには，視覚情報と言語指示を統合するVLAモデルの性能向上が不可欠である。
- VLAモデルは，背景のノイズによって操作対象が曖昧になり，視覚的混乱環境下では性能が著しく低下するという課題がある。
- 本研究は，ノイズを除去し，操作対象を明確化することで，VLAモデルのロバスト性を向上させることを目指す。
- 提案手法であるCGVDは，言語指示を安全セットと注意散漫セットに分割し，誤検出を抑制することで，VLAポリシーを安定化させる。
- CGVDは，フーリエ変換に基づくインペインティングにより，背景ノイズを除去しつつ，重要な空間幾何学情報を保持することで，よりクリーンな視覚情報を生成する。
- 高密度な視覚的混乱環境下において，CGVDは既存手法を大幅に上回り，77.5%の成功率を達成した（ベースラインは43.0%）。
Link: https://arxiv.org/abs/2603.10340
感情を考慮した物語生成 [cs.DC, cs.CV]目的：感情を明示的に指示された，首尾一貫した視覚的物語の生成
- 物語は観客の感情を揺さぶることを意図しており，感情表現の重要性は高い。
- 既存の物語生成手法は，感情表現が乏しく，物語の解釈や視覚的表現に影響を与えていた。
- 抽象的な感情を視覚要素に落とし込み，物語全体を通して一貫して表現することを目指す。
- EmoStoryは，エージェントベースの物語計画と領域認識による物語生成の二段階フレームワークを用いる。
- 計画段階では，感情エージェントとライターエージェントが目標とする感情を首尾一貫した物語のプロンプトに変換する。
- 生成段階では，被写体の一貫性を維持しつつ，領域認識による構成を通じて感情に関連する要素を注入する。
Link: https://arxiv.org/abs/2603.10349
スタイルギャラリー：任意の画像参照からのトレーニング不要で意味論を意識したパーソナライズされたスタイル変換 [cs.RO, cs.DC, cs.CV]目的：任意の画像参照を用いたパーソナライズされたスタイル変換の実現
- 画像スタイル変換技術は，写真や絵画などの視覚コンテンツの創造性を高める上で重要である。
- 既存手法は，意味論的なずれや追加制約による適用範囲の制限，不十分な特徴量対応に課題がある。
- 本研究は，柔軟なスタイル入力を用いたパーソナライズ，精度，適応性の向上を目指す。
- StyleGalleryは，追加の入力なしに潜在拡散特徴に基づき領域を分割する意味領域セグメンテーションを実現した。
- 抽出された特徴量に対するブロックフィルタリングを用いたクラスタ化領域マッチングにより，正確なアライメントを実現した。
- エネルギー関数誘導による拡散サンプリングと領域スタイル損失を用いたスタイル変換最適化により，高精度なスタイリングを可能にした。
Link: https://arxiv.org/abs/2603.10354
ワン・トークン，二つの運命：MLLMの幻覚に対するビジョン・トークン操作による統一的フレームワーク [cs.CV]目的：MLLMの幻覚軽減
- マルチモーダル大規模言語モデル(MLLM)の性能向上は，現実世界の応用において不可欠である。
- MLLMは，画像情報に基づかない誤った情報を生成する「幻覚」を起こしやすい。
- ビジョン・トークン操作により，MLLMの幻覚を効果的に抑制し，性能を向上させる。
- 提案手法は，画像情報を強化し，言語モデルのバイアスを修正することで，幻覚を軽減する。
- Synergistic Visual Calibration (SVC)とCausal Representation Calibration (CRC)モジュールを組み合わせることで，視覚と言語のバランスを回復する。
- 実験により，LLaVA-1.5のPOPE精度が平均2%向上し，推論速度への影響も軽微であることが示された。
Link: https://arxiv.org/abs/2603.10360
拡散モデルのための幾何学的オートエンコーダ [cs.CV]目的：拡散モデルにおける潜在空間の効率的な学習
- 高解像度画像生成において，潜在拡散モデルが新たな水準を確立している。
- 既存の潜在空間設計は，意味的な識別性，再構成精度，潜在空間のコンパクト性のバランスが課題である。
- Vision Foundation Modelからの知識を活用し，これらの課題を体系的に解決する。
- 幾何学的オートエンコーダ(GAE)は，ImageNet-1K $256 \times 256$ベンチマークでgFID 1.82(80エポック時)および1.31(800エポック時)を達成した。
- 従来の最先端手法と比較して，生成品質が大幅に向上した。
- 圧縮率，意味的深度，再構成の安定性のバランスにも優れていることが示された。
Link: https://arxiv.org/abs/2603.10365
GeoSense: 多様式推論における幾何学的必要性の内在化 [cs.CV]目的：多様式推論のための幾何学的必要性の内在化
- 超知能AI実現には高度な知覚能力が不可欠であり，その中でも空間理解は重要な課題である。
- 既存の多様式大規模言語モデルは幾何学情報の理解が限定的であり，空間推論に課題がある。
- モデルが2D情報のみでは不十分と判断した場合に，幾何学的特徴を自律的に活用する仕組みを構築する。
- 本研究では，独立した幾何学入力チャネルを導入し，幾何学的特徴の有効活用を可能にする。
- 空間認識能力を強化するための，空間情報を意識した教師ありファインチューニングデータセットを構築した。
- 複数の空間推論ベンチマークにおいて，2D視覚推論能力を損なうことなく，空間推論の性能が向上した。
Link: https://arxiv.org/abs/2603.10370
拡散モデル学習のための分散を考慮した適応的重み付け [cs.RO, cs.LG, cs.CV]目的：拡散モデル学習における損失分散の不均衡の是正
- 生成モデリングの分野で近年注目されており，高品質な画像生成が可能である。
- ノイズレベル間の学習ダイナミクスに不均衡があり，最適化の効率低下や学習の不安定化を招く。
- 損失分散に基づいて重みを動的に調整し，ノイズレベル間の最適化バランスを改善する。
- 提案手法は，CIFAR-10およびCIFAR-100における生成性能を向上させ，FIDスコアを低減した。
- ランダムシード間の性能ばらつきも抑制され，学習の安定化に貢献することが示された。
- 損失-log-SNRの可視化や分散ヒートマップ等の分析により，適応的重み付けの有効性が確認された。
Link: https://arxiv.org/abs/2603.10391
最適輸送と改良されたポーズマッチングを用いた多人数ポーズ推定の評価 [cs.CV]目的：多人数ポーズ推定の評価指標
- 画像認識技術の発展に伴い，多様な応用が期待されており，その評価が重要である。
- 既存の評価指標は，自信度スコアの高いポーズに偏りがあり，誤検出ポーズを軽視する傾向がある。
- 真陽性ポーズと偽陽性ポーズのトレードオフを考慮した，より公平な評価手法を確立すること。
- 本研究では，ポーズ検出とアノテーション間の最適な輸送問題を解くことで，OCposeを提案した。
- OCposeは，自信度スコアに関わらず全ての検出ポーズを平等に評価することで，公平性を実現する。
- また，各ポーズの自信度スコアを活用し，推定ポーズとアノテーション間のマッチングスコアの信頼性を向上させた。
Link: https://arxiv.org/abs/2603.10398
モーション強制：運動ダイナミクスにおけるロバストな動画生成のための分離フレームワーク [cs.RO, cs.RO, cs.CV]目的：高画質，厳密な物理整合性，精密な制御可能性を両立する動画生成手法
- 動画生成は，現実世界の描写やシミュレーションにおいて不可欠であり，その重要性は増している。
- 複雑なシーン（衝突や交通量が多い状況など）において，既存モデルは三つの要素のバランスを崩しやすい。
- 複雑な生成タスクにおいても，高画質・物理整合性・制御可能性を安定的に両立することを目指す。
- 提案手法「モーション強制」は，物理的推論と視覚的合成を「ポイント・形状・外観」という階層的なパラダイムで分離することで，ロバスト性を向上させる。
- 訓練時に入力アンカーをランダムにマスクし，動的な深度マップの再構成を強制することで，モデルは潜在的な物理法則を学習する。
- 自動運転ベンチマークにおいて，既存手法を大きく上回り，複雑なシーンにおいても三つの要素の安定性を維持することを示した。
Link: https://arxiv.org/abs/2603.10408
フレームから残差へ：自己教師あり動画ノイズ除去のための時空間デカップリング [cs.CV]目的：自己教師あり動画ノイズ除去における時空間デカップリング手法
- 動画データの活用は重要だが，ノイズの影響を受けやすい。
- 既存手法では，フレーム間の整合性とフレーム内の空間特異性を両立するのが困難。
- 時空間の分離により，動画のテクスチャ損失を抑制し，ノイズ除去性能を向上させる。
- 提案手法F2Rは，時空間デカップリングフレームワークにより，既存手法を上回る性能を示す。
- まず，フレーム単位で時間的な整合性を学習し，アンカーを生成する。
- 次に，このアンカーを用いて中心フレームを再導入し，空間的な残差を復元することで，時間的な安定性を保つ。
Link: https://arxiv.org/abs/2603.10417
TractoRC：トラクトグラフィ登録とクラスタリングのための統一的な確率学習フレームワーク [cs.CV]目的：トラクトグラフィ登録とストリームラインクラスタリングの同時最適化
- 拡散MRIトラクトグラフィは，生体内の白質経路を再構築する上で重要である。
- トラクトグラフィ登録とクラスタリングは独立して行われることが多く，情報の共有が課題である。
- 幾何学的に類似した構造を捉え，一貫性のある白質組織を特徴づけることを目指す。
- TractoRCは，ストリームライン点の潜在埋め込み空間を学習し，両タスクに共通の表現を提供する。
- 登録は解剖学的ランドマークの分布を確率的キーポイントとして学習し，トラクトグラムを整列させる。
- クラスタリングは，幾何学的類似性を捉えるストリームライン構造プロトタイプを学習し，まとまりのあるストリームラインクラスタを形成する。
Link: https://arxiv.org/abs/2603.10418
World2Act：スキル構成によるワールドモデルを通じた後学習行動 [cs.CV]目的：VLA（視覚言語行動）ポリシーの後学習手法
- 環境変化下でのVLAポリシーのロバスト性と汎化性能向上は，実用的なロボット応用の実現に不可欠である。
- 既存のWMベース後学習法はピクセル空間での教師あり学習に依存し，ピクセルレベルのアーティファクトに脆弱である。
- WMの潜在表現とVLA行動を直接整合させ，ピクセルへの依存を低減することで，ロバスト性を向上させる。
- World2Actは，WMの動画ダイナミクス潜在変数とVLA行動をコントラスト学習により整合させるフレームワークである。
- LLMを用いたスキル分解パイプラインを提案し，様々なタスクの時間長に対応可能なスキル構成WMを実現した。
- RoboCasaとLIBEROにおいて最先端の結果を達成し，実世界性能を6.7%向上させた。
Link: https://arxiv.org/abs/2603.10422
非同期空間メモリによるリアルタイム単眼深度推定：AsyncMDE [cs.RO, cs.DC, cs.NI, cs.RO, cs.CV]目的：ロボット知覚のためのリアルタイム単眼深度推定システム
- ロボットの自律的な動作には，周囲環境の正確な理解が不可欠であり，深度推定はその重要な要素である。
- 高性能な深度推定には計算コストがかかり，エッジデバイスへの搭載が困難となる場合がある。
- 計算冗長性を解消し，軽量かつ高速な深度推定を実現することで，エッジデバイスでのリアルタイム動作を可能とする。
- 提案手法AsyncMDEは，軽量モデルがキャッシュされたメモリと現在の観測データを融合することで，高速な深度推定を実現した。
- パラメータ数を大幅に削減（25倍）しつつ，基礎モデルの精度を77%まで回復させた。
- RTX 4090上で237 FPS，Jetson AGX Orin上で161 FPSで動作し，リアルタイムエッジ展開の実現可能性を示した。
Link: https://arxiv.org/abs/2603.10438
拡散モデルにおけるプロンプト不要なインスタンス・アンラーニング [cs.LG, cs.CV]目的：プロンプトで指定できない出力の選択的忘却
- 拡散モデルは強力だが，倫理的・プライバシー上の問題が懸念されるため，望まない出力の除去が重要である。
- テキストプロンプトで特定できない望まない出力（顔，誤った文化的描写など）を除去する方法が不足している。
- 拡散モデルから，プロンプトなしで特定できない特定の出力を削除し，プライバシーと倫理を保護すること。
- 提案手法は，画像編集，時間ステップ加重，勾配手術を用いて，拡散モデルに特定の出力を忘れさせる。
- 実験により，提案手法がプロンプトベースの手法や他の手法よりも，顔や誤った文化的描写といったプロンプト指定困難な出力を効果的に削除することが示された。
- 本手法は，拡散モデルプロバイダーがプライバシー保護と倫理遵守を確保するための実用的な解決策となる。
Link: https://arxiv.org/abs/2603.10445
SignSparK：疎なキーフレーム学習による効率的な多言語手話生成 [cs.CV]目的：自然かつ言語的に正確な手話アバターの生成
- 手話は聴覚障がい者にとって重要なコミュニケーション手段であり，そのデジタル化が求められている。
- 既存の手話生成手法は，自然さや滑らかさの点で課題が残されており，実用化には至っていない。
- 疎なキーフレーム学習により，自然で流暢な手話動画を効率的に生成し，多言語対応を実現すること。
- 本研究では，高速な手話セグメンテーションモデルFASTと，条件付きフローマッチング(CFM)フレームワークSignSparKを提案した。
- SignSparKは，キーフレームから自然な手話動きを生成し，少ないステップ数で高品質な合成を実現した。
- 4つの異なる手話言語に対応しており，大規模な多言語手話生成フレームワークを確立した。
Link: https://arxiv.org/abs/2603.10446
構造化光を用いた色変化する物体の高精度3D再構成：LCA補正と最小分散融合 [cs.CV]目的：色変化する物体の高精度3D再構成手法
- 3D再構成技術は，逆設計，品質管理，ロボットビジョンなど幅広い分野で不可欠である。
- 構造化光法では，光学素子のラテラルクロマトベレーションが再構成精度を低下させる。
- RGBチャネル間のノイズ特性の不均一性による再構成誤差を低減すること。
- 提案手法LCAMVは，単一のプロジェクター・カメラペアでラテラルクロマトベレーションを補正し，ノイズ特性に適応的に融合する。
- LCAMVは，追加のハードウェアや複数回の露出を必要とせず，高速なデータ取得を可能にする。
- 実験結果から，LCAMVは従来の技術と比較して，深度誤差を最大43.6%削減することが示された。
Link: https://arxiv.org/abs/2603.10456
さまようことを学ぶ：行動可能な推論によるLMMのグローバル画像位置情報能力の向上 [cs.RO, cs.CV]目的：LMMにおける行動可能な推論を用いたグローバル画像位置情報能力の改善
- 画像位置情報は豊富な世界知識と複雑な推論能力を要し，視覚理解の重要な課題である。
- 既存のLMMは画像位置情報タスクにおける性能が十分に検証されていない。
- 行動可能な推論と環境との相互作用を通じて，より高精度な位置情報特定を目指す。
- 本研究では，行動可能な位置情報推論のための新たなベンチマークデータセット「WanderBench」を開発した。
- 「GeoAoT」というフレームワークを提案し，推論と行動を組み合わせることで位置情報特定能力を向上させた。
- 19のLMMに対する実験により，GeoAoTが微細な位置特定と動的な環境下での汎化性能で優れていることを示した。
Link: https://arxiv.org/abs/2603.10463
MoXaRt：XRにおけるオーディオビジュアル物体誘導音響インタラクション [cs.SD, cs.CV, cs.HC]目的：拡張現実（XR）環境における音源分離と音響インタラクションの質の向上
- XR技術の発展に伴い，没入感の高い音響環境の提供が重要となっている。
- 複雑な音響環境下では，音源が混ざり合い，聴覚的な認知やコミュニケーションの妨げとなる。
- オーディオビジュアル情報を活用し，音源分離を高度化することで，より自然な音響体験を実現する。
- MoXaRtは，リアルタイムでオーディオビジュアル情報を活用し，複数の音源を分離するシステムである。
- 技術評価の結果，MoXaRtは最大5つの同時音源を約2秒の遅延で分離することが確認された。
- ユーザースタディでは，MoXaRtは聴取理解度を36.2%向上させ，認知負荷を大幅に軽減することが示された。
Link: https://arxiv.org/abs/2603.10465
多様なNavier-Stokes方程式のマルチタスク学習のための統一的PINNフレームワーク [cs.CV, cs.AI]目的：多様なNavier-Stokes方程式のマルチタスク学習
- 流体現象の予測精度向上は，工学設計や科学研究において不可欠である。
- 従来のPINNは単一流れに特化しており，複数流れの同時解析には課題が残る。
- 異なる流れの物理法則の共有と個別特徴の抽出，負の転移の抑制，学習の安定化を目指す。
- UniPINNは，共有・特化構造，クロスフローアテンション機構，動的重み配分戦略を統合した。
- ３種類の流れ場実験で，UniPINNは優れた予測精度とバランスの取れた性能を示した。
- 異種流れ場間における負の転移を効果的に軽減することに成功した。
Link: https://arxiv.org/abs/2603.10466
反事実を用いた幻覚との戦い：拡散ガイド摂動によるLVLM幻覚抑制 [cs.RO, cs.CV]目的：大規模ビジョン言語モデルにおける幻覚抑制
- マルチモーダルタスクにおいて，ビジョン言語モデルの性能向上は重要である。
- ビジョン言語モデルは，視覚入力と整合しない不正確な出力を生成することが課題である。
- 視覚情報に起因する幻覚を抑制し，モデルの信頼性を高めることを目指す。
- 提案手法CIPHERは，訓練なしで画像特徴レベルの修正を行い，幻覚を抑制する。
- 反事実データセットOHC-25Kを構築し，幻覚に関連する表現を抽出する。
- 得られた低ランク部分空間から中間隠れ状態を投影することで，幻覚を効果的に抑制できる。
Link: https://arxiv.org/abs/2603.10470
構造損傷：堅牢な構造損傷検出のための大規模統一亀裂・表面欠陥データセット [cs.CV]目的：構造物の亀裂および表面欠陥の検出と分類
- 土木工学，インフラ保守，文化遺産保護において，構造損傷の自動検出は重要である。
- 既存のデータセットは地理的多様性，表面タイプ，規模，ラベルの一貫性に欠ける場合が多い。
- 現実世界での汎化性能を向上させるための，多様で高品質なデータセットの提供を目的とする。
- 9種類の表面材料を含む約78,093枚の画像をまとめたStructDamageデータセットを構築した。
- 15種類の深層学習モデルで分類実験を行い，12モデルがマクロF1スコア0.96以上を達成した。
- 最高性能モデルであるDenseNet201は98.62%の精度を達成し，実用的な価値を示す結果が得られた。
Link: https://arxiv.org/abs/2603.10484
空間的自己教師ありピーク学習と質量分析イメージングにおけるピーク検出評価の相関に基づく手法 [cs.CV]目的：質量分析イメージングにおけるピーク検出の改善
- 組織サンプル中の分子分布を可視化する質量分析イメージングは，病理診断や創薬に不可欠である。
- 既存のピーク検出手法は，多様なデータセット間での性能にばらつきがあり，評価も不十分である。
- 空間情報とスペクトル情報を活用し，より精度の高いピーク検出と評価手法を開発する。
- 自己符号化器ベースの空間的自己教師あり学習により，空間的に構造化されたピークを効率的に検出できた。
- 専門家が作成したセグメンテーションマスクを用いた評価により，ピーク検出性能を客観的に評価することが可能となった。
- 提案手法は，既存の最先端手法と比較して，一貫して優れた性能を示した。
Link: https://arxiv.org/abs/2603.10487
IMTBench：画像内機械翻訳のためのマルチシナリオクロスモーダル協調評価ベンチマーク [cs.CV]目的：画像内機械翻訳の評価基準
- 画像内機械翻訳は，視覚的文脈を維持しつつテキストを翻訳するため，多様な応用が期待されている。
- 既存のベンチマークは合成データが多く，実世界の複雑さを反映できていない点が課題である。
- 本研究は，実用的なシナリオと多言語に対応した新たな評価基準を確立し，翻訳の質を向上させる。
- IMTBenchは，2,500枚の画像翻訳サンプルと，翻訳品質，背景維持，画像品質，クロスモーダル整合性の4側面から評価可能である。
- 既存の商用システムやオープンソースモデルの性能を評価した結果，特に自然なシーンやリソースの少ない言語で大きな性能差が確認された。
- IMTBenchは，画像内機械翻訳の研究を加速させるための標準的なベンチマークとして機能することが期待される。
Link: https://arxiv.org/abs/2603.10495