arXiv雑要約

画像・音声 - 2026/03/16 公開

VQQA：ビデオ評価と品質改善のためのエージェント的アプローチ [cs.AR, cs.CV, cs.AI, cs.LG, cs.MA]目的：ビデオ生成モデルの出力と複雑なユーザー意図との整合性向上
- ビデオ生成技術は急速に進歩しているが，ユーザーの要求に応えることが課題である
- 既存手法は計算コストが高いか，モデル内部へのアクセスが必要である
- ブラックボックスな自然言語インターフェースによる効率的なプロンプト最適化を実現する
- VQQAは，視覚的な質問を動的に生成し，その結果得られるVLMによる批評を意味勾配として利用する
- これにより，従来の評価指標の代わりに，解釈可能で実行可能なフィードバックが得られる
- T2V-CompBenchで+11.57%，VBench2で+8.43%の絶対的な改善が見られ，既存手法を上回る
Link: https://arxiv.org/abs/2603.12310
TASTE-ストリーミング：話者言語モデリングのためのストリーマブルなテキストアラインメント型音声トークン化と埋め込み [cs.CL, cs.SD]目的：テキストアラインメント型音声トークン化と埋め込みのストリーミング化
- 音声対話の自然化と高度化に不可欠であり，その実現にはテキストと音声の整合性が重要である。
- 従来の音声トークン化では，テキスト長との不一致が課題であり，リアルタイム処理が困難であった。
- リアルタイム処理を可能にするストリーミング可能なテキストアラインメント型音声トークン化手法を開発する。
- TASTE-Sは，従来のTASTEと同等の性能を維持しつつ，大幅な低遅延を実現した。
- CTCベースのASRモジュールを統合することで，リアルタイムな二重モダリティ符号化を可能にした。
- TASTE-Sは，トランスクリプトに対するロバスト性を示し，長尺の符号化・復号を可能にした。
Link: https://arxiv.org/abs/2603.12350
深層ネットワークにおける構造的プルーニングと動的ルーティングのための交互勾配流利便性：統一的な指標 [cs.CV, cs.LG, cs.NE]目的：深層ネットワークの構造的プルーニングと動的ルーティングを評価するための統一的な指標の提案
- 深層学習の効率化は重要であり，計算資源の削減と推論速度の向上に貢献する。
- 従来の指標は，構造的プルーニングにおいて機能経路を適切に維持できず，性能劣化を引き起こす。
- 本研究は，ネットワークの構造的利便性を正確に捉え，性能劣化を防ぐ指標を開発し，効率的な深層学習を実現する。
- 提案手法は，極端な疎性下でネットワークの基盤機能を維持し，構造的崩壊を回避できる。
- ViTにおける疎性ボトルネックを明らかにし，動的シグナルの信号圧縮問題を解決するハイブリッドルーティングフレームワークを設計した。
- ImageNet-1Kで75%の圧縮テストにおいて，従来の指標よりも優れた性能を示し，ImageNet-100では効率的な動的推論を実現した。
Link: https://arxiv.org/abs/2603.12354
単一ソースドメイン汎化のための人間知識統合マルチモーダル学習 [cs.IR, cs.CL, cs.CV]目的：画像分類におけるドメイン間の汎化性能向上
- 医療画像診断などにおいて，ドメイン間の知識の汎化は重要である。
- 未知の因果因子が異なるドメイン間での汎化は難しく，客観的な評価手法がない。
- 人間知識を活用し，因果的ギャップを埋めることで汎化性能の向上を目指す。
- ドメイン適合性評価のための理論的枠組み「ドメイン適合境界（DCB）」を導入した。
- 基盤モデルと人間知識を組み合わせたマルチモーダルVLMアプローチ「GenEval」を提案した。
- 8つのDRデータセットと2つのSOZデータセットで，GenEvalは最先端手法を平均9.4％，1.8％上回る性能を示した。
Link: https://arxiv.org/abs/2603.12369
SPARROW：ピクセルに基づく動画MLLMにおける空間的精度と時間的参照一貫性の学習 [cs.DC, cs.CV, cs.AI]目的：ピクセルに基づく動画MLLMにおける空間的精度と時間的参照一貫性の向上
- 動画理解は，AIの発展において不可欠であり，多様な応用が期待される分野である。
- 既存の動画MLLMは，時間的な文脈を捉えきれず，空間的なずれやオブジェクトの認識ミスが発生しやすい。
- SPARROWは，時間的に一貫した参照を可能にし，動画内のオブジェクトを正確に追跡・認識することを目的とする。
- SPARROWは，時間的に整列した参照キューを注入するTarget-Specific Tracked Features (TSF)と，ボックスおよびセグメンテーショントークンをデコードする二重プロンプト設計により，空間精度と時間安定性を両立している。
- 3つの既存の動画MLLM (UniPixel, GLUS, VideoGLaMM)に統合した結果，RVOSで最大+8.9 J&F，visual groundingで+5 mIoU，GCGで+5.4 CLAIRの改善が確認された。
- これらの結果は，SPARROWがピクセルに基づく動画理解において，参照安定性，空間的精度，時間的一貫性を大幅に向上させることを示している。
Link: https://arxiv.org/abs/2603.12382
ランドマークベースのウェブカメラ視線追跡のためのセッションごとのメタキャリブレーション [cs.CV, cs.HC]目的：ウェブカメラ視線追跡におけるキャリブレーション負荷の軽減とセッション間ドリフトへの対応
- 視線追跡技術は，ヒューマンコンピュータインタラクションやユーザビリティ評価において重要な役割を果たす。
- 従来の視線追跡は，キャリブレーションの煩雑さやロバスト性の問題，計算コストが高いといった課題がある。
- 本研究は，短時間のキャリブレーションで高い精度を実現し，実用的なウェブカメラ視線追跡システムを構築することを目指す。
- 提案手法EMC-Gazeは，ランドマークのみを用いて軽量なモデルを実現し，E(3)-等変なランドマークグラフエンコーダとメタ学習を組み合わせる。
- 9点キャリブレーションによる評価において，EMC-Gazeは既存手法Elastic Netと比較して，RMSEが改善された（5.79度 vs 6.68度）。
- EMC-Gazeは，ONNX形式で約4.76MBと軽量であり，ブラウザ上での高速な推論を可能にする（平均12.58ms/サンプル）。
Link: https://arxiv.org/abs/2603.12388
負の外部性を持つ複製可能な物品のペアワイズ交換 [cs.CL, cs.RO, cs.SY, eess.SY, cs.GT, cs.DS]目的：複製可能な物品のペアワイズ交換における交換プロトコルの設計
- デジタルデータ等の共有は，価値を生む一方，競争上のリスクも伴うため，適切な枠組みが重要である。
- 物品の複製可能性と負の外部性の存在により，従来の交換モデルの適用が困難である。
- 個々の合理性，インセンティブ適合性，安定性を満たす交換プロトコルを設計し，最適な物品交換を実現する。
- 利他的な中央計画者が，エージェント間の物品交換を構造化するプロトコルを提案する。
- 提案されたプロトコルは，個々の合理性，インセンティブ適合性，安定性の３つの要件を満たす。
- 複製可能性と負の外部性を考慮した，従来の交換モデルとは異なる新たな視点を提供する。
Link: https://arxiv.org/abs/2603.12403
ABRA：オープンボキャブラリ物体検出におけるドメイン間の知識転送 [cs.CV]目的：オープンボキャブラリ物体検出におけるドメイン適応のための知識転送手法
- 近年の物体検出技術は進歩したが，未知の物体への対応が課題である。実用的な応用には，多様な環境への適応が不可欠。
- ドメインが異なると性能が低下し，特にアノテーションの少ない環境では学習が困難である。
- ラベル付きソースドメインから，学習データのないターゲットドメインへ，物体検出の知識を転送し，性能を向上させる。
- ABRAは，事前学習済みの検出器の重み空間において，ソースドメインとターゲットドメインの専門家を整列させる幾何学的輸送問題として適応を定式化する。
- 様々な困難なドメインシフトにおいて，ABRAはクラスレベルの専門知識を正常に転送することに成功した。
- 実験結果から，ABRAが厳しい条件下でも，クラス固有の知識を効果的に転送できることが示された。
Link: https://arxiv.org/abs/2603.12409
誘導的・演繹的推論を組み合わせた自律走行計画のためのニューロシンボリックフレームワーク [eess.SY, cs.SY, cs.HC, cs.CV]目的：自律走行計画のためのニューロシンボリックフレームワーク
- 自動運転技術の発展は，安全性向上と交通効率化に不可欠である。
- 既存のデータ駆動型モデルは解釈性が低く，複雑な状況での安全性確保が課題である。
- 演繹的推論を統合し，安全性と透明性を高めた計画手法を確立する。
- 提案手法は，大規模言語モデルと論理推論ソルバーを組み合わせ，安全で追跡可能な運転決定を生成する。
- nuScenesベンチマークにおいて，最先端のMomADと比較してL2平均誤差を0.57mに削減し，衝突率を0.075%に低下させた。
- また，軌跡予測の一貫性（TPC）も0.47mに改善し，高い性能を達成した。
Link: https://arxiv.org/abs/2603.12421
Surg-R1：スケーラブルで解釈可能な手術支援のための階層的推論基盤モデル - 多施設臨床検証 [cs.CL, cs.CV]目的：手術意思決定支援のための階層的推論基盤モデルの開発
- 手術の質の向上には，高精度な予測と，医師が検証可能な解釈可能性が不可欠である。
- 既存の手術画像・言語モデルは推論過程を示さず，汎用的な推論モデルは手術特有の知識を欠いている。
- Surg-R1は，手術における知覚的基盤，関係性の理解，文脈的推論を含む階層的推論により，この問題を解決する。
- Surg-R1は，公開ベンチマークにおいてGemini 3.0 ProやGPT-5.1を上回り，Arena Scoreで64.9%を達成した。
- 外部検証データセットにおいても，既存の最高性能モデルを15.2%ポイント上回る性能を示した。
- Surg-R1は，器械検出，三つ組認識，相認識，行動認識，安全視点の評価など，幅広い手術タスクで優れた性能を発揮した。
Link: https://arxiv.org/abs/2603.12430
基礎モデル時代におけるモデルスティッチングの再検討 [cs.CV, cs.AI, cs.LG]目的：異種ビジョン基礎モデルのスティッチ可能性の検証と，スティッチングによるモデル統合手法の提案
- 大規模なビジョン基礎モデルは多様なタスクで活用され，その性能向上が重要視されている。
- 異なる目的やデータで学習したモデル間の表現の互換性が課題となっていた。
- 異種モデル間のスティッチングの成功条件を明確にし，モデル統合の可能性を探る。
- 従来のスティッチング手法では精度維持が難しかったが，ターゲットモデルの末尾層での特徴量マッチング損失を用いることで，異種モデル間のスティッチングが安定的に可能になった。
- 深いスティッチポイントでは，スティッチングされたモデルが個々の構成モデルを上回る性能を示すことが確認された。
- 複数のビジョン基礎モデルの初期層を共有するVFM Stitch Tree (VST) を提案し，マルチモーダルLLMにおける精度とレイテンシーのトレードオフを制御可能にした。
Link: https://arxiv.org/abs/2603.12433
RadEar：音声盗聴と分離のための自己教師ありRFバック散乱システム [cs.NI, cs.SD]目的：RFバック散乱に基づく音声盗聴と分離の実現
- 個人のプライバシーと情報セキュリティの保護は重要であり，音声盗聴はその脅威となっている。
- 壁越しの音声盗聴は信号が弱く，複数の音声が重なり合うため困難である。
- 本研究は，自己教師あり学習を用いて，壁越しでの高精度な音声盗聴と分離を実現する。
- RadEarは，バッテリー不要のRFバック散乱タグと外部のRFリーダーで構成される。
- RFリーダーは自己教師あり学習モデルを用いて音声分離とノイズ除去を行い，高い精度で音声を復元・分離することが示された。
- タグのコンパクトな設計により，省エネルギーで連続的な音声盗聴が可能となる。
Link: https://arxiv.org/abs/2603.12446
操行可能なカーネルの基底：2次元回転からローレンツ群へ [cs.LG, cs.CV]目的：操行可能な等方畳み込みニューラルネットワークの設計における操行可能なカーネル制約を解く方法
- 深層学習において，データに内在する対称性を活用することで，モデルの効率性と汎化性能を向上させることが重要である。
- 既存の方法では，クレーブシュ・ゴルダン係数の数値計算や解析的な計算が必要であり，計算コストが高いという問題がある。
- より簡潔な手法を用いて，入力と出力の特徴マップの表現を直接扱うことで，この問題を解決することを目的とする。
- 本研究では，2次元回転からローレンツ群まで，様々な対称性群と任意のテンソル型の特徴マップに対して，実数および複素数の基底を明示的に提供する。
- 提案手法は，特定の点での単純な不変条件を満たすカーネルの基底を見つけ，その基底を操行可能性の定義式を用いて任意の点へ「操行」させるという戦略に基づいている。
- これにより，クレーブシュ・ゴルダン係数の計算を回避し，より幅広い層の研究者にとってアクセスしやすい方法を提供する。
Link: https://arxiv.org/abs/2603.12459
弱学習付き局所化のヒストパソロジーへの適応：予測のバイアス除去による改善 [cs.CV]目的：ヒストパソロジー画像における弱学習付き物体局所化におけるドメイン適応手法の開発
- ヒストパソロジー画像解析は，病理診断の効率化や精度向上に不可欠であり，近年重要性が増している。
- 異なる機関や臓器間で画像の特徴が異なり，ドメインシフトが性能低下の主な原因となっている。
- 予測バイアスの増幅を抑制し，よりロバストなドメイン適応を実現することを目指している。
- 提案手法SFDA-DePは，予測バイアスを特定・修正する反学習に基づいた反復的なプロセスを採用している。
- 過予測クラスのターゲット画像を特定し，不確実な画像の予測信頼度を選択的に低下させることで，決定境界のドリフトを抑制する。
- 複数のWSOLモデルを用いた実験により，既存のSFDA手法と比較して，分類および局所化性能が改善された。
Link: https://arxiv.org/abs/2603.12468
高精度HRCTレポート生成のためのビデオ言語モデルの活用 [cs.CV]目的：高精度HRCTレポートの生成
- 臨床ワークフローにおいて，HRCTからの正確な診断レポート作成は不可欠である。
- HRCT画像は病理多様性と空間的な疎らさがあり，正確なレポート生成が困難である。
- ビデオ言語モデルを誘導し，高精度なHRCTレポート生成を実現すること。
- 汎用ビデオ言語モデルは，本研究のアプローチにより，医療画像処理への高い転移性を示す。
- AbSteeringは，既存のHRCT専門モデルを凌駕し，優れた検出感度と幻覚の抑制を実現する。
- Abnormality-centricなChain-of-ThoughtとDirect Preference Optimizationが，その性能向上に貢献する。
Link: https://arxiv.org/abs/2603.12469
データ量を削減し，収束を加速：目標駆動型データ最適化によるマルチモーダル命令チューニング [cs.DB, cs.CV, cs.LG]目的：マルチモーダル命令チューニングのためのデータ最適化手法
- マルチモーダル学習は，画像とテキストなど多様な情報を統合するため，AIの応用範囲を広げる上で重要である。
- 大規模なデータセットが必要とされるため，計算コストが高く，効率的な学習が困難であるという課題がある。
- 限られた計算資源で，より効率的に高精度なマルチモーダルモデルを学習することを目指す。
- 提案手法GDOは，Uni-10xベースラインと比較して，MVBench，VideoMME，MLVU，LVBenchにおいて，少ないサンプル数で同等の精度を達成した。
- 特にMVBenchとMLVUにおいて精度向上が大きく，LVBenchにおいても改善が見られた。
- 時間的強調の強化は，長編動画の理解能力を向上させる効果が確認された。
Link: https://arxiv.org/abs/2603.12478
CalliMaster：レイアウト誘導による空間配置を介したページレベルの中国書道習得 [cs.CV]目的：ページレベルの中国書道生成と編集のための統合的フレームワーク
- 書道は伝統文化であり，デジタルアーカイブや復元において重要性が増している。
- 既存の書道生成モデルは，筆致の正確さとレイアウト構成のバランスが課題である。
- 空間配置と内容生成を分離し，高品質かつ制御可能な書道生成を実現する。
- CalliMasterは，テキストからレイアウト，そして画像へと段階的に生成を行うパイプラインを採用している。
- 空間配置段階で文字のバウンディングボックスを予測し，それを用いて高精細な筆致を生成する。
- レイアウトを修正制約として扱うことで，文字の位置やサイズを変更しながら周囲の空間を自動的に調整することが可能である。
Link: https://arxiv.org/abs/2603.12482
現実的なスマートフォン超解像のためのRAWドメイン劣化モデル [cs.RO, cs.CV]目的：スマートフォンにおける超解像性能の向上
- スマートフォンのデジタルズームは超解像技術に依存し，画質向上の鍵となる。
- デバイス固有の学習データが不足し，汎用的な劣化モデルでは実環境での性能が課題となる。
- デバイス固有の劣化を考慮したモデル構築により，現実的な超解像を実現する。
- 提案手法では，キャリブレーションとレンダリング画像を利用し，RAWドメインの劣化モデルを構築した。
- 構築したモデルを用いて単一画像RAW-to-RGB超解像モデルを学習し，実機データで評価した結果，性能が向上した。
- 正確な劣化モデル化が，既存手法を上回る超解像性能に繋がることが示された。
Link: https://arxiv.org/abs/2603.12493
単純なPaine：プロンプト評価による軽量なテキスト画像生成の改善 [cs.RO, cs.CV, cs.AI, cs.LG]目的：拡散モデルにおけるテキスト画像生成品質の向上
- テキストから画像を生成する技術は，表現の幅広さから様々な分野で重要性が増している。
- 拡散モデルは確率的な処理を用いるため，同じプロンプトでも結果にばらつきが生じやすい。
- プロンプトと生成される画像の品質の関係を評価し，より良い画像を生成することを目指す。
- 提案手法Na\"ive PAINEは，初期ノイズとプロンプトから画像の品質を予測することで，高品質な画像を効率的に生成する。
- Na\"ive PAINEは，既存の手法と比較して，いくつかのプロンプト群ベンチマークで優れた性能を示す。
- 軽量であるため，既存の拡散モデルパイプラインに容易に組み込むことができる。
Link: https://arxiv.org/abs/2603.12506
MemRoPE：進化するメモリトークンによる無限ビデオ生成 [cs.CV]目的：長尺ビデオ生成における忠実度低下，同一性漂流，運動停滞の改善
- ビデオ生成技術は，エンターテイメントや教育など多様な分野で重要性が増している。
- 既存手法では，長尺ビデオ生成時に過去の文脈が失われ，品質が劣化しやすい。
- MemRoPEは，過去の情報を効率的に圧縮・活用し，高品質な長尺ビデオ生成を可能とする。
- MemRoPEは，学習を必要とせずに既存手法よりも時間的一貫性，視覚的忠実度，被写体の一貫性で優れている。
- 本手法は，デュアルの長期・短期ストリームで過去のキーを継続的に圧縮することで，グローバルな同一性と最近のダイナミクスを維持する。
- オンラインRoPEインデックスは，位置埋め込みを動的に適用することで，注意機構における位置相の競合を回避する。
Link: https://arxiv.org/abs/2603.12513
3D外傷検出におけるデータ不足への対処：頂点相対位置エンコーディングを用いた自己教師あり学習と半教師あり学習 [cs.CV, cs.LG]目的：3D外傷検出のための自己教師あり学習と半教師あり学習の有効性検証
- 緊急放射線医学において，腹部CTスキャンでの外傷検出の精度向上は重要である。
- 医療データの注釈付きデータが不足しており，正確な外傷検出が困難である。
- 注釈付きデータが限られた状況下でも，高い検出精度を実現することを目指す。
- 自己教師あり事前学習と半教師あり学習の組み合わせにより，注釈付きデータが少ない状況でも効果的な3D外傷検出が可能となった。
- 半教師あり学習により，144個の注釈付きサンプルで56.57%の検証mAP@0.50，45.30%のテストmAP@0.50を達成し，教師あり学習のみと比較して115%の改善が見られた。
- 事前学習されたエンコーダは，7つの外傷カテゴリーにおいて94.07%のテスト精度を達成し，自己教師あり学習の特徴の有用性が示された。
Link: https://arxiv.org/abs/2603.12514
カリキュラムサンプリング：フローマッチングの効率的な学習のための二相カリキュラム [cs.LG, cs.CV]目的：フローマッチングモデルにおける効率的な学習方法
- 生成モデルの性能向上は，画像生成をはじめとする様々な応用において重要である。
- 既存のフローマッチングモデルでは，タイムステップのサンプリング方法が性能に大きく影響する。
- タイムステップサンプリングをカリキュラムとして捉え，学習効率と生成品質の両立を目指す。
- 中間層に偏ったサンプリングは初期収束を速めるが，最終的な生成品質はUniformサンプリングに劣る。
- カリキュラムサンプリングは，まず中間層に偏ったサンプリングで構造学習を行い，次にUniformサンプリングで境界の微調整を行う。
- CIFAR-10において，カリキュラムサンプリングはFIDスコアを3.85から3.22に改善し，学習ステップ数を15万から10万に短縮した。
Link: https://arxiv.org/abs/2603.12517
指差しは理解できているか？ジェスチャーに基づく一人称視点ビデオ質問応答 [cs.CV]目的：ジェスチャーに基盤をおいた一人称視点ビデオ質問応答の実現
- 次世代のAIアシスタント開発には，ユーザの指示を正確に理解することが不可欠である。
- 既存のモデルは，ジェスチャーデータの不足と，一人称視点ビデオからの意図の推論能力が限られている。
- ジェスチャーに基づいた質問応答能力を向上させ，より自然なインタラクションを目指す。
- 本研究では，ジェスチャーを考慮した質問応答データセットEgoPointVQAを構築し，ベンチマークを確立した。
- Hand Intent Tokens(HINT)を提案し，3Dハンドキーポイントから得られる情報をモデルに入力することで，指差し意図の解釈を改善した。
- 提案手法は，既存モデルを上回り，特にHINT-14Bは68.1%の精度で最先端モデルを6.6%上回る性能を示した。
Link: https://arxiv.org/abs/2603.12533
参照表現に基づく画像セグメンテーションのための空間・意味的専門家ルーティングアーキテクチャ [cs.CV, cs.AI]目的：参照表現に基づいた画像領域のピクセルレベルマスク生成
- 画像と自然言語の理解が重要視され，画像認識と自然言語処理の融合が求められている。
- 既存手法は均一な改良戦略に頼ることが多く，多様な参照表現の要求に応えきれていない。
- 空間的な正確性と境界の精度を向上させ，より適切な物体を識別することを目指す。
- SERAは，バックボーンを固定した状態でも高い性能を発揮する軽量な表現条件付き専門家改良機構を導入した。
- SERA-Adapterは，バックボーンの選択されたブロックにアダプターを挿入し，空間的な一貫性と境界の精度を向上させる。
- SERA-Fusionは，空間グリッドにトークン特徴を再形成し，geometry-preservingな専門家変換を適用することで，中間的な視覚表現を強化する。
Link: https://arxiv.org/abs/2603.12538
空間推論はタダではない：LLaVAに関する統制された研究 [cs.CV]目的：視覚言語モデルにおける空間推論能力の限界とその原因の特定
- 視覚言語モデルは急速に進歩しているが，基本的な空間推論に苦戦している。
- 既存モデルは，2D空間関係の理解が脆弱であり，汎用的なベンチマークで高い性能を発揮しても，位置関係や数え方の認識に課題がある。
- CLIPスタイルの画像エンコーダや1D位置エンコーディングが空間推論能力に与える影響を明らかにすること。
- 実験の結果，モデル間で空間認識能力に一貫した差が確認された。
- エンコーダの学習目的や位置エンコーディングの構造が空間的挙動に影響を与えることが示された。
- しかし，これらの変更だけで空間推論の課題を完全に解決することはできなかった。
Link: https://arxiv.org/abs/2603.12545
効率的なMambaベースのデコーダと分布を考慮した深層教師あり学習による医用画像セグメンテーション [cs.CV]目的：汎用的な2D医用画像セグメンテーションのためのデコーダ中心アプローチ
- 医用画像セグメンテーションは，腫瘍や組織の正確な輪郭抽出に不可欠であり，医療診断や治療計画の精度向上に貢献する。
- 既存手法は特定のタスクに特化し，異なる画像モダリティ間での汎化性能が限定的であるという課題がある。
- 本研究は，多様な医用画像データセットに対して高い汎化性能を発揮する効率的なセグメンテーション手法を開発することを目指す。
- 提案手法Deco-Mambaは，CNN，Transformer，Mambaを組み合わせたU-Net様構造を採用し，効率的な特徴抽出と文脈表現の強化を実現した。
- Co-Attention Gate，Vision State Space Module，変形畳み込みによる改良ブロックを導入し，マルチスケール文脈表現を向上させた。
- 窓付き分布を考慮したKLダイバージェンス損失を導入することで，複数段階のデコーディング段階における深層教師あり学習を促進し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.12547
CVGL：因果的学習と幾何学的トポロジー [cs.CV]目的：クロスビュー地理位置特定における性能向上
- 自動運転やマッピングにおいて，画像間の地理的位置関係の推定は不可欠である。
- 視点差や交絡因子の影響により，正確な地理位置特定は困難である。
- 交絡因子と視点差の影響を軽減し，ロバストな地理位置特定を実現する。
- 提案手法CLGTは，因果的特徴抽出器と幾何学的トポロジー融合モジュールを統合している。
- 因果的特徴抽出器は，交絡因子の影響を軽減し，タスクに関連する意味に焦点を当てる。
- 実験の結果，CVUSA, CVACT等のデータセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.12551
高密度な未来予測を超えて：ロボット操作のための構造化プランナーとしてのワールドモデル [cs.RO, cs.CV]目的：ロボット操作における信頼性の高い制御
- ロボットの自律性を高める上で，環境を予測し計画する能力は不可欠である。
- 従来のワールドモデルは，予測の冗長性や誤差の蓄積により，長期的計画が不安定になりやすい。
- 視覚的な計画と低レベルの動作制御を繋ぎ，物理的に意味のある計画を生成すること。
- StructVLAは，ワールドモデルを明示的な構造化プランナーとして再構築することで，予測の冗長性と誤差を削減した。
- 構造化されたフレームは，タスクの進捗に沿った空間的時間的なマイルストーンを捉え，計画と実行の整合性を強化する。
- シミュレーション環境と実機実験の両方で高い成功率を示し，基本的なピックアンドプレースから複雑な長期的タスクまで，ロバストな汎化性能を証明した。
Link: https://arxiv.org/abs/2603.12553
リアプノフ安定なグラフニューラルフロー [cs.LG, cs.CV]目的：グラフニューラルネットワークのロバストな表現学習
- グラフニューラルネットワークは，様々なタスクで高い性能を発揮するが，その脆弱性が課題。
- グラフの構造や特徴に対する敵対的摂動に弱く，頑健性の向上が求められている。
- リアプノフ安定性理論に基づき，ネットワークの状態を安定領域にマッピングする機構を提案する。
- 本研究では，整数・分数次数のリアプノフ安定性を基盤とした新しい防御フレームワークを提示した。
- 提案手法は，既存の防御技術と組み合わせることで，累積的なロバスト性を実現可能である。
- 標準的なベンチマークおよび様々な敵対的攻撃シナリオにおいて，最先端の手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2603.12557
直接選好最適化による日本語音声LLMのアライメント [cs.SD, cs.CL]目的：日本語音声LLMにおける音声に適した出力の実現
- 音声対話システムは人間との自然なコミュニケーションに不可欠であり，その重要性は増している。
- 既存の音声LLMはテキスト様式に偏りがちで，自然な音声合成に適した出力が得られないという課題がある。
- 日本語の音声とテキストの差異に対応し，より自然な対話を実現することを目指す。
- 提案手法は，新たに構築した日本語音声評価ベンチマークSpokenElyzaにおいて，顕著な性能向上を示した。
- 既存のテキスト評価性能を維持しつつ，より会話的で合成に適したテキスト生成を可能にした。
- SpokenElyzaは，今後の日本語音声対話システム研究を支援するために公開される。
Link: https://arxiv.org/abs/2603.12565
AccelAes：訓練不要で審美性を高める画像生成のための拡散Transformerの加速 [cs.CL, cs.RO, cs.CV]目的：拡散Transformerを用いた画像生成における加速と審美性向上の手法
- 高画質の画像生成において，拡散Transformerは高い拡張性と精度を実現する重要な技術である。
- Transformerの自己注意機構は計算コストが高く，推論速度のボトルネックとなっている。
- 審美性に着目し，不要な計算を削減することで，高速かつ高品質な画像生成を目指す。
- 提案手法AccelAesは，プロンプトの審美的特徴に基づき，計算資源を効率的に配分することで，推論速度を向上させる。
- 特に，審美的に重要な領域に重点的に計算資源を割り当てることで，画像品質の向上にも貢献する。
- Lumina-Nextデータセットでの実験により，2.11倍の高速化とImageRewardの11.9%改善が確認された。
Link: https://arxiv.org/abs/2603.12575
専門家ピラミッド調整：専門知識に基づいたタスク割り当てのための効率的なパラメータ微調整 [cs.CL, cs.CV]目的：大規模言語モデルにおけるマルチタスクシナリオのための，効率的なパラメータ微調整手法
- 大規模言語モデルの応用範囲拡大には，効率的なパラメータ調整が不可欠である。
- 既存のMoE-LoRA変種は，タスクの複雑さの階層性を考慮していない。
- タスクに適応した多規模特徴表現を獲得し，パラメータ効率を向上させること。
- 提案手法Expert Pyramid Tuning (EPT)は，マルチタスクベンチマークにおいて最先端のMoE-LoRA変種を大幅に上回る性能を発揮する。
- EPTは，タスク適応を共有メタ知識Subspaceとピラミッド投影機構の2段階に分解することで，パラメータ数を削減しながら性能を向上させている。
- 特に，EPTは，異なるタスクで要求される多様な特徴粒度を捉える能力に優れている。
Link: https://arxiv.org/abs/2603.12577
DINOLight：自己教師あり視覚的事前知識統合によるロバストな環境光正規化 [cs.IR, cs.CV]目的：環境光正規化の性能向上
- 画像処理において，環境光の影響を取り除くことは，より自然で正確な画像表現のために重要である。
- 従来の環境光正規化手法は，複雑なシーンや複数光源下で十分な性能を発揮できない場合がある。
- DINOv2の画像理解能力を活用し，環境光正規化の精度とロバスト性を高めることを目指す。
- DINOLightは，自己教師ありモデルDINOv2の視覚的事前知識を統合した新たな環境光正規化フレームワークである。
- 実験により，DINOLightはAmbient6Kデータセットにおいて，従来の技術を上回る性能を達成した。
- DINOv2の特徴量が環境光正規化を効果的に強化することが示された。また，シャドウ除去ベンチマークデータセットでも競争力のある結果を得た。
Link: https://arxiv.org/abs/2603.12579
MRGeo：破損画像に対する空間・チャネル特徴強化によるロバストなクロスビュー地理位置特定 [cs.CV]目的：破損画像に対するロバストなクロスビュー地理位置特定手法の開発
- 地理位置特定は，様々なアプリケーションにおいて重要な役割を担っており，その精度向上が求められている。
- 従来のCVGL手法は，現実世界の破損画像に対する頑健性が検証されておらず，実用上の課題となっていた。
- 画像破損に強い，ロバストなクロスビュー地理位置特定手法を開発し，実用性を高めることを目指す。
- MRGeoは，空間・チャネル特徴の強化と幾何学的制約を組み合わせた階層的な防御戦略を採用することで，破損画像に対するロバスト性を実現した。
- 空間適応表現モジュールとチャネル較正モジュールにより，特徴の品質向上と情報損失の抑制を実現した。
- 複数のロバスト性ベンチマークにおいて，MRGeoは平均R@1を2.92％向上させ，領域レベルの幾何学的アライメントモジュールが粗視点の一貫性を担保した。
Link: https://arxiv.org/abs/2603.12587
SDF-Net：構造を意識した光・SAR船再識別のための分離特徴学習 [cs.CV]目的：光と合成開口レーダー(SAR)画像間の船再識別における分離特徴学習手法
- 船の識別は，海上安全保障や交通監視において不可欠であり，その効率化が求められている。
- 光とSAR画像は放射特性が大きく異なり，異なるモダリティ間での船の再識別が困難である。
- 船の幾何学的構造はモダリティに依存せず安定しているという物理的制約を利用し，再識別の精度向上を目指す。
- SDF-Netは，中間層からのスケール不変な勾配エネルギー統計を抽出することで，放射変動に対してロバストな表現を獲得する。
- 学習された表現を，モダリティに依存しない識別特徴とモダリティ特有の特徴に分離することで，識別力を向上させる。
- HOSS-ReIDデータセットを用いた実験で，SDF-Netは既存の最先端手法を上回る性能を示すことが示された。
Link: https://arxiv.org/abs/2603.12588
ニューラルゲート：LVLMにおけるニューロンレベルの勾配ゲーティングによるプライバシーリスクの軽減 [cs.CV]目的：大規模ビジョン言語モデルにおけるプライバシーリスク軽減策
- 近年，金融や医療など様々な分野でLVLMの利用が拡大しており，その安全性が重要視されている。
- 既存のプライバシー保護技術は，未知のプライバシー関連クエリへの対応や，モデル性能への影響が課題となっていた。
- 本研究は，LVLMにおけるプライバシー関連クエリへの拒否率向上を通じて，プライバシーリスクを軽減することを目指す。
- 提案手法Neural Gateは，モデル内のプライバシー関連概念と関連するニューロンを特定し，パラメータ更新を精密に制御する。
- MiniGPTとLLaVAを用いた実験により，Neural Gateがモデルのプライバシー保護を大幅に向上させることが示された。
- Neural Gateは，プライバシー保護を強化しながら，モデルの本来の有用性を維持することが確認された。
Link: https://arxiv.org/abs/2603.12598
3D物体検出のための予測知覚フレームワーク [cs.CV]目的：3D物体検出におけるモデルの知覚精度向上
- 自動運転やロボティクスにおいて，周囲環境の正確な3D物体認識は不可欠である。
- 高速移動する物体など，知覚だけでは情報が不足する状況が存在する。
- 予測と知覚を統合し，効率的かつ高精度な物体認識を実現すること。
- 提案手法である予測知覚フレームワーク(PAP)は，UniADモデルのターゲット追跡精度を10%向上させた。
- PAPフレームワークは，推論速度を15%増加させ，計算資源の消費を削減することを示した。
- この生体模倣的な設計は，知覚モデルの効率性と精度を大幅に向上させる。
Link: https://arxiv.org/abs/2603.12599
A2Z-10M+: AI支援CADモデリングとリバースエンジニアリングのための幾何学的深層学習 [cs.HC, cs.CV]目的：AI支援CADモデリングとリバースエンジニアリングのための幾何学的深層学習を可能にする，境界表現（BRep）アノテーション付き大規模マルチモーダルデータセット
- 産業製品設計において，3DスキャンからのCADモデルの逆設計や迅速なプロトタイピングは不可欠である。
- 既存の幾何学的深層学習技術は，パラメトリックCADの特徴を境界表現（BRep）として多角的に理解することが課題である。
- 本研究は，BRep学習を飛躍的に向上させるため，100万のABC CADモデルに対する大規模マルチモーダルアノテーションデータセットを構築する。
- 100万のABC CADモデルに対して，高解像度メッシュ，手書きスケッチ，幾何学的・トポロジー情報，テキストキャプションを含む，5TBの大規模データセットA2Zを構築した。
- A2Zデータセットの規模，品質，多様性を評価するため，GPT-5，Gemini，および人間によるフィードバックを活用した。
- 構築したデータセットを用いて，3DスキャンからのBRep共辺とコーナー頂点の検出を行う基盤モデルを訓練し，CADリバースエンジニアリングにおける性能を評価した。
Link: https://arxiv.org/abs/2603.12605
否定の習得：グループ化された対立学習によるグラウンディングモデルの性能向上 [cs.CV, cs.AI]目的：否定表現に対する視覚言語モデルの性能向上
- 視覚言語タスクにおいて，自然言語の理解は不可欠であり，その精度が性能を左右する。
- 既存モデルは肯定的な意味合いのプロンプトに偏っており，否定表現の解釈が苦手である。
- 否定表現を考慮した学習データと学習手法により，モデルのロバスト性と精度を向上させる。
- 新しいデータセットD-Negationを構築し，肯定的な記述と否定的な記述の両方を提供した。
- グループ化された対立学習フレームワークを提案し，限定されたサンプルから否定表現を学習させた。
- わずか10%未満のパラメータを調整するだけで，mAPが最大4.4，5.7ポイント向上した。
Link: https://arxiv.org/abs/2603.12606
インスタンスセグメンテーションに基づく貨車における異常検知のためのプロンプト駆動軽量基盤モデル [cs.CV, eess.IV]目的：貨車の異常検知のためのインスタンスセグメンテーションフレームワーク
- 鉄道輸送システムの維持管理において，正確な視覚的な異常検知は不可欠である。
- 複雑な環境，構造の反復性，および重要な領域の頻繁な遮蔽により，従来のインスタンスセグメンテーション手法は汎化性能と境界精度が低い。
- 基盤モデルの知識を転移し，リアルタイムでの展開を可能にする，軽量で自己プロンプト生成可能なフレームワークを提案する。
- 提案手法は，既存の最先端手法と比較して，精度とロバスト性の両方で優れていることが実証された。
- 構築したデータセット上で，74.6 $AP^{\text{box}}$ および 74.2 $AP^{\text{mask}}$ を達成した。
- 本研究は，産業規模の異常診断において，基盤モデルの適応の可能性を示す，効率的で展開可能なソリューションを提供する。
Link: https://arxiv.org/abs/2603.12624
VLM4Rec：大規模ビジョン言語モデルによるレコメンデーションのためのマルチモーダル意味表現 [cs.IR, cs.AI, cs.CV]目的：レコメンデーションにおけるマルチモーダル意味表現の構築
- ユーザーの嗜好をより良くモデル化するため，テキストと視覚情報を組み合わせるマルチモーダルレコメンデーションの重要性が増している。
- 従来のマルチモーダルレコメンデーションは特徴量の融合に焦点を当てがちで，嗜好との関連性を考慮した意味空間でのアイテム表現が課題であった。
- 大規模ビジョン言語モデルを活用し，アイテムの視覚的特徴を意味的に理解することで，レコメンデーションの精度向上を目指す。
- VLM4Recは，アイテム画像を自然言語による説明に変換することで，アイテムの意味表現を構築する。
- このフレームワークは，直接的な特徴量融合ではなく，意味的なアライメントを重視することで，レコメンデーションのパフォーマンスを向上させる。
- 複数のマルチモーダルレコメンデーションデータセットにおいて，既存手法と比較して優れた結果を示し，表現の質が融合の複雑さよりも重要であることを示唆している。
Link: https://arxiv.org/abs/2603.12625
RoboStereo：統一されたポリシー最適化のための双塔4次元具現化世界モデル [cs.CL, cs.HC, cs.CV]目的：具現化AIにおけるポリシー最適化のための世界モデル構築
- 具現化AIは，実世界とのインタラクションコストと安全上の制約に直面しているため，効率的な学習方法が求められている。
- 既存の世界モデルは，幾何学的な幻覚や，実用的なポリシー改善のための統一された最適化フレームワークの欠如という課題がある。
- RoboStereoは，これらの課題を克服し，高精度なシミュレーションと効率的なポリシー学習を可能にすることを目指す。
- RoboStereoは，双塔構造と双方向クロスモーダルエンハンスメントにより，時空間的な幾何学的整合性と物理的幻覚の軽減を実現した。
- 提案する統一フレームワークは，テスト時ポリシー拡張，模倣進化型ポリシー学習，およびオープンエクスプローラションプolicy学習を含む。
- 実験の結果，RoboStereoは最先端の生成品質を達成し，統一フレームワークは細かい操作タスクにおいて平均97%以上の相対的な改善を示した。
Link: https://arxiv.org/abs/2603.12639
LR-SGS：LiDARと反射率をガイドする顕著なガウススプラッティングによる自動運転シーン再構成 [cs.CL, cs.CV, cs.AI]目的：自動運転シーンの再構成と新規視点合成の性能向上
- 自動運転には周囲環境の正確な3次元把握が不可欠であり，高精度なシーン再構成技術が求められている。
- 既存手法では，LiDARとRGBの情報を十分に活用できておらず，悪条件下のシーン再構成性能が課題となっていた。
- LiDARの反射率情報とRGB情報を統合し，複雑な環境下でもロバストな再構成を実現することを目指す。
- 提案手法LR-SGSは，LiDARと反射率をガイドする顕著なガウススプラッティングを用いて，少ないガウス数と短い学習時間で優れた再構成性能を実現した。
- 特に，複雑な照明条件下において，既存手法であるOmniReを1.18dB PSNRで上回る性能を示した。
- 構造を意識した顕著なガウス表現と，LiDAR強度を反射率として活用する手法が，再構成性能の向上に貢献した。
Link: https://arxiv.org/abs/2603.12647
疎から密へ：拡張された条件空間によるフローモデルのためのマルチビューGRPO [cs.CV]目的：テキストから画像へのフローモデルにおける嗜好合わせ
- 生成AIの発展に伴い，ユーザーの意図に沿った高品質な画像生成が重要となっている。
- 既存手法では，生成サンプル間の関係性を十分に活用できておらず，性能向上に限界がある。
- 多様な視点からの評価により，生成サンプルの関係性をより深く捉え，嗜好合わせの精度向上を目指す。
- 提案手法MV-GRPOは，条件空間を拡張することで，より密な報酬マッピングを実現し，関係性の探索を強化する。
- セマンティクに隣接する多様なキャプションを生成し，多角的な評価を行うことで，最適化信号を豊かにする。
- MV-GRPOは，最先端の手法と比較して，優れた嗜好合わせ性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2603.12648
VGGT-World：VGGTを自己回帰幾何世界モデルへ変換 [cs.NI, cs.CV]目的：3D世界モデリングのための予測状態としての凍結GFM特徴の有効性と効率性
- シーンの進化を予測する世界モデルは，将来の自動運転やロボット工学において不可欠な技術である。
- 既存の世界モデルは，フォトメトリックな詳細に注力するあまり，幾何学的な一貫性が損なわれる問題がある。
- 凍結GFM特徴を用いることで，効率的かつ高精度な3D世界モデリングを実現することを試みる。
- VGGT-Worldは，ビデオ生成を回避し，凍結GFM特徴の時間的進化を直接予測する。
- KITTI，Cityscapes，TartanAirにおける実験により，VGGT-Worldは既存の最良ベースラインを大幅に上回る深度予測性能を示した。
- 学習パラメータ数はわずか0.43Bでありながら，3.6～5倍の高速化を実現している。
Link: https://arxiv.org/abs/2603.12655
VFM-Recon：スケール整合ファウンデーション事前知識を用いたクロスドメインシーンレベルニューラル再構成 [cs.CV]目的：クロスドメインシーンレベルニューラル再構成における転移可能なVFM事前知識とスケール整合性の両立
- 大規模データから学習されたVFMは，汎化性能に優れるため，様々な視覚タスクへの応用が期待されている。
- VFMの予測はスケールが曖昧であり，体積融合に必要なスケール一貫性との両立が課題となっていた。
- VFMの持つ汎化性能を活かしつつ，シーンレベルニューラル再構成の精度向上を目指す。
- 提案手法VFM-Reconは，軽量なスケール整合ステージにより，マルチビューのスケール一貫性を回復する。
- 事前学習済みのVFM特徴量をタスク固有のアダプターを介してニューラル体積再構成パイプラインに統合することで，クロスドメインのロバスト性を維持する。
- ScanNet，TUM RGB-D，Tanks and Templesデータセットでの評価において，最先端の性能を達成した。特にTanks and Templesデータセットでは，F1スコア70.1を達成し，既存手法を大幅に上回った。
Link: https://arxiv.org/abs/2603.12657
AVION：オフライン教師データを用いたプロンプト調整による航空画像とテキストの指示 [cs.CV]目的：航空画像とテキストの指示に対するビジョン言語モデルの適応
- リモートセンシング画像解析は，環境モニタリングや災害対応など，多くの分野で重要である。
- テキスト表現のセマンティック不足と，視覚的特徴の適応性の低さが課題となっていた。
- 航空画像における多様な視覚的表現と，詳細な物体区別に対応するモデルの構築を目指す。
- AVIONは，大規模言語モデルからセマンティックに豊かなテキストプロトタイプを構築する知識蒸留フレームワークである。
- 教師モジュールと軽量なプロンプト調整により，埋め込みとクロスモーダル関係を調整し，少ないサンプルでの分類精度と基本クラス精度を向上させた。
- クロスモーダル検索の平均再現率も向上し，追加の学習パラメータは最小限に抑えられた。
Link: https://arxiv.org/abs/2603.12659
パノラマLiDARスキャンからの幾何学的・測光的特徴学習による屋外場所のカテゴリ化 [cs.NI, cs.CV, cs.RO]目的：屋外場所のカテゴリ化
- 自律型ロボットや車両の自己決定やナビゲーション能力に不可欠な技術分野である。
- 屋外環境は，時間による照度変化や遮蔽物などにより，屋内環境よりも知覚的な変動が大きい。
- LiDARデータを用いた屋外場所のカテゴリ化において，幾何学的・測光的特徴の学習を目指す。
- 提案手法は，3D LiDARから得られる全方向深度/反射率画像を入力としたCNNを用いることで，屋外場所のカテゴリ化を可能にした。
- 大規模な屋外場所データセットMPOを構築し，提案手法の有効性を評価した。
- MPOデータセットにおける実験結果は，従来の技術を上回り，深度と反射率の両方のモダリティの有効性を示した。
Link: https://arxiv.org/abs/2603.12663
マーカーを用いた骨材の3次元再構築：2次元および3次元形態の比較分析 [cs.CV, cs.AI, eess.IV]目的：骨材の形態的特性の定量化
- 建設材料の主要な構成要素であり，構造物やインフラの機能に不可欠であるため。
- 骨材の3次元形態を現場で正確に把握することが困難であるため。
- 低コストで高精度な3次元再構築手法を提供し，骨材の品質管理を容易にすること。
- 提案手法は，マーカーを用いることで背景除去，点群の連結，スケール参照を可能にし，高品質な骨材モデルの再構築を実現した。
- 2次元と3次元の形態的特性を比較した結果，統計量に有意な差異が認められた。
- 本手法により，手軽かつ低コストで骨材の3次元形状情報を取得し，検査やデータ収集，形態分析を促進できる。
Link: https://arxiv.org/abs/2603.12667
視覚検証強化によるVLM融合：効率的な視覚推論のために [cs.CV, cs.LG]目的：多様な視覚言語モデル(VLM)の融合による視覚推論性能の向上
- 近年，VLMの重要性が増しており，その性能向上は様々な応用分野において不可欠である。
- 複数のVLMを組み合わせる際，どのモデルを選択・融合すべきかという課題が存在する。
- VLMの視覚的特徴量に着目し，多様性を活用することで，よりロバストな推論を目指す。
- 提案手法V3Fusionは，VLM間の視覚的特徴量の不一致を利用し，多様な視覚的特徴を捉えることに成功した。
- 遺伝的アルゴリズムにより，最適なVLMの組み合わせを効率的に特定し，推論性能を向上させた。
- MMMU，MMMU-Pro，A-OKVQA，OCR-VQAといったベンチマークにおいて，既存のVLMを上回る性能を達成した。
Link: https://arxiv.org/abs/2603.12669