arXiv雑要約

画像・音声 - 2026/03/20 公開

画像セグメンテーションにおける不確実性定量化とエンタングルメントの再考 [cs.CV]目的：画像セグメンテーションにおける不確実性定量化とエンタングルメントの関係性の解明
- 医療画像セグメンテーションなど，安全性が求められる応用において，不確実性定量化は不可欠である。
- 不確実性の分解において，データ由来の不確実性とモデル由来の不確実性が複雑に絡み合い，解釈性を損なう問題がある。
- 様々な不確実性モデルの組み合わせにおけるエンタングルメントを定量化し，その影響を評価することで，より信頼性の高いセグメンテーションを目指す。
- アンサンブル学習は，他の手法と比較して一貫して低いエンタングルメントを示し，外れ値検出において優れた性能を発揮する。
- 曖昧性モデリングとキャリブレーションでは，ソフトマックスやSSNに基づく手法が良好な結果を示し，確率的UNetはエンタングルメントが少ない。
- ソフトマックスアンサンブルは，すべてのタスクにおいて優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.18792
空間トークン生成による知覚能力向上型視覚言語モデルPerceptio [cs.CV, cs.AI]目的：視覚言語モデルにおける空間的推論能力の向上
- 視覚言語モデルは急速に発展しており，画像とテキストの理解において重要な役割を担う。
- 既存モデルは，詳細な空間的理解に苦戦しており，複雑な形状を暗黙的に推測するしかない。
- 空間的情報を明示的に扱うことで，視覚言語モデルの空間認識能力を飛躍的に向上させる。
- Perceptioは，セマンティックセグメンテーションと深度情報をトークンとして生成し，空間的推論能力を強化する。
- 生成された空間トークンを用いて，参照表現セグメンテーション，空間理解，MMBenchなどのタスクで最先端の性能を達成した。
- 本研究は，明示的な空間的思考連鎖が視覚言語モデルにおける空間的根拠付けを強化することを示唆している。
Link: https://arxiv.org/abs/2603.18795
血管様3Dバイオメディカルグラフ表現のトークン化：再構成と生成に向けて [cs.CV]目的：血管様3Dグラフ表現の潜在表現学習
- 臨床・バイオメディカル研究において，血管などの管状解剖構造の正確なモデル化が不可欠である。
- 大規模ネットワークの高空間解像度により複雑性が増し，計算資源に大きな負担となる問題がある。
- 高密度な空間グラフを潜在表現に変換し，計算効率を向上させることを目指す。
- VesselTokは，中心線点と擬似半径を用いて管状形状を効果的にエンコードする。
- 学習された潜在表現は，未知の解剖構造への汎化，解剖学的グラフの生成モデル，リンク予測などの下流タスクへの転移が可能である。
- 肺気管，肺血管，脳血管など，多様な解剖構造において，複雑なトポロジーをロバストにエンコードできることを示した。
Link: https://arxiv.org/abs/2603.18797
統計的特徴量に基づく高速高分解能透過電子顕微鏡イメージングのためのノイズ除去 [cs.CV]目的：高速高分解能透過電子顕微鏡イメージのノイズ除去手法
- 先端材料開発には，原子レベルでの核生成過程の観察が不可欠であり，HRTEMはその鍵となる技術である。
- 核生成はミリ秒単位で急速に変化するため，短時間露光での撮影となり，ノイズが深刻化し原子位置の特定を困難にしている。
- 空間的・周波数的な統計的特徴量を用いてノイズ除去を誘導し，原子レベル観察におけるノイズ問題を解決することを目指す。
- 空間的な偏差を考慮した重み付けにより，各位置に適した畳み込み演算を選択することで，ノイズ除去性能を向上させている。
- 周波数帯域を考慮した重み付けにより，信号増強とノイズ抑制を実現し，より鮮明な画像を得ることが可能となった。
- 合成データと実データを用いた実験により，提案手法が既存手法を上回るHRTEM画像ノイズ除去性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.18834
網膜底写真のための解釈可能なファウンデーションモデルの構築に向けて [cs.NI, cs.SY, eess.SY, cs.CV, cs.LG, stat.CO]目的：網膜底写真における解釈可能なファウンデーションモデルの開発
- 医療画像診断において，高い精度と同時に判断根拠の説明可能性が重要である。
- 既存のファウンデーションモデルは，構造が複雑で解釈性に乏しい場合が多い。
- 大規模データを用いた自己教師あり学習と解釈可能性を両立したモデルを構築する。
- 提案手法Dual-IFMは，局所的な解釈性（クラスエビデンスマップ）とグローバルな解釈性（2次元投影層）を両立する。
- 80万枚以上の網膜底写真を用いて学習した結果，パラメータ数が最大16倍の既存モデルと同等の性能を達成した。
- 分布外データに対しても解釈可能な予測が可能であり，ロバストな表現学習を示唆する。
Link: https://arxiv.org/abs/2603.18846
HORNet：Vision-Languageモデルを用いた動画質疑応答のためのタスク誘導型フレーム選択 [cs.CV]目的：動画質疑応答におけるフレーム選択の最適化
- 動画質疑応答は，画像と言語を統合する重要な研究分野であり，AIの理解力向上に貢献する。
- 従来のフレーム選択は一様またはヒューリスティックな方法に頼り，回答の質を最適化できていない。
- 本研究は，VLMの回答精度を向上させるための効率的なフレーム選択手法を開発する。
- HORNetは，わずか100万以下の学習パラメータで，入力フレーム数を最大99%削減し，VLMの処理時間を最大93%短縮する。
- 短編ベンチマーク(MSVD-QA)においてF1スコアが+1.7%向上し，時間的推論タスク(NExT-QA)においても優れた性能を発揮する。
- HORNetのフレーム選択ポリシーは，他の学習方法よりも分布外データへの汎化性能が高いことが示された。
Link: https://arxiv.org/abs/2603.18850
モーション-o：軌道に基づく動画推論 [cs.CV, cs.AI]目的：動画における空間・時間的推論能力の向上
- 動画理解は，コンピュータビジョンの重要な課題であり，様々な応用への発展が期待されている。
- 既存研究では，物体の動きのパターンを明示的に捉えることが難しく，軌道の理解が不十分である。
- 本研究は，物体の軌跡を明示的に表現し，検証可能な推論を可能にすることを目的とする。
- 提案手法Motion-oは，既存の視覚言語モデルに軌道理解の機能を拡張し，空間・時間的根拠付けと軌道予測の精度を向上させる。
- Motion Chain of Thought (MCoT) により，物体の方向，速度，加速度の変化を要約し，軌道と観察結果を明示的に結びつける。
- 本手法は，既存のフレームワークとの互換性を保ちつつ，動画理解における動きの重要性を確立する。
Link: https://arxiv.org/abs/2603.18856
PromptHub：局所性認識型融合，集中，アライメントによるマルチプロンプト視覚的インコンテキスト学習の強化 [cs.CV, cs.LG]目的：マルチプロンプト視覚的インコンテキスト学習の性能向上
- 視覚タスクの効率的な学習法が求められており，特に少ないデータでの学習が重要である。
- 既存のプロンプト融合手法は，局所的な特徴に偏り，汎化性能が低いという課題がある。
- 局所性認識型融合，集中，アライメントを通じて，プロンプト融合の信頼性を高める。
- PromptHubは，局所的な空間情報を活用し，より豊かな文脈情報を捉える。
- 集中，アライメント，予測を組み合わせた学習目標により，相互に学習を促進する。
- 多様な設定における実験で，PromptHubの優位性が確認された。
Link: https://arxiv.org/abs/2603.18891
MultihopSpatial：視覚言語モデルのための多段階空間推論ベンチマーク [cs.CV, cs.AI]目的：多段階かつ構成的な空間推論を評価するベンチマーク
- 視覚言語モデルは物理環境での利用が期待され，その基礎となるのが空間推論能力である。
- 既存のベンチマークは単純な関係に偏っており，現実世界の複雑な空間推論に対応できていない。
- 多段階・構成的な空間推論能力と正確な視覚的認識を同時に評価できるベンチマークを開発する。
- MultihopSpatialは，1～3段階の複雑なクエリを含む，多段階空間推論に特化したベンチマークである。
- 新たな評価指標Acc@50IoUは，推論能力と視覚的認識の両方を評価し，VLAの堅牢性を高める。
- 大規模な学習コーパスMultihopSpatial-Trainを提供し，空間推論能力の向上を促す。既存の37モデルの評価から，構成的な空間推論が依然として困難であることが示された。
Link: https://arxiv.org/abs/2603.18892
条件付き拡散モデルと強化された病理認識によるMRIからPETへの変換 [cs.CV, cs.AI]目的：MRIからPET画像の合成
- 神経変性疾患の診断にはPETが不可欠だが，高コストと放射線被ばくが課題である。
- MRIはPETに比べ病理検出感度が低いという問題点がある。
- 病理情報を重視したMRIからPETへの高精度な画像変換を実現すること。
- 提案手法PASTAは，高度な双方向アーキテクチャとマルチモーダル条件統合により，構造と病理の両方を保持し，既存手法を上回る性能を示す。
- 新しいサイクル一貫性およびボリューム生成戦略により，高品質な3D PET画像の生成能力が大幅に向上した。
- 合成PET画像を用いたアルツハイマー病の診断性能はMRIより4%向上し，実際のPETにほぼ匹敵する結果が得られた。
Link: https://arxiv.org/abs/2603.18896
GHOST：ガウススプラッティングを用いたRGB動画からの高速かつカテゴリに依存しない手と物体のインタラクション再構成 [cs.CV]目的：RGB動画からの手と物体のインタラクション再構成
- AR/VR，ロボティクス，具現化されたAIにおいて，現実的な手と物体のインタラクション理解は不可欠である。
- 既存手法はカテゴリ特化型テンプレートや高負荷な計算に依存し，3Dでの物理的に整合性の取れた手と物体の位置合わせが困難である。
- GHOSTは，単一のRGB動画から高速かつ正確な手と物体のインタラクション再構成を可能にする。
- GHOSTは，手と物体を密な2Dガウス円盤として表現し，隠れた物体領域を補完する幾何学的事前知識と一貫性損失を導入する。
- 把持を考慮したアライメントにより，手と物体の位置関係を調整し，現実的な接触を実現する。
- 既存手法と比較して，再構成速度が1桁向上し，3D再構成と2Dレンダリング品質において最先端の精度を達成した。
Link: https://arxiv.org/abs/2603.18912
効率的かつロバストなスペクトル形状マッチングのための教師なしコントラスティブ学習 [cs.RO, cs.SY, eess.SY, cs.CV]目的：非剛体変形3D形状ペア間の対応関係推定
- コンピュータビジョンやグラフィックスにおいて，3D形状の理解と処理は重要な課題である。
- 既存手法は，特徴表現の質が不十分であり，計算コストが高いという問題がある。
- コントラスティブ学習により，特徴表現の質を向上させ，効率的な形状マッチングを実現する。
- 本研究では，教師なしコントラスティブ学習を用いて，3D形状マッチングの精度と効率を向上させた。
- 複雑な関数マップソルバーを必要とせず，計算コストを大幅に削減した簡略化されたアーキテクチャを設計した。
- 様々なベンチマークにおいて，最先端の性能を達成し，教師あり学習手法をも上回る結果を示した。
Link: https://arxiv.org/abs/2603.18924
VGGT-360：幾何学的整合性のあるゼロショット全周深度推定 [cs.CV]目的：ゼロショット全周深度推定の実現
- 仮想現実や自動運転など，3次元環境理解の重要性が増している。
- 既存手法では，全周画像から正確な深度情報を得るのが困難である。
- VGGTモデルの3次元整合性を利用し，深度推定の精度向上を目指す。
- VGGT-360は，学習を必要としない新たなフレームワークであり，既存手法よりも高い性能を示す。
- 不確実性に基づいた適応投影により，幾何学的に情報が少ない領域に注力し，精度の高い深度推定を実現する。
- 構造と重要度を強化した注意機構と相関重み付き3Dモデル補正により，3次元再構成のロバスト性と整合性を向上させている。
Link: https://arxiv.org/abs/2603.18943
敵対的環境における最適経路計画 [cs.GT, cs.MA]目的：敵対的環境における多エージェント経路計画問題の計算複雑性
- 災害支援や軍事利用において，安全かつ効率的な経路計画は不可欠である。
- 危険な環境下での経路計画は，エージェントの損失リスクと計画の複雑さのトレードオフを伴う。
- 危険源の再活性化を考慮した経路計画問題を定義し，その計算困難性と緩和条件を明らかにすること。
- 問題はNPに属することが証明された。指数関数的に大きな探索空間を持ちながらも，最適な計画は多項式時間で求められる。
- 環境グラフが木構造であっても，NP困難であることが示された。特定条件下では多項式時間アルゴリズムが存在する。
- 本研究は，この問題の計算複雑性の地形を明らかにし，困難な部分と容易な部分を特定した。
Link: https://arxiv.org/abs/2603.18958
拡散モデルのファインチューニングは，あなたが思うよりも容易である：CRAFT [cs.RO, cs.CV, cs.LG]目的：拡散モデルのアライメント手法
- 高品質な画像生成において，拡散モデルは画期的な進歩を遂げているため，アライメント技術の重要性が高い。
- 既存手法は，高品質な画像データや大規模な優先度データに依存しており，その取得や一貫性の維持が課題である。
- 限られたデータと高い計算効率で，拡散モデルのアライメントを実現すること。
- 提案手法CRAFTは，わずか100サンプルで既存の最先端手法を凌駕する性能を示す。
- CRAFTは，従来の優先度最適化手法と比較して，11〜220倍高速な収束を実現する。
- CRAFTは，選択されたデータを用いたSFTと強化学習との間の原理的なつながりを理論的に証明する。
Link: https://arxiv.org/abs/2603.18991
競争的資源配分における後悔限界：内生的なコストを伴う場合 [cs.AI, cs.DS, cs.GT, cs.LG]目的：N個の相互作用するモジュールに対するTラウンドにわたるオンライン資源配分
- モジュール化されたシステムにおける資源配分は，効率的な運用に不可欠である。
- 従来のオンライン最適化では，コストが固定されている前提があり，現実の相互作用を考慮していない。
- 内生的なコストを考慮した資源配分アルゴリズムの性能限界を明らかにすること。
- 均一配分はΩ(T)の後悔を招く一方，ゲート付き配分はO(T^{2/3})，競争的配分はO(sqrt(T log N))を達成する。
- 競争的配分は，相互作用を通じて明らかになる内生的なコスト情報を活用することで，性能向上を実現する。
- 相互作用のトポロジーが計算コストと後悔のトレードオフを決定し，五行（Wuxing）トポロジーが最小化する。
Link: https://arxiv.org/abs/2603.18999
単純さの力を解き放つ：最先端指紋強調のためのミニマリスト戦略 [cs.HC, cs.CL, cs.CV]目的：指紋強調のためのミニマリスト戦略
- 現代のセキュリティや認証において，指紋のユニークな特徴を利用した指紋認識システムは不可欠である。
- 既存の指紋強調技術は，低品質な指紋画像に対して十分な性能を発揮できない場合がある。
- 本研究は，計算コストを抑えつつ，高品質な指紋画像を生成することを目指す。
- 提案手法は，複雑な最先端手法と比較して，より鮮明で正確，かつノイズの少ない画像を生成することを示した。
- コンテキストフィルタリング法と学習ベースの方法という2つの新規手法を導入し，その有効性を検証した。
- 実験結果は，指紋強調において単純さの重要性を示唆し，今後の研究に新たな方向性を示すものである。
Link: https://arxiv.org/abs/2603.19004
オクルージョンを考慮した汎用的なハンド・オブジェクト姿勢推定 [cs.CV]目的：オクルージョン下における汎用的なハンド・オブジェクト姿勢推定
- ロボット工学やコンピュータビジョンにおいて，ハンド・オブジェクト間の相互作用理解は重要である。
- オブジェクトの外観やインタラクション様式の多様性，特に重度のオクルージョンが課題となっている。
- オクルージョン下でもロバストな姿勢推定を実現し，未知のオブジェクトやインタラクションへの対応を目指す。
- 提案手法GenHOIは，階層的な意味的知識とハンドの事前知識を統合することで，モデルの汎化性能を向上させる。
- テキスト記述による意味的プロンプトを用いることで，ハンド・オブジェクト間の抽象的な表現を学習し，視覚情報の欠如を補う。
- RGB画像，点群，テキスト記述に対するマルチモーダルなマスクモデリングと，ハンドの事前知識を活用することで，高精度な姿勢推定を実現した。
Link: https://arxiv.org/abs/2603.19013
単一のセグメンテーショントークンによるセグメンターとしてのMLLMの再考 [cs.CV]目的：MLLM自体を用いたセグメンテーションの可能性
- マルチモーダル大規模言語モデル(MLLM)は，画像認識やセグメンテーションの分野で急速に発展している。
- 既存手法は，外部デコーダーや多数の追加トークンに依存しており，モデルの複雑化や計算コスト増大を招いている。
- 外部デコーダーを必要としない，MLLM内蔵のセグメンテーション手法の開発。
- 本研究では，MLLMの画像特徴量の解像度低下を抑制することで，セグメンテーション性能を向上させる手法を提案した。
- 提案手法SELF1Eは，オリジナルの解像度を維持した画像特徴量と，処理済みの特徴量の残差特徴量を組み合わせることで，特徴量の精度を高めている。
- 実験の結果，SELF1Eは専門的なマスクデコーダーを用いた手法と同等の性能を達成し，デコーダー不要なセグメンテーションの実現可能性を示した。
Link: https://arxiv.org/abs/2603.19026
SEM：視覚言語モデルの事後的なバイアス軽減のための疎な埋め込み変調 [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおけるバイアス軽減手法
- 視覚と言語を結びつけるモデルはマルチモーダルAIの中核であり，その性能は社会に大きな影響を与える。
- 大規模な学習データに存在する社会的な偏りや誤った相関関係が，モデルの公平性を損なっている。
- CLIP埋め込み空間でのバイアスとタスク関連情報の絡み合いを解消し，より効果的なバイアス軽減を目指す。
- 提案手法SEMは，疎な自動符号化器の潜在空間でバイアスに関わるニューロンを特定し，調整することで，公平性を向上させる。
- SEMは，4つのベンチマークデータセットと2つのCLIPバックボーンにおいて，検索およびゼロショット分類タスクで顕著な公平性の改善を示す。
- 疎な潜在表現が，視覚言語モデルの事後的なバイアス軽減のための有効な基盤となることが示された。
Link: https://arxiv.org/abs/2603.19028
単一画像からの反射除去のための事前モジュレーション拡散モデル FUMO [cs.RO, cs.HC, cs.CV]目的：単一画像からの反射除去
- 現実世界の画像には反射が多く，その除去は画像編集や視覚認識において重要である。
- 反射の強さやパターンが画像内の構造と複雑に絡み合っており，除去が困難である。
- 空間的な制御性と構造の忠実性を向上させ，より自然な反射除去を実現すること。
- 提案手法FUMOは，拡散モデルと事前モジュレーションフレームワークを組み合わせることで，反射の強度と構造を考慮した空間的制御を可能にした。
- 強度事前情報と高周波事前情報を活用し，粗い段階で反射が強い領域と構造に敏感な領域に焦点を当てた条件付き残差注入を行う。
- その後の微調整ネットワークにより，局所的なずれを修正し，細部の鮮明化を実現し，知覚的な品質を向上させた。
Link: https://arxiv.org/abs/2603.19036
TerraScope：地球観測のためのピクセルに基づく視覚的推論 [cs.CV]目的：地球観測におけるピクセルレベルの視覚表現に基づいた複雑な空間推論を可能にする，TerraScopeという統一されたビジョン言語モデル
- 地球観測は，環境変化の監視や災害対応など，社会課題の解決に不可欠である。
- 既存のビジョン言語モデルは，ピクセルレベルの詳細な視覚情報を活用した空間推論が苦手である。
- TerraScopeは，ピクセルに基づいた正確な空間推論を可能にし，地球観測の精度向上を目指す。
- TerraScopeは，単一モダリティ（光学またはSAR）の入力に対応し，両方のモダリティが利用可能な場合にはそれらを適応的に融合する。
- また，時間変化の分析のために，複数時点の時系列データを統合するマルチテンポラル推論能力を備えている。
- 実験の結果，TerraScopeは既存のビジョン言語モデルを大きく上回り，解釈可能な視覚的証拠を提供する。
Link: https://arxiv.org/abs/2603.19039
動的に生成された動画における3次元空間幾何学的整合性の測定 [cs.CL, cs.CV]目的：動的に生成された動画における3次元空間幾何学的整合性の定量化
- 近年の生成モデルの発展に伴い，動画の品質向上は重要課題となっている。
- 既存の評価手法では，動画の幾何学的歪みを正確に捉えることが困難である。
- 動画生成における空間的な幾何学的矛盾をより正確に評価する指標を開発すること。
- 提案手法SGCは，複数のカメラ姿勢推定値のずれを測定することで，幾何学的整合性を定量化する。
- SGCは，静止領域と動的領域を分離し，静止背景を空間的にコヒーレントなサブ領域に分割する。
- 実験の結果，SGCは幾何学的矛盾を頑健に検出し，既存の指標が見逃す問題を特定できることが示された。
Link: https://arxiv.org/abs/2603.19048
SwiftTailor：幾何画像表現を用いた効率的な3D衣服生成 [cs.CV, cs.GR]目的：3D衣服の効率的な生成
- デジタルファッションやコンピュータビジョンの分野において，リアリティのある3D衣服生成は重要な課題である。
- 既存手法は大規模言語モデルに依存し，推論に時間がかかるという課題があった。
- 幾何画像表現を用いて縫製パターンと3Dメッシュ合成を統合し，高速な衣服生成を実現する。
- SwiftTailorは，縫製パターンの推論と3Dメッシュ合成を組み合わせた2段階のフレームワークである。
- 縫製パターンから3D表面をエンコードする幾何画像表現を導入し，物理シミュレーションのコストを削減した。
- Multimodal GarmentCodeDataを用いた実験により，SwiftTailorは高い精度と高速な推論速度を達成した。
Link: https://arxiv.org/abs/2603.19053
Em-Garde：プロアクティブなストリーミングビデオ理解のための提案照合フレームワーク [cs.CV, cs.AI]目的：プロアクティブなストリーミングビデオ理解のためのフレームワーク
- ビデオ理解技術は，ユーザーインタラクションの新たなパラダイムを可能にする重要な分野である。
- 既存のモデルは，フレーム単位での判断に依存しており，効率性と精度に課題がある。
- 効率性と精度を両立し，計算資源の制約下でのプロアクティブなビデオ理解を実現すること。
- 提案手法Em-Gardeは，意味理解とストリーミング知覚を分離することで，効率と精度を向上させている。
- Instruction-Guided Proposal Parserがクエリを視覚的提案に変換し，Lightweight Proposal Matching Moduleが効率的な照合を行う。
- StreamingBenchおよびOVO-Benchでの実験により，提案手法が既存モデルを上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.19054
SignAgent：言語に基づいた手話アノテーションとデータセット作成のためのエージェント型LLM [cs.AR, cs.CV]目的：手話のアノテーションとデータセット作成の拡張性
- 手話は重要なコミュニケーション手段であり，そのデジタル化が求められている。
- 従来の計算手法は言語的ニュアンスを無視し，手動アノテーションは時間とコストがかかる。
- 大規模かつ音声論的に意識されたデータセット作成を効率化すること。
- SignAgentは，LLMを活用し，大規模な手話アノテーションとデータセット作成を可能にする。
- Pseudo-glossアノテーションとID Glossingのタスクで高い性能を示した。
- 視覚的類似性と音声的重複を考慮することで，正確な手話の分類を実現している。
Link: https://arxiv.org/abs/2603.19059
火災をサービスとして：熱的・視覚的に正確な火災ダイナミクスでロボットシミュレータを拡張 [cs.RO, cs.GR]目的：ロボットシミュレータへの高精度な火災シミュレーション統合
- 将来の消防ロボット開発において，現実世界の火災環境を忠実に再現したシミュレーションは不可欠である。
- 既存のロボットシミュレータは，火災特有の熱的・光学的な現象を十分に考慮できていない。
- 本研究は，ロボットの能力評価や訓練データの生成を可能にする，高精度な火災シミュレーション環境を提供する。
- 提案するFire as a Service（FaaS）は，既存のシミュレータに高精度な火災シミュレーションを非同期で統合するフレームワークである。
- FaaSを用いることで，ロボットは正確な熱伝達や視覚的に整合性の取れた煙を体験でき，リアルタイム性能を維持する。
- このフレームワークは，ロボットの火災環境における危険性の評価や，現実的な知覚データの収集を可能にする。
Link: https://arxiv.org/abs/2603.19063
野生環境におけるDROID-SLAM [cs.CV, cs.RO]目的：動的な環境下におけるロバストなリアルタイムRGB SLAMシステム
- SLAMはロボットの自律的なナビゲーションや環境理解に不可欠であり，その応用範囲は広い。
- 従来のSLAMは静的な環境を前提とするため，動的な環境下では追跡に失敗しやすいという課題がある。
- 未知の動的物体や複雑なシーンにおいても，ロバストな追跡と再構成を実現することを目的とする。
- 本手法は，マルチビューの視覚特徴の不一致を利用してピクセルごとの不確実性を推定する。
- これにより，クラッタな動的環境下でも，最先端のカメラポーズとシーンジオメトリを実現した。
- システムはリアルタイム（約10 FPS）で動作し，高い性能を発揮する。
Link: https://arxiv.org/abs/2603.19076
大規模小変化におけるマルチモーダル建築物変化検出：ベンチマークとベースライン [cs.CV]目的：大規模な小規模変化を対象とした建築物変化検出のためのマルチモーダルデータセットと手法
- 光学リモートセンシングは変化検出に有用だが，環境条件の影響を受けやすい。
- 既存のマルチモーダルデータセットは高解像度で正確に登録されたペア画像が不足している。
- RGBとNIRの異質性を活用し，高精度な建築物変化検出を実現することを目指す。
- 大規模小変化マルチモーダルデータセット(LSMD)を新たに構築し，変化検出手法の評価プラットフォームを提供する。
- マルチモーダルスペクトル補完ネットワーク(MSCNet)を提案し，RGBとNIRの特徴量の有効な融合を実現した。
- 実験の結果，MSCNetは既存手法を上回り，微細な建築物変化検出における有効性が確認された。
Link: https://arxiv.org/abs/2603.19077
SAVeS：セマンティックな手がかりによるビジョン言語モデルにおける安全性判断の制御 [cs.CV, cs.AI, cs.CL, cs.LG]目的：ビジョン言語モデルにおける安全性判断のメカニズム解明
- 現実世界での応用が進む中で，ビジョン言語モデルの安全性確保が重要課題となっている。
- モデルの安全性判断が，視覚情報だけでなく言語的要素に左右される可能性が指摘されている。
- セマンティックな手がかりが安全性判断に与える影響を定量的に評価し，脆弱性を明らかにする。
- ビジョン言語モデルの安全性判断は，セマンティックな手がかりに大きく影響を受けることが示された。
- この結果は，モデルが視覚的な理解よりも，学習された視覚言語間の関連性に依存していることを示唆する。
- セマンティックな手がかりを利用した自動制御パイプラインによる脆弱性も確認された。
Link: https://arxiv.org/abs/2603.19092
交通異常理解のための視覚言語モデルTAU-R1 [cs.CV]目的：交通異常理解のためのデータセットとフレームワーク
- 交通安全確保は，インテリジェント交通システムにおいて極めて重要である。
- 交通異常理解のベンチマークデータセットとタスク固有の手法が不足している。
- 現実世界のラウンドアバウト動画を用いたデータセットとモデルを開発し，この課題を解決する。
- 新しいデータセットRoundabout-TAUを構築し，342の動画クリップと2,000以上の質問応答ペアを提供した。
- TAU-R1という二層構造の視覚言語モデルを提案し，粗い異常分類と詳細なイベント概要生成を行った。
- 分解されたQAとTAU固有の報酬関数を用いた二段階トレーニング戦略により，高い性能と効率を両立した。
Link: https://arxiv.org/abs/2603.19098
CustomTex：マルチ参照による高忠実度な屋内シーンテクスチャリング [eess.SY, cs.SY, cs.CV, cs.AI]目的：高忠実度なカスタマイズ可能な3D屋内シーンテクスチャの生成
- 3Dコンテンツ制作において，現実世界に近い質感を再現することが重要である。
- テキストからの制御は柔軟だが，インスタンスレベルの細かい制御や高品質なテクスチャ生成が課題。
- 参照画像に基づき，インスタンスレベルで高忠実度なテクスチャを生成し，この課題を解決する。
- CustomTexは，参照画像に基づいて各オブジェクトインスタンスの外観を指定し，統一された高解像度テクスチャマップを生成する。
- セマンティックレベルとピクセルレベルの蒸留を組み合わせることで，セマンティックな整合性と視覚的な忠実度を両立している。
- 実験により，CustomTexが参照画像とのインスタンスレベルの一貫性と，従来法よりも優れた鮮明度，アーティファクトの低減，ベイクドインシャドウの最小化を達成することが示された。
Link: https://arxiv.org/abs/2603.19121
生成画像分類のための自己回帰モデルの再検討 [cs.CV]目的：生成画像分類における自己回帰モデルの分類能力向上
- 画像認識分野において，生成モデルは分類器としても有用性が示されている
- 従来の自己回帰モデルは，固定されたトークン順序に依存し，表現力に制約があった
- トークン順序に依存しない予測により，自己回帰モデルの分類性能を最大限に引き出す
- 本研究では，トークン順序を考慮しない予測手法を導入し，自己回帰モデルの分類性能を向上させた
- 提案手法は，様々な画像分類ベンチマークにおいて，拡散モデルをベースとする分類器を上回る性能を示した
- また，自己教師あり判別モデルと同等の分類性能を，生成モデルとして実現した
Link: https://arxiv.org/abs/2603.19122
GSMem: ゼロショット具現化探索と推論のための持続的な空間記憶としての3Dガウススプラッティング [cs.CV, cs.RO]目的：具現化された環境における探索と推論のための空間記憶
- ロボットが環境を理解し，自律的に行動するためには，空間知識の蓄積と保持が不可欠である。
- 従来のシーン表現は，一度見逃した情報は再観察が困難な場合があり，探索の効率を阻害する。
- 3Dガウススプラッティングを用いて，過去の情報を再構成可能にする持続的な空間記憶を構築し，探索性能を向上させる。
- GSMemは，3Dガウススプラッティングを基盤とし，最適な視点からのレンダリングによる空間認識能力「Spatial Recollection」を実現する。
- オブジェクトレベルのシーングラフとセマンティックレベルの言語フィールドを組み合わせた検索機構により，目標領域の正確な特定と高精度な推論を可能にする。
- VLM駆動型セマンティックスコアリングと3DGSベースのカバレッジ目標を組み合わせた探索戦略により，タスク指向性と幾何学的網羅性のバランスを取る。
Link: https://arxiv.org/abs/2603.19137
ADAPT：注意駆動適応的プロンプトスケジュールと直交補数の補間による稀概念生成 [cs.CV]目的：稀概念の生成におけるプロンプトスケジュールの決定性と意味的整合性の向上
- テキストから画像を生成する際に，稀な概念の表現は重要である。学習データに少ない概念を扱えるかが課題となる。
- 既存手法は，言語モデルのランダム性や反復的なテキスト埋め込みの切り替えによる最適でない誘導に課題がある。
- ADAPTは，これらの問題を解決し，稀な概念の合成生成における制御性と精度を高めることを目指す。
- ADAPTは，学習や微調整なしに，プロンプトスケジュールを決定論的に計画し，意味的に整合させることで，稀概念の合成生成を大幅に改善する。
- RareBenchベンチマークにおいて，ADAPTは優れた性能を発揮し，稀な属性の意味情報を正確に反映することが示された。
- ADAPTは，視覚的な整合性を損なうことなく，稀な構成要素の生成を決定論的かつ正確に制御することを可能にする。
Link: https://arxiv.org/abs/2603.19157
ターゲットに忠実な拡散生成のための適応的補助プロンプト混合 [cs.CV]目的：ターゲットに忠実な拡散生成の安定化
- 画像生成モデルの発展は，創造性や表現の可能性を広げる上で重要である。
- 学習データにおける概念の偏りにより，稀な概念の生成や編集において精度が低下する。
- 稀な概念や編集指示に対する生成精度を向上させ，ターゲットに忠実な画像を生成すること。
- 適応的補助プロンプト混合(AAPB)は，拡散過程において稀な概念の生成と構造的サポートを提供する。
- AAPBは，補助プロンプトとターゲットプロンプト間の最適なバランスを，拡散ステップごとに決定する。
- RareBenchとFlowEditデータセットにおいて，既存手法と比較して，セマンティック精度と構造的忠実度が向上した。
Link: https://arxiv.org/abs/2603.19158
意味と測定：視覚と言語ナビゲーションのためのマルチエージェント確率的グラウンディング [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的：視覚と言語ナビゲーションにおけるマルチエージェント確率的グラウンディング
- 人間と協調するロボット開発には，自然言語を物理的な行動に変換する能力が不可欠である。
- 既存の視覚言語モデルは，3D空間における距離などの数値制約の推論に課題がある。
- 複雑な数値・意味的言語クエリに対するグラウンディングの精度向上を目指す。
- 提案手法MAPGは，言語クエリを構造化されたサブコンポーネントに分解し，各コンポーネントをグラウンディングする。
- MAPGは，グラウンディングされた出力を確率的に合成することで，3D空間での一貫性のある行動決定を可能にする。
- HM-EQAベンチマークと新ベンチマークMAPG-Benchにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.19166
ARIADNE：信頼性の高い冠動脈造影分析のための知覚と推論の相乗的フレームワーク [cs.CL, cs.CV, cs.AI]目的：冠動脈造影における狭窄検出のトポロジカルな整合性
- 冠動脈疾患の早期発見と治療は重要であり，造影画像解析の精度向上は医療の質を左右する。
- 従来のピクセル単位の損失関数では，血管のトポロジカルな制約が維持されず，高精度でも断片化された血管構造となる。
- 本研究は，トポロジカルな整合性を高めることで，より信頼性の高い狭窄検出を目指す。
- 提案手法ARIADNEは，Betti数の制約を組み込んだDPOにより，幾何学的に完全な血管構造を生成する。
- 1,400件の臨床データを用いた評価で，中心線Dice係数0.838を達成し，偽陽性を41%削減した。
- ARCADEとXCADといった多施設ベンチマークにおける外部検証により，様々な画像取得プロトコルへの汎用性も確認された。
Link: https://arxiv.org/abs/2603.19169
マルチモーダルフローマッチングによる少量データ音響合成 [cs.SD, cs.CV, eess.AS]目的：没入型仮想環境のための音響的に整合性のある音響生成
- 仮想環境の臨場感を高める上で，環境と整合性のある音響生成は不可欠である。
- 従来の音響場法は，シーン固有であり，各環境で高密度な音響測定と高コストな学習が必要である。
- 少ないデータから音響を合成し，シーンの音響的不確実性も捉える手法を確立すること。
- 本研究では，フローマッチングを用いた音響生成法（FLAC）を提案し，少ないシーンの情報から，あり得る室響応答の分布を確率的にモデル化した。
- FLACは，既存の少量データ学習法よりも少ないデータで，より高い性能をAcousticRoomsおよびHearing Anything Anywhereデータセットで示した。
- さらに，生成された室響応答の幾何学的整合性を評価するための新しい指標AGREEを導入した。
Link: https://arxiv.org/abs/2603.19176
再構成が重要: 3Dガウススプラッティングによる幾何学的に整合したBEV表現の学習 [cs.CV]目的：BEV (鳥瞰図) 表現の学習
- 自動運転技術において，周囲環境の包括的な理解は不可欠であり，BEV表現はそのための基盤となる。
- 従来のBEV認識フレームワークは，3D幾何学的な理解が欠如し，解釈可能性が低いという課題があった。
- 明示的な3D再構成を取り入れることで，より正確で幾何学的に整合したBEV表現の学習を目指す。
- 提案手法Splat2BEVは，3Dシーンを明示的に再構成するガウスジェネレーターを事前学習し，幾何学的に整合した特徴表現を獲得する。
- Splat2BEVは，nuScenesとargoverseデータセットにおいて最先端の性能を達成し，3D再構成の有効性を実証した。
- 学習されたBEV特徴表現は，セマンティックセグメンテーションや3Dオブジェクト検出などの下流タスクにおいて優れた性能を発揮する。
Link: https://arxiv.org/abs/2603.19193
FASTER: リアルタイムフローVLAの再考 [cs.HC, cs.RO, cs.CV]目的：リアルタイムフローVLAにおける反応時間短縮
- VLAモデルを現実世界で活用するには，リアルタイム性が不可欠である。
- 既存手法は軌跡の滑らかさ優先で，環境変化への迅速な反応が課題である。
- 環境変化への反応時間を短縮し，リアルタイム性を向上させる。
- 本研究では，反応時間がTTFAと実行ホライズンによって決定されることを示した。
- FASTERは，ホライズンアウェアなスケジュールにより，近未来の行動を優先的にサンプリングする。
- 実機実験により，FASTERがリアルタイム応答性を大幅に向上させることが確認された。
Link: https://arxiv.org/abs/2603.19199
色付きフレーム：質問の枠組みが視覚言語モデルの認識を妨げる [cs.RO, cs.CV]目的：視覚言語モデルにおける質問の枠組み依存性
- 視覚言語モデルは画像とテキストを連携させるため，多様な応用が期待されている。
- 視覚言語モデルは，視覚情報を十分に活用できていない場合がある。
- 質問の形式が視覚情報の利用に与える影響を明らかにすること。
- 視覚言語モデルは，質問の枠組みに応じて視覚情報の注意配分を変化させる。
- 選択肢形式やYes/No形式の質問は，自由記述形式に比べて視覚への注意が低下する。
- 学習可能なトークンを用いたプロンプト調整により，視覚情報の活用を改善し，性能向上に繋げることができた。
Link: https://arxiv.org/abs/2603.19203
表現軸を用いた自己符号化器：画像生成と編集の両方を強化する [cs.CV]目的：画像生成と編集の性能向上
- 画像生成・編集技術は，AI研究において重要な位置を占め，その発展は様々な応用を可能とする。
- 既存手法では，再構成の忠実度と潜在空間の次元数の両立が課題であり，編集品質の低下を招くことがある。
- 事前学習済みの表現空間を活用しつつ，再構成の忠実度を高め，拡散モデルに適した潜在空間を構築することを目指す。
- 提案手法であるRPiAEは，テキストから画像を生成するタスクにおいて，既存のビジュアルトークナイザーを上回る性能を示した。
- 画像編集タスクにおいてもRPiAEは優れた性能を発揮し，高い再構成忠実度を達成した。
- 表現軸の活用と段階的な学習戦略により，意味構造を維持しつつ，拡散モデルに適したコンパクトな潜在空間を実現した。
Link: https://arxiv.org/abs/2603.19206
VLMはビジョントランスフォーマーを必要とするか？視覚エンコーダーとしての状態空間モデルの評価 [cs.CV, cs.LG]目的：大規模ビジョン言語モデルにおける視覚エンコーダーとしての状態空間モデルの性能評価
- 近年のビジョン言語モデルの発展は目覚ましく，画像とテキストの理解を深める上で重要な役割を担っている。
- 従来のビジョン言語モデルでは，計算コストが高いトランスフォーマーベースのエンコーダーが主流であり，軽量化が課題となっていた。
- 本研究は，状態空間モデルがトランスフォーマーベースのエンコーダーに匹敵する性能を発揮し，より効率的なビジョン言語モデルの構築に貢献することを目指す。
- 状態空間モデルを視覚バックボーンとして用いた結果，VQAやグラウンディング/ローカリゼーションにおいて，トランスフォーマーベースのモデルと同等以上の性能を示した。
- 検出またはセグメンテーションによる事前学習を行うことで，状態空間モデルとトランスフォーマーベースのモデルの両方の性能が向上し，状態空間モデルはより少ないパラメータ数で競争力を維持した。
- ImageNetの精度やバックボーンのサイズが必ずしもVLMの性能向上に繋がらないこと，また，一部の視覚バックボーンでローカリゼーションが不安定になることが明らかになった。
Link: https://arxiv.org/abs/2603.19209
DreamPartGen：協調的潜在的ノイズ除去による意味に基づいたパーツレベルの3D生成 [cs.CY, cs.HC, cs.CV, cs.AI, cs.LG]目的：意味に基づいたパーツレベルの3D生成
- 人間は3Dオブジェクトを意味のあるパーツの構成として認識・理解する。その再現が重要。
- 既存のテキストから3D生成手法は，パーツのセマンティクスや機能構造を無視している。
- テキストと整合性のとれた，解釈可能な3D合成を可能にすることを目指す。
- DreamPartGenは，各パーツの形状と外観を共同でモデル化する二重パーツ潜在表現（DPL）を導入。
- 言語から派生したパーツ間依存性を捉える関係セマンティック潜在表現（RSL）を導入。
- 同期された協調ノイズ除去プロセスにより，幾何学的・意味的一貫性を実現し，最先端の性能を達成。
Link: https://arxiv.org/abs/2603.19216
LVOmniBench：オムニモーダルLLMの長尺オーディオ・ビデオ理解評価の開拓 [cs.CV]目的：長尺オーディオ・ビデオのクロスコモーダル理解能力の評価
- 近年，マルチモーダルLLMの進展は目覚ましいが，長尺コンテンツへの対応が課題である。
- 既存の評価は短尺動画に偏っており，現実世界の多様なニーズに応えられていない。
- 長尺オーディオ・ビデオにおけるLLMの理解能力を厳密に評価する基準を確立すること。
- LVOmniBenchは，10分から90分の動画275本と1014のQAペアで構成される新たなベンチマークである。
- 既存のオープンソースモデルの精度は35%以下であり，Gemini 3 Proでも約65%にとどまることが示された。
- このデータセットと結果は，長尺オーディオ・ビデオ理解の進展を促進すると期待される。
Link: https://arxiv.org/abs/2603.19217
生成セグメンテーションのためのベクトル場学習の再考 [cs.CV]目的：生成セグメンテーションにおけるベクトル場学習の改善
- 生成モデルは画像生成において急速に発展しており，セグメンテーションへの応用が期待される。
- 拡散モデルをセグメンテーションに適用する際，連続的な流れと離散的な認識タスクの間の不一致が課題となる。
- 勾配消失と経路交差の問題に対処し，セグメンテーション性能の向上を目指す。
- 提案手法では，ベクトル場を距離に応じた補正項で調整し，勾配の消失と経路交差を抑制する。
- 擬似乱数系列を用いた効率的なカテゴリエンコーディングにより，ピクセルレベルでの意味的整合性を実現する。
- 実験の結果，従来のflow matchingアプローチと比較して，生成セグメンテーションの性能が大幅に向上し，識別モデルとの差が縮小した。
Link: https://arxiv.org/abs/2603.19218
DriveTok：3D運転シーンのトークン化による統合されたマルチビュー再構成と理解 [cs.CV, cs.LG]目的：3D運転シーンのトークン
- 自動運転システムの進化において，視覚情報を効率的に処理する技術の重要性が増している。
- 既存のトークン化手法は単眼・2Dシーン向けであり，高解像度マルチビュー運転シーンには不向きである。
- マルチビューにおける再構成と理解を効率化するための，3D運転シーン専用トークン化手法を開発する。
- DriveTokは，ビジョン基礎モデルから得られたセマンティックな特徴を3D変形クロスアテンションでシーンのトークンに変換する。
- マルチビュー変換器を用いてトークンからマルチビュー特徴を再構成し，RGB，深度，セマンティック再構成を行う。
- 実験の結果，DriveTokは画像再構成，セマンティックセグメンテーション，深度予測，3D占有予測において良好な性能を示した。
Link: https://arxiv.org/abs/2603.19219
ランキングフィードバックを用いたオンライン学習と均衡計算 [cs.LG, cs.CL, cs.GT]目的：ランキングに基づくフィードバック環境下におけるオンライン学習と均衡計算
- 逐次決定問題やゲーム理論において，オンライン学習は重要な役割を果たす研究分野である。
- 従来のオンライン学習アルゴリズムは数値的な報酬に依存しており，プライバシーや実用上の制約がある。
- ランキングフィードバックのみから学習可能なアルゴリズムを開発し，実用的な問題を解決することを目指す。
- 瞬時報酬に基づくランキングフィードバックでは，一般に劣線形な後悔を達成することが不可能であることが示された。
- 時間平均報酬に基づくランキングフィードバックにおいても，ある条件下では劣線形な後悔が不可能となることが示された。
- 報酬の変動が小さいという仮定の下で，劣線形な後悔を達成するアルゴリズムが提案され，実用的なタスクでの有効性が示された。
Link: https://arxiv.org/abs/2603.19221
スペクトル誘導型拡散ノイズスケジュール [cs.CV, cs.LG]目的：拡散モデルにおけるノイズスケジュールの設計
- 高品質な画像生成において，拡散モデルが重要な役割を果たしている。
- 従来のノイズスケジュールは手動調整が必要で，解像度ごとに調整が煩雑である。
- 画像のスペクトル特性に基づき，効率的なノイズスケジュールを設計し，生成品質を向上させる。
- 提案手法では，画像のスペクトル特性を利用して，インスタンスごとに最適なノイズスケジュールを設計する。
- 理論的な限界に基づいて「タイト」なノイズスケジュールを設計し，冗長なステップを排除する。
- 実験の結果，特に低ステップ数での生成品質が向上することが示された。
Link: https://arxiv.org/abs/2603.19222