arXiv雑要約

画像・音声 - 2026/03/13 公開

ManiVID-3D：3次元表現の分離による，視点不変なロボット操作のための汎化可能な強化学習 [cs.DB, cs.DL, cs.RO, cs.CV]目的：ロボット操作における視点不変な表現学習
- ロボットの知覚・行動計画において，視覚情報は不可欠である。現実環境での活用には，視点変化へのロバスト性が重要となる。
- 従来の強化学習は，カメラ視点に依存しやすく，現実環境でのセンサー配置の制約から性能が低下しやすいという課題があった。
- 本研究では，3次元表現の分離により，視点に依存しない強化学習を実現し，ロボット操作の汎化性能を向上させることを目指す。
- 提案手法ManiVID-3Dは，自己教師あり学習により視点不変な表現を獲得する3次元強化学習アーキテクチャである。
- ViewNetモジュールにより，外部キャリブレーションなしに，任意の視点からの点群データを統一された座標系に変換可能である。
- シミュレーションおよび実環境の実験において，既存手法と比較して40.6％高い成功率を達成し，パラメータ数を80％削減した。
Link: https://arxiv.org/abs/2509.11125
VolSplat：ボクセルアラインメント予測による3Dガウススプラッティングの再考 [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, math.OC, cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的：新規視点合成における3Dガウススプラッティングの効率向上
- 3Dシーンの再現は，ロボット工学，VR/ARなど幅広い分野で重要である。
- 既存手法は入力視点数に依存し，視点に偏った密度分布やアラインメントエラーが発生しやすい。
- ボクセルアラインメント予測により，視点依存性を軽減し，よりロバストな3D再構成を目指す。
- VolSplatは，従来のピクセルアラインメントに代わり，ボクセルアラインメントを導入することで，2D特徴量マッチングのエラーを回避する。
- 提案手法は，シーンの複雑さに応じて密度を適応的に制御し，より忠実なガウス分布と幾何学的整合性を実現する。
- ベンチマークテストの結果，VolSplatは最先端の性能を達成し，より自然で視点整合性の高い結果を生成する。
Link: https://arxiv.org/abs/2509.19297
単一画像からのモーション生成のための陰関数モデルの効率的な構築 [cs.RO, cs.AI, cs.CV]目的：単一画像からの陰関数表現の構築
- ロボット工学において，障害物回避や経路計画に陰関数表現が広く用いられる。
- 従来の陰関数表面再構成法は，多視点画像と長時間の学習を必要とする。
- 単一画像から高精度な陰関数表現を迅速に構築することを目指す。
- 提案手法FINSは，軽量な構造で高忠実度な表面とSDFフィールドを再構成する。
- マルチ解像度ハッシュグリッドエンコーダと軽量なジオメトリ・カラーヘッドを統合し，高速な学習を実現。
- 実験により，既存手法と比較して，収束速度と再構成精度が向上することが示された。
Link: https://arxiv.org/abs/2509.20681
クロス倍率蒸留による病理基礎モデルの効率化 [cs.CC, cs.CL, cs.CV]目的：病理画像解析における基礎モデルの計算効率向上
- 病理診断の精度向上にAI活用が期待される中，計算資源の制約が課題となっている。
- 既存の基礎モデルはパラメータ数が多く，高倍率画像処理に計算コストがかかる。
- クロス倍率蒸留により，軽量かつ高速な基礎モデルを構築し，臨床応用を可能にする。
- クロス倍率蒸留により，20倍の教師モデルの知識を5倍の生徒モデルへ効率的に転移した。
- XMAGは既存手法と比較して，WSIあたりのパッチ数を11.3倍削減し，処理速度を30倍向上させた。
- XMAGは大型基礎モデルと同等の診断精度を維持しつつ，リアルタイムな病理AI統合を実現する可能性を示した。
Link: https://arxiv.org/abs/2509.23097
空間逆問題に対するコントラスト拡散ガイダンス [cs.CV, cs.LG, eess.SP]目的：部分的にしか特定されない，滑らかでない，微分不可能な前方演算子を持つ逆問題の解決
- 空間認識やロボット工学など，現実世界のデータから構造を復元する上で不可欠な技術である。
- 前方演算子の不確実性や非微分可能性により，従来の勾配ベースの手法では安定した解が得られない。
- 拡散モデルを用いて，信頼性の低い勾配に依存せずに，よりロバストな逆問題解決を目指す。
- 提案手法CoGuideは，従来の逆問題ソルバーや誘導拡散よりも一貫性のある再構成を実現した。
- コントラスト学習により，経路と間取りの互換性を考慮した埋め込み空間を学習することで，安定したガイダンスを可能にした。
- 本手法は空間マッピングだけでなく，より広範な盲目逆問題にも応用可能であることを示した。
Link: https://arxiv.org/abs/2509.26489
UniFField：あらゆるシーンにおける視覚，意味，空間的不確実性を扱う汎用的な統一ニューラル特徴フィールド [cs.RO, cs.CV, cs.LG]目的：3Dシーンの視覚，幾何学，意味的理解の包括的な表現
- ロボットが複雑な環境でタスクを実行する上で，3次元空間の理解は不可欠である。
- 既存手法は特定のシーンに特化しており，予測における不確実性のモデル化が困難である。
- 新しい環境へのゼロショット適用と，不確実性の推定を統合することで，ロバストな意思決定を実現する。
- UniFFieldは，視覚，意味，幾何学的特徴を単一の汎用的な表現に統合し，各モダリティにおける不確実性を予測する。
- シーン再構成と意味特徴予測におけるモデルの予測誤差を，正確に記述する不確実性推定が可能であることが示された。
- モバイルマニピュレータを用いた能動的物体探索タスクで，特徴予測と不確実性を活用し，ロバストな意思決定能力を実証した。
Link: https://arxiv.org/abs/2510.06754
GTR-Bench：ビジョン言語モデルにおける地理時間的推論の評価 [cs.CV]目的：ビジョン言語モデルにおける地理時間的推論能力の評価
- 自動運転や具現化されたAI，汎用AIの実現には，空間と時間の理解が不可欠である。
- 既存の評価基準は，一人称視点や地図情報に偏っており，画像と地図情報を統合する能力を評価できていない。
- 現実世界の交通管理や緊急対応に必要な，地理空間と時間的推論能力を評価する新たな基準を提供する。
- GTR-Benchを用いた評価で，最先端のGemini-2.5-Proでも人間の性能を大きく下回ることが示された。
- モデルは空間情報と時間情報の利用に偏りがあり，時間的な予測能力が弱いことが示唆された。
- 地図データと複数視点の動画情報を効果的に統合する能力が不足していることが明らかになった。
Link: https://arxiv.org/abs/2510.07791
ReSplat: 再帰的ガウススプラッティングの学習 [cs.CV]目的：再帰的ガウススプラッティングモデルによる3Dガウスの反復的な改良
- 3次元表現は，仮想現実やロボット工学など，多様な分野で重要な役割を担っている。
- 既存のガウススプラッティングモデルは，推論に単一の順伝播しか利用せず，性能に限界がある。
- 本研究は，ガウススプラッティングレンダリング誤差をフィードバック信号として活用し，汎化性能を向上させる。
- 提案手法ReSplatは，明示的な勾配計算なしで3Dガウスを反復的に改良することで，高い性能を実現した。
- 入力ビュー数，解像度，データセットが異なる状況下で，最先端の性能を達成し，ガウスの数を大幅に削減，レンダリング速度を向上させた。
- コンパクトな再構成モデルを導入し，計算コストを削減し，効率的なガウス更新を可能にした。
Link: https://arxiv.org/abs/2510.08575
ファインチューンな画像生成のためのヘッドごとの適応的ロータリー位置エンコーディング [cs.CV]目的：ファインチューンな画像生成における位置エンコーディングの改善
- 画像生成において，Transformerは構造モデリングに位置エンコーディングを利用する。
- 従来のロータリー位置埋め込み(RoPE)は画像生成において，細かい空間関係や色，オブジェクトの数え上げが苦手である。
- HARoPEは，RoPEの周波数割り当て，軸方向の独立性，ヘッドの均一な扱い方の問題を解決する。
- HARoPEは，特異値分解(SVD)を用いた学習可能な線形変換を導入することで，動的な周波数再割り当てを可能にする。
- ImageNetおよびテキストから画像生成実験の結果，HARoPEはRoPEの性能を向上させることが示された。
- HARoPEはTransformerベースの画像生成モデルにおける位置認識能力を高める効果的な手法である。
Link: https://arxiv.org/abs/2510.10489
DriveCritic：ビジョン言語モデルによる文脈を意識した，人間との整合性の高い自動運転評価へ [cs.NI, cs.SY, eess.SY, cs.CV, cs.AI, cs.RO]目的：自動運転プランナーの人間判断との整合性評価
- 自動運転技術の安全性向上には，人間らしい運転行動の評価が不可欠である。
- 既存の評価指標は，複雑な状況における文脈を考慮できず，評価精度が課題である。
- 文脈を考慮した，人間との整合性の高い自動運転評価フレームワークの構築。
- DriveCriticは，人間が判断の難しい状況を収集したデータセットと，それらを評価するビジョン言語モデルで構成される。
- モデルは，視覚情報と状況情報を統合することで，より人間らしい評価が可能となる。
- 実験の結果，DriveCriticは既存の指標やベースラインを大幅に上回り，人間の選好と高い一致性を示した。
Link: https://arxiv.org/abs/2510.13108
3次元で考える：限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的：限られた視点からの3次元空間推論における幾何学的想像力の活用
- 画像と言語を組み合わせるマルチモーダルAIの発展は目覚ましいが，3次元空間の理解は依然として課題である。
- 既存手法はテキストや2次元視覚情報に依存し，3次元空間推論に必要な表現力に限界がある。
- 3次元の事前知識やラベルなしで，画像から3次元的な思考を可能にし，空間推論の精度向上を目指す。
- 提案手法3DThinkerは，VLMで推論する際に画像内に埋め込まれた幾何学的情報を活用する。
- 3DThinkerは，3次元の事前情報やラベル付きデータなしで3次元的な思考を可能にする初のフレームワークである。
- 複数のベンチマークにおいて，既存手法を上回り，マルチモーダル推論における3次元表現の統合に新たな視点を提供する。
Link: https://arxiv.org/abs/2510.18632
メモリ節約以上の効果：ゼロ次最適化は継続学習における忘却を軽減する [cs.LG, cs.CV]目的：継続学習における忘却軽減策
- AIモデルの継続学習は，人間のように新しい知識を継続的に獲得する上で重要である。
- 継続学習では，過去の知識を保持しつつ新しい知識を獲得することが困難である。
- ゼロ次最適化の安定性に着目し，効率的な継続学習手法を開発する。
- ゼロ次最適化は，より平坦な損失地形を生み出し，継続学習における忘却を減少させる。
- しかし，精度が低く収束が遅いため，新しいタスク固有の知識の獲得には不利な面がある。
- 提案手法 ZO-FC は，ゼロ次最適化と一階最適化の利点を組み合わせ，メモリ効率の良い継続学習を実現する。
Link: https://arxiv.org/abs/2510.21019
See4D：自己回帰的ビデオインペイントによる姿勢不要の4D生成 [cs.CL, cs.CV, cs.GR]目的：カジュアルな動画からの4Dコンテンツ合成
- 没入型アプリケーションの発展には，3D情報なしでの4Dコンテンツ生成が不可欠である。
- 既存手法はカメラ姿勢の注釈に依存し，自然な映像への応用が困難である。
- カメラ姿勢の推定なしに，多様な視点からの4Dシーン生成を可能にする。
- See4Dは，明示的な軌跡予測の代わりに仮想カメラバンクへのレンダリングを用いることで，カメラ制御とシーンモデリングを分離する。
- ビュー条件付きビデオインペイントモデルは，合成された歪み画像をノイズ除去することでロバストな幾何学的事前知識を学習し，欠落領域を補完する。
- 仮想カメラスプラインを辿る自己回帰的推論パイプラインにより，一貫性のある4D生成を実現し，既存手法を上回る汎化性能を示す。
Link: https://arxiv.org/abs/2510.26796
ジュニアAI科学者とそのリスク報告：基盤論文からの自律的な科学的探求 [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的：AI科学者システムの現状とリスクの理解
- AI技術の科学研究への応用は，研究の効率化や新たな発見の可能性を秘めている。
- 既存のAI科学者システムは，自動化の限界や研究の質，倫理的な問題などが課題となっている。
- 本研究は，AI科学者システムの潜在的なリスクを明らかにし，安全な発展のための指針を示すことを目指す。
- Jr. AI科学者は，既存の論文を分析し，改善のための仮説を立て，実験を繰り返して論文を作成することに成功した。
- 生成された論文は，DeepReviewerによる評価において，既存の完全自動化システムよりも高い評価を得た。
- 著者評価およびAgents4Scienceのレビューからは，AI科学者システムの直接的な応用におけるリスクと今後の課題が明らかになった。
Link: https://arxiv.org/abs/2511.04583
PuzLM：系列対系列言語モデルによるジグソーパズルの解法 [cs.CV]目的：ジグソーパズルの解法
- 画像認識技術の発展は，視覚情報を理解し活用する上で不可欠である。
- 従来の解法は，画像の一致に依存するため，境界が不明瞭なパズルには弱い。
- 記号的な推論を用いることで，境界の曖昧なパズルにも対応可能にする。
- 本研究では，パズルを系列対系列問題として捉え，言語モデルを適用するPuzLMを提案する。
- 各ピースを離散的なトークン系列に変換することで，記号的な推論を可能にした。
- 境界が欠損したパズルやピースが欠けたパズルに対しても，従来法を上回る性能を達成した。
Link: https://arxiv.org/abs/2511.06315
不正なモデル結合に対する二段階の重み保護 [cs.CV, cs.CR]目的：不正なモデル結合の防御
- 事前学習済みモデルの普及により，モデルの結合が容易になったが，知的財産権侵害のリスクがある。
- ファインチューニングされたモデルの無許可結合は，モデル所有権と責任を損なう問題がある。
- モデルのパラメータ形状を変化させ，結合されたモデルの精度を低下させつつ，保護されたモデルの性能を維持する。
- 提案手法MergeGuardは，二段階の重み保護により，モデルの結合適合性を阻害し，タスク忠実性を維持する。
- 第1段階では，L2正則化最適化によりタスク関連情報を層間に再分散し，重要な勾配を均等に分散させる。
- 実験の結果，MergeGuardは結合モデルの精度を最大90%削減し，保護されたモデルの性能損失は1.5%未満に抑えられた。
Link: https://arxiv.org/abs/2511.11851
DeepSport：エージェント的強化学習による包括的なスポーツビデオ推論のためのマルチモーダル大規模言語モデル [cs.SI, cs.CV, cs.AI]目的：多種多様なスポーツビデオの理解
- スポーツビデオ分析は，高度な認識技術を必要とし，スポーツ科学やエンターテインメント分野で重要である。
- 既存のモデルは特定のスポーツやタスクに限定され，汎用的な理解が課題であった。
- 多様なスポーツに対応可能な，汎用性の高いビデオ理解モデルの構築を目指す。
- DeepSportは，多数のスポーツとタスクに対応した初の端点間学習型マルチモーダル大規模言語モデルである。
- フレームの動的な抽出により「ビデオ思考」を実現し，強力な既存モデルを凌駕する性能を示した。
- 未学習のスポーツへの高い転移性と，効率的なビデオ推論能力を確立した。
Link: https://arxiv.org/abs/2511.12908
ハルシネーションに強い動画理解のための知覚と推論の分離 [cs.CV]目的：動画におけるハルシネーション（誤った内容の生成）を抑制するための知覚と推論の分離手法
- 動画理解は，多様な応用分野で重要であり，その性能向上は社会的なニーズに応える。
- 大規模言語モデルでは，正確な動画知覚が不可欠だが，知覚と推論が混在し，知覚過程の直接的な監督が困難である。
- 知覚と推論を分離し，知覚の検証を可能にすることで，より信頼性の高い動画理解を目指す。
- 提案手法DPLは，固定フォーマットの証拠単位を用いて知覚を構造化し，動画セグメントと報酬評価の整合性を高める。
- 知覚報酬を用いることで，ハルシネーション耐性と知覚に基づく推論を促進し，3Bおよび7Bスケールで性能が向上する。
- Factual-Aware Evaluator (FAE) はGPT-4oと同等のハルシネーション評価性能を示し，高いデータ効率を実現する。
Link: https://arxiv.org/abs/2511.18463
具現化されたエージェントのための，詳細な行動に関する認知的なベンチマーク [cs.CV, cs.RO]目的：具現化されたエージェントにおける詳細な行動能力の認知的な評価
- ロボット工学やAIにおいて，現実世界での物理的なインタラクションは重要な課題である。
- 既存のベンチマークは，高レベルな計画や空間認識に偏っており，詳細な行動知能の評価が不十分である。
- 詳細な行動能力を評価する新たなベンチマークを開発し，エージェントの物理的インタラクション能力を向上させる。
- 新たなベンチマークCFG-Benchを構築し，物理的インタラクション，時間的因果関係，意図理解，評価判断の4つの認知能力を評価した。
- 既存のMLLMは，詳細な物理的インタラクション指示の生成や，意図と評価に関する高度な推論に課題があることが明らかになった。
- CFG-Benchデータを用いたSFTにより，MLLMの性能が向上し，詳細な行動の記述が既存のベンチマークにおける性能向上に繋がることが示された。
Link: https://arxiv.org/abs/2511.18685
3D血管樹の中心線抽出のための，合流軌跡の反復的洗練：RefTr [cs.CV, cs.AI, cs.LG]目的：3D血管樹の中心線抽出の精度向上
- 血管や気管支などの管状構造は，診断，治療計画，手術ナビゲーションにおいて重要である。
- 中心線抽出において，小さな分岐を見逃すと，評価の不備や異常の見落としにつながる可能性がある。
- 合流軌跡の反復的洗練により，正確なトポロジーを維持しつつ，中心線抽出の精度を高めることを目指す。
- RefTrは，TransformerベースのProducer-Refinerアーキテクチャを採用し，候補軌跡を反復的に洗練する。
- 合流軌跡表現により，分岐全体の洗練が可能となり，パラメータ数を2.4倍削減することに成功した。
- 複数の公開データセットにおいて，全体的な性能向上，高速な推論，およびパラメータ数の大幅な削減が示された。
Link: https://arxiv.org/abs/2511.20823
MedEyes：医学的進行診断のための動的視覚焦点学習 [cs.CV, cs.AI]目的：医学的進行診断における動的視覚焦点の学習
- 医学診断の精度向上は，医療の質を向上させる上で不可欠である。
- 既存のビジョン言語モデルは，臨床的に不正確な推論経路を強化する傾向がある。
- 臨床医の視覚探索を模倣し，より信頼性の高い診断AIシステムを構築すること。
- MedEyesは，臨床医の診断推論を模倣する新しい強化学習フレームワークである。
- 専門家の視覚探索軌跡を外部シグナルに変換し，臨床的に整合性の高い視覚推論を誘導する。
- 複数の医学的VQAベンチマークにおいて，平均パフォーマンスが+8.5pp向上し，有効性が確認された。
Link: https://arxiv.org/abs/2511.22018
スケルトンベース行動認識のためのエージェント的インタラクションフレームワーク: SkeletonAgent [cs.CV]目的：スケルトンベース行動認識における認識モデルと大規模言語モデル間の協調的インタラクション
- 近年，スケルトンデータを用いた行動認識は，その効率性から注目を集めている。
- 大規模言語モデルを活用する際，認識モデルへのフィードバックが不足し，識別力の高い手がかりが得られない。
- 認識モデルと大規模言語モデルの協調により，より的確な識別を実現することを目指す。
- SkeletonAgentは，質問者エージェントと選択者エージェントという二つの協調エージェントを導入することで，大規模言語モデルと認識モデル間の連携を強化する。
- 質問者エージェントは混同しやすいクラスを特定し，大規模言語モデルに提供することで，より焦点を絞ったガイダンスを可能にする。
- 実験の結果，SkeletonAgentは五つのベンチマークにおいて，最先端手法を凌駕する性能を示した。
Link: https://arxiv.org/abs/2511.22433
専用プロンプトガイダンスによるビジョン言語モデルの汎化 [cs.CV]目的：ビジョン言語モデルのドメイン汎化能力の向上
- 視覚と言語を組み合わせたモデルは，多様なタスクに応用可能であり，AI研究において重要である。
- 既存手法では，特定のドメインへの適応と未知ドメインへの汎化能力の両立が課題となっている。
- ドメインに特化した専門家モデル群を活用し，汎化性能の向上を目指す。
- 提案手法GuiDGは，プロンプトチューニングでドメイン専門家を獲得し，クロスモーダルAttentionで画像エンコーダを誘導する。
- ImageNet-DGなどのベンチマークにおいて，最先端のファインチューニング手法を上回り，効率性を維持している。
- 理論的な考察により，複数の専門家モデルが汎化性能向上に寄与することが示されている。
Link: https://arxiv.org/abs/2512.02421
生体インピーダンスセンシングによる人体ポーズ擬似グランドトゥルースの接触認識による改良 [cs.CV]目的：3D人体ポーズ推定の精度向上
- 現実環境における正確な3D人体ポーズ捕捉は，ポーズ推定やモーション生成の学習データとして不可欠である。
- ビデオベースの手法は自己接触時（例：手で顔を触る）に精度が低下する課題がある。
- 生体インピーダンスセンシングを活用し，自己接触を考慮した3D人体ポーズ推定を実現する。
- 提案手法BioTUCHは，既存のポーズ推定器と生体インピーダンスセンシングを組み合わせ，自己接触を考慮した3Dポーズ推定を行う。
- 自己接触時に頂点近接制約を課す接触認識ポーズ最適化により，再投影誤差と推定値からの偏差を最小化する。
- RGBビデオ，生体インピーダンス，3Dモーションキャプチャの同期データセットを用いた検証で，平均11.7%の再構成精度向上を確認した。
Link: https://arxiv.org/abs/2512.04862
LoC-Path：病理マルチモーダル大規模言語モデルのための圧縮学習 [cs.CV]目的：病理マルチモーダル大規模言語モデルの効率的な圧縮手法
- 病理画像診断の精度向上に，大規模言語モデルの活用が期待されている。
- ギガピクセル画像による大量の視覚トークンが，モデル構築とデプロイの課題となっている。
- 視覚情報の冗長性を利用し，計算資源の制約下でも実用的なモデル構築を目指す。
- LoC-Pathは，Sparse Token MergerとMAE事前学習済みのリサンプラーを用いて，高コストなスライドレベルエンコーディングをコンパクトな潜在インターフェースに置き換える。
- Token Importance ScorerとCross-Attention Routing Adapterにより，関連性の高い潜在情報を選択し，LLMデコーダー層に効率的に融合する。
- 実験により，LoC-Pathが既存モデルと同等の性能を維持しつつ，開発・デプロイコストを削減することが示された。
Link: https://arxiv.org/abs/2512.05391
SDUM：普遍的なMRI再構成のためのスケーラブルな深層アンロールモデル [cs.CV, cs.AI]目的：多様なMRIプロトコルに対応可能な普遍的な再構成手法の開発
- 臨床MRIは多様なプロトコルを包含し，医療現場でのニーズが高い。
- 既存の深層学習再構成はプロトコル特化型であり，汎用性に課題がある。
- 多様なMRIデータに対して単一モデルで高性能な再構成を実現すること。
- SDUMは，パラメータ数と再構成品質に強い相関関係(r=0.986)を示すスケーラブルな深層学習モデルである。
- 多様なデータセットで学習したSDUMは，CMRxRecon2025の全トラックで最先端の結果を達成し，既存手法を上回る性能を示した。
- 各コンポーネントの検証により，提案手法の有効性が確認された(SWDC:+0.43dB, CSME:+0.51dB, UC:+0.38dB)。
Link: https://arxiv.org/abs/2512.17137
KnowVal：知識拡張および価値誘導型自律運転システム [cs.RO, cs.AI, cs.CV]目的：知識拡張と価値誘導による自律運転システムの開発
- 高度な自動運転には，視覚言語推論，運転知識，価値観の整合が不可欠である。
- 既存手法はデータ駆動型であり，意思決定の根底にある複雑な論理を捉えにくい。
- 本研究は，知識グラフとLLMを活用し，より安全で倫理的な運転計画を目指す。
- 提案手法KnowValは，既存のアーキテクチャと互換性を保ちつつ，運転計画の性能を大幅に向上させた。
- nuScenesにおいて最低の衝突率を達成し，Bench2DriveとNVISIMでも最先端の結果を示した。
- 知識グラフと価値モデルを組み合わせることで，解釈可能で価値観に沿った軌道評価を実現した。
Link: https://arxiv.org/abs/2512.20299
ShinyNeRF：ニューラル放射場における異方性外観のデジタル化 [cs.CV, cs.GR]目的：ニューラル放射場における異方性外観のデジタル化手法
- 文化遺産の保存・伝搬においてデジタル技術の重要性が増している。3Dデジタル化はリアリズム追求の鍵となる。
- 従来のニューラル放射場は，磨き金属に見られる異方性反射の正確なモデリングが困難であった。
- 異方性反射を扱うための新しいフレームワークを提案し，材質特性の編集可能性向上を目指す。
- ShinyNeRFは，等方性と異方性の両方の反射を扱える新しいフレームワークである。
- 表面法線，接線，鏡面集中度，異方性強度を推定し，異方性球状ガウス分布を近似する。
- 実験結果から，ShinyNeRFは異方性反射のデジタル化において最先端の性能を示し，物理的に妥当な解釈と材質編集を可能にする。
Link: https://arxiv.org/abs/2512.21692
隙間を気にせず：解像度非依存型網膜OCT解析のための暗黙的ニューラル表現 [cs.DC, cs.NI, cs.CL, cs.CV]目的：網膜OCT画像の解像度非依存な解析手法の開発
- 網膜OCTは臨床的に重要であり，眼疾患の診断や治療に不可欠な情報を提供する。
- 従来のOCT画像は間隔が粗く，異方性があり，ボリューム解析が困難である。
- 暗黙的ニューラル表現を用いて，解像度や間隔に依存しない解析を実現する。
- 暗黙的ニューラル表現と，エン面モダリティからの情報を組み合わせることで，Bスキャン間の補間を可能にした。
- 解像度に依存しない網膜アトラスを構築し，様々なデータに対して汎用的な解析を可能にした。
- これらの手法により，粗いBスキャン間隔のOCT画像解析が可能となり，網膜構造のボリューム評価への道が開かれた。
Link: https://arxiv.org/abs/2601.02447
LLMTrack：マルチモーダル大規模言語モデルによるセマンティック多物体追跡 [cs.CL, cs.CL, cs.CV, cs.AI]目的：セマンティック多物体追跡における新しいフレームワークの提案
- ビデオ理解において，単なる物体検出から，物体間の関係性を理解するセマンティック追跡へのニーズが高まっている。
- セマンティックデータの不足と，追跡アーキテクチャとマルチモーダル大規模言語モデル間の構造的な乖離が課題となっている。
- 大規模なデータセットとフレームワークを用いて，セマンティック追跡と認知的な推論のギャップを埋めることを目指す。
- LLMTrackは，幾何学的追跡性能において最先端の結果を達成し，動的なセマンティック推論において飛躍的な進歩を示した。
- 高品質なセマンティック記述が言語モデルに複雑な社会的相互作用を自然に推論させることを明らかにした。
- 知覚的な追跡と認知的な推論の架け橋となり，包括的なビデオ理解とインテリジェントな物語生成の新たな基盤を確立した。
Link: https://arxiv.org/abs/2601.06550
ReViP：視覚-固有受容性再均衡による視覚言語行動モデルにおける誤完了の緩和 [eess.SY, cs.SY, cs.RO, cs.CV]目的：視覚言語行動モデルにおける誤完了の緩和
- ロボットのタスク遂行能力向上には，視覚，言語，固有受容性を統合したモデルが不可欠である。
- 既存手法では，固有受容性情報を過度に依存し，視覚的な失敗が見過ごされる誤完了が発生しやすい。
- 本研究は，視覚と固有受容性のバランスを調整し，誤完了を抑制することを目的とする。
- 提案手法ReViPは，タスク進行状況を考慮した視覚的手がかりを活用し，環境認識能力を高める。
- 誤完了の評価ベンチマークスイートを新たに構築し，多様な摂動下でのロバスト性を検証した。
- 実験結果から，ReViPは既存のVLAモデルと比較して，誤完了を大幅に抑制し，成功率を26%向上させた。
Link: https://arxiv.org/abs/2601.16667
LLMベースの音声認識におけるテキストノイズ除去を通じたテキストのみの適応 [cs.CL, cs.HC, cs.SD, cs.CL, cs.LG, eess.AS]目的：LLMベースの音声認識システムへのテキストのみの適応
- 音声認識は，人間と機械のコミュニケーションにおいて重要な役割を担う技術である。
- LLMを新たなドメインに適応させる際，音声とテキストの整合性が損なわれやすい。
- テキストのみで効率的に適応させつつ，音声とテキストの整合性を維持すること。
- 提案手法は，テキストノイズ除去というタスクとしてテキストのみの適応を捉えることで，ドメイン適応とモダリティ整合性の維持を両立する。
- 本手法は，アーキテクチャ変更や追加パラメータを必要としない軽量なアプローチである。
- 2つのデータセットによる評価で，最新のテキストのみ適応手法を最大22.1%上回る相対的な性能向上を実証した。
Link: https://arxiv.org/abs/2601.20900
トレーニング不要なゼロショット合成画像検索のためのパラコズム生成 [cs.CV]目的：ゼロショット合成画像検索における性能向上
- 画像検索は，多様な情報を統合し，より高度な検索機能を提供する必要がある。
- 既存手法は，曖昧な指示から画像を生成する際に，精度と現実感のギャップが存在する。
- 指示に基づいて「心像」を直接生成し，現実画像とのマッチング精度を向上させる。
- 提案手法Paracosmは，大規模マルチモーダルモデルを用いて「心像」を生成し，合成画像と現実画像のギャップを埋める。
- Paracosmは，既存のゼロショット手法と比較して，困難なベンチマークにおいて大幅な性能向上を達成した。
- トレーニングを必要とせず，ゼロショットでの合成画像検索において最先端の性能を示す。
Link: https://arxiv.org/abs/2602.00813
MedMO：医療画像に対するマルチモーダル大規模言語モデルの基盤と理解 [cs.CV]目的：医療画像におけるマルチモーダル大規模言語モデルの基盤モデルの構築
- 医療分野におけるAI応用の重要性が高まっており，画像とテキストを統合したモデルが求められている。
- 既存のマルチモーダル大規模言語モデルは，医療分野の知識や画像とテキストの整合性に課題があった。
- 医療画像とテキストの理解を深め，より正確な診断や治療支援を実現することを目指す。
- MedMOは，医療画像に関するVQAベンチマークにおいて，既存のオープンソースモデルを平均6.6%上回る性能を示した。
- テキストベースのQAにおいても，MMLU-Medで8.4%，MedQAで30.1%と大幅な改善が見られた。
- 細菌画像の局所化性能では，既存モデルと比較して47.8 IoUの改善を達成し，空間的な根拠付け能力の向上を示した。
Link: https://arxiv.org/abs/2602.06965
アテンションベースの疎なマッチングの理解と多様な局所特徴のための最適化 [cs.CV]目的：アテンションベースの疎な画像マッチングモデルの学習
- 画像処理において，局所特徴は物体認識やシーン理解に不可欠である。
- 既存のマッチングモデルは，特定の検出器に依存し，汎用性に欠ける場合がある。
- 多様な検出器からのキーポイントを用いたモデルのファインチューニングによる汎用性向上。
- アテンションベースの疎なマッチングにおいて，検出器が性能差の主な原因であることが判明した。
- 多様な検出器のキーポイントでファインチューニングすることで，検出器に依存しない汎用モデルが実現可能となった。
- 提案手法は，新規検出器に対して高い精度を達成し，特定のフィーチャ向けモデルと同等以上の性能を示す。
Link: https://arxiv.org/abs/2602.08430
成長の流れに乗って：ガウスフロー場を用いた成長植物の4D再構成 [cs.IR, cs.CV]目的：成長植物の4D再構成手法
- 植物成長のモデル化は，生物学研究やデジタル農業において重要である。
- 既存の動的シーン表現では，植物の継続的な形状変化を正確に捉えることが困難である。
- 植物の成長を連続的なフロー場としてモデル化し，時間的な一貫性を確保することを目指す。
- GrowFlowは，3Dガウス素子とニューラル常微分方程式を組み合わせることで，植物の成長をモデル化する。
- 本手法は，画像品質と幾何学的整合性において，既存手法よりも優れた性能を発揮する。
- 植物の成長過程を逆方向にシミュレーションすることで，十分な数のガウス素子を初期化する。
Link: https://arxiv.org/abs/2602.08958
Embed-RL：推論駆動型マルチモーダル埋め込みのための強化学習 [cs.CV]目的：推論駆動型マルチモーダル埋め込みの最適化
- 多様なクロスモーダルタスクにおいて，マルチモーダル大規模言語モデル(MLLM)の活用が重要となっている。
- 既存の生成埋め込み方法は，生成された推論連鎖(CoT)がクエリのテキスト分析に限定され，ターゲット検索には無関係である。
- 埋め込みタスクに合致した証拠に基づいた推論連鎖(T-CoT)生成を可能にする。
- 埋め込み器による明示的な監督を通じて推論器を最適化するEG-RLフレームワークを設計した。
- 検索に関連する要素に焦点を当て，埋め込み器へのマルチモーダル入力を提供するT-CoTを導入した。
- 限られた計算資源で，既存の埋め込みモデルをMMEB-V2およびUVRBベンチマークで上回る性能を達成した。
Link: https://arxiv.org/abs/2602.13823
GOT-JEPA：Joint-Embedding Predictive Architectureを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.NI, cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的：汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
- 視覚システムは過去の情報と現在の観察を統合し，変化に適応する。追跡技術の高度化は，自動運転やロボティクスなどの応用において重要である。
- 既存の追跡器は訓練データに偏り，未知の状況での頑健性や汎化性能が低い。また，オクルージョンに対する認識が粗く，詳細なモデリングが不足している。
- GOT-JEPAは，予測アーキテクチャを用いて追跡モデルを学習し，汎化性能とオクルージョン認識の改善を目指す。
- GOT-JEPAは，教師予測器と生徒予測器を用いて，ノイズの多い画像から信頼性の高い追跡モデルを予測する。
- OccuSolverは，点中心のポイントトラッカーを適応させ，オブジェクトの可視性推定とオクルージョンパターンの詳細な捕捉を強化する。
- 7つのベンチマークにおける評価により，提案手法が追跡器の汎化性能と頑健性を効果的に向上させることが示された。
Link: https://arxiv.org/abs/2602.14771
ビデオに基づく多Modal人物認識のための，RLベースのコストを考慮した選択エージェントIDSelect [cs.CL, cs.CV]目的：ビデオに基づく人物認識における，精度と効率のトレードオフ最適化
- 人物認識は，セキュリティや監視など様々な分野で重要な役割を担っている。
- 既存システムは，入力の複雑さに応じて処理を変えておらず，計算資源が無駄になっている。
- 入力に応じて最適なモデルを選択し，計算資源の効率化を図る。
- IDSelectは，既存の強化学習手法を用いて，各モダリティごとに最適な事前学習済みモデルを選択する。
- CCVIDデータセットにおいて，95.9%のRank-1精度を達成し，計算量を92.4%削減，ベースラインよりも1.8%精度が向上。
- MEVIDデータセットでは，計算量を41.3%削減しつつ，競争力のある性能を維持。
Link: https://arxiv.org/abs/2602.18990
SIMSPINE：3D脊椎モーションアノテーションとベンチマークのための生体力学を意識したシミュレーションフレームワーク [cs.CV]目的：3D脊椎モーションのアノテーションとベンチマークのための生体力学を意識したシミュレーションフレームワークの提供
- 人体の生体力学理解には脊椎モーションのモデル化が不可欠である。しかし，その複雑さからコンピュータービジョン分野での研究は十分に進んでいない。
- 大規模な3Dアノテーションの不足が，脊椎の複雑な多関節運動学的特徴を捉えたコンピュータービジョン研究の障壁となっている。
- 本研究は，筋骨格モデルに基づくアノテーションを用いて，データ駆動型の脊椎運動学学習を可能にし，シミュレーションとコンピュータービジョンのギャップを埋めることを目指す。
- 新たに構築したSIMSPINEデータセットは，屋内マルチカメラキャプチャにおける自然な全身運動の脊椎レベル3Dアノテーションを214万フレーム分提供する。
- 2D脊椎検出器のベースラインは，制御環境下でAUCを0.63から0.80に，ワイルドな環境下でのAPを0.91から0.93に向上させた。
- 本フレームワークとデータセットは，再現可能で解剖学的に根拠のある3D脊椎推定を自然な条件下で実現し，バイオメカニクス，モーション解析，デジタルヒューマンモデリングの研究を促進する。
Link: https://arxiv.org/abs/2602.20792
ECHOSAT：時空間における樹高推定 [cs.CV, cs.AI, cs.LG]目的：時空間における樹高マップの作成
- 気候変動対策において森林モニタリングは不可欠である。森林資源の把握は炭素収支計算に重要。
- 既存の樹高マップは静的なスナップショットであり，時間的な森林動態を捉えられていない。
- 時間経過に伴う樹木の成長と擾乱を正確に定量化する初のグローバル規模マップの提供。
- ECHOSATは，複数年にわたる10m分解能の，時間的に一貫したグローバル樹高マップである。
- マルチセンサー衛星データとビジョントランスフォーマーモデルを活用し，単年予測において最先端の精度を向上させた。
- 自己教師あり学習による成長損失関数が，樹木の自然な成長曲線に沿った予測を可能にした。
Link: https://arxiv.org/abs/2602.21421
ProtoDCS：ビジョン言語モデルのロバストかつ効率的なテスト時適応に向けたオープンセットアプローチ [cs.CL, cs.IR, cs.CV, cs.AI]目的：ビジョン言語モデルにおける，分布シフトへの対処
- 現実世界での応用において，分布シフトへの対応は重要な課題である。
- 既存のテスト時適応手法は，未知のデータに対応できないという問題がある。
- 本研究は，未知のデータと既知のデータの識別を両立し，効率的な適応を可能にする。
- 提案手法ProtoDCSは，確率的ガウス混合モデルを用いた二段階チェック機構により，曖昧な未知データを正確に識別する。
- 不確実性を考慮した損失関数とプロトタイプレベルの更新により，過信を抑制し，計算コストを削減する。
- CIFAR-10/100-CおよびTiny-ImageNet-Cにおける実験で，ProtoDCSは最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.23653
ジオメトリを意識した拡散による4Dヘッドアバター再構成: GeoDiff4D [cs.CV]目的：4Dヘッドアバターの再構成
- 近年，メタバース等での利用拡大に伴い，リアルなアバター生成技術の重要性が高まっている。
- 既存手法は2D情報に依存する傾向が強く，一貫した3D形状の確保が課題となっていた。
- 本研究では，ジオメトリ情報を活用した拡散モデルにより，高精度な形状を持つアバターの再構成を目指す。
- 提案手法は，画像と法線ベクトルを同時に合成し，正確な形状を3D Gaussianで表現する。
- 実験の結果，既存手法と比較して，視覚的品質，表情の再現性，汎化性能において大幅な改善が見られた。
- さらに，リアルタイムレンダリングにも対応可能である。
Link: https://arxiv.org/abs/2602.24161
FastLightGen：より少ないステップとパラメータによる高速かつ軽量な動画生成 [cs.CV]目的：高速かつ軽量な動画生成モデルの実現
- 動画生成技術は新たな時代を迎え，その応用範囲は広い。
- 既存モデルは計算コストが高く，実用化の妨げとなっている。
- モデルサイズと推論ステップの両方を圧縮する手法の確立。
- FastLightGenは，大規模モデルを高速かつ軽量なモデルに変換するアルゴリズムである。
- HunyuanVideo-ATI2VとWanX-TI2Vでの実験により，4ステップサンプリングと30%のパラメータ削減が最適な品質を達成することが示された。
- FastLightGenは既存手法を上回り，効率的な動画生成において最先端の性能を確立した。
Link: https://arxiv.org/abs/2603.01685
LaST-VLA：潜在的な空間・時間的空間におけるビジョン・言語・行動 [cs.CV]目的：自動運転におけるビジョン・言語・行動モデルの潜在的な空間・時間的推論
- 自動運転の安全性を高めるには，知覚と計画の統合が不可欠である。
- 既存のモデルは，明示的なテキストに依存し，知覚と意味の乖離や，記号的衝突の問題がある。
- 物理法則に基づいた潜在的な空間・時間的推論により，より安全でロバストな自動運転を実現すること。
- LaST-VLAは，離散的な記号処理から物理的に基づいた潜在空間への推論パラダイムシフトを実現した。
- 3Dモデルとワールドモデルからの幾何学的制約と動的な予測を潜在空間に組み込むことで，性能を向上させた。
- NAVSIM v1とv2，SURDS，NuDynamicsのベンチマークで，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.01928
Minecraft用キャラクターからスキンへの変換パイプライン：オープンソースの二段階方式BLOCK [cs.CV, cs.AI]目的：Minecraftスキン生成のための，キャラクターコンセプトから高品質スキンを生成する二段階パイプライン
- Minecraftは世界的に人気があり，キャラクター表現の多様性が重要である。
- 既存の手法では，高品質かつ一貫性のあるスキン生成が困難であった。
- 多様なキャラクターコンセプトから，自動で高品質なMinecraftスキンを生成すること。
- BLOCKは，大規模マルチモーダルモデル(MLLM)を活用した3Dプレビュー生成と，微調整されたFLUX.2モデルによるスキンデコードの二段階構成である。
- EvolveLoRAというプログレッシブLoRAカリキュラムを導入し，各段階の安定性と効率を向上させている。
- 全てのプロンプトテンプレートと微調整済みウェイトを公開し，再現性を確保している。
Link: https://arxiv.org/abs/2603.03964
意味拡張動的コントラスト相互作用による高度に転移可能な視覚言語攻撃 [cs.CV]目的：視覚言語モデルに対する転移可能な敵対的攻撃手法の開発
- 視覚言語事前学習モデルの応用が拡大する中で，その脆弱性への対策が重要となっている。
- 既存の攻撃手法は静的な相互作用に依存し，正の画像テキストペアのみを破壊するため，転移性が低い。
- 動的な相互作用と意味的誘導による摂動を通じて，敵対的攻撃の転移性を向上させることを目指す。
- 提案手法SADCAは，敵対的画像とテキスト間のクロスモーダルアライメントを段階的に破壊する。
- SADCAは，敵対的，正，負のサンプルを用いたコントラスト学習により，摂動のセマンティックな不整合を強化する。
- 実験の結果，SADCAは敵対的転移性を大幅に向上させ，最先端手法を上回ることが示された。
Link: https://arxiv.org/abs/2603.04839
マルチパラダイム協調的敵対攻撃：マルチモーダル大規模言語モデルに対する [cs.CV]目的：マルチモーダル大規模言語モデルに対する敵対的攻撃の転移性を高めること
- マルチモーダル大規模言語モデルは様々な応用を促進するが，セキュリティ上の脆弱性が懸念される
- 既存の攻撃手法は単一の学習パラダイムに依存し，特徴空間が限定的で多様な摂動が困難である
- 複数のパラダイムを協調的に最適化し，特徴表現の偏りを軽減することで，攻撃の転移性を向上させる
- 本研究で提案するMPCAttackは，画像とテキストの表現を統合し，共同最適化戦略を用いる
- コントラストマッチングにより，異なるパラダイムの重要度を適応的に調整し，グローバルな摂動最適化を誘導する
- 複数のベンチマークにおいて，MPCAttackは最先端手法を凌駕し，優れた攻撃性能を示した
Link: https://arxiv.org/abs/2603.04846
JOPP-3D：点群とパノラマの共同オープンボキャブラリセマンティックセグメンテーション [cs.CV]目的：点群とパノラマのセマンティックセグメンテーション
- 3次元シーン理解は，ロボティクスや自動運転などの分野で不可欠である。
- アノテーションデータが不足しており，固定ラベルモデルの適応性が低いという課題がある。
- 言語による指示に基づき，点群とパノラマの両方でセマンティックセグメンテーションを実現する。
- JOPP-3Dは，パノラマ画像と点群データを共同で活用するオープンボキャブラリセマンティックセグメンテーションフレームワークである。
- Stanford-2D-3D-sとToF-360データセットを用いた実験により，JOPP-3Dがパノラマと3次元ドメインで一貫性のあるセグメンテーションを生成できることが示された。
- 提案手法は，オープンおよびクローズドボキャブラリの2Dおよび3Dセマンティックセグメンテーションにおいて，最先端技術と比較して大幅な改善を達成した。
Link: https://arxiv.org/abs/2603.06168
条件付き不均衡最適輸送写像：外れ値に頑健な条件付き生成モデリングの枠組み [cs.LG, cs.CV]目的：条件付き生成モデリングにおける外れ値への頑健性
- 確率分布間の効率的な写像構築は，生成モデリング等の様々な応用において重要である。
- 従来の条件付き最適輸送は，外れ値に弱く，限られたデータからの分布推定において問題となる。
- 外れ値に対する頑健性を向上させつつ，分布の一致性能を維持することが課題である。
- 提案手法であるCUOTMは，従来のCOTベースの手法と比較して，外れ値に対する頑健性に優れることが実験的に示された。
- CUOTMは，分布の一致性能においても競争力があり，高いサンプリング効率を維持している。
- Csisz\'arダイバージェンスによるペナルティ項を導入することで，条件付き分布の一致制約を緩和し，条件付き周辺分布は厳密に保持される。
Link: https://arxiv.org/abs/2603.06972