arXiv雑要約

画像・音声 - 2026/03/25 公開

創始者効果がオープンLLMファミリーにおける多様性の進化ダイナミクスを形作る [cs.CV, cs.AI, cs.CL]目的：オープンLLMファミリーにおける多様性の進化とその伝播の定量化
- 大規模言語モデルは急速に進化しており，その能力向上は重要である。特に，マルチモーダルな能力の進化は注目されている。
- オープンLLMファミリーにおけるマルチモーダル能力の出現と伝播の速さ，メカニズムは不明であった。
- オープンLLMファミリーにおけるマルチモーダル能力の導入経路と進化パターンを明らかにすること。
- マルチモーダルなタスクは，主要なオープンLLMファミリーよりも広範なエコシステムで普及していることが判明した。
- LLMファミリー内では，2024年から2025年にかけてマルチモーダル性が急増し，特に画像とテキストの処理能力が中心であった。
- マルチモーダル性は，既存のVLM系統内で主に拡大しており，創始者効果による迅速な増幅と多様化が見られた。
Link: https://arxiv.org/abs/2603.22287
ST-GDance++：長尺グループ振り付けのためのスケーラブルな空間-時間拡散モデル [cs.LG, cs.AI, cs.CV, cs.SD]目的：音楽に合わせた複数人のダンス生成
- 映画製作，ゲーム，アニメーションなどへの応用が期待される分野であり，重要性が高い。
- 双方向アテンション依存性により，インタラクティブな場面での利用が困難である。
- 空間-時間依存性の分離により，効率的かつ衝突を回避したグループ振り付け生成を目指す。
- ST-GDance++は，既存手法と比較して大幅な低遅延で，競争力のある生成品質を達成した。
- 空間モデリングに軽量な距離認識グラフ畳み込み層を導入し，計算コストを削減した。
- 時間モデリングに拡散ノイズスケジューリング戦略と効率的な時間整合アテンションマスクを設計し，ストリーミング生成を可能にした。
Link: https://arxiv.org/abs/2603.22316
指示から支援へ：マルチモーダルLLMの評価のための組立マニュアルと組立ビデオを対応付けるデータセット [cs.CV, cs.AI, cs.CL]目的：マルチモーダルLLMの技術タスク支援能力の評価
- LLMの進化により，AIは複雑な現実世界のタスクを支援可能になり，マルチモーダルな研究へと進んでいる。
- LLMベースの支援システムは普及しているが，MLMを活用したリアルタイム支援は未だ発展途上である。
- MLMの技術タスクにおける支援能力を評価し，効率的なアノテーション手法を確立することを目指す。
- 家具の組立に関するデータセット（M2AD）を用いてMLMの性能を評価した結果，手順理解は一部可能であるものの，アーキテクチャやハードウェアに制約があることが示された。
- 詳細なラベル付けの必要性を低減できる可能性が示唆され，効率的なアノテーションの実践に貢献する可能性が示された。
- MLMは組立手順の進行を追跡し，マニュアルのページを参照できるか評価した結果，画像とテキストを組み合わせた推論の重要性が浮き彫りになった。
Link: https://arxiv.org/abs/2603.22321
COMPASS-Hedge：世界を知らずに安全に学習する [cs.LG, cs.GT]目的：敵対的環境と確率的環境における後悔保証のバランスと，固定比較対象に対する基本的な安全性の確保
- オンライン学習は，変化する状況に対応するため不可欠であり，その性能向上は重要な課題である。
- 既存手法は，敵対的，確率的環境，安全性といった要素を同時に満たせず，性能低下や事前知識の必要性がある。
- 敵対的・確率的環境下での最適な後悔保証と，比較対象に対する安全性を同時に実現することを目指す。
- COMPASS-Hedgeは，敵対的環境においてミニマックス最適の後悔を，確率的環境においてインスタンス最適の間隔依存型後悔を達成する。
- また，指定されたベースラインポリシーに対する$\tilde{\mathcal{O}}(1)$の後悔を，対数因子まで保証する。
- 本手法は，環境の性質や確率的劣最適性のギャップに関する事前知識を必要としないことが特徴である。
Link: https://arxiv.org/abs/2603.22348
MCLR：クラス間尤度比最大化によるビジュアル生成モデルにおける条件モデリングの改善と，Classifier-Free GuidanceとAlignment Objectivesの等価性の確立 [cs.LG, cs.AI, cs.CV]目的：ビジュアル生成モデルにおける条件モデリングの改善
- 拡散モデルは生成モデリングにおいて最先端の性能を達成しているが，その成功は推論時のヒューリスティックに依存している。
- 標準的な拡散モデルでは，クラス間の分離が不十分である点が課題となっている。
- 推論時のガイダンスなしで，Classifier-Free Guidanceに匹敵する効果を得られるような学習目的の修正を目指す。
- MCLRは，学習中にクラス間尤度比を明示的に最大化するAlignment Objectiveである。
- MCLRでファインチューニングされたモデルは，標準サンプリング下でCFGと同様の改善を示し，推論時のガイダンスが不要となる。
- Classifier-Free Guidanceによるスコアが，重み付けされたMCLR目的の最適な解と等価であることが理論的に示された。
Link: https://arxiv.org/abs/2603.22364
視覚情報が問題ではない場合：誤解を招くデータ可視化における視覚言語モデルの評価 [cs.CV, cs.AI]目的：誤解を招くデータ可視化の検出能力の評価
- データ可視化は情報伝達に不可欠だが，誤った表現は誤解を招き，誤情報を拡散する可能性がある。
- 既存の視覚言語モデルは図表理解で高い性能を示すものの，微妙な論理的誤りを含む場合に誤解を招く可視化を検出する能力は不明確である。
- 特定の論理的・視覚的誤りタイプの検出能力を評価し，モデルの弱点を明らかにすることを目的とする。
- 多くの視覚言語モデルは，視覚的なデザインエラーよりも，論理に基づいた誤情報の方を検出するのが難しいことが判明した。
- 誤解を招いていない可視化を誤って誤解を招くものと分類する頻度が高い。
- 本研究は，誤解を招くコンテンツの粗い検出と，それを引き起こす具体的な誤りの特定との間のギャップを埋める。
Link: https://arxiv.org/abs/2603.22368
３ステップで全てを創出：あなたは３ステップだけをサンプリングする [cs.LG, cs.AI, cs.CV]目的：拡散モデルにおける高速推論のための手法
- 拡散モデルは高品質な画像生成が可能だが，推論速度が課題となっている。
- ステップ数ごとの条件付けが，少数ステップサンプリングのボトルネックになっている。
- 層依存的なノイズ除去ダイナミクスに着目し，推論速度を向上させる。
- Multi-layer Time Embedding Optimization（MTEO）を提案し，既存の拡散モデルに組み込める。
- MTEOは推論時のオーバーヘッドを増加させず，パラメータの学習量を大幅に削減する。
- 多様なデータセットとバックボーンで最先端の性能を示し，蒸留ベース手法との差を縮小した。
Link: https://arxiv.org/abs/2603.22375
効率的な汎用知覚エンコーダ [cs.CV]目的：多様な下流タスクに対する強力かつ汎用的な表現の獲得
- スマートエッジデバイスでのAI活用は，多様なユーザー体験を可能にする重要な技術である。
- エッジデバイスの計算資源制約下で，複数のタスクを同時に処理できるエンコーダが課題である。
- 複数教師からの知識蒸留により，効率性と汎用性を両立したエンコーダを開発すること。
- EUPEは，多様なタスクにおいて，同サイズの専門家モデルと同等以上の性能を達成した。
- 大規模なプロキシ教師を経由した蒸留が，効率的なエンコーダの性能向上に重要であることが示された。
- EUPEモデルとコードを公開し，今後の研究を促進する予定である。
Link: https://arxiv.org/abs/2603.22387
航空LiDAR点群セマンティックセグメンテーションのための空間認識評価フレームワーク：困難領域における距離ベース指標 [cs.CV]目的：航空LiDAR点群セマンティックセグメンテーションモデルの比較評価
- 航空LiDARデータは，地形モデル等の地空間情報生成に不可欠であり，その精度が重要である。
- 既存の評価指標は空間的な文脈を考慮せず，誤分類の重大さを捉えられないという課題がある。
- 空間的な誤りの影響を考慮し，困難領域におけるモデルの性能差を明確化することを目的とする。
- 提案する距離ベース指標は，従来の指標では見過ごされる空間的な誤差パターンを明らかにできる。
- 困難領域に焦点を当てることで，容易に分類される点群によるバイアスを軽減し，モデルの性能差をより正確に評価できる。
- 本フレームワークは，空間的な一貫性が重要なアプリケーションにおけるモデル選択を支援する。
Link: https://arxiv.org/abs/2603.22420
OsteoFlow：リャプノフ関数に基づくフロー蒸留による下顎再建後の骨リモデリング予測 [cs.CV]目的：下顎再建後の骨リモデリング予測
- 下顎再建後の長期的な骨リモデリング予測は臨床的に重要である。
- 標準的な生成モデルは，長期間にわたる軌道レベルの一貫性と解剖学的正確性を維持することが難しい。
- 長期予測における軌道蒸留の可能性を示す。
- OsteoFlowは，術後5日目のCTスキャンから1年後のCTスキャンを予測するフローベースのフレームワークである。
- リャプノフ関数に基づく軌道蒸留により，幾何学的対応を維持しつつ生成能力を損なわない。
- 手術切除領域における平均絶対誤差を約20％削減し，最先端のベースラインと比較して大幅に性能が向上した。
Link: https://arxiv.org/abs/2603.22421
動的な一人称視点動画からの静的シーン再構成 [cs.CV, cs.GR]目的：動的な一人称視点動画からの静的シーン再構成手法
- AR/VRやロボティクスにおいて，周囲環境の3次元地図作成は重要な技術である。
- 一人称視点動画はカメラの動きが激しく，動的な物体が多いため，正確な3次元再構成が困難である。
- 動的な要素の影響を抑制し，長期的なドリフトを解消することで，より正確な静的シーン再構成を実現する。
- 提案手法は，動的な前景を明示的に抑制するマスク認識再構成メカニズムを導入し，手などのアーチファクトの混入を防ぐ。
- チャンク化された再構成戦略とポーズグラフによる結合により，大域的な一貫性を確保し，長期的なドリフトを除去する。
- HD-EPICおよび屋内ドローンデータセットでの実験により，絶対軌道誤差の大幅な改善と，視覚的にクリーンな静的ジオメトリが得られた。
Link: https://arxiv.org/abs/2603.22450
MinerU-Diffusion：拡散デコーディングによる文書OCRの逆レンダリングとしての再考 [cs.CG, cs.CV]目的：文書OCRにおける逆レンダリングの視点と拡散デコーディングによる高速化
- 文書OCRは，レイアウト，表，数式を含む構造化された文書解析へと進化しており，その重要性は増している。
- 既存のシステムは自己回帰デコーディングに依存しており，長い文書において遅延や誤り伝播が問題となる。
- 自己回帰的生成のアーティファクトを取り除き，視覚的条件付けによる並列拡散ノイズ除去を実現する。
- MinerU-Diffusionは，従来の自己回帰的ベースラインと比較して，最大3.2倍高速なデコーディングを達成する。
- 安定した学習と効率的な長系列推論を可能にするブロック単位の拡散デコーダーと，不確実性駆動のカリキュラム学習戦略を採用する。
- Semantic Shuffleベンチマークでの評価により，言語的先験知識への依存が軽減され，より強力な視覚OCR能力が確認された。
Link: https://arxiv.org/abs/2603.22458
重要時に色を捉える：グレースケール誘導型オンライントリガーによる常時ストリーミングビデオセンシング [cs.CV, cs.AI, cs.HC, cs.MM]目的：効率的なストリーミングビデオ理解のための手法
- 次世代エッジ/ウェアラブルAIシステムにおける常時センシングの重要性が高まっている。
- 高解像度RGBビデオの継続的な取得は，リソース制約のあるモバイル/エッジプラットフォームにとって負担が大きい。
- グレースケール情報に基づく色情報の取捨選択により，センシングと推論コストを削減することを目指す。
- ColorTriggerは，ウィンドウ化されたグレースケールアフィニティ分析に基づいて色情報の取得を動的に制御する。
- ストリーミングビデオ理解ベンチマークにおいて，ColorTriggerはフルカラーベースラインの91.6%の性能を，8.1%のRGBフレームの使用量で達成した。
- 自然なビデオにおける色情報の冗長性が実証され，リソース制約のあるデバイスでの常時ビデオセンシングが実現可能となった。
Link: https://arxiv.org/abs/2603.22466
潜在検証器による推論時スケーリングの微小化 [cs.CV, cs.AI, cs.MM]目的：生成モデルの推論時スケーリング効率の向上
- 生成モデルの性能向上は，AI研究における重要な課題である。
- 推論時の計算コストが，実用上のボトルネックとなっている。
- 中間表現空間での検証による計算コスト削減を目指す。
- 提案手法Veriﬁer on Hidden States (VHS)は，Diffusion Transformerの隠れ表現を直接解析する。
- これにより，ピクセル空間へのデコードや再エンコードといった冗長な処理を回避し，検証コストを削減する。
- GenEvalにおいて，既存手法と比較して2.7%の性能向上と，推論時間，計算量，VRAM使用量の大幅な削減を達成した。
Link: https://arxiv.org/abs/2603.22492
Sketch2CT：構造を意識した3D医療ボリューム生成のためのマルチモーダル拡散 [cs.CG, cs.RO, cs.SI, cs.RO, cs.MA, cs.RO, cs.SY, eess.SY, cs.CV]目的：構造を意識した3D医療ボリュームの生成
- 医療分野におけるデータ不足は深刻であり，高品質な医療画像生成技術の確立が求められている。
- マルチモーダル条件下で，解剖学的に一貫性のある3D医療ボリュームを生成することは依然として困難である。
- ユーザースケッチとテキスト記述に基づき，高精度かつ制御可能な3D医療ボリューム生成を実現すること。
- Sketch2CTは，スケッチとテキストの両方を活用し，3D臓器の正確な形状を生成する。
- 生成されたセグメンテーションマスクは，CTボリュームのリアルな再構成を導き，ユーザ定義のスケッチと整合性を持たせる。
- 公開CTデータセットを用いた実験により，Sketch2CTがマルチモーダル医療ボリューム生成において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.22509
深層学習とランダムフォレストによる高解像度洪水浸水域検出 [cs.CV, cs.AI]目的：洪水浸水域の検出手法
- 洪水リスク軽減戦略を支援するモデル検証は，極端なイベント時の観測データ不足により困難である。
- 災害時のラベル付き訓練データが不足しており，高頻度・高解像度画像（PlanetScope等）の応用が制限されている。
- PlanetScope画像と地形特徴を組み合わせることで，データ不足な状況下での洪水浸水域マッピングを可能とする。
- ランダムフォレストで生成した訓練ラベルを用いた深層学習モデル（U-Net）による洪水浸水域検出フレームワークを開発した。
- 地形特徴（HAND，斜面）の追加は，浸水域検出性能への貢献が限定的であった（F1=0.92，IoU=0.85）。
- 本フレームワークは，データ不足な洪水状況下での浸水域マッピングを可能にする，拡張性とラベル効率に優れた手法である。
Link: https://arxiv.org/abs/2603.22518
多規模イミテーション学習と修正行動拡張による歩道自動運転の学習 [cs.RO, cs.CV]目的：歩道における自動運転システムの学習
- ラストワンマイル交通の課題解決に貢献するマイクロモビリティの重要性が高まっている。
- 既存の学習ベース制御は，複雑な都市環境でエラーの蓄積や汎化性能の低さに課題がある。
- 人間のデモンストレーションから学習するイミテーション学習の弱点を克服し，頑健性と汎化性能を向上させる。
- 提案手法では，修正行動とセンサーの拡張により，ポリシーが自身の誤りから回復する能力を学習する。
- 多規模イミテーション学習アーキテクチャは，短期的なインタラクティブな行動と長期的な目標指向の意図を捉える。
- 実世界の実験により，多様な歩道シナリオにおいて頑健性と汎化性能が大幅に向上することが示された。
Link: https://arxiv.org/abs/2603.22527
エゴからウェブへ：一人称視点ビデオに基づくウェブエージェントベンチマーク [cs.CV, cs.AI, cs.CL]目的：一人称視点ビデオとウェブタスクを組み合わせたベンチマークEgo2Webの構築
- 現実世界の作業を自動化するマルチモーダルAIエージェントの重要性が増している。
- 既存のウェブエージェントベンチマークは，現実世界の状況との連携が不足している。
- 現実世界の視覚情報とオンラインタスクを統合する評価環境の提供を目指す。
- Ego2Webは，一人称視点ビデオとウェブタスクを組み合わせた最初のベンチマークである。
- 既存の最先端エージェントは，Ego2Webにおいて低い性能を示しており，改善の余地が大きい。
- LLMを活用した自動評価手法Ego2WebJudgeは，人間の判断との高い一致率（約84%）を達成した。
Link: https://arxiv.org/abs/2603.22529
都市型VGGT: ストリートビュー画像からの歩道幅の効率的な推定 [cs.CV]目的：歩道幅の推定手法
- 歩道幅は歩行者のアクセス性，快適性，ネットワーク品質の重要な指標である。
- 大規模な歩道幅データは都市において不足しており，既存手法はコストや精度に課題がある。
- ストリートビュー画像から効率的に歩道幅を推定し，データ収集の課題を解決することを目指す。
- 提案手法UrbanVGGTは，ストリートビュー画像から歩道幅を推定するパイプラインであり，高い精度を達成した。
- ワシントンD.C.におけるベンチマークテストで，平均絶対誤差0.252m，95.5%の推定値が基準幅0.50m以内に収まった。
- パイプラインを3都市に適用し，527のOpenStreetMapストリートセグメントを網羅する歩道幅データセットSV-SideWidthを生成した。
Link: https://arxiv.org/abs/2603.22531
疎な特徴共鳴器ネットワークによる汎化マルチオブジェクト分類と追跡 [cs.AR, cs.PF, cs.CV]目的：マルチオブジェクトの分類と追跡
- 視覚シーン理解において，不変性と等変性の両方を捉えることが重要である。
- 従来のニューラルネットワークは変換に対する不変性を学習するが，等変情報を失いがちである。
- 訓練データにない変換に対しても汎化性能を向上させる。
- 共鳴器ネットワークは生成モデルを逆転させ，オブジェクトに関する不変性と等変性の両方の情報を提供する。
- 疎な特徴学習により，様々な形状のオブジェクトを柔軟に表現し，未知の形状の数字にも対応可能となる。
- ネットワークの自然な注意機構により，複数オブジェクトのシーン分析が可能となり，移動するオブジェクトの追跡精度も向上する。
Link: https://arxiv.org/abs/2603.22539
CanViT：アクティブビジョン基盤モデルへ向けて [cs.CL, cs.CE, cs.MA, cs.CV]目的：アクティブビジョン基盤モデルの構築
- 生物の視覚システムにヒントを得た効率的な知覚処理が求められている。
- スケーラブルな汎用アーキテクチャと事前学習パイプラインが課題であった。
- タスクやポリシーに依存しないアクティブビジョン基盤モデルの実現を目指す。
- CanViTは，シーン相対的なRoPEとCanvas Attentionを用いて，効率的な情報処理を実現している。
- ADE20Kセグメンテーションにおいて，単一の低解像度画像で高いmIoUを達成し，既存モデルを凌駕した。
- ImageNet-1k分類においても高い精度を示し，汎用性の高さが確認された。
Link: https://arxiv.org/abs/2603.22570
FullCircle: 容易な360°キャプチャからの3D再構成 [cs.CV]目的：カジュアルな360°キャプチャからの3Dシーン再構成手法
- 3Dシーン再構成は，仮想現実，拡張現実など，様々な応用分野において重要である。
- 従来の3D再構成は，カメラの視野角の狭さから十分な視点カバレッジが得られず，課題となっていた。
- 360°カメラの利点を活かし，特別な撮影プロトコルや前処理なしに，容易な3D再構成を実現すること。
- 本手法は，既存の360°再構成手法と比較して，特別な撮影プロトコルや前処理を必要とせず，高いロバスト性を示す。
- 提案手法は，360°カメラだけでなく，同等のキャプチャ条件下でのパースペクティブカメラに対しても優位性を示す。
- 新たに構築したデータセットは，カジュアルな360°再構成のベンチマークとして活用可能である。
Link: https://arxiv.org/abs/2603.22572
手術動画からの時間的な手術マッピングのためのビジョン言語モデルとプラットフォーム [cs.CV, cs.RO]目的：手術マッピングの実現
- 手術手技の標準化や自律型ロボット手術の実現に不可欠な研究分野である。
- 既存モデルは対象範囲が狭く，単一の手術における行動要素の捕捉に限界がある。
- 臨床現場での利用を促進し，手術AIの臨床展開を加速させることを目指す。
- Halstedは，既存の最先端モデルを凌駕し，より包括的かつ効率的な手術活動マッピングを可能にする。
- Halstedウェブプラットフォームは，世界中の外科医が自身の処置を自動的にマッピングすることを可能にする。
- 非構造化手術動画データの標準化と，その機能への直接アクセス提供により，臨床応用への道を開く。
Link: https://arxiv.org/abs/2603.22583
効率的な音響空間 Impulse Response モデリングのための速度ポテンシャルニューラルフィールド [cs.HC, cs.ET, cs.SD, eess.AS, eess.SP]目的：音響空間 Impulse Response の効率的なモデリング手法
- 没入感のある音響体験の再現には，正確な空間音響表現が不可欠である。
- 既存手法では，計算コストが高く，リアルタイム処理が困難な場合がある。
- 物理法則に基づいたモデリングにより，計算効率と精度を両立することを目指す。
- 提案手法では，速度ポテンシャルを近似することで，物理的な制約を満たす音響信号を生成する。
- 速度ポテンシャルから FOA 信号を導出することで，計算コストを削減し，リアルタイム処理を可能にする。
- 実験結果は，提案手法が Impulse Response の再構築において有効であることを示している。
Link: https://arxiv.org/abs/2603.22589
言語モデルはステアリングを通じて視覚的特徴を説明できる [cs.CV, cs.AI]目的：視覚的特徴の説明
- 画像認識の精度向上に伴い，モデルの判断根拠の解明が重要になっている。
- 従来の解釈手法は人間による介入が必要，または計算コストが高いという課題があった。
- 言語モデルを活用し，自動的に視覚的特徴を説明する新たな手法を開発すること。
- ステアリングという手法により，視覚モデルの特徴を言語モデルに説明させることが可能になった。
- 説明の質は言語モデルの規模に比例して向上し，自動解釈の新たな方向性を示す。
- ステアリングと入力例に基づく手法を組み合わせた「Steering-informed Top-k」が最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.22593
ビデオからの稠密な将来軌跡生成: TrajLoom [cs.RO, cs.AR, cs.CV]目的：ビデオからの稠密な将来軌跡の生成
- 動画理解や制御可能な動画生成において，将来の動きの予測は不可欠である。
- 稠密な点軌跡は簡潔で表現力豊かな動きの表現だが，観測された動画から将来の進化をモデル化することは困難である。
- 過去の軌跡と動画のコンテキストから将来の軌跡と可視性を予測することで，この課題を解決することを目指す。
- 提案手法は，位置依存のバイアスを軽減するグリッド・アンカーオフセットエンコーディングを採用している。
- また，稠密な軌跡のコンパクトな時空間潜在空間を学習するTrajLoom-VAEと，フローマッチングにより潜在空間で将来の軌跡を生成するTrajLoom-Flowを用いる。
- 実験により，予測ホライズンを24フレームから81フレームに拡張し，モーションのリアリズムと安定性を向上させることが示された。
Link: https://arxiv.org/abs/2603.22606
Dress-ED：バーチャル試着・試脱のための指示に基づいた編集 [cs.CV]目的：バーチャル試着・試脱およびテキストによる衣服編集のための大規模ベンチマークデータセット
- ファッション分野において，写実的な画像生成や衣服の再構成技術の発展が求められている。
- 既存のデータセットは静的であり，制御可能でインタラクティブなファッション生成のための指示に基づいた編集が不足している。
- 指示に基づいた衣服編集を可能にするための，大規模なベンチマークデータセットを構築し，その活用を促進すること。
- Dress-EDは，VTON，VTOFF，テキストによる衣服編集を統合した，146k以上の検証済みクワッドリプレットを含む大規模データセットである。
- このデータセットは，MLLMに基づく衣服理解，拡散ベースの編集，LLMによる検証を組み合わせた自動パイプラインによって構築された。
- データセットを活用し，言語指示と視覚的衣服の情報を共同で推論する統一マルチモーダル拡散フレームワークを提案した。
Link: https://arxiv.org/abs/2603.22607
シミュレーション画像から手続き型植物構造表現を生成するビジョン言語モデル [cs.CV]目的：手続き型植物構造表現の生成
- 植物の構造と機能を理解するため，3Dモデルの重要性が高まっている。
- 実測による植物構造パラメータの測定は，労力と時間がかかる。
- 画像データから植物の構造パラメータを抽出する手法を開発する。
- 本研究では，ビジョン言語モデルを用いて，シミュレーション画像から植物の3D構造を生成することに成功した。
- 教師あり学習において，トークンF1スコア0.73を達成し，自己回帰生成ではBLEU-4スコア94.00%とROUGE-Lスコア0.5182を得た。
- これにより，合成画像から植物構造モデルの生成とパラメータ抽出が可能であることが示された。
Link: https://arxiv.org/abs/2603.22622
同意するか，それとも正しいか？医療ビジョン-言語モデルにおける根拠と迎合のトレードオフ [cs.CV, cs.AI]目的：医療分野におけるビジョン-言語モデルの幻覚と迎合という二つの故障モードに対する堅牢性評価
- 医療AIの発展は，診断や治療の精度向上に不可欠であるため，重要性が高い。
- 既存のビジョン-言語モデルは，幻覚や迎合といった問題点を抱え，臨床応用における安全性に懸念がある。
- 幻覚と迎合のトレードオフを明らかにし，安全な臨床利用のための評価指標を提案すること。
- 医療VQAデータセット上で6つのVLMsを評価した結果，幻覚が少ないモデルほど迎合的であるというトレードオフが確認された。
- モデルの安全性を評価するため，L-VASE，CCS，CSIという3つの指標を提案し，既存モデルの安全性が低いことを示した。
- 評価したどのモデルもCSIが0.35を超えず，同時によく根拠に基づき，社会的圧力にも強いモデルは存在しないことが判明した。
Link: https://arxiv.org/abs/2603.22623
忠実なセグメンテーション帰属性評価のためのベンチマークと二重証拠融合 [cs.CV, cs.AI]目的：セマンティックセグメンテーションにおける帰属性評価の改善
- 画像認識の精度向上に加え，モデルの判断根拠の説明可能性が重要視されている。
- 帰属性マップの視覚的な妥当性だけでは，モデルの予測への貢献度を正確に評価できない。
- 帰属性評価の客観性と信頼性を高め，モデルの判断根拠を明確にすること。
- 本研究では，介入ベースの忠実性，ターゲット外への漏洩，摂動に対するロバスト性などを評価するベンチマークを提案した。
- 二重証拠アトリビューション(DEA)は，勾配情報と領域レベルの介入シグナルを融合することで，帰属性マップの忠実性を向上させる。
- ベンチマークは，視覚的な評価では見過ごされる忠実性と安定性のトレードオフを明らかにした。
Link: https://arxiv.org/abs/2603.22624
PIVM：拡散に基づいた事前知識統合型変動モデルによる解剖学的に正確な腹部CT合成 [cs.IR, cs.CL, cs.CV]目的：解剖学的に正確な腹部CT画像合成手法
- 腹部CT画像は，医療診断や病状把握に不可欠である。
- 高品質なCT画像には，高コストなアノテーションやプライバシー保護が課題である。
- これらの課題を克服し，より高精度な腹部CT画像合成を可能にすること。
- PIVMは，拡散モデルを用いて，臓器特有の強度事前知識に基づき，ボクセルごとの強度変動を予測する。
- この手法により，空間的な整合性とリアルな臓器境界を確保し，画像空間で直接処理を行うことで，HU範囲を維持し，微細な解剖学的構造を捉える。
- 従来の潜在空間拡散モデルと比較し，滑らか化を抑制し，より精度の高い画像合成を実現する。
Link: https://arxiv.org/abs/2603.22626
CAM3R：カメラに依存しない3D再構成モデル [cs.CV]目的：3D再構成のためのカメラ非依存性
- 3D再構成はコンピュータビジョンの基礎であり，現実世界の理解に不可欠である。
- 既存モデルはピンホールカメラに最適化されており，広角レンズ画像への適用で精度が低下する。
- 広角レンズ画像に対しても高精度な3D再構成を実現するモデルを開発すること。
- 提案手法CAM3Rは，広角カメラモデルの画像を入力として，事前校正なしで3D再構成を可能にする。
- CAM3Rは，Ray ModuleとCross-view Moduleを用いて，ピクセルごとのレイ方向とラジアル距離を推定する。
- Ray-Aware Global Alignmentにより，姿勢の洗練とスケール最適化を行い，3Dシーンの一貫性を保つ。
Link: https://arxiv.org/abs/2603.22631
Q-Tacit：潜在的視覚的推論による画像品質評価 [cs.HC, cs.CV]目的：画像品質評価のための潜在的視覚的推論
- 画像品質評価は，画像処理やコンピュータビジョンの重要な要素であり，多様な応用分野で不可欠である。
- 既存手法では，テキストによる表現の限界から，視覚的な品質情報を十分に捉えきれない場合がある。
- 潜在空間における視覚的品質の事前知識注入と，推論軌道の調整による品質評価能力の向上を目指す。
- Q-Tacitは，従来の推論ベース手法と比較して，大幅に少ないトークン数で品質推論を実行できることを示した。
- 潜在空間における推論が，言語に頼らないコンパクトな視覚品質表現として有効であることを実証した。
- この研究は，画像品質評価における潜在的推論パラダイムのさらなる探求の可能性を示唆する。
Link: https://arxiv.org/abs/2603.22641
前処理が重要である：医用画像における自己教師あり学習手法の経験的研究 [cs.CV]目的：医用画像における自己教師あり学習手法の選択が学習表現に与える影響
- 医用画像診断の精度向上には，高品質な特徴抽出が不可欠であり，ラベルなしデータ活用が重要。
- 自己教師あり学習はラベルなしデータを活用するが，最適な手法の選択は困難である。
- 医用画像の構造的特徴とノイズ特性に適した自己教師あり学習手法の選択基準を示す。
- 局所的な信号が重要な組織病理画像では，JEAsが有効であることが示された。
- 一方，広範な構造情報を含む肝臓超音波画像では，JEPAsが最適な結果を示した。
- これらの知見は，医用画像の種類に応じた自己教師あり学習手法の選択指針を提供する。
Link: https://arxiv.org/abs/2603.22649
アクティブマッピングのための仮定ガウスを用いた効率的な長期計画手法MAGICIAN [cs.CV, cs.RO]目的：未知環境効率的再構成のためのエージェント移動方法
- ロボットが未知環境を自律的に探索する上で不可欠な技術であり，自律移動ロボットの応用範囲を広げる。
- 既存手法は貪欲な次善視点予測に依存し，探索効率が悪く，シーン再構成が不完全になりがちである。
- 長期計画により探索効率を向上させ，より完全なシーン再構成を実現することを目標とする。
- MAGICIANは，事前学習済み占有ネットワーク由来の仮定ガウスを用いて，表面被覆増加を最大化する長期計画フレームワークである。
- 高速ボリュームレンダリングにより任意の新規視点での被覆増加量を効率的に計算し，探索計画に組み込む。
- 屋内・屋外ベンチマークにおいて最先端の性能を達成し，長期計画の重要性を示す。
Link: https://arxiv.org/abs/2603.22650
深層学習に基づく変化検出を用いたSAR画像からの大規模な雪崩マッピング [cs.CV]目的：SAR画像を用いた雪崩の大規模マッピング
- 雪崩は，人命，インフラ，生態系に深刻な被害をもたらすため，その監視は重要である。
- 雪崩の頻度と規模が増加しており，正確な変化検出が課題となっている。
- SAR画像を用いた雪崩マッピングの精度向上と，再現性のあるベンチマークの確立。
- 提案手法は，F1スコア0.8061（F1最適化）を達成し，安定した性能を示した。
- F2スコア0.8414（F2最適化）と80.36％の雪崩ポリゴンヒット率も確認された。
- 閾値調整により，小規模な雪崩の検出精度向上に貢献する可能性が示された。
Link: https://arxiv.org/abs/2603.22658
MuQ-Eval：AI音楽生成評価のためのオープンソースサンプル品質指標 [cs.AI, cs.SD]目的：AI生成音楽の品質評価指標の開発
- AI音楽生成技術の発展に伴い，生成された音楽の客観的評価が重要となっている。
- 既存の指標は個々の音楽クリップを評価できず，人間の評価との相関も低いという課題がある。
- 人間の評価と高い相関を持つ，オープンソースのサンプル品質指標を開発することを目指す。
- MuQ-Evalは，MuQ-310Mの固定化された特徴量に基づき，MusicEvalデータセットで学習された。
- シンプルなモデルでシステムレベルのSRCC=0.957，発話レベルのSRCC=0.838を達成し，人間の評価と高い相関を示した。
- 固定化されたMuQ表現が既に品質に関する情報を捉えていることが示唆され，LoRA適応モデルは少量データでも有用であることが確認された。
Link: https://arxiv.org/abs/2603.22677
GeoTikzBridge：幾何的知覚と推論のためのマルチモーダルコード生成の発展 [cs.CV]目的：幾何的知覚と視覚的推論の能力向上
- マルチモーダル大規模言語モデルは知覚と推論能力で目覚ましい進歩を遂げている。
- 既存モデルは微細な幾何学的構造の知覚に課題があり，幾何学的な理解を制限している。
- TikZベースのコード生成を通じて，局所的な幾何学的知覚と視覚的推論を強化する。
- GeoTikzBridgeは，250万組の画像とTikZコードを含む大規模なGeoTikz-Baseデータセットを活用している。
- GeoTikzBridge-Instructモデルは，視覚的推論をサポートする指示付きTikZデータセットGeoTikz-Instructでファインチューニングされている。
- 本研究は，オープンソースのマルチモーダル大規模言語モデルにおいて最先端の性能を達成し，幾何学的問題解決における推論能力を向上させる。
Link: https://arxiv.org/abs/2603.22687
360度思考：MLLMの幅広な推論能力の評価 - 深さ以上の検証 [cs.CV]目的：MLLMにおける推論の幅，つまり広範な試行錯誤や多制約最適化能力の評価
- マルチモーダル大規模言語モデル(MLLM)の性能向上は，画像とテキストを統合した高度な推論能力に不可欠である。
- 既存の研究では推論の「深さ」に焦点が当たっていたが，幅広な探索や制約条件の適用といった「幅」の評価が不足していた。
- 本研究は，推論の深さと幅の両方を定量的に評価するベンチマークを構築し，MLLMの真の洞察力に基づく推論能力を明らかにすることを目指す。
- 大規模なマルチモーダルデータセットと詳細な評価プロトコルにより，推論の深さと幅を同時に評価できることを示した。
- 現在のMLLMは一般的なVQAタスクでは高い性能を示すものの，深さと幅の両方を組み合わせた高度な推論には苦戦していることが明らかになった。
- モデルの失敗事例の分析から，より深く，そして幅広く推論できるMLLMを構築するための方向性を示唆した。
Link: https://arxiv.org/abs/2603.22689
WiFi2Cap：Wi-Fi CSIからの意味的行動キャプション生成における四肢レベルの意味的アライメント [cs.CV, cs.AI]目的：Wi-Fi CSIからの意味的行動キャプションの生成
- 屋内センシングにおいて，人間の活動をプライバシーを保護しつつ理解することは重要である。
- 既存のWi-Fi CSIベースのシステムは，姿勢推定や定義済みの行動分類に偏っており，詳細な言語生成が課題である。
- 無線信号と言語の間の意味的ギャップ，左右の四肢の認識誤りといった問題を解決し，より自然なキャプション生成を目指す。
- WiFi2Capは，Wi-Fi CSIから直接行動キャプションを生成する3段階のフレームワークである。
- ビジョン-言語教師モデルとCSI生徒モデルのアライメント，そしてMirror-Consistency Lossにより，方向感度依存のキャプション精度を向上させている。
- WiFi2Capは，BLEU-4，METEOR，ROUGE-L，CIDEr，SPICEなどの評価指標において，ベースライン手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.22690
TimeWeaver：同一人物を参照した年齢一貫性のある顔画像復元 [cs.CV]目的：顔画像復元における同一人物性の維持と年齢の一貫性
- 顔画像復元技術は，監視カメラや古い写真など，様々な分野で重要性を増している。
- 既存手法は参照画像と復元対象画像の年齢が一致している前提であり，年齢の異なる場合に対応できない。
- 年齢の異なる参照画像を利用した，より実用的な顔画像復元技術の確立を目指す。
- TimeWeaverは，参照画像とターゲット年齢の指定により，同一人物性を維持しつつ，年齢一貫性のある顔画像復元を可能にする。
- ID-Fusionモジュールにより，年齢に強い同一人物性表現を獲得し，Age-Aware Gradient GuidanceとToken-Targeted Attention Boostにより，年齢の制御を実現した。
- 実験により，TimeWeaverが既存手法を上回り，視覚品質，同一人物性の維持，年齢の一貫性において優れていることが示された。
Link: https://arxiv.org/abs/2603.22701
VLMはどこまで行けるか：ゲームプレイ動画における視覚的バグ検出の研究 [cs.RO, cs.CL, cs.CV, cs.SE]目的：ゲームプレイ動画における視覚的バグの検出能力
- ゲームの品質保証は重要であり，特に長時間プレイにおける安定性と視覚的な正確性の評価が不可欠である。
- 従来のゲームプレイ動画の品質保証は，人手に頼る部分が多く，時間と労力がかかる上に，見落としのリスクもある。
- 本研究では，大規模なゲームプレイ動画データを用いて，既存のVLMがどの程度のバグ検出能力を持つかを評価する。
- 単一プロンプトによるVLMの精度は0.50，正答率は0.72であった。
- 二次的な判断モデルやメタデータを用いたプロンプト改善策は，わずかな改善しか見られず，計算コストや出力のばらつきが増加した。
- 既存のVLMは，ある程度のバグ検出能力を持つが，テキストと視覚的な異常検出を分離するハイブリッドなアプローチが必要である可能性が示唆された。
Link: https://arxiv.org/abs/2603.22706
大規模音声言語モデル向け音声エンコーダ能力チャレンジ：Interspeech 2026 [cs.SD, eess.AS]目的：大規模音声言語モデルのフロントエンドモジュールとしての事前学習済み音声エンコーダの性能評価
- 音声処理技術は，人間と機械の円滑なコミュニケーション実現に不可欠である。
- 音声エンコーダの表現能力が，大規模言語モデルの性能に大きく依存する。
- 汎用的な音声表現を標準化し，次世代マルチモーダル言語モデルの発展を促進する。
- 本チャレンジでは，多様な下流タスクにおける分類・生成性能を評価する統合的なフレームワーク XARES-LLM を提供する。
- エンコーダ開発とLLMのファインチューニングを分離することで，音声表現の標準化プロトコルを確立する。
- 大規模音声言語モデルにおける音声エンコーダの重要性を明確にし，その発展に貢献する。
Link: https://arxiv.org/abs/2603.22728
SOUPLE：学習可能なプロンプトコンテキストによるオーディオビジュアル局所化とセグメンテーションの強化 [cs.CL, cs.CY, cs.RO, cs.SY, eess.SY, cs.CV]目的：オーディオビジュアル局所化とセグメンテーションの性能向上
- マルチモーダルな表現学習は，画像とテキストの理解において重要な役割を担う。
- CLIPモデルのオーディオビジュアル局所化への適用は，意味的特徴の抽出が困難である。
- オーディオとビジュアル間の意味的対応関係を強化し，局所化性能を向上させる。
- SOUPLEは，固定されたプロンプトを学習可能なコンテキストトークンに置き換えることで，オーディオとビジュアル間の関連性を効果的に捉える。
- 提案手法は，VGGSound，SoundNet，AVSBenchにおいて，局所化およびセグメンテーション性能の向上が確認された。
- 学習可能なコンテキストトークンは，視覚的特徴を組み込み，マスクデコーダのための条件付きコンテキストを生成する。
Link: https://arxiv.org/abs/2603.22732
MVPBench：マルチモーダル動画理解のための複数動画知覚評価ベンチマーク [cs.CV]目的：複数動画からの情報抽出能力の評価
- 動画理解の分野は，AI技術の発展に不可欠であり，現実世界への応用範囲が広い。
- 既存のベンチマークは静止画像や単一動画に限定され，複数動画間の複雑な相互作用を考慮していない。
- 複数動画間の知覚能力を評価し，マルチモーダル動画理解の進歩を促進すること。
- MVPBenchは，多様な視覚ドメインにおける14のサブタスクで構成され，モデルの動画情報抽出能力を評価する。
- 既存のモデルは複数動画の入力を効果的に処理するのに苦労しており，マルチ動画理解に限界があることが示された。
- MVPBenchは，マルチ動画知覚におけるさらなる研究開発を促進することが期待される。
Link: https://arxiv.org/abs/2603.22756
幾何学的事前知識に基づく多Modal産業異常検知 [cs.CV]目的：多Modal産業異常検知における異常の検出
- 産業製品の品質管理において，異常検知は欠かせない技術である。製品の信頼性向上に貢献する。
- 従来の2Dベースの手法では，微細な形状変化や不規則な輪郭といった複雑な幾何学的異常の検出が困難である。
- 表面法線ベクトルや3D形状トポロジーといった重要な幾何学的情報を有効活用し，検知精度を向上させる。
- 提案手法GPADは，点群エキスパートモデルを用いて微細な幾何学的特徴を抽出し，幾何学的事前知識を生成する。
- 2段階の融合戦略により，多Modalデータの相補性と3D点群に内在する幾何学的事前知識を効率的に活用する。
- 幾何学的事前知識に基づいた注意融合と異常領域セグメンテーションにより，幾何学的欠陥の認識能力を向上させた。MVTec-3D ADおよびEyecandiesデータセットで最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.22757
再構成ガイダンススロットカリキュラム：ビデオオブジェクト中心学習におけるオブジェクトの過剰分割への対処 [cs.CV, cs.LG]目的：ビデオオブジェクト中心学習におけるオブジェクトの過剰分割問題の解決
- ビデオ理解において，オブジェクト単位での解析は重要であり，より効率的な表現が求められている。
- 既存のスロットアテンションモデルは，再構成誤差の最小化のために不要なスロットを多く使用する傾向がある。
- 再構成誤差の高い箇所にのみスロットを割り当てることで，過剰分割を抑制し，効率的な学習を目指す。
- 再構成を誘導するスロットカリキュラム（SlotCurri）は，まず粗いスロット数から開始し，再構成誤差が高い箇所に徐々にスロットを割り当てる。
- 構造を意識した損失関数を導入し，各スロットのセマンティック境界を鮮明にすることで，より意味のあるサブパートの出現を促す。
- フレームシーケンスを通してスロットを前後にロールさせるサイクリック推論により，初期フレームにおいても時間的に一貫性のあるオブジェクト表現を実現した。YouTube-VISとMOVi-CでFG-ARIがそれぞれ+6.8と+8.3向上した。
Link: https://arxiv.org/abs/2603.22758
ENC-Bench：電子航海図理解のためのマルチモーダル大規模言語モデル評価ベンチマーク [cs.CV]目的：電子航海図の理解に関するマルチモーダル大規模言語モデルの評価
- 現代の海上航行における安全性確保に不可欠な電子航海図の活用が重要である。
- 電子航海図の解釈には専門知識が必要であり，既存のAIモデルの能力が不明確である。
- マルチモーダル大規模言語モデルの電子航海図理解能力を定量的に評価する手段の提供。
- ENC-Benchは，電子航海図理解に特化した初のベンチマークであり，20,490件の専門家による検証済みのサンプルを含む。
- 最先端の10個のマルチモーダル大規模言語モデルを評価した結果，最高モデルでも精度は47.88%にとどまり，記号の認識や空間計算に課題があることが示された。
- 本研究は，安全性重視のAI分野における専門的な記号推論の研究を促進するための基盤を提供する。
Link: https://arxiv.org/abs/2603.22763
ピクセルから意味へ：衛星画像における構造的損傷検出のための多段階AIフレームワーク [cs.CV]目的：自然災害後の構造的損傷検出
- 災害発生時の迅速な被害状況把握は，効果的な緊急対応と復旧活動に不可欠である。
- 衛星画像は空間解像度の低さや文脈の曖昧さ，意味解釈の限界により，信頼性の高い検出が困難である。
- 衛星画像の解像度向上と，深層学習による損傷の程度に応じた正確な評価を目指す。
- 提案手法では，ビデオ修復トランスフォーマー(VRT)を用いて衛星画像の解像度を向上させ，構造詳細の可視化を実現した。
- YOLOv11を用いた建物検出と，Vision-Language Model (VLM) による損傷度評価を組み合わせることで，総合的な被害状況把握を可能にした。
- xBDデータセットを用いた実験により，提案手法が損傷建物の意味解釈を向上させることが示された。また，復旧活動への推奨情報も提供可能である。
Link: https://arxiv.org/abs/2603.22768
曲線リサンプリングに基づく高品質高次非構造化四角形メッシュ生成 [cs.GR]目的：高品質高次非構造化四角形メッシュの生成
- 数値シミュレーションにおいて，高次メッシュは精度と計算効率に優れるため重要である。
- 複雑な形状において，境界形状の保持，高品質化，効率的な生成が課題となっている。
- 退化した要素や反転要素を抑制し，高品質なメッシュを効率的に生成することを目指す。
- 提案手法は，幾何学的誤差を考慮した曲線再構成により，メッシュ品質を向上させ，高次要素の有効性を維持する。
- 直接的な高次メッシュ最適化手法と比較して，計算複雑度を低減し，効率を高める。
- 実験結果から，提案手法は複雑な形状においても，境界形状を保持しつつ，高品質なメッシュを生成できることが示された。
Link: https://arxiv.org/abs/2603.22780