arXiv雑要約

画像・音声 - 2026/03/11 公開

  • EvoDriveVLA:協調的知覚・計画蒸留による自律運転Vision-Language-Actionモデルの進化 [cs.CV, cs.AI]目的:自律運転用Vision-Language-Actionモデルの進化
    • 自動運転技術は,交通効率の向上や事故削減に不可欠であり,社会実装に向けた研究が重要である。
    • 視覚エンコーダを学習させると知覚性能が低下し,長期的計画において不安定性が蓄積しやすいという課題がある。
    • 視覚的アンカー制約とオラクルによる軌道最適化により,知覚と計画の協調的蒸留を実現し,モデルの安定性と性能向上を目指す。
    • EvoDriveVLAは,知覚と計画を協調的に蒸留する新しいフレームワークであり,最先端の性能を達成した。
    • 自己アンカー教師を用いた視覚的蒸留により,視覚的アンカー制約を適用し,軌道情報に基づいたキー領域への注意を促す。
    • オラクルによる軌道蒸留により,高品質な軌道候補を生成し,最適な軌道を選択して学習を誘導する。

    Link: https://arxiv.org/abs/2603.09465

  • 手術室のための統一的なトポロジーシーン表現 TopoOR [cs.CV]目的:手術室のシーン表現の新しいパラダイム
    • 手術支援システムの高度化には,手術室内の状況を正確に理解することが不可欠である。
    • 既存のシーングラフは,二項関係に限定され,複雑な手術室環境の多角的な構造を捉えきれない。
    • TopoORは,高次のトポロジー構造を利用し,手術室内の複雑な関係性をより正確にモデル化する。
    • TopoORは,ペアの関係性とグループの関係性を自然に表現できる高次の構造として手術室をモデル化する。
    • 提案手法は,従来のグラフベースの手法やLLMベースの手法と比較して,滅菌違反検出,ロボットの段階予測,次に行う行動の予測において,より高い性能を示す。
    • 3D形状,音声,ロボットのキネマティクスといった異なるモダリティ情報を,安全性を重視した推論に必要な正確な構造を保ちながら統合する。

    Link: https://arxiv.org/abs/2603.09466

  • パトロロギア・グラエカ叢書:OCR,注釈,およびノイズの多い19世紀の重音付ギリシャ版の公開 [cs.CV]目的:古代ギリシャの19世紀版パトロロギア・グラエカ叢書のデジタル資源
    • 古典研究において,原本へのアクセスは重要であり,デジタル化は研究の進展に不可欠である。
    • 重音付ギリシャ文字のOCR技術は未発達であり,特に古版のノイズが課題となっていた。
    • ノイズの多い重音付ギリシャ文字に対するOCR精度の向上と,古典研究のための新たなデータセットの構築。
    • 本研究で開発したパイプラインは,既存のOCRシステムを大幅に上回る精度を実現した。
    • 文字誤り率1.05%,単語誤り率4.69%を達成し,約600万トークンの形態素解析済みコーパスを構築した。
    • 本研究は,ノイズの多い重音付ギリシャ文字のOCRにおける新たなベンチマークを確立し,大規模言語モデルの学習データを提供する。

    Link: https://arxiv.org/abs/2603.09470

  • OmniEarth:地理空間タスクにおけるビジョン言語モデルの評価ベンチマーク [cs.CV]目的:地理空間タスクにおけるビジョン言語モデルの評価
    • 地球観測技術は,環境変化の監視や災害対応など,多岐にわたる分野で不可欠である。
    • リモートセンシングと自然言語処理を組み合わせたRSVLMの評価方法が確立されていない。
    • 現実的な地球観測シナリオにおけるRSVLMの性能を総合的に評価すること。
    • OmniEarthベンチマークは,知覚,推論,ロバスト性の3つの能力次元を網羅する28のタスクで構成される。
    • 既存のVLMsは,地理空間的に複雑なタスクにおいて依然として苦戦しており,リモートセンシング応用のための課題が残されている。
    • OmniEarthは,高品質な画像と検証済みの指示文を豊富に含み,公平な評価を可能にするブラインドテストプロトコルを採用している。

    Link: https://arxiv.org/abs/2603.09471

  • 冗長性を剪定し,本質を保存:VLMにおける相乗的意義・多様性による視覚トークン圧縮 [cs.MM, cs.CV]目的:視覚言語モデルにおける視覚トークンの過剰生成による計算効率の低下
    • 視覚言語モデルは,画像とテキストの理解において重要な役割を担う技術である。
    • 視覚トークンの多くは冗長であるにも関わらず,重要性と情報多様性のバランスを取るのが困難である。
    • 重要性と多様性を両立した圧縮により,計算効率を向上させつつ性能を維持すること。
    • 提案手法PruneSIDは,主要な意味要素分析とグループ内非最大抑制により,トークン圧縮を実現した。
    • LLaVA-1.5において,トークン保持率11.1%で96.3%の精度を達成し,既存手法を凌駕した。
    • 画像および動画といった多様なモダリティとVLMに対して,高い汎用性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09480

  • 自己注意符号化と座標保存融合を用いたコンポーネント認識型スケッチ画像生成 [cs.RO, cs.CV]目的:スケッチから写実的な画像を生成する手法
    • 画像合成は重要な研究分野であり,特にスケッチからの画像生成は,自由な表現と現実世界の再現性の両立が求められる。
    • 既存手法は,スケッチの抽象性や多様性により,細かい詳細の再構築,空間配置の維持,ドメイン適応に課題がある。
    • 本研究は,コンポーネント単位での認識と座標保存融合により,これらの課題を克服し,高品質な画像生成を目指す。
    • 自己注意ベースのオートエンコーダネットワーク(SA2N)により,スケッチの局所的な意味的・構造的特徴を捉える。
    • 座標保存ゲート融合(CGF)モジュールが,特徴を整合性のある空間レイアウトに統合する。
    • 修正されたStyleGAN2を基盤とする空間適応型リファインメントリバイザ(SARR)が,空間的文脈に基づいて写実性と一貫性を高める。

    Link: https://arxiv.org/abs/2603.09484

  • 対角蒸留によるストリーミング自己回帰型ビデオ生成 [cs.CV]目的:ストリーミングビデオ生成のための効率的なモデル圧縮手法
    • 高品質なビデオ生成技術は,多様な応用において不可欠であり,リアルタイム処理が求められる場面が増加している。
    • 既存のビデオ生成モデルは計算コストが高く,リアルタイムストリーミングへの適用が困難であるという課題がある。
    • 時間的依存性を考慮した効率的な蒸留手法により,高速かつ高品質なビデオストリーミングを実現することを試みる。
    • 提案手法である対角蒸留は,ビデオチャンクとノイズ除去ステップ間の時間情報を効果的に活用する。
    • 初期段階では多くのステップを使用し,後半になるにつれてステップ数を減らす非対称な生成戦略を採用することで,長編シーケンスにおけるエラーの蓄積と飽和を軽減する。
    • 実験の結果,5秒のビデオを2.61秒で生成(最大31FPS)し,蒸留されていないモデルと比較して277.3倍の高速化を達成した。

    Link: https://arxiv.org/abs/2603.09488

  • ビジョン言語モデルに対する進化的なプロンプト適応 [cs.CV, cs.AI]目的:ビジョン言語モデルのダウンストリームタスクへの適応
    • 大規模なビジョン言語モデルは多様なタスクに応用可能だが,学習データが限られると性能が低下しやすい。
    • 従来のプロンプト学習法では,事前学習済みの知識を忘れてしまうという問題がある。
    • プロンプトの進化経路を制御することで,知識の喪失を防ぎつつ適応させることを目指す。
    • 提案手法EvoPromptは,モダリティ共有プロンプト射影器を用いて,統一された埋め込み空間から階層的なプロンプトを生成する。
    • 進化的な学習戦略により,低ランク更新を方向成分と大きさ成分に分離し,基礎知識を維持しながら適応を実現する。
    • 特徴幾何学的正則化により表現崩壊を防ぎ,Few-shot学習における最先端の性能と,事前学習済みのゼロショット能力の維持を両立する。

    Link: https://arxiv.org/abs/2603.09493

  • SurgFed:手術ビデオ理解のための言語誘導型マルチタスク連合学習 [cs.CV]目的:手術ビデオにおけるセグメンテーションと奥行き推定のためのマルチタスク連合学習フレームワーク
    • ロボット支援下低侵襲手術の発展に伴い,手術映像の理解が重要視されている。
    • 異なる医療機関間でのデータ共有が困難であり,モデルの汎化性能が課題となっている。
    • 言語による誘導を利用し,異なる手術タイプや組織に対応したモデルを学習する。
    • SurgFedは,言語誘導型チャネル選択(LCS)と,言語誘導型ハイパー集約(LHA)という2つの設計を組み込むことで,クロスサイトおよびクロスタスクの探索を可能にする。
    • LCSは,事前定義されたテキスト入力を利用して,サイト固有の適応を強化する軽量なパーソナライズされたチャネル選択ネットワークを設計する。
    • 実験結果から,SurgFedは4つの手術タイプにおける5つの公開データセットで,最先端の方法よりも優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.09496

  • コンテキスト駆動型探索と視点考慮3D空間推論によるインスタンスナビゲーション [cs.SC, cs.CL, cs.CV, cs.RO]目的:インスタンスナビゲーションにおける,テキスト指示に基づいた目的地点への到達
    • ロボットの自律的な行動範囲は広がり続けており,複雑な環境下でのナビゲーションが重要になっている。
    • 従来のナビゲーション手法では,曖昧な指示や類似物体が多い状況での正確な目標地点の特定が困難である。
    • 本研究は,文脈理解と3D空間推論によって,複雑な状況下でのインスタンスナビゲーションの精度向上を目指す。
    • 文脈情報を価値マップに組み込むことで,無駄な探索を減らし,効率的なナビゲーションを実現した。
    • 視点考慮型の関係性チェックにより,意味的には妥当だが誤った停止を防ぎ,正確性を向上させた。
    • タスク固有の学習や人間の介入なしに,既存のInstanceNavおよびCoIN-Benchで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.09506

  • 運転VLMsの信頼性検証:一貫性のない応答から根拠のある時間的推論へ [cs.CV]目的:運転支援におけるVision-Language Model(VLM)の信頼性
    • 自動運転技術の発展に伴い,安全で信頼性の高い運転支援システムの構築が不可欠となっている。
    • 既存のVLMは,時間的な文脈を考慮した推論が不十分であり,応答の一貫性に課題がある。
    • VLMの応答の一貫性と時間的推論能力を向上させ,より信頼性の高い運転支援を実現する。
    • VLMは,わずかな入力の変化で異なる応答を示す,またはランダムな応答に陥るという応答の一貫性の問題が見られた。
    • モデルの視覚的理解能力が高いにもかかわらず,時間的推論能力が低い場合があり,事前学習されたパターンへの過度な依存が示唆された。
    • 時間的推論を評価するためのデータセットFutureVQAを新たに構築し,Chain-of-Thought reasoningを用いた自己教師ありチューニングにより,一貫性と時間的推論が改善された。

    Link: https://arxiv.org/abs/2603.09512

  • RESBev:BEV知覚の堅牢性を高める [cs.CV]目的:BEV知覚の堅牢性向上
    • 自動運転システムにおいて,周囲環境の正確な知覚は安全性確保の根幹である。
    • センサーの劣化や悪意のある攻撃により,知覚異常が発生し,自動運転の安全性が脅かされる。
    • 様々な外乱や攻撃に対して,既存のBEV知覚システムの堅牢性を向上させる。
    • RESBevは,既存のBEV知覚方法に容易に適用可能で,多様な外乱に対する耐性を高める。
    • 潜在的な世界モデルを構築し,BEV観測の時空間相関を学習することで,破損した観測を再構成する。
    • nuScenesデータセットを用いた実験で,RESBevが既存モデルの堅牢性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.09529

  • DCAU-Net:差分クロスアテンションとチャネル空間特徴融合による医用画像セグメンテーション [cs.CV]目的:医用画像セグメンテーションの精度向上
    • 医療現場における正確な診断支援に不可欠であり,自動化による効率化が求められている。
    • 従来のCNNは受容野が限られ,Transformerは計算コストが高いという課題がある。
    • Transformerの課題を克服し,効率的かつ高精度なセグメンテーションを実現すること。
    • 提案手法DCAU-Netは,差分クロスアテンションにより計算量を削減しつつ,識別構造を強調する。
    • チャネル空間特徴融合により,高レベルな意味情報と低レベルな空間情報を適応的に統合する。
    • 公開データセットでの実験により,DCAU-Netが競合する手法と同等以上の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09530

  • グループ相対方策最適化による統一的なマルチモーダル交互生成への道 [cs.HC, cs.MM, cs.CV]目的:マルチモーダル交互生成の実現
    • 視覚と言語の統合は,ストーリーテリングや視覚的推論など,多様なタスクで不可欠である。
    • 既存のビジョン-言語モデルは,マルチモーダル交互生成において性能が十分でない。
    • 大規模データセットに頼らず,既存モデルの能力を活かした交互生成手法を開発する。
    • 本研究では,強化学習を用いた後学習戦略により,既存の統一モデルにおけるマルチモーダル交互生成能力を向上させた。
    • グループ相対方策最適化をマルチモーダル環境に拡張し,テキストと画像の生成を統合的に最適化した。
    • MMIEおよびInterleavedBenchにおける実験で,提案手法が生成の質と一貫性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.09538

  • 動的な人間関与型EQAのための記憶誘導視点洗練 [cs.CV, cs.MM]目的:動的な人間が関与する環境下における質問応答性能の向上
    • 現実世界のインタラクションを伴うロボットの自律的な意思決定において,視覚的な質問応答能力は不可欠である。
    • 従来のEQA評価は静的な環境に限定され,動的な環境における遮蔽や時間変化への対応が課題となっていた。
    • 遮蔽による曖昧さの解消と,効率的な推論のためのコンパクトな証拠維持を目指す。
    • 提案手法DIVRRは,視点洗練と選択的な記憶管理を組み合わせ,遮蔽下でのロバスト性を向上させる。
    • DIVRRは,曖昧な情報を検証し,有益な証拠のみを保持することで,高速な推論を維持する。
    • DynHiL-EQAおよびHM-EQAデータセットでの実験により,DIVRRが既存手法を上回ることが示された。

    Link: https://arxiv.org/abs/2603.09541

  • 飛行時間非直視型イメージングに関する包括的調査 [cs.CV, cs.GR]目的:飛行時間非直視型イメージング手法の比較検討
    • 障害物の奥を可視化する技術であり,救助活動やセキュリティなど,様々な分野での応用が期待される。
    • 多様な手法が存在し,理論的・実験的側面からの客観的な評価が困難である。
    • 共通の定式化とハードウェアを用いて,既存手法の類似点と相違点を明らかにすること。
    • 複数の手法を共通の評価環境で比較した結果,空間解像度,視認性,ノイズに対する感度において同様の限界が見られた。
    • 手法ごとのパラメータ設定の違いが結果に影響を与えることが示された。
    • 本研究は,今後の飛行時間非直視型イメージングの研究における客観的な比較のための基準となることが期待される。

    Link: https://arxiv.org/abs/2603.09548

  • GeoSolver:リモートセンシングにおけるテスト時推論のスケーリングと,きめ細かなプロセス監視 [cs.CV]目的:リモートセンシングにおけるテスト時推論のスケーリングと,プロセスの妥当性検証
    • リモートセンシングは,地球観測や環境変化の監視に不可欠であり,その解釈の高度化が求められている。
    • 既存のVision-Language Modelは複雑な推論に弱く,中間ステップの視覚的妥当性を確保することが困難である。
    • 中間ステップの視覚的妥当性を高め,テスト時推論のスケーリングを実現し,汎用VLMsの性能向上を目指す。
    • 本研究では,プロセス監視型強化学習フレームワークGeoSolverを提案し,リモートセンシングにおける推論の検証可能性を高めた。
    • 大規模なプロセス監視データセットGeo-PRM-2Mを構築し,トークンレベルのプロセス報酬モデルGeoPRMを訓練することで,きめ細やかな妥当性フィードバックを実現した。
    • GeoSolver-9Bは多様なリモートセンシングベンチマークで最先端の性能を達成し,汎用VLMsの性能向上にも貢献する。

    Link: https://arxiv.org/abs/2603.09551

  • GeoAlignCLIP:遠隔探査における多粒度整合学習による詳細な視覚言語整合性の向上 [cs.RO, cs.CV]目的:遠隔探査画像と自然言語間の詳細な視覚言語整合性の向上
    • 遠隔探査技術は,地球観測や資源管理など,様々な分野で重要な役割を担っている。
    • 既存手法では,画像とテキストの多粒度情報を十分に活用できておらず,詳細なシーン理解が困難である。
    • 画像領域とテキスト概念間のより正確な視覚的・意味的整合性を実現し,複雑なタスクの精度向上を目指す。
    • 提案手法GeoAlignCLIPは,多粒度意味整合学習とモード内一貫性を組み込むことで,遠隔探査における詳細な視覚言語整合性を実現した。
    • 新たに構築したデータセットRSFG-100kは,階層的な教師データを提供し,モデルの学習を支援する。
    • 複数のベンチマークテストにおいて,GeoAlignCLIPは既存手法を凌駕し,堅牢かつ正確な整合性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09566

  • パノラマ言語モデル:不利な全方位シーンに対する [cs.CV]目的:不利な全方位シーンにおける包括的な視覚言語推論
    • 自動運転やロボット工学など,周囲環境の理解は不可欠である。全方位視覚の活用が重要となる。
    • 従来の視覚言語モデルは,狭視野画像の組み合わせに依存し,パノラマ画像が持つ空間的・文脈的関係性を十分に活かせていない。
    • パノラマ画像の本質的な利点を活かし,よりロバストで包括的な全方位シーンの理解を実現することを目指す。
    • 提案手法であるパノラマ言語モデル(PLM)は,従来のピンホールベースモデルを上回る性能を示す。
    • 新たなパノラマVQAデータセットPanoVQAは,遮蔽や事故など,不利な状況下での推論を可能にする。
    • 既存のVLMsにプラグアンドプレイ可能なパノラマスパースアテンションモジュールを開発し,再学習の必要性を回避した。

    Link: https://arxiv.org/abs/2603.09573

  • BinaryAttention:VisionおよびDiffusion Transformerのための1ビットQKアテンション [cs.CV]目的:VisionおよびDiffusion Transformerにおける高速かつ高精度な1ビットQKアテンション手法
    • Transformerは画像処理を含む多様な分野で成功を収めているが,計算コストが課題となっている。
    • アテンションモジュールの計算量が大きく,特にVision Transformerにおいて性能向上のボトルネックになっている。
    • 1ビット化による効率化を図りつつ,アテンションの精度を維持することで,計算コスト削減を目指す。
    • 提案手法BinaryAttentionは,A100 GPU上でFlashAttention2と比較して2倍以上の高速化を実現した。
    • Vision TransformerおよびDiffusion Transformerのベンチマークにおいて,BinaryAttentionはフル精度アテンションと同等以上の性能を発揮した。
    • BinaryAttentionは,低ビットVisionおよびDiffusion Transformerの可能性を広げる効果的な代替手法である。

    Link: https://arxiv.org/abs/2603.09582

  • MDPベースの攻撃者に対する隠密侵入防御のゲーム理論的モデル化 [cs.RO, cs.CR, cs.GT]目的:高度な持続的脅威(APT)に対する隠密侵入防御戦略
    • インターネット利用の拡大に伴い,サイバー脅威が増加しており,特にAPTは巧妙かつ長期にわたる攻撃で甚大な被害をもたらす。
    • APT攻撃はステルス性が高く,防御側は攻撃者の位置や進捗状況を把握することが困難である。
    • 攻撃者の知識レベルに応じて最適な防御戦略を導き出し,重要な資産へのアクセス確率を低減することを目指す。
    • 攻撃者と防御者の戦略的相互作用をゲーム理論的にモデル化し,攻撃グラフ上でAPTの進化を分析した。
    • 防御側が侵入検知センサーを配置する間隔と位置,攻撃側の行動パターンが,防御効果に大きく影響することが示された。
    • スタッケルベルク,ブラインド,信念ベースの3つの情報環境下で,最適な防御戦略を導出した。

    Link: https://arxiv.org/abs/2603.09587

  • ParTY:表現豊かなテキストからモーションへの変換における部位ガイダンス [cs.CV]目的:テキスト記述からの自然で表現豊かな人体モーションの生成
    • モーション生成は,ロボット工学,バーチャルリアリティ,アニメーションなど広範な分野で重要である。
    • 既存手法では,特定の身体部位に関わる動作を正確に反映することが困難である。
    • 部位ごとのモーション生成におけるテキストと身体部位の整合性と,全身モーションの一貫性を解決する。
    • ParTYは,部位ガイダンスネットワーク,部位認識テキスト接地,全身-部位融合により,表現豊かで一貫性のあるモーションを生成する。
    • 実験により,ParTYが既存手法と比較して,部位レベルおよび一貫性レベルで大幅な改善を達成することが示された。

    Link: https://arxiv.org/abs/2603.09611

  • サッカードに着想を得たVisionTransformerアテンションマップを用いた画像分類へのアプローチ [cs.CV]目的:画像分類における効率性と性能向上
    • 人間の視覚システムは,限られた代謝制約下で高い知覚性能を発揮する。そのメカニズム解明はAI発展に重要。
    • 従来のAIは画像全体を均等に処理するため,効率が悪く,生物の視覚のような柔軟性に欠ける。
    • 人間のサッカードのような選択的注意メカニズムをAIに導入し,効率的な画像処理を実現すること。
    • DINOの注意マップが人間の視線パターンと類似していることを利用し,サッカードに着想を得た画像処理手法を提案。
    • ImageNetデータセットを用いた分類実験で,本手法は既存の性能を維持し,場合によっては上回る結果を示した。
    • DINOは,人間の視線予測モデルと比較して,情報量の多い領域を選択する際のガイダンスとして優れていることが示された。

    Link: https://arxiv.org/abs/2603.09613

  • ゼロショットMRI超解像のための物理駆動3Dガウスレンダリング [cs.CV]目的:ゼロショットMRI超解像フレームワーク
    • 臨床診断において高解像度MRIが不可欠だが,撮像時間の長さとモーションアーチファクトが課題。
    • 既存の超解像手法は,データ依存性か計算コストの高さのいずれかの制約がある。
    • データ要件と効率性のバランスを取り,臨床応用可能なMRI超解像を実現する。
    • 提案手法は,明示的なガウス表現を用いて,データ要件と効率性のバランスを実現した。
    • MRI特性を反映したガウスパラメータにより,学習パラメータ数を削減しつつMR信号の忠実性を維持した。
    • 物理に基づいたボリュームレンダリングと並列計算により,高速な学習と推論を実現した。

    Link: https://arxiv.org/abs/2603.09621

  • 量子化画像復元のためのデコーダーフリー蒸留 [cs.CV]目的:量子化画像復元におけるモデル圧縮手法の開発
    • エッジデバイスでの利用を考慮したモデルの軽量化は,画像処理分野において重要な課題である。
    • 量子化認識訓練と知識蒸留を組み合わせた場合,低レベルな画像復元における最適化が困難である。
    • 教師と生徒の能力差,デコーダーでの誤差増幅,量子化ノイズによる最適化の不安定性を解決する。
    • 提案手法(QDR)は,FP32性能の96.5%をInt8モデルで達成し,NVIDIA Jetson Orin上で442 FPSを実現した。
    • FP32での自己蒸留により容量ミスマッチを解消し,デコーダーフリー蒸留で誤差増幅を抑制することに成功した。
    • 学習可能なMagnitude Reweightingにより最適化の競合を安定化し,ダウンストリームの物体検出性能を16.3 mAP向上させた。

    Link: https://arxiv.org/abs/2603.09624

  • 視覚と言語モデルによる合成データ生成の根拠付け [cs.CV, cs.AI]目的:リモートセンシングにおけるセグメンテーションとキャプション生成のための合成データ拡張と評価の枠組み
    • 深層学習モデルの性能向上には多様で大規模なデータが必要であり,合成データは既存データセットの改善に貢献する。
    • 既存の合成データ評価指標は潜在特徴の類似度を計算するため,解釈が難しく,下流タスクへの貢献と必ずしも相関しない。
    • 視覚と言語モデルに基づき,セマンティックな整合性を検証することで,解釈可能な合成データ評価を可能にする。
    • 合成データのみで訓練されたモデルは競争力のある性能を示すが,実データと合成データを組み合わせた訓練では,実データのみのベースラインを上回る結果が得られた。
    • ARAS400kデータセットは,セマンティック構成の分析,キャプションの冗長性の最小化,視覚構造と言語記述間のクロスモーダル一貫性の検証を可能にする。
    • 本研究は,リモートセンシングタスク,特にセマンティックセグメンテーションと画像キャプション生成のためのスケーラブルなベンチマークを確立する。

    Link: https://arxiv.org/abs/2603.09625

  • X-GS:3DGSアーキテクチャとダウンストリームマルチモーダルモデルを統合する拡張可能なオープンフレームワーク [cs.CV, cs.CL]目的:3DGSを用いたリアルタイムオンラインSLAMとセマンティック情報付与,およびダウンストリームマルチモーダルモデルとの連携
    • 3DGSは新しい視点からの画像合成において強力であり,空間AI分野への応用が広がっている。
    • 既存の3DGS手法は,特定のドメインに特化しており,汎用的な統合フレームワークが存在しない。
    • 3DGSとマルチモーダルモデルを連携させ,より高度な空間認識能力を実現すること。
    • X-GSフレームワークは,リアルタイムオンラインSLAMとセマンティック情報を統合し,高い効率性と有効性を示す。
    • X-GS-Perceiverパイプラインは,RGB/RGB-Dビデオストリームから3Dガウスとポーズを同時に最適化し,セマンティック特徴を抽出する。
    • 生成されたセマンティック3Dガウスは,物体検出やゼロショットキャプション生成といったダウンストリームタスクに活用可能である。

    Link: https://arxiv.org/abs/2603.09632

  • OTPL-VIO:最適輸送線分アソシエーションと適応的不確実性を用いたロバストな視覚慣性オドメトリ [cs.CV, cs.RO]目的:ロバストな視覚慣性オドメトリの実現
    • ロボットの自律移動や拡張現実において,環境理解と自己位置推定は不可欠である。
    • 低テクスチャ環境や急激な照明変化下では,特徴点が不安定となり,正確な位置推定が困難となる。
    • 線構造を活用し,特徴点に依存しないロバストな線分アソシエーション手法を確立すること。
    • 提案手法では,線分に専用の深層記述子を付与し,エントロピー正則化された最適輸送法を用いて線分間の一致を評価する。
    • この手法は,曖昧さ,外れ値,部分的な観測下でも整合性の高い対応関係を確立できる。
    • EuRoCやUMA-VIのデータセット,そして実環境での実験により,提案手法の精度とロバスト性が検証された。

    Link: https://arxiv.org/abs/2603.09653

  • 注意をいつ固定するか:ビデオ拡散におけるトレーニングフリーのKV制御 [cs.CL, cs.IR, cs.CV, cs.AI, cs.ET, eess.IV]目的:ビデオ拡散モデルにおける背景の一貫性維持と前景品質の向上
    • ビデオ編集において,背景の安定性と前景の高品質化を両立させることは重要である。
    • 背景情報を過度に注入するとアーティファクトが発生しやすく,背景固定が強すぎると前景の生成能力が制限される。
    • 背景固定と前景生成のバランスを動的に制御し,アーティファクトを抑制しつつ高品質なビデオ生成を目指す。
    • 提案手法KV-Lockは,事前学習済みDiTベースのモデルに容易に組み込めるトレーニングフリーなモジュールである。
    • 拡散モデルの潜在的な幻覚検出を活用し,キャッシュされた背景KVと新しく生成されたKVの融合比率とCFGスケールを動的に調整する。
    • 実験結果から,KV-Lockは様々なビデオ編集タスクにおいて,既存手法よりも優れた前景品質と背景の一貫性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09657

  • 参加型予算編成における比例性の度合い [cs.GT]目的:参加型予算編成における比例性の度合い
    • 民主的な意思決定の重要な手段であり,資源配分の公平性を高めることが期待される。
    • 既存の方法では,比例性が十分に保証されておらず,配分結果の公平性に課題がある。
    • 参加型予算編成における主要な手法の比例性を定量的に評価し,公平性の改善に貢献する。
    • 均等分割法とフラグメンの逐次ルールという2つの手法について,比例性の度合いの上界を導出した。
    • 理論的結果は,均等分割法がより強い公理的保証を持つにもかかわらず,両手法の比例性は同程度であることを示している。
    • 実際の参加型予算編成データを用いた実験評価は,理論的知見を裏付けている。

    Link: https://arxiv.org/abs/2603.09660

  • 風駆動物体ダイナミクスの物理情報に基づく微分可能なモデル [cs.CV]目的:風駆動物体ダイナミクスモデルの構築
    • 風や物体の挙動を理解する上で重要であり,現実世界のシミュレーションに応用可能である。
    • 風の不可視性や時間空間的な変動,複雑な物体の変形が課題となっている。
    • 動画から風と物体の相互作用を正確に再構築し,シミュレーション精度を向上させる。
    • DiffWindは,風場と物体の動きを同時に最適化することで,高精度な再構築を実現した。
    • 物理情報制約として格子ボルツマン法を導入し,流体力学法則への適合性を確保した。
    • 新しい風条件下の順方向シミュレーションや風リターゲティングなど,応用範囲が広い。

    Link: https://arxiv.org/abs/2603.09668

  • VarSplat:不確かさ考慮型3DガウススプラッティングによるロバストなRGB-D SLAM [eess.SY, cs.SY, cs.CV]目的:不確かさを考慮した3Dガウススプラッティングに基づくRGB-D SLAMシステム
    • SLAMは,ロボットや自動運転などの分野で,環境理解と自己位置推定に不可欠な技術である。
    • 従来の3DGS-SLAMは,計測の信頼性を明示的に扱わず,低テクスチャ領域でドリフトが発生しやすい。
    • 本研究は,スプラットごとの外観分散を学習することで,より安定したSLAMを実現することを目指す。
    • VarSplatは,スプラットごとの外観分散を学習し,総分散の法則とアルファ合成を用いて微分可能なピクセル単位の不確かさマップを生成する。
    • この不確かさマップは,トラッキング,サブマップ登録,ループ検出を信頼性の高い領域に誘導し,最適化の安定性を向上させる。
    • ReplicaやTUM-RGBD,ScanNet,ScanNet++での実験により,VarSplatが既存手法と比較して,トラッキング,マッピング,新規視点合成において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09673

  • マーカーレス単眼ヒューマンモーションキャプチャにおける3D足モーション再構成の改善 [cs.CV]目的:3D足モーションの再構成精度向上
    • 歩行解析やアニメーション等への応用において,正確な3D人体モーションの把握は不可欠である。
    • 既存手法では,特に足のような微細な関節の動きの捉え方に課題があり,精度が制限されている。
    • 本研究は,不正確な注釈や多様性の乏しいモーションデータに起因する足モーションの再構成精度低下を解決する。
    • FootMRは,既存のヒューマンリカバリーモデルが出力した足モーションを,2Dキーポイント系列から3Dへ変換することで改善する。
    • 大規模なモーションキャプチャデータを活用し,画像と3D注釈の不正確さによる問題を回避する。
    • 膝や足の動きを文脈情報として組み込み,残差足モーションを予測することで汎化性能を向上させている。

    Link: https://arxiv.org/abs/2603.09681

  • AutoViVQA:ベトナム語の視覚的質問応答のための大規模自動構築データセット [cs.CL, cs.CV, cs.AI]目的:ベトナム語の視覚的質問応答のための大規模データセット
    • 近年,画像とテキストを理解するマルチモーダル研究が重要視されている。
    • 既存のデータセットには,言語バイアスが含まれている場合があり,視覚的根拠付けが不十分である。
    • 本研究は,ベトナム語における高品質な視覚的質問応答データセットの構築を目指す。
    • 本研究では,Transformerベースのアーキテクチャを用いてベトナム語の視覚的質問応答を検討した。
    • テキストおよび視覚の事前学習を活用し,マルチリンガル環境下での自動評価指標を比較した。
    • 大規模言語モデルが,VQAタスクにおける自動評価と人間による判断の整合性を高める可能性を示唆した。

    Link: https://arxiv.org/abs/2603.09689

  • DRIFT:4Dレーダー点群を用いた自動運転知覚のための二重表現相互融合Transformer [cs.RO, cs.CV]目的:4Dレーダー点群を用いた自動運転知覚における,局所的特徴とグローバル特徴の有効な融合
    • 自動運転システムの安全性向上には,周辺環境の正確な認識が不可欠である。
    • レーダーはLiDARに比べ点群密度が低く,環境認識の精度向上が課題である。
    • レーダーの持つグローバルな文脈情報とLiDARの持つ局所的な情報を効率的に統合すること。
    • 提案手法DRIFTは,View-of-Delftデータセットにおいて,ベースラインモデルを上回る性能を示した。
    • 特に,物体検出タスクにおいて,mAPが52.6%と,CenterPointの45.4%を上回る結果が得られた。
    • 局所特徴とグローバル特徴を効果的に融合する二重パスアーキテクチャが,性能向上に貢献している。

    Link: https://arxiv.org/abs/2603.09695

  • TemporalDoRA:ロバストな手術動画質疑応答のための時間的PEFT [cs.CV]目的:手術動画質疑応答における時間的根拠付けの精度向上と,質問の言い回しによる影響へのロバスト性向上
    • 手術支援におけるAI活用が期待される中,手術動画の内容を理解する質疑応答システムの重要性が高まっている。
    • 既存のPEFT手法ではフレーム間の相互作用を明示的にモデル化せず,時間的証拠の活用が制限されるという課題があった。
    • 時間的に一貫性のある視覚的手がかりに基づいた更新を促し,わずかなパラメータ増加でロバスト性を向上させる。
    • TemporalDoRAは,既存手法と比較して,質問の言い換えに対する性能を向上させた。
    • TemporalDoRAの低ランク分岐内での時間的混合が,性能向上に大きく貢献することが確認された。
    • REAL-Colon-VQAおよびEndoVis18-VQAのデータセットを用いた評価で,一貫した性能向上が確認された。

    Link: https://arxiv.org/abs/2603.09696

  • TriFusion-SR:トリモーダル医用画像融合と超解像の同時処理 [cs.CV]目的:トリモーダル医用画像の融合と超解像処理
    • 多様な情報を統合することで診断精度向上が期待されるため,医用画像融合は重要である。
    • 解像度の低下やモダリティ間の差異が,融合効果を制限する問題がある。
    • トリモーダル画像における周波数特性の不均衡を解消し,高画質な融合画像を得る。
    • 提案手法TriFusion-SRは,ウェーブレット変換を用いた周波数領域での相互作用を実現した。
    • 潜在係数調整戦略と適応的空間周波数融合モジュールにより,構造を重視した高品質な融合を実現した。
    • PSNRが4.8-12.4%向上し,RMSEとLPIPSも大幅に低減するなど,最先端の性能を示した。

    Link: https://arxiv.org/abs/2603.09702

  • ProGS:3Dガウススプラッティングの漸進的符号化に向けて [cs.CV]目的:3Dガウススプラッティングデータの効率的な漸進的符号化手法
    • 3Dコンテンツの利用拡大に伴い,大規模データの効率的な取り扱いが重要となっている。
    • 既存の3Dガウススプラッティングはデータサイズが大きく,保存・伝送に課題があった。
    • 変動する帯域幅環境下でのストリーミングに適した漸進的符号化を実現する。
    • ProGSは,3Dガウススプラッティングデータをオクトリー構造に組織することで,効率的な漸進的符号化を可能にした。
    • ファイルストレージを元の3DGS形式と比較して45倍に削減し,視覚的パフォーマンスを10%以上向上させた。
    • ProGSは,多様なネットワーク環境下でのリアルタイムアプリケーションに堅牢なソリューションを提供する。

    Link: https://arxiv.org/abs/2603.09703

  • MUGEN:大規模オーディオ言語モデルにおける多音声理解の評価と改善 [cs.RO, cs.SD, cs.AI, cs.CL, eess.AS]目的:大規模オーディオ言語モデルの多音声理解能力
    • 近年,音声認識や音楽生成など,音声処理技術の重要性が増しており,その基盤となる大規模言語モデルへの期待が高まっている。
    • 既存の大規模言語モデルは,単一音声の処理には優れるものの,複数の音声信号を同時に理解する能力が十分ではない。
    • 本研究では,多音声理解能力を評価するためのベンチマークを構築し,その改善手法を提案することで,より高度な音声処理を実現する。
    • MUGENベンチマークを用いて評価した結果,既存の大規模オーディオ言語モデルは,多音声環境において性能が著しく低下することが明らかになった。
    • Audio-Permutational Self-Consistencyという,音声入力の順序を多様化する手法を適用することで,最大6.28%の精度向上が確認された。
    • さらに,Chain-of-Thoughtとの組み合わせにより,性能は最大6.74%まで向上し,複雑な聴覚理解の評価基盤が確立された。

    Link: https://arxiv.org/abs/2603.09714

  • GSStream:3Dガウススプラッティングに基づくボリュームシーンストリーミングシステム [cs.CV]目的:3Dガウススプラッティングデータの効率的なストリーミング配信
    • リアルタイムレンダリング技術の発展に伴い,高品質な3Dコンテンツへの需要が高まっている。
    • 3Dガウススプラッティングはデータ量が巨大であり,帯域幅を圧迫する課題がある。
    • 複数ユーザーの視点予測とビットレート適応により,効率的なストリーミング配信を実現する。
    • GSStreamは,協調的なビューポート予測モジュールと深層強化学習に基づくビットレート適応モジュールを統合した。
    • ユーザーの未来の行動を予測し,状態と行動空間の変動に対応することで,効率的なボリュームシーン配信を可能にした。
    • 実験の結果,既存のストリーミングシステムと比較して,視覚品質とネットワーク使用量の両方で優れていることが示された。

    Link: https://arxiv.org/abs/2603.09718

  • フレームレベル行列注意を用いた効率的な動画生成のための拡散Transformer [cs.CV]目的:効率的な動画生成のための新しいアプローチ
    • 動画生成は,コンテンツ制作や応用において重要性が増している分野である。
    • 拡散モデルでは,複雑な時空間動的特性を効率的にモデル化することが困難である。
    • フレームレベルの行列注意機構により,効率性と表現力のバランスを取る。
    • 提案手法であるFrameDiT-Hは,複数の動画生成ベンチマークで最先端の結果を達成した。
    • 時間的な一貫性と動画品質が向上し,Local Factorized Attentionと同等の効率性を維持した。
    • 行列注意機構は,フレーム間の関係性を効果的に捉え,大規模および小規模な動きに適応する。

    Link: https://arxiv.org/abs/2603.09721

  • EXPLORE-Bench:長期的推論による一人称視点シーン予測 [cs.CE, cs.ET, cs.CV, cs.AI, cs.CL]目的:一人称視点における長期的物理的帰結の推論能力の評価
    • 具現化されたエージェントの基盤として多Modal大規模言語モデルが注目されている。
    • 行動の長期的な物理的帰結について,信頼性の高い推論が困難である。
    • 一人称視点での長期的推論能力を定量的に評価するためのベンチマークを提供する。
    • 提案されたEXPLORE-Benchは,多様なシナリオにおける実世界の第一人称動画から作成された。
    • 多くのMLLMは人間と比較してパフォーマンスに大きな差があり,長期的推論が課題であることが示された。
    • 行動系列を段階的に分解することで,パフォーマンスが向上する可能性があるが,計算コストが増加する。

    Link: https://arxiv.org/abs/2603.09731

  • 胎児エージェント:胎児超音波画像・動画解析のためのマルチエージェントシステム [cs.CV, cs.MA]目的:胎児超音波画像および動画の包括的な解析
    • 産科領域において超音波検査は不可欠であり,胎児の状態を評価する上で重要な役割を担っている。
    • 熟練した医師の専門知識に依存しており,自動解析ツールは汎用性と精度を両立させるのが課題であった。
    • 診断,計測,セグメンテーション等の多様なタスクを統合的に解析し,臨床ワークフローを支援すること。
    • FetalAgentsは,複数の専門家エージェントを動的に編成し,高い精度で胎児超音波画像解析を実現した。
    • 動画ストリームの要約機能により,重要なフレームを自動抽出し,臨床レポートを生成することが可能となった。
    • 多施設共同評価において,既存モデルや大規模言語モデルと比較して,より堅牢かつ正確な性能を示した。

    Link: https://arxiv.org/abs/2603.09733

  • M^2-Occ:不完全なカメラ入力に対する自律運転のための堅牢な3Dセマンティック占有予測 [cs.CV, cs.RO, eess.IV]目的:不完全なマルチカメラ入力下におけるセマンティック占有予測
    • 自律運転における周囲環境の正確な理解は,安全確保に不可欠である。
    • 従来のカメラベース手法は完全な視点情報を前提としており,現実環境での遮蔽や故障に弱い。
    • 遮蔽や故障時でもセマンティック占有予測の精度とロバスト性を向上させることを目指す。
    • 提案手法M^2-Occは,特徴空間での見え隠れ補完と,セマンティックプロトタイプの活用により,不完全な入力下でも高い性能を発揮する。
    • nuScenesデータセットを用いた実験により,後方視点の欠如時においてIoUが4.93%向上することが示された。
    • 欠損カメラ数が増加するにつれて,性能向上幅が拡大し,5台欠損時にはIoUが5.01%向上した。

    Link: https://arxiv.org/abs/2603.09737

  • 段階的報酬:連続環境におけるビジョン言語ナビゲーションのためのステップ認識型コントラスト対比アラインメント [cs.OS, cs.DC, cs.RO, cs.CV]目的:ビジョン言語ナビゲーションにおけるステップ認識型コントラスト対比アラインメントの有効性
    • ビジョン言語ナビゲーションは,現実世界の環境でロボットが指示に従って移動する上で重要である。
    • 従来の学習方法は,汎化性能,エラーからの回復,学習の安定性のバランスを取ることが困難である。
    • 不完全な軌跡から密な教師信号を抽出し,ステップごとに評価することで,これらの課題を解決することを目指す。
    • SACAは,ステップごとに進捗を評価し,失敗した軌跡を有効な部分と分岐点に分解する。
    • シナリオ条件付きグループ構築機構により,バッチを適切なリサンプリングと最適化戦略に動的にルーティングする。
    • VLN-CEベンチマークにおいて,SACAは最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.09740

  • ENIGMA-360:産業環境における人間行動理解のための自己視点・他者視点データセット [cs.CV]目的:産業環境における人間行動理解のための自己視点(ego)と他者視点(exo)のデータセット
    • 産業における安全性向上や作業支援システム開発において,人間行動の理解は不可欠である。
    • 現実的な産業環境で,自己視点と他者視点の両方を捉えたデータセットが不足していた。
    • 産業環境における人間行動理解のための,自己視点と他者視点のデータセットを構築し,課題解決を目指す。
    • ENIGMA-360は,現実の産業環境で収集された180組の自己視点・他者視点の動画データセットである。
    • 各動画は時間的に同期されており,人間行動の様々な側面を研究するためのアノテーションが付与されている。
    • 3つの基礎タスク(行動セグメンテーション,キーステップ認識,自己視点における人間-物体インタラクション検出)のベースライン実験から,既存手法の限界が示された。

    Link: https://arxiv.org/abs/2603.09741

  • インストラクションビデオにおける手順計画のための言語を意識した計画モデルLAP [cs.CV]目的:インストラクションビデオにおける手順計画のための言語を意識した計画手法
    • 手順計画は,ロボット工学やヒューマン・コンピュータ・インタラクションにおいて重要な課題である。
    • 既存手法は視覚情報に依存しており,視覚的に類似したアクションの曖昧性に対処が難しい。
    • 言語情報を活用することで,視覚情報だけでは捉えきれないアクションの差異を明確化し,計画精度を向上させる。
    • 提案手法LAPは,視覚情報をテキスト記述に変換し,そのテキスト埋め込み表現を拡散モデルの計画に利用する。
    • 実験結果から,LAPはCrossTask,Coin,NIVのベンチマークにおいて最先端の性能を達成した。
    • 言語を意識した計画が,手順計画において有意な利点をもたらすことが示された。

    Link: https://arxiv.org/abs/2603.09743

  • LogoDiffuser:文字認識注意制御によるトレーニング不要の多言語ロゴ生成・様式化 [cs.RO, cs.CG, cs.HC, cs.DB, cs.CL, cs.CV]目的:多言語ロゴのデザイン生成と様式化
    • ロゴはブランドイメージを構築する上で重要であり,視覚的要素とテキスト要素の調和が不可欠である。
    • 既存手法では,創造的なスタイル適用時に文字の形状が歪んだり,追加学習なしでの多言語テキスト生成が困難である。
    • 言語に依存せず,文字構造を制御しつつ,視覚デザインと調和した多言語ロゴを生成すること。
    • LogoDiffuserは,マルチモーダル拡散変換器を用いて,トレーニング不要で多言語ロゴを生成する。
    • 文字を画像として入力することで,言語に関わらず堅牢な文字構造制御を実現している。
    • 共同注意メカニズムの解析と注意マップの注入により,文字構造と視覚デザインの一体化を可能にした。

    Link: https://arxiv.org/abs/2603.09759

  • PanoAffordanceNet:360度屋内環境における包括的なアフォーダンスのグラウンディングに向けて [cs.CV, cs.RO, eess.IV]目的:360度屋内環境における包括的なアフォーダンスのグラウンディング
    • ロボットやAIエージェントが,周囲の環境を理解し,行動するためには,360度空間の全体的な把握が不可欠である。
    • 既存のアフォーダンスグラウンディングは,視点に依存し,物中心であるため,空間全体のアフォーダンスを捉えきれていない。
    • 360度空間におけるアフォーダンスの全体的な把握を可能にする新たな手法を開発し,空間理解能力の向上を目指す。
    • 提案手法PanoAffordanceNetは,歪み補正モジュールと球面稠密化ヘッドにより,360度画像特有の歪みを軽減し,空間的な連続性を復元する。
    • ピクセルレベル,分布レベル,領域-テキスト対比学習という多層的な制約を組み合わせることで,少ない教師データ下での意味ドリフトを抑制することに成功した。
    • 大規模な360度アフォーダンスグラウンディングデータセット360-AGDを構築し,実験を通じて提案手法が既存手法を大きく上回る性能を示すことを実証した。

    Link: https://arxiv.org/abs/2603.09760

  • Ego:埋め込み誘導による視覚言語モデルのパーソナライズ [cs.RO, cs.CV, cs.AI]目的:視覚言語モデルのパーソナライズ手法
    • AIアシスタントの進化には,個々のユーザーに合わせた体験提供が不可欠である。
    • 既存手法は,汎用性や効率性に課題があり,実用化が難しい場合がある。
    • モデル内部の表現を利用し,効率的かつ汎用的なパーソナライズを実現する。
    • モデル内部の注意機構を活用し,特定の概念を表現する視覚トークンを抽出する。
    • 抽出されたトークンを記憶として利用し,テスト画像における概念の認識と記述を可能にする。
    • シングルコンセプト,マルチコンセプト,動画パーソナライズなど,多様な設定で高い性能を示した。

    Link: https://arxiv.org/abs/2603.09771