arXiv雑要約

画像・音声 - 2026/03/16 公開

  • Bin~Wan,G2HFNet:光学リモートセンシング画像における顕著物体検出のためのジオグラン認識階層的特徴融合ネットワーク [cs.CV]目的:光学リモートセンシング画像における顕著物体検出の性能向上
    • 航空写真等のリモートセンシング画像は,多様な分野で活用が拡大しており,その分析技術の重要性が高まっている。
    • リモートセンシング画像は,スケールの変動や複雑な背景が課題であり,既存手法では十分な検出性能が得られていない。
    • 本研究は,ジオメトリと粒度情報を活用し,より高精度な顕著物体検出を実現することを目的としている。
    • G2HFNetは,Swin Transformerをバックボーンとし,マルチスケール詳細強調モジュール,デュアルブランチジオグラン相補モジュール,深層意味知覚モジュールを統合する。
    • ローカル・グローバルガイダンス融合モジュールを導入することで,効果的なマルチレベル特徴統合を実現している。
    • 実験の結果,G2HFNetは高品質な顕著性マップを生成し,困難なリモートセンシングシナリオにおいて検出性能を大幅に向上させることを示した。

    Link: https://arxiv.org/abs/2603.12680

  • RGB-T画像における顕著物体検出のための領域誘導選択的最適化ネットワーク [cs.CV]目的:RGB-T画像の顕著物体検出における性能向上
    • RGBと熱画像を組み合わせることで,単一の画像では捉えられない情報を活用し,よりロバストな検出が可能となる。
    • RGB画像と熱画像では,顕著な領域の分布に不一致が生じることが多く,検出精度を低下させる原因となる。
    • RGBと熱画像の不一致を軽減し,より正確な顕著物体検出を実現することを目的とする。
    • 提案手法RSONetは,RGB画像と熱画像の情報を効果的に融合し,既存の最先端手法と比較して優れた性能を示す。
    • 領域誘導モジュールと選択的最適化モジュールにより,顕著領域の分布の不一致を効果的に抑制する。
    • 高密度接続と視覚的状態空間ブロックを用いた詳細強調モジュールにより,検出結果の品質を向上させる。

    Link: https://arxiv.org/abs/2603.12685

  • STRAP-ViT:ViTにおける敵対的パッチからの防御のための分離されたトークンとランダム化変換 [cs.RO, cs.CV, cs.LG]目的:敵対的パッチに対するVision Transformer(ViT)の防御機構
    • 画像認識技術は,自動運転や医療診断など,多くの分野で重要な役割を担っている。
    • ViTは敵対的パッチに対して脆弱であり,わずかなノイズで誤認識を引き起こす可能性がある。
    • 敵対的パッチの影響を受けるトークンを分離し,ランダム変換を適用することで,堅牢性を向上させる。
    • STRAP-ViTは,ViTアーキテクチャ内に組み込むことができ,追加の学習は不要である。
    • 複数のViTモデルとデータセットにおいて,様々な敵対的攻撃に対して高い防御性能が確認された。
    • STRAP-ViTは,既存の最先端技術と比較して,より優れたロバスト性を実現している。

    Link: https://arxiv.org/abs/2603.12688

  • CM-Bench:可視光と赤外画像のクロスモーダル特徴量マッチングの包括的ベンチマーク [cs.CV]目的:可視光と赤外画像のクロスモーダル特徴量マッチング評価のための標準化されたベンチマークと指標の提供
    • クロスモーダルな視覚情報処理は,位置推定,ナビゲーション,知覚など幅広い応用分野で重要である。
    • 可視光と赤外画像間の大きな外観の違いにより,クロスモーダル特徴量マッチングは依然として困難な課題である。
    • 既存の評価基準の標準化不足を解消し,クロスモーダル特徴量マッチング研究を促進することを目的とする。
    • CM-Benchは,多様なクロスモーダルデータセット上で30のアルゴリズムを評価する包括的なベンチマークである。
    • 従来手法と深層学習ベースの手法を分類し,ホモグラフィ推定,相対姿勢推定,ジオロケーションなどのタスクで評価を行った。
    • 適応的前処理フロントエンドを導入し,マッチング前に適切な画像強調戦略を自動的に選択する。
    • 実用的なジオロケーション評価のための手動アノテーション付き対応点を含む,赤外-衛星クロスモーダルデータセットを新たに提供する。

    Link: https://arxiv.org/abs/2603.12690

  • ABAW-10競技会におけるHSEmotionチーム:表情認識,価感情・喚起度推定,AU検出,および微細な暴力分類 [cs.CV, cs.AI]目的:表情認識,価感情・喚起度推定,行動単位検出,微細な暴力分類の性能向上
    • 人間の感情理解は,人間とコンピュータ間の自然なコミュニケーションに不可欠である。
    • 自然環境下での感情認識は,照明,ポーズ,オクルージョンなどの要因により困難である。
    • 既存手法の性能向上と,よりロバストな感情認識システムの開発が求められている。
    • 本研究では,事前学習済みのEfficientNetベースの感情認識モデルを用いた高速なアプローチを提案した。
    • モデルの信頼度が閾値を超える場合,その予測が使用され,そうでない場合は,多層パーセプトロンに埋め込みを入力する。
    • ABAWチャレンジにおける4つのタスクで,提案手法が既存のベースラインよりも有意に高い検証指標を達成した。

    Link: https://arxiv.org/abs/2603.12693

  • HaltNav: 軽量トポロジー事前知識を用いたリアクティブな視覚停止によるロバストな視覚言語ナビゲーション [cs.NI, cs.RO, cs.CV]目的:視覚言語ナビゲーションにおけるロバスト性の向上
    • 視覚言語ナビゲーションは,厳密な指示追従から自律的な目標達成へと移行しており,そのための構造的事前知識の活用が重要である。
    • 従来のナビゲーションは,計算コストの高い地図を使用したり,環境変化に弱いという課題があった。
    • 環境変化に強く,詳細な指示なしに長距離ナビゲーションを可能にする新しいフレームワークを開発すること。
    • 提案手法HaltNavは,osmAG(OpenStreetMap Area Graph)によるグローバルプランニングと,VLNによるローカル探索を組み合わせることで,ロバスト性を実現した。
    • MLLMベースの脳モジュールが,高レベルなタスク理解と障害物認識を行い,osmAGに基づいて局所的な実行スニペットを生成する。
    • リアクティブな視覚停止(RVH)メカニズムにより,局所的な異常を検出し,osmAGを更新して,実行可能な迂回経路を計画する。

    Link: https://arxiv.org/abs/2603.12696

  • VCBench:長編動画における空間的・時間的状態維持のためのストリーミングカウントベンチマーク [cs.CV]目的:長編動画における空間的・時間的状態維持能力の診断
    • 動画理解において,状態の継続的な追跡・更新は不可欠であり,性能向上に寄与する。
    • 既存のベンチマークは動画理解の評価を進めたが,モデルの状態維持能力の評価は不十分である。
    • 本研究は,カウントを最小限のプローブとして用い,状態維持能力を詳細に診断するベンチマークを提案する。
    • VCBenchは,オブジェクト数とイベント数のカウントを8つの細分化されたカテゴリに分解し,状態維持能力を評価する。
    • 406本の動画と10,071の注釈を用いて1,000組のストリーミングQAペアを生成し,多様なクエリポイントで評価が可能である。
    • 評価の結果,既存のモデルは空間的・時間的状態維持において課題を抱えており,特に周期的なイベントカウントが困難であることが示された。

    Link: https://arxiv.org/abs/2603.12703

  • HFP-SAM:効率的な海洋動物セグメンテーションのための階層型周波数プロンプトSAM [cs.CV]目的:海洋動物のセグメンテーション性能向上
    • 海洋生態系の理解や保護活動において,海洋動物の正確な識別と位置特定は不可欠である。
    • 既存の深層学習手法は,複雑な海洋環境下における長距離モデリングが課題となっていた。
    • SAMの持つ汎用性と,海洋動物固有の周波数情報を活用し,高精度なセグメンテーションを実現する。
    • 提案手法HFP-SAMは,周波数領域の事前マスクを用いてSAMバックボーンに海洋環境情報を効率的に注入する。
    • 周波数分析に基づき重要な領域を強調するFrequency-aware Point Selection(FPS)を導入し,SAMの性能を向上させている。
    • Full-View Mamba(FVM)により,空間的・チャネル的コンテキスト情報を効率的に抽出し,包括的なセグメンテーションマスクを得る。

    Link: https://arxiv.org/abs/2603.12708

  • ドメイン間画像検索のための二重事前知識を持つテキスト・位相相乗ネットワーク [cs.CV]目的:教師なしドメイン間画像検索における表現学習と特徴量整列
    • 画像検索は,大量の画像データから必要な情報を効率的に得るために重要である。
    • 教師なしドメイン間画像検索では,ラベルなしデータからの正確なセマンティックガイダンスが課題である。
    • ドメイン特有情報とセマンティック情報の絡み合いによる表現劣化を解決し,検索性能を向上させる。
    • 提案手法TPSNetは,ドメインごとのクラス固有プロンプト(ドメインプロンプト)をテキスト事前知識として利用する。
    • ドメイン不変位相特徴を位相事前知識として導入し,ドメイン分布の差分を埋めつつセマンティック情報を保持する。
    • TPSNetは,既存の最先端手法と比較してUCDIRベンチマークで大幅な性能向上を達成した。

    Link: https://arxiv.org/abs/2603.12711

  • UNIStainNet:基盤モデルに基づくH&E画像からのIHCバーチャル染色 [cs.CV, cs.LG, eess.IV]目的:H&E画像からのIHCバーチャル染色による診断加速
    • 病理診断の迅速化が求められており,追加の組織学的検査の負担軽減が重要。
    • 限られた組織サンプルでの繰り返し染色が課題であり,効率的な手法が求められる。
    • 病理基盤モデルを活用し,高精度なバーチャル染色を実現し,診断支援を行う。
    • UNIStainNetは,MISTデータセットにおいて4種類のIHC染色全てで最先端の性能を達成した。
    • BCIデータセットにおいても,最高の分布指標を達成し,汎用性の高さを示した。
    • 残存する誤差は非腫瘍組織に集中しており,今後の改善の方向性を示唆している。

    Link: https://arxiv.org/abs/2603.12716

  • COTeスコア:ドキュメントレイアウト解析モデル評価のための分解可能なフレームワーク [cs.CV]目的:ドキュメントレイアウト解析モデルの評価フレームワーク
    • ドキュメント処理の自動化において,正確なレイアウト解析は不可欠である。
    • 既存の評価指標は画像認識向けであり,ドキュメント固有の構造を反映していない。
    • ドキュメントの構造と意味に基づいた,より適切な評価指標を提案する。
    • COTeスコアは,従来の指標よりもモデルの性能を詳細に分析可能である。
    • COTeスコアは,モデルの解釈と性能の乖離を最大76%削減する。
    • SSUラベリングなしでもCOTeスコアの有用性が維持され,導入障壁を低減する。

    Link: https://arxiv.org/abs/2603.12718

  • IGASA:点群登録のための統合された幾何学的認識およびスキップ注意モジュール [cs.CV, cs.AI]目的:点群登録の精度向上
    • 3Dビジョン技術は,自動運転やロボティクスなど,多様な応用分野で不可欠である。
    • 現実世界の点群データは,ノイズや遮蔽,大規模な変換の影響を受けやすく,登録精度が低下する。
    • 複雑な環境下でもロバストな点群登録を可能にする新しいフレームワークを開発すること。
    • 提案手法IGASAは,複数のベンチマークデータセットにおいて,最先端手法を大幅に上回る登録精度を達成した。
    • IGASAは,階層ピラミッド構造と,スキップ注意機構,幾何学的認識による洗練化モジュールを統合することで,多様な点群構造に適応する。
    • 本研究は,実用的な3Dビジョンアプリケーションのための点群登録技術の発展に貢献する基盤を提供する。

    Link: https://arxiv.org/abs/2603.12719

  • CMHANet:点群登録のためのクロスモーダルハイブリッドアテンションネットワーク [cs.CV, cs.AI]目的:点群登録の精度とロバスト性の向上
    • 3Dコンピュータビジョンは,大規模3D再構成や拡張現実など,多様な応用分野で不可欠である。
    • 既存手法は,不完全なデータやノイズ,低オーバーラップ領域といった現実世界の複雑な状況下で性能が低下する。
    • 本研究は,2D画像と3D点群の融合によるロバストな特徴表現を獲得し,点群登録の課題を解決する。
    • 提案手法CMHANetは,3DMatchおよび3DLoMatchデータセットにおいて,既存手法を上回る点群登録精度を達成した。
    • CMHANetは,2D画像からの文脈情報と3D点群の幾何学的詳細を融合することで,より包括的で堅牢な特徴表現を実現する。
    • TUM RGB-D SLAMデータセットでのゼロショット評価により,未知のドメインへの汎化能力が確認された。

    Link: https://arxiv.org/abs/2603.12721

  • CognitionCapturerPro:EEG/MEGからの高精度な視覚デコーディング:マルチモーダル情報と非対称なアライメントに向けて [cs.CV, cs.AI]目的:EEGからの視覚刺激再構成の精度向上
    • 脳活動と視覚情報の関係解明は,認知科学やブレイン・マシン・インターフェースの発展に不可欠である。
    • EEGからの視覚情報復元は,情報損失や表現のずれにより,十分な精度が得られていない。
    • マルチモーダル情報と新たなアライメント手法を用いて,視覚復元の精度向上を目指す。
    • 提案手法CognitionCapturerProは,画像,テキスト,深度,エッジといったマルチモーダル情報を統合的に活用する。
    • 不確実性に基づいた類似度スコアリング機構と融合エンコーダにより,モダリティ固有の忠実度を定量化し,共有表現を統合する。
    • THINGS-EEGデータセットにおいて,Top-1とTop-5の検索精度がそれぞれ25.9%と10.6%向上し,既存手法を大きく上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.12722

  • クロスモーダル知識転移を活用した知識に基づいた概念カスタマイズ [cs.CY, cs.HC, cs.CV, cs.AI, cs.CL]目的:知識に基づいた概念カスタマイズの実現
    • 画像生成における概念の制御は重要であり,多様な表現を可能にする。
    • 稀なトークンを用いたカスタマイズは不安定で,概念の本質的な知識を反映しにくい。
    • テキスト知識を視覚的概念に効果的に結びつけ,高精度なカスタマイズを実現する。
    • 提案手法MoKusは,テキストモーダル内の知識の変更を視覚モーダルに転移させることで,高精度なカスタマイズを実現した。
    • KnowCusBenchという新しいベンチマークを導入し,MoKusが最先端手法を上回る性能を示すことを実証した。
    • 知識転移の容易性から,仮想概念の生成や概念の消去といった応用への拡張も可能であることが示された。

    Link: https://arxiv.org/abs/2603.12743

  • ダイナミクスの思考:マルチモーダル大規模言語モデルが物理的4次元世界のダイナミクスをどのように知覚,追跡,推論するか [cs.CV]目的:マルチモーダル大規模言語モデルにおける時空間的推論と局所的なダイナミクス知覚能力の評価
    • 現実世界は時間とともに変化するものであり,その理解はAIにとって不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,静的な視覚理解に優れるものの,動的なシーンの理解が課題である。
    • 時空間的な推論とダイナミクス知覚能力を評価するための大規模ベンチマークを構築し,モデルの性能向上を目指す。
    • 本研究では,多様な動画データセットから構築した大規模ベンチマークDyn-Benchを用いて,既存のモデルの時空間的推論能力を評価した。
    • 評価の結果,既存モデルは時空間的推論と動的オブジェクトの特定において,一貫性のない解釈を示すことが明らかになった。
    • マスクガイデッドフュージョンやST-TCMなどの構造化された統合アプローチが,モデルのダイナミクス知覚と時空間的推論を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.12746

  • 拡散モデルにおける意味的潜在的注入:画像ウォーターマーキングのための区画化埋め込み [cs.CV, cs.CR, cs.LG]目的:画像出所の検証可能性向上
    • デジタルコンテンツの改ざん防止は,信頼性の確保において不可欠である。
    • 従来のウォーターマークは,改ざんや攻撃に対して脆弱な場合がある。
    • 意味情報を活用し,局所的な改ざん検出と特定を可能にすることを目指す。
    • 提案手法SLICEは,画像の意味要素を4つの要因に分離し,ガウスノイズの異なる領域に精密に固定する。
    • これにより,局所的な意味的編集に対する耐性を高め,改ざんの検出と局所化を可能にする。
    • 実験結果から,SLICEは既存手法と比較して,高度な意味的再生成攻撃に対して優れた性能を示す。

    Link: https://arxiv.org/abs/2603.12749

  • 見せることこそが重要:人間のビデオを見て新規オブジェクトを検出する [cs.CV, cs.LG, cs.RO]目的:新規オブジェクトの検出と認識
    • ロボットが人間と協調するためには,未知の物体を即座に認識する能力が不可欠である。
    • 既存の物体検出器は,学習データに含まれない物体に対して性能が低下する課題がある。
    • 人間のデモンストレーションから自動的にデータセットを作成し,言語記述なしに新規オブジェクトを検出すること。
    • 本研究では,「見せることこそが重要」というパラダイムに基づき,言語を介さずに物体検出器を訓練する手法を提案した。
    • 提案手法は,既存の物体検出・認識手法と比較して,操作対象物の検出性能を大幅に向上させた。
    • これにより,ロボットのタスク完了率の改善に貢献できることが示された。

    Link: https://arxiv.org/abs/2603.12751

  • FC-Track:オンライン多物体追跡のためのオーバーラップを考慮した事後アソシエーション補正 [cs.CV, cs.AI]目的:オンライン多物体追跡におけるIDスイッチの軽減
    • ロボットシステムが複雑な環境で動作する上で,信頼性の高い多物体追跡は不可欠である。
    • 遮蔽や物体同士の重なりによりIDスイッチが発生しやすく,追跡の信頼性を損なう。
    • 重なりによる誤ったアソシエーションを防ぎ,長期的なIDスイッチを抑制することを目指す。
    • 提案手法FC-Trackは,IoAに基づき重なり状況下での信頼性の低い外観更新を抑制する。
    • 重なり合ったトラックレットペア間での外観類似度比較により,検出とトラックレットの誤ったアソシエーションを局所的に補正する。
    • MOT17およびMOT20データセットで高い追跡性能と,既存のオンライントラッカーと比較して低い長期IDスイッチ率を達成した。

    Link: https://arxiv.org/abs/2603.12758

  • SAP:4Kパノラマのあらゆるセグメンテーション [cs.CV]目的:4K高解像度パノラマ画像のインスタンスレベルセグメンテーション
    • 没入型・ARシステムにおいて,プロンプトによるインスタンスセグメンテーションが普及している。
    • パースペクティブ画像で学習した基盤モデルは,360度パノラマ画像では性能が低下しやすい。
    • 360度パノラマ画像に対するセグメンテーション性能の向上を目指す。
    • SAPは,パノラマセグメンテーションを固定軌道のパースペクティブ動画セグメンテーションとして再構築した。
    • SAPは,実世界の4Kパノラマベンチマークにおいて,SAM2と比較して+17.2のゼロショットmIoU向上を達成した。
    • 本研究では,InfiniGenエンジンを用いて183,440枚の4Kパノラマ画像を合成し,大規模な教師データセットを構築した。

    Link: https://arxiv.org/abs/2603.12759

  • HIFICL:マルチモーダルタスクのための高忠実度インコンテキスト学習 [cs.CV]目的:マルチモーダルタスクにおける高忠実度インコンテキスト学習手法
    • 大規模マルチモーダルモデルの活用は,画像とテキストなどの多様な情報を統合し,高度なタスクを可能にする点で重要である。
    • インコンテキスト学習は,デモンストレーションの構成に大きく依存し,計算コストが高いという課題を抱えている。
    • デモンストレーションの影響をより正確にモデル化することで,インコンテキスト学習の性能向上を目指す。
    • HIFICLは,既存の近似手法と比較して,複数のマルチモーダルベンチマークで一貫して高い性能を示した。
    • 仮想的なキーバリューペアや低ランク分解を用いることで,安定化と正則化された学習を実現している。
    • 本手法は,コンテキストを意識したパラメータ効率の良いファインチューニングの一形態と捉えることができる。

    Link: https://arxiv.org/abs/2603.12760

  • TerraFlow:地球観測のためのマルチモーダル,マルチテンポラル表現学習 [cs.CV, cs.LG]目的:地球観測におけるマルチモーダル,マルチテンポラル表現学習
    • 地球規模課題解決に貢献するため,多様な地球観測データの活用が重要である。
    • 既存手法では,異なる時間や種類のデータを統合的に学習することが困難である。
    • 時間変化と複数のデータ種類を考慮した,よりロバストな学習手法を開発する。
    • TerraFlowは,GEO-Bench-2ベンチマークの全時間的タスクにおいて,最先端の基礎モデルを上回る性能を示した。
    • TerraFlowは,自然災害リスクマップ予測において,他の最先端モデルが陥りがちな問題(崩壊)を回避し,初期的な成果を得た。
    • F1スコアで最大50%,Brierスコアで24%向上し,既存の最先端モデルを大幅に上回った。

    Link: https://arxiv.org/abs/2603.12762

  • SAVA-X:シーン適応的視点アライメントと双方向クロスビュー融合による自己-他人模倣エラー検出 [cs.CV]目的:自己視点から他人視点への模倣エラー検出
    • 産業訓練,医療,組み立て品質管理において,エラー検出は不可欠な技術である。
    • 既存研究は単一視点でのエラー検出に限定されており,実用的な自己-他人視点の組み合わせに対応できない。
    • 非同期かつ長さの異なる自己-他人視点動画から,手続きステップのエラーを検出し,位置特定すること。
    • SAVA-Xは,既存のベースライン手法と比較して,EgoMeベンチマークにおいてAUPRCと平均tIoUを安定的に向上させた。
    • 提案手法の各構成要素が,相互に補完的な効果を発揮することが,消去実験により確認された。
    • シーン適応的視点アライメント,双方向クロスアテンション融合により,クロスビュー特有の問題に対処した。

    Link: https://arxiv.org/abs/2603.12764

  • Catalyst4D:動的伝播による高精度3D-to-4Dシーン編集 [cs.CV]目的:3Dから4Dへのシーン編集における高精度な動的伝播手法
    • 3Dシーン編集技術は,仮想現実やロボティクスなど幅広い分野で重要性を増している。
    • 既存手法では,4Dシーン編集時にモーションアーティファクトや時間的なちらつき,スタイルの一貫性欠如といった問題が生じやすい。
    • 本研究は,時間的・空間的な一貫性を保ちつつ,高品質な3D編集を動的な4D Gaussianシーンに転送することを目指す。
    • Catalyst4Dは,Anchor-based Motion Guidance(AMG)を用いて,オリジナルと編集されたGaussianから構造的に安定したアンカーを構築する。
    • AMGは,最適な輸送を通じてアンカー間の対応関係を確立し,リージョン間の干渉やモーションドリフトなしに一貫性のある変形伝播を可能にする。
    • Color Uncertainty-guided Appearance Refinement(CUAR)は,Gaussianごとの色不確実性を推定し,オクルージョンによるアーティファクトが発生しやすい領域を選択的に洗練することで,時間的な外観の一貫性を維持する。

    Link: https://arxiv.org/abs/2603.12766

  • PVI:ビジョン・言語・行動モデルのためのプラグイン型ビジュアル注入 [cs.CL, cs.RO, cs.CV, cs.LG, cs.RO]目的:言語条件型操作のためのVLAアーキテクチャにおけるビジュアル注入手法
    • 視覚と言語情報を統合した行動モデルは,ロボット操作の高度化に不可欠である。
    • 既存のVLMは,細かな幾何学的情報や時間的な証拠を十分に活用できていない。
    • PVIは,事前学習済みの行動モデルに外部の視覚情報を効率的に注入し,性能向上を目指す。
    • PVIは,既存のベースポリシーおよび競合する注入戦略と比較して,一貫した性能向上を示した。
    • 時間的特徴量(V-JEPA2)は,静的な画像特徴量(DINOv2)よりも優れており,特に多段階タスクで効果が大きかった。
    • 実機ロボット実験では,PVIがシミュレーション環境を超えて,長期間の二足歩行布折りタスクで実用性を示すことができた。

    Link: https://arxiv.org/abs/2603.12772

  • VLMを用いた意味的感受性を強化した水中画像強調 [cs.CV, cs.AI, eess.IV]目的:水中画像強調における意味的感受性の向上
    • 水中画像は水中の粒子や光の吸収により劣化し,視認性が低下する。そのため,水中環境での作業効率や安全性に影響が及ぶ。
    • 既存の画像強調技術では,強調画像と自然画像との分布のずれが課題であり,下流の視覚タスクにおける意味的情報の抽出を妨げる場合がある。
    • 本研究では,VLMを活用することで,画像強調モデルに意味的感受性を付与し,重要なオブジェクトの特徴を忠実に復元することを目指す。
    • 提案手法は,VLMを用いて劣化画像中の主要オブジェクトのテキスト記述を生成し,それを画像に再マッピングすることで空間的な意味的ガイダンスマップを作成する。
    • このマップは,クロスアテンションと明示的なアライメント損失を通じて画像強調ネットワークを誘導し,意味的に重要な領域に復元力を集中させる。
    • 実験の結果,提案手法は様々な画像強調のベースラインモデルの性能を向上させ,知覚的品質と検出・セグメンテーションタスクの精度を高めることが確認された。

    Link: https://arxiv.org/abs/2603.12773

  • 基本的な手術動作の汎化認識は,スキル評価と視覚言語モデルに基づく手術計画を可能にする [cs.CV]目的:基本的な手術動作の認識モデルの開発と,それを用いた応用
    • 手術の質向上と効率化のため,AIによる手術支援が重要視されている。
    • 手術動作のデータセット規模が小さく,汎化性能の高い認識モデルが不足している。
    • 多様な手術分野で適用可能な,基本的な手術動作の認識モデルを構築すること。
    • 11,000以上の動画クリップを含む大規模な基本的な手術動作データセットを構築した。
    • 構築したデータセットに基づき,汎用的な手術動作認識の基盤モデルを開発し,高い汎化性能を確認した。
    • 前立腺摘除術のスキル評価や,胆嚢摘出術・腎摘除術における手術計画にモデルを応用し,臨床的な有用性を示した。

    Link: https://arxiv.org/abs/2603.12787

  • 思考して答えるME:リモートセンシングにおける多実体推論グラウンディングのベンチマークと探求 [cs.CV]目的:リモートセンシングにおける多実体推論グラウンディングのベンチマークデータセットおよびEntity-Aware Reasoning(EAR)フレームワーク
    • リモートセンシング技術は,地球観測や環境モニタリングにおいて不可欠であり,その精度向上は重要である。
    • 既存のリモートセンシンググラウンディング手法は,知的な推論や実体間モデリングが不十分である。
    • 多実体推論を導入し,より高度なグラウンディングを実現することで,リモートセンシングの解釈性を向上させる。
    • 新たなベンチマークデータセットME-RSRGを構築し,多実体推論グラウンディングの課題を明確にした。
    • EARフレームワークは,視覚言語基盤モデルを活用し,構造化された推論トレースと主語-目的語のグラウンディング出力を生成する。
    • EARフレームワークは,実体認識に基づく報酬駆動型GRPOにより最適化され,その有効性が実験的に検証された。

    Link: https://arxiv.org/abs/2603.12788

  • 複数人物・複数視点ビデオからの単一パスによる一貫性のある人間とシーンの再構成 [cs.CV]目的:複数人物・複数視点ビデオからのカメラ,シーン点群,人体メッシュの同時推定
    • 3D環境の理解は,ロボティクスや拡張現実など,多様な分野で不可欠である。
    • 既存手法は単一視点入力に依存し,複数視点への拡張には処理の複雑さや前処理が必要である。
    • 外部モジュールや前処理なしに,複数視点ビデオから人間とシーンを効率的に再構成すること。
    • 提案手法CHROMMは,Pi3XとMulti-HMRの幾何学的・人間に関する事前知識を統合した統一的なフレームワークである。
    • スケール調整モジュールにより,人間とシーン間のスケール不一致の問題を解決している。
    • EMDBなどのデータセットで,CHROMMは従来の最適化ベースの手法よりも8倍高速に性能を発揮する。

    Link: https://arxiv.org/abs/2603.12789

  • Cheers:パッチの詳細とセマンティック表現の分離により,統一されたマルチモーダル理解と生成が可能になる [cs.CV, cs.AI]目的:マルチモーダル理解と生成の統一
    • 近年,画像とテキストなどのマルチモーダル情報を扱う研究が盛んであり,その応用範囲は広い。
    • 既存モデルでは,理解と生成という異なるタスク間で,特徴表現の最適化が困難である。
    • セマンティック表現とパッチレベルの詳細を分離することで,効率的なマルチモーダルモデリングを実現する。
    • Cheersは,視覚的理解と生成の両方において,最先端のUMMと同等またはそれ以上の性能を示す。
    • トークン圧縮率が4倍となり,高解像度画像の効率的なエンコードと生成が可能になった。
    • GenEvalやMMBenchなどのベンチマークで,Tar-1.5Bを上回り,学習コストはわずか20%で済む。

    Link: https://arxiv.org/abs/2603.12793

  • 3Dガウススプラッティングにおけるリソース標的攻撃に対するスペクトル防御 [cs.CL, cs.CV]目的:3Dガウススプラッティングにおけるリソース標的攻撃への対策
    • 3Dガウススプラッティングは高品質なレンダリングを実現するが,新たな攻撃対象領域となる可能性を秘めている。
    • 訓練画像への巧妙な摂動が,3DGSのスペクトル特性を歪ませ,異常な高周波増幅を引き起こす点が問題である。
    • 3Dガウス空間と画像空間の両方において,スペクトルフィルタと正則化を用いて,攻撃に対する堅牢性を高める。
    • 提案手法は,異常な高周波を示すガウスを選択的に除去する3D周波数フィルタを導入する。
    • レンダリングに対する2Dスペクトル正則化を開発し,自然な等方性周波数を識別しながら,ノイズパターンを抑制する。
    • 実験により,過剰なガウス増殖を最大5.92倍抑制し,メモリ使用量を最大3.66倍削減し,速度を最大4.34倍向上させることを示した。

    Link: https://arxiv.org/abs/2603.12796

  • VLMの頑健性を高める要因:ビジョン言語モデルにおける頑健性と精度の両立に向けて [cs.AR, cs.CV]目的:ビジョン言語モデルにおける頑健性と精度のトレードオフに関する要因の解明
    • 近年,画像とテキストを理解するVLMの重要性が増している。しかし,実用化には頑健性の向上が不可欠である。
    • VLMの頑健性を高めることは,通常,クリーンなデータに対する精度低下を招くという課題がある。
    • 本研究は,VLMの頑健性のメカニズムを解析し,精度劣化を抑制しつつ頑健性を向上させる手法を提案する。
    • VLMの頑健性は,ネットワークの深い層ではなく,浅い層に局在することが明らかになった。
    • 浅い層における低周波スペクトルバイアスと入力に依存しない注意メカニズムが,頑健性の主な要因となっている。
    • 提案手法R-Adaptは,浅い層のみを適応させることで,頑健性と精度のバランスを両立し,高い性能を発揮する。

    Link: https://arxiv.org/abs/2603.12799

  • 生成現実世界画像超解像のためのプロセス認識オンラインアラインメントOARS [cs.CV]目的:生成現実世界画像超解像モデルと人間の視覚的嗜好のアラインメント
    • 画像超解像技術は,低解像度画像を高品質に復元し,様々な応用分野で不可欠である。
    • 知覚的品質と忠実度のトレードオフ,多様で未知の劣化により,アラインメントが困難である。
    • 入力品質に適応的なトレードオフを用いて,知覚的な利点と忠実度を両立させるアラインメント手法を開発する。
    • 提案手法OARSは,COMPASSというMLLMベースの報酬を用いて,低解像度から高解像度への遷移を評価する。
    • COMPASS-20Kデータセットと三段階の知覚的アノテーションパイプラインを導入し,高品質な学習ラベルを生成する。
    • Real-ISRベンチマークにおいて,最先端の性能を達成し,一貫した知覚的改善と忠実度の維持を示す。

    Link: https://arxiv.org/abs/2603.12811

  • 残差SODAP:構造知識保存による継続学習のための残差自己組織化ドメイン適応プロンプティング [cs.LG, cs.AI, cs.CV]目的:継続学習における破滅的忘却の軽減
    • 機械学習モデルの性能維持・向上のため,新しいタスクを継続的に学習する手法が重要である。
    • ドメイン増分学習では,タスク識別子が利用できず,過去のデータを保存できないため,破滅的忘却が深刻化する。
    • ドメインシフト下でのプロンプト選択と分類器レベルの不安定性の問題を解決し,継続学習の性能を向上させる。
    • 残差SODAPは,プロンプトベースの表現適応と分類器レベルの知識保存を同時に行うことで,高い性能を発揮する。
    • 3つのドメイン増分学習ベンチマークにおいて,最先端のAvgACC/AvgFの成績を達成した(DR: 0.850/0.047, Skin Cancer: 0.760/0.031, CORe50: 0.995/0.003)。
    • α-entmaxスパースプロンプト選択,残差集約,データフリー蒸留,プロンプト使用ドリフト検出,不確実性認識型マルチ損失バランスなどの要素を組み合わせている。

    Link: https://arxiv.org/abs/2603.12816

  • NeurFrame:構造化メッシュ生成のための連続フレーム場学習 [cs.GR]目的:構造化メッシュ生成のための連続フレーム場の表現
    • 構造化メッシュは,有限要素解析において高い精度を持ち,産業応用や工学シミュレーションで広く利用されている。
    • 複雑な形状や特異点において,高品質な構造化メッシュの生成は依然として課題である。
    • 離散的なメッシュに依存する従来のフレーム場のアプローチの連続性と計算効率を向上させる。
    • NeurFrameは,ドメイン全体にわたる連続的なフレーム場を表現するニューラルフレームワークである。
    • 離散的なメッシュサンプルで自己教師あり学習を行うことで,高精度で滑らかなフレーム場を生成する。
    • 生成されたフレーム場は,高品質な四角形表面メッシュと六面体ボリュームメッシュを誘導し,特異点の数を削減する。

    Link: https://arxiv.org/abs/2603.12820

  • 適応型ビジョン言語モデルルーティングによるコンピュータ利用エージェント [cs.CL, cs.CV]目的:コンピュータ利用エージェントにおけるビジョン言語モデルのルーティング最適化
    • 近年,自然言語による指示をGUI操作に変換するエージェントの研究が活発化している。
    • ビジョン言語モデルの精度はばらつきがあり,固定モデルでは最適な性能を発揮できない場合がある。
    • 本研究は,コストと精度のトレードオフを考慮し,最適なモデルを動的に選択することで効率性と安全性を両立する。
    • 提案手法AVRは,アクションの難易度推定と信頼度測定に基づき,コストと精度のバランスが取れたモデルにルーティングする。
    • AVRは,推論コストを最大78%削減しつつ,大規模モデルと同程度の精度を維持できる。
    • 過去のUI操作履歴を活用することで,小規模モデルでも高い性能を発揮し,エージェントの効率を向上させる。

    Link: https://arxiv.org/abs/2603.12823

  • NanoVDR:20億パラメータの視覚言語検索モデルを7000万パラメータのテキスト専用エンコーダに蒸留し,視覚ドキュメント検索を実現 [cs.IR, cs.CV, cs.LG]目的:視覚ドキュメント検索のための,軽量なテキスト専用エンコーダの開発
    • 視覚ドキュメント検索は,大量のドキュメントから必要な情報を効率的に見つけ出す上で重要である。
    • 従来のVLMベースの検索モデルはパラメータ数が多く,推論時に高い計算コストとGPU依存性がある。
    • クエリとドキュメントの非対称性を利用し,軽量かつ高速な検索システムを構築することを目指す。
    • 20億パラメータのVLM教師モデルでドキュメントをインデックス化し,6900万パラメータのテキスト専用生徒モデルでクエリをエンコードする手法を提案。
    • クエリテキストにおける点ごとのコサインアラインメントが,ランキングベースやコントラスト学習よりも高い性能を発揮することを確認。
    • 機械翻訳によるデータ拡張により,言語間の性能ボトルネックを解消し,NanoVDR-S-Multiは教師モデルの95.1%の性能を維持しつつ,パラメータ数とクエリ遅延を大幅に削減。

    Link: https://arxiv.org/abs/2603.12824

  • coDrawAgents:構成的画像生成のためのマルチエージェント対話フレームワーク [cs.CV]目的:構成的画像生成の改善
    • 画像生成技術は急速に進歩しているが,複雑なシーンでの複数オブジェクトの正確な配置と属性維持が課題。
    • 既存モデルでは,複数のオブジェクトを忠実に構成し,その属性を維持することが困難である。
    • マルチエージェント対話を通じて,レイアウトの複雑化軽減,視覚的文脈への計画の統合,明示的なエラー訂正を目指す。
    • 提案手法coDrawAgentsは,インタプリタ,プランナー,チェッカー,ペインターの4つのエージェントが協調して動作する。
    • GenEvalおよびDPG-Benchベンチマーク実験により,既存手法と比較してテキスト-画像の一致度,空間精度,属性結合が大幅に向上することが示された。
    • インタプリタが,直接的なテキスト-画像生成経路と,レイアウトを意識したマルチエージェント処理を適応的に選択する。

    Link: https://arxiv.org/abs/2603.12829

  • UAVシーン変化キャプション生成のための階層的二重変化協調学習 [cs.DC, cs.CV, cs.AI]目的:UAVシーン変化キャプション生成における性能向上
    • UAV(無人航空機)からの映像解析は,監視,災害対応,インフラ点検など多岐に渡る分野で重要性が増している。
    • 従来の画像変化キャプションは固定カメラが前提であり,UAVのような移動カメラによる視点変化に対応できていない。
    • UAVからの動的かつ空間的なシーン変化を正確に捉え,自然言語で記述する技術を確立すること。
    • 本研究では,UAVシーン変化キャプションという新しい課題を提案し,動的空中映像から意味的な変化を記述する手法を開発した。
    • 提案手法HDC-CLは,Dynamic Adaptive Layout Transformer(DALT)とHierarchical Cross-modal Orientation Consistency Calibration(HCM-OCC)を組み合わせることで,視点変化の影響を考慮した高精度なキャプション生成を実現した。
    • 新たに構築したUAV-SCCデータセットを用いて,提案手法が最先端の性能を達成することを示した。

    Link: https://arxiv.org/abs/2603.12832

  • Mask2Flow-TSE:マスキングとフローマッチングを用いた二段階標的音声抽出 [cs.SD, cs.AI]目的:標的音声抽出の性能向上
    • 音声分離技術は,通話品質向上や音声認識の精度改善に不可欠である。
    • 既存手法では,分離速度と音声品質のトレードオフが存在する。
    • マスキングとフローマッチングを組み合わせ,両者の長所を活かした新たな手法を提案する。
    • Mask2Flow-TSEは,既存の生成的TSE手法と同等の性能を,約85Mパラメータで実現した。
    • 最初の段階で識別的マスキングによる粗分離を行い,次の段階でフローマッチングを用いて音声を洗練させる。
    • マスキングされたスペクトログラムから開始するため,ガウスノイズからの合成と異なり,単一の推論ステップで高品質な再構成が可能である。

    Link: https://arxiv.org/abs/2603.12837

  • 段階的学習による二重ストリーム音声匿名化攻撃手法 DAST [cs.SD, cs.AI]目的:音声匿名化攻撃手法の開発
    • 音声データ利用の拡大に伴い,個人情報保護の重要性が増している。
    • 既存の音声匿名化技術では,言語内容を保持しつつ話者固有の情報を完全に隠蔽することが困難である。
    • 未知の匿名化データに対する攻撃性能を高めることを目指す。
    • 提案手法は,スペクトル特徴と自己教師あり学習特徴を融合する二重ストリーム構造を持つ。
    • 段階的学習戦略により,汎化性能が向上し,VoicePrivacy Attacker Challenge (VPAC) データセットで高い攻撃性能を示した。
    • ターゲット匿名化データセットの10%での微調整により,最先端の攻撃手法を凌駕するEERが達成された。

    Link: https://arxiv.org/abs/2603.12840

  • 酵素反応速度論的パラメーター予測のためのマルチモーダルタンパク質言語モデル:基質認識から立体構造適応まで [cs.RO, cs.CV]目的:酵素反応速度論的パラメーターの予測
    • 酵素反応は生命活動に不可欠であり,その効率を定量的に評価することは重要である。
    • 従来の予測手法は,酵素と基質の静的な適合性に焦点を当て,反応過程の段階性を考慮していない。
    • 本研究は,酵素と基質の相互作用を段階的に捉え,より正確な反応速度論的パラメーター予測を目指す。
    • 本研究で開発されたERBAは,タンパク質言語モデルに基質情報を注入し,活性部位の構造を考慮することで,予測性能を向上させた。
    • ERBAは,従来のシーケンス情報のみや浅い融合による手法と比較して,一貫して高い性能を示し,未知のデータに対しても頑健であった。
    • この手法は,酵素反応の予測を拡張するための基盤となり,補因子や変異,時間分解能のある構造情報などの追加を可能にする。

    Link: https://arxiv.org/abs/2603.12845

  • 第10回ABAWコンペティションのTeam LEYA:多Modal感情の曖昧性/躊躇認識アプローチ [cs.CV, cs.AI]目的:動画における感情の曖昧性/躊躇の認識
    • 非言語コミュニケーションの理解は,人間-コンピュータ間の自然な対話を実現する上で重要である。
    • 動画データにおける曖昧性/躊躇の認識は,その微妙さから困難であり,精度向上が課題である。
    • 複数のModal情報を統合することで,曖昧性/躊躇の認識精度を向上させることを目指す。
    • 提案手法は,シーン,顔,音声,テキストの4つのModalを統合し,高い認識性能を示した。
    • 単一Modalでの最高MF1スコアは70.02%であったのに対し,最適な多Modal融合モデルは83.25%を達成した。
    • 最終テストでは,5つのプロトタイプ拡張融合モデルのアンサンブルにより,最高性能71.43%を記録した。

    Link: https://arxiv.org/abs/2603.12848

  • 階層型深層学習による研磨フラップホイールの摩耗分類 [cs.CV, cs.LG]目的:研磨フラップホイールの摩耗状態の自動監視
    • 複雑な形状の研磨に不可欠な部品であり,品質管理の自動化が求められている。
    • フラップホイールの柔軟性により,摩耗パターンが複雑で,従来の監視が困難である。
    • 階層的分類により,摩耗状態を詳細に把握し,適切な制御を実現する。
    • 提案手法は,フラップホイールの画像から摩耗状態を高精度に分類可能である。
    • 最も低い分類精度でも93.8%と高いロバスト性を示した。
    • Grad-CAMによる検証により,モデルが物理的に妥当な特徴を学習していることが確認された。

    Link: https://arxiv.org/abs/2603.12852

  • 永続的な対話:カルロス・パレデスの音楽における声とギターの相互作用の計算分析 [cs.SD]目的:声とギターの相互作用の分析
    • 音楽分析において,大規模な楽曲データの体系的な解析が求められている。
    • 楽譜に基づかない音楽,特に口頭伝承の音楽分析手法が不足している。
    • 口頭伝承音楽における音楽的構造や表現の協調性を明らかにすること。
    • 提案手法は,楽曲ごとの表現的な協調性が顕著であり,楽曲全体を通して一貫した傾向は見られないことを示した。
    • 多様なイベントは楽曲の形式的な境界やテクスチャの変化と関連しており,音楽的に重要な再編成を検出できることが示された。
    • このフレームワークは,楽譜がない音楽レパートリーへの応用が可能であり,音楽演奏分析の範囲を拡大する。

    Link: https://arxiv.org/abs/2603.12854

  • 敵対的シナリオ生成のための,分離制御によるドライビングワールドの構築 [cs.CV]目的:敵対的ドライビングシナリオの体系的な合成
    • 自動運転の安全性確保には,稀に発生する危険な状況への対応が不可欠である。
    • 既存の生成モデルは,シーン構造,オブジェクト,エゴ車両の行動を独立して制御できない。
    • 安全な要素を危険な構成に組み合わせて,自動運転システムの限界を検証する。
    • 提案手法CompoSIAは,シーン構造,オブジェクト,行動を分離制御することで,多様な敵対的シナリオを生成する。
    • 単一の参照画像から,姿勢に依存しないオブジェクトのID生成を可能にするノイズレベルID注入を提案する。
    • 編集の各モードにおいて,衝突率は平均173%増加し,プランナーの脆弱性が明らかになった。

    Link: https://arxiv.org/abs/2603.12864

  • TRACE:文書ウォーターマーキングのための構造を意識した文字エンコーディング [cs.CL, cs.CV]目的:堅牢かつ汎用的な文書ウォーターマーキングのための構造を意識した文字エンコーディング手法
    • デジタル文書の保護は重要であり,不正コピーや改ざんから保護する必要がある。
    • 既存のウォーターマーキング手法は,ノイズや異なるメディアへの移行に対して脆弱である。
    • 文字構造を利用することで,ノイズに対する耐性を高め,より汎用的なウォーターマーキングを実現する。
    • TRACEは,拡散モデルを活用し,文字構造を考慮することで,従来のウォーターマーキング手法よりも優れた性能を発揮する。
    • 実験結果から,TRACEはPSNRが5dB以上向上し,抽出精度が5%向上することが示された。
    • 複数の言語やフォントに対応しており,実用的な文書セキュリティアプリケーションに適している。

    Link: https://arxiv.org/abs/2603.12873

  • 計算病理モデルにおけるヘマトキシリン・エオジン染色変動に対する頑健性を評価するプロトコル [cs.CV]目的:計算病理モデルにおけるヘマトキシリン・エオジン染色変動に対する頑健性の評価
    • 病理診断のデジタル化が進む中,染色状況のばらつきがモデルの性能に影響する点が課題となっている。
    • 染色状況の差異がモデルの予測精度に影響を与え,汎用性の低いモデルが生じやすい。
    • 染色変動に強いモデルを選定し,実際の運用における信頼性を向上させる。
    • 提案されたプロトコルを用いることで,306個のマイクロサテライト不安定性(MSI)分類モデルの頑健性を評価した結果,AUCは0.769~0.911の範囲で変動した。
    • 頑健性は0.007~0.079の範囲で変動し,分類性能と弱い負の相関が見られた(Pearson r=-0.22)。
    • 本プロトコルは,頑健性を考慮したモデル選択や,染色条件変化による性能変動の把握に役立ち,信頼性の高いモデル展開を支援する。

    Link: https://arxiv.org/abs/2603.12886

  • 接触カメラを用いた交差種転移学習によるてんかん発作予測 [cs.CV, cs.LG]目的:ビデオベースのてんかん発作予測
    • てんかん研究において,発作予測は臨床的に重要であり,患者のQOL向上に寄与する。
    • 既存研究は主に脳波などの神経信号に依存しており,長期的なモニタリングが困難である。
    • ビデオデータを用いて,非侵襲的な発作予測システムの構築を目指す。
    • 本研究では,交差種転移学習により,人およびげっ歯類のビデオデータを用いて高精度な予測を可能にした。
    • ビデオのみを用いた設定で,70%以上の予測精度を達成し,既存手法を上回った。
    • 交差種転移学習は,非侵襲的かつ大規模なてんかん早期警告システムの構築に貢献しうる。

    Link: https://arxiv.org/abs/2603.12887

  • テキスト画像モデルのRLポストトレーニングのための有限差分フロー最適化 [cs.CV, cs.AI, cs.LG, cs.NE, stat.ML]目的:テキスト画像モデルのRLポストトレーニングにおける効率的な最適化手法
    • 画像生成AIの性能向上が求められており,特に高品質な画像の生成とプロンプトへの正確な対応が重要である。
    • 従来のRL手法では,学習のばらつきが大きく,収束に時間がかかるという課題があった。
    • モデル更新の分散を減らし,より迅速かつ高品質な画像生成を実現することを目指す。
    • 提案手法は,サンプルされたペアの軌跡を利用し,より好ましい画像の方向にフロー速度を引き込むことで,更新の分散を低減する。
    • 実験の結果,既存手法と比較して,より高速な収束と高品質な画像生成,そしてプロンプトへの高い対応性を示すことが確認された。
    • 高品質なビジョン言語モデルやオフザシェルフの品質指標を用いた報酬設計でも,同様の効果が認められた。

    Link: https://arxiv.org/abs/2603.12893