arXiv雑要約

画像・音声 - 2026/03/11 公開

  • 線形関数近似を用いた戦略的に堅牢な多エージェント強化学習 [cs.LG, cs.GT, cs.MA]目的:一般和マルコフゲームにおける効率的かつ堅牢な均衡計算
    • 多エージェント強化学習の根幹であり,複雑な環境での協調・競争を可能にする。
    • ナッシュ均衡は計算困難であり,近似誤差に脆弱である。
    • リスク感受性を用いたRQREを計算し,均衡の堅牢性を向上させる。
    • 提案手法RQRE-OVIは,大規模または連続状態空間においてRQREを計算する。
    • 有限サンプル後悔分析により,RQRE-OVIの収束性とサンプル複雑性が示された。
    • 合理性とリスク感受性のパラメータ調整により,性能と堅牢性のトレードオフが明らかになった。

    Link: https://arxiv.org/abs/2603.09208

  • 静的ハンドキーポイントに基づくクロスリンガル少数ショット手話認識のための幾何学的認識に基づく距離学習 [cs.CV]目的:クロスリンガル少数ショット手話認識における性能向上
    • 世界には300以上の手話が存在するが,十分な学習データがないものがほとんどである。
    • カメラ視点,手の大きさ,収録条件の違いにより,ドメイン間のずれが生じやすい。
    • ドメインずれの影響を軽減し,少数ショット環境での認識精度を向上させる。
    • 提案手法では,MediaPipeの静的ハンドキーポイントから20次元の関節角度記述子を導入した。
    • この角度記述子は回転,並進,等方性スケーリングに不変であり,ドメインずれを抑制する。
    • 4つの異なる手話アルファベットで評価した結果,座標ベースの手法と比較して最大25%の精度向上を示した。

    Link: https://arxiv.org/abs/2603.09213

  • 血管様解剖におけるトポロジー知識探索のための基盤モデル TubeMLLM [cs.CL, eess.AS, cs.DC, cs.CV]目的:血管様解剖のトポロジー知識の探索
    • 医療画像解析において,血管などの複雑な構造の理解は,診断や治療計画に不可欠である。
    • 従来のモデルは,データセットの変化に弱く,トポロジーの不整合(断絶や誤った結合)を引き起こしやすい。
    • 本研究は,トポロジーに関する知識を組み込んだ基盤モデルを構築し,その問題を解決することを目指す。
    • TubeMLLMは,トポロジー情報を自然言語プロンプトと視覚表現を組み合わせることで,血管様の解剖におけるトポロジーを意識した知覚能力を向上させる。
    • 色網膜写真において,従来のモデルと比較してトポロジーの不整合を大幅に削減し,β₀数のエラーを37.42から8.58に減少させた。
    • 未知のX線血管造影画像に対しても,優れたゼロショット転移能力を示し,Dice係数を67.50%とし,β₀エラーを1.21に抑制した。

    Link: https://arxiv.org/abs/2603.09217

  • 物体認識のための分散畳み込みニューラルネットワーク [cs.CV]目的:特定の陽性クラスのみを認識するための分散畳み込みニューラルネットワークの学習
    • 物体認識は,画像や映像から対象物を特定する重要な技術であり,様々な分野で活用されている。
    • 既存のニューラルネットワークは,多くの特徴量を学習するため,計算コストが高くなる傾向がある。
    • 陽性クラスの特徴のみを抽出することで,軽量なモデルを構築し,汎化性能を高めることを目指す。
    • 提案手法では,陽性サンプルを高次元空間のコンパクトな集合に,負性サンプルを原点にマッピングする損失関数を導入した。
    • これにより,陽性クラスの特徴が負性クラスの特徴から分離され,軽量なモデルでの効率的な学習が可能となった。
    • 実験の結果,提案モデルはテストデータに対して高い汎化性能を示し,未知のクラスに対しても有効であることが確認された。

    Link: https://arxiv.org/abs/2603.09220

  • UniField:統一的な場認識MRI画像強調フレームワーク [cs.CL, cs.CV]目的:異なる磁場強度間でのMRI画像強調の汎化性能向上
    • MRIは臨床診断や先進研究において極めて重要な役割を担う画像技術である。
    • 既存手法は特定の磁場強度間での強調に限定され,汎化性能に課題がある。
    • 異なる磁場強度間における共通の劣化パターンを活用し,汎化性能を向上させる。
    • 本研究では,複数のモダリティと強調タスクを統合する統一的なフレームワークを提案した。
    • 事前学習済みの3D基礎モデルを活用することで,構造的表現の強化を実現した。
    • 磁場の物理メカニズムに基づいたスペクトル補正機構により,高周波成分の損失を抑制した。
    • 大規模な多磁場MRIデータセットを構築し,公開することでデータ不足の問題を解決した。

    Link: https://arxiv.org/abs/2603.09223

  • コントラストiveデコーディングは大規模オーディオ言語モデルをどのように強化するか [cs.SD, cs.CL, eess.AS]目的:大規模オーディオ言語モデルにおけるコントラストiveデコーディングの効果向上メカニズムの解明
    • 音声処理技術の発展は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
    • 大規模オーディオ言語モデルは高い性能を示す一方,誤った推論や自信過剰な誤答といった課題を抱えている。
    • コントラストiveデコーディングの有効戦略を特定し,モデルの特性に応じた活用方法を明らかにすること。
    • 音声認識に特化したコントラストiveデコーディング(Audio-Aware Decoding,Audio Contrastive Decoding)が最も有効であることが示された。
    • コントラストiveデコーディングは,音声が存在しないと誤認したり,不確実な推測に頼ったりするエラーを修正する上で効果的である。
    • モデルの誤りパターンを遷移行列で分析することで,コントラストiveデコーディングの効果がモデル構造に依存することが明らかになった。

    Link: https://arxiv.org/abs/2603.09232

  • HelixTrack:螺旋状オブジェクトのイベントベース追跡とRPM推定 [cs.CV]目的:螺旋状オブジェクトの追跡と毎分回転数(RPM)の推定
    • 無人航空機や回転機械の安全な運用には,高速で周期的な動きの正確な認識が不可欠である。
    • 従来の追跡手法は,周期的な動きの特性を捉えきれず,追跡が不安定になる課題がある。
    • 本研究は,イベントベースカメラを用いて,高速回転する螺旋状オブジェクトを安定して追跡し,高精度なRPMを推定することを目的とする。
    • 提案手法HelixTrackは,イベントデータを用いてリアルタイムよりも速く,マイクロ秒レベルの低遅延で追跡とRPM推定を実現した。
    • 新規に公開したデータセットTQEを用いて,既存手法と比較し,RPM推定において一貫して高い性能を示した。
    • イベントデータを回転面へ変換するホモグラフィ推定とカルマンフィルタによる位相推定を組み合わせることで,ロバストな追跡を実現した。

    Link: https://arxiv.org/abs/2603.09235

  • BridgeDiff:仮想試着からの平置き衣類合成における人間観察と平置き衣類合成の架け橋 [cs.CV, cs.AI]目的:仮想試着画像からの平置き衣類の表現復元
    • オンラインショッピングの普及に伴い,バーチャル試着技術への需要が高まっている。
    • 従来の平置き衣類合成手法は,見た目と平置き構造のギャップにより,不整合や不安定性を招く。
    • 人間が身につけた衣服の情報を活用し,平置き衣類の構造的安定性と高品質な復元を目指す。
    • BridgeDiffは,拡散モデルに基づき,人間観察と平置き衣類合成を架橋するフレームワークである。
    • Garment Condition Bridge Module (GCBM)により,部分的に視認できない状態でも詳細な情報を推論可能にする。
    • Flat Structure Constraint Module (FSCM)により,平置き衣類の構造的制約を注入し,構造的安定性を向上させる。

    Link: https://arxiv.org/abs/2603.09236

  • RAE-NWM:高密度視覚表現空間におけるナビゲーション世界モデル [cs.RO, cs.CV, cs.RO]目的:ナビゲーションにおける世界モデルの構築
    • 環境理解と計画を通して目標達成を目指すナビゲーション研究は,ロボティクスやAI分野で重要である。
    • 従来のナビゲーション世界モデルは圧縮された潜在空間で学習するため,構造情報の損失や精密な制御の困難さがある。
    • 高密度な視覚表現空間でナビゲーションのダイナミクスをモデル化し,構造的安定性と行動精度を向上させる。
    • DINOv2の特徴量は行動条件付き遷移に対する線形予測可能性が高いことが示された。
    • 提案手法RAE-NWMは,連続遷移をモデル化するためにConditional Diffusion Transformerを用いる。
    • 実験により,この空間でのロールアウトは構造的安定性と行動精度を向上させ,計画とナビゲーションに貢献することが示された。

    Link: https://arxiv.org/abs/2603.09241

  • 検出器が忘却するフォレンジック:汎用的なAI生成画像検出のための意味的ショートカットの遮断 [cs.CV]目的:AI生成画像検出における汎化性能の向上
    • 生成AIの急速な発展に伴い,AI生成画像の検出は重要性を増している。
    • 既存の検出器は,未知の生成パイプラインで生成された画像への汎化が困難である。
    • 意味的ショートカットによる問題を解決し,よりロバストな検出を実現する。
    • 提案手法GSDは,パラメータ不要で,学習された表現から意味的要素を明示的に除去する。
    • GSDは,クロスデータセット評価で最先端手法を上回り,ビデオレベルAUCで94.4%を達成した。
    • 未知の操作に対するロバスト性(DF40で+3.0%),顔以外の汎用的なシーン検出にも貢献する。

    Link: https://arxiv.org/abs/2603.09242

  • ポリゴン検出Transformerによるインスタンスセグメンテーションへの取り組み [cs.CV]目的:インスタンスセグメンテーションの新しいアプローチ
    • インスタンスセグメンテーションは,画像内のオブジェクトを正確に識別し分離する上で重要な技術である。
    • 高解像度入力の要求と軽量・リアルタイムな推論という相反する課題が存在する。
    • Polar Representationを用いた疎な頂点回帰により,この課題を解決することを目指す。
    • Poly-DETRは,MS COCOテスト分割において,最先端の極座標ベースの手法と比較して,mAPが4.7ポイント向上した。
    • 高解像度環境において,Poly-DETRは軽量であり,Cityscapesデータセットではメモリ消費量をほぼ半分に削減した。
    • PanNukeとSpaceNetデータセットにおいて,マスクベースの手法を上回り,特に規則的な形状のインスタンスにおいて優位性を示す。

    Link: https://arxiv.org/abs/2603.09245

  • 自律運転のためのマルチモーダルアプローチ:交通標識,車両,車線検出と行動クローニングに関する包括的研究 [eess.SY, cs.SY, physics.chem-ph, cs.CV, cs.AI]目的:自律運転車の性能向上
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 多様な環境下での正確な物体認識や行動予測が難しく,安全性確保が課題となっている。
    • 交通標識,車両,車線検出,行動クローニングといった要素技術の精度向上を目指す。
    • 事前学習済みおよびカスタムニューラルネットワークを活用し,交通標識の分類,車両検出,車線検出,行動クローニングの性能を向上させた。
    • 幾何学的・色変換によるデータ拡張,画像正規化,転移学習などの手法を組み合わせることで,モデルの汎化性能を高めた。
    • 様々なデータセットを用いた評価により,提案手法が自動運転システムの安全性と信頼性向上に貢献することが示された。

    Link: https://arxiv.org/abs/2603.09255

  • プラトーニング・アズ・ア・サービス(PlaaS):コネクテッド・自動運転車のための持続可能な輸送フレームワーク [cs.GT]目的:コネクテッド・自動運転車におけるプラトーニングを通じた持続可能な輸送を促進するための意思決定支援フレームワーク
    • 輸送分野における燃料消費量削減,排出ガス抑制,交通渋滞緩和の重要性が高まっている
    • プラトーニングの導入と運用における最適なサービス提供モデルが確立されていない
    • プラトーニング・アズ・ア・サービス(PlaaS)モデルを通じて,持続可能な輸送システムの実現を目指す
    • 提案するPlaaSプラットフォームは,Stackelbergゲームとして定式化され,最適なサービス契約が導出される
    • 政府の補助金は,PlaaSプラットフォームにおける二酸化炭素排出量削減に有効であることが示された
    • 高遅延コスト車や時間的制約のある運用において,プラトーニング速度を上げることでサービス提供者の利益を向上させることができる

    Link: https://arxiv.org/abs/2603.09256

  • 動的情報経路を用いたマルチモーダルグラフ表現学習 [cs.CV]目的:マルチモーダルグラフ表現学習のための新しいフレームワーク
    • 現実世界の様々な応用において,画像やテキストなどの異種特徴を含むマルチモーダルグラフが普及している。
    • 従来のグラフニューラルネットワークを拡張した既存手法は,静的な構造や密な注意機構に依存し,柔軟性や表現力に限界がある。
    • DiPは動的経路を導入し,各モダリティ内でのメッセージルーティングとモダリティ間の依存関係を効率的に捉えることで,この問題を解決する。
    • 提案手法DiPは,モダリティ特有の擬似ノードを導入することで,近接性に基づいた擬似ノード間の相互作用を通じて動的なメッセージルーティングを実現する。
    • DiPは共有された状態空間における効率的な情報経路を通じてモダリティ間の依存関係を捉え,適応的で表現力豊かで疎なメッセージ伝播を線形時間複雑度で達成する。
    • リンク予測とノード分類タスクによる実験の結果,DiPは既存手法と比較して一貫して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.09258

  • ウェブ動画を用いた視覚と言語ナビゲーションのための暗黙的幾何表現 [cs.CV, cs.RO]目的:視覚と言語ナビゲーションにおける,ウェブ動画からの暗黙的幾何表現の活用
    • 実世界のような複雑な環境を扱えるナビゲーションシステムの実現が求められている。
    • 既存のナビゲーションデータセットは多様性や規模に乏しく,実環境への適用が困難である。
    • ウェブ動画を活用し,3D再構成の失敗による制限を克服し,データ利用効率を向上させる。
    • 本研究では,ウェブベースのルームツアー動画から構築した大規模なデータセットを用いることで,多様かつ現実的な屋内環境におけるナビゲーション性能を向上させた。
    • 暗黙的幾何表現を取り入れることで,RGBフレームから直接空間情報を抽出し,3D再構成の必要性を低減し,より多くの動画データを活用できるようになった。
    • CVDN, SOON, R2R, REVERIEといった複数のVLNベンチマークにおいて,最先端の性能を達成し,ゼロショットナビゲーションエージェントの開発を可能にした。

    Link: https://arxiv.org/abs/2603.09259

  • ForgeDreamer:マルチ専門家LoRAとクロスビューハイパーグラフによる産業用テキストから3D生成 [cs.CV]目的:産業用途におけるテキストから3D生成の性能向上
    • 製造業における設計・開発の効率化に,3Dモデルの自動生成が不可欠である。
    • 既存手法は自然なシーンに特化しており,産業分野への適用には知識干渉や幾何学的推論の課題がある。
    • カテゴリ間の知識干渉を解消し,高次の構造依存性を捉えることで,精度の高い3Dモデル生成を目指す。
    • マルチ専門家LoRAアンサンブルにより,カテゴリ間の知識干渉を抑制し,汎化性能を向上させた。
    • クロスビューハイパーグラフ幾何学的強化により,複数視点間の構造的依存性を捉え,幾何学的精度を高めた。
    • カスタム産業用データセットでの実験により,最先端手法と比較して,セマンティックな汎化性能と幾何学的忠実度が向上した。

    Link: https://arxiv.org/abs/2603.09266

  • 3Dガウスリストの短縮による学習加速 [cs.CV]目的:3Dガウス学習の効率向上
    • 近年,複数画像からの輝度場学習に3Dガウススプラッティングが不可欠となっている。
    • 3DガウススプラッティングはNeRFより優れるものの,学習効率の改善が課題である。
    • ガウスリストを短縮し,スプラッティング処理を高速化することで効率向上を目指す。
    • ガウスのスケールを定期的にリセットし,影響範囲を狭めることで,ガウスリストを短縮。
    • アルファブレンディングにエントロピー制約を導入し,重みの分布を鋭化することで,ガウスの影響範囲を局所化。
    • レンダリング解像度スケジューラと組み合わせることで,更なる効率向上を実現し,高品質を維持した高速化を達成。

    Link: https://arxiv.org/abs/2603.09277

  • 理想から現実へ:不完全な条件下での安定した動画オブジェクト除去 [cs.CV]目的:動画からのオブジェクト除去の安定性と実用性向上
    • 動画編集において,不要なオブジェクト除去は重要な課題である。高品質な除去は,コンテンツの価値を高める。
    • 現実世界の動画には影や急激な動き,不完全なマスクが存在し,オブジェクト除去の精度を著しく低下させる。
    • 影やマスクの欠陥に強く,時間的安定性を保つ動画オブジェクト除去手法の開発を目指す。
    • 提案手法SVORは,影やちらつき,マスクの欠陥に強く,最先端の結果を複数のデータセットで達成した。
    • MUSEにより,急激な動きに対応し,マスクの精度を向上させ,除去漏れを抑制する。
    • DA-Segとカリキュラムを用いた二段階学習により,拡散モデルに基づいた局所化能力を高め,現実的な背景を生成する。

    Link: https://arxiv.org/abs/2603.09283

  • 特徴場による凸分解学習 [cs.CV]目的:凸分解の学習
    • 物理シミュレーション等の計算効率化に不可欠な技術であり,様々な応用が期待される。
    • 既存手法では汎用性や学習データの活用が難しく,未知の形状への対応が課題であった。
    • 特徴場を学習することで,大規模データセットを用いた汎用的な凸分解モデルを構築する。
    • 提案手法は,3D形状を凸体群に分解する際の品質が既存手法を上回ることを示した。
    • メッシュ,CADモデル,ガウススプラットなど,様々な表現形式の形状に対して高い汎化性能を示す。
    • 自己教師あり学習により,大規模データセットを用いたスケーラブルな凸分解が可能となった。

    Link: https://arxiv.org/abs/2603.09285

  • CogBlender:テキスト画像生成における継続的な認知介入に向けて [cs.CV]目的:テキスト画像生成における認知特性の継続的かつ多次元的な介入
    • 画像は意味情報だけでなく,記憶や感情といった認知プロセスを誘発する。その活用が重要である。
    • 既存のテキスト画像生成モデルは意味の一貫性には優れるものの,認知特性の制御は限定的である。
    • 認知空間と意味多様体を結びつけ,認知特性を精密に制御するフレームワークを構築し,その有効性を示す。
    • CogBlenderは,認知空間におけるアンカーポイントを利用し,生成プロセスにおける速度場を操作することで,認知特性を介入させる。
    • 感情価,覚醒度,優位性,画像記憶性の4つの認知次元において,効果的な認知介入が実証された。
    • 本研究は,認知に基づいた創造的なデザインのための有効なパラダイムを提供する。

    Link: https://arxiv.org/abs/2603.09286

  • マルチモーダルオブジェクト追跡のためのモダリティ認識型融合と分離された時間的伝播の探求 [cs.CV]目的:マルチモーダルオブジェクト追跡におけるモダリティ認識型融合と分離時間伝播
    • 多様なセンサーからの情報統合は,ロバストな知能システム構築の鍵である。
    • 既存手法では,モダリティ間差異の無視や時間情報が混同され,追跡性能が制限される。
    • モダリティ固有の処理と独立した時間伝播により,追跡の精度とロバスト性を向上させる。
    • MDTrackは,各モダリティに専門家を割り当てるモダリティ認識型融合メカニズムを導入した。
    • RGBと他のモダリティの時間情報を独立して処理する分離時間伝播モデルを開発した。
    • 5つのマルチモーダル追跡ベンチマークで最先端の性能を達成し,提案手法の有効性を実証した。

    Link: https://arxiv.org/abs/2603.09287

  • ノイズ除去スプラット:ノイズの多い3Dシーン再構成のためのフィードフォワードガウススプラッティング [cs.CV, cs.AI]目的:ノイズの多いマルチビュー画像からの3Dシーン再構成手法
    • VR,ロボット工学,コンテンツ制作等の分野において,3Dシーン再構成と新規視点合成は不可欠である。
    • 既存のNeRFや3Dガウススプラッティングはクリーンな入力を前提としており,現実のノイズやアーティファクトに弱い。
    • ノイズに強い3Dガウススプラッティング手法を開発し,現実的なノイズ環境下での再構成精度を向上させる。
    • DenoiseSplatは,ノイズの多いRE10Kデータセットにおいて,PSNR/SSIMおよびLPIPSで既存のMVSplatや二段階ベースラインを上回る性能を示した。
    • 軽量なフィードフォワードバックボーンを使用し,3Dのグランドトゥルースなしに,クリーンな2Dレンダリングのみを教師データとしてエンドツーエンドで学習する。
    • RE10Kにガウス,ポアソン,スペックル,塩胡椒ノイズを注入した大規模なシーン整合性のあるノイズ--クリーンなベンチマークを構築した。

    Link: https://arxiv.org/abs/2603.09291

  • 見る,計画する,巻き戻す:進捗認識型ビジョン・言語・行動モデルによる堅牢なロボット操作 [cs.RO, cs.CV]目的:ロボット操作におけるタスク進捗の測定
    • ロボットの自律的なタスク遂行には,環境を理解し,計画を立て,実行する能力が不可欠である。
    • 従来のロボットシステムは,予期せぬ状況やエラーに弱く,進捗状況の認識が不十分である。
    • 言語による指示に基づき,進捗状況を認識しながらタスクを遂行するロバストなフレームワークの構築。
    • 提案手法「SPR」は,現在の状態と次のマイルストーンを認識し,2Dウェイポイントへの軌跡を計画し,進捗が停止した場合に回復可能な状態に巻き戻すサイクルを繰り返す。
    • 実験結果から,SPRはLIBEROベンチマークにおいてMolmoActを5%上回り,LIBERO-PlusベンチマークにおいてもOpenVLA-OFTやUniVLAを上回る堅牢性を示した。
    • 追加の学習データや補助モデルを必要とせずに,エラーからの回復を実現するクローズドループアプローチが有効であることが示された。

    Link: https://arxiv.org/abs/2603.09292

  • 日本語共感対話における感情を考慮した相槌タイミング検出 [cs.MM, cs.IR, cs.CL, cs.IR, cs.CL, cs.RO, cs.SD]目的:感情を考慮した相槌タイミング検出
    • 心理療法において,相手の感情を理解し認める相槌は,信頼関係を築き,負の感情を軽減する上で重要である。
    • 効果的な相槌のタイミングと頻度を自動的に検出する技術が未発達であり,より自然な対話システムの実現を妨げている。
    • 非言語的な音声情報と感情情報を活用し,テキスト情報に依存しない相槌タイミング検出モデルを開発し,その有効性を検証する。
    • 提案手法は,TUT Emotional Storytelling Corpus (TESC)を用いた実験において,従来の音声ベースラインと比較して有意な改善を示した。
    • 非言語的な音声的特徴量と感情表現を統合することで,相槌を打つべきタイミングを決定するための十分な情報が得られることが示された。
    • 本研究は,人間とロボット間のより共感的なインタラクションを実現するための,音声を中心とした新たなアプローチを提供する。

    Link: https://arxiv.org/abs/2603.09307

  • IntroSVG:レンダリングフィードバックを用いたテキストからSVG生成のための内省的生成器-批判者フレームワーク [cs.CV]目的:テキストからSVGを生成する手法の開発
    • デジタルデザインにおいて,SVGはスケーラビリティと編集可能性から重要である。
    • 既存のテキストからSVG生成法は,最終的なレンダリング画像の視覚的認識を取り入れていない。
    • レンダリングフィードバックを生成ループに組み込み,生成品質を向上させる。
    • 提案手法IntroSVGは,生成器と批判者の役割を担う統一されたVLMを構築する。
    • SFTとDPOを用いて,モデルはSVGの作成とレンダリングされた出力のフィードバックを学習する。
    • 実験により,提案手法が主要な評価指標で最先端の性能を達成し,複雑なSVGを生成することが示された。

    Link: https://arxiv.org/abs/2603.09312

  • CLoE:欠損モダリティセグメンテーションのための専門家一貫性学習 [cs.CV, cs.AI, cs.LG]目的:欠損モダリティ下におけるセグメンテーション性能の維持
    • 医療画像セグメンテーションは,病変の正確な検出・診断に不可欠であり,臨床応用が期待されている。
    • 推論時にモダリティが欠損すると,専門家間の不一致が生じ,特に小さい病変領域での融合が不安定になる。
    • モダリティ欠損下でも安定したセグメンテーションを実現するため,専門家の一貫性を高めることを目指す。
    • CLoEは,専門家レベルの一貫性制御により,欠損モダリティ下でも高いセグメンテーション性能を維持する。
    • モダリティ専門家一貫性は,部分入力下での予測のずれを抑制し,領域専門家一貫性は,臨床的に重要な領域への適合性を高める。
    • 一貫性スコアをモダリティ信頼性重みに変換し,融合前の特徴再調整を行うことで,ロバスト性を向上させている。

    Link: https://arxiv.org/abs/2603.09316

  • NLiPsCalib:湾曲型視触覚センサーの高精度3D再構築のための効率的なキャリブレーションフレームワーク [cs.RO, cs.CV]目的:湾曲型視触覚センサーのキャリブレーション手法
    • ロボット工学やヒューマン・コンピュータ・インタラクションにおいて,触覚情報は重要な役割を果たすため,高精度な触覚センサーの開発が求められている。
    • 既存のキャリブレーション手法は,特殊なインデンターや装置が必要で,コストと労力がかかるという課題がある。
    • 日常的な物体を用いた簡便な接触によるキャリブレーションで,高精度な3D再構築を実現し,視触覚センサー開発の敷居を下げる。
    • 提案手法NLiPsCalibは,近距離光源とNear-Light Photometric Stereo (NLiPs) を統合し,物理的に整合性の取れた効率的なキャリブレーションを可能にする。
    • 実験結果は,多様な湾曲形状に対して,簡便なキャリブレーション手順で高精度な3D再構築が実現できることを示している。
    • 本研究は,様々な形状の視触覚センサー開発を容易にし,触覚センシングの普及に貢献する。

    Link: https://arxiv.org/abs/2603.09319

  • SpaceSense-Bench:宇宙船の知覚と姿勢推定のための大規模マルチモーダルベンチマーク [cs.CV, cs.AI]目的:宇宙船の知覚と姿勢推定に関する大規模ベンチマークデータセット
    • 軌道上での活動は増加傾向にあり,宇宙船の自律的な操作が不可欠となっている。
    • 現実の軌道データ収集のコストが高く,既存の合成データセットは多様性やアノテーションに課題がある。
    • 大規模かつ多様なデータセットを通じて,宇宙船知覚の性能向上を目指す。
    • SpaceSense-Benchは,136種類の宇宙船モデルと約70GBのデータを含む大規模なマルチモーダルベンチマークである。
    • 実験により,小型コンポーネントの認識や未知の宇宙船への汎化能力が現在の方法論におけるボトルネックとなっていることが示された。
    • 学習に使用する宇宙船の数を増やすことで,新しいターゲットに対する性能が向上することが確認された。

    Link: https://arxiv.org/abs/2603.09320

  • OddGridBench:マルチモーダル大規模言語モデルにおける微細な視覚的差異への感度不足の露呈 [cs.CV]目的:マルチモーダル大規模言語モデルの視覚的差異への感度評価
    • 近年のマルチモーダルAIの発展は目覚ましいが,低レベルな視覚理解能力は未だ課題である。
    • 既存モデルは,微細な視覚的差異の検出において,人間レベルの性能に遠く及ばない。
    • 本研究は,モデルの微細な視覚識別能力向上を目指し,評価ベンチマークと学習フレームワークを提案する。
    • OddGridBenchは,1,400を超えるグリッド画像を用いて,モデルの視覚的差異検出能力を評価する。
    • 評価した全てのモデル(Qwen3-VL,InternVL3.5,Gemini-2.5-Pro,GPT-5を含む)は,人間のレベルを下回る結果を示した。
    • OddGrid-GRPOは,カリキュラム学習と距離に基づいた報酬を用いることで,モデルの識別能力を大幅に向上させた。

    Link: https://arxiv.org/abs/2603.09326

  • 文法誘導検索による実行可能な音楽エフェクト制御:TimberAgent [cs.SD, cs.AI]目的:実行可能な音楽エフェクト制御のための文法誘導検索手法
    • 音楽制作において,エフェクトチェーンは重要な役割を果たすが,直感的な操作が課題となっている。
    • ユーザーの意図と低レベル信号処理パラメータとの間には意味的な隔たりが存在する。
    • 質感に着目した検索により,編集可能なオーディオエフェクト制御を実現すること。
    • 提案手法 TimberAgent は,既存手法と比較して,正規化されたパラメータエラーが最も低いことを示した。
    • 質感に着目した検索が,編集可能なオーディオエフェクト制御に有用であるというベンチマーク結果が得られた。
    • 聴覚評価実験からも,提案手法の有効性が裏付けられた。

    Link: https://arxiv.org/abs/2603.09332

  • 大規模言語モデルにおける戦略的思考と迅速な意思決定能力の評価:ゼロサム環境における検討 [cs.CV, cs.AI]目的:大規模言語モデルの戦略的思考と迅速な意思決定能力の評価
    • 対戦環境におけるAIエージェントの性能向上は,ゲームやロボティクスなど幅広い分野で重要である。
    • 既存の評価方法は,対戦相手への適応や時間的制約といった,実環境での課題を考慮していない。
    • 本研究は,対戦環境下での戦略性と実行速度のトレードオフを評価する新たなベンチマークを提案する。
    • 大規模言語モデルの戦略的思考能力はターン制環境では高いが,リアルタイム環境では推論遅延により性能が低下する傾向にある。
    • 戦略的思考と実行速度のバランスが,対戦環境におけるAIエージェントの性能を左右する重要な要素となることが示された。
    • STARベンチマークは,戦略性と実行速度のトレードオフを研究するための,再現性と柔軟性を備えた環境を提供する。

    Link: https://arxiv.org/abs/2603.09337

  • ソースフリーテスト時回帰のための予測スペクトル較正 [cs.CV]目的:ソースフリーテスト時回帰における性能向上
    • 画像回帰は様々な応用分野で重要であり,その精度向上が求められている。
    • テスト時適応は分類問題に比べ研究が遅れており,汎用的な手法が不足している。
    • 分布シフト下での回帰性能低下を,ソースデータなしで改善することを目指す。
    • 提案手法である予測スペクトル較正(PSC)は,ブロックスペクトルマッチングを通じて,ソース予測サポートとターゲット特徴を共同で整列させる。
    • PSCは,固定されたサポート部分空間に依存せず,残差スペクトル緩みを較正することでロバスト性を高める。
    • 複数の画像回帰ベンチマークで,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.09338

  • 潜在的反復最適化による堅牢で証明可能な画像透かし技術 [cs.DB, cs.CR, cs.CV]目的:潜在空間における反復最適化に基づく,堅牢性と証明可能な安全性を有する画像透かしの枠組み
    • 情報隠蔽は,デジタルデータの秘密性と安全性を確保する上で重要な役割を果たす。
    • 従来の透かし技術は,堅牢性と安全性の両立が課題であった。
    • 圧縮や画像処理に対する堅牢性を高めつつ,安全性を証明できる透かし技術を開発する。
    • 提案手法は,受信側が送信画像を固定参照として扱い,潜在変数を反復的に洗練することで,メッセージ抽出精度を向上させる。
    • 実験結果から,本手法は画像圧縮に対する堅牢性を改善しつつ,証明可能な安全性を維持することが示された。
    • また,他の証明可能な透かし技術に独立モジュールとして適用することで,更なる堅牢性の強化も可能である。

    Link: https://arxiv.org/abs/2603.09348

  • エビデンスに基づく灌流物理モデルを組み込んだニューラルネットワークと残差不確実性定量 [cs.CV]目的:急性脳卒中の評価のための計算機断層撮影灌流(CTP)画像における不適切に設定された逆畳み込み問題を解決する
    • 脳卒中は緊急性が高く,迅速かつ正確な診断が治療予後を大きく左右するため,灌流画像解析の重要性は高い。
    • 従来の灌流画像解析法はノイズやデータ不足に弱く,また物理モデルの不備による誤差の定量化が困難である。
    • 物理モデルとニューラルネットワークを組み合わせることで,よりロバストで信頼性の高い灌流パラメータ推定を目指す。
    • 提案手法EPPINNは,古典的な逆畳み込みやPINNと比較して,特に時間的サンプリングが疎でノイズが多い条件下で,より低い正規化平均絶対誤差を達成した。
    • EPPINNは,物理モデルの残差に対する事前分布を導入することで,物理モデルの整合性における確率的および認識的不確実性を定量化する。
    • 臨床データを用いた評価では,EPPINNはボクセルレベルおよび症例レベルの梗塞コア検出感度において最高の性能を示した。

    Link: https://arxiv.org/abs/2603.09359

  • M3GCLR:骨格ベースアクション認識のためのマルチビューミニマックス無限骨格データゲーム対照学習 [cs.CV, cs.AI]目的:骨格ベースアクション認識における性能向上
    • 人間の行動認識は,ロボット工学やビデオ監視など,多様な分野で重要性が増している。
    • 既存手法は,ラベル付きデータの不足,ビュー間の差異のモデリング不足,摂動の制御困難性といった課題を抱えている。
    • マルチビュー対照学習とゲーム理論に基づき,よりロバストで識別能力の高いモデルを構築することを目指す。
    • 提案手法M3GCLRは,NTU RGB+D 60データセットにおいて,X-Subで82.1%,X-Viewで85.8%の精度を達成した。
    • NTU RGB+D 120データセットでも,X-Subで72.3%,X-Setで75.0%の高い精度を示し,最先端の性能に匹敵またはそれを上回る結果を得た。
    • PKU-MMDデータセットにおいても優れた結果を示し,各構成要素の有効性がアブレーションスタディによって確認された。

    Link: https://arxiv.org/abs/2603.09367

  • マンモグラフィ分類のための事前計算された特徴量に基づく多インスタンス学習 [cs.CL, cs.CV, cs.AI]目的:マンモグラフィ分類のための多インスタンス学習フレームワーク
    • 医療画像診断の精度向上は,早期発見・治療に不可欠であり,患者の予後改善に貢献する。
    • マンモグラフィは高解像度画像であり,アノテーションが限られ,弱学習しか得られないという課題がある。
    • 事前計算された特徴量と軽量なMILヘッドを組み合わせることで,効率的な学習と適応を実現する。
    • MIL-PFは,大規模なバックボーンの再学習を伴わず,計算効率良くマンモグラフィ分類を行う。
    • アテンションに基づく集約モジュールにより,組織全体のコンテキストと局所的な病変信号を明示的にモデル化する。
    • 臨床規模のデータセットにおいて,最先端の分類性能を達成し,学習の複雑さを大幅に削減した。

    Link: https://arxiv.org/abs/2603.09374

  • SinGeo: ロバストなクロスビュー地理位置特定を実現する単一モデルの可能性の解き放ち [cs.CV]目的:ロバストなクロスビュー地理位置特定
    • 地理位置特定は,自動運転や拡張現実など,様々な分野で不可欠な技術である。
    • 既存手法は,特定の視野角での学習に依存し,未知の視野角や向きに対して性能が低下する。
    • SinGeoは,単一モデルで多様な視野角に対応し,ロバストな地理位置特定を実現することを目標とする。
    • SinGeoは,グランドおよび衛星ブランチにおける識別能力を強化する二重識別学習アーキテクチャと,カリキュラム学習戦略を採用している。
    • 4つのベンチマークデータセットにおける評価により,SinGeoは多様な条件下で最先端の結果を達成し,特に極端な視野角向けに訓練された手法を上回る性能を示した。
    • SinGeoはアーキテクチャ間の転移可能性も示し,モデルの安定性を定量的に評価する一貫性評価法も提案している。

    Link: https://arxiv.org/abs/2603.09377

  • EventVGGT:一貫性のあるイベントベースの深度推定のためのクロスモーダル蒸留の探求 [eess.SY, cs.SY, math.DS, math.OC, cs.CV]目的:イベントベースの深度推定における精度と一貫性の向上
    • 高速動作や極端な照明条件下での3D知覚において,イベントカメラの優位性が注目されている。
    • イベントベースの深度推定は,高密度な深度アノテーションの不足により進展が遅れている。
    • 本研究は,VGGTからイベントドメインへの空間・時間的,多視点幾何学的情報を蒸留することで,深度推定の一貫性と精度を向上させる。
    • 提案手法EventVGGTは,RGBとイベントの特徴を融合し,補助的な深度予測を生成するクロスモーダル特徴混合(CMFD)を採用。
    • VGGTの強力な空間・時間的表現を特徴レベルで蒸留する空間・時間的特徴蒸留(STFD)と,フレーム間の深度変化を整列させる時間的整合性蒸留(TCD)を組み合わせる。
    • EventScapeデータセットにおける30m地点での絶対平均深度誤差を53%以上削減(2.30から1.06へ),DENSEとMVSECデータセットで高いゼロショット汎化性能を示す。

    Link: https://arxiv.org/abs/2603.09385

  • 訓練不要なカバーレスマルチ画像ステガノグラフィとアクセス制御 [cs.CV]目的:カバーレス画像ステガノグラフィにおけるマルチ画像隠蔽とユーザー固有のアクセス制御
    • 情報隠蔽技術は,通信における秘匿性確保に不可欠であり,特に画像への隠蔽は実用性が高い。
    • 既存のカバーレスステガノグラフィは,アクセス制御の点で課題があり,特定のユーザーへの選択的な情報開示が困難。
    • マルチユーザー環境下での情報隠蔽における,スケーラブルかつプライバシーに配慮したアクセス制御を実現する。
    • 提案手法MIDASは,訓練を必要とせず,拡散モデルを用いてマルチ画像隠蔽とユーザー固有のアクセス制御を可能にする。
    • ランダム基底機構により構造的情報の残存を抑制し,潜在ベクトル融合モジュールで拡散過程への適合を実現。
    • 実験結果から,MIDASは既存手法を上回り,アクセス制御機能,画像品質,ロバスト性,耐ステガ分析性で優れている。

    Link: https://arxiv.org/abs/2603.09390

  • 物理情報に基づくニューラルエンジン音響モデル:微分可能なパルストレイン合成による [cs.SD, cs.AI, eess.AS]目的:エンジン音響の物理モデリング
    • 自動車や航空機の騒音低減,およびシミュレーションの精度向上に不可欠である。
    • 従来のニューラル合成はスペクトル近似に留まり,エンジン音源の物理的特性を直接捉えられていない。
    • エンジン排気パルスの形状と時間構造を直接モデル化することで,より高精度な音響合成を目指す。
    • 提案手法PTRは,エンジン音響を生成するパルストレインとカルプラス・ストロング共鳴器を組み合わせる。
    • PTRは物理情報(減衰,ピッチ変動,バルブ動特性など)を組み込み,解釈可能なパラメータを提供する。
    • 3種類のエンジン音データを用いた評価で,PTRは従来モデルより調波再構成率が21%向上,損失が5.7%減少した。

    Link: https://arxiv.org/abs/2603.09391

  • 複雑なレイアウトの文書画像機械翻訳に向けたICDAR 2025競技会 [cs.CV, cs.AI]目的:複雑なレイアウトを持つ文書画像の機械翻訳
    • 文書のデジタル化が進み,多言語間での情報共有の必要性が高まっているため。
    • 従来のOCRとNLPの組み合わせでは,レイアウト情報を十分に活用できず,翻訳精度が課題となっている。
    • 文書画像とテキスト内容,レイアウトを統合的に解析し,高精度な機械翻訳を実現すること。
    • 大規模モデルのアプローチが,複雑なレイアウトの文書画像の翻訳において有望なパラダイムを確立した。
    • 本競技会では,OCRなしとOCRありの2つのトラックで,小規模・大規模モデルが競い合われた。
    • 69チーム,27件の有効な提出があり,今後の研究に向けた多くの機会が示唆された。

    Link: https://arxiv.org/abs/2603.09392

  • YOLO-NAS-Bench:YOLOアーキテクチャ探索のための自己進化型予測器を備えた代替ベンチマーク [eess.SY, cs.SY, cs.DB, cs.RO, cs.CL, cs.CL, cs.CV]目的:YOLOスタイルの物体検出アーキテクチャ探索のための代替ベンチマークの提供
    • 物体検出はコンピュータビジョンの重要なタスクであり,性能向上が求められている。
    • YOLOアーキテクチャ探索は計算コストが高く,効率的な探索方法が課題である。
    • 高精度な代替ベンチマークを構築し,探索コストを削減することを目指す。
    • YOLO-NAS-Benchは,YOLOアーキテクチャ探索に特化した初の代替ベンチマークである。
    • 自己進化機構により予測器の精度が向上し,R2値は0.770から0.815に,Sparse Kendall Tauは0.694から0.752に向上した。
    • 構築した予測器を用いて探索したアーキテクチャは,YOLOv8-YOLO12のベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.09405

  • 効率的な畳み込み拡散モデルのためのConvNeXtの再活性化 [cs.CV, cs.AI, cs.LG]目的:効率的な畳み込み拡散モデルの構築
    • 画像生成分野において,計算効率とモデルの規模拡大が重要な課題となっている。
    • Transformerアーキテクチャが主流となりつつあるが,畳み込みニューラルネットワークの効率性は十分に活用されていない。
    • 畳み込みニューラルネットワークの利点を活かし,効率的な拡散モデルを開発すること。
    • FCDM-XLは,DiT-XL/2の50%のFLOP数で,256x256および512x512解像度において,同等以上の性能を達成した。
    • FCDM-XLは,DiT-XL/2と比較して,それぞれ7倍および7.5倍少ない学習ステップ数で学習可能である。
    • FCDM-XLは4-GPUシステムで学習可能であり,アーキテクチャの優れた学習効率を示している。

    Link: https://arxiv.org/abs/2603.09408

  • RiO-DETR:リアルタイム指向物体検出のためのDETR [cs.CV]目的:リアルタイム指向物体検出における性能向上
    • 自動運転やロボティクスなど,多様な応用分野で物体検出の高速かつ正確な実行が不可欠である。
    • 既存の物体検出手法では,方向情報を考慮した検出において,精度と速度の両立が課題となっていた。
    • DETRを指向バウンディングボックスに適用する際の課題を解決し,リアルタイム性能を維持しつつ高精度な検出を実現する。
    • RiO-DETRは,角度推定と回転修正注意機構を導入することで,信頼性の高い方向情報の捕捉を実現した。
    • 周期的な更新と最短経路周期損失を組み合わせることで,角度の学習安定性を向上させた。
    • DOTA-1.0, DIOR-R, FAIR-1M-2.0の実験により,リアルタイム指向物体検出において新たな精度と速度のトレードオフを確立した。

    Link: https://arxiv.org/abs/2603.09411

  • ドメイン知識を活用したドキュメントレイアウト分析フレームワークPromptDLA [cs.CV, cs.AI]目的:ドキュメントレイアウト分析におけるドメイン知識の活用
    • ドキュメントAIの発展に不可欠であり,様々な文書処理タスクの精度向上に貢献する。
    • 既存手法は,異なるドメインのデータを単純に混合することで,ドメイン固有のレイアウト構造を無視する。
    • ドメイン知識をプロンプトに組み込み,ドキュメントレイアウト分析の汎化性能を向上させる。
    • 提案手法PromptDLAは,DocLayNet,PubLayNet等の大規模データセットにおいて,最先端の性能を達成した。
    • ドメイン固有の属性に基づいたプロンプトのカスタマイズにより,モデルは重要な特徴と構造をより効果的に捉えることができる。
    • ドメイン知識を効果的に活用することで,様々なドメインへの汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.09414

  • CIGPose:全身姿勢推定のための因果介入グラフニューラルネットワーク [cs.CC, cs.CV]目的:全身姿勢推定におけるロバスト性の向上
    • 人間の行動理解に不可欠であり,ロボット工学やコンピュータビジョンの発展に貢献する。
    • 困難なシーンで,解剖学的に不自然な予測を出す姿勢推定器のロバスト性が課題である。
    • 視覚的文脈からの偽相関を取り除き,真の因果効果を近似することでロバスト性を高める。
    • 提案手法CIGPoseは,COCO-WholeBodyデータセットで最先端の性能を達成した。
    • CIGPose-xモデルは,追加の学習データに依存しない従来法を上回る67.0\% APを達成した。
    • UBodyデータセットの追加により,CIGPose-xはさらに67.5\% APに向上し,優れたロバスト性とデータ効率を示した。

    Link: https://arxiv.org/abs/2603.09418

  • MetaDAT:メタ学習とデータ適応型テスト時更新による汎化可能な軌跡予測 [cs.CV]目的:軌跡予測における汎化性能向上
    • 自動運転やロボティクスにおいて,周囲の行動予測は安全確保に不可欠である。
    • テスト時に分布シフトが発生すると,既存手法の性能が著しく低下する。
    • テストデータに特化した学習率調整とハードサンプル選択による効率的な適応を目指す。
    • 提案手法は,メタ学習によりテスト時適応を最適化し,迅速かつ正確なオンライン学習を実現した。
    • データ適応型更新機構により,テストデータの特性に合わせて学習率や更新頻度を動的に調整する。
    • nuScenes,Lyft,Waymo等のクロスデータセット実験で,最先端手法を上回る適応精度を達成した。

    Link: https://arxiv.org/abs/2603.09419

  • オープンワールドにおける行動予測 [cs.CV, cs.AI, cs.RO]目的:動的エージェントの将来の軌跡の予測
    • 自動運転車の安全性向上には,周囲状況の的確な理解が不可欠である。
    • 既存手法は,認識の不完全性や物体種類の変動に対応できず,実用上の課題となっている。
    • 未知の物体クラスが出現する状況下でも,高精度な行動予測を可能にすることを目指す。
    • 提案手法は,新規クラスの導入時に壊滅的な忘却を防ぎ,既存クラスの性能を維持する。
    • 擬似ラベリングとクエリ特徴量の分散に基づくリプレイ戦略により,適応能力とロバスト性を向上させている。
    • nuScenesとArgoverse 2のデータセットを用いた評価で,実走行データへのゼロショット転移も実証された。

    Link: https://arxiv.org/abs/2603.09420

  • 多視点医用画像診断のための,ビュー間・内依存関係のグラフ学習手法GIIM [cs.CV]目的:多視点医用画像診断におけるビュー間・内依存関係のモデリング
    • 医用画像診断支援は不可欠であり,より高度な自動診断システムの開発が求められている。
    • 既存手法は,異なるビューや時間経過に伴う病変間の複雑な関係性を十分に捉えられていない。
    • 本研究は,病変間のビュー内依存性とビュー間動態を同時に捉えることで診断精度を向上させる。
    • 提案手法GIIMは,CT,MRI,マンモグラフィなど多様な画像モダリティにおいて有効性を示す。
    • GIIMは,既存手法と比較して診断精度と堅牢性を大幅に向上させることが確認された。
    • 本研究は,今後の医用画像診断支援システムのより効果的な枠組みを確立する。

    Link: https://arxiv.org/abs/2603.09446

  • ゼロショットターゲットボリューム自動輪郭抽出のためのガイドライン準拠AIエージェント [cs.CV, cs.AI]目的:放射線治療における臨床ターゲットボリュームの自動輪郭抽出
    • 放射線治療において,正確なターゲットボリュームの設定は治療効果と副作用の抑制に不可欠である。
    • 従来の深層学習モデルは専門家による注釈データに依存し,ガイドライン変更時の再学習コストが高い。
    • 本研究は,ガイドラインを直接活用し,再学習なしでターゲットボリュームを抽出する手法を確立する。
    • 提案手法OncoAgentは,食道癌の臨床データにおいて,ゼロショットで高いDice係数(CTV: 0.842, PTV: 0.880)を達成した。
    • 盲検臨床評価において,医師はガイドライン準拠性,修正の容易さ,臨床的受容性の点でOncoAgentを教師あり学習モデルより高く評価した。
    • 本フレームワークは,他の食道ガイドラインや前立腺などの異なる解剖学的部位にも再学習なしで適用可能であり,汎用性を示す。

    Link: https://arxiv.org/abs/2603.09448