arXiv雑要約

画像・音声 - 2026/03/24 公開

  • インテリジェントな不服従ゲーム:スタケルベルクゲームとマルコフ決定過程における不服従の定式化 [cs.AI, cs.GT, cs.LG]目的:インテリジェントな不服従の定式化
    • 人とロボットの協調作業において,安全性の確保は不可欠である。
    • ロボットが人間の指示に従うべきか,安全のために指示に反すべきかという判断が困難である。
    • 安全性を考慮したロボットの自律的な判断と行動の理論的基盤を構築する。
    • 本研究では,人間のリーダーと支援するフォロワー間の相互作用をモデル化する「インテリジェントな不服従ゲーム」を提案した。
    • 最適な戦略を特定し,「安全の罠」と呼ばれる現象を明らかにした。これはシステムが危害を回避し続ける一方で,人間の目標を達成できない状況である。
    • 提案手法は,安全な不服従を学習するエージェントの開発と,人間が不服従なAIをどのように認識し信頼するかを研究するための基礎となる。

    Link: https://arxiv.org/abs/2603.20994

  • 偏った寄付ゲームにおける最弱者の生存 [cs.GT, cond-mat.stat-mech, nlin.CG, q-bio.PE]目的:偏ったTit-for-Tat戦略における協力の多様性と進化
    • 社会性動物の協力行動は,集団の生存と繁栄に不可欠であり,進化生物学の重要なテーマである。
    • Tit-for-Tat戦略の有効性は認識されているものの,無条件協力戦略との等価性には議論の余地がある。
    • 本研究は,Tit-for-Tat戦略への偏りが協力行動の進化に与える影響を明らかにすることを目指す。
    • 偏ったTit-for-Tat戦略を用いたシミュレーションにより,多様な相図が観察された。
    • 特に,Tit-for-Tat戦略への偏りが小さく,無条件協力戦略への偏りが大きい場合,「隠れたTit-for-Tat相」が出現し,最弱のTit-for-Tat戦略が優勢になった。
    • この優勢性は,非推移的な生態系における逆説的なメカニズム,すなわちTit-for-Tat戦略が自身の相対適応度を抑制することに起因する。

    Link: https://arxiv.org/abs/2603.20998

  • OrbitStream:意味的ポテンシャル場を利用したトレーニング不要の適応型360度ビデオストリーミング [cs.NI, cs.CV, cs.MM, cs.RO, eess.IV]目的:不確実な視線パターン下でのビューポート予測と,不安定な無線チャネルにおけるビットレート適応
    • 遠隔操作における360度ビデオストリーミングは,没入感と操作性の向上に不可欠である。
    • 既存手法はデータ依存性が高く,安全性確保が求められるシステムへの導入が困難である。
    • トレーニングデータに頼らず,解釈可能な形で高品質なストリーミングを実現する。
    • OrbitStreamは,ユーザー固有のプロファイリングなしで94.7%のゼロショットビューポート予測精度を達成した。
    • 3,600回のモンテカルロシミュレーションにおいて,平均QoEは2.71となり,上位のBOLA-E (2.80)に匹敵する性能を示した。
    • 平均決定遅延は1.01msと非常に低く,リバッファリングイベントも最小限に抑えられた。

    Link: https://arxiv.org/abs/2603.20999

  • SURF:署名を保持した高速ビデオ生成 [cs.GR]目的:高解像度ビデオの効率的な生成
    • 高解像度ビデオ生成の需要が急速に高まっているため,その重要性は増している。
    • 既存手法では,生成速度を向上させるためにモデルの特性(署名)が損なわれる場合が多い。
    • 既存モデルの署名を最大限に保持しつつ,高解像度ビデオを効率的に生成することを目指す。
    • SURFは,ビデオ生成をプレビュー生成とリファインの2段階に分割することで高速化を実現した。
    • ノイズリシフティングにより,低解像度での推論による署名の損失を軽減し,高解像度ビデオの生成品質を向上させた。
    • Wan2.1およびHunyuanVideoにおいて,それぞれ12.5倍および8.7倍の速度向上を達成した。

    Link: https://arxiv.org/abs/2603.21002

  • SkinCLIP-VL:多種モダリティ皮膚癌診断のための整合性重視の視覚言語学習 [cs.CC, cs.CC, cs.CV]目的:多種モダリティ皮膚癌診断のための,信頼性の高いフレームワーク
    • 皮膚科学における画像と言語の連携は,診断精度向上に不可欠である。迅速かつ正確な診断が求められる分野である。
    • 深層学習モデルのブラックボックス性,計算コストの高さ,データ不足が,実用化の障壁となっている。
    • 計算資源を抑えつつ,長尾分布データ下での視覚情報と臨床的意味の整合性を高めることを目指す。
    • SkinCLIP-VLは,パラメータ数を43%削減しつつ,既存の13Bパラメータベースラインモデルを4.3-6.2%上回る精度を達成した。
    • 盲検専門家評価と分布外テストにより,視覚的根拠に基づいた説明が,従来のサリエンシーマップよりも臨床医の信頼を高めることが確認された。
    • 凍結された知覚と適応的推論のパラダイムを採用し,CLIPエンコーダと軽量なQwen2.5-VLをLoRAを用いて統合している。

    Link: https://arxiv.org/abs/2603.21010

  • LPNSR:低解像度画像誘導ノイズ予測による事前知識強化型拡散超解像 [cs.CV, cs.AI]目的:拡散モデルを用いた超解像技術における性能向上
    • 画像超解像は,限られた情報から高画質の画像を復元する上で重要な技術である。
    • 拡散モデルの超解像は,推論効率と再構成品質のトレードオフが課題となっていた。
    • 本研究は,拡散モデルの中間ノイズの最適化と初期バイアスの軽減を通して,この課題を解決する。
    • 提案手法LPNSRは,低解像度画像の構造的情報を拡散過程に組み込むことで,効率的な推論を維持しつつ,再構成品質を大幅に向上させている。
    • LPNSRは,4ステップというコンパクトな推論経路で,最先端の性能を達成し,大規模なテキスト画像事前知識に依存しない。
    • 高品質な事前アップサンプリングネットワークにより,初期バイアスを軽減し,拡散開始点を最適化している。

    Link: https://arxiv.org/abs/2603.21045

  • SpatialFly:都市環境におけるUAVのビジョンと言語によるナビゲーションのための幾何学に基づく表現アラインメント [cs.CV, cs.AI]目的:UAVのビジョンと言語によるナビゲーションにおける幾何学に基づく表現アラインメント手法
    • UAVは自律探索,災害対応,インフラ点検など様々な分野で重要な役割を担う。
    • 複雑な3D環境におけるUAVのVLNは,2D視覚情報と3D軌道決定空間の構造的表現の不一致が課題。
    • 2D表現に幾何学的情報を注入し,3D幾何学的特徴とのアラインメントを行うことで空間推論能力の向上を目指す。
    • SpatialFlyは,明示的な3D再構成なしにRGB画像のみを用いて幾何学的なガイダンスを2Dセマンティック特徴に注入する。
    • 実験結果から,SpatialFlyは未知環境を含む複数の環境で最先端のUAV VLN手法を安定して上回り,NEを4.03m削減し,SRを1.27%向上させた。
    • 軌道分析により,SpatialFlyはより優れた経路追従性と滑らかで安定した運動軌跡を生み出すことが示された。

    Link: https://arxiv.org/abs/2603.21046

  • わずかな編集が重要となる場合:超音波における医療VLMの堅牢性に対するLLM駆動のプロンプト攻撃 [cs.CV]目的:医療画像解析におけるVLMの脆弱性評価
    • 超音波検査は臨床現場で広く利用されており,AI支援による解析の重要性が高まっている。
    • VLMは自然言語指示に基づいて動作するため,プロンプトのわずかな変化が結果に影響を及ぼす可能性がある。
    • 臨床現場で起こりうるプロンプトの変動に対するVLMの堅牢性を評価し,安全な臨床応用を目指す。
    • 大規模言語モデルを用いて,臨床的に妥当なプロンプト変種を生成し,最先端の医療VLMに対する攻撃を試みた。
    • 攻撃に成功するかどうかは,攻撃に用いるLLMの能力に依存することが示された。
    • モデルの信頼度と攻撃成功率の間には関係があり,一貫した失敗パターンが確認された。

    Link: https://arxiv.org/abs/2603.21047

  • 注意散漫運転行動の時間的局所化のための二段階Transformerフレームワーク [cs.CV, cs.AI]目的:注意散漫運転行動の時間的局所化手法
    • 交通安全向上と交通違反検知に不可欠な研究分野であり,安全運転支援に繋がる。
    • 既存手法は,精度と計算効率のバランスが課題であり,リアルタイム処理が難しい。
    • 計算効率を維持しつつ,精度向上を目指す時間的局所化フレームワークを提案する。
    • ViT-Giantバックボーンは88.09%のTop-1精度を達成する一方,ViTベースの変種は,大幅に低い計算コストで82.55%の精度を実現した。
    • SPPFモジュールは,全ての構成で性能向上に貢献し,ViT-Giant + SPPFモデルはmAP 92.67%のピークを達成した。
    • 軽量なViTベース構成も,頑健な結果を維持しており,実用的な代替手段となる。

    Link: https://arxiv.org/abs/2603.21048

  • ERM-MinMaxGAP:多言語マルチモーダル音声LLMにおける感情認識のジェンダーバイアスベンチマークと軽減 [cs.SD]目的:多言語マルチモーダル音声LLMにおける感情認識のジェンダーバイアスの評価と軽減
    • 音声感情認識は,人間のコミュニケーション理解に不可欠であり,多様な応用分野で重要性が増している。
    • 音声感情認識システムはジェンダーによる性能格差を示すことがあり,多言語・マルチモーダルLLMにおいてその実態が不明確である。
    • 言語・モダリティごとのバイアスを定量化し,公平性を向上させるための学習手法を開発することを目的とする。
    • 本研究では,英語,日本語,ドイツ語を含む新しい多言語マルチモーダルベンチマークを構築し,言語特有の性能とジェンダーギャップを定量化した。
    • 提案手法ERM-MinMaxGAPは,Qwen2-Audioを基盤とし,多言語音声感情認識の性能を最大5.5%向上させ,ジェンダーバイアスギャップを最大1.4%削減した。
    • マルチモーダル融合が必ずしも公平性を改善するとは限らず,言語依存性が強いことが示された。

    Link: https://arxiv.org/abs/2603.21050

  • SGAD-SLAM:調整された深度におけるガウススプラッティングによるRGBD SLAMにおけるより良いラディアンスフィールド [cs.CV]目的:RGBD SLAMにおけるラディアンスフィールド表現の改善
    • SLAMは,ロボットや自動運転車の自律移動に不可欠であり,環境理解の基礎となる技術である。
    • 従来の3Dガウス表現は柔軟性や移動の自由度に課題があり,収束速度やレンダリング品質が制限される場合がある。
    • ピクセルアラインメントガウスの調整により,レンダリング品質を向上させつつ,スケーラビリティを確保することを目指す。
    • 提案手法SGAD-SLAMは,深度分布モデルを活用することで,高速なトラッキングを実現した。
    • 評価実験の結果,既存手法と比較して,レンダリング,トラッキング,実行時間,ストレージ効率において優位性を示した。
    • ガウスの位置調整により,レンダリング品質を向上させながら,計算コストを抑制することに成功した。

    Link: https://arxiv.org/abs/2603.21055

  • 単眼視点:自律運転のためのリアルタイム知覚パッケージ [cs.CV]目的:自律運転のための単眼カメラによるリアルタイム知覚システム
    • カメラ技術を用いた自律運転は急速に進展しており,安全性向上の鍵となる。
    • 既存システムは性能重視で計算効率が課題であり,リアルタイム処理が困難な場合がある。
    • 単眼カメラによる効率的な環境認識システムの開発を通して,リアルタイム処理を実現する。
    • 提案システムLRHPerceptionは,エンドツーエンド学習とローカルマッピングを組み合わせた。
    • RGB画像に加え,道路セグメンテーションとピクセルレベルの深度推定,物体検出,軌跡予測を統合した。
    • 単一GPU上で29FPSの処理速度を達成し,既存のマッピングベース手法比で555%の高速化を実現した。

    Link: https://arxiv.org/abs/2603.21061

  • 幾何学と外観の分離:前方3Dガウススプラッティングにおける専門家2人の方が汎用性1人より優れる [cs.CV]目的:前方3Dガウススプラッティングのための幾何学と外観の分離
    • 3次元モデリングの高速化が求められている。高品質な3次元表現を迅速に生成する技術が重要である。
    • 既存手法は幾何学と外観を単一のネットワークで処理するため,高精度な表現が得られにくい。
    • 幾何学推定とガウス生成を分離することで,より高精度な3次元表現の生成を目指す。
    • 本研究で提案する2Xplatは,2つの専門家による設計で幾何学と外観を分離し,高品質な3Dガウススプラッティングを実現する。
    • わずか5000回の学習反復で,既存の姿勢推定不要な前方3Dガウススプラッティング手法を大幅に上回り,姿勢推定を行う最先端手法と同等の性能を達成した。
    • この結果は,従来の統一的な設計パラダイムに疑問を投げかけ,複雑な3次元幾何学推定と外観合成タスクにおけるモジュール設計の利点を示唆する。

    Link: https://arxiv.org/abs/2603.21064

  • NoOVD:オープンボキャブラリ物体検出のための新規カテゴリ発見と埋め込み [cs.CV]目的:オープンボキャブラリ物体検出における新規カテゴリの発見と埋め込み手法
    • 画像認識技術は,自動運転やロボット工学など,幅広い分野で不可欠な役割を担う。
    • 既存の物体検出器は,学習時に未見のカテゴリに対して十分な性能を発揮できないという課題がある。
    • 本研究は,学習データに存在しない新規カテゴリの物体検出性能向上を目指す。
    • 提案手法NoOVDは,事前学習済みのビジョン言語モデルの知識を活用し,自己蒸留メカニズムを導入することで,新規カテゴリの発見と埋め込みを改善する。
    • K-FPNは,ビジョン言語モデルの知識を活かし,新規カテゴリの物体を背景と誤分類することを防ぎ,知識蒸留を促進する。
    • R-RPNは,推論時に提案の信頼度スコアを調整することで,新規カテゴリの物体の再現率を向上させる。

    Link: https://arxiv.org/abs/2603.21069

  • 前方探査ソナー画像セマンティックセグメンテーションのための協調教師フレームワーク:極めて少ないラベルでの学習 [eess.SY, cs.SY, cs.CV, cs.AI]目的:前方探査ソナー画像のセマンティックセグメンテーションにおける性能向上
    • 水中探査において重要な前方探査ソナー技術の応用範囲拡大のため。
    • ソナー画像特有のノイズや歪みにより,少量データでのセグメンテーションが困難。
    • 複数教師を用いた協調学習と信頼性評価により,ノイズの影響を軽減し精度向上を目指す。
    • 提案手法は,一般教師とソナー特化型教師の協調学習により,包括的な特徴モデリングを実現した。
    • 教師間の予測の一貫性と安定性を評価する信頼性評価機構を導入し,ノイズの多い疑似ラベルの影響を抑制した。
    • FLSMDデータセットにおいて,2%のラベル量で最先端手法と比較してmIoUが5.08%向上した。

    Link: https://arxiv.org/abs/2603.21071

  • 文脈を考慮した視覚的ファインチューニング:マルチモーダル大規模言語モデル向け [cs.CV]目的:マルチモーダル大規模言語モデルにおける視覚的ファインチューニングの安定化と性能向上
    • マルチモーダル大規模言語モデルは,近年急速に発展しており,様々な応用が期待されている。
    • 視覚エンコーダのファインチューニングは効果が不安定であり,一貫した最適化方法が確立されていない。
    • 文脈に依存した視覚的更新を可能にし,マルチモーダルタスクにおける性能を向上させる。
    • 提案手法 CoVFT は,文脈ベクトル抽出と文脈的 Mixture-of-Experts を組み込み,視覚的最適化の不安定性を解消する。
    • 12のマルチモーダルベンチマークにおいて,CoVFTは最先端の性能と安定性を示すことが確認された。
    • 7Bモデルに対する CoVFT によるファインチューニングは,13Bモデルの平均性能を上回り,視覚エンコーダの最適化の潜在力を示した。

    Link: https://arxiv.org/abs/2603.21077

  • ニューラルTTSシステムにおける子音誘起F0摂動のモデル化能力評価 [cs.CL, cs.AI, cs.SD]目的:ニューラルTTSモデルの,子音誘起F0摂動の再現能力の評価
    • 自然な音声合成は,コミュニケーションにおいて不可欠であり,その品質向上は重要な課題である。
    • 既存のTTSシステムでは,細かな音韻・ Prosody の再現が不十分な場合がある。
    • TTSシステムが,見たことのない語彙に対してもProsodyを一般化できるか検証する。
    • 高頻度語ではF0摂動の再現は良好であったが,低頻度語では再現性が低いことが示された。
    • 既存のTTSアーキテクチャは,語彙レベルの記憶に依存しており,抽象的な音韻・Prosodyエンコーディングが不十分である。
    • 本研究で提案する評価手法は,TTSシステムの解釈可能性や信頼性向上に貢献する可能性がある。

    Link: https://arxiv.org/abs/2603.21078

  • 階層型テキスト誘導による脳腫瘍セグメンテーション:サブ領域対応プロンプトを用いた手法 [eess.SY, cs.SY, math.DS, cs.NI, cs.CV]目的:脳腫瘍のセグメンテーションにおける精度向上
    • 脳腫瘍の正確なセグメンテーションは,診断,治療計画,予後予測に不可欠である。
    • 腫瘍の各サブ領域(WT, TC, ET)の視覚的境界が曖昧で,正確な識別が困難である。
    • 臨床記述テキストを活用し,各サブ領域の特徴に応じたセグメンテーションを目指す。
    • 提案手法TextCSPは,テキスト情報を活用した階層型デコーダとサブ領域対応プロンプトにより,既存手法を上回る性能を示す。
    • Dice係数およびHD95において,平均して1.7%および6%の改善が見られた。
    • 各サブ領域において一貫した精度向上を達成し,臨床的な応用可能性を示唆する。

    Link: https://arxiv.org/abs/2603.21083

  • 潜在拡散モデルにおける分散拡大損失によるサンプリング摂動の抑制 [cs.CV]目的:潜在拡散モデルのサンプリング摂動に対するロバスト性向上
    • 高忠実度かつ効率的な画像生成において,潜在拡散モデルが主要な枠組みとなっている。
    • 既存の潜在空間は,サンプリング時の確率的摂動に敏感であり,生成品質を低下させる問題がある。
    • 潜在空間のロバスト性を高め,安定した高品質な拡散サンプリングを実現することを目指す。
    • 提案手法は,分散拡大損失を導入することで,潜在空間の分散崩壊に対抗し,再構成精度を維持しつつロバスト性を向上させる。
    • 様々な潜在拡散モデルのアーキテクチャにおいて,提案手法が生成品質の一貫した向上を実証した。
    • 潜在空間におけるロバスト性は,安定かつ忠実な拡散サンプリングにおける重要な要素であることが確認された。

    Link: https://arxiv.org/abs/2603.21085

  • 不確実性認識脳腫瘍セグメンテーションのための不一致誘導型洗練ネットワーク [cs.CV]目的:脳腫瘍セグメンテーションの精度向上と,信頼性の高い不確実性評価の実現
    • MRI画像からの脳腫瘍セグメンテーションは,診断と治療計画において不可欠である。
    • 既存の深層学習モデルは,不確実性の定量化や放射線科レポートの活用が不十分である。
    • マルチビュー不一致に基づく不確実性推定と,テキスト条件による洗練を通して課題を解決する。
    • DGRNetは,Dice係数で2.4%,HD95で11%の性能向上を実現した。
    • 複数のビューからの予測を通して,効率的な不確実性評価を可能にした。
    • 臨床レポートを活用し,曖昧な領域のセグメンテーションを洗練した。

    Link: https://arxiv.org/abs/2603.21086

  • 臨床的に整合した多タスク甲状腺超音波評価のための表現レベルの敵対的正則化 [eess.SY, cs.SY, math.OC, q-fin.TR, cs.DB, cs.NI, cs.NI, cs.CL, cs.CV, cs.AI]目的:甲状腺結節の評価と生検の必要性の判断
    • 甲状腺超音波は,甲状腺結節の評価における第一選択肢であり,医療における重要性が高い。
    • 読者による輪郭描画様式やリスク分類のばらつきにより,学習の質が低下する可能性がある。
    • 読者間のばらつきによる勾配の競合を抑制し,リスク層別化を改善することを目指す。
    • 臨床的に誘導された多タスクモデルとRLARにより,リスク層別化の精度が向上した。
    • セグメンテーションの品質を維持しつつ,単一タスク学習や従来の多タスクベースラインを上回った。
    • RLARは,潜在空間におけるタスク固有の敵対的方向の角度の過剰な一致を抑制する。

    Link: https://arxiv.org/abs/2603.21095

  • マルチモーダル追跡における漸進的適応学習 [cs.CV, cs.AI]目的:マルチモーダル追跡のための漸進的適応手法の開発
    • 多様なセンサー情報を活用することで,よりロバストな視覚認識が可能になるため,重要な研究分野である。
    • マルチモーダルデータはペアが限られており,既存のRGBモデルのファインチューニングでは十分な適応が難しい。
    • RGBモデルをマルチモーダルデータに適応させるための,モダリティ特化的な適応メカニズムを提案する。
    • 提案手法は,モダリティ依存,モダリティエンタングル,タスクレベルの3種類のadapterを導入することで,RGBモデルの適応を段階的に行う。
    • 各モダリティの特性を捉え,高周波・低周波成分を分解するモダリティ依存adapterにより,ロバストな特徴表現を実現した。
    • RGB+Thermal, RGB+Depth, RGB+Eventの追跡タスクにおいて,最先端手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2603.21100

  • CounterScene:安全性が重要なクローズドループ評価のための生成型ワールドモデルにおける反事実的因果推論 [cs.RO, cs.CV]目的:安全性が重要な運転シナリオの生成
    • 自動運転システムの安全性評価において,危険な状況を理解し,再現することが不可欠である。
    • 既存手法は,経験的な敵対的エージェント選択や構造化されていない摂動に依存し,相互作用の依存関係を明示的にモデル化していない。
    • 相互作用の依存関係を明示的にモデル化し,リアリズムと敵対性のトレードオフを解消し,より現実的な危険シナリオを生成すること。
    • CounterSceneは,クローズドループな生成型BEVワールドモデルに構造化された反事実的推論を組み込むことで,安全性が重要なシナリオ生成を可能にする。
    • 因果的に重要なエージェントを特定し,衝突タイプを分類する因果的敵対的エージェント識別を導入し,動的なエージェント間依存関係を明示的にモデル化する。
    • 実験結果から,CounterSceneは最も強力な敵対的有効性と,すべての水平線における優れた軌跡リアリズムを達成し,長期的な衝突率を改善することを示した。

    Link: https://arxiv.org/abs/2603.21104

  • パラメータ効率の良いマルチタスク学習のための周波数切り替えメカニズム [cs.CV, cs.LG]目的:パラメータ効率の良いマルチタスク学習フレームワーク
    • 複数のタスクを効率的に解決するため,単一のモデルが求められている
    • 既存のパラメータ効率の良いファインチューニング法は,単一タスクへの適応に限定されている
    • 周波数切り替えによる低コストな重み調整を実現し,スケーラブルなパラメータ共有を目指す
    • 提案手法Free Sinewichは,低ランク因子と畳み込み事前知識を組み合わせたSine-AWB層と,周波数生成Clock Netを用いる
    • Sine変調により低ランクアダプターのランクが増加し,周波数分離により異なるタスクの重みがデコレルする
    • 密な予測ベンチマークにおいて,単一タスクファインチューニングと比較して最大5.39%の性能向上を,わずか6.53Mの学習可能パラメータで実現した

    Link: https://arxiv.org/abs/2603.21111

  • CVT-Bench:反事実的な視点変換がマルチモーダルLLMにおける不安定な空間表現を明らかにする [cs.CV]目的:マルチモーダルLLMにおける空間表現の安定性評価
    • マルチモーダルLLMは急速に発展しており,視覚情報を活用した高度な推論が期待されている。
    • 視点変化に対する空間表現の安定性に関する評価が十分ではない。
    • 視点変換に対する空間表現の脆弱性を明らかにし,安定性を向上させる方法を探る。
    • マルチモーダルLLMは単一視点での空間推論には高い性能を示すものの,反事実的な視点変化下では性能が著しく低下する。
    • 特に,視点変化のサイクルの一貫性や,連続的な変換における関係性の安定性が低いことが示された。
    • 入力表現の構造化(bounding boxやシーングラフ)が空間表現の安定性を向上させる可能性が示唆された。

    Link: https://arxiv.org/abs/2603.21114

  • LiFR-Seg:イベント駆動伝播による高フレームレートセグメンテーション [cs.CV]目的:低フレームレートカメラの限界を克服するための,イベントデータを用いたセマンティックセグメンテーション手法
    • 動的な環境下でのセマンティックセグメンテーションは,自動運転やロボティクスにおいて不可欠な要素である。
    • 従来のカメラの低フレームレートが,フレーム間の知覚的なギャップを生じ,セグメンテーション精度を低下させる。
    • イベントデータと過去のRGBフレームを活用し,高フレームレートの知覚を実現することで,この問題を解決する。
    • 提案手法LiFR-Segは,イベント駆動モーションフィールドと信頼度を考慮したウォーピング処理により,セマンティック特徴の伝播を可能にする。
    • DSECデータセットとSHF-DSECベンチマークにおいて,高フレームレートの性能と統計的に区別できない結果(mIoU 73.82%)を達成した。
    • 本研究は,低フレームレートハードウェアでもロバストで高フレームレートな知覚を実現する,効率的なパラダイムを提供する。

    Link: https://arxiv.org/abs/2603.21115

  • ReDiffuse:多焦点画像融合のための回転不変拡散モデル [cs.RO, eess.SY, cs.SY, cs.CV]目的:多焦点画像融合における回転不変性の導入
    • 画像融合は,異なる焦点の画像を統合し,より鮮明で情報量の多い画像を得る上で重要である。
    • 拡散モデルを多焦点画像融合に適用する際,デフォーカスぼけが幾何学的構造を歪ませ,アーティファクトを生じやすい。
    • 回転不変性を拡散モデルに組み込み,幾何学的構造の向きと一貫性を保ち,より高品質な融合画像を生成する。
    • 提案手法ReDiffuseは,画像融合において回転不変性を実現する拡散モデルである。
    • 理論的な分析により,組み込まれた不変構造の有効性が示された。
    • 4つのデータセットでの評価で,6つの評価指標において0.28-6.64%の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.21129

  • 解剖学的事前知識に基づく自律ロボット心臓超音波標準像取得フレームワーク [eess.SY, cs.SY, cs.RO, cs.CV]目的:心臓超音波標準像取得のためのフレームワーク
    • 心血管疾患の評価において心臓超音波診断は不可欠であり,その技術の進歩が求められている。
    • 標準像取得は熟練したオペレーターに依存しており,技術の自動化が課題となっている。
    • 解剖学的事前知識を統合し,標準像取得の精度と自律性を向上させることを目指す。
    • 提案フレームワークは,YOLOベースのセグメンテーションモデルと空間関係グラフ(SRG)モジュールを組み合わせ,解剖学的事前知識を特徴ピラミッドに組み込んだ。
    • SRG-YOLOv11sはSpecial CaseデータセットにおいてmAP50を11.3%,mIoUを6.8%改善した。
    • 強化学習エージェントはシミュレーションで92.5%,ファントム実験で86.7%の成功率を達成した。

    Link: https://arxiv.org/abs/2603.21134

  • 単一のプールでは不十分:実用的なテスト時適応のためのマルチクラスタメモリ [cs.CV, cs.AI]目的:テスト時適応におけるメモリ機構の構造化
    • テスト時適応は,ラベルなしデータを用いてモデルを新しい分布に適応させる技術であり,現実世界の応用において重要である。
    • 既存のテスト時適応手法では,メモリを単一の構造化されていないプールに保存するため,分布の多様性を捉えきれないという課題がある。
    • 本研究では,サンプルを複数のクラスタに整理することで,メモリ機構の構造化を図り,テスト時適応の性能向上を目指す。
    • 提案手法Multi-Cluster Memory(MCM)は,様々なデータセット(CIFAR-10-C, CIFAR-100-C, ImageNet-C, DomainNet)で既存手法を上回る性能を示した。
    • 特に,分布の複雑性が高いデータセット(ImageNet-C, DomainNet)において,MCMによる改善効果が顕著であった。
    • メモリ構造の最適化が,実用的なテスト時適応において重要な設計軸であることが示された。

    Link: https://arxiv.org/abs/2603.21135

  • MS-CustomNet:階層的関係意味論による制御可能な複数被写体カスタマイズ [cs.CV]目的:複数被写体を含む画像生成におけるカスタマイズ手法
    • 画像生成技術の発展は,多様な表現を可能にするが,複雑な構図の制御が課題である。
    • 既存手法では,複数被写体の配置や関係性をユーザーが細かく指定することが困難である。
    • ユーザーが指定した被写体間の階層構造と空間配置を反映した画像生成を実現する。
    • MS-CustomNetは,ユーザーが提供する複数のオブジェクトをゼロショットで統合可能である。
    • DINO-Iスコア0.61で被写体IDの保持,YOLO-Lスコア0.94で位置制御を実現し,高精度な画像生成を可能にする。
    • MSIデータセットを新たに構築し,複数被写体の複雑な構図学習を促進する。

    Link: https://arxiv.org/abs/2603.21136

  • 視覚的手がかりを用いた成果報酬強化学習による生成型ゼロショット学習のインセンティブ付与 [cs.CV]目的:生成型ゼロショット学習における性能向上
    • 従来のゼロショット学習の限界を克服し,未知のクラス認識能力を高めることが重要である。
    • 生成された特徴量がタスクに依存せず,類似クラスの識別が困難になるという課題がある。
    • 視覚的手がかりと強化学習を用いて,タスク関連性の高い特徴量生成を促すことで性能向上を目指す。
    • 提案手法RLVCは,成果報酬に基づく強化学習フレームワークによって生成モデルを自己進化させる。
    • 視覚的手がかりを導入することで,生成された特徴量を視覚プロトタイプに整合させ,学習を安定化させる。
    • 3つのベンチマークにおいて,最先端の結果を達成し,平均4.7%の性能向上を示した。

    Link: https://arxiv.org/abs/2603.21138

  • 単一の信号を超えて:未知の未知に対する統合マルチ専門家異常検知器SPECTREG2 [cs.LG, cs.CV]目的:未知の未知に対する異常検知
    • 機械学習システムが自身の知識限界を認識し,不確実性下で安全に動作する必要がある。
    • 既存の不確測度化手法は単一の信号に依存し,多様な構造的異常の検出に失敗する。
    • 多様な異常タイプに対する検知性能向上と,未知の変数や交絡因子の検出。
    • SPECTRE-G2は,デュアルバックボーンニューラルネットワークから8つの補完的な信号を組み合わせる。
    • 合成データ,Adult,CIFAR-10,Gridworldデータセットで,AUROC,AUPR,FPR95において複数のベースラインを上回る性能を示した。
    • 新しい変数や交絡因子の検出に特に有効であり,オープンワールド環境での未知の未知の検知に貢献する。

    Link: https://arxiv.org/abs/2603.21160

  • 多様な方言,多様な言語,一つの文化的視点:ベンガル文化理解のための多言語VLMの評価 [cs.CL, cs.CV]目的:ベンガル文化に対する多言語ビジョン言語モデルの評価
    • 多言語モデルの能力評価において,文化的背景の考慮は不可欠である。
    • 既存の評価データセットでは,ベンガル文化のような地域性が強い文化への対応が不足している。
    • ベンガル文化の多様性を考慮した,より現実的な多言語モデルの評価手法を確立する。
    • 新たに構築したベンガル文化に根ざしたベンチマーク「BanglaVerse」を用いて多言語VLMを評価した。
    • 標準ベンガル語のみでの評価はモデルの能力を過大評価することが示された。方言や言語の差異により性能が低下する。
    • 文化知識の欠如が,視覚的理解のみの問題よりも大きなボトルネックとなっていることが明らかになった。

    Link: https://arxiv.org/abs/2603.21165

  • 学習不要なインスタンス認識3Dシーン再構成と,拡散モデルに基づくビュー合成(疎な画像からのもの) [cs.CV]目的:疎なRGB画像から3D屋内シーンを再構成,理解,レンダリングするシステム
    • 3Dシーンの理解は,ロボット工学や拡張現実など広範な分野で不可欠である。
    • 従来のradiance field手法は,高密度なビューとシーン固有の最適化が必要であり,効率性に課題があった。
    • 疎な入力画像から高精度な3Dシーンを再構成し,編集可能なコンテンツ生成を実現することを目指す。
    • 本手法は,学習やポーズの前処理を必要とせずに,高精度な3D再構成とレンダリングを可能にする。
    • 歪みベースの異常除去戦略を用いて信頼性の低いジオメトリをフィルタリングし,頑健な点群再構成を実現する。
    • 2Dセグメンテーションマスクを整合性のあるインスタンス認識3D表現に伝播させることで,オブジェクトレベルのシーン編集を可能にする。

    Link: https://arxiv.org/abs/2603.21166

  • GIDE:拡散LLMによる正確なトレーニング不要画像編集の可能性 [cs.CV]目的:拡散LLMを用いた精密なトレーニング不要画像編集手法
    • 画像生成AIの発展は,クリエイティブ産業を含む多岐にわたる分野に革新をもたらしている。
    • 拡散LLMは離散的なトークン化を用いるため,従来のノイズ反転技術が適用できず,編集時の構造劣化が課題であった。
    • 離散的なトークン空間におけるノイズパターンを正確に捉え,高品質な画像編集を実現すること。
    • GIDEは,ノイズ反転機構と段階的な編集パイプライン(グラウンディング,反転,洗練)を導入することで,様々な編集指示に対応可能である。
    • GIDE-Benchという厳格なベンチマークを新たに作成し,多様なマルチモーダル入力による805の編集シナリオで評価を行った。
    • 実験結果から,GIDEは既存のトレーニング不要手法と比較して,意味的正確性で51.83%,知覚的品質で50.39%の改善を示した。

    Link: https://arxiv.org/abs/2603.21176

  • 密接間隔赤外微小ターゲット分離のための動的疎圧縮センシングネットワーク (DSCSNet) [cs.CV, cs.MM]目的:密接間隔赤外微小ターゲットの数,サブピクセル位置,および放射強度の復元
    • 赤外線技術は,監視,セキュリティ,産業検査など,様々な分野で不可欠である。
    • 光学レンズの焦点距離と検出器の解像度の制約により,微小ターゲットの分離が困難である。
    • モデル駆動型とデータ駆動型アプローチのバランスを取り,分離精度と汎化性能の向上を目指す。
    • 提案手法DSCSNetは,ADMMと学習可能なパラメータを組み合わせた深層アンフォールドネットワークである。
    • DSCSNetは,厳密なL1ノルム制約を導入することで,微小ターゲットの離散的なエネルギーピークを保持する。
    • 自己注意機構に基づく動的閾値処理により,シーン適応性を高め,分離精度を向上させている。

    Link: https://arxiv.org/abs/2603.21192

  • 顕微鏡画像における境界を意識したインスタンスセグメンテーション [cs.CV]目的:顕微鏡画像における細胞インスタンスのセグメンテーション手法
    • 細胞ダイナミクスの研究には正確な細胞境界の特定が不可欠であり,生命科学研究の基礎となる。
    • 密集した細胞集団において,接触または重なり合った細胞インスタンスを分離することは依然として困難な課題である。
    • プロンプトなしで,境界を意識したセグメンテーションにより,細胞間の分離精度向上を目指す。
    • 提案手法は,バイナリマスクではなく符号付き距離関数(SDF)を予測することで,滑らかで幾何学的に整合性のとれた細胞輪郭のモデリングを可能にする。
    • SDFを確率マップに変換する学習されたシグモイドマッピングにより,鋭い境界局在性と隣接インスタンスの堅牢な分離を実現する。
    • 公的および私的データセットでの評価により,既存のSAMベースの手法と比較して,境界精度とインスタンスレベルの性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.21206

  • テキスト画像モデルの脱獄のための軽量フレームワーク:分布最適化によるJANUS [cs.CV, cs.LG]目的:テキスト画像モデルの脱獄攻撃に対する効率的な手法
    • テキスト画像モデルは広く利用されているが,有害コンテンツ生成のリスクが存在する。
    • 既存の脱獄攻撃は,真のend-to-end最適化ではなく,大規模な計算コストを要する。
    • 分布最適化を通じて,軽量かつ効率的な脱獄フレームワークを開発すること。
    • JANUSは,低次元の混合ポリシーを用いて効率的な探索を可能にし,ターゲットのセマンティクスを維持する。
    • Stable Diffusion 3.5 Large Turboにおいて,ASR-8を25.30%から43.15%に向上させ,CLIPおよびNSFWスコアも向上した。
    • JANUSは,オープンソースおよび商用モデルの両方で成功しており,現在の安全性パイプラインの脆弱性を明らかにする。

    Link: https://arxiv.org/abs/2603.21208

  • 位置セグメンテーション誘導対向的ファインチューニングによる空間的に局所化された画像合成 [cs.CV, cs.AI]目的:空間的に局所化された画像合成のための手法
    • 画像生成技術は,データ拡張,バイアス軽減,疾患モデリング等,幅広い応用が期待される分野である。
    • 既存手法では,対象者レベルの要因に限定され,局所的な構造変化を再現できず,全体的なアーティファクトが生じやすい。
    • 局所的な構造変化を誘導し,より現実的な対向的画像を生成することで,疾患進行のモデリング精度向上を目指す。
    • 提案手法Pos-Seg-CFTは,構造を局所的なセグメントに分割し,領域ごとの独立した測定値を用いることで,空間的に局所化された対向的画像を生成する。
    • 冠動脈CTアンギオグラフィー実験の結果,Pos-Seg-CFTは現実的で領域特異的な修正を生成し,空間的な制御性を高めることが示された。
    • 本研究は,より詳細な空間制御を実現することで,疾患進行のモデリングに貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2603.21213

  • 損失地形の幾何学に基づいた長尾学習の再構築 [cs.CV]目的:長尾データ分布における性能トレードオフの均衡
    • 機械学習において,データ分布の不均衡は重要な課題であり,特に長尾分布は性能低下の原因となる。
    • 既存手法では,ヘッドクラスへの過学習とテールクラスの忘却が同時に起こり,性能改善が困難である。
    • 損失地形の幾何学的性質に着目し,テールクラスの性能劣化を抑制する新たなフレームワークを提案する。
    • 損失地形におけるクラス間の収束点の違いに着目し,モデルが鋭い最小値に陥ることで性能劣化が加速することを指摘した。
    • グループ固有の収束パラメータを記憶するGrouped Knowledge Preservationモジュールと,損失地形の幾何学構造を考慮したGrouped Sharpness Awareモジュールを導入した。
    • 提案手法は,外部データや事前学習済みモデルを必要とせず,4つのベンチマークで最先端手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.21217

  • 大規模リモートセンシングデータセットとVLMに基づく道路階層分類アルゴリズム [cs.HC, cs.CV]目的:道路の細分化された階層分類のための大規模データセットおよびアルゴリズム
    • 道路網は交通インフラの中核であり,自動運転や都市計画に不可欠である。
    • 既存の道路データセットは規模が限定的,またはアノテーションが不十分な場合が多い。
    • 高精度な道路階層分類を可能にする大規模かつ詳細なデータセットの構築と,それを用いたアルゴリズム開発。
    • 本研究では,広大なリモートセンシングデータセットSYSU-HiRoadsを構築し,道路の階層構造を自動的にマッピングするRoadReasonerを提案した。
    • SYSU-HiRoadsは,高解像度の画像タイルと詳細なアノテーションを含み,道路のセグメンテーション,トポロジー再構成,階層分類を同時に学習・評価できる。
    • 実験の結果,RoadReasonerは最先端のベースラインを上回り,高い精度と意味的一貫性を持つ道路階層マップを生成した(OA: 72.6%, F1: 64.2%, SegAcc: 60.6%)。

    Link: https://arxiv.org/abs/2603.21222

  • 離散音声表現における感情を考慮した量子化:感情保持の分析 [cs.SD]目的:離散音声表現における感情情報の量子化と保持
    • 音声技術の発展に伴い,感情認識の重要性が高まっている。
    • 離散音声表現による圧縮が,感情情報に与える影響は不明確である。
    • 量子化による感情情報の損失を抑制し,感情認識性能を向上させる。
    • 残差ベクトル量子化による圧縮が感情情報を不均衡に損なうことが示された。
    • 感情特化および感情バイアスコードブックを用いた感情を考慮した量子化が,感情知覚の保持を改善する。
    • 軽量なルーテッド量子化手法Emo-Qにより,低ビットレートでの感情認識性能が向上した。

    Link: https://arxiv.org/abs/2603.21224

  • 植物分類と植物数え上げ:数百種の植物を分類するための高精度データセット [cs.CV]目的:植物の分類に基づいた,植物の数え上げのためのデータセット
    • 生物多様性の理解と保全には,植物の種類と個体数を正確に把握することが不可欠である。
    • 既存の研究では,植物の柔軟な形状や成長段階による変化に対応した数え上げが困難であった。
    • 本研究は,植物の分類情報を活用し,高精度な植物数え上げを可能にするデータセットを構築することを目指す。
    • TPC-268は,植物の分類と数え上げを組み合わせた初のベンチマークデータセットである。
    • 10,000枚の画像に678,050個のポイントアノテーションが含まれ,268種類の植物を分類できる。
    • 植物の多様性,階層構造,マルチスケールな特徴を捉え,植物数え上げ研究の進展に貢献する。

    Link: https://arxiv.org/abs/2603.21229

  • QMoP:クエリ誘導型混合射影器による効率的な視覚トークン圧縮 [cs.CV, cs.AI]目的:効率的な視覚トークン圧縮手法
    • マルチモーダル大規模言語モデルの発展において,計算資源とメモリ消費の最適化が重要である。
    • 既存の視覚トークン圧縮手法は,固定的なヒューリスティックに依存しており,多様なシナリオへの適応が課題である。
    • 視覚入力とテキストクエリに応じて動的に圧縮戦略を調整し,情報損失を最小限に抑えることを目指す。
    • 提案手法QMoPは,プーリング,リサンプリング,プルーニングの3つの分岐を組み合わせ,クエリ誘導型ルーターにより動的に調整される。
    • QMoPは,既存のベースラインと比較して,メモリ,計算量,推論時間の削減において優れた性能を示す。
    • 視覚トークン圧縮の効果を評価するためのベンチマークVTCBenchを新たに開発した。

    Link: https://arxiv.org/abs/2603.21232

  • 物理知識に基づいたトランスフォーマーCNN混合アーキテクチャによる高効率な深度圧縮 DepthTCM [cs.CV]目的:深度マップ圧縮のための物理知識に基づいたエンドツーエンドフレームワーク
    • 深度情報は,ロボット工学,自動運転など,様々な分野で重要な役割を担う。
    • 高ビット深度の深度マップは,データサイズが大きく,保存や伝送に課題がある。
    • データサイズを大幅に削減しつつ,深度情報の精度を維持することが求められる。
    • DepthTCMは,Middlebury 2014データセットにおいて0.307 bppを達成し,99.38%の精度を維持した。
    • 4ビット量子化により,ビットレートを66%削減しつつ,画質劣化を最小限に抑えた(PSNRの変化は0.68dB)。
    • トランスフォーマーCNNブロックは,CNNのみのアーキテクチャと比較して,PSNRを最大0.75dB向上させた。

    Link: https://arxiv.org/abs/2603.21233

  • カラーマップに基づく特徴表現を用いたVision Transformerによる脳腫瘍分類の高度化 [cs.CV]目的:脳腫瘍の多クラス分類性能の向上
    • 早期診断と適切な治療計画には,正確な脳腫瘍の分類が不可欠である。
    • 既存の画像分類モデルでは,MRI画像の複雑な構造や強度変化を捉えきれない場合がある。
    • Vision Transformerとカラーマップを組み合わせることで,分類精度と汎化性能の向上を目指す。
    • 提案手法は,BRISC2025データセットにおいて98.90%の分類精度を達成した。
    • ResNet50,ResNet101,EfficientNetB2といった既存の畳み込みニューラルネットワークモデルを上回る性能を示した。
    • AUCが99.97%と高く,すべてのクラスにおいて高い識別能力を示す。

    Link: https://arxiv.org/abs/2603.21234

  • CornOrb:円錐角膜検出のためのオルバスキャン角膜地形図と臨床注釈のマルチモーダルデータセット [cs.CV, cs.DB]目的:円錐角膜検出のためのオルバスキャン角膜地形図と臨床注釈を含むマルチモーダルデータセット
    • 角膜の形状異常は視力低下に繋がるため,早期発見と適切な治療が重要である。
    • 円錐角膜の診断には熟練した眼科医の経験が必要であり,客観的な診断支援システムの開発が求められる。
    • AIを用いた円錐角膜の自動検出システム開発のための大規模なオルバスキャンデータセットの提供。
    • 本研究では,アルジェリアの患者から収集されたオルバスキャン角膜地形図画像と臨床注釈を含む,公開可能なマルチモーダルデータセットCornOrbを開発した。
    • データセットは,744人の患者から1,454眼(正常眼889眼,円錐角膜565眼)を含み,多様な臨床パラメータを提供する。
    • このデータセットは,AIによる円錐角膜の検出と分析を促進するための,アフリカ初の試みとなる大規模なオルバスキャンベースのリソースである。

    Link: https://arxiv.org/abs/2603.21245

  • 記憶と注意の融合:記号音楽生成のためのLSTM,Transformer,ハイブリッドアーキテクチャの研究 [cs.LG, cs.AI, cs.SD]目的:記号音楽生成におけるLSTM,Transformer,ハイブリッドアーキテクチャの比較分析
    • 音楽生成における機械学習の重要性が増しており,新たな表現手法の創出が期待されている。
    • LSTMとTransformerはそれぞれ異なる特性を持ち,音楽構造の局所性と全体性の両立が課題となっている。
    • LSTMとTransformerの長所を組み合わせることで,より高品質な音楽生成を目指す。
    • LSTMは局所的なパターンは捉えるものの,長距離の依存関係の保持に課題があることが示された。
    • Transformerは全体構造のモデリングに優れるが,フレーズが不規則になる傾向が確認された。
    • Transformer EncoderとLSTM Decoderを組み合わせたハイブリッドアーキテクチャが,局所性と全体性の両面で優れた性能を発揮した。

    Link: https://arxiv.org/abs/2603.21282

  • 中規模天気予報における計算壁の打破:Sonny [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的:中規模天気予報の効率的な深層学習モデル
    • 気象予報は,人命やインフラを保護する上で不可欠な課題である。
    • 既存の深層学習モデルは,大規模な計算資源を必要とする場合が多く,研究機関の参入障壁となっている。
    • 限られた計算資源でも高性能な中規模天気予報を可能にするモデルを開発すること。
    • Sonnyは,効率的な階層型Transformerであり,中規模天気予報において高い性能を発揮する。
    • Sonnyは,大規模な計算資源を必要とせず,単一のNVIDIA A40 GPUで約5.5日で学習可能である。
    • WeatherBench2において,Sonnyは既存のモデルと同等以上の予測精度を示し,特に熱帯地域における長期予報で優位性を示す。

    Link: https://arxiv.org/abs/2603.21284

  • 背景に焦点を当てる:背景中心プロンプトによる少数ショット医療画像セグメンテーションにおけるSAMの可能性の探求 [cs.HC, cs.CV]目的:少数ショット医療画像セグメンテーションにおけるSAMの性能向上
    • 医療画像解析は,病変の正確な特定と診断に不可欠であり,臨床応用の発展に繋がる。
    • 従来の少数ショット学習は,十分な性能を発揮できず,臨床への応用が困難である。
    • SAMの過剰セグメンテーションを抑制し,より正確なセグメンテーションを実現すること。
    • 提案手法FoBは,背景中心プロンプト生成により,SAMの過剰セグメンテーションを効果的に抑制することを示した。
    • FoBは,3つの医療画像データセットで最先端の性能を達成し,他の手法を大幅に上回った。
    • FoBは,ドメイン間の汎化性能も高く,異なるデータセット間でも安定した性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.21287