arXiv雑要約

画像・音声 - 2026/05/05 公開

千の顔を持つ運転：クローズドループパーソナライズ型エンドツーエンド自律運転のベンチマーク [cs.CV]目的：パーソナライズされたエンドツーエンド自律運転のためのプラットフォームとベンチマーク
- 人間の運転行動は多様であり，自律運転システムに人間らしい運転を再現させることは重要である。
- 既存のエンドツーエンド自律運転システムは平均的な運転スタイルを学習する傾向があり，個々の運転者の違いを考慮していない。
- 本研究は，個人の運転特性を学習し，安全で個別化された運転を可能にするアルゴリズムの開発を目指す。
- Person2Driveは，現実的なシナリオをシミュレーションし，大規模で多様なパーソナライズされた運転データセットを生成する柔軟なデータ収集システムを提供する。
- 最大平均乖離とKLダイバージェンスに基づいたスタイルベクトル評価指標を用いて，個々の運転行動を定量的に評価する。
- スタイル報酬モデルを用いたパーソナライズされたエンドツーエンド自律運転フレームワークにより，安全かつ個別化された運転への効率的な適応が可能となる。
Link: https://arxiv.org/abs/2602.18757
Prefer-DAS：局所的な嗜好と疎なプロンプトを用いた電子顕微鏡画像ドメイン適応セグメンテーション [cs.CV]目的：電子顕微鏡画像のドメイン適応セグメンテーションにおける，局所的な嗜好と疎なプロンプトからの学習
- 細胞内構造の解析に不可欠な電子顕微鏡画像のセグメンテーションは，大規模データセットの注釈コストが高い。
- 既存のドメイン適応手法は，性能が限定的で偏りがあり，実用的な応用が困難である。
- ターゲットドメインにおける疎なデータと人間の嗜好を活用し，より効率的なセグメンテーションを実現する。
- 提案手法Prefer-DASは，疎なプロンプト学習と局所的な嗜好の整合を可能にするプロンプタブルな多タスクモデルである。
- Prefer-DASは，フル，部分的，またはプロンプトなしでの学習と推論を可能にし，インタラクティブなセグメンテーションを実現する。
- 実験により，Prefer-DASが既存手法を凌駕し，教師ありモデルに近い性能を示すことが示された。
Link: https://arxiv.org/abs/2602.19423
ε最適逐次アプローチによるzs-POSGの解法 [cs.GT]目的：ゼロサム部分観測確率ゲーム(zs-POSG)の解法
- 不完全な情報下での意思決定は，経済，セキュリティ，ロボット工学など幅広い分野で重要である。
- zs-POSGは計算量が指数関数的に増加するため，実用的な解法が課題であった。
- 同時minimaxバックアップの非線形性と複雑性を克服し，解法を実用化すること。
- 本研究では，分離の原理を用いて同時相互作用を逐次決定プロセスとして再構築することに成功した。
- 最適な価値関数の潜在的な幾何学構造を明らかにするための統計量を導入し，バックアップ演算子を線形化した。
- その結果，更新の計算量が指数関数的に減少し，従来は解けなかった問題を解くことが可能となった。
Link: https://arxiv.org/abs/2602.24092
検証可能なファクタグラフ最適化 [cs.RO, cs.CV]目的：検証可能なファクタグラフ最適化のための統合フレームワーク
- ロボティクスやコンピュータビジョン分野における位置推定やSLAMにおいて，高精度な最適化が不可欠である。
- 既存手法は問題固有の設計が必要で，実装に多大な時間と労力がかかるという課題があった。
- 実装の手間を大幅に削減しつつ，高性能を保証する最適化手法を開発することを目指す。
- ファクタグラフと検証可能な推定という異なるパラダイムを統合するフレームワークを提案した。
- Shorの緩和やBurer-Monteiro因数分解などの数学的構造がファクタグラフ構造を内在していることを示した。
- 提案手法は，既存の高性能なファクタグラフライブラリを活用し，実装時間を大幅に短縮できることを実験で実証した。
Link: https://arxiv.org/abs/2603.01267
ユニバーサル音声強調のための学習ターゲット，アーキテクチャ，データ品質の再検討 [cs.SD]目的：多様な劣化条件下での音声品質回復と信号忠実性の維持
- 音声強調は，通話品質向上や音声認識精度向上に不可欠であり，様々な環境で活用が期待される。
- 従来の学習方法では，残響除去ターゲットの選択やデータ品質が十分でなく，性能向上の限界がある。
- 学習ターゲットの再検討とデータ品質の改善により，音声強調の性能を向上させることを目指す。
- 従来の残響除去ターゲットが知覚品質と音声認識性能を低下させることを示し，無響室のクリーン音声を用いることの有効性を示す。
- 歪みと知覚品質のトレードオフに基づき，特定の知覚品質レベル下で最小の歪みを達成する二段階フレームワークを提案する。
- 大規模な未キュレーションデータでの学習が性能の天井となることを示し，データ品質の重要性を明らかにする。
Link: https://arxiv.org/abs/2603.02641
ゲート付き微分線形注意：高精度な医療画像セグメンテーションのための線形時間デコーダー [cs.CV]目的：医療画像セグメンテーションにおける高精度なモデルの実現
- 医療画像解析は診断精度向上に不可欠であり，その自動化が求められている。
- Transformerは高性能だが計算コストが高く，CNNは効率的だがグローバルな推論が苦手。
- 線形注意の弱点である特徴量の拡散を抑制し，境界の鮮明なセグメンテーションを実現する。
- 提案手法は，CT，MRI，超音波，皮膚鏡検査などの多様な医療画像セグメンテーションベンチマークで最先端の結果を達成した。
- ゲート付き微分線形注意機構により，冗長な応答を抑制し，トークンを洗練させることで，境界感度を向上させた。
- 線形時間複雑度を維持しつつ，精度と効率性の両立を実現した。
Link: https://arxiv.org/abs/2603.02727
VideoDetective：外部クエリと内在的関連性を活用した長編動画理解のための手がかり探索 [cs.CV]目的：長編動画の質問応答における重要な手がかりの特定
- マルチモーダル大規模言語モデルの応用範囲拡大に不可欠であり，動画理解の精度向上に貢献する。
- 既存手法はクエリのみに依存し，動画自体の構造やセグメント間の関連性を十分に考慮していない。
- クエリと動画セグメント間の関連性とセグメント間の親和性を統合し，より効果的な手がかり探索を実現する。
- 提案手法VideoDetectiveは，主要なベンチマークにおいて，様々な主流MLLMで一貫して大幅な改善を達成した。
- VideoMME-longにおける精度向上は最大7.5%に達し，長編動画理解における有効性が示された。
- 動画をセグメントに分割し，視覚的類似性と時間的近接性に基づいた視覚-時間的親和グラフを構築することで，関連性の高いセグメントを特定する。
Link: https://arxiv.org/abs/2603.22285
ブラックボックスドメイン適応のためのサブネットワーク修正による適応型デュアル教師蒸留 [cs.CV, cs.LG]目的：ブラックボックスドメイン適応におけるセマンティックギャップの解消
- 現実的な利用シーンが多く，ドメイン適応技術の重要性が高まっている。
- 既存手法では，ブラックボックスモデルとViLの知識の不一致が課題となっていた。
- ブラックボックスモデルとViLの知識を調和させ，ドメイン適応性能を向上させる。
- 提案手法DDSRは，ブラックボックスモデルとViLからの予測を融合し，信頼性の高い擬似ラベルを生成する。
- サブネットワークに基づく正則化により，ノイズの多い教師信号への過学習を抑制する。
- ターゲット予測の反復的な改善により，擬似ラベルとViLプロンプトのセマンティックアラインメントを強化する。
Link: https://arxiv.org/abs/2603.22908
Stepper：多視点パノラマを用いた段階的没入型シーン生成 [cs.DB, eess.SY, cs.SY, cs.CV]目的：テキストに基づく没入型3Dシーンの合成
- AR/VRやワールドモデリング分野での応用が期待されており，その重要性は高い。
- 既存手法は，視覚的忠実度と探索性のトレードオフに悩まされている。
- 一貫性と高解像度を保ちながら，段階的にパノラマシーンを拡張することを目指す。
- Stepperは，新しい大規模多視点パノラマデータセットで学習され，最先端の性能を達成した。
- 一貫した高解像度での拡張を可能にする新しい360度拡散モデルと，幾何学的整合性を強制するパイプラインを活用する。
- 既存のアプローチを上回り，没入型シーン生成の新たな標準を確立した。
Link: https://arxiv.org/abs/2603.28980
事前学習済みの画像マッチング器は，SAR-光学衛星画像の位置合わせに十分か？ [cs.CV]目的：SARと光学衛星画像のクロスモーダル位置合わせの性能評価
- 災害対応において，リモートセンシング技術は不可欠であり，その精度向上は重要である。
- 既存の画像マッチング器は自然画像に最適化されており，SAR画像への適用には課題が残る。
- SARと光学衛星画像のクロスモーダル位置合わせにおける，事前学習済み画像マッチング器の有効性を検証する。
- 事前学習済みの画像マッチング器24種類を評価した結果，クロスモーダル学習の有無による性能差は一様ではない。
- RoMaはクロスモーダル学習なしで高い精度を達成し，DINOv2のような基盤モデルの特徴がモダリティ不変性に寄与する可能性が示唆された。
- 位置合わせプロトコルの選択（幾何モデル，タイルサイズ等）が精度に大きな影響を与え，マッチング器の選択に匹敵する効果があることが明らかになった。
Link: https://arxiv.org/abs/2604.10217
傾斜投影からのリアルタイムオープンセット3D高分子検出：FullTilt [cs.CV]目的：クライオ電子トモグラフィーにおけるオープンセット3D高分子検出手法
- 生命科学研究において，高分子構造の可視化は不可欠であり，その効率的な検出が重要である。
- 従来の3D検出はモデル再学習が必要，または計算資源に制約を受け，処理速度が遅いという課題があった。
- 傾斜投影を直接利用することで，計算量を削減し，高速かつ省資源な高分子検出を実現することを目指す。
- FullTiltは，傾斜系列を直接処理するエンドツーエンドフレームワークであり，従来のサブボリューム推論と比較して推論速度を大幅に向上させた。
- 傾斜系列エンコーダ，マルチクラス視覚プロンプトエンコーダ，傾斜対応クエリ初期化，幾何学的プリミティブモジュールを導入し，性能とロバスト性を高めた。
- 3つの実データセットにおいて，FullTiltは最先端のゼロショット性能を達成し，実行時間とVRAM要件を大幅に削減した。
Link: https://arxiv.org/abs/2604.10766
発見，修正，推論：ビデオ推論のための文脈修復 [cs.CV]目的：ビデオ推論における文脈修復のメカニズム
- ビデオ推論はマルチモーダルモデルの重要な応用分野であり，その性能向上は様々な課題解決に繋がる。
- 従来の強化学習手法は知識の限界に達しやすく，ハイブリッドリプレイは調整が難しい。
- 大規模モデルの能力を活用し，不足する時空間的依存関係を特定し，最小限の証拠を提供することで推論精度を向上させる。
- 提案手法では，教師モデルが不足する文脈を特定し，証拠パッチを提示することで，学生モデルの推論能力を向上させている。
- Robust Improvement Reward (RIR) は，正解率と根拠の整合性を重視し，効率的な学習を実現している。
- 様々なベンチマークにおいて，提案手法は一貫した精度向上と高い汎化性能を示している。
Link: https://arxiv.org/abs/2604.16243
深層学習フレームワークを用いた環境音ディープフェイク検出 [eess.SY, cs.SY, math.OC, cs.SD, cs.AI]目的：環境音ディープフェイクの検出
- 音響技術の発展に伴い，偽装された音響データの悪用リスクが高まっている。
- 既存の手法では，環境音のディープフェイクを高精度に検出することが困難である。
- 深層学習を用いて，環境音のディープフェイクを高精度に検出する手法を確立すること。
- 実験結果から，環境音の場面と音響事象のディープフェイク検出は個別のタスクとして扱うべきである。
- 事前学習済みモデルのファインチューニングが，ゼロからモデルを学習するよりも有効であることが示された。
- 提案手法は，EnvSDDテストサブセットでAccuracy 0.98，F1スコア 0.95，AuC 0.99を達成した。
Link: https://arxiv.org/abs/2604.19652
ARFBench：ソフトウェアインシデント対応のための時系列質疑応答能力のベンチマーク [cs.LG, cs.CV]目的：ソフトウェアインシデントにおける時系列異常を理解するマルチモーダル基盤モデルの評価
- ソフトウェアシステムの信頼性確保は重要であり，異常検知と迅速な対応が不可欠である。
- 時系列データの質疑応答は未成熟であり，基盤モデルの能力評価が困難である。
- ソフトウェアインシデント対応における時系列質疑応答能力を客観的に評価するベンチマークの提供。
- ARFBenchは，63件の実際のインシデントから得られた142の時系列と750の質問で構成される。
- 最先端のVLM（GPT-5）は62.7%の正答率，51.9%のF1スコアを達成し，既存のベースラインを上回った。
- モデルと専門家の組み合わせによるオラクルは，F1スコア82.8%，正答率87.2%を達成し，新たな超人的な水準を確立した。
Link: https://arxiv.org/abs/2604.21199
位相分離複合ヒルベルトPCAを用いたマーカーレス3D姿勢推定データにおけるグローバル位相ネットワークと身体表面上の連続場への拡張 [cs.SI, cs.CV, eess.SP]目的：スポーツ動作の運動連鎖における定量分析
- スポーツパフォーマンス評価と外傷予防には，運動連鎖の定量分析が不可欠である。
- 従来の運動連鎖や相対位相の解析は，隣接関節ペアに限定され，全身協調性の統一的な枠組みがない。
- 本研究は，全身協調性を捉えるための新たな位相解析手法を提案し，運動連鎖を連続的な位相場として表現することを目指す。
- 提案手法は，ハンマースイング動作において，体幹を基点としたグローバルな位相構造を明らかにした。
- 準備段階と実行段階において機能的非対称性が確認され，モード1の寄与率やトライアル間の一貫性が異なった。
- 位相構造は，骨格関節と身体表面メッシュ頂点において一貫した再編成を示し，運動学的記述と運動エネルギー動員の関連性を示唆した。
Link: https://arxiv.org/abs/2604.24415
意味的泡沫：空間的・意味的シーン分解の統合 [cs.CV]目的：空間的および意味的シーン分解の統合手法
- リアルタイムなフォトリアリスティックな映像生成が求められる現代において，シーン再構成技術の重要性が増している。
- 従来の3Dアセットと比較して，インタラクティブなグラフィックスアプリケーションでの操作が難しいという課題がある。
- 高品質かつ一貫性のあるセマンティック分解を実現し，操作性の向上を図ることを目指している。
- 本研究で提案するSemantic Foamは，Radiant Foamの空間的分解能力を活用し，セマンティック特徴フィールドを明示的にパラメータ化している。
- これにより，オクルージョンや視点間の一貫性の欠如によるアーチファクトを防ぎ，よりロバストなセマンティック分割を可能にする。
- Gaussian GroupingやSAGAといった最先端手法と比較して，オブジェクトレベルのセグメンテーション性能で優位性を示した。
Link: https://arxiv.org/abs/2604.26262
医療画像におけるモーション補正のための統一的深層学習フレームワーク [eess.IV, cs.CV]目的：医療画像におけるモーション補正のための統一的フレームワークの構築
- 医療画像の精度は，診断や治療計画に不可欠であり，モーションの影響を低減することが重要である。
- 既存手法は，モーションの種類や範囲に制限がある，または新しいデータに対して再学習が必要である。
- 多様なモーションに対応し，再学習なしで様々な画像モダリティに適用可能なフレームワークの実現。
- UniMoは，グローバルな剛体モーション補正とローカルな変形補正を統合的に行うことで，既存手法よりも高い精度を達成した。
- 単一のモダリティで学習したUniMoは，再学習なしで複数の未知の画像データセットに対して高い安定性と適応性を示した。
- UniMoは，大量のモーションと局所的な変形が混在するような困難なアプリケーションにおいて，大きな利点をもたらす。
Link: https://arxiv.org/abs/2409.14204
CryoSplat：クライオEM均質再構成のためのガウススプラッティング [eess.IV, cs.CV]目的：クライオEMにおける分子の3次元静電ポテンシャルの再構成
- 構造生物学において重要なクライオEM技術の発展は，近原子レベルでの分子構造決定を可能にする。
- 既存の再構成法は初期化に外部からの情報に依存しており，自律的なパイプラインの構築が困難である。
- ガウススプラッティングの利点を活かし，クライオEM画像から直接再構成を行う手法を開発する。
- CryoSplatは，ガウススプラッティングとクライオEMの画像生成物理を統合したGMMベースの手法である。
- 従来のガウススプラッティング法の問題点を解決するため，直交投影を考慮した正規化項や座標系を導入した。
- 実際のデータセットを用いた実験により，CryoSplatの有効性とロバスト性が検証された。
Link: https://arxiv.org/abs/2508.04929
3Dマルチコントラスト自己注意GANによる脳MRI画像合成 [eess.IV, cs.AI, cs.CV]目的：脳MRIのマルチコントラスト画像合成手法
- 脳腫瘍の正確な評価には，各コントラストが補完的な情報を提供するため，完全なマルチモーダルMRIが不可欠である。
- 全モダリティのMRI取得は，検査時間の長さやコスト，患者への負担が大きいという課題がある。
- 単一のT2w画像から不足するモダリティを高精度に合成し，脳腫瘍評価における負担軽減を目指す。
- 提案手法3D-MC-SAGANは，単一のT2w画像からT1c, T1n, T2fを合成する統一的なフレームワークである。
- 腫瘍の特徴を保持しつつ，長距離依存性を効率的に捉えるMBHAブロックと，腫瘍整合性制約を用いることで，高精度な画像合成を実現した。
- 実験結果から，提案手法は最新技術と同等以上の性能を示し，臨床的に有用な情報を維持しながら，検査負担の軽減に貢献できることが示唆された。
Link: https://arxiv.org/abs/2604.00070
疎視点CT再構成のための条件付き拡散事後整合 [eess.IV, cs.CV, cs.LG]目的：疎視点CT再構成における画質向上
- CTは医療・産業分野で広く利用されており，低被ばく・短時間化が重要課題である。
- 視点数の少ない疎視点CTでは，再構成画質の劣化が問題となっている。
- 3Dボリュームへの適用を可能にし，スライス間の一貫性を高める。
- 提案手法CDPAは，初期3D再構成を条件として2D U-Net拡散モデルを誘導し，スライス間の一貫性を向上させる。
- データ整合性整合により，測定された投影データとの一致性を確保し，再構成精度を高める。
- 合成データおよび実際のCBCTデータを用いた実験により，最先端の性能が確認された。
Link: https://arxiv.org/abs/2604.21960