arXiv雑要約

画像・音声 - 2026/05/04 公開

千の顔を持つ運転：クローズドループパーソナライズされたエンドツーエンド自律運転のためのベンチマーク [cs.CV]目的：パーソナライズされたエンドツーエンド自律運転のベンチマークプラットフォーム
- 人間は多様な運転行動を示すため，個々の運転スタイルに対応した自律運転システムの開発が求められている。
- 既存のエンドツーエンド自律運転システムは平均的な運転スタイルを学習する傾向があり，個々の運転者の違いに対応できていない。
- 個人の運転データを収集・評価し，安全かつ個別化された運転を可能にするアルゴリズムを開発することを目指す。
- Person2Driveは，現実的なシナリオをシミュレーションすることで，大規模で多様なパーソナライズされた運転データセットを生成する。
- 最大平均乖離やKLダイバージェンスに基づいたスタイルベクトル評価指標により，個々の運転行動を定量的に評価することが可能になる。
- スタイル報酬モデルを用いたパーソナライズされたエンドツーエンド自律運転フレームワークにより，安全で個別化された運転への適応が効率的に行われる。
Link: https://arxiv.org/abs/2602.18757
Prefer-DAS：局所的な好みと疎なプロンプトを用いた電子顕微鏡画像のドメイン適応セグメンテーション [cs.CV]目的：電子顕微鏡画像におけるドメイン適応セグメンテーションの性能向上
- 細胞構造の解析には電子顕微鏡が不可欠だが，アノテーション作業は膨大であり，効率的な手法が求められる。
- 既存のドメイン適応手法は，バイアスがかかりやすく，実用上の課題を抱えている。
- 本研究は，疎なプロンプトと局所的な人間の好みを活用し，アノテーションコストを削減しつつ，セグメンテーション精度を向上させる。
- 提案手法Prefer-DASは，疎なプロンプトと局所的な人間の好みを活用することで，弱教師あり・非教師ありドメイン適応セグメンテーションを効果的に行う。
- 実験結果から，Prefer-DASはSAMのような既存手法や，他のドメイン適応手法と比較して，自動セグメンテーションとインタラクティブセグメンテーションの両モードで優れた性能を示した。
- 特に，Prefer-DASは教師あり学習モデルに匹敵する，またはそれを上回る性能を達成し，高い汎化性と柔軟性を実証した。
Link: https://arxiv.org/abs/2602.19423
ε最適逐次アプローチによるzs-POSGの解法 [cs.GT]目的：ゼロ和部分観測確率ゲーム(zs-POSG)の解法
- ゲーム理論は，経済学，政治学，生物学など，多様な分野で意思決定の分析に不可欠である。
- zs-POSGの解法は計算量が指数関数的に増加するため，実用的な解法が困難であった。
- 同時minimaxバックアップの非線形性と計算コストを削減し，実用的な解法を提供する。
- 本研究では，相互作用を分離の原理を用いて逐次決定過程として再構築することで，計算上の障壁を克服した。
- 評価と実行のための異なる十分統計量を導入し，最適価値関数の潜在的な構造を明らかにした。
- バックアップ演算子を線形化し，更新の複雑さを指数関数的にから多項式的に削減することに成功した。
Link: https://arxiv.org/abs/2602.24092
検証可能なファクターグラフ最適化 [cs.RO, cs.CV]目的：検証可能なファクターグラフ最適化のための統一的フレームワーク
- ロボティクスやコンピュータビジョンの基盤技術であり，高精度な状態推定に不可欠である。
- 既存手法は実装に多大な労力を要し，保証された最適解が得られない場合がある。
- 実装の容易性と堅牢な性能保証を両立する新しい最適化手法を開発する。
- ファクターグラフと検証可能な推定という独立なパラダイムを統合するフレームワークを提案した。
- ShorのリラクセーションとBurer-Monteiro因数分解がファクターグラフ構造を有することを利用した。
- 実装の労力を大幅に削減し，最先端手法と同等の性能を達成できることを実験的に示した。
Link: https://arxiv.org/abs/2603.01267
汎用音声強調のための学習ターゲット，アーキテクチャ，データ品質の再検討 [cs.SD]目的：汎用音声強調における学習ターゲット，歪みと知覚のトレードオフ，データキュレーションの最適化
- 音声強調は，様々な劣化条件下での音声品質回復に不可欠であり，その重要性は高い。
- 従来の学習ターゲット設定やデータキュレーションが，知覚品質や下流タスクの性能を阻害する可能性がある。
- 学習ターゲットの再検討とデータ品質の改善により，汎用音声強調の性能向上を目指す。
- 初期反射音をターゲットとすることが知覚品質とASR性能を低下させることを示した。
- 無エコーのクリーンな音声を学習ターゲットとすることで，より優れた性能が得られることを実証した。
- 歪みと知覚のトレードオフ理論に基づき，歪みを最小化しつつ知覚品質を維持する2段階フレームワークを提案した。
Link: https://arxiv.org/abs/2603.02641
ゲート付き微分線形注意：高精度な医療セグメンテーションのための線形時間デコーダ [cs.CV]目的：医療画像セグメンテーションのためのモデル
- 医療画像解析は，診断や治療計画において不可欠であり，高精度なセグメンテーションが求められる。
- Transformerは高性能だが計算コストが高く，CNNは効率的だが長距離依存性の捉えが苦手である。
- 線形注意の計算効率を維持しつつ，境界の鮮明なセグメンテーションを実現すること。
- 提案手法GDLAは，TransformerとCNNの利点を組み合わせ，高精度かつ効率的な医療画像セグメンテーションを可能にする。
- GDLAは，微分減算とデータ依存ゲートにより，冗長な応答を抑制し，特徴量の集約を改善する。
- 複数の医療画像データセットで最先端の結果を達成し，精度と効率性のバランスに優れている。
Link: https://arxiv.org/abs/2603.02727
VideoDetective：外部クエリと内在的関連性による長尺ビデオ理解のための手がかり探索 [cs.CV]目的：長尺ビデオ理解のための手がかり探索手法
- 近年，マルチモーダル大規模言語モデルの応用が拡大しているが，長尺ビデオの理解は依然として課題である。
- 既存手法はクエリのみに基づいて手がかりを特定するため，ビデオの内部構造やセグメント間の関連性を考慮していない。
- クエリとセグメント間の関連性とセグメント間の親和性を統合することで，より効果的な手がかり探索を実現する。
- 提案手法VideoDetectiveは，クエリに対するセグメント関連度とセグメント間の親和性を組み合わせて手がかり探索を行う。
- ビデオを複数のセグメントに分割し，視覚的類似性と時間的近接性に基づいて視覚-時間的親和グラフを構築する。
- 実験結果から，VideoDetectiveは主要なMLLMにおいて大幅な性能向上を示し，VideoMME-longで最大7.5％の精度向上を達成した。
Link: https://arxiv.org/abs/2603.22285
ブラックボックスドメイン適応におけるセマンティックギャップ解消のための適応二重教師蒸留とサブネットワーク修正 [cs.CV, cs.LG]目的：ブラックボックスドメイン適応におけるセマンティックギャップの解消
- ドメイン適応は，ラベルなしのターゲットドメインでモデルの性能を向上させる上で重要である。
- ブラックボックスドメイン適応では，ソースデータやモデルパラメータにアクセスできないため，知識転移が限定的である。
- 異なる知識源の不整合を解消し，ターゲットドメインの適応性能を向上させる。
- 提案手法であるDDSRは，ブラックボックスソースモデルとViLからの予測を統合し，信頼性の高い疑似ラベルを生成する。
- サブネットワークに基づく正則化により，ノイズの多い教師信号への過学習を抑制し，出力の一貫性と勾配の分散を促進する。
- 実験の結果，DDSRは既存手法を凌駕し，ソースデータやモデルパラメータへのアクセスが不要であることを示す。
Link: https://arxiv.org/abs/2603.22908
Stepper：多視点パノラマを用いた段階的没入型シーン生成 [cs.DB, eess.SY, cs.SY, cs.CV]目的：テキストに基づいた没入型3Dシーンの合成
- AR/VRやワールドモデリングへの応用が期待され，没入型3Dシーン生成技術の重要性が高まっている。
- 既存手法は，視覚的忠実性と探索性のトレードオフに悩んでおり，一貫性の維持が課題となっていた。
- 段階的なパノラマシーン拡張により，高解像度かつ構造的に一貫性のあるシーン生成を目指す。
- Stepperは，新しい大規模多視点パノラマデータセットで学習され，最先端の視覚的忠実性と構造的一貫性を達成した。
- 多視点360度拡散モデルを活用し，一貫性のある高解像度拡張を実現することで，コンテキストドリフトを回避する。
- 従来の没入型シーン生成アプローチを凌駕し，新たな標準を確立した。
Link: https://arxiv.org/abs/2603.28980
事前学習済画像マッチング器はSAR-光学衛星画像登録に十分か？ [cs.CV]目的：SARと光学衛星画像の登録性能の評価
- 災害対応において，リモートセンシング技術は不可欠であり，その精度を左右する画像登録は重要である。
- 既存の画像マッチング器は主に自然画像で開発・評価されており，SAR画像への適用は課題となっている。
- 自然画像で学習済みの画像マッチング器が，SAR-光学衛星画像登録にどの程度適用可能かを検証する。
- 事前学習済みの画像マッチング器24種類を評価した結果，クロスモーダル訓練の有無による性能差は一様ではないことが示された。
- 特に，RoMaはクロスモーダル訓練なしで良好な性能を示し，DINOv2のような基盤モデルの特徴量がモダリティ不変性に寄与する可能性が示唆された。
- 幾何モデルやタイルサイズなどのデプロイメントプロトコルの選択が精度に大きく影響し，マッチング器の選択よりも重要な場合もあることが明らかになった。
Link: https://arxiv.org/abs/2604.10217
傾斜投影からのリアルタイムオープンセット3Dマクロ分子検出：FullTilt [cs.CV]目的：クライオ電子断層撮影におけるオープンセット3Dマクロ分子検出
- 生体分子構造解析において，クライオ電子断層撮影は重要な手法である。
- 従来の解析手法では，モデルの再学習が必要であり，計算資源にも制約がある。
- 傾斜系列を直接処理することで，計算効率とメモリ消費量を大幅に削減する。
- FullTiltは，2D傾斜系列上で直接3D検出を行うことで，従来の処理速度を大幅に向上させた。
- 傾斜系列エンコーダ，ビジュアルプロンプトエンコーダ，幾何学的素子モジュールが，検出精度とロバスト性を高めている。
- 3つの実データセットでの評価により，最先端のゼロショット性能と大幅な処理時間短縮が確認された。
Link: https://arxiv.org/abs/2604.10766
発見，修正，推論：ビデオ推論のための文脈修復 [cs.CV]目的：ビデオ推論における文脈修復手法
- ビデオ理解は，AIの応用範囲を広げる上で不可欠であり，その重要性は増している。
- 既存手法は，自己探索の限界や，文脈情報の固定化といった課題を抱えている。
- 大規模モデルの能力を活用し，より効率的な文脈修復による推論精度の向上を目指す。
- 本研究では，教師モデルを用いて欠損する時空間的な依存関係を特定し，学生モデルに最小限の証拠パッチを提供する文脈修復手法を提案した。
- 提案手法は，Group Relative Policy Optimization (GRPO) とRobust Improvement Reward (RIR) を組み合わせることで，因果的に意味のある方向への探索を促進する。
- 様々なベンチマークにおいて，提案手法は一貫した精度向上と高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.16243
深層学習フレームワークを用いた環境音のディープフェイク検出 [eess.SY, cs.SY, math.OC, cs.SD, cs.AI]目的：環境音のディープフェイク検出
- 音声データの信頼性確保が重要となる場面が増加しているため。
- 既存の手法では，環境音のディープフェイクを正確に検出することが困難である。
- ディープフェイク検出の精度向上と，そのための効果的な手法の確立。
- 本研究では，音の場面と音響事象のディープフェイク検出を個別のタスクとして扱うことを示した。
- 事前学習済みモデルのファインチューニングが，ゼロから学習するよりも有効であることが示された。
- WavLMモデルをファインチューニングしたモデルは，EnvSDDテストセットでAccuracy 0.98，F1スコア0.95，AuC 0.99を達成した。
Link: https://arxiv.org/abs/2604.19652
ARFBench：ソフトウェアインシデント対応のための時系列質疑応答能力のベンチマーク [cs.LG, cs.CV]目的：ソフトウェアインシデントデータにおける時系列異常の理解度評価
- システムの信頼性確保は重要であり，異常検知と迅速な対応が不可欠である。
- 時系列データの質疑応答は発展途上であり，既存のモデルには限界がある。
- ソフトウェアインシデント対応における時系列質疑応答能力の向上を目指す。
- ARFBenchは，ソフトウェアインシデントデータを用いた時系列質疑応答のベンチマークである。
- 最先端のビジュアル言語モデル(VLM)が既存のベースラインを上回る性能を示した。
- モデルと専門家の組み合わせにより，超人的な性能を達成した。
Link: https://arxiv.org/abs/2604.21199
位相分離複素ヒルベルトPCAによるマーカーレス3D姿勢推定データ解析：全身位相ネットワークとその体表面連続場への拡張 [cs.SI, cs.CV, eess.SP]目的：スポーツ動作における運動連鎖の定量分析
- スポーツパフォーマンス評価や傷害予防において，運動連鎖の理解は不可欠である。
- 既存手法は隣接関節ペアに限定され，全身協調運動の包括的理解が困難であった。
- 全身位相パターンを抽出し，体表面上の連続位相場として運動連鎖を表現する。
- 本研究では，全身をアンカーとするグローバルな位相構造が明らかになった。
- 準備段階と実行段階の間で機能的な非対称性が確認された（Mode-1寄与率：45.5% vs 70.5%）。
- 全身骨格関節および体表面メッシュ頂点において，一貫した位相再構成が確認された（p < 10^{-10}）。
Link: https://arxiv.org/abs/2604.24415
意味の泡：空間的および意味的シーン分解の統合 [cs.CV]目的：空間的および意味的シーン分解の統一
- リアルタイムな新規視点合成技術の進展は，インタラクティブなグラフィックス応用に不可欠である。
- 従来の3Dアセットとのインタラクションの困難さが，リアルタイムシーン再構成技術の応用を妨げている。
- セグメンテーション品質と一貫性の問題を解決し，インタラクティブな操作を可能にする。
- 本研究では，Radiant Foam表現を拡張したSemantic Foamを提案し，意味的分解タスクにおいて優れた性能を示す。
- Voronoiメッシュの自然な空間的分解と，セルレベルでの明示的な意味特徴フィールドを統合することで，空間的な正則化を実現した。
- Gaussian GroupingやSAGAといった最先端手法と比較して，オブジェクトレベルのセグメンテーション性能が向上している。
Link: https://arxiv.org/abs/2604.26262
医用画像におけるモーション補正のための統一的深層学習フレームワーク [eess.IV, cs.CV]目的：医用画像のモーション補正に関する統一的な深層学習フレームワーク
- 医用画像診断の精度向上には，モーションによる影響の低減が不可欠である。
- 既存手法は，モーションの種類や範囲に制限があるか，新しいデータごとに再学習が必要である。
- 様々な種類のモーションに対応し，再学習なしで複数のデータセットに適用可能な手法を開発する。
- UniMoは，グローバルな剛体モーション補正とローカルな変形補正を統合したモデルである。
- 幾何学的変形オーギュメンテーションにより，グローバルモーション補正のロバスト性を高め，学習データを拡張する。
- 単一のモダリティでの学習で，複数の未知のデータセットに対して高い精度と適応性を示した。
Link: https://arxiv.org/abs/2409.14204
CryoSplat：凍結電子顕微鏡法における均一再構成のためのガウススプラッティング [eess.IV, cs.CV]目的：凍結電子顕微鏡法を用いた分子構造の三次元再構成手法
- 構造生物学において凍結電子顕微鏡法は不可欠であり，分子構造解析に貢献する重要な技術である。
- 既存手法は初期化に外部情報が必要であり，自律的な解析パイプライン構築が課題となっていた。
- 本研究は，ガウススプラッティングと凍結電子顕微鏡法の画像生成物理を統合し，自律的な再構成を可能にする。
- CryoSplatは，ガウススプラッティングに画像形成物理を組み込むことで，安定した効率的な再構成を実現した。
- 独自の正規化項や座標系を採用し，凍結電子顕微鏡法に特化したガウススプラッティングを開発した。
- 実際のデータセットを用いた実験により，CryoSplatの有効性とロバスト性が確認された。
Link: https://arxiv.org/abs/2508.04929
3Dマルチコントラスト自己注意GANによる脳MRI画像合成 [eess.IV, cs.AI, cs.CV]目的：脳MRIのマルチコントラスト画像合成手法
- 神経腫瘍の正確な評価には，各コントラストが補完的な解剖学的・病理学的情報を提供する完全かつ高品質なマルチモーダルMRIが不可欠である。
- 全てのモダリティ（T1c, T1n, T2w, T2f等）の撮影は，検査時間の長さ，コスト，患者の負担から現実的でない場合がある。
- 単一のT2w画像から欠損モダリティを高精度に合成し，腫瘍特性を維持することで，検査負担を軽減することを目指す。
- 提案手法3D-MC-SAGANは，単一のT2w画像から高精度なT2f，T1n，T1cボリュームを生成し，優れた定量評価性能と視覚的な整合性を示した。
- 腫瘍のセグメンテーション精度を維持しつつ，完全なマルチモーダル入力と同等の精度を実現した。
- 本手法は，臨床的に重要な情報を維持しながら，MRI検査の負担を軽減する可能性を示す。
Link: https://arxiv.org/abs/2604.00070
疎視点CT再構成のための条件付き拡散事後アラインメント [eess.IV, cs.CV, cs.LG]目的：疎視点CT再構成における画像品質向上
- CTは医療・産業分野で広く利用されており，低線量化が重要である。
- 視点数の少ない疎視点CTでは，再構成品質の低下が課題となる。
- 大規模3Dボリュームへの適用を可能にし，スライス間の不整合を解消する。
- 提案手法CDPAは，条件付き拡散とデータ整合性を組み合わせることで，大規模3D疎視点CT再構成を可能にした。
- 実験により，CDPAが最先端の性能を示し，提案パイプラインの相乗効果が確認された。
- 本手法の原理は，高速ノイズ除去U-Netの性能も向上させ，計算コストを削減できる。
Link: https://arxiv.org/abs/2604.21960