arXiv雑要約

画像・音声 - 2026/03/13 公開

TrajPred：軌道条件付きジョイント埋め込み予測による，視覚言語モデルにおける手術器具・組織相互作用認識 [cs.CV]目的：手術器具と組織の相互作用認識
- ロボット支援手術において，状況を理解したAIアシスタントの構築は重要である。
- 既存の視覚言語モデルは汎化性能が高いが，手術器具・組織相互作用認識の性能は限定的である。
- 時間情報の活用と視覚とテキストの整合性向上により，相互作用認識の精度向上を目指す。
- 提案手法TrajPredは，器具の軌跡情報をエンコードし，時間的な動きの情報を組み込む。
- 軌跡条件付きで，視覚的セマンティック埋め込みを生成し，詳細な動作情報を捉える。
- 実験結果から，提案手法は平均適合率とTop-K精度を向上させ，視覚埋め込みとテキストの整合性も改善されることが示された。
Link: https://arxiv.org/abs/2603.06999
骨格潜在拡散による高精度な医療形状生成 [cs.CV]目的：医療形状の高精度な生成
- 医療データ解析において，解剖学的形状のモデル化は不可欠である。
- 解剖学的構造の幾何学的複雑さとトポロジーの多様性が，正確な形状生成の課題となっている。
- 構造的事前知識を組み込み，効率的かつ高精度な形状生成を可能にすること。
- 提案手法は，既存手法と比較して，優れた再構成と生成の品質を実現した。
- 微分可能な骨格化モジュールを用いて，大域的な幾何学的情報を捉え，局所的な表面特徴を集約する形状オートエンコーダを導入した。
- 大規模データセットMedSDFを構築し，医療形状データの不足という課題に取り組んだ。
Link: https://arxiv.org/abs/2603.07504
微分可能平衡ブロックによる深層インセンティブ設計 [cs.GT, cs.LG]目的：望ましい平衡結果をもたらすマルチエージェント間の相互作用の自動設計
- 経済学やコンピュータサイエンスにおいて，インセンティブ設計は重要な課題である。社会的な効率性や公平性を高める上で不可欠。
- 従来のインセンティブ設計は計算困難性，平衡解の非一意性，不安定性といった問題を抱えており，自動化が難しい。
- 微分可能平衡ブロックを用いて，これらの問題を克服し，幅広いインセンティブ設計問題を解決することを目的とする。
- 本研究では，微分可能平衡ブロック(DEB)を組み込んだ深層インセンティブ設計(DID)フレームワークを提案した。
- 契約設計，機械スケジューリング，逆均衡問題という3つの異なるタスクで有効性を検証した。
- 単一のニューラルネットワークを用いて，様々な規模のゲーム（プレイヤーあたり2〜16アクション）を扱うことが可能となった。
Link: https://arxiv.org/abs/2603.07705
SGG-R$^{\rm 3}$: 次のトークン予測からエンドツーエンドの偏りのないシーングラフ生成へ [cs.RO, cs.DC, cs.RO, cs.CV]目的：シーングラフの生成
- 視覚シーンを構造化し，画像認識やロボティクスなどに応用できるため重要である。
- 既存手法は，構造化された推論の欠如や，関係性の分布の偏りにより，不完全なシーングラフを生成しやすい。
- タスク固有の推論と関係性の偏りを軽減し，より完全で正確なシーングラフ生成を目指す。
- SGG-R$^{\rm 3}$は，CoTガイド付きSFTとGSPOを用いたRLを組み合わせた構造化推論フレームワークである。
- 関係性拡張戦略により，関係性のスパース性を緩和し，段階的に報酬を設定することで推論を最適化する。
- 2つのベンチマークにおいて，既存手法を上回る性能を示し，フレームワークの有効性と汎用性を証明した。
Link: https://arxiv.org/abs/2603.07961
1次元コード分布による生成モデルの評価 [cs.CV]目的：生成モデルの評価手法
- 生成モデルの性能評価は，その応用範囲拡大において不可欠である。
- 既存の評価指標は，知覚的な品質を捉えきれていないという課題がある。
- トークン空間における分布距離と品質指標の開発を通じて，評価の改善を目指す。
- 提案手法であるCHDとCMMSは，既存指標を上回る精度で人間の評価と相関した。
- VisFormベンチマークにより，多様な視覚形式に対する評価性能を検証した。
- コードとデータセットは公開され，今後の研究を促進する。
Link: https://arxiv.org/abs/2603.08064
位相的に安定なハフ変換 [cs.CG, cs.CV]目的：点群中の直線の検出
- 幾何学的データ解析において，形状の安定な特徴抽出は重要である。
- 従来のハフ変換では，離散化による不安定性が課題であった。
- 位相的安定性に基づき，よりロバストな直線検出を実現する。
- ハフ変換の離散化投票スキームを連続的なスコア関数に置き換えることで，安定な直線を検出する。
- 持続ホモロジーの永続的な特徴量を用いて，候補となる直線の集合を抽出する。
- 効率的な候補直線計算アルゴリズムを開発し，実装した。
Link: https://arxiv.org/abs/2603.08245
漸進的疑似マスク洗練を用いた弱教師あり教師・生徒フレームワークによる腺分割 [cs.CV, cs.AI]目的：腺構造の正確な分割
- 大腸癌の組織病理学的分類には腺構造の正確な分割が不可欠である。
- 従来の深層学習は大量のピクセルレベルのアノテーションに依存し，臨床現場での取得が困難である。
- 粗いアノテーションから高精度な分割を実現し，アノテーションコストを削減すること。
- Gland Segmentationデータセットにおいて，平均IoU 80.10%，平均Dice係数89.10%を達成した。
- TCGA COADおよびTCGA READにおけるクロス・コホート評価では堅牢な汎化性能を示した。
- SPIDERデータセットでは性能が低下したが，これはドメインシフトによる影響と考えられる。
Link: https://arxiv.org/abs/2603.08605
X-GS：3Dガウススプラッティングによる知覚と思考のための拡張可能なオープンフレームワーク [cs.CV, cs.CL]目的：3Dガウススプラッティングを用いた知覚と思考のための拡張可能なフレームワーク
- 3Dシーンの理解は，ロボティクスや拡張現実など，空間AIの基盤技術として重要である。
- 既存の3Dガウススプラッティング法は，特定のドメインに特化しており，汎用性に課題がある。
- 多様な3Dガウススプラッティング技術を統合し，汎用的な空間AI基盤を構築することを目的とする。
- X-GSは，リアルタイムオンラインSLAMとセマンティック特徴抽出を可能にするX-GS-Perceiverと，マルチモーダルモデルと連携するX-GS-Thinkerから構成される。
- オンラインベクトル量子化，GPUアクセラレーションによるグリッドサンプリング，並列化パイプライン設計により，多様な3DGS手法を統合している。
- 実験結果から，X-GSフレームワークは効率的であり，オブジェクト検出やキャプション生成などのマルチモーダル機能を新たに実現できることが示された。
Link: https://arxiv.org/abs/2603.09632
DRIFT：4Dレーダー点群を用いた自動運転知覚のための二重表現相互融合Transformer [cs.RO, cs.CV]目的：4Dレーダー点群を用いた自動運転知覚における物体検出とフリースペース推定の性能向上
- 自動運転技術の発展において，周囲環境の正確な認識が不可欠である。信頼性の高いセンサーが求められている。
- 4Dレーダーは低コストだが，LiDARに比べて点群密度が低い。これにより，局所情報だけでなく大域的な文脈情報の活用が課題となる。
- 局所特徴と大域特徴を効果的に融合し，レーダーの点群密度が低いという課題を克服することを目指す。
- 提案手法DRIFTは，点群パスとピラーパスという二重経路アーキテクチャにより，局所特徴と大域特徴を効果的に捉え融合する。
- View-of-Delftデータセットにおいて，DRIFTはmAP52.6%を達成し，CenterPoint (mAP45.4%) を上回る性能を示した。
- 内部データセットにおいても同様に，DRIFTはベースラインを上回る性能を示し，物体検出とフリースペース推定の精度向上に貢献する。
Link: https://arxiv.org/abs/2603.09695
EXPLORE-Bench：一人称視点における長期的推論によるシーン予測 [cs.CV, cs.AI, cs.CL]目的：一人称視点からの行動結果に対する長期的物理的影響の推論能力の評価
- 身体性AIの基盤としてマルチモーダル大規模言語モデルの重要性が高まっている。
- 行動の長期的な影響を一人称視点から正確に予測する能力が課題となっている。
- 長期的推論の評価のためのベンチマークデータセットと評価手法を確立する。
- 提案されたEXPLORE-Benchは，実世界の第一人称動画から構築された新しいベンチマークである。
- 様々なMLLMを用いた実験の結果，人間の性能と比較して大きな性能差が確認された。
- 行動系列を段階的に分解することで性能向上が見られたものの，計算コストが増加するという課題も示唆された。
Link: https://arxiv.org/abs/2603.09731
生成AIウォーターマークの直交する脆弱性：空間的および潜在的な出自の比較実験的ベンチマーク [cs.CR, cs.CV]目的：生成AIウォーターマークの脆弱性評価
- AI技術の進化により，現実と見分けがつかない偽情報の生成が容易になり，デジタル情報の信頼性が脅かされている。
- 既存のウォーターマーク技術は，現代の画像編集ツールに対する厳密な比較評価が不足している。
- 空間領域と潜在領域のウォーターマークが持つ，互いに排他的な脆弱性を明らかにすること。
- 空間的ウォーターマークは，画像生成ツールによるピクセル書き換えに対して脆弱性を示し，高い回避率が見られた。
- 潜在的ウォーターマークは，幾何学的な歪み，特にクロッピングに対して脆弱性を示し，回避率が確認された。
- 単一領域のウォーターマークでは，最新の攻撃ツールに対する十分な防御が難しく，多領域の暗号化アーキテクチャの必要性が示唆された。
Link: https://arxiv.org/abs/2603.10323
スタイルギャラリー：任意の画像参照からの訓練不要かつ意味認識型パーソナライズドスタイル変換 [cs.CV]目的：任意の画像参照を用いた，訓練不要かつ意味認識型のパーソナライズドスタイル変換手法
- 画像スタイル変換は，写真やアート作品の表現を変化させる重要な技術であり，多様な応用が期待される。
- 既存手法は，内容のセマンティクスが反映されず，スタイルの適用が不自然になる場合や，利用に制限がある。
- 複数のスタイル参照を柔軟に活用し，パーソナライズ性，精度，適応性を向上させることを目指す。
- StyleGalleryは，追加の入力なしに潜在拡散特徴量で領域を分割するセマンティック領域分割により，より正確なスタイリングを実現する。
- 抽出された特徴量に基づくブロックフィルタリングによるクラスタ化領域のマッチングによって，局所的なスタイリングと全体的なコンテンツの保存のバランスを取る。
- 実験の結果，StyleGalleryは，コンテンツ構造の保存，領域スタイリング，解釈可能性，パーソナライズドカスタマイズにおいて最先端の手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.10354
拡散モデルのための幾何学的オートエンコーダ [cs.CV]目的：拡散モデルにおける潜在空間の設計
- 高解像度画像生成において，拡散モデルが最先端の性能を示している。
- 既存の潜在空間設計は経験則に頼る傾向があり，意味的識別力，再構成精度，潜在空間のコンパクト性のバランスが課題である。
- ビジョンファウンデーションモデルを活用し，これらの課題を克服する新たなフレームワークを提案する。
- 提案手法であるGeometric Autoencoder (GAE)は，ImageNet-1K $256 \times 256$ベンチマークにおいて，Classifier-Free GuidanceなしでgFID 1.82 (80エポック)，1.31 (800エポック)を達成した。
- GAEは，既存の最先端手法を大幅に上回る性能を示し，圧縮率，意味的深さ，再構成安定性のバランスに優れている。
- 潜在空間の正規化や動的ノイズサンプリングメカニズムが，安定した潜在多様体と高強度ノイズ下でのロバストな再構成を実現している。
Link: https://arxiv.org/abs/2603.10365
拡散モデルにおけるプロンプト不要なインスタンス・アンラーニング [cs.LG, cs.CV]目的：拡散モデルから特定の出力を選択的に削除する手法
- 拡散モデルの倫理的課題やプライバシー保護は重要であり，意図しない出力の修正が求められる。
- テキストプロンプトで指定できない望ましくない出力（顔や不正確な描写）の削除が困難である。
- テキストプロンプトを用いずに，特定インスタンスの出力を選択的に忘れさせることを目指す。
- 提案手法は，画像編集，タイムステップ加重，勾配手術を活用し，拡散モデルから特定の出力を効果的に削除する。
- 実験により，顔や文化的に不正確な描写といった，プロンプトでは削除困難な出力を本手法が精度良くアンラーニングできることが示された。
- 本手法は，プライバシー保護と倫理的遵守のために，拡散モデル提供者にとって実用的な解決策となりうる。
Link: https://arxiv.org/abs/2603.10445
SignSparK：疎なキーフレーム学習による効率的な多言語手話生成 [cs.CV]目的：自然で言語的に正確な手話アバターの生成
- 手話は聴覚障碍者にとって重要なコミュニケーション手段であり，そのデジタル化へのニーズは高い。
- 既存の手話生成システムは，自然さや流暢性の点で課題が残っており，実用性に乏しい。
- 疎なキーフレーム学習により，手話の自然な動きを効率的に生成し，多言語対応を実現すること。
- 提案手法SignSparKは，疎なキーフレームを用いて手話の運動分布を捉え，自然で流暢な手話生成を可能にする。
- FASTという高速な手話セグメンテーションモデルを導入し，正確なキーフレーム抽出を実現した。
- SignSparKは，4つの異なる手話言語に対応する大規模な多言語手話生成フレームワークを構築し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.10446
少ないほど良い：効率的な骨格表現学習のためのデコーダフリーマスクモデリング [cs.CV]目的：骨格に基づく行動表現学習における効率性向上
- 人間の行動認識は，監視，医療，人間とロボットのインタラクションなど，様々な分野で重要である。
- 既存手法では，コントラスト学習は詳細な情報を捉えにくく，マスクオートエンコーダは計算コストが高いという課題がある。
- 本研究は，デコーダを排除し，効率性と表現力を両立する新しい枠組みを提案することで，この課題を解決する。
- 提案手法SLiMは，マスクモデリングとコントラスト学習を統合し，計算冗長性を排除することで効率的な学習を実現する。
- 意味的チューブマスキングと骨格を考慮したデータ拡張により，高次元の相関から生じる単純な再構成を防ぐ。
- 実験により，SLiMが既存のマスクオートエンコーダよりも7.89倍高速に，最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.10648
音声アンチスプーフィングモデルの確率的検証 [cs.RO, cs.SY, eess.SY, cs.SD, cs.AI]目的：音声アンチスプーフィングモデルの堅牢性検証
- 音声合成技術の進化は，悪意ある利用のリスクを高め，セキュリティ上の脅威となっている。
- 既存の対策は，形式的な堅牢性の保証がなく，未知の生成技術への汎化が難しい。
- 未知の音声合成技術や入力摂動に対する堅牢性を検証する手法を確立すること。
- 提案手法PV-VASMは，テキスト読み上げ(TTS)や音声クローニング(VC)下での誤分類確率を推定する。
- モデルに依存せず，様々な実験設定で有効性を示す実用的な堅牢性検証ツールである。
- 誤分類確率の理論的な上限を導出し，その有効性を実験的に検証した。
Link: https://arxiv.org/abs/2603.10713
人間が着想を得た推論によるロバストな音声ディープフェイク検出への取り組み [cs.SD, cs.AI]目的：音声ディープフェイク検出のロバスト性と解釈可能性の向上
- 音声合成技術の発展に伴い，悪用による情報漏洩リスクが増大している。
- 既存のディープフェイク検出手法は，未知の音声ドメインや生成モデルへの汎化性能が低い。
- 人間の推論に基づいた検出フレームワークを構築し，予測根拠の提示を目指す。
- 提案手法HIR-SDDは，大規模音声言語モデルとChain-of-Thought推論を組み合わせることで，高い検出性能を実現した。
- HIR-SDDは，予測の妥当性を示す根拠を提示することが可能であり，解釈可能性に優れている。
- 実験結果から，提案手法が新たな音声ドメインや生成モデルに対しても有効であることが示された。
Link: https://arxiv.org/abs/2603.10725
手がかりの競合に関する信頼性と，その先 [cs.CV, cs.AI]目的：ニューラルネットワークにおける視覚的な手がかりへの依存性の解明
- ニューラルネットワークの意思決定プロセスを人間が理解しやすい形で把握することの重要性
- 既存の評価手法では，手がかりの偏りを正確に推定することが困難である
- より信頼性の高い，解釈可能な手がかりの偏り診断手法を開発すること
- 既存の手法では，手がかりの偏りの推定が不安定であるという問題点を指摘した。
- REFINED-BIASという，新しいデータセットと評価フレームワークを提案した。
- REFINED-BIASを用いることで，より公平なモデル間の比較と，正確な偏り診断が可能となった。
Link: https://arxiv.org/abs/2603.10834
マルチモーダル潜在的リプレイと漸進的調整による生涯にわたる模倣学習 [cs.CV, cs.RO]目的：生涯にわたる模倣学習のための枠組み
- ロボットの自律性を高めるには，継続的に学習し適応する能力が不可欠である。
- 従来の模倣学習は，過去の経験を忘れてしまう「忘却」の問題を抱えている。
- 限られたメモリとデータの中で，効率的に知識を蓄積し忘却を抑制すること。
- 提案手法は，LIBEROベンチマークにおいて，AUCが10-17ポイント向上し，先行手法と比較して最大65％の忘却を低減した。
- マルチモーダル潜在空間でのリプレイと，タスク埋め込みの漸進的調整が，その効果を立証している。
- 提案手法は，継続的な学習における新たな基準を確立した。
Link: https://arxiv.org/abs/2603.10929
歴史的合意：ガウス混合モデル事前分布の反復選択による事後崩壊の防止 [cs.LG, cs.AI, cs.CV]目的：事後崩壊の防止
- 潜在変数モデルは多様な応用を可能にするが，学習が困難な場合が多い。
- 変分オートエンコーダでは，事後崩壊により潜在変数が無情報になりやすい。
- ガウス混合モデルを利用し，安定したパラメータ空間を構築して事後崩壊を回避する。
- 提案手法「歴史的合意訓練」は，複数のクラスタリング制約を満たすことで，事後崩壊を防ぐ。
- この手法は，デコーダ分散や正則化の強度に関わらず，安定した潜在表現を獲得できる。
- 明示的な安定条件を必要とせず，任意のニューラルネットワークアーキテクチャで利用可能である。
Link: https://arxiv.org/abs/2603.10935
外部性のあるインセンティブ設計 [econ.TH, cs.GT]目的：チームプロジェクトにおけるインセンティブ設計
- 組織運営において，チームメンバーの努力を促すインセンティブ設計は不可欠である。
- 従来のインセンティブ設計は，チーム内での影響や貢献度の差を考慮できていない場合がある。
- ネットワークゲームの理論を用いて，最適なインセンティブ配分を明らかにすることを目指す。
- 最適なインセンティブ配分は，各エージェントの生産性，組織内での中心性，そして金銭的インセンティブへの反応性を考慮した積を平等化する必要がある。
- 個人の能力と協調性のどちらを報酬に反映すべきか，また補完性の強さが報酬のばらつきにどう影響するかを分析した。
- 本研究は，チームインセンティブ設計における新たな視点を提供し，組織運営の効率化に貢献する可能性がある。
Link: https://arxiv.org/abs/2411.08026
連続スペクトル超解像のための放射構造ニューラル演算子 [eess.IV, cs.CV]目的：連続スペクトル超解像の学習と物理的整合性の確保
- ハイパースペクトル画像は，リモートセンシングや画像認識で重要であり，幅広い応用が期待されている。
- 深層学習手法は一般的だが，スペクトルを離散的なベクトルとして扱うため，物理法則との整合性が課題となっていた。
- 物理的制約を考慮した連続的なスペクトルマッピングを学習し，より現実的な超解像画像を生成することを目指す。
- 提案手法RSNOは，アップサンプリング，再構成，そして洗練という3段階で連続スペクトル超解像を実現する。
- 特に，角度一貫性投影(ACP)は，物理的に妥当なハイパースペクトル推定に貢献し，最適性が理論的に証明された。
- 実験結果は，離散的および連続スペクトル超解像の両方において，提案手法の有効性を示している。
Link: https://arxiv.org/abs/2511.17895
［b］＝［d］－［t］＋［p］：自己教師あり音声モデルが音韻ベクトル演算を発見 [eess.AS, cs.CL, cs.LG, cs.SD]目的：自己教師あり音声モデルにおける表現の構造
- 音声認識の精度向上には，音声に含まれる音韻情報の適切な表現が不可欠である。
- 自己教師あり学習モデルが獲得する音韻情報の構造は十分に解明されていない。
- モデル表現空間における音韻ベクトル演算の存在とその意味を明らかにすること。
- モデルの表現空間内に，音韻特徴に対応する線形方向が存在することが示された。
- これらの音韻ベクトルの大きさが，対応する音韻特徴の音響的実現度と相関することが確認された。
- 例えば，［d］と［t］の差が音声化ベクトルとなり，［p］に加えることで［b］が生成される。
Link: https://arxiv.org/abs/2602.18899