arXiv雑要約

画像・音声 - 2026/06/19 公開

マルチモーダル神経画像のためのスパース潜在予測基盤モデルの学習 [cs.CV]目的：マルチモーダル神経画像の統一的な表現学習
- 脳MRIは臨床診断や研究において不可欠であり，高精度な解析が求められている。
- 異なるMRIコントラストの統合的な表現学習手法が不足しており，効率的な解析が困難である。
- 大規模データを用いた基盤モデルを構築し，多様なMRIモダリティを統合的に解析する。
- Neuro-JEPAは，T1w，T2w，FLAIRの主要な脳MRIシーケンスを効果的にエンコードするスパースマルチモーダル神経画像基盤モデルである。
- 既存の神経画像基盤モデルと比較して，Neuro-JEPAは一貫して高い性能を示し，単純なCNNベースラインを上回った。
- この研究は，マルチモーダル神経画像表現学習のためのスケーラブルな方法論的枠組みを確立し，評価プロトコルの重要性を示唆する。
Link: https://arxiv.org/abs/2606.14957
NEXUS：物理的に整合性の高い接触を伴う3Dオブジェクトダイナミクスに対するニューラルエネルギー場 [cs.CV, cs.AI]目的：接触を伴う3Dオブジェクトダイナミクスの物理的整合性
- 物理シミュレーションは，現実世界の挙動を再現する上で不可欠であり，様々な応用分野で利用されている。
- 既存手法では，複雑な接触状況下で保守的および非保守的なダイナミクスを組み合わせることが困難である。
- 接触が多い3Dシーンにおける物理的に整合性の高いオブジェクトの動きを生成することを目的とする。
- NEXUSは，オブジェクトを構造グラフとして表現し，動的なオブジェクト間およびオブジェクト-環境接触グラフを構築する。
- ハミルトニアンニューラルネットワークに触発され，エネルギーと散逸項を用いて運動を定式化することで，長期的予測精度を向上させた。
- NEXUSの軌跡は，接触が多いビデオ生成において，物理的妥当性を向上させつつ，競争力のある視覚的品質を維持するガイダンスを提供する。
Link: https://arxiv.org/abs/2606.15015
マルチビュー空間時間トラッキングと物理に基づいたガウスによる高精度4Dハンドオブジェクトキャプチャ [cs.CV]目的：高精度4Dハンドオブジェクトインタラクションデータの再構成
- 具現化されたAIや空間コンピューティングにおいて，高精度なハンドオブジェクトインタラクションデータは不可欠である。
- 既存手法は，初期姿勢推定に依存し，遮蔽下では特に課題がある。
- テンプレートやマーカーを用いずに，ロバストかつ高精度な再構成を実現する。
- マルチビューフィードフォワードTransformerモデルにより，信頼性の高い初期姿勢推定と高密度なオブジェクト形状の推定が可能となった。
- 物理に基づいたガウス最適化フレームワークが，物理的に妥当で視覚的に正確な再構成を実現する。
- 公開ベンチマークおよび社内データセットにおいて，高精度でアーティファクトのない再構成が確認された。
Link: https://arxiv.org/abs/2606.15908
VEPHand：大規模なビュー効率的フォトメトリックハンドパフォーマンスキャプチャ [cs.CV, cs.GR]目的：ビュー効率的な設定における動的なハンドパフォーマンスキャプチャと登録パイプライン
- デジタルヒューマン作成の基礎となる高精度な3Dハンドキャプチャは，現実的な多視点システムで重要な課題である。
- 限られた視点密度による幾何学的曖昧さや背景のクラッタにより，豊富なフォトメトリーと正確な再構成が困難である。
- ビュー効率的な環境下でのハンド形状と外観の正確な再構成，および複雑な変形や自己接触の登録問題を解決する。
- 提案手法は，シーンパラメータ化と密度正則化を用いたマスクフリーなニューラル手法により，詳細なハンド形状と外観をロバストに抽出する。
- 物理学に基づいたフレームワークにより，ボリューメトリックオフセットの最適化を通じて，非線形な皮膚変形や自己接触を正確に捉え，妥当な結果を得る。
- 12,000を超えるシーケンスを用いた実験により，単独のハンド，複雑な両手間インタラクション，自然なハンドオブジェクト操作において，最先端の再構成精度と登録精度を達成した。
Link: https://arxiv.org/abs/2606.15966
自律型AIエージェント向け，ゲーム耐性のある保険契約：戦略的通行料金メカニズム設計 [cs.RO, cs.SY, eess.SP, eess.SY, cs.PF, cs.AR, cs.DC, cs.GT, cs.AI, q-fin.RM]目的：自律型AIエージェントのための，ゲーム耐性のある保険契約設計
- AIエージェントの普及に伴い，その副作用に対する保険の重要性が高まっている。
- 従来の保険設計では，AIエージェントの戦略的な行動を考慮した上で，保険金支払いを抑制することが困難である。
- AIエージェントの戦略的な行動に対する耐性を持つ保険契約の設計を通して，保険システムの健全性を確保する。
- 本研究では，AIエージェントが実行可能な5種類の攻撃手法を特定し，そのうち3つに対処するための新たな契約条項を提案した。
- 提案した契約条項と既存の実行時保証を組み合わせることで，AIエージェントの全ての攻撃に対し，ゲーム耐性のある保険契約が実現できることを示した。
- 提示されたプレミアム体系は，オペレーターの合理的行動と予算バランスを両立させることを保証する。
Link: https://arxiv.org/abs/2606.16326
拡散モデルに基づくアクセントTTS：アクセント付き音素予測なし [cs.SD, eess.AS]目的：アクセント付き音声合成
- 音声合成技術は，人間とコンピュータの自然な対話を可能にする上で重要な役割を担う。
- 既存のアクセントTTSは，音素予測の誤りやペアデータの不足により，性能が制限される。
- 標準音素列と参照音声から直接アクセント付き音声を合成することで，上記の問題を解決する。
- Joycentは，アクセント付き音素予測なしで，拡散モデルを用いてアクセントTTSを実現した。
- テキストエンコーダに条件付きレイヤー正規化を導入し，アクセントと話者表現を統合した。
- 実験結果から，Joycentはアクセント性を向上させつつ，話者固有性を維持することが示された。
Link: https://arxiv.org/abs/2606.16417
SUP-MCRL：被験者認識型統一された疑似特徴符号化多様相対照表現学習による脳波画像デコーディング [cs.CV]目的：脳波と画像間の対応関係を学習し，画像デコーディングの精度向上
- 非侵襲型ブレイン・コンピュータ・インターフェースは，実用化に向けた重要な技術であり，その性能向上が求められている。
- 従来のモデルは，脳波と画像の表現における意味的な一貫性や被験者間のばらつきを考慮できていないという課題があった。
- 本研究は，意味構造を考慮した脳波と画像の表現学習を通じて，クロスモーダルデコーディングの精度を向上させることを目指す。
- 提案手法SUP-MCRLは，セマンティックエンティティを認識する画像エンコーダ，脳波増強器，および疑似特徴プールを活用することで，表現の崩壊を防ぎ，ロバスト性を向上させる。
- THINGS-EEGデータセットを用いた実験により，既存手法を大幅に上回り，被験者内およびLOSO評価において高い精度を達成した。
- 構造化されたアラインメントによる指導が，クロスモーダルデコーディングの限界克服に不可欠であることが示された。
Link: https://arxiv.org/abs/2606.16615
Qwen-RobotNav技術レポート：エージェント型ナビゲーションシステム向けに設計されたスケーラブルなナビゲーションモデル [cs.RO, cs.CV]目的：エージェント型ナビゲーションシステムにおけるナビゲーションモデル
- ロボットの自律的な移動は，多様な環境での活用を可能にする重要な技術である。
- 従来のナビゲーションモデルは，特定のタスクに特化し，柔軟性に欠けるという課題があった。
- 本研究は，多様なタスクに対応可能な汎用的なナビゲーションモデルを開発する。
- Qwen-RobotNavは，パラメータ化されたインターフェースを通じて，タスクモードの切り替えや観測パラメータの制御を可能にする。
- 訓練時のパラメータのランダム化により，いかなる推論時の設定にも対応可能であり，アーキテクチャの変更は不要である。
- 大規模なナビゲーションベンチマークにおいて，Qwen-RobotNavは最先端の結果を達成し，2Bから8Bパラメータへのスケーリングにも好結果を示した。
Link: https://arxiv.org/abs/2606.18112
共有コンテキスト・ビジュアルトークナイザーを用いた統一的な自己回帰型マルチモーダルモデリングが鍵 [cs.CV]目的：視覚的理解と生成を統合する単一システム
- マルチモーダルな情報処理は，人間のような知能を実現する上で不可欠である。
- 既存の手法では，異なる視覚トークナイザーを使用し，表現空間が分断されている。
- 単一の視覚トークナイザーを用いて，視覚的理解と生成の間のギャップを埋める。
- UniARは，事前学習済みの視覚エンコーダーとビットワイズ量子化スキームを用いて，効率的な視覚トークナイザーを実現した。
- 自己回帰モデルは，並列ビットワイズ予測により，視覚シーケンス長を大幅に削減し，生成を高速化した。
- 画像生成，画像編集，マルチモーダル理解のベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.18249
QC-GAN：高忠実度音声強調のためのパラメータ効率の良いクォータニオンコンフォーマーGAN [cs.SD, cs.AI, cs.LG, stat.ML]目的：高忠実度音声強調のためのパラメータ効率の良いフレームワーク
- 音声強調は，通信，補聴，音声認識など，幅広い分野において不可欠な技術である。
- 既存の音声強調モデルは，高い性能を実現するために大量のパラメータを必要とする傾向がある。
- 少ないパラメータで高忠実度な音声強調を実現し，計算コストを削減することを目指す。
- 提案手法QC-GANは，VoiceBank+DEMANDデータセット上でPESQスコア3.48を，わずか0.89Mパラメータで達成した。
- 35Kパラメータの変種はPESQスコア3.23を達成し，従来の方式と比較して大幅に少ないパラメータで性能を上回った。
- DNS-Challenge 3データセットでの評価により，実環境への汎化能力が確認された。
Link: https://arxiv.org/abs/2606.18611
公平なオンライン資源配分 [cs.DS, cs.GT, cs.LG, math.OC]目的：公平性制約下における資源配分問題の最適化
- 難民の再定住や航空機のスケジュールなど，資源配分は社会にとって重要な課題である。
- 従来の資源配分では，公平性が無視され，類似した状況の個人の間で不公平が生じる可能性がある。
- 本研究は，公平性と全体の厚生を両立する資源配分アルゴリズムを開発し，そのトレードオフを明らかにする。
- 提案アルゴリズムは，最適なオフライン流体ベンチマークに対して亜線形な後悔を達成することが示された。
- 最適な公平な配分値は，最適な不公平な配分値の少なくとも $\Omega(1/\gamma)$ 倍であることが証明された。
- 難民経済プログラムからの現実世界のデータを用いた検証により，アルゴリズムの性能と厚生最大化と公平性施行のトレードオフが実証された。
Link: https://arxiv.org/abs/2606.18679
Mem-World：記憶を拡張した行動条件付きワールドモデルによる持続的なロボット操作 [cs.RO, cs.CV, cs.RO]目的：ロボット操作における持続的なワールドモデリング
- ロボットの学習において，実環境での実験はコストがかかるため，効率的な学習手法が求められている。
- 複雑な操作では，エンドエフェクタの遮蔽やカメラの高速移動により，過去の情報を十分に活用できていない。
- 過去の観察情報を有効活用し，長期的な予測精度を向上させることで，ロボットの操作性能を改善することを目指す。
- Mem-Worldは，4次元のサーフェルインデックスメモリを用いて，時間とともに変化する表面要素に過去の観察を固定する。
- この手法により，将来の行動に基づいて，関連する過去のフレームを精度良く検索し，予測に活用できる。
- 実験の結果，Mem-Worldは複雑な操作において持続的なロールアウトを生成し，実環境での性能との相関を14.5%向上させた。
Link: https://arxiv.org/abs/2606.18960
脳MRIのための量子潜在GAN拡張の制御されたベンチマーク [cs.LG, cs.AI, cs.CV]目的：脳MRI画像拡張における量子生成器の貢献の評価
- 医療画像分類は，限られたラベル付きデータによって制約されることが多く，データ拡張が重要である。
- 量子生成モデルは有望視されているが，その有効性を示す研究は，実験設定のばらつきが大きく，比較検証が十分でない。
- 本研究は，脳MRIデータ拡張における量子生成器の真の貢献を厳密に評価し，その効果を客観的に検証することを目的とする。
- データ拡張によって，実データのみの学習と比較して有意な性能向上は見られなかった。
- 量子生成器と古典生成器の間には統計的に有意な差は認められず，データ拡張の効果は正則化として機能するにとどまった。
- 量子生成器の多様性は古典生成器と同程度であり，データが不足している領域ではモード崩壊が深刻であった。
Link: https://arxiv.org/abs/2606.18970
FineCombo-TTS：テキスト記述と参照音声を用いた協調的かつ精密な制御可能音声合成 [cs.SD]目的：テキスト記述と参照音声に基づく柔軟かつ精密な音声属性制御
- 音声合成技術は，人間とコンピュータの自然なコミュニケーションに不可欠であり，その重要性は増している。
- 既存手法では，参照音声かテキスト記述のいずれかに依存するため，柔軟性や精密な制御が課題であった。
- テキスト記述と参照音声を統合し，音声属性の微細な変換を精密に制御することを目指す。
- FineCombo-TTSは，参照音声とテキスト記述を統合した統一的なフレームワークを提案し，柔軟かつ精密な制御を実現した。
- Conditional Flow Matching（CFM）に基づく音声分散予測器により，テキスト記述に基づいた参照音声からターゲット音声への微細な変換をモデル化した。
- 属性変化を明示的にエンコードしたFineEditデータセットを構築し，相対的な属性制御を可能にした。
Link: https://arxiv.org/abs/2606.19209
疎な視点からの動的DSA画像を用いた血管確率に基づく減衰学習による3D血管再構築 [eess.IV, cs.CV]目的：疎な視点からのDSA画像による高品質な3D血管再構築
- 血管疾患の診断において，DSAは重要な役割を果たす。被ばく線量を低減することが求められている。
- 従来の3D再構築には多数の視点が必要であり，被ばく線量が増加するという課題があった。
- 少ない視点からのDSA画像から高精度な3D血管再構築を実現し，被ばく線量を削減すること。
- 血管確率場を利用した減衰学習により，静的背景と動的造影剤の流れを自己教師ありで分解することに成功した。
- 粗い段階から細かい段階への段階的学習と，時間的に摂動を加えたレンダリング損失を用いることで，再構築品質を向上させた。
- 実験結果から，高品質な3D血管再構築と2D DSA画像合成が可能であることが示された。
Link: https://arxiv.org/abs/2405.10705
OncoReg：腫瘍学における医療画像登録 [eess.IV, cs.CV]目的：腫瘍学における医療画像登録手法の開発と検証
- 近年，癌研究では大量の医療データが生成されるが，その活用はプライバシー保護の課題により進んでいない。
- 医療データのプライバシー保護と，汎用性の高いAIモデル開発の両立が困難である。
- OncoRegチャレンジを通して，プライバシーを保護しつつ，高精度な画像登録手法を開発することを試みる。
- 特徴抽出が本課題における画像登録において重要な役割を果たすことが明らかになった。
- 新たな手法が多様な応用可能性を示し，従来の確立された手法も同等の性能を維持している。
- 深層学習と古典的な手法の両方が画像登録において重要な役割を果たし，特徴抽出における組み合わせが最も有効であることが示された。
Link: https://arxiv.org/abs/2503.23179
状況に応じた二者間ロールプレイにおける性格特性の評価 [physics.soc-ph, cs.SI, q-bio.MN, q-bio.PE, math.RA, cs.CC, math.LO, eess.AS, cs.AI, cs.SD]目的：状況に応じた性格特性の認識に関する関係性
- 人間とテクノロジーの相互作用において，性格の一致がユーザ満足度に影響する点が重要である。
- 既存研究では性格特性が状況に依存して変化する点が考慮されていなかった。
- 会話音声から性格特性を正確に認識し，状況変化への対応を目指す。
- 性格特性の認識は，状況によって有意に異なり，特にストレス状況下での感情特性の予測に影響する。
- 中立的な状況では音量などの音響特徴が性格特性と関連し，ストレス状況では感情特性との相関が強まる。
- 手作りされた音響特徴や非言語特徴が，話者埋め込みよりも性格特性の推測において優れている。
Link: https://arxiv.org/abs/2507.19137
DiT-JSCC：拡散Transformerと意味表現を用いた深層JSCCの再考 [eess.IV, cs.CV]目的：極端な無線チャネル条件下における高忠実度かつ堅牢な画像伝送
- 無線通信環境の厳しい状況下でも高品質な画像伝送を実現することは重要である。
- 従来の深層JSCCは，視覚的なリアリティは高いが，意味的な一貫性に課題があった。
- 意味を優先した表現学習と拡散Transformerによる生成復号を組み合わせることで，この課題を解決する。
- DiT-JSCCは，既存のJSCC手法と比較して，意味的な一貫性と視覚的な品質の両方において優れた性能を示す。
- 意味と詳細を分離した二分岐エンコーダは，粗い段階から細かい段階へと条件付きのDiTデコーダと自然に連携する。
- Kolmogorov複雑性に着想を得た，訓練不要の適応的帯域幅割り当て戦略により，伝送効率が向上する。
Link: https://arxiv.org/abs/2601.03112
言葉の背後にある声：音声LLMにおける交差的な偏りの定量化 [math.OC, cs.SY, eess.SY, eess.AS, cs.CL, cs.SD]目的：音声LLMにおけるアクセントとジェンダーの偏りの評価
- 音声LLMは音声入力を直接処理するため，以前は除去されていた手がかりが残る。
- 音声LLMの応答は話者固有の要因に左右され，公平性に課題がある。
- アクセントとジェンダーの交差的な偏りを定量的に評価し，その影響を明らかにする。
- 3つの音声LLMを用いた大規模な評価で，アクセントとジェンダーによる応答の差異が検出された。
- 東欧アクセントの音声，特に女性と認識される声に対して，有用性が低い評価が多いことが分かった。
- LLMによる評価は偏りの傾向を捉えられたが，人間による評価の方がより高い感度を示した。
Link: https://arxiv.org/abs/2603.16941
NIM4-ASR：効率的，堅牢，かつカスタマイズ可能なリアルタイムLLMベースASRに向けて [eess.AS, cs.CL, cs.SD]目的：効率性，堅牢性，カスタマイズ性を備えたLLMベース自動音声認識フレームワークの開発
- 近年，音声認識技術は様々な分野で活用が広がっており，その重要性は増している。
- 大規模言語モデル(LLM)を音声認識に統合する際に，リソース制約下での性能低下や，騒音環境下での誤認識が課題となっていた。
- 本研究では，限られたリソースでも高い性能を発揮し，騒音環境下でも堅牢な音声認識を実現する手法を提案する。
- NIM4-ASRは2.3Bパラメータで複数の公開ベンチマークで最先端の性能を達成した。
- 社内ベンチマークでは，より大規模な競合モデルを大幅に上回り，特にエンティティ集約型の実世界シナリオで優れた性能を示した。
- 検索拡張生成(RAG)により，ミリ秒以下の検索遅延で大規模なホットワードのカスタマイズをサポートし，効率的な適応を可能にした。
Link: https://arxiv.org/abs/2604.18105