arXiv雑要約

画像・音声 - 2026/03/23 公開

セマンティックサンプリングによる医用画像空間的接地 [cs.CL, cs.CV, cs.LG]目的：医用画像における解剖学的構造の空間的接地能力の向上
- 医用画像解析は，疾患の診断や治療計画において不可欠であり，高精度な画像理解が求められる。
- 従来の医用画像解析は，解剖学的知識や空間的関係性を考慮した空間的接地が困難であった。
- 本研究は，ビジョン言語モデル(VLM)の空間的接地能力を向上させ，より正確な医用画像解析を実現する。
- MIS-Groundベンチマークを公開し，VLMの空間的接地における脆弱性を総合的に評価できる環境を提供した。
- MIS-SemSamという，推論時にVLMを最適化する低コストでモデル非依存な手法を提案し，空間的接地能力の向上を示した。
- MIS-SemSamは，Qwen3-VL-32BのMIS-Groundにおける精度を13.06%改善した。
Link: https://arxiv.org/abs/2603.14579
AC-Foley：参照音響誘導によるビデオからの音響合成 [cs.RO, cs.SD, cs.CV, cs.LG, cs.MM, eess.AS]目的：ビデオからの音響合成における音響転送
- 映像と音響の同期は，没入感のあるメディア体験に不可欠である。
- 既存手法では，テキストプロンプトの曖昧さから微細な音響特徴の合成が困難である。
- 参照音響を利用することで，テキストの曖昧さを回避し，精度の高い音響制御を実現する。
- AC-Foleyは，参照音響を条件とする事で，より正確で微細な音響合成を可能にする。
- 参照音響を用いた場合，フォーリー音響生成において最先端の性能を達成した。
- 音響条件を用いなくても，既存のビデオからの音響合成手法と同等以上の性能を維持する。
Link: https://arxiv.org/abs/2603.15597
IRIS：単眼ビデオからの逆回復と物理ダイナミクスシステムの特定のための現実世界ベンチマーク [cs.RO, cs.CV, cs.LG]目的：物理ダイナミクスシステムのパラメータ推定と，それを記述する支配方程式の特定
- 物理現象の理解と予測は，ロボティクスや科学シミュレーションなど，幅広い分野で不可欠である。
- ビデオデータから物理パラメータを推定する際の，統一された評価基準が存在しなかった。
- 現実世界の複雑なダイナミクスシステムを対象とした，信頼性の高い評価基盤を構築すること。
- IRISベンチマークは，4K解像度・60fpsで記録された220の現実世界ビデオで構成され，単体および多体ダイナミクスを網羅している。
- 提供される支配方程式と実測値を用いて，パラメータの精度，特定可能性，外挿性能，ロバスト性，方程式選択を評価する標準プロトコルが定義されている。
- 複数のベースラインモデルの評価結果から，今後の研究に向けた課題が明らかになった。
Link: https://arxiv.org/abs/2603.16432
Visual-referred Probabilistic Prompt Learning：弱学習単眼3D物体検出のためのビジュアル参照確率的プロンプト学習 [cs.CL, q-bio.NC, cs.CY, cs.MA, eess.SY, cs.SY, cs.CV, cs.AI]目的：弱学習単眼3D物体検出における性能向上
- 自動運転やロボティクスにおける3D物体検出は，周囲環境の理解に不可欠である。
- 既存手法は，実世界の注釈に大きく依存しており，注釈コストが高いという課題がある。
- 視覚情報を考慮したプロンプト学習により，シーン固有の表現を獲得し，検出精度を向上させる。
- 提案手法VirProは，適応的プロンプトバンクと多ガウスプロンプトモデリングを導入し，多様な視覚的特徴をテキスト埋め込みに統合する。
- RoIレベルのコントラストマッチングにより，モダリティ間の整合性を強化し，潜在空間での意味的な一貫性を高める。
- KITTIベンチマークでの実験により，VirProがベースラインと比較して最大4.8%の平均精度向上を達成することが示された。
Link: https://arxiv.org/abs/2603.17470
DEAF：音声言語モデルにおける音響忠実性の診断評価ベンチマーク [cs.CY, cs.HC, cs.AI, cs.SD, eess.AS]目的：音声言語モデルの音響忠実性診断
- 近年の音声マルチモーダル大規模言語モデルの性能向上に伴い，音響信号の理解度評価が重要になっている。
- 既存の音声ベンチマークでは，モデルが音響信号を真に処理しているか，テキスト情報を利用しているかの区別が困難である。
- 音響的な側面とテキスト情報の影響を分離し，モデルの音響信号への依存度を定量的に評価することを試みる。
- DEAFベンチマークは，感情的な抑揚，背景音，話者識別という3つの音響次元に焦点を当てた2700以上の対立刺激で構成される。
- 評価フレームワークは，テキストの影響を段階的に高めることで，コンテンツ主導のバイアスとプロンプトによる迎合を分離する。
- 7つの音声大規模言語モデルの評価により，テキストが予測を大きく左右し，標準的な音声ベンチマークでの高い性能とは乖離があることが示された。
Link: https://arxiv.org/abs/2603.18048
S3T-Former：骨格アクション認識のための純粋なスパイク駆動状態空間トポロジーTransformer [cs.CV, cs.AI]目的：骨格データを用いたアクション認識におけるエネルギー効率の向上
- マルチメディア応用において骨格ベースのアクション認識は重要である。しかし，計算コストが高い。
- 既存のスパイクニューラルネットワークは，スパース性を損ないやすく，短期記憶の問題がある。
- スパイク駆動Transformerアーキテクチャにより，エネルギー効率の高いアクション認識を実現する。
- S3T-Formerは，既存のANNと比較して高い精度を達成し，理論的にエネルギー消費量を削減する。
- Multi-Stream Anatomical Spiking Embedding (M-ASE) により，多岐にわたる骨格特徴を効率的にスパイクデータへ変換する。
- Lateral Spiking Topology Routing (LSTR) と Spiking State-Space (S3) Engine により，時間的依存性を捉え，スパース性を維持する。
Link: https://arxiv.org/abs/2603.18062
MOSS-TTS技術報告 [cs.SD, cs.AI, cs.CL]目的：音声生成基盤モデルMOSS-TTSの設計，学習手法，および実験的特性
- 近年の深層学習技術の発展により，高品質な音声合成が求められている。
- 既存の音声合成モデルは，計算コストが高い，または汎化性能が低いという課題がある。
- 大規模な事前学習と効率的なモデル構造により，これらの課題を克服することを目指す。
- MOSS-TTSは，離散的な音声トークン，自己回帰モデリング，大規模な事前学習を組み合わせたスケーラブルな手法を採用している。
- MOSS-TTSは，ゼロショットのボイスクローニング，トークンレベルの長さ制御，音素/ピンインレベルの発音制御，スムーズなコードスイッチング，安定した長文生成をサポートする。
- MOSS-TTSとMOSS-TTS-Local-Transformerの2つの生成モデルを公開し，構造の単純さ，スケーラビリティ，およびモデリング効率の向上を実現した。
Link: https://arxiv.org/abs/2603.18090
CycleCap：自己教師ありサイクル整合性ファインチューニングによるVLMのキャプション生成性能向上 [cs.RO, cs.CV]目的：VLMのキャプション生成性能の向上
- 画像とテキストを理解するVLMは，様々な応用で目覚ましい進歩を遂げている。
- VLMは，視覚と言語の不整合により，一般的すぎる記述や幻覚を起こしやすいという課題がある。
- サイクル整合性を活用し，大規模注釈データセットなしにVLMの記述精度と根拠を向上させる。
- CycleCapは，VLMを画像-テキストコンポーネントとし，テキスト-画像モデルで画像を再構成することでサイクル整合性を実現する。
- 報酬としてオリジナル画像と再構成画像の類似度に基づき，Group Relative Policy Optimization (GRPO)を用いたファインチューニングを行う。
- 10億から70億パラメータの4つのVLMに適用した結果，キャプション生成と幻覚ベンチマークで最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.18282
点群事前情報を用いた構造を意識した3D生成 [cs.CV, cs.AI]目的：点群事前情報を利用した3Dアセットおよびシーン生成における形状制御
- 3D生成技術は画像やテキストに依存する傾向が強いが，利用可能な3D事前情報は十分に活用されていない。
- LiDAR等のアクティブセンサーやVGGT等の予測器から容易に得られる点群は，既存手法では活用されていない。
- 点群を事前情報として利用することで，より正確かつ構造制御可能な3D生成を目指す。
- 本研究では，拡散モデルTRELLISを基盤とし，点群事前情報を活用するPoints-to-3Dを提案する。
- 点群事前情報を初期値として組み込み，構造を補完するネットワークと段階的なサンプリング戦略を用いることで，高品質な3D生成を実現した。
- 実験の結果，提案手法は既存手法と比較して，レンダリング品質と幾何学的忠実度において優れた性能を示した。
Link: https://arxiv.org/abs/2603.18782
オクルージョンを考慮した汎用的なハンド・オブジェクト姿勢推定 [cs.HC, cs.CV]目的：オクルージョン下における汎用的なハンド・オブジェクト姿勢推定
- ロボット工学やコンピュータビジョンの発展において，ハンド・オブジェクト間の相互作用の理解は重要である。
- オブジェクトの外観やインタラクションパターンが多様であり，特に重度のオクルージョン下では姿勢推定が困難である。
- オクルージョンに強く，未知のオブジェクトやインタラクションに対しても汎化性能の高い姿勢推定手法を確立すること。
- 本研究では，階層的な意味的知識とハンドの事前知識を統合するGenHOIフレームワークを提案する。
- テキスト記述を用いた階層的意味的プロンプトにより，抽象的な高レベル表現を学習し，視覚的な手がかりが不足している場合でも汎化性能を高める。
- RGB画像，予測された点群，テキスト記述に対するマルチモーダルなマスクモデリング戦略と，ハンドの事前知識を活用することで，高い精度を実現した。
Link: https://arxiv.org/abs/2603.19013
CustomTex：複数参照による高精度な屋内シーンテクスチャリング [cs.CV, cs.AI]目的：高精度でカスタマイズ可能な3D屋内シーンテクスチャの生成
- 3Dコンテンツ制作において，リアリティの高いテクスチャは重要な要素である。
- テキストからの制御は柔軟だが，細部の制御や品質，アーティファクトの問題がある。
- 参照画像に基づいた高精度なインスタンスレベルのテクスチャリングにより解決を目指す。
- CustomTexは，参照画像に基づいて，オブジェクトインスタンスごとに統一された高解像度テクスチャを生成する。
- セマンティックレベルとピクセルレベルの蒸留を組み合わせることで，高品質なテクスチャを実現した。
- 実験により，参照画像との整合性，鮮明さ，アーティファクトの低減において，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2603.19121
色付きフレーム：質問の構成が視覚言語モデルの認識を妨げる [cs.CV]目的：視覚言語モデルにおける質問の構成による視覚情報の利用状況の変化
- 視覚言語モデルは画像とテキストを統合して理解するが，視覚情報の活用が不十分な場合がある。
- モデルが質問の形式によって視覚情報の利用度合いを変えてしまうという問題が存在する。
- 質問形式に依存しない，よりロバストな視覚情報の活用を促す手法を開発する。
- 視覚言語モデルは，質問の構成によって視覚情報の注意の向け方を変化させることが示された。
- 特に，選択式やYes/No形式の質問では，画像全体への注意が減少し，重要な領域への集中が弱まる。
- 学習可能なトークンを用いた軽量なプロンプト調整により，視覚的な根拠に基づいた注意パターンを促進し，性能を向上させた。
Link: https://arxiv.org/abs/2603.19203
マトリオシカガウシアンスプラッティング [cs.CV, cs.GR]目的：3Dガウシアンスプラッティングにおける連続的なレベル・オブ・ディテール (LoD) の実現
- 3Dコンテンツの効率的なレンダリングは，実用的な応用において不可欠である。
- 既存のLoD手法は，選択肢が限られていたり，品質が低下したりする課題がある。
- 高品質を維持しつつ，柔軟なLoD制御を可能とする手法の開発。
- MGSは，標準的な3DGSパイプラインにLoDを導入し，フル解像度時の品質を維持する。
- 確率的予算訓練により，効率的な学習と速度・品質のトレードオフを実現する。
- 複数のベンチマークとベースラインで，MGSがフル解像度時の性能を維持することを示した。
Link: https://arxiv.org/abs/2603.19234
VSSFlow：ビデオ条件による音響・音声生成の統合的学習 [math.OC, cs.SY, eess.SY, eess.AS, cs.AI, cs.CL, cs.CV, cs.SD]目的：ビデオ条件音響生成とビジュアルテキスト読み上げの統合的フレームワーク
- 映像と音響情報の統合は，人間が世界を認識する上で不可欠であり，様々な応用が期待される。
- 従来，ビデオ条件音響生成とビジュアルテキスト読み上げは別個の研究として扱われ，統一的なアプローチが不足していた。
- 本研究は，これらのタスクを統合的に扱うことで，より汎用的で高性能なモデルの実現を目指す。
- VSSFlowは，ビデオとテキストの両方を条件として，音響と音声をシームレスに生成する統一されたフローマッチングフレームワークである。
- 注意層の特性を活かした条件集約機構により，複数の入力信号を効果的に処理し，従来のモデルを上回る性能を達成した。
- Joint learningによる性能劣化の懸念に反し，VSSFlowは終端間ジョイント学習プロセスにおいても優れた性能を維持した。
Link: https://arxiv.org/abs/2509.24773