arXiv雑要約

画像・音声 - 2026/04/28 公開

発見，修正，推論：ビデオ推論のための文脈修復 [cs.CV]目的：ビデオ推論における文脈修復のメカニズム
- ビデオ推論は，マルチモーダルモデルの重要な応用分野であり，AIの知能向上に不可欠である。
- 既存手法は，自己探索の限界やハイブリッドリプレイの調整の難しさ，文脈の限定性といった課題を抱えている。
- 大規模モデルの能力を活用し，必要な文脈を効率的に補完することで，ビデオ推論の精度向上を目指す。
- 本研究では，教師モデルが欠落した時空間依存性を特定し，学生モデルに最小限の証拠パッチを提供する文脈修復手法を提案した。
- 提案手法は，Group Relative Policy Optimization (GRPO)とRobust Improvement Reward (RIR)を組み合わせることで，有効な学習を実現する。
- 様々なベンチマークにおいて，精度向上と高い汎化性能が確認された。
Link: https://arxiv.org/abs/2604.16243
BARD：効率的な段階的ブロックマージと段階的知識蒸留による自己回帰型と拡散型ビジョン言語モデルの架け橋 [cs.CV, cs.LG]目的：自己回帰型ビジョン言語モデルを，同じアーキテクチャで効率的な拡散型ビジョン言語モデルへと変換するフレームワーク
- ビジョン言語モデルは，画像とテキストを理解し生成する能力を持ち，様々な応用分野で重要性が増している。
- 自己回帰型モデルは推論速度が遅く，拡散型モデルへの直接変換は性能劣化を引き起こしやすい。
- 自己回帰型モデルの能力を維持しつつ，拡散型モデルの高速な推論を実現することを目指す。
- BARDは，段階的なブロックマージと知識蒸留によって，自己回帰型モデルから拡散型モデルへの変換を可能にする。
- わずか440万件のデータで，Qwen3-VLの能力を大規模ブロック拡散型モデルに転移させることに成功した。
- BARD-VLは，40億および80億パラメータ規模のオープンな拡散型ビジョン言語モデルにおいて，最先端の性能を達成し，推論速度を最大3倍に向上させた。
Link: https://arxiv.org/abs/2604.16514
縦断的網膜画像予測における訓練と推論の入力整列が，フレームワークの選択よりも重要である [cs.CV, cs.AI, cs.LG]目的：縦断的画像データからの疾患進行予測における入力整列の重要性評価
- 臨床意思決定や臨床試験設計において，縦断的画像データを用いた疾患進行予測は不可欠である。
- 近年の手法は生成モデルの複雑化が進んでいるが，その複雑度が常に必要とされるかは不明である。
- タスクの条件付き事後分布のエントロピーに合わせた生成モデルの複雑化と，入力整列の必要性を検証する。
- 訓練と推論における入力整列を行うことで，予測精度が大幅に向上した（delta-SSIM +0.082, SSIM +0.086, p < 0.001）。
- 整列されたフレームワーク間の選択は，臨床的に有意な差をもたらさなかった。
- 網膜蛍光画像データにおいて，疾患進行よりも画像取得時の変動が大きかったため，複雑な確率モデルと同等の結果が得られた。
Link: https://arxiv.org/abs/2604.16955
LiquidTAD：並列液体に着想を得た時間的緩和による効率的な時間的行動検出 [cs.CV]目的：時間的行動検出の効率化
- 動画理解において，行動認識と局所化は重要な課題であり，様々な応用分野で必要とされている。
- 既存手法は高精度だが，パラメータ数が多く計算コストが高く，ハードウェアへの移植性に課題がある。
- 液体ニューラルダイナミクスの時間的緩和の概念を導入し，効率的かつハードウェアに依存しない手法を開発する。
- LiquidTADは，液体ニューラルネットワークの複雑な計算を避け，並列化された時間的演算子として時間的緩和を実現した。
- THUMOS-14データセットにおいて，69.46%の平均mAPを，ActionFormerと比較して60%以上少ないパラメータ数(10.82M)とFLOPs(27.17G)で達成した。
- 階層的な減衰率共有戦略により，特徴ピラミッドレベル全体で緩和の事前分布を適応させ，最適化を安定化させた。
Link: https://arxiv.org/abs/2604.18274
ダンスクラフター：振付構文によるテキスト駆動型制御可能なダンス生成 [cs.CV, cs.AI]目的：テキストによる制御可能なダンス生成手法
- ダンス生成はエンターテイメントやバーチャルリアリティにおいて重要であり，新たな表現手法の創出が期待される。
- 高品質なダンスデータセットの不足と，複雑な振付を表現することの困難さが課題となっていた。
- 振付構文に基づいたデータセットとモデルにより，高精度で制御可能なダンス生成を目指す。
- 振付構文，大規模ダンスデータセットDanceFlow，およびモーションTransformer DanceCrafterを提案した。
- DanceCrafterは，高解像度で安定した複雑なダンスシーケンスの生成を可能にする。
- 客観評価とユーザ調査により，モーション品質，制御性，自然性において最先端の性能を実証した。
Link: https://arxiv.org/abs/2604.18648
視覚言語モデルにおけるトーン誘発ハルシネーション評価のためのLLM裁判官フレームワーク [cs.CV, cs.AI]目的：視覚言語モデルにおける，プロンプトの誘導的な表現がハルシネーションに与える影響の評価
- 視覚言語モデルは実運用で利用が増加しており，視覚的根拠の信頼性が重要である。
- 既存のハルシネーション評価は中立的なプロンプトに偏っており，プロンプトの表現とハルシネーションの関係が不明確である。
- プロンプトの表現を変化させ，ハルシネーションの発生率と程度を定量的に評価する。
- 提示されたGhost-100ベンチマークは，対象が存在しない，または判読できない画像を構築し，5段階のプロンプト強度フレームワークを用いた。
- モデルの回答を，根拠のない肯定に移行する割合（H-Rate）と，GPT-4o-miniによるハルシネーションの信頼性・具体性評価（H-Score）で評価した。
- オープンウェイトの視覚言語モデル9つを評価した結果，モデルの種類やタスクによってプロンプトへの反応が異なり，中間的なトーンで感度がピークを迎するものもあった。
Link: https://arxiv.org/abs/2604.18803
発話様式間におけるsEMGエンコーディング精度の比較：調音特徴と音素特徴を用いた検討 [cs.SD, cs.CL]目的：発話様式におけるsEMGエンベロープの線形予測精度
- 音声コミュニケーション研究において，発話器官の活動を直接計測するsEMGは，重要な情報源である。
- 既存の音素特徴量では，sEMGからの高精度な予測が困難であり，より効果的な特徴量抽出が課題となっていた。
- SPARC特徴量がsEMGエンコーディングにおいて有効であるかを検証し，silent-speech modelingへの応用可能性を探る。
- SPARC特徴量は，ほぼ全ての電極と全ての発話様式において，音素特徴量よりも高い予測精度を示した。
- 明瞭発話と模倣発話は同程度の性能を示し，心内発話においても有意な調音活動が検出された。
- SPARCはsEMG予測に大きく貢献し，音素特徴量はわずかな貢献しか示さなかった。
Link: https://arxiv.org/abs/2604.18920
適切なステップへの評価：視覚生成のための目的意識的なプロセス最適化 [cs.CV]目的：視覚生成プロセスにおける，目的を考慮したプロセス最適化
- 視覚生成技術は，多様な応用分野で重要性を増しており，その品質向上は不可欠である。
- 既存の強化学習手法では，報酬の段階的な割り当てが粗雑であり，最適な生成結果を得ることが難しい。
- OTCAは，段階的な報酬評価と目的レベルの報酬割り当てにより，この問題を解決することを目指す。
- 提案手法OTCAは，拡散過程における各ステップの重要度を推定するTrajectory-Level Credit Decompositionを用いる。
- OTCAは，Multi-Objective Credit Allocationにより，複数の報酬信号を段階的に調整し，統合する。
- 実験の結果，OTCAは画像および動画生成の品質を，評価指標において一貫して向上させることを示した。
Link: https://arxiv.org/abs/2604.19234
PC2Model：3D点群からモデルへの登録に関するISPRSベンチマーク [cs.HC, cs.HC, cs.CL, cs.CV]目的：3D点群とモデル間の登録のためのベンチマークデータセット
- 建設，自動運転，ロボティクスなど，多様な分野で3D点群データの活用が不可欠となっている。
- 現実世界の点群データには，疎性，ノイズ，乱雑さ，オクルージョンといった問題が存在し，登録精度を低下させる。
- シミュレーションデータと現実世界のデータセットを組み合わせ，ロバストな登録手法の開発と評価を支援する。
- PC2Modelベンチマークは，古典的な手法とデータ駆動型手法の両方の学習と評価を支援する公開データセットである。
- シミュレーションデータは正確な正解データを提供し，現実世界のデータはセンサーや環境ノイズを導入することで，ドメイン適応性の分析を可能にする。
- データセットは公開されており，研究者によるアクセスと利用が容易である。
Link: https://arxiv.org/abs/2604.19596
単一観測からの画像再構成における拡散事前分布の最適化 [cs.CV, cs.LG, stat.ME]目的：単一観測からの画像再構成における拡散事前分布最適化手法
- 画像再構成は，医療診断や天文学など幅広い分野で不可欠な技術である。
- 拡散モデルは高品質な画像を生成するが，学習データに偏りがあるとバイアスが生じる。
- 単一観測からの事前分布の調整により，データ不足による過学習を回避し，汎化性能を高める。
- 提案手法は，複数の拡散事前分布を組み合わせ，ベイズエビデンスを最大化する指数を特定する。
- 実世界の逆問題（ブラックホールイメージング，テキスト条件付き画像復元）で有効性が確認された。
- 指数加重により，事前分布を一般化し，より信頼性の高い事後分布を得ることが可能となった。
Link: https://arxiv.org/abs/2604.21066
MAGIC-TTS：明示的な局所持続時間と休止制御による，きめ細かい制御可能な音声合成 [cs.SD]目的：トークンレベルのコンテンツ持続時間と休止を明示的に制御する音声合成モデルの開発
- 現代の音声合成技術は，より自然で人間らしい音声を生成することが求められている。
- 既存のTTSシステムは，発話レベルの持続時間しか制御できず，トークンレベルでの精密なタイミング操作が困難である。
- トークンレベルでの持続時間と休止を明示的に制御することで，より柔軟で高度な音声編集を可能にする。
- MAGIC-TTSは，トークンレベルの持続時間と休止の制御において，既存のシステムを大幅に改善した。
- 制御信号が与えられない場合でも，MAGIC-TTSは高品質な合成音声を維持する。
- ナビゲーションガイダンス，読み上げ，コードリーディングなどの実用的な編集シナリオにおいて，再現性のある均一なタイミングのベースラインを実現し，編集領域を要求された局所的なターゲットに低バイアスで移動させた。
Link: https://arxiv.org/abs/2604.21164
教師あり学習には不可避な幾何学的盲点：理論，帰結，および最小限の修正 [cs.LG, cs.AI, cs.CV]目的：教師あり学習の幾何学的盲点に関する理論的解明とその影響軽減策
- 機械学習モデルの堅牢性は重要であり，特に敵対的攻撃に対する防御は不可欠である。
- 従来の堅牢性向上手法が，汎化性能と堅牢性のトレードオフを引き起こすことが問題となっている。
- 教師あり学習に固有の幾何学的盲点を特定し，その影響を軽減する手法を提案する。
- 教師あり学習は，訓練ラベルと相関する方向に非ゼロの感受度を保持する必要があり，それが幾何学的盲点となる。
- 敵対的攻撃に対する堅牢性を高めるPGDは，クリーン入力の幾何学的構造を悪化させることが示された。
- 新しい指標TDIにより，モデルの幾何学的異方性を診断し，PMHによる修正が有効であることが確認された。
Link: https://arxiv.org/abs/2604.21395
人間とAIの協調による高精度な動画言語の構築 [cs.CV, cs.AI, cs.CL, cs.LG, cs.MM]目的：動画の理解と生成における精度向上
- 動画と自然言語を結びつける研究は，映像コンテンツの活用範囲を広げ，多様な応用を可能にする点で重要である。
- 既存の動画言語モデルは，動画の内容を詳細かつ正確に記述することが難しく，専門的な用途には不十分である。
- 専門家による検証とAIによる生成を組み合わせることで，動画の記述精度を向上させ，より高度な制御を実現することを目指す。
- 専門家による批判と修正を繰り返す「CHAI」フレームワークによって，動画キャプションのアノテーション精度と効率が向上した。
- CHAIで得られた批判データを用いてオープンソースモデルを学習した結果，クローズドソースモデルを凌駕する性能が確認された。
- 詳細な仕様と人間とAIの協調により，プロレベルの動画理解と生成が可能になることが示された。
Link: https://arxiv.org/abs/2604.21718
ラーメン：アクティブサンプル選択による視覚言語モデルの頑健なテスト時適応 [cs.CV, cs.LG]目的：視覚言語モデルのテスト時適応における頑健性向上
- 視覚言語モデルは汎化性能が高いが，分布シフトに弱いという課題がある。
- 既存手法は単一ドメインを前提としており，混合ドメイン環境下では性能が低下する。
- 混合ドメイン環境下でも頑健なテスト時適応を可能にすること。
- 提案手法Ramenは，ドメインの一貫性と予測のバランスに基づいたアクティブサンプル選択により，分布シフトへの適応を可能にする。
- 過去のテスト画像の埋め込みと勾配をキャッシュすることで，計算効率を高めている。
- 複数のベンチマークにおいて，Ramenは複雑な混合ドメイン環境下で高い性能と安定性を示す。
Link: https://arxiv.org/abs/2604.21728
コンプライアンス・モラルハザードと逆効果のマンドート [cs.GT, cs.LG]目的：分散型リスク分析のメカニズム設計
- 金融ネットワークにおけるマネーロンダリング対策は，社会経済の安定に不可欠である。
- 企業間でのリスク顧客情報の共有は，インセンティブの歪みにより困難である。
- インセンティブ設計を通じて，情報共有を促進し，コンプライアンス・モラルハザードを抑制すること。
- 時間価値割り当て（TVA）メカニズムは，金融機関の正直な報告をベイジス・ナッシュ均衡として実現する。
- 競争圧力はコンプライアンス・モラルハザードを増幅させ，不適切なマンドートは福祉水準を低下させる可能性がある。
- シミュレーションの結果，TVAは自給自足やインセンティブ設計なしのマンドートよりも高い福祉水準を達成する。
Link: https://arxiv.org/abs/2604.21789
微分可能な画像表現のためのソフト異方性ダイアグラム [cs.CV]目的：画像の微分可能な表現方法
- 画像処理において，効率的かつ高品質な画像表現は重要である。特に，学習可能な表現は応用範囲が広い。
- 従来の画像表現は，計算コストが高いか，表現力が十分でないという課題があった。
- ソフト異方性ダイアグラムを用いて，効率性と表現力の両立を目指す。
- ソフト異方性ダイアグラム（SAD）は，既存のImage-GSやInstant-NGPよりも高い性能を，同等のビットレートで達成した。
- Kodakデータセットにおいて，SADは46.0dBのPSNRを2.2秒のエンコード時間で実現し，Image-GSの28秒を大幅に上回った。
- SADは，最先端のベースラインと比較して，4～19倍の学習速度向上を実現し，微分可能なパイプラインとの統合も容易である。
Link: https://arxiv.org/abs/2604.21984
CAGE-SGG：オープンボキャブラリシーングラフ生成のための反実仮想的アクティブグラフエビデンス [cs.DC, cs.CV]目的：オープンボキャブラリシーングラフ生成における信頼性向上
- シーングラフ生成は，画像の内容を構造的に理解する上で重要な技術である。
- 既存手法では，言語的な事前知識やオブジェクトの共起に頼る傾向があり，視覚的根拠に基づかない関係予測が生じやすい。
- 視覚的，幾何学的，文脈的エビデンスに基づく関係性の検証により，信頼性の高いシーングラフ生成を目指す。
- 提案手法では，反実仮想的な関係性検証を通じて，視覚的エビデンスに裏付けられた関係性の抽出を試みている。
- 関係性を構成する要素を分解し，関連する視覚的特徴をエンコードすることで，より正確な検証を実現している。
- 実験結果から，従来の評価指標，未知の述語に対する汎化性能，反実仮想的根拠の質において，提案手法が優れていることが示された。
Link: https://arxiv.org/abs/2604.22274
ReLIC-SGG：オープンボキャブラリシーングラフ生成のための関係ラティス補完 [cs.CV]目的：オープンボキャブラリシーングラフ生成における関係の不完全性への対処
- 視覚シーンの記述は，画像理解の重要な要素であり，AIの応用範囲を広げる。
- 既存手法では，注釈のない関係を負例とみなすため，本来存在する関係を見落とす。
- 関係ラティスを用いて関係の類似性や意味的整合性を考慮し，見落とされた関係を推論する。
- ReLIC-SGGは，関係を潜在変数として扱い，注釈のない関係を負例として扱わないことで，関係認識の精度を向上させる。
- 関係ラティスは，オープンボキャブラリの述語間の類似性，包含関係，矛盾関係をモデル化し，視覚情報と言語情報の整合性に基づいて欠落した関係を推論する。
- 実験結果から，ReLIC-SGGは，珍しい述語や未知の述語の認識率を向上させ，欠落した関係の復元にも優れていることが示された。
Link: https://arxiv.org/abs/2604.22546
拡散モデルを用いた異常領域特定のための統計的検定：選択的推論によるアプローチ [cs.CL, stat.ML, cs.CV, cs.LG]目的：画像における異常領域の統計的有意性の評価
- 医療診断や産業検査など，異常を特定する技術は，安全性や品質管理において不可欠である。
- 生成モデルを用いる手法は信頼性が課題であり，誤検出のリスク評価が重要となる。
- 選択的推論に基づき，誤検出率を制御することで，信頼性の高い異常領域特定を目指す。
- 提案手法は，検出された異常領域に対するp値を算出することで，誤検出の可能性を定量的に評価する。
- 拡散モデルを用いた実験により，提案手法が誤検出のリスクを効果的に抑制することが示された。
- 本手法は，重要な意思決定を伴うタスクにおいて，信頼性の高い異常検出を支援することが期待される。
Link: https://arxiv.org/abs/2402.11789
加速MRI再構成のための二重領域マルチパス自己教師あり拡散モデル [eess.IV, cs.AI, cs.CV]目的：加速MRI再構成の精度，効率，解釈性の向上
- MRIは重要な診断ツールだが，長時間撮影が臨床効率と患者の快適性を損なう
- 既存の拡散モデルは完全なデータ依存，高コスト，不確実性推定の欠如の問題がある
- 完全なデータに依存せず，臨床現場で実用的な再構成を可能にすること
- 提案手法DMSMは，複数のベースラインと比較して優れた性能を示し，特に高加速条件下で微細な解剖学的構造の保持とアーチファクトの抑制に効果が見られた。
- DMSMは，再構成誤差と相関する不確実性マップを生成し，臨床的な解釈可能性と診断への信頼性向上に貢献する。
- 自己教師あり二重領域拡散モデル学習，軽量なハイブリッドアテンションネットワーク，マルチパス推論により，精度向上を実現した。
Link: https://arxiv.org/abs/2503.18836
大規模オーディオ言語モデルの包括的評価に向けた考察：包括的サーベイ [eess.AS, cs.AI, cs.CL, cs.SD]目的：大規模オーディオ言語モデルの評価に関する体系的な分類
- 音声と言語の融合により，様々なタスクでの汎用性が期待される分野である。
- 既存の評価基準は断片的であり，構造的な分類が欠けている。
- 評価方法の整理と今後の研究方向性の提示を目指す。
- 大規模オーディオ言語モデル(LALM)の評価を，知覚・処理，知識・推論，対話能力，公平性・安全性・信頼性の4つの視点から分類した。
- 各カテゴリーにおける詳細な概要と，この分野における課題を提示した。
- 本サーベイはLALM評価に特化した最初の試みであり，コミュニティへの指針となる。
Link: https://arxiv.org/abs/2505.15957
スライドを活用した音声認識における視覚的干渉を抑制するエンドツーエンド手法VAPO [eess.AS, cs.CV, cs.SD]目的：スライドを活用した音声認識における視覚的干渉の抑制と性能向上
- 近年，マルチモーダル大規模言語モデルが音声認識の分野で注目されており，その応用が期待されている。
- 大規模言語モデルは，視覚情報に過度に依存し，音声信号を無視して幻覚を起こす「視覚的干渉」という問題を抱えている。
- 人間の「見てから聞く」という推論プロセスを模倣することで，視覚的干渉を解消し，より正確な音声認識を実現すること。
- 提案手法VAPOは，視覚的情報を先行して処理し，その情報を基に音声認識を行うことで，視覚的干渉を効果的に抑制することを示した。
- 新しく構築したベンチマークSlideASR-Benchを用いて，VAPOが最先端の性能を達成し，特に専門分野における固有表現認識エラーを大幅に削減した。
- マルチオブジェクト強化学習を用いることで，VAPOは既存の手法を凌駕し，様々なデータセットで高い認識精度を実現した。
Link: https://arxiv.org/abs/2510.08618
BERT-APC：音楽的文脈推論による自動ピッチ補正のための参照不要フレームワーク [eess.AS, cs.AI, cs.SD]目的：自動ピッチ補正の性能向上
- ボーカル録音の品質は音楽制作において重要であり，ピッチ補正はその不可欠な要素である。
- 既存の自動ピッチ補正システムは，参照音程への依存や自然な表現の欠如といった課題を抱えている。
- 音楽的文脈を考慮することで，参照音程なしに自然で表現力豊かなピッチ補正を実現することを目指す。
- 提案手法BERT-APCは，既存の歌声トランスクリプションモデルと比較して，特に音程のずれが大きいサンプルにおいて高い正答率を示した。
- 主観評価（MOSテスト）において，BERT-APCはAuto-TuneやMelodyneよりも高い音質評価を得た。
- 音楽言語モデルを活用することで，参照音程なしの自動ピッチ補正を記号的な音楽的文脈に基づいて実現した。
Link: https://arxiv.org/abs/2511.20006
領域認識注意機構を持つグラフ拡張知識蒸留に基づく二重ストリームVision Transformer：説明可能なAIを用いた消化器疾患分類 [eess.IV, cs.CV]目的：消化器疾患の分類
- 消化器疾患の早期発見と正確な診断は，患者の予後を改善する上で極めて重要である。
- 内視鏡画像や病理画像の解釈には専門知識が必要であり，医師の負担が大きい。
- AI技術を用いて，医師の診断を支援し，診断精度と効率を向上させる。
- 本研究で提案するフレームワークは，データセット1とデータセット2でそれぞれ0.9978と0.9928の高い精度を達成した。
- AUCの平均値は1.0000であり，ほぼ完璧な識別能力を示す。
- Grad-CAM等の解釈性分析により，モデルの予測が臨床的に重要な組織領域と形態学的特徴に基づいていることが確認された。
Link: https://arxiv.org/abs/2512.21372