arXiv雑要約

画像・音声 - 2026/03/13 公開

信頼できる批評家：忠実な画像編集と生成のためのロバストな報酬モデリングと強化学習 [cs.CV]目的：忠実な画像生成と編集のためのロバストな報酬モデルの開発
- 画像編集とテキストからの画像生成における強化学習の重要性が増している。
- 現在の報酬モデルはハルシネーションを起こしやすく，ノイズの多いスコアを割り当てる。
- より正確で信頼性の高い報酬モデルによる忠実な画像生成と編集を実現すること。
- 提案手法FIRMは，高品質なデータキュレーションパイプラインと専門的な報酬モデルによって，ハルシネーションを軽減する。
- 編集においては一貫性に基づいた実行(CME)を，生成においては品質に基づいたアライメント(QMA)を重視した報酬戦略を採用する。
- FIRM-Qwen-EditとFIRM-SD3.5は既存モデルと比較して，忠実性と指示遵守において顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2603.12247
SciMDR：科学マルチモーダル文書推論のベンチマークと発展 [cs.CL, cs.AI, cs.CV]目的：科学マルチモーダル文書推論のための大規模学習データセット
- 科学研究の発展には，論文などの文書理解が不可欠である。
- 既存データセットは，規模，忠実性，現実性のバランスが課題であった。
- 現実的で複雑な文書推論を可能にするデータセットの構築。
- 本研究では，合成と再接地フレームワークを用いてSciMDRを構築した。
- SciMDRは，2万件の科学論文から30万組のQAペアを含む大規模データセットである。
- SciMDRでファインチューニングしたモデルは，複数の科学QAベンチマークで顕著な改善を示した。
Link: https://arxiv.org/abs/2603.12249
決定論的ビデオ深度推定：生成モデルの事前知識を活用した手法 [cs.CV]目的：ビデオ深度推定の性能向上
- ビデオ深度推定は，自動運転や拡張現実など，様々な応用分野で重要な役割を担う技術である。
- 既存手法では，生成モデルは幻覚やスケールドリフトを起こしやすく，識別モデルは大量のラベル付きデータが必要となる。
- 事前学習済みのビデオ拡散モデルを，単一パスで深度回帰を行うモデルに変換することで，この問題を解決する。
- DVDは，拡散モデルのタイムステップを構造的アンカーとして活用し，大域的な安定性と高周波詳細のバランスをとる。
- 潜在多様体整流（LMR）により，回帰による過剰な平滑化を抑制し，鮮明な境界と一貫性のある動きを復元する。
- グローバルアフィンコヒーレンスにより，ウィンドウ間でのずれを抑制し，複雑な時間的アライメントなしに長尺ビデオの推論を可能にする。
Link: https://arxiv.org/abs/2603.12250
拡散モデルにおける内生的な思考連鎖推論の拡張：EndoCoT [cs.CV, cs.CL]目的：拡散モデルにおける思考連鎖推論能力の拡張
- 近年のマルチモーダル大規模言語モデルの発展は，複雑なタスク解決に貢献している。
- 既存手法では，言語モデルの推論深度が不十分であり，思考連鎖が活性化されない。
- 言語モデルの推論能力を最大限に引き出し，段階的なノイズ除去を可能にすること。
- 提案手法EndoCoTは，反復的な思考ガイダンスモジュールにより言語モデルの思考能力を活性化する。
- 思考の軌跡がテキストによる正解に整合するように，終端思考接地モジュールを適用する。
- 多様なベンチマークテストにおいて，平均精度92.1%を達成し，既存手法を8.3%上回る性能を示す。
Link: https://arxiv.org/abs/2603.12252
注意の前に注視：自己回帰的な視線を利用した効率的でスケーラブルな動画理解 [cs.CV]目的：動画の冗長性を削減し，効率的かつスケーラブルな動画理解の実現
- 動画理解は，様々な応用において重要であり，その精度向上は社会に大きな利益をもたらす。
- 既存のマルチモーダル大規模言語モデルは，高解像度かつ長時間の動画処理に課題があり，計算コストが高い。
- AutoGazeを用いて冗長なパッチを削減し，計算効率を向上させることで，より大規模な動画処理を可能にする。
- AutoGazeは，動画の冗長性を削減し，ViTやMLLMの処理速度を最大19倍に向上させる。
- AutoGazeを用いて拡張したMLLMは，1000フレームの4K解像度動画の処理を可能にし，VideoMMEで優れた性能を発揮する。
- 新たに作成したHLVidベンチマークにおいて，AutoGazeを用いたMLLMは既存モデルを大きく上回り，4.5%の性能向上を達成する。
Link: https://arxiv.org/abs/2603.12254
Spatial-TTT：テスト時学習によるストリーミング視覚ベース空間知能 [cs.CV, cs.LG]目的：ストリーミング視覚情報からの空間知能の維持・更新機構
- 人間は視覚情報を通して空間を認識するため，その機構の解明は重要である。
- 長時間の動画ストリームにおける空間情報の選択・整理・保持が課題である。
- 動画から空間情報を効率的に抽出し，長期的な空間理解を可能にすること。
- Spatial-TTTは，テスト時学習を用いてモデルのパラメータを適応させ，長時間のシーン動画から空間情報を効率的に学習する。
- ハイブリッドアーキテクチャと，スライディングウィンドウ注意機構との並列処理による大規模チャンク更新を採用している。
- 3次元時空間畳み込みを用いた空間予測機構により，幾何学的対応と時間的連続性をモデルに学習させている。
Link: https://arxiv.org/abs/2603.12255
DreamVideo-Omni：潜在的ID強化学習による全方位モーション制御マルチ被写体動画カスタマイズ [cs.CV]目的：マルチ被写体動画の全方位モーション制御とカスタマイズ
- 大規模拡散モデルは動画合成を革新したが，複数被写体と多様なモーションの制御は課題である。
- 既存手法ではモーションの粒度が粗く，制御が曖昧でIDの劣化が起こりやすい。
- 複数被写体と多様なモーションの制御におけるID保存と制御精度の向上を目指す。
- DreamVideo-Omniは，被写体，大局的モーション，局所的ダイナミクス，カメラワークを統合的に制御する。
- IDの曖昧性解消のため，グループ・役割埋め込みによりモーション信号を特定IDに固定する。
- 潜在的ID報酬フィードバック学習により，IDの劣化を軽減し，人間が好む動画生成を可能にする。
Link: https://arxiv.org/abs/2603.12257
潜在的な色空間：高次元カオスの創発的秩序 [cs.RO, cs.LG, cs.AI, cs.CV]目的：画像生成における色の表現構造の解明
- 画像生成技術の発展に伴い，生成される画像の制御が重要となっている。
- 画像生成モデルでは，意味情報がどのように符号化されているかの理解が不足している。
- 潜在空間における色の表現構造を明らかにし，色の制御を可能にすること。
- FLUX.1の潜在空間における色の表現が，色相，彩度，明度を反映する構造を持つことを示した。
- この潜在色空間を用いて，色を予測し，明示的に制御する手法を開発した。
- FLUXにおいて，学習なしで潜在空間を操作するだけで色の制御が可能となった。
Link: https://arxiv.org/abs/2603.12261
ビデオストリーミング思考：VideoLLMは同時に視聴と思考を行う [cs.CV]目的：ストリーミングビデオ理解のための新たなパラダイム
- ビデオLLMはリアルタイムなインタラクションを支える重要な役割を担う。
- 既存手法は知覚処理に焦点を当てており，同期した論理的推論ストリームが欠如している。
- ビデオ再生中に推論を行うことで，リアルタイム性を維持しつつ，タイムリーな理解と一貫性のある認知を向上させる。
- 提案手法であるVideo Streaming Thinking（VST）は，オンラインベンチマークで高い性能を示す。例えば，StreamingBenchで79.5%，OVO-Benchで59.3%を達成した。
- Video-R1と比較して，VSTは15.7倍高速に応答し，VideoHolmesで+5.4%の改善を達成しており，高い効率性と汎用性を示す。
- VST-SFTとVST-RLを含む包括的な後学習パイプラインと，高品質なストリーミングQAペアを生成する自動トレーニングデータ合成パイプラインを導入した。
Link: https://arxiv.org/abs/2603.12262
GRADE：画像編集における分野知識に基づいた推論のベンチマーク [cs.RO, cs.CV]目的：分野知識に基づいた画像編集における推論能力の評価
- 画像編集において，より高度な理解と推論が求められる場面が増加している。
- 既存のベンチマークは自然画像に偏り，専門分野の知識を必要とする問題が少ない。
- 分野知識に基づいた推論能力を評価し，モデルの限界を明らかにすること。
- 本研究で開発されたGRADEは，自然科学から社会科学まで10の学術分野を網羅する画像編集ベンチマークである。
- 最新のモデル群の実験結果から，知識集約型の編集において大きな課題が残ることが示された。
- GRADEは，分野知識に基づいた画像編集と推論の研究開発の方向性を示すものである。
Link: https://arxiv.org/abs/2603.12264
OmniStream：連続ストリームにおける知覚，再構成，行動の習得 [cs.CV]目的：連続ストリーム環境における汎用的，因果的，物理構造化された表現
- リアルタイムな視覚エージェントには，多様な環境に対応可能な汎用的な視覚表現が不可欠である。
- 既存のビジョンモデルは，画像理解，時間モデリング，空間幾何学のいずれかに特化しており，統合性に課題がある。
- 多様な視覚入力からの知覚，再構成，行動を統合的に行う汎用的な視覚バックボーンの実現を目指す。
- OmniStreamは，因果的な時空間注意機構と3D-RoPEにより，ビデオストリームの効率的な逐次処理を可能にする。
- 静的・時間表現学習，ストリーミング幾何学的再構成，視覚言語整合を含むマルチタスクフレームワークによる事前学習が行われた。
- 固定されたバックボーンを用いても，画像・動画の性能評価，幾何学的再構成，ロボット操作において，専門モデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2603.12265
MM-CondChain: ビジュアルに基づいた深層構成的推論のためのプログラム検証済みベンチマーク [cs.CV]目的：視覚的に根拠付けられた深層構成的推論能力の評価
- GUI操作など，視覚情報に基づいた複雑なタスク遂行が求められる場面が増加している。
- 既存のベンチマークは，浅い構成や独立した制約に焦点を当てており，深層的な条件分岐を評価できていない。
- 視覚的証拠に基づいた複雑な条件を多層的に推論する能力を定量的に評価するベンチマークを構築する。
- MM-CondChainは，自然画像，データチャート，GUI軌跡の3つの視覚ドメインにおけるベンチマークを構築した。
- 強力なMLLMでもPath F1スコアは53.33%にとどまり，難易度の高いケースや深層構造，複雑な述語においてスコアが低下した。
- 深層構成的推論は，MLLMにおける依然として重要な課題であることが確認された。
Link: https://arxiv.org/abs/2603.12266
EVATok：効率的な視覚自己回帰生成のための適応的ビデオトークン化 [cs.CV]目的：効率的な視覚自己回帰生成のためのビデオトークン化手法
- 動画生成モデルの発展は，高品質な動画コンテンツの作成を可能にし，様々な応用分野への貢献が期待される。
- 既存のビデオトークン化手法は，動画の内容に関わらずトークン数を固定しており，計算効率が低い場合がある。
- 動画の内容に応じてトークン数を適応的に変化させることで，計算効率と生成品質の両立を目指す。
- EVATokは，各動画に最適なトークン割り当てを推定するフレームワークであり，効率性と品質の向上を実現した。
- 動画のセマンティックエンコーダとの統合により，UCF-101データセットにおいて，最先端の性能を達成した。
- 先行手法と比較して，平均トークン使用量を少なくとも24.4%削減することに成功した。
Link: https://arxiv.org/abs/2603.12267
大規模言語モデルは，部分的に偽造された音声における偽語の特定に役立つか？ [eess.AS, cs.SD]目的：部分的に偽造された音声における偽語の特定
- 近年の音声処理技術の発展と，偽造音声の検知の重要性が高まっている。
- 既存の偽造音声検知技術では，音声全体を対象とするものが多く，部分的な偽造に弱い。
- 大規模言語モデルを用いて，部分的に編集された音声における偽語を効率的に特定すること。
- 本研究では，次トークン予測による音声LLMを構築し，偽語の特定を試みた。
- 実験結果から，モデルは学習データから得られた編集スタイルのパターンを，偽語の特定に活用していることが示唆された。
- 特に，単語レベルの極性置換が重要な手がかりとなっているが，未知の編集スタイルへの汎化が課題である。
Link: https://arxiv.org/abs/2603.11205
結核自動スクリーニングのための咳活動検出 [eess.AS, cs.LG, cs.SD]目的：結核スクリーニングのための咳活動検出
- 呼吸器疾患の早期発見は公衆衛生上重要であり，特に結核のような感染症の蔓延を防ぐ上で不可欠である。
- 従来のスクリーニングは人的資源に依存し，大規模な検査実施が困難であるという課題があった。
- 本研究は，音声データから自動的に咳を検出し，効率的な結核スクリーニングツールを開発することを試みる。
- XLS-Rを用いて咳の開始点と終了点を自動的に決定した結果，テストセットにおいて平均適合率0.96，ROC曲線下面積0.99を達成した。
- XLS-Rの最初の3層のみを使用することで計算負荷とメモリ消費量を削減し，スマートフォンへの実装可能性を示した。
- XLS-Rは，オーディオスペクトログラム変換器(AST)やロジスティック回帰と比較して，テストセットの平均適合率でそれぞれ9%，27%高い性能を示した。
Link: https://arxiv.org/abs/2603.11241
MRI2Qmap：MRI駆動型ノイズ除去事前知識を用いた多パラメータ定量的マッピング [physics.med-ph, cs.CV, cs.LG]目的：多パラメータ定量的マッピングの再構成
- MRIは多様な組織特性を非侵襲的に評価でき，疾患診断や治療効果判定に不可欠である。
- 高速撮像ではエイリアシングアーチファクトが発生し，定量評価の精度を低下させる問題がある。
- ルーチンMRI画像から学習した事前知識を用いて，定量的MRIの再構成精度向上を目指す。
- MRI2Qmapは，ルーチンMRI画像から学習した空間領域構造事前知識を効果的に活用できることを示した。
- 本手法は，ground-truthデータなしで既存手法と同等またはそれ以上の性能を達成した。
- ルーチン臨床MRIデータを活用することで，定量的MRIの拡張性を高める新たなパラダイムを示唆する。
Link: https://arxiv.org/abs/2603.11316
SEMamba++：グローバル，ローカル，周期的なスペクトルパターンを活用する汎用音声復元フレームワーク [math.OC, cs.SY, eess.SY, eess.AS, cs.SD]目的：汎用音声復元のためのフレームワーク
- 音声復元は，様々な歪み下で複雑な音声構造を解釈する必要があり，その重要性は高い。
- 既存のState-Space Modelは，音声特有のスペクトル周期性や多解像度周波数分析に最適化されていない。
- スペクトル周期性や多解像度周波数分析を組み込み，音声復元の性能向上を目指す。
- 提案手法SEMamba++は，既存のベースラインモデルと比較して，最高の性能を達成した。
- 周波数特徴抽出ブロックFrequency GLPにより，周波数ビンの特性を効率的に活用した。
- 計算効率を維持しつつ，音声復元において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.11669
RAF：普遍的な音声合成のための相対的敵対的フィードバック [eess.AS, cs.SD]目的：GANボコーダーの訓練目標
- 音声合成技術は，人間のような自然な音声を生成する上で不可欠であり，その品質向上は重要な課題である。
- 既存のGANボコーダーは，汎化性能が低く，未知の状況への適応が困難であるという課題がある。
- RAFは，より汎用的な表現学習を促すことで，GANボコーダーの性能向上を目指す。
- RAFを適用したBigVGAN-baseは，LSGANで訓練されたBigVGANよりも少ないパラメータ（12％）で，知覚的な品質において優れた性能を示した。
- RAFは，自己教師あり学習モデルを活用し，識別器がサンプル品質を評価するのを支援することで，生成器により豊かな表現学習を促す。
- 複数のデータセットにおける実験結果は，RAFが客観的および主観的指標の両方で，GANベースのボコーダーの性能を向上させることを一貫して示している。
Link: https://arxiv.org/abs/2603.11678
発声および無声発話における表情筋電図を用いた感情の解読 [eess.AS, cs.AI, cs.SD]目的：発声および無声発話における感情の解読
- コミュニケーションにおいて感情表現は不可欠であり，そのメカニズム解明が重要である。
- 発話時の感情と，それを生み出す発声器官の動きとの関係は十分に解明されていない。
- 表情筋電図を用いて感情を解読し，感情を認識するインターフェース開発を目指す。
- 表情筋電図から感情を高い精度で識別可能であり，特にフラストレーションの識別精度は0.845というAUC値を示した。
- 感情の識別は，発声の有無にかかわらず，表情筋の活動パターンに一貫して現れることが示された。
- 本研究は，無声発話においても感情認識が可能な，新たなインターフェース開発の可能性を示唆する。
Link: https://arxiv.org/abs/2603.11715
不連続画像レジストレーションのための微分同型群イドイドと代数的枠組み [math.OC, cs.SY, eess.SY, math.GR, cs.CV]目的：不連続なスライディング移動を伴う区分的微分同型画像レジストレーションの数学的枠組み
- 医療画像解析などにおいて，画像間の正確な対応付けは不可欠であり，その応用範囲は広い。
- 従来のLDDMM法は，速度場の連続性と滑らかさを仮定するため，不連続なスライディング移動の扱いに限界があった。
- 微分同型群イドイドを用いることで，スライディング境界における不連続性を許容しつつ，均一領域内の微分同型性を維持する。
- 本研究では，微分同型群イドイドと代数的枠組みを導入することで，不連続な画像レジストレーションを可能にする新しい手法を提案した。
- 関連する数学構造，特にリー代数と双対リー代数について厳密な解析を行い，不連続変形を支配するオイラー・アーノルド方程式を導出した。
- 数値実験の結果，提案手法の有効性と効率性が確認された。
Link: https://arxiv.org/abs/2603.11806
パノラマX線写真を用いた第三大臼歯と下顎管の関連性評価：局所学習，集中学習，連合学習による比較 [eess.IV, cs.CV]目的：第三大臼歯と下顎管の重積の有無の自動分類
- 下顎第三大臼歯の智歯周囲の神経損傷リスク評価は歯科診療において重要である。
- パノラマX線写真での評価は主観に依存し，CT撮影の必要性を判断しにくい。
- AIを活用し，より客観的で効率的な重積判定を支援することを目指す。
- 集中学習が最も高い性能を示し（AUC 0.831，正解率0.782），連合学習も局所学習を上回った。
- 連合学習は患者データを共有せずに多施設共同研究を可能にするプライバシー保護の代替手段となり得る。
- 局所学習モデルは過学習の傾向が見られ，集中学習および連合学習モデルはより解剖学的に焦点を絞った注意を示した。
Link: https://arxiv.org/abs/2603.11850
AS-Bridge：次世代天体観測サーベイ間の橋渡しを行う双方向生成フレームワーク [math.CO, cs.CG, cs.DM, astro-ph.IM, cs.CV]目的：地上ベースと宇宙ベースの観測データの間の翻訳
- 大規模サーベイは宇宙の理解を深める上で不可欠であり，観測データの統合が重要である。
- LSSTとEuclidのような異なる観測特性を持つサーベイ間の共同解析には課題が多い。
- 異なるサーベイ間のデータ統合を可能にし，観測データの補完と希少イベントの検出を目指す。
- AS-Bridgeは，LSSTとEuclidの観測データを繋ぐ拡散モデルを学習することで，サーベイ間の翻訳を実現した。
- このモデルは，重複領域を利用して確率分布を明示的にモデル化し，単一サーベイ分析を超える科学的可能性を示した。
- 欠損データの予測やサーベイ間のイベント検出など，将来のLSST-Euclid共同データパイプラインへの応用が期待される。
Link: https://arxiv.org/abs/2603.11928
Dr. SHAP-AV：Shapley値を用いた音声視覚音声認識におけるモダリティ寄与の解明 [eess.AS, cs.CV, cs.SD]目的：音声視覚音声認識におけるモダリティ寄与の分析
- 音声認識のロバスト性を向上させるため，音声と視覚情報の効果的な利用が重要である。
- モデルがどのように音声と視覚情報をバランスさせるかの理解が不足している。
- ノイズ環境下でのモダリティの依存度変化を明らかにし，診断手法を確立する。
- モデルはノイズ環境下で視覚情報への依存度を高める一方，深刻な劣化下でも高い音声寄与を維持する。
- モダリティバランスは生成過程で変化し，ノイズ下では時間的整合性が保たれる。
- SNRがモダリティの重み付けを決定する主要因であり，音声へのバイアスが示唆された。
Link: https://arxiv.org/abs/2603.12046
効率的なグループ同変畳み込みニューラルネットワークのためのモンテカルロ拡張分解フィルタの適応的集約 [quant-ph, cond-mat.dis-nn, cs.ET, physics.optics, cs.NI, cs.CC, cs.CG, math.GN, cs.CY, cs.CV]目的：グループ同変畳み込みニューラルネットワークの効率化
- CNNのデータ効率と性能向上には，パラメータ共有が重要である。
- パラメータ共有戦略は計算負荷を増大させ，深層ネットワークへの応用を阻害する。
- パラメータ共有を避け，効率的なネットワーク構築を目指す。
- 本研究では，確率的に拡張された分解フィルタの加重和による適応的集約を提案する。
- 提案手法は連続群と離散群の両方に適用可能であり，モンテカルロサンプリングやブートストラップリサンプリングを用いる。
- 画像分類やノイズ除去タスクにおいて，パラメータ共有型ネットワークや標準CNNよりも優れた性能を示す。
Link: https://arxiv.org/abs/2305.10110
大規模な樹冠高度推定 [cs.CV, cs.AI, cs.LG]目的：地球規模での樹冠高度推定のための枠組み
- 森林は地球規模の炭素循環や生態系において重要な役割を担うため，その高度を把握することが重要である。
- 既存の地球規模の樹冠高度マップは，精度が十分ではなく，改善の余地がある。
- 衛星データを用いて，より高精度な地球規模の樹冠高度マップを作成し，生態学的分析に貢献すること。
- 提案手法は，衛星データを用いて地球規模の樹冠高度を高精度に推定できる。
- 平均絶対誤差（MAE）は全体で2.43メートル，5メートルを超える木では4.45メートルであり，既存のマップと比較して大幅な改善が見られた。
- 本研究の成果は，森林やバイオマスを地球規模でモニタリングするための基盤となる。
Link: https://arxiv.org/abs/2406.01076
ブラインド画像超解像のための完全な劣化詳細の保存 [cs.CV]目的：ブラインド画像超解像における劣化情報の正確な再現
- 画像超解像は，実用的な画像処理技術であり，その性能向上が強く求められている。
- 現実世界の画像には多様な劣化が含まれるため，劣化モデルの推定が困難である。
- 学習時に劣化情報を正確に捉え，超解像の性能を向上させることを目指す。
- 提案手法では，劣化画像を再構成することで，完全な劣化情報を表現にエンコードする。
- 分布整合損失を導入することで，劣化表現の学習を促進し，よりロバストな特徴を獲得する。
- 劣化情報を考慮したMambaモジュールにより，広範囲の依存関係を効率的にモデル化し，超解像の精度を向上させる。
Link: https://arxiv.org/abs/2407.01299
外観に基づく視線追跡における不確かさ推定の精度向上：確率的評価と較正 [cs.CV]目的：外観に基づく視線追跡における不確かさ推定の精度向上
- 視線追跡は，ヒューマン・コンピュータ・インタラクションや行動分析において不可欠な技術である。
- 既存手法では，不確かさ推定が訓練データに過剰適合し，実環境での性能が低下することが課題である。
- 訓練データのバイアスを軽減し，より信頼性の高い不確かさ推定を実現することを目的とする。
- 本研究では，予測と観測のカバー確率を比較する厳密な評価指標を提示し，不確かさ推定の定量的な評価を可能にした。
- 確率較正に基づく補正戦略を提案し，訓練されたモデルの不確かさ推定におけるバイアスを軽減することに成功した。
- 2つの視線推定データセットを用いた実験により，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2501.14894
音声を中心とするタスクのためのオーディオ言語モデル：体系的サーベイ [cs.SD, cs.MM, eess.AS]目的：オーディオを中心とするマルチモーダルコンテンツの処理，理解，および推論
- 音声処理技術は，多様な応用分野において不可欠であり，その発展が求められている。
- 従来の教師あり学習では，複雑な実世界の音声シーンに対応することが困難であった。
- オーディオ言語モデルの現状を整理し，今後の研究方向性を示唆することを目的とする。
- 本研究は，音声，音楽，および音響の分野におけるオーディオ言語モデルの研究を包括的にレビューした。
- モデルアーキテクチャや学習目標を含む，オーディオ言語モデルの基礎に関する統一的な分類を提示した。
- 様々な研究側面間の相互促進と制約を捉え，評価，限界，懸念点，および有望な方向性に関する研究状況を明らかにした。
Link: https://arxiv.org/abs/2501.15177
大規模樹冠高度推定における時間的変動の捉え方 [cs.LG, cs.AI, cs.CV]目的：大規模な樹冠高度マップの時間変化の把握
- 地球温暖化が進む中，森林構造や地上バイオマス推定，生態系の変化監視に不可欠である。
- 高精度な大規模樹冠高度マップの作成が困難であり，時間的な変化を捉えることは特に課題であった。
- 衛星データを用いて高精度かつ大規模な時間変化を捉えた樹冠高度マップの構築を目指す。
- 本研究では，Sentinel-1とSentinel-2の時系列衛星データを用いて，高解像度な樹冠高度マップを生成する新たな手法を提案した。
- ヨーロッパ大陸の2019年から2022年までの10m解像度時間的樹冠高度マップを初めて作成し，既存研究より高精度な推定を実現した。
- 構築したパイプラインと生成したマップは公開されており，森林の広範囲なモニタリングや生態学的分析を支援する。
Link: https://arxiv.org/abs/2501.19328
推測時における予測世界モデルを用いた生成型ロボットポリシーの強化 [cs.RO, cs.CV, cs.LG]目的：事前学習済み行動クローニングポリシーの推測時における性能向上
- ロボットの自律的な行動を実現するには，環境の変化に適応し，効率的な計画を立てる能力が不可欠である。
- 既存の行動クローニングは，訓練データに依存するため，未知の環境や状況への汎化が課題である。
- 推測時に世界モデルを活用することで，再学習なしにポリシーを適応させ，ロバスト性を向上させる。
- GPCは，行動条件付きの世界モデルを用いて，拡散ポリシーによって生成された行動提案を評価・洗練する軽量なオンライン計画を可能にする。
- 多様なロボット操作タスクにおいて，GPCは標準的な行動クローニングを上回り，他の推測時適応手法と同等以上の性能を示す。
- GPCは，元のポリシーを固定したまま，テスト時の適応を実現する生成的な事前知識と予測的な先見性を組み合わせている。
Link: https://arxiv.org/abs/2502.00622
SegAnyPET：陽電子放出断層撮影画像からの汎用的なプロンプトによるセグメンテーション [cs.CV]目的：陽電子放出断層撮影画像からの汎用的なプロンプトによるセグメンテーションのためのモダリティ特化型3D基盤モデルの開発
- 陽電子放出断層撮影は，生理学的プロセスを可視化する重要な分子イメージング技術であり，現代医療診断に不可欠である。
- 既存のセグメンテーション手法は，注釈データの不足や質のばらつきにより，汎化性能が低く，臨床応用が困難である。
- 本研究は，PET画像セグメンテーションにおける注釈品質のばらつきを克服し，汎用的なセグメンテーションを実現することを目指す。
- SegAnyPETは，わずかなプロンプトポイントのみで，既知および未知の臓器をセグメンテーションできる。
- 既存の基盤モデルやタスク固有の完全教師ありモデルと比較して，高い精度と強力な汎化性能を示す。
- 大規模なPETセグメンテーションデータセットPETS-5k（5,731画像，130万枚の2D画像）を構築し，セグメンテーション学習に活用した。
Link: https://arxiv.org/abs/2502.14351
拡散モデルを用いた転置に基づく再構成不要異常検知：InvAD [cs.CV]目的：拡散モデルを用いた異常検知手法の効率性と精度向上
- 画像認識技術の発展に伴い，異常検知の重要性が増している。製造や医療分野での品質管理に不可欠である。
- 従来の再構成に基づく異常検知は，ノイズ強度の調整や計算コストが高いという課題があった。
- 潜在空間でのノイズ化による異常検知で，再構成処理を省略し，効率性と精度を両立することを目指す。
- InvADは，RGB空間での復元に依存せず，潜在空間でのノイズ化によって異常を検知する新しいアプローチである。
- DDIM inversionを利用し，少ないステップ数で効率的な推論を実現し，従来のDiffusionモデルよりも高速化を達成した。
- 4つのベンチマークデータセットにおいて，最先端の性能と約2倍の推論速度の高速化を実証した。
Link: https://arxiv.org/abs/2504.05662
変分モデルに基づく調整済みUNetによる画像セグメンテーション：深層変分フレームワーク [cs.CV]目的：画像セグメンテーション手法の性能向上
- 画像認識分野において，正確な画像セグメンテーションは，医療診断や自動運転など，様々な応用において不可欠である。
- 従来の変分モデルはパラメータ設定に敏感で計算コストが高い。深層学習はデータ量が必要で解釈性が低いという課題がある。
- 変分モデルと深層学習の長所を組み合わせ，高精度かつロバストな画像セグメンテーションを実現する。
- 提案手法VM_TUNetは，既存の手法と比較して，ベンチマークデータセットにおいて優れたセグメンテーション性能を示した。
- 特に，微細な境界の識別において，顕著な改善が見られた。
- データ駆動型オペレータの導入により，手動パラメータ調整の必要性を低減し，高精度な境界保持を実現した。
Link: https://arxiv.org/abs/2505.05806
AudioTrust：音声大規模言語モデルの多面的な信頼性評価 [cs.SD, cs.AI, cs.CL, eess.AS]目的：音声大規模言語モデルの信頼性評価フレームワーク
- 音声LLMの急速な発展に伴い，安全性や倫理的な問題が重要視されている。
- 既存の評価方法はテキスト中心で，音声特有の脆弱性に対応できていない。
- 音声の音響特性を利用した操作によるリスクを評価し，信頼性を向上させる。
- AudioTrustは，公平性，幻覚，安全性，プライバシー，堅牢性，認証の6つの側面を評価するフレームワークである。
- 多様な音声データを用いて14種類の最先端モデルを評価し，音声LLMの限界と課題を明らかにした。
- 本研究は，音声LLMの安全かつ信頼性の高い利用に向けた重要な知見を提供する。
Link: https://arxiv.org/abs/2505.16211
一貫性の罠：MLLMが作り出す物語が操作された視覚的文脈を利用する場合 [cs.CV]目的：マルチモーダル大規模言語モデル（MLLM）による情報操作の検出と根拠付け
- AI生成による偽情報の拡散を防ぐ上で，マルチメディア操作の検出は不可欠である。
- 既存手法はルールベースのテキスト操作に偏っており，MLLMが生成する巧妙な偽情報に対応できていない。
- MLLMが生成する，視覚的操作と整合性のある説得力のある偽情報を検出する。
- 本研究では，MLLMを活用して高リスクな偽情報を生成する新しい敵対的パイプラインを提案した。
- MLLM駆動の合成マルチモーダル（MDSM）データセットを構築し，画像編集とMLLMによるテキスト生成を組み合わせた。
- Artifact-aware Manipulation Diagnosis via MLLM (AMD)フレームワークにより，MDSM問題に対する優れた汎化性能を実証した。
Link: https://arxiv.org/abs/2505.17476
TextFlux: OCRを用いない高精度多言語シーンテキスト合成のためのDiTモデル [cs.CV]目的：高精度な多言語シーンテキスト合成
- シーンテキスト認識は，画像からテキスト情報を抽出する上で重要であり，様々な応用分野で利用されている。
- 既存手法は，大規模なアノテーションデータや複雑なモジュールに依存し，多言語対応が課題となっていた。
- OCRを用いないシンプルな構成で，少ないデータでも多言語に対応可能な合成手法を開発すること。
- TextFluxは，OCRエンコーダーを必要としないシンプルなDiTベースのフレームワークである。
- 少ないデータ（1,000サンプル未満）でも，低リソース環境下での多言語対応に優れている。
- TextFluxは，競合手法と比較して，学習に必要なデータ量を1%に削減し，柔軟な複数行テキスト生成を可能にする。
Link: https://arxiv.org/abs/2505.17778
拡散ブレンディング：拡散モデルにおける推論時の複数嗜好性アラインメント [cs.AI, cs.CV]目的：拡散モデルと下流タスク目標（美観，テキスト画像整合性等）のアラインメント
- 拡散モデルの応用範囲拡大には，多様な目的やユーザー嗜好への適応が不可欠である。
- 既存手法は単一の報酬関数に依存し，複数の対立する目的を同時に満たすことが困難である。
- 推論時にユーザー指定の報酬と正則化の線形結合に対応し，追加のファインチューニングなしにアラインメントを実現する。
- Diffusion Blendは，ファインチューニングされたモデルの逆拡散プロセスをブレンドすることで，推論時の複数嗜好性アラインメントを実現する。
- DB-MPAとDB-KLAという2つのアルゴリズムを提案し，複数報酬アラインメントとKL正則化制御を可能にする。
- 実験結果から，Diffusion Blendは既存手法を上回り，個別にファインチューニングされたモデルと同等以上の性能を示す。
Link: https://arxiv.org/abs/2505.18547
ReasonMap：都市交通図を用いた詳細な視覚的推論に向けて [cs.CV, cs.AI, cs.CL]目的：都市交通図を用いた視覚的推論能力の評価
- 視覚情報と言語情報を統合した推論は，複雑な現実世界の問題解決に不可欠である。
- 既存のベンチマークは，詳細な視覚的推論能力を十分に評価できていない。
- 都市交通図という複雑な視覚情報を必要とするタスクで，モデルの推論能力を測る。
- ReasonMapは，30都市の交通図と1,008の質問・回答ペアから構成される新しいベンチマークである。
- オープンソースモデルでは基本バージョンが，クローズドソースモデルでは推論に特化したバージョンが優れた性能を示した。
- 視覚的な情報に基づいた直接的な位置づけが，高い性能に必要であることが確認された。
Link: https://arxiv.org/abs/2505.18675
CreatiDesign：クリエイティブなグラフィックデザインのための統一されたマルチ条件拡散Transformer [cs.CV]目的：クリエイティブなグラフィックデザインの自動生成
- 広告，マーケティング等において視覚的コミュニケーションは重要であり，デザインの自動化が求められている。
- 既存手法では，複数条件の指定への対応や，条件間の調和を保つことが課題となっていた。
- 多様なデザイン要素を統合し，ユーザーの意図に忠実なグラフィックデザインを生成することを目指す。
- CreatiDesignは，ベース拡散モデルの変更を最小限に抑えつつ，異質なデザイン要素を柔軟かつ正確に統合するアーキテクチャを実現した。
- マルチモーダルアテンションマスク機構により，各条件が指定領域を正確に制御し，条件間の干渉を回避することに成功した。
- 40万サンプルからなるマルチ条件アノテーション付きデータセットと包括的なベンチマークを新たに開発し，ユーザーの意図への忠実度が向上した。
Link: https://arxiv.org/abs/2505.19114
屋外動的シーンにおける新規視点合成のためのニューラルレーダフィールド [cs.CV]目的：屋外動的シーンにおける新規視点合成のためのニューラルレーダフィールドの構築
- 自動運転等の実用化において，環境変化に強いセンサが不可欠であるため，レーダの活用が重要視されている。
- 従来のRGBやLiDARを用いるニューラルフィールドは，悪天候下で性能が低下し，実環境での頑健性に課題がある。
- レーダの特性を生かし，動的オブジェクトを含む屋外環境下での高精度な新規視点合成を可能にすることを目指す。
- 提案手法RF4Dは，レーダデータを用いて屋外動的シーンの新規視点合成を可能にするニューラルフィールドフレームワークである。
- RF4Dは，時間情報を明示的に組み込み，動的オブジェクトの動きをより正確にモデル化することで，時間的な一貫性を実現している。
- 実験結果から，RF4Dは既存手法を大幅に上回り，特に動的な屋外環境において優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2505.20967
3DGEER：汎用カメラ向けに正確かつ効率的な3Dガウスレンダリング [cs.GR, cs.CV]目的：3Dガウスレンダリングの正確性と効率性の向上
- リアルタイムレンダリング技術は，VR/AR等の分野で不可欠であり，高品質な映像生成が求められている。
- 既存の3Dガウススプラッティングは，広視野角カメラ下で精度が低下する問題がある。
- 任意のカメラモデル下で正確かつ効率的なガウスレンダリングを実現し，精度向上を目指す。
- 3DGEERは，幾何学的に正確かつ効率的なガウスレンダリングフレームワークを提案している。
- 提案手法は，既存の正確なレイベースラインよりも5倍高速に動作し，未学習の広視野角にも対応可能である。
- ピンホールカメラと魚眼レンズのデータセットにおいて，既存手法をあらゆる指標で上回る性能を示した。
Link: https://arxiv.org/abs/2505.24053
動画フレーム補間の進展に関する包括的な調査 [cs.CV]目的：動画フレーム補間技術の進展の体系的な整理と現状把握
- 映像処理技術において，滑らかな動画生成は重要な課題であり，VFIはそのための基盤技術である。
- 既存手法では，大きな動き，遮蔽，照明変化などに対し，自然な補間が困難である。
- VFIの主要な課題と最新動向を整理し，今後の研究方向性を示すことを目指す。
- 本調査では，250以上の代表的な論文を網羅し，VFI手法を設計原則とアーキテクチャに基づいて体系的に分類した。
- VFIをCTFI（中心時間フレーム補間）とATFI（任意の時間フレーム補間）の2つの主要な学習パラダイムに分類し，それぞれの特徴を分析した。
- VFIにおける課題（大規模運動，オクルージョン，照明変化，非線形運動）と，標準データセット，損失関数，評価指標についてもレビューした。
Link: https://arxiv.org/abs/2506.01061
SOTA：複数基盤モデルを用いたゼロショット分類のための自己適応的最適輸送 [cs.HC, cs.CV]目的：複数基盤モデルの出力統合によるゼロショット分類性能向上
- 近年，強力なゼロショット分類能力を持つ基盤モデルが注目されている。
- 既存モデルは，テキスト情報への依存や，セマンティックな整合性の欠如といった課題がある。
- 異なる基盤モデルの特性を活かし，データセットへの依存性を軽減することを目指す。
- 提案手法SOTAは，複数の基盤モデル出力を自己適応的に統合するアンサンブルフレームワークである。
- SOTAは，事前学習データセットの違いによる性能変動を抑制し，汎化性能を高める。
- 自然画像，病理画像，リモートセンシングなど，多様なドメインにおいて有効性が確認された。
Link: https://arxiv.org/abs/2506.13723
視覚生成のためのピラミダルパッチ化フロー [cs.CV]目的：視覚生成における計算コスト削減と性能向上
- 画像生成モデルの発展は，高解像度かつ高品質な画像を効率的に生成することを目指している。
- 拡散モデルは計算コストが高く，特に高解像度画像生成において課題となる。
- ノイズレベルに応じたパッチサイズ調整により，計算効率と生成品質の両立を図る。
- 提案手法PPFlowは，ノイズレベルに応じてパッチサイズを動的に変化させることで，計算コストを削減する。
- SiT-B/2と比較して，2段階パッチ化で1.6倍，3段階パッチ化で2.0倍の推論速度向上を達成した。
- 事前学習済みの拡散モデルからの転移学習により，さらに高い性能と短い学習時間を実現した。
Link: https://arxiv.org/abs/2506.23543
ニューラルOS：ニューラル生成モデルによるオペレーティングシステムのシミュレーションに向けて [cs.CV, cs.AI, cs.CL, cs.HC, cs.LG]目的：オペレーティングシステムのGUIシミュレーション
- GUIを用いたインタラクションは，コンピュータ利用において不可欠であり，その自動化・効率化は重要課題である。
- 既存のシミュレーション手法は，計算コストが高く，複雑なGUIの再現が困難であるという課題がある。
- ニューラルネットワークを用いて，リアルタイムかつ高精度なGUIシミュレーションを実現することを目指す。
- NeuralOSは，ユーザーの入力に応じて画面フレームを直接予測することで，オペレーティングシステムのGUIをシミュレーションできる。
- マウス操作やアプリケーション起動などの状態遷移を正確に捉え，現実的なGUIシーケンスを生成することが確認された。
- 合成データを用いた学習により，インストールされていないアプリケーション（Doomなど）のシミュレーションも可能であることが示された。
Link: https://arxiv.org/abs/2507.08800
MIMIC：モデル解釈と概念化のための多imodal逆変換 [cs.CV]目的：ビジョン言語モデルの解釈と概念化
- 近年，ビジョン言語モデルの性能向上は目覚ましいが，その内部構造は不透明である。
- モデルの複雑さから，その意思決定プロセスを理解することが困難である。
- ビジョン言語モデルの内部表現を逆変換することで，解釈可能性を高める。
- 提案手法MIMICは，ビジョン言語モデルの内部エンコーディングを逆変換するフレームワークである。
- MIMICは，特徴量アラインメントと複数の正則化項を用いることで，高品質な逆変換を実現している。
- 様々な長さの自由形式の出力に対して，視覚概念の逆変換を定量的に，そして定性的に評価した結果，有効性が確認された。
Link: https://arxiv.org/abs/2508.07833
表情認識のためのパーソナライズされた特徴変換：効率的なソースフリードメイン適応法 [cs.CV, cs.AI]目的：表情認識における，ソースデータを用いないドメイン適応による性能向上
- 表情認識は，人間とコンピュータのインタラクションやヘルスケアなどに応用され，重要な技術である。
- 深層学習モデルは微妙な表情や個人差に弱く，実世界での性能が制限される場合がある。
- プライバシー保護と効率性を両立し，ラベルなしターゲットデータのみでモデルを適応させることを目指す。
- 提案手法SFDA-PFTは，潜在空間で特徴を変換することで，ノイズの多い画像生成を回避し，計算コストを削減する。
- SFDA-PFTは，BioVid，StressID，BAH，Aff-Wild2の実験において，最先端のSFDA手法を安定的に上回る性能を示した。
- 個人特有のスタイル特徴を変換しながら表情情報を保持する翻訳器を事前学習し，ターゲットデータへ適応させる。
Link: https://arxiv.org/abs/2508.09202
AI生成画像検出のための意味情報に基づいた再構成誤差 [cs.CV]目的：AI生成画像の検出
- 画像生成技術の急速な進歩に伴い，悪用の懸念が高まっているため，検出技術の重要性が増している。
- 既存手法は，学習に使用した生成モデルに過適合するため，未知のモデルで生成された偽画像に対する性能が低下する。
- 本研究は，生成モデルに依存しない，よりロバストな偽画像検出手法の開発を目指す。
- 提案手法である意味情報に基づいた再構成誤差(SARE)は，画像とキャプションに基づく再構成画像の間の意味的差異を測定する。
- SAREは，実画像と偽画像における意味的変化の違いを利用し，多様な生成モデルに対して汎化性能に優れる。
- 実験結果から，SAREを統合した手法が既存手法を上回り，GenImageやForenSynths等のベンチマークで高い検出性能を示すことが確認された。
Link: https://arxiv.org/abs/2508.09487
エージェントによるデザインレビューシステム [cs.AI, cs.CV, cs.LG, cs.MA, cs.MM]目的：グラフィックデザインの評価
- デザインの質は製品の成功に不可欠であり，客観的な評価手法が求められている。
- 専門家によるレビューは主観的であり，一貫性や再現性に課題がある。
- エージェントを活用し，デザインの多角的評価と具体的な改善提案を実現する。
- 提案システムAgenticDRSは，複数のエージェントが協調してデザインを分析する。
- グラフマッチングに基づく例示選択とプロンプト拡張により，エージェントはデザインを理解する。
- DRS-BENCHベンチマークを用いた実験により，AgenticDRSの有効性が確認された。
Link: https://arxiv.org/abs/2508.10745
ロバストな汎用およびワイヤーフレーム線分検出のための適応二重制約線アグリゲーション [cs.CV]目的：汎用およびワイヤーフレーム線分検出の両タスクに対応可能なロバストなフレームワーク
- 画像解析における線分検出は，物体認識やシーン理解に不可欠な要素である。
- 従来の線分検出手法は，汎用性とワイヤーフレームのどちらかに特化しており，両方のタスクで高い性能を発揮することが困難である。
- 汎用性とワイヤーフレームの線分検出の両方において，堅牢で効率的な手法を開発すること。
- 本研究では，適応二重制約線アグリゲーション(ADLA)アルゴリズムに基づくロバストなフレームワークを提案した。
- ADLAは，方向の一貫性と，適応的に推定された線モデルへの直交距離の制約という二つの幾何学的制約に基づいてピクセルを線分に集約する。
- 実験の結果，ADLAは既存の手法と比較して競争力のある性能を示し，その堅牢性，汎用性，実用性が確認された。
Link: https://arxiv.org/abs/2508.19742