arXiv雑要約

画像・音声 - 2026/03/16 公開

NI-Tex：非等距画像ベースの衣服テクスチャ生成 [cs.CV, cs.AI]目的：衣服テクスチャ生成のための技術
- 3D衣服モデリングにおいて，リアリティの高い表現が求められているため。
- 既存のテクスチャは多様性に乏しく，リアルな表現が難しいという課題がある。
- 非等距な画像と3Dモデル間のテクスチャ生成における制約を解消し，高品質なテクスチャを生成する。
- 本研究では，物理シミュレーションによる衣服動画データセットを構築し，多様な変形下での一貫した幾何学と材質の情報を利用することで，ロバストなテクスチャ学習を可能にした。
- Nano Bananaを用いた非等距画像編集により，異なるトポロジーを持つ画像と幾何学間の信頼性の高いテクスチャ生成を実現した。
- 不確実性に基づいた視点選択と再重み付けによる反復ベイク手法により，シームレスで実用的なPBRテクスチャを生成した。
Link: https://arxiv.org/abs/2511.18765
レーダーシーン理解のためのビジョン言語モデルアプローチ：RLM [cs.CV]目的：レーダーシーンの統一的な表現学習
- 悪天候や長距離条件下でも信頼性の高い知覚を提供するレーダー技術は，自動運転等の重要な要素である。
- 既存の機械学習アプローチは，タスクごとに異なるアーキテクチャや学習目標を持つため，汎用性に欠ける。
- レーダーと自然言語を組み合わせ，空間的な推論能力を備えたシーン表現を構築し，汎化性能の向上を目指す。
- 本研究で開発したSpatially-Grounded CLIP(SG-CLIP)は，従来のCLIPと比較して最大50%のF1スコア改善を達成した。
- セグメンテーションタスクにおいても，SG-CLIPは21%のAP向上を示し，言語による空間的な構造化表現の有効性を実証した。
- 構造化されたキャプションフレームワークと空間認識評価指標により，レーダーシーンのより正確な理解が可能になった。
Link: https://arxiv.org/abs/2511.21105
AVFakeBench：AV-LMMsのための包括的なオーディオ・ビデオ偽造検出ベンチマーク [cs.CV]目的：オーディオ・ビデオ偽造検出のベンチマーク
- 近年，AI技術の発展に伴い，高度な偽造技術が横行しており，社会への影響が懸念される。
- 既存のベンチマークは，特定の偽造手法に偏っており，現実世界の多様な偽造に対応できない。
- 多様な偽造手法に対応し，より現実的な偽造検出を可能にするベンチマークの構築が求められる。
- AVFakeBenchは，人間の被写体と一般的な被写体を含む，多様な偽造セマンティクスを網羅した包括的なベンチマークである。
- 11のオーディオ・ビデオ大規模言語モデル(AV-LMMs)と2つの既存手法を用いて評価を行い，AV-LMMsの潜在能力と弱点を明らかにした。
- 本ベンチマークは，バイナリ判断，偽造タイプ分類，偽造詳細選択，説明的推論を含むマルチタスク評価フレームワークを提供する。
Link: https://arxiv.org/abs/2511.21251
Multi-Crit：多元的評価基準への従順性に関するマルチモーダルジャッジのベンチマーク [cs.CV]目的：多元的な評価基準への従順性を評価するためのベンチマーク
- マルチモーダルモデルの評価はAIの発展に不可欠であり，人間との整合性が重要。
- 既存のモデルは多様かつ詳細な評価基準への対応が不十分である。
- 多元的な基準に沿った信頼性の高い判断を可能にするマルチモーダルAI評価の基盤を構築する。
- Multi-Critベンチマークは，オープンエンド生成と検証可能な推論タスクを網羅したデータセットである。
- プロプライエタリモデルは，特にオープンエンド評価において，多元的基準への一貫した従順性に苦戦している。
- オープンソースモデルは，多様な基準への柔軟な対応において，さらに遅れをとっている。
Link: https://arxiv.org/abs/2511.21662
GeoZero：地理空間シーンにおけるゼロからの推論を促す [cs.CV]目的：地理空間シーンにおける推論能力の向上
- 地理空間情報の理解は，防災，環境監視，都市計画など様々な分野で不可欠である。
- 既存手法は，大規模な注釈コストや人間のバイアスにより，多様な推論を妨げている。
- GeoZeroは，事前定義された推論データなしで，地理空間推論を可能にすることを目指す。
- GeoZeroフレームワークは，地理空間知識の獲得と深層推論の促進を実現した。
- A$^2$GRPOは，モデル自身の回答に基づいて推論プロセスを正規化し，多様かつ正確な思考を促す。
- 複数のベンチマークにおいて，既存手法を上回り，汎用的な推論能力を獲得した。
Link: https://arxiv.org/abs/2511.22645
MeanFlowにおける曲率のボトルネック克服 [cs.CV, cs.AI]目的：MeanFlowの性能向上
- 生成モデルの発展は，画像生成をはじめとする様々な応用において重要な課題である。
- MeanFlowは高速な生成が可能だが，複雑な軌跡により学習が困難になるという課題がある。
- MeanFlowの学習における曲率によるボトルネックを解消し，生成性能を向上させる。
- 提案手法Rectified MeanFlowは，直線的な経路に着目し，学習を容易にすることで，MeanFlowのFIDを大幅に改善した。
- 既存のMeanFlowモデルのFIDを30.9から8.6に，また2-rectified flow++よりも33.4%改善し，学習速度も向上した。
- 本研究は，生成フローの学習における最適化の困難さは，曲線的な軌跡に起因する部分があることを示唆している。
Link: https://arxiv.org/abs/2511.23342
NavForesee：階層的計画と二重地平線ナビゲーション予測のための統一されたビジョン言語ワールドモデル [cs.RO, cs.CV]目的：複雑な自然言語指示に基づく，長期にわたるナビゲーションタスクの実現
- AI分野において，現実世界でのナビゲーションは重要であり，多様な応用が期待される。
- 既存の手法では，未知の環境における長期的な計画立案が難しく，失敗率が高い。
- 本研究は，言語計画と予測ワールドモデルを統合し，よりロバストなナビゲーションを実現する。
- NavForeseeは，言語指示の分解，進捗状況の追跡，および次のサブゴールの策定を行うことでナビゲーションを理解する。
- 環境の短期的な変化や長期的なナビゲーションのマイルストーンを予測する生成的なワールドモデルとしての機能も備えている。
- R2R-CEおよびRxR-CEベンチマークにおいて，複雑なシナリオで高い性能を達成した。
Link: https://arxiv.org/abs/2512.01550
VIGS-SLAM：Visual Inertial Gaussian Splatting SLAM [cs.RO, cs.CV]目的：堅牢なリアルタイムトラッキングと高精度な再構成
- SLAMはロボットや自動運転において，環境理解と自己位置推定に不可欠である。
- 従来のSLAMは，モーションブラーやテクスチャの少なさ，露出の変化で性能が低下する。
- 視覚情報と慣性情報を統合し，ロバストなSLAMを実現することでこの問題を解決する。
- 提案手法VIGS-SLAMは，視覚情報と慣性情報を統合し，高精度な3D再構成を可能にする。
- 時間変動バイアスモデリングやループクロージャにより，一貫性のあるGaussian更新を実現した。
- 5つのベンチマークデータセットにおいて，最先端手法と比較して優位性を示すことができた。
Link: https://arxiv.org/abs/2512.02293
SpaceControl：3D生成モデリングへのテスト時空間制御の導入 [cs.CE, cs.CV, cs.AI]目的：3Dアセット生成における空間的制御手法
- 3Dコンテンツの生成は多様な分野で重要であり，その品質向上は創作活動を促進する。
- テキストや画像による制御では，形状の曖昧さや操作の困難さから，精密な形状制御が課題である。
- テスト時に空間制御を可能にし，追加学習なしで形状の忠実性と高品質な出力を両立させる。
- SpaceControlは，粗い形状から詳細なメッシュまで，幅広い幾何学的入力を受け入れ，既存の生成モデルと統合可能である。
- 制御パラメータにより，形状の忠実度と出力のリアリズムのバランスを調整できる。
- 定量評価とユーザー調査の結果，SpaceControlは幾何学的な忠実度において，学習ベースや最適化ベースの手法を上回る。
Link: https://arxiv.org/abs/2512.05343
MIND-V: RLに基づく物理的アライメントによる長期的ロボット操作のための階層型ワールドモデル [cs.RO, cs.CV]目的：長期的ロボット操作のための，物理的に妥当かつ論理的に一貫性のある動画の合成
- ロボットの知能化には多様なデータが必要だが，長期的操作のデータは不足している。
- 既存の動画ワールドモデルは，短い単純な動作の合成に限定され，手動で定義された軌道に依存する。
- 長期的ロボット操作におけるデータ不足を解決し，スケーラブルなデータ合成フレームワークを構築する。
- MIND-Vは，タスクプランニング，抽象的指示の変換，条件付き動画レンダリングを統合した階層型ワールドモデルである。
- Staged Visual Future Rolloutsにより，長期的操作におけるロバスト性が向上している。
- 物理法則の遵守のために，V-JEPA2を用いた物理的フォアサイトコヒーレンス（PFC）報酬を用いた強化学習による後処理を行った。
Link: https://arxiv.org/abs/2512.06628
EMGauss：体積電子顕微鏡における動的ガウスモデリングを用いた連続スライスから3D再構成 [cs.CV]目的：体積電子顕微鏡におけるスライスから3D再構成
- 生物構造のナノスケール3Dイメージングを可能にするが，軸方向分解能が限られるという課題がある。
- 既存手法は等方性の仮定に依存し，形態的に異方性のある構造に対しては性能が低下する。
- ガウススプラッティングに基づき，スライス再構成を3D動的シーンレンダリング問題として捉え，解決を目指す。
- EMGaussは，従来の拡散モデルやGANベースの手法と比較して，補間品質を大幅に向上させる。
- 連続的なスライス合成が可能であり，大規模な事前学習が不要となる。
- 体積電子顕微鏡以外の多様なイメージング領域への応用も期待できる汎用的なスライスから3Dソリューションを提供する。
Link: https://arxiv.org/abs/2512.06684
SATGround：リモートセンシングにおける視覚的根拠付けのための空間認識アプローチ [cs.CV]目的：リモートセンシングにおける視覚的根拠付けの性能向上
- リモートセンシングは，地球観測において不可欠であり，環境変化の監視や災害対応に役立つ。
- 既存の視覚的根拠付け手法は，複雑な衛星画像における対象物の正確な位置特定が困難である。
- 言語情報と空間情報の同時推論により，複雑な衛星画像における対象物の位置特定精度を向上させる。
- 提案手法は，既存の視覚的根拠付け手法と比較して，33.2%の相対的な性能向上を達成した。
- 事前学習済みのビジョン言語モデルを微調整し，専用の空間認識モジュールを統合することで，言語と空間情報の連携を実現した。
- 本研究は，より信頼性の高い衛星データ分析のための，ビジョン言語モデルへの構造化された空間推論の統合の道を開く。
Link: https://arxiv.org/abs/2512.08881
デジタルヒューマンのためのインタラクティブ知能 [cs.CV, cs.CL, cs.GR, cs.HC]目的：インタラクティブ知能の実現
- デジタルヒューマンは，人との自然なコミュニケーションを可能にする重要な技術である。
- 既存のデジタルヒューマンは，表面的な模倣にとどまり，真の対話的知性に欠ける。
- 本研究は，人格に沿った表現と自己進化能力を持つデジタルヒューマンを目指す。
- Mio（Multimodal Interactive Omni-Avatar）という，思考，会話，表情，身体，レンダリングの5つのモジュールからなる統合フレームワークを提案した。
- Mioは，認知的な推論とリアルタイムのマルチモーダル具現化を統合し，滑らかで一貫性のあるインタラクションを実現する。
- 実験により，提案手法が評価された全ての側面において，最先端手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2512.13674
ViewMask-1-to-3：マルチモーダル拡散モデルによる多視点整合画像生成 [cs.CV]目的：多視点画像生成の実現
- 視覚情報の理解と生成は，ロボティクスや拡張現実など，多様な応用分野において不可欠である。
- 従来の多視点画像生成は連続的なアプローチが主流であり，言語と視覚情報の統合が課題であった。
- 離散拡散モデルを用いて，言語と視覚情報を統一的に扱うことで，多視点整合性を高める。
- 提案手法ViewMask-1-to-3は，MAGVIT-v2から得られる視覚トークンを基盤とし，マスクされたトークン予測を通じて多視点画像を生成する。
- 自己注意機構と単純なランダムマスキングにより，特別なアーキテクチャや3D幾何学的事前知識なしに，視点間の整合性を自然に促進する。
- GSOおよび3D-FUTUREのベンチマークにおいて，既存手法を上回り，特に3D-FUTUREにおけるIoUを10.6%改善した。
Link: https://arxiv.org/abs/2512.14099
Uni-Parser 技術報告書 [cs.CV]目的：科学文献および特許文書の解析エンジン
- 科学技術情報の効率的な活用は，研究開発の加速に不可欠である。
- 従来の解析手法では，複雑な文書構造への対応や処理速度が課題であった。
- 大規模文書の高速かつ高精度な解析を実現し，データ活用の幅を広げる。
- Uni-Parserは，テキスト，数式，表，図，化学構造などのマルチモーダル情報を維持した解析が可能である。
- 8つのNVIDIA RTX 4090D GPU上で，1秒あたり最大20ページ（PDF）の処理速度を実現した。
- 大量のデータ処理に適しており，文献検索や化合物構造の抽出など，幅広い応用が期待される。
Link: https://arxiv.org/abs/2512.15098
医療画像と自然言語の視覚的アライメントによる根拠に基づいた放射線レポート生成 [cs.CV]目的：根拠に基づいた放射線レポートの生成
- 医療現場の自動化は，患者評価の精度向上と医療従事者の負担軽減に不可欠である。
- 既存の医療画像・自然言語モデルは，視覚情報と言語表現の不十分なアライメントが原因で，幻覚（ハルシネーション）を起こしやすい。
- 視覚的アライメントを強化し，幻覚を抑制することで，より正確なレポート生成を目指す。
- 提案手法VALORは，臨床情報を活用したテキスト推論と自己教師あり視覚推論の二段階アプローチにより，幻覚を抑制する。
- VALORは，追加のアノテーションや検索データベースを必要とせず，生成レポートの品質と臨床的精度を大幅に向上させる。
- 複数のベンチマークにおける実験結果は，最先端の医療レポート生成モデルと比較して，顕著な性能向上を示している。
Link: https://arxiv.org/abs/2512.16201
FCMBench：現実世界への応用を目指す金融信用マルチモーダル大規模ベンチマーク [cs.CV, cs.AI, cs.CE, cs.MM]目的：金融信用に関する現実世界の応用を目的とした，大規模かつプライバシーに配慮したマルチモーダルベンチマーク
- 金融分野におけるAI活用の重要性が高まる中で，信用評価の自動化が求められている。
- 既存のデータセットは，現実世界の制約や多様な書類に対応しておらず，汎化性能の評価が困難である。
- 現実世界の金融書類に対応し，厳格なプライバシー保護を施したベンチマークを作成することで，AIモデルの性能評価を可能にする。
- FCMBenchは，26種類の書類に対応した5198枚の画像と13806組のVQAサンプルを含む大規模ベンチマークである。
- Gemini 3 Proが商用モデルとして最高のF1スコア（65.16）を，Kimi-K2.5がオープンソースモデルとして最高のスコア（60.58）を達成した。
- FCMBenchは，既存モデルの能力を区別する高い識別力を持つことが示され，実用的なAI研究の推進に貢献する。
Link: https://arxiv.org/abs/2601.00150
フローマッチングによるcVAEベース歌声合成における潜在的ミスマッチの緩和 [cs.SD, cs.AI, eess.AS]目的：歌声合成における潜在表現のミスマッチ緩和
- 歌声合成は，音楽表現の自動化において重要であり，多様な応用が期待される。
- cVAEベースの歌声合成では，学習時と推論時で潜在表現にずれが生じ，表現力が低下する課題がある。
- 推論時の潜在表現を，学習時における潜在表現に近づけることで，より自然な歌声合成を目指す。
- 提案手法FM-Singerは，フローマッチングを用いて潜在表現を精緻化し，歌声合成の客観評価指標と知覚品質を向上させる。
- 潜在空間での処理であるため，軽量でありながら既存の合成基盤との互換性を維持する。
- 韓国語と中国語の歌声データセットを用いた実験で，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2601.00217
拡散生成された高密度プロキシによるマルチビュー人体メッシュ復元 [cs.CL, cs.CV]目的：マルチビュー画像からの高精度な人体メッシュ復元
- 現実世界の様々なアプリケーションにおいて，人間を理解することは重要である。
- 既存手法では，局所化が困難なエラーが発生したり，表面制約が不十分であったりする。
- 拡散モデルを活用し，高密度なピクセル-サーフェス対応関係を生成することで，より正確な復元を目指す。
- DiffProxyは，大規模な合成データのみで学習し，5つの実世界ベンチマークで最先端の結果を達成した。
- 拡散モデルの確率的性質を利用したテスト時スケーリングにより，ピクセルごとの不確実性を推定することが可能となった。
- 高解像度な手部の詳細な復元のため，手部クロップを全身画像と共に活用する手法が導入された。
Link: https://arxiv.org/abs/2601.02267
解剖学知識を活用した胸部X線画像解釈のためのマルチモーダル大規模言語モデルAnatomiX [cs.CV, cs.AI, cs.LG]目的：胸部X線画像解釈における解剖学的根拠付け
- 医療画像診断の精度向上は，疾患の早期発見と適切な治療に不可欠である。
- 既存のマルチモーダルモデルは，空間的推論や解剖学的理解に課題を抱えている。
- 解剖学的根拠に基づいた胸部X線画像解釈を実現し，診断精度を向上させる。
- AnatomiXは，解剖学的構造の識別と特徴抽出を二段階で行うことで，高度な解剖学的推論能力を実現した。
- 複数のベンチマークにおいて，既存手法と比較して解剖学的根拠付け，フレーズの根拠付け，診断，画像キャプション生成などのタスクで25%以上の性能向上を示した。
- 放射線科医のワークフローに着想を得たアプローチにより，医学領域における正確な解剖学的理解を促進する。
Link: https://arxiv.org/abs/2601.03191
幾何に基づいたセット拡散による新規視点合成の向上 [eess.SY, cs.SY, cs.CV]目的：3D Gaussian Splattingによる新規視点レンダリングの向上
- 自動運転やロボティクス等の分野で，周囲環境の理解が不可欠である。
- 既存手法では，オクルージョン処理や低信号条件下での幻覚が課題となっていた。
- 幾何情報に基づき，よりリアルで信頼性の高い新規視点合成を実現する。
- 提案手法SetDiffは，3D Gaussian Splattingのレンダリングを大幅に改善した。
- オクルージョン処理の堅牢性向上，低信号下での幻覚抑制，そして光度計的忠実性の改善が確認された。
- EUVS，Para-Lane，nuScenes等のデータセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2601.07540
AIMC-Spec：変動ノイズ条件下における自動パルス内変調方式識別ベンチマークデータセット [cs.CL, cs.CV]目的：自動パルス内変調方式識別におけるベンチマークデータセット
- レーダー信号分析は，電子支援システムにおいて不可欠であり，その性能向上は安全保障上重要である。
- ノイズや劣化条件下での自動パルス内変調方式識別には，標準化されたデータセットが不足していた。
- 本研究は，標準化されたベンチマークデータセットを提供し，識別性能評価の基盤を確立することを目的とする。
- 本研究で開発したAIMC-Specは，30種類の変調方式と5段階のSNRレベルを含む包括的な合成データセットである。
- 実験の結果，FM信号はPM信号よりも識別性能が高く，特に低SNR環境下でその差が顕著であった。
- AIMC-Specは，再現性のある基盤を提供し，今後の研究と標準化を促進するものである。
Link: https://arxiv.org/abs/2601.08265
PISE：物理に基づいた意味論的強化型深層計算ゴーストイメージングによる堅牢な低帯域幅機械知覚 [cs.CV, eess.IV]目的：低帯域幅環境におけるエッジ知覚のための深層ゴーストイメージングフレームワーク
- 機械知覚は，ロボット工学や自動運転など，様々な分野で重要な役割を担う。
- 低帯域幅環境では，従来の画像処理技術では十分な性能を発揮できない場合がある。
- 低帯域幅環境下でも，ロバストな知覚を実現するための新しい手法を開発する。
- PISEは，物理情報と意味論的ガイダンスを組み合わせることで，分類精度を向上させる。
- 5％のサンプリングにおいて，分類精度が2.57％向上し，分散が9倍減少する。
Link: https://arxiv.org/abs/2601.12551
TreeDGS：遠距離DBH計測のための航空機搭載ガウススプラッティング [cs.CV]目的：航空機搭載画像からの樹高胸高直径（DBH）の正確な推定
- 広範囲の森林調査を効率的に行う上で，航空機からのリモートセンシングは不可欠である。
- 複雑な自然環境下では，個々の木に対する正確な直接測定が困難である。
- 遠距離・疎観測な航空画像から正確な樹幹形状を再構成し，DBHを推定すること。
- TreeDGSは，3Dガウススプラッティングを用いて高精度な樹幹再構成を実現した。
- 野外計測されたDBHとの比較で，RMSE 4.79cmという高い精度を示した。
- 既存のLiDAR法と比較して，TreeDGSは優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2601.12823
光と闇を透視する：シングル露出画像とイベントに基づくセンサー物理に基づいたHDR NeRFの鮮明化 [cs.DC, cs.CV]目的：低動的範囲のぼやけた画像からの高動的範囲HDRおよび鮮明な3D表現の復元
- 現実世界の極端な照明下では，低動的範囲のぼやけた画像からの新規視点合成が困難である。
- 既存手法は，センサー出力と物理世界の放射間の不一致を無視しており，最適なHDRと鮮明化結果が得られない。
- センサー物理に基づいたNeRFフレームワークにより，シングル露出画像とイベントからHDR新規視点合成の質を向上させる。
- 提案手法は，NeRFを用いてHDRドメインで3Dシーンの実際の放射を直接表現し，物理世界におけるセンサーへのHDRシーン光線のモデル化を行う。
- ピクセルごとのRGBマッピングフィールドとイベントマッピングフィールドを導入し，イベントの情報を用いて鮮明なHDR 3D表現学習を強化する。
- 収集データと公開データセットでの実験により，提案手法がシングル露出画像とイベントを用いて最先端の鮮明化HDR新規視点合成結果を達成することが示された。
Link: https://arxiv.org/abs/2601.15475
MaDiS：手話生成のためのマスク拡散言語モデルの制御 [cs.CV]目的：手話生成におけるマスク拡散言語モデルの性能向上
- 聴覚障碍者とのコミュニケーション支援は，包容的な社会実現に不可欠である。
- 従来の言語モデルは，単方向の文脈しか捉えられず，生成速度が遅いという課題があった。
- 双方向の依存関係を捉え，効率的な生成を可能にするモデルの開発を目指す。
- MaDiSは，DTWエラー，SiBLEU，SiCLIPといった複数の評価指標において，従来モデルを上回る性能を示した。
- 特に，生成速度は40％向上し，効率的な手話生成を実現した。
- トークン，潜在空間，3D空間の3段階のクロスモーダル事前学習と，時間的なチェックポイントを用いたアンマスキング戦略が，性能向上に貢献した。
Link: https://arxiv.org/abs/2601.19577
VideoTemp-o3：エージェント的思考による動画理解における時間的根拠付けと動画理解の調和 [cs.CV, cs.AI]目的：長編動画理解のための，時間的根拠付けと質問応答の同時モデリング
- 動画理解は，人間にとって自然な情報処理であり，様々な応用分野で重要性が増している。
- 従来の均一フレームサンプリングでは重要な視覚的証拠を見逃し，性能低下や幻覚を引き起こす。
- 動画内の関連部分を特定し，効率的に質問応答を行うための新たなフレームワークを開発する。
- VideoTemp-o3は，動画内の関連セグメントを正確に特定し，柔軟なクリッピングを可能にする。
- 教師あり学習段階では，探索を促しノイズを抑制する統一的なマスキング機構を導入した。
- 強化学習では，報酬ハッキングを軽減するための専用報酬を導入し，性能を向上させた。
Link: https://arxiv.org/abs/2602.07801
Omni-Video 2：MLLM条件付き拡散モデルの大規模化による統一的な動画生成と編集 [cs.RO, cs.CV]目的：MLLMと動画拡散モデルを接続した，統一的な動画生成と編集のためのスケーラブルかつ計算効率の良いモデル
- 動画生成・編集技術は，エンターテインメント，教育，コミュニケーションなど幅広い分野で重要性が増している。
- 複雑な指示に対する動画編集は，一貫性のある自然な結果を得るのが難しく，高品質な編集技術が求められている。
- 複雑な指示に基づいた動画編集の精度向上と，パラメータ効率の良い動画生成モデルの実現を目指す。
- Omni-Video 2は，複雑な指示を理解し，高品質な動画生成と編集を可能にする。
- MLLMを活用することで，より詳細な指示に対応し，動画編集の精度が向上した。
- FiVEおよびVBenchの評価において，既存モデルと同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2602.08820
階層的コンセプト埋め込みと追跡による解釈可能な画像分類 [cs.LG, cs.CV]目的：解釈可能な画像分類モデルにおけるコンセプトの抽出と活用
- 画像認識分野では，モデルの予測根拠を説明する解釈可能性が重要視されている。
- 従来の疎なコンセプト回復法は，コンセプト間の階層構造を無視しており，説明に矛盾が生じることがある。
- 本研究は，コンセプトの階層構造を考慮することで，より信頼性が高く解釈可能な画像分類を実現する。
- 提案手法HCEPは，潜在空間におけるコンセプト埋め込みの階層構造を誘導し，階層的疎コーディングを用いる。
- 実験の結果，HCEPはベースラインと比較してコンセプトの精度と再現率を向上させ，分類精度も維持した。
- 特に，サンプル数が限られている場合，HCEPは優れた分類精度とコンセプトの回復を実現した。
Link: https://arxiv.org/abs/2602.11448
バリエーションを考慮した柔軟な3Dガウス編集 [cs.GR, cs.AI]目的：3Dガウススプラッティングのガウス素因子の属性変化予測による編集手法
- 3Dコンテンツ編集において，高品質な結果を効率的に得る重要性が高まっている。
- 従来の2D空間での編集を3Dに投影する方法では，視点間の一貫性が課題となっていた。
- 3Dガウスの直接編集により，柔軟性と効率性を向上させ，編集パイプラインの制約を解消することを目指す。
- 提案手法VF-Editorは，2D編集の知識を蒸留したバリエーション予測器を用いることで，ガウス属性の変化を予測し，直接編集を可能にする。
- VF-Editorは，多様な2Dエディタからの知識を単一の予測器に統合し，3Dドメインへの効果的な知識転移を実現する。
- 実験結果から，間接編集パイプラインの限界が明らかになり，提案手法の有効性と柔軟性が確認された。
Link: https://arxiv.org/abs/2602.11638
SPRig：メッシュ系列からの自己教師あり姿勢不変リギング [cs.CV, cs.GR]目的：姿勢不変リグの学習
- 3Dメッシュアニメーション制作において，リギングは不可欠な工程である。
- 既存のリギング手法は静止姿勢を前提とし，動的なメッシュ系列への適用が困難である。
- 動的なメッシュ系列における姿勢変化に対応可能な，安定したリギング手法を確立すること。
- 提案手法SPRigは，既存モデルをファインチューニングすることで，フレーム間の整合性を確保し，姿勢不変リグを学習する。
- SPRigは，トケン空間と幾何空間の両方で一貫性正則化を導入し，骨格生成の精度を向上させる。
- また，関節不変一貫性損失，知識蒸留，構造正則化により，スキニングの安定性を高めることに成功した。
Link: https://arxiv.org/abs/2602.12740
LongStream: 長い系列のストリーミング自己回帰型視覚幾何 [cs.CV]目的：大規模シーンのストリーミング3D再構成
- 現実世界の環境理解において，長時間の映像から3次元構造を構築する技術は不可欠である。
- 従来の自己回帰モデルは，長い系列の処理において注意機構の減衰やスケールドリフトの問題を抱えていた。
- 本研究は，長い系列のストリーミングデータに対し，安定した大規模な3D再構成を実現することを目的とする。
- LongStreamは，最初のフレームへの依存を排除し，キーフレーム相対的な姿勢を予測することで，長距離外挿を局所的なタスクへと変換する。
- スケール推定と幾何学を完全に分離する直交スケール学習を導入し，ドリフトを抑制する。
- Transformerにおける注意バイアスを解消するため，キャッシュ一貫性のある学習と定期的なキャッシュ更新を提案し，学習と推論の乖離を縮小する。
Link: https://arxiv.org/abs/2602.13172
短く訓練し，長く推論：自己回帰型ビデオ生成における訓練不要の地平線拡張 [cs.CV]目的：自己回帰型ビデオ拡散モデルにおける地平線拡張の性能向上
- ビデオ生成分野において，長時間の高品質なビデオ生成は重要な課題である。
- 既存の自己回帰型モデルは，訓練期間を超える推論時に性能が著しく低下する問題がある。
- 訓練不要で，推論時に性能低下を抑制し，長期的なビデオ生成を実現すること。
- FLEXは，周波数に配慮したRoPE変調により，低周波成分の補間と高周波成分の補外を適応的に行う。
- アンチフェーズノイズサンプリングと推論専用のアテンションシンクを統合し，動的な事前分布とグローバル構造を安定化させる。
- VBenchでの評価により，FLEXが既存モデルを大幅に上回り，6倍から12倍の地平線拡張においても高性能を維持することが示された。
Link: https://arxiv.org/abs/2602.14027
BitDance：二値トークンを用いた自己回帰生成モデルのスケーリング [cs.CV, cs.AI]目的：高エントロピーな二値潜在変数を用いた自己回帰画像生成モデル
- 画像生成モデルは，近年急速に発展しており，様々な応用が期待されている。
- 従来の自己回帰モデルは，パラメータ数が増大し，計算コストが高いという課題があった。
- 本研究は，二値トークンと拡散モデルを用いることで，計算効率の良い画像生成を目指す。
- BitDanceは，ImageNet 256x256において，FID 1.24を達成し，自己回帰モデルの中で最高の性能を示した。
- パラメータ数を5.4倍削減し，推論速度を8.7倍向上させ，既存の並列自己回帰モデルを上回った。
- 大規模なマルチモーダルトークンで訓練することで，高解像度でフォトリアリスティックな画像を効率的に生成できることを示した。
Link: https://arxiv.org/abs/2602.14041
弱学習ビデオ異常検知のためのクロス疑似ラベリング [cs.CV]目的：弱学習ビデオ異常検知における異常とその異常カテゴリの識別
- ビデオ監視技術の発展に伴い，異常行動の自動検知の重要性が増している。
- 従来の異常検知は，詳細なアノテーションを必要とし，コストと時間がかかる。
- ビデオレベルのラベルのみで，高精度な異常検知とカテゴリ分類を実現すること。
- 提案手法CPL-VADは，スニペットレベルの異常局所化と異常カテゴリ認識を両立する二分枝フレームワークである。
- クロス疑似ラベリングにより，時間的精度と意味的識別能力を相互に補完し，性能を向上させている。
- XD-ViolenceとUCF-Crimeデータセットでの実験で，最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.17077
GA-Drive：自由視点運転シーン生成のためのジオメトリ・外観分離モデリング [cs.AR, cs.CV]目的：自由視点運転シーン生成のための新しいシミュレーションフレームワーク
- 自動運転システムの開発には，現実世界を忠実に再現したシミュレーション環境が不可欠である。
- 既存のシミュレーション環境では，多様な視点からの高品質なシーン生成が困難であった。
- ジオメトリと外観を分離することで，編集可能な高品質な運転シーン生成を実現する。
- GA-Driveは，ジオメトリ・外観分離と拡散モデルに基づく生成によって，指定された軌跡に沿ったカメラ視点を生成する。
- 実験の結果，既存手法と比較して，NTA-IoU，NTL-IoU，FIDスコアにおいて大幅な性能向上を示した。
- 本手法は，ジオメトリを保持しつつ，最先端の動画編集技術を用いた外観編集を可能にする。
Link: https://arxiv.org/abs/2602.20673
TIRAuxCloud：昼夜間雲検出のための熱赤外データセット [cs.CV]目的：昼夜間における雲検出を可能にする熱赤外データセット
- 地球観測において，雲は重要な障害要因であり，信頼性の高いデータ利用を妨げる。
- 夜間における雲検出は，可視光や近赤外光の利用が難しく，課題が残されていた。
- 熱赤外データを用いて，昼夜間を通して高精度な雲検出を実現することを目指す。
- TIRAuxCloudデータセットは，LandsatとVIIRSの多波長データと補助情報層を組み合わせている。
- 標高，土地被覆，気象変数，雲のない参照画像が，雲と地表面の曖昧さを軽減するのに役立つ。
- 教師あり学習と転移学習によるベンチマークテストを行い，データセットの有効性を検証した。
Link: https://arxiv.org/abs/2602.21905
MovieTeller：ツール支援によるID一貫性のある段階的抽象化を用いた映画のあらすじ生成 [cs.CV, cs.AI]目的：映画のあらすじ生成
- デジタルエンターテイメントの爆発的な増加に伴い，コンテンツ索引やパーソナライズされた推薦に必要不可欠である。
- 既存のVision-Language Modelsは，長尺動画における登場人物のID一貫性や物語の整合性に課題がある。
- 登場人物の特定と物語の整合性を高め，より正確で自然な映画のあらすじを生成することを目指す。
- MovieTellerは，ツール支援による段階的抽象化という新しいフレームワークを提案する。
- ファクトに基づいた生成プロセスにより，モデルの追加学習コストを抑えつつ，精度向上を実現した。
- 実験により，事実の正確性，登場人物の一貫性，物語の整合性において，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2602.23228
リモートセンシングにおける指向性オブジェクト検出のためのフーリエ角度アラインメント [cs.CV]目的：リモートセンシングにおける指向性オブジェクト検出の精度向上
- リモートセンシングは，広範囲な地理空間情報を効率的に取得する上で不可欠な技術である。
- 既存手法は，検出器のネックにおける方向性の一貫性の欠如と，検出ヘッドにおけるタスクの競合に課題を抱えている。
- フーリエ変換の回転不変性を利用し，オブジェクトの主要方向を特定の方角にアラインメントすることで，検出精度を向上させる。
- 提案手法FAAは，DOTA-v1.0データセットにおいて78.72%のmAPを達成し，最先端の結果を更新した。
- DOTA-v1.5データセットにおいても72.28%のmAPを達成し，その有効性を実証した。
- FAA FusionとFAA Headモジュールは，既存の検出器に容易に組み込むことが可能である。
Link: https://arxiv.org/abs/2602.23790
AHAP：幾何学的事前知識を用いた任意の視点からの人間3D再構成 [cs.CV]目的：任意の視点からの人間3D再構成
- 現実世界の多様な状況下での3D人間モデリングの需要が高まっている。
- 従来の再構成手法はカメラの事前キャリブレーションが必須であり，汎用性に課題がある。
- カメラキャリブレーションなしに，任意の視点からの3D人間再構成を可能にすること。
- AHAPは，クロスビューIDアソシエーションとヒューマンヘッドの融合により，効率的な再構成を実現した。
- マルチビュー幾何学を活用し，単眼推定法の深度曖昧性を解消し，より正確な3D人間位置推定を可能にした。
- EgoHumansとEgoExo4Dでの実験により，AHAPが最適化ベースの手法と比較して180倍高速であり，競争力のある性能を発揮することが示された。
Link: https://arxiv.org/abs/2602.23951
FoV-Net: 視野角レイキャスティングによる回転不変なCAD境界表現学習 [cs.CV]目的：CAD境界表現からの回転不変な特徴抽出
- 3D CADの解析において，境界表現からの直接学習は重要な進歩を遂げている。
- 既存手法は絶対座標に依存し，回転に対して脆弱であるという課題がある。
- 本研究は，回転に強い境界表現学習フレームワークを構築することを目的とする。
- FoV-Netは，局所的な表面形状と大域的な構造的コンテキストを回転不変に捉える初のフレームワークである。
- LRF UV-gridとFoV gridを用いることで，表面形状と周囲の3Dコンテキストを効率的に表現する。
- 境界表現分類・セグメンテーションのベンチマークにおいて，最先端の性能と回転に対するロバスト性を実証した。
Link: https://arxiv.org/abs/2602.24084
SvfEye：マルチスケール視覚的コンテキストを用いた意味・視覚融合フレームワーク [cs.CV, cs.AI]目的：マルチモーダル推論における意味・視覚情報の適応的融合
- マルチモーダル大規模言語モデルの精度向上は，多様な応用を可能にする上で重要である。
- 既存手法では，微細な視覚的詳細の認識が不十分であり，特に小さな対象や視覚的に曖昧な場合に課題がある。
- 不要な情報を取り除き，ユーザーの意図に合致する視覚的領域に焦点を当て，効率的な推論を実現する。
- SvfEyeは，追加の視覚情報が必要かどうかを判断する信頼度ベースの決定モジュールと，有益な局所領域を特定する意味・注意融合モジュールを備えている。
- 実験の結果，SvfEyeは大幅な性能向上を示し，最先端手法ZoomEyeと比較して約4.0倍の推論速度向上を実現した。
Link: https://arxiv.org/abs/2603.00171
モバイルVTON：高精度なデバイス上でのバーチャル試着 [cs.CV]目的：モバイルデバイス上での高精度なバーチャル試着の実現
- ファッションECにおける顧客体験向上は重要であり，バーチャル試着はその有効な手段となる。
- 既存のバーチャル試着システムはクラウドGPUに依存し，プライバシー問題やデバイス制限がある。
- プライバシーを保護しつつ，モバイルデバイス上で高品質なバーチャル試着を可能にすること。
- Mobile-VTONは，単一のユーザー画像と衣服画像のみを用いて，オフラインで高品質なバーチャル試着を実現する。
- TeacherNet-GarmentNet-TryonNet (TGT)アーキテクチャとFeature-Guided Adversarial (FGA) Distillation戦略により，計算コストを抑えつつ高精度な画像生成を可能にした。
- VITON-HDおよびDressCodeでの実験により，既存のサーバーベースのシステムと同等以上の性能をデバイス上で実現した。
Link: https://arxiv.org/abs/2603.00947
イメージをあなたの動きに合わせて動かそう！ -- 暗黙的な複数オブジェクト複数モーションの転送 [cs.CV]目的：複数オブジェクトと複数モーションの転送
- 動画生成の制御という分野で，モーション転送は有望な手法である。
- 既存手法は単一オブジェクトに焦点を当てており，複数オブジェクトの異なるモーションに対応できない。
- 複数オブジェクトにおけるモーションの絡み合い問題を解決し，柔軟なモーションとオブジェクトのマッピングを実現する。
- 提案手法FlexiMMTは，複数オブジェクトと複数モーションの転送を可能にする最初の暗黙的な画像から動画へのモーション転送フレームワークである。
- モーションデカップルドマスクアテンションメカニズムにより，オブジェクト固有のマスクを用いて注意を制限し，モーションとテキストトークンが指定された領域のみに影響するようにする。
- 拡散アテンションからオブジェクト固有のマスクを直接導出し，フレーム間で効率的に伝播させる差分マスク伝播メカニズムを提案する。
Link: https://arxiv.org/abs/2603.01000
FOZO：テスト時適応のための前方のみのゼロ次プロンプト最適化 [cs.CV]目的：テスト時適応における性能向上
- 深層学習モデルを現実世界のデータ分布の変化に対応させることは重要である。
- 既存手法は計算コストが高い，または適応能力が限られているという課題がある。
- 計算資源の限られた環境下でも有効なテスト時適応手法を開発する。
- FOZOは，中間特徴統計量と予測エントロピーを最適化するゼロ次プロンプト最適化を用いる。
- 動的に減衰する摂動スケールを導入することで，安定した適応を実現し，理論的な収束性も証明された。
- ImageNet-C, ImageNet-R, ImageNet-Sketch で優れた性能を示し，特にImageNet-C (5K, level 5) で59.52%のTop-1精度を達成した。
Link: https://arxiv.org/abs/2603.04733
埋め込みに基づくデータ選択：音声認識においてどのデータが重要か [cs.SD]目的：音声認識のためのデータ選択戦略
- 音声認識の性能向上には，大量の学習データが不可欠である。
- 多様なドメインのデータは，特定ドメインに特化したモデルの学習を困難にする。
- ターゲットドメインにおける性能を最適化するためのデータ選択手法を確立する。
- 埋め込み表現を用いてデータの関連性と多様性を評価し，データ選択戦略を検討した。
- 戦略的に選択された5%のデータセットで，フルデータセットで学習した場合を最大36.8%上回るWER低減を実現した。
- 話者属性，音韻内容，意味的情報を捉えた埋め込み表現が，データ選択に有効であることが示された。
Link: https://arxiv.org/abs/2603.05819
PatchCue: パッチベースの視覚的手がかりによるVision-Languageモデルの推論能力の向上 [cs.CV]目的：Vision-Languageモデルの推論能力向上
- 近年，マルチモーダルな理解・推論においてVLMsが目覚ましい進歩を遂げている。
- 既存の手法はテキスト情報に依存し，重要な視覚的手がかりを十分に活用できていない。
- パッチレベルでの視覚的手がかりを提供し，VLMsの視覚的推論能力を強化すること。
- PatchCueは画像をパッチに分割し，パッチレベルで手がかりを表現することで，人間の知覚習慣とVLMsの入力形式との整合性を高める。
- 2段階の学習アプローチ（事前教師ありファインチューニングと，プロセス監視型報酬を用いた強化学習）により，PatchCueはVLMsの性能を向上させる。
- 様々なベンチマークにおいて，PatchCueはピクセルレベルのバウンディングボックスやポイントベースの手がかりよりも優れた性能を示す。
Link: https://arxiv.org/abs/2603.05869
物語紡ぎ手：マルチモーダル条件付けによる制御可能な長距離視覚的整合性に向けて [cs.CV, cs.AI]目的：マルチモーダル制御可能，長距離，かつ一貫性のある視覚コンテンツ生成
- 映画制作や広告など，現実世界での応用には，長期間にわたる視覚的な整合性が不可欠である。
- 既存モデルは短編コンテンツの生成に優れるが，長編における物語の一貫性や視覚的整合性を維持することが困難である。
- 物語の計画，詳細な制御，長距離の一貫性を統合し，AIによるコンテンツ制作の可能性を広げる。
- 本手法は，マルチモーダル大規模言語モデルと動的なメモリバンクを組み合わせ，視覚的なずれを抑制する。
- 既存の事前学習モデルを効率的に活用する漸進的な多段階学習戦略により，限られたデータでも高い性能を発揮する。
- E-commerce Advertising Video Storyboard Dataset（EAVSD）を構築・公開し，新たな評価基準を提示した。
Link: https://arxiv.org/abs/2603.06688
AWPD：未知の水mark存在検出のための周波数シールドネットワーク [cs.CV, cs.AI]目的：未知の水mark存在検出
- 画像著作権保護は重要であり，特にSNSやAIGCの発展に伴い，不可視ウォーターマーク技術の需要が高まっている。
- 既存の不可視ウォーターマーク検出は特定のアルゴリズム知識に依存するため，未知の水mark検出能力が限定されている。
- 本研究は，アルゴリズム知識なしに画像に著作権マークが存在するかどうかを判定する課題に取り組む。
- 本研究では，大規模なデータセットUniFreq-100Kを構築し，様々な不可視ウォーターマーク埋め込みアルゴリズムに対応したモデルを提案した。
- 提案するFSNetは，適応スペクトル知覚モジュール(ASPM)と動的マルチスペクトルアテンション(DMSA)を搭載し，高周波水mark信号を増幅し，異常を検出する。
- 実験結果から，FSNetは既存モデルを凌駕するゼロショット検出能力を示し，AWPD課題において優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.06723
SODA：拡散Transformerの感度に基づいた動的加速 [cs.CV]目的：拡散Transformerの推論効率向上
- 画像生成において拡散Transformerが主流だが，推論速度が課題となっている。
- キャッシュとプルーニングは高速化手法だが，それぞれ品質低下と品質維持のトレードオフがある。
- 感度に基づいた動的加速により，品質劣化を抑えつつ高速化を実現すること。
- SODAは，タイムステップ，レイヤー，モジュールごとの感度エラーモデリングフレームワークを構築する。
- 動的計画法を用いてキャッシュ間隔を最適化し，感度への影響を最小限に抑える。
- DiT-XL/2，PixArt-α，OpenSoraでの実験により，SODAが最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.07057