arXiv雑要約

画像・音声 - 2026/03/27 公開

  • 自然言語からの画像システム設計:有限な基本要素に基づくエージェント制約による構成 [cs.CV]目的:画像システムの設計方法
    • 画像システムの設計は科学的発見の鍵であり,多様な分野での応用が期待される。
    • 専門知識が不可欠であり,設計に時間と労力がかかるため,研究のボトルネックとなっている。
    • 自然言語による記述から自動的に画像システムを設計し,専門家の負担を軽減することを目指す。
    • 提案手法spec.mdと3つの自律エージェントにより,自然言語記述から検証済みの前方モデルを生成できる。
    • 実データを用いた実験の結果,提案手法は専門家が作成したシステムと同等の性能(98.1 +/- 4.2%)を示した。
    • 3Dから5Dまでの新しい設計を組み合わせることで,単一モダリティのツールを超える構成が可能であることを示した。

    Link: https://arxiv.org/abs/2603.25636

  • 高速dVLA:離散拡散VLAをリアルタイム性能に加速 [cs.RO, cs.CV]目的:事前学習済みVLAモデルの性能向上と適応コスト削減
    • ロボット工学において,環境への適応能力は重要であり,VLAモデルはその実現に貢献しうる。
    • 標準的なSFTでは,VLAモデルの性能向上が限定的で,適応にコストがかかる場合がある。
    • 補助的なタスク訓練の利点を維持しつつ,SFTの簡便性を実現する手法を提案する。
    • 提案手法では,補助タスクの訓練目標をパラメータ空間上で分離し,汎化能力の向上とタスク固有の行動分布への適合を別々に扱う。
    • 小規模なタスクセットを用いてモデルを訓練し,パラメータの差分を能力ベクトルとして活用することで,性能向上が確認された。
    • 軽量な正則化損失を導入することで,補助的なファインチューニングと同等の性能を,計算コストを削減して達成した。

    Link: https://arxiv.org/abs/2603.25661

  • 運転速度の指定は可能か? Bench2Drive-Speed:希望速度条件付き自動運転のためのベンチマークとベースライン [cs.ET, cs.RO, cs.CV]目的:希望速度条件付き自動運転のためのベンチマーク,データセット,およびベースライン
    • 自動運転技術は発展を続けているが,利便性を向上させるための機能は未だ十分ではない。
    • 自動運転において,利用者が速度を調整したり,追い越しを許可したりする機能が不足している。
    • 利用者の希望速度に応じた自動運転を実現し,運転体験の向上を目指す。
    • 提示するBench2Drive-Speedは,希望速度条件付き自動運転を評価するためのベンチマークであり,速度遵守度や追い越し性能を定量的に評価する指標を提供する。
    • 既存の運転データを再アノテーションすることで,専門家によるデータ収集を行わずに,希望速度に応じたモデルの学習が可能となることが示された。
    • 目標速度の追従は比較的容易に達成できるものの,追い越しコマンドの実行は,インタラクティブな行動の複雑さから依然として課題が残る。

    Link: https://arxiv.org/abs/2603.25672

  • 持続的なロボット世界モデル:強化学習による多段階ロールアウトの安定化 [cs.RO, cs.CV]目的:ロボット世界モデルのロールアウト安定化
    • ロボットの行動計画や制御において,物理シミュレーションに頼らない現実的な環境予測が重要である。
    • 既存の世界モデルは短期的な予測に最適化されており,再帰的なロールアウトでは誤差が累積しやすく,長期間のシミュレーションが困難である。
    • 強化学習を用いて世界モデル自身によるロールアウトを学習し,長期的な予測の安定性を向上させる。
    • 強化学習による後学習スキームを導入し,世界モデルを自己回帰的なロールアウトで訓練することで,予測精度を向上させた。
    • 複数の候補未来を生成・比較する訓練プロトコルを設計し,高精度な予測を強化することで,ロールアウトの品質を改善した。
    • 効率的な多視点視覚的忠実度報酬を開発し,密な学習信号を提供することで,より安定した訓練を実現した。 DROIDデータセットで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.25685

  • ズームインのみ:自己回帰的ズーミングによるクロスビュー地理位置特定 [cs.CV, cs.AI]目的:クロスビュー地理位置特定における自己回帰的ズーミングによる位置推定
    • GPSが利用できない環境下での位置特定とナビゲーションの実現に不可欠な技術である。
    • 既存手法は大規模なバッチ処理とハードネガティブマイニングに依存し,地図の幾何学的構造を無視している。
    • ストリートビュー画像からオーバーヘッド画像へのカバレッジミスマッチを解消し,空間推論を明示的に行う。
    • 提案手法「Just Zoom In」は,市規模のオーバーヘッド地図上で自己回帰的にズームインすることで位置を特定する。
    • 従来のコントラスト学習を用いた画像検索手法と比較して,Recall@1(50m以内)が5.5%,Recall@1(100m以内)が9.6%向上した。
    • 粗視点から徐々に詳細な視点へと空間推論を行うことで,クロスビュー地理位置特定における有効性が示された。

    Link: https://arxiv.org/abs/2603.25686

  • 効率的な海洋意味的セグメンテーションのためのラプラシアンピラミッド [cs.RO, cs.CV]目的:海洋環境における効率的な意味的セグメンテーションモデル
    • 海洋における自律航行や環境モニタリング等の応用において,正確な環境理解が不可欠である。
    • 既存手法は計算コストが高く,資源制約のある環境でのリアルタイム処理が困難である。
    • 資源制約下でも高精度なセグメンテーションを実現し,実用的な海洋応用を可能にすること。
    • 提案手法LEMMAは,ラプラシアンピラミッドを利用し,エッジ認識を強化することで高精度なセグメンテーションを実現した。
    • LEMMAは,既存モデルと比較して,学習パラメータ数,計算量,推論時間を大幅に削減した。
    • 油漏れデータセットにおいて93.42%のIoU,Mastr1325データセットにおいて98.97%のmIoUを達成し,有効性を実証した。

    Link: https://arxiv.org/abs/2603.25689

  • Wan-Weaver:分離学習による多岐にわたるモーダル生成 [cs.CL, cs.CV]目的:多岐にわたるモーダルを組み合わせたコンテンツ生成
    • 近年,理解と生成の両面で進歩が見られるが,単一のモーダル出力に留まることが多い。
    • 相互に組み込まれたコンテンツ生成には,データ不足と長距離のクロスモーダル文脈のモデリングの難しさがある。
    • テキスト計画と視覚的一貫性モデリングにより,データ不足を克服し,長距離文脈モデリングを実現すること。
    • Wan-Weaverは,テキストによる記述と画像生成を分離し,大規模なテキストプロキシデータと参照画像データを用いて学習する。
    • これにより,実世界の相互データがなくても,既存手法を上回る優れた性能を示す。
    • タスクの推論と生成能力においても,高い堅牢性と習熟度を示す。

    Link: https://arxiv.org/abs/2603.25706

  • TRACE:最初のフレームの軌跡誘導による動画内の物体運動編集 [cs.CV]目的:動画における物体運動経路の編集
    • 動画編集技術は,コンテンツ制作や映像表現において不可欠な役割を担う。
    • 従来の編集手法は外観操作やポイントトラックに依存し,カメラが動く動画での操作が困難。
    • 最初のフレームで設計した軌跡に基づいて,動画全体の物体運動を制御可能にすること。
    • 本研究では,最初のフレームで軌跡を設計するだけで,時間的に一貫性のある編集動画を生成するTraceフレームワークを提案。
    • 提案手法は,カメラの動き下での軌跡変換と,その軌跡に沿った動画再合成の二段階パイプラインで構成。
    • 多様な実写動画実験により,既存手法よりもコヒーレントで現実的かつ制御可能な編集結果が得られることを示した。

    Link: https://arxiv.org/abs/2603.25707

  • 視覚への注視:幻覚に強いMDLLMのための視覚的注意 [cs.CV]目的:マルチモーダル拡散大規模言語モデルにおける幻覚の抑制
    • マルチモーダルLLMは高度な生成能力を持つが,幻覚という課題を抱えている。
    • 従来のMDLLMは,視覚的な裏付けなしにテキストの尤度でトークンをランク付けする。
    • 視覚的注意を活用し,テキストと視覚の一貫性を高めることで幻覚を軽減する。
    • VISAGEは,クロスアテンション分布の空間エントロピーを推定し,トークンの再ランク付けを行う。
    • これにより,空間的に一様な分布を抑制し,視覚的に根拠のある出力を優先する。
    • MMMU-valとHallusionBenchにおいて,それぞれ8.59%,7.75%の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.25711

  • 視界から消れても記憶に残る:動的ビデオ世界モデルのためのハイブリッドメモリ [cs.CV, cs.AI]目的:動的ビデオ世界モデルにおけるハイブリッドメモリの実現
    • 物理世界をシミュレーションするビデオ世界モデルは,ロボティクスやコンピュータビジョンの発展に不可欠である。
    • 従来のメモリ機構では,動的な物体が視界から消えた後の追跡や再現が難しく,不自然な動きや消失を引き起こす。
    • 静的な背景と動的な物体を別々に管理し,視界外での動きを継続的に予測することで,この問題を解決する。
    • 本研究では,静的な背景の正確な記録と動的な物体の追跡を同時に行うハイブリッドメモリという新しいパラダイムを提案する。
    • 大規模なビデオデータセットHM-Worldを構築し,ハイブリッドメモリの評価を可能にした。
    • 提案手法HyDRAは,隠れた物体の識別と運動を効果的に保持し,既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2603.25716

  • R-C2:サイクル整合性による強化学習がマルチモーダル推論を改善する [cs.AI, cs.CV]目的:マルチモーダル推論の改善
    • 堅牢な知覚と推論には,感覚モダリティ間の整合性が不可欠である。
    • 既存のマルチモーダルモデルは,同じ概念に対する視覚的・テキスト表現で矛盾した予測をすることがある。
    • クロスモーダル不整合を活用し,モデル内部の表現を整合させることを目指す。
    • RC2は,クロスモーダルサイクル整合性を強制する強化学習フレームワークである。
    • この循環的制約は,モデルが内部表現を自律的に整合させることを促す。
    • その結果,モダリティ固有のエラーが軽減され,推論精度が最大7.6ポイント向上した。

    Link: https://arxiv.org/abs/2603.25720

  • 負のサンプル不要:概念中心学習がコントラスト学習モデルの合成能力とゼロショット能力を両立する [cs.CV, cs.LG]目的:視覚と言語間のコントラスト学習モデルにおける合成能力の向上
    • 視覚と言語の理解を統合するモデルは,画像検索やキャプション生成など多様な応用で不可欠である。
    • 従来のモデルは,合成的な表現学習に苦戦し,複雑な関係性を捉えられない場合がある。
    • 本研究は,負のサンプルに頼らずに,概念中心学習によって合成能力を向上させることを目指す。
    • 概念中心の短いキャプションとクロスモーダルアテンションプーリングを導入することで,合成能力のベンチマークで最高水準の性能を達成した。
    • ゼロショット性能や検索能力といった基本的な機能を損なうことなく,合成能力が向上した。
    • 推論コストを増加させることなく,高い性能を両立することに成功した。

    Link: https://arxiv.org/abs/2603.25722

  • AnyHand:RGB(-D)手ポーズ推定のための大規模合成データセット [cs.RO, cs.CV]目的:3D手ポーズ推定のための大規模な合成データセット
    • 手ポーズ推定は,人間とコンピュータのインタラクションやVR/AR等の応用において重要である。
    • 既存の現実世界のデータセットはカバレッジが限られており,合成データセットも詳細な情報が不足している。
    • 大規模かつ多様なデータセットを提供することで,手ポーズ推定の性能と汎化性能の向上を目指す。
    • AnyHandを用いて既存のベースラインを拡張することで,FreiHANDとHO-3D等のベンチマークで大幅な性能向上が確認された。
    • AnyHandで学習したモデルは,ファインチューニングなしでHO-Capデータセットに対する優れた汎化性能を示した。
    • AnyHandで学習したRGB-Dモデルは,HO-3Dベンチマークで優れた性能を達成し,深度情報の統合効果を証明した。

    Link: https://arxiv.org/abs/2603.25726

  • PixelSmile: 微細な表情編集に向けて [cs.CV, cs.AI]目的:微細な表情編集の実現
    • 表情はコミュニケーションにおいて重要な役割を担うため,その制御は様々な応用分野で求められている。
    • 既存手法では,表情間の意味的重複が大きく,微細な表情編集が困難であった。
    • 表情の意味的曖昧さを解消し,より正確かつ制御可能な表情編集手法を開発すること。
    • PixelSmileは,拡散モデルを用いて表情の意味を分離し,高精度な表情編集を可能にする。
    • FFEデータセットとFFE-Benchを用いて,構造的混乱,編集精度,線形制御性,および個人特徴の保持に関する評価を行った。
    • 実験の結果,PixelSmileは既存手法よりも優れた表情分離能力と個人特徴の保持効果を示すことが確認された。

    Link: https://arxiv.org/abs/2603.25728

  • PackForcing:短編ビデオ学習で長編ビデオサンプリングと長文脈推論を実現 [cs.CV, cs.AI]目的:長編ビデオ生成における効率的な文脈管理手法
    • ビデオ生成モデルの発展は目覚ましいが,長編ビデオ生成には課題が多い。
    • 従来のモデルは,KVキャッシュの増大,時間的な反復,誤差の蓄積に悩まされている。
    • 本研究は,文脈圧縮によるメモリ効率の改善と,長編ビデオ生成の実現を目指す。
    • PackForcingは,3種類のトークン分割戦略を用いて,生成履歴を効率的に管理する。
    • これにより,単一のH200 GPUで2分間のビデオ生成が可能となり,KVキャッシュを4GBに抑制。
    • VBenchにおいて,時間的一貫性,動的度合において最先端の結果を示し,短編ビデオによる学習で高品質な長編ビデオ合成が可能となることを証明。

    Link: https://arxiv.org/abs/2603.25730

  • BizGenEval:商業ビジュアルコンテンツ生成のための体系的なベンチマーク [cs.CV]目的:商業ビジュアルコンテンツ生成の評価
    • 画像生成技術は実用的なコンテンツ作成へ応用が拡大しており,その評価が重要である。
    • 既存のベンチマークは自然画像合成に偏り,商業デザインの構造的・多制約な要求に対応できていない。
    • 商業デザインにおける多様な要求を満たす画像生成モデルの能力を体系的に評価すること。
    • BizGenEvalは,スライド,チャート,ウェブページなど5種類の文書タイプを網羅する。
    • テキストレンダリング,レイアウト制御,属性バインド,知識ベース推論の4つの能力を評価する。
    • 26の画像生成システムを評価した結果,専門的なコンテンツ作成要件との間に大きなギャップが存在することが判明した。

    Link: https://arxiv.org/abs/2603.25732

  • SlotVTG:汎用的な動画時間的グラウンディングのためのオブジェクト中心アダプター [cs.CV]目的:動画時間的グラウンディングにおける汎化性能の向上
    • 動画理解は,様々なアプリケーションにおいて不可欠であり,その精度向上が求められている。
    • 既存のモデルは,データセット固有のショートカットを学習しやすく,未知のドメインへの汎化が困難である。
    • オブジェクト中心学習による,視覚内容に基づいたより頑健な時間的グラウンディングを実現する。
    • SlotVTGは,軽量なスロットアダプターを導入し,既存のMLLMを最小限のコストでオブジェクト中心の視覚推論へと導く。
    • スロットアテンションにより視覚トークンを抽象的なスロットに分解し,自己教師あり学習によるオブジェクト性事前知識を活用することで,意味的に一貫性のあるスロット形成を促す。
    • 標準的なVTGベンチマークにおけるクロスドメイン評価により,OODロバスト性の向上が確認された。

    Link: https://arxiv.org/abs/2603.25733

  • 分類子を用いない人間と物体のインタラクションアニメーションの実現 [cs.CV]目的:人間と物体のインタラクションアニメーションの生成
    • 人間と物体のインタラクションは,ロボット工学やバーチャルリアリティなど,様々な分野で重要な役割を担う。
    • 従来の生成手法では,リアルなインタラクションを実現するために,手動で設計された制約や事前知識に依存していた。
    • 本研究は,データ駆動型のアプローチにより,そのような制約に頼らずに,自然なインタラクションを生成することを目指す。
    • 提案手法LIGHTは,ノイズ除去のペースを利用してガイダンスを生成し,分類子を必要としない。
    • 実験の結果,LIGHTは従来のclassifier-free guidanceよりも接触の忠実度が高く,より現実的なインタラクションを生成することが示された。
    • また,未知の物体やタスクへの汎化性能も向上することが確認された。

    Link: https://arxiv.org/abs/2603.25734

  • 卓球におけるショットの質と選手の技能レベルの定量化 [cs.CV]目的:選手の技能レベルの定量化
    • 個人の行動は技能レベルに大きく左右されるため,技能レベルの評価は重要である。
    • 技能レベルは観察される行動から直接的に読み取ることが難しく,定量化が困難である。
    • ゲームの文脈を考慮したラケットワークをモデル化し,技能レベルを定量的に評価することを目指す。
    • 選手個人の戦術的特徴を潜在空間に埋め込み,選手の技能レベルを反映していることを確認した。
    • 潜在空間は,プレイスタイルや属性など,技能を構成する様々な要素を表現していることが示された。
    • 潜在空間の埋め込みを用いて相対的,絶対的な技能レベルの予測が可能であることが示された。

    Link: https://arxiv.org/abs/2603.25736

  • PSDesigner:人間らしいクリエイティブワークフローを持つ自動グラフィックデザインシステム [cs.CV]目的:自動グラフィックデザインシステムの開発
    • ECや広告など,様々な分野で重要な役割を担うグラフィックデザインの重要性
    • ユーザーの意図を忠実に反映した編集可能なデザインファイルを生成する自動化が困難
    • 専門家のようなデザイン手順を学習し,柔軟で直感的なデザインを可能にする
    • PSDesignerは,ユーザー指示に基づきテーマ関連のアセットを収集し,デザインファイルを操作するツール呼び出しを自律的に推論・実行する。
    • CreativePSDという高品質なPSDデザインファイルデータセットを構築し,専門的なデザイン手順の学習を可能にした。
    • 多様なグラフィックデザインタスクにおいて,既存手法を凌駕する性能を示し,非専門家でも高品質なデザインを容易に作成できる。

    Link: https://arxiv.org/abs/2603.25738

  • MegaFlow:ゼロショット大規模変位光学的フロー [cs.CV]目的:大規模変位光学的フローの推定
    • ロボット工学やコンピュータビジョンにおいて,物体の動きを正確に捉えることが重要である。
    • 既存手法は反復的な局所探索や特定ドメインへの調整に依存し,大規模変位や未学習データへの汎化性能が低い。
    • 汎化性能の高い大規模変位光学的フロー推定モデルを開発し,動き推定の新たなパラダイムを提示する。
    • MegaFlowは,事前に学習されたVision Transformerの特徴を活用し,大規模変位を捉えるグローバルマッチング問題を解く。
    • 軽量な反復的改善によりサブピクセル精度を向上させ,複数の光学的フローベンチマークで最先端のゼロショット性能を達成した。
    • 長距離点追跡ベンチマークにおいても高いゼロショット性能を示し,優れた転移学習能力と汎用的な動き推定への可能性を示唆している。

    Link: https://arxiv.org/abs/2603.25739

  • 私の道を運転する:パーソナライズされた運転のための視覚-言語-行動モデルの嗜好合わせ [cs.RO, cs.AI, cs.CV, cs.LG, cs.MA]目的:パーソナライズされた運転のための視覚-言語-行動モデルの嗜好合わせ
    • 自動運転技術の発展において,安全性向上に加え,人間らしい運転体験の提供が重要となっている。
    • 既存の自動運転システムは,汎用的な目標に最適化するか,固定された運転モードに依存しており,個人の嗜好に対応できていない。
    • 本研究は,運転者の長期的な習慣とリアルタイムの指示を考慮し,個々の運転スタイルに適応する自動運転システムを開発する。
    • 提案手法DMWは,運転者ごとの埋め込み表現を学習し,計画時にこれを条件として活用することで,運転スタイルを模倣する。
    • Bench2Driveベンチマークでの評価により,DMWがスタイル指示への適応性を向上させることが示された。
    • ユーザー調査では,生成された運転行動が各運転者のスタイルとして認識可能であることが示され,パーソナライズの有効性が確認された。

    Link: https://arxiv.org/abs/2603.25740

  • 自然言語指示による運転学習:Vega [cs.CV, cs.AI, cs.RO]目的:自然言語指示に基づいた運転生成および計画
    • 自動運転の高度化には,周囲状況の理解に加え,多様な指示への対応が不可欠である。
    • 既存のシステムは,指示をシーン記述や推論に限定し,個別の運転ニーズへの柔軟な対応が課題である。
    • 多様な運転指示に対応し,より知能的でパーソナライズされた運転システムの実現を目指す。
    • 大規模な運転データセットInstructSceneを構築し,多様な運転指示とそれに対応する軌跡を収集した。
    • 視覚情報と自然言語指示を処理するVegaモデルを提案し,拡散モデルを用いて未来予測と軌跡生成を実現した。
    • 実験により,提案手法が優れた計画性能と指示追従能力を示すことを確認し,高度な自動運転への道を開く。

    Link: https://arxiv.org/abs/2603.25741

  • RefAlign:参照画像と動画生成における表現の整列 [cs.CV]目的:参照画像とテキストプロンプトを用いた動画生成における表現の整列
    • 動画生成技術は,パーソナライズ広告やバーチャル試着など,多様な応用可能性を持つ重要な分野である。
    • 既存手法では,参照画像から得られる潜在表現と他の特徴量との間でモダリティの不一致が生じ,コピペのようなアーティファクトや被写体混同が発生しやすい。
    • 参照画像の表現を,より意味的な空間に整列させることで,生成される動画の一貫性と識別性を高めることを目指す。
    • 提案手法RefAlignは,参照ブランチの特徴量を,視覚的基礎モデル(VFM)の意味空間に明示的に整列させるフレームワークである。
    • 参照画像の同一被写体特徴量間の距離を縮め,異なる被写体特徴量間の距離を広げることで,被写体の一貫性と識別性を向上させている。
    • OpenS2V-Evalベンチマークでの実験により,RefAlignが既存最先端手法を上回り,明示的な参照整列の有効性が確認された。

    Link: https://arxiv.org/abs/2603.25743

  • MuRF:ビジョンファウンデーションモデルのマルチスケール潜在能力の解放 [cs.CV]目的:ビジョンファウンデーションモデルのマルチスケール推論による性能向上
    • 近年,コンピュータビジョンにおいて重要な役割を担うビジョンファウンデーションモデルの活用。
    • 既存モデルは推論時に固定スケールに制限されており,視覚知覚における多様な解像度の利点を活かせていない。
    • 異なる解像度での特徴を融合することで,モデルの汎化性能と認識精度を向上させることを目指す。
    • MuRFは,凍結されたビジョンファウンデーションモデルに入力画像を複数解像度で処理し,特徴を融合するシンプルな手法である。
    • MuRFは特定のアーキテクチャに依存せず,学習不要でビジョン表現を強化する汎用的なモジュールとして機能する。
    • DINOv2やSigLIP2など,様々なビジョンファウンデーションモデルとタスクで有効性が確認された。

    Link: https://arxiv.org/abs/2603.25744

  • ガウス基底の削減,テクスチャの強化:4Kフォワードレンダリングによるスプラッティング [cs.CV]目的:高解像度な新規視点合成の実現
    • 3Dガウススプラッティングは,リアルな3Dシーンの高速レンダリングを可能にする技術として注目されている。
    • 既存手法では解像度向上に伴い計算量が急増し,4Kのような高解像度合成が困難であった。
    • 本研究では,ガウス基底を削減しテクスチャを強化することで,高解像度合成の制約を克服することを目指す。
    • 提案手法LGTMは,少ないガウス基底とテクスチャを組み合わせることで,解像度と幾何学的複雑さを分離した。
    • LGTMはシーン固有の最適化なしに,4K新規視点合成を可能にした。
    • これにより,フォワードレンダリング手法における高解像度合成の新たな可能性が開かれた。

    Link: https://arxiv.org/abs/2603.25745

  • ShotStream:インタラクティブなストーリーテリングのためのマルチショット動画ストリーミング生成 [cs.CV]目的:インタラクティブなストーリーテリングと効率的なフレーム生成
    • 長編の物語性を伴う動画生成は重要であり,没入感のあるコンテンツ制作に不可欠である。
    • 従来の双方向アーキテクチャは,インタラクティブ性に乏しく,遅延が大きいという課題があった。
    • リアルタイムでのインタラクティブなストーリーテリングを可能にする,低遅延な動画生成を目指す。
    • ShotStreamは,因果的なマルチショットアーキテクチャを採用し,ストリーミングプロンプトによる動的な指示を可能にした。
    • グローバル/ローカルキャッシュメカニズムにより,ショット間の視覚的な一貫性と,エラーの蓄積を抑制することに成功した。
    • 単一のGPU上で16FPSを達成し,従来よりも高速かつ高品質な動画生成を実現した。

    Link: https://arxiv.org/abs/2603.25746

  • 敵対的選択 [math.CO, cs.DM, math.GR, econ.TH, cs.GT, math.OC, stat.OT]目的:集団の特性を代表する項目の選択
    • 大規模集団を代表する項目選択は,司法,政治など様々な場面で重要である。
    • 既存手法では,対立する利害を持つ当事者の存在を考慮した代表性評価が困難である。
    • 対立する当事者の選好を考慮した,最適な代表性を持つ選択メカニズムを提案する。
    • 提案する分位点メカニズムは,あらゆる実行可能なメカニズムの中で代表性が最適であることが示された。
    • このメカニズムは,陪審員選定,集団訴訟,委員会編成などへの応用が期待できる。

    Link: https://arxiv.org/abs/2603.24727

  • コロン・ベンチ:完全手順大腸内視鏡ビデオにおけるスケーラブルな緻密病変アノテーションのためのエージェントワークフロー [eess.IV, cs.CV, cs.HC]目的:完全手順大腸内視鏡ビデオにおける緻密な病変アノテーションのためのスケーラブルなワークフロー
    • 大腸癌予防には早期スクリーニングが不可欠であり,AI技術の発展には高品質なデータセットが重要である。
    • 既存のデータセットは単一クラスのポリープ検出に偏っており,多岐にわたる病変や臨床記述のデータが不足している。
    • 多種多様な病変と臨床情報を網羅した大規模データセットを構築し,最新のマルチモーダル大規模言語モデルの評価を可能にすること。
    • 本研究で作成したColon-Benchは,528本のビデオ,14種類の病変カテゴリー,30万以上のバウンディングボックスを含む大規模なデータセットである。
    • Colon-Benchを用いた評価により,最先端のMLLMが医療分野において高い局所化性能を示すことが明らかになった。
    • 「コロン・スキル」と呼ばれる新しいプロンプト戦略を導入することで,MLLMのゼロショット性能を最大9.7%向上させた。

    Link: https://arxiv.org/abs/2603.25645

  • 画像とテキストの検索のための結合多様性感受性モーメンタムコントラスト学習 [cs.RO, cs.CV]目的:画像とテキストの検索におけるクロスモーダル表現の向上
    • 画像とテキスト間の意味的ギャップを埋めることは,マルチモーダル情報処理において重要である。
    • コントラスト学習は負例の選択と重み付けに依存し,外部知識の活用が不十分である。
    • 多様性に着目したコントラスト学習と知識グラフの活用により,表現学習の性能向上を目指す。
    • 提案手法CODERは,動的な辞書と適応的な負例重み付けにより,多様性感受性コントラスト学習を実現した。
    • 画像/テキストレベルと概念レベルの表現学習を組み合わせ,擬似クラスタリングラベル予測損失を活用した。
    • MSCOCOとFlickr30Kでの実験により,CODERが最先端手法を大きく上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2208.09843

  • アワーグラス拡散Transformerによるスケーラブルな高解像度ピクセル空間画像生成 [cs.CV, cs.AI, cs.LG]目的:高解像度画像生成の実現
    • 画像生成技術は,コンピュータビジョン分野において重要な役割を担う
    • 高解像度画像の生成は計算コストが高く,学習が困難である
    • ピクセル空間での直接的な高解像度画像生成を可能とする手法の開発
    • 本研究では,ピクセル数に対して線形にスケールするHourglass Diffusion Transformer (HDiT) を提案する
    • HDiTは,畳み込みU-Netの効率性とTransformerのスケーラビリティを融合させたものである
    • ImageNetおよびFFHQにおいて,既存モデルとの競争力,そして新たな最先端性能を達成した

    Link: https://arxiv.org/abs/2401.11605

  • テキスト画像生成におけるモデルが好むプロンプト生成のためのユーザフレンドリーなフレームワーク [cs.MM, cs.AI, cs.CV]目的:テキスト画像生成モデルにおけるモデルが好むプロンプトの自動生成
    • 画像生成AIの性能向上には,適切なプロンプトが不可欠である。高品質な画像生成には,効果的なプロンプト設計が重要となる。
    • プロンプト設計には専門知識が必要であり,初心者にとっては望ましい結果を得ることが困難である。
    • ユーザの入力とモデルの学習データ間のギャップを埋め,より自然なプロンプト生成を可能にすること。
    • 提案手法は,既存の手法と比較して,視覚的に魅力的な多様な画像を生成できることが実験的に示された。
    • 品質と美観に関する6つの指標において,平均5%の改善が確認された。
    • ユーザの入力プロンプトを,モデルが好むプロンプトに自動的に変換するフレームワークを構築した。

    Link: https://arxiv.org/abs/2402.12760

  • MindSet: Vision - DNNの主要な心理実験におけるテスト用ツールボックス [cs.CV, cs.AI]目的:深層ニューラルネットワークの心理学的実験への適合性評価
    • 深層ニューラルネットワークと人間の視覚の整合性評価は,AIの信頼性と解釈可能性向上に不可欠である。
    • 既存の評価方法は受動的観察に基づくため,知覚メカニズムの仮説検証には限界があった。
    • 人間の視覚知覚と物体認識に関する仮説を検証できる,操作された刺激を用いた評価手法を確立する。
    • 本研究で開発されたMindSet: Visionは,30の心理学的実験に対応する画像データセットとスクリプトを提供する。
    • データセットは多様なパラメータ設定が可能であり,様々な研究への応用が期待される。
    • 既存モデルの評価により,本ツールボックスがDNNモデルの改善に貢献する可能性が示された。

    Link: https://arxiv.org/abs/2404.05290

  • 学習不要なオープンボキャブラリセグメンテーションのための自己較正CLIP [cs.CV]目的:オープンボキャブラリセグメンテーションの性能向上
    • 画像とテキストの関連性を学習するモデルは,画像認識の幅広いタスクで重要な役割を果たす。
    • 既存のCLIPモデルは局所的な詳細を捉えにくく,セグメンテーションタスクにおいて十分な性能を発揮できていない。
    • 異常トークンを抑制し,CLIPの表現力を高めることで,セグメンテーション精度を向上させる。
    • 提案手法SC-CLIPは,CLIPの学習済みパラメータを変更することなく,より詳細な表現を獲得する。
    • 異常トークンの特定と置換,特徴量の識別性と注意相関の強化により,空間認識能力が向上する。
    • SC-CLIPは,既存手法を大きく上回り,全てのデータセットで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2411.15869

  • 多様なNeRFアーキテクチャにおける重み空間の表現学習 [cs.CL, cs.CY, cs.SI, cs.CV]目的:多様なNeRFアーキテクチャに対応可能な表現学習フレームワーク
    • 3次元オブジェクトやシーンの表現方法としてNeRFが注目されており,その応用範囲は広い。
    • 既存のフレームワークは特定のNeRFアーキテクチャに依存しており,汎用性に課題があった。
    • 様々なNeRFアーキテクチャに対応し,未知のアーキテクチャへの推論を可能にすること。
    • 提案手法は,MLP,Tri-Plane,Hash Tableを含む13種類のNeRFアーキテクチャで有効性を示した。
    • 分類,検索,言語タスクにおいて,既存の単一アーキテクチャに限定されたフレームワークと同等以上の性能を発揮した。
    • アーキテクチャに依存しない潜在空間を獲得することで,未知のアーキテクチャへの対応を実現した。

    Link: https://arxiv.org/abs/2502.09623

  • 3Dダイナミクスを考慮した操作:操作ポリシーに3D予測能力を付与 [cs.CV, cs.RO]目的:3Dダイナミクスを考慮した操作フレームワーク
    • ロボットの操作性能向上には,環境の理解が不可欠である。
    • 既存研究は2D視覚ダイナミクスに限定されており,奥行き方向の動きを伴う複雑な操作に課題がある。
    • 奥行き方向の動きを含む操作における,ロボットのロバストな操作性能向上を目指す。
    • 提案フレームワークは,3D世界モデルとポリシー学習を統合し,3D予測能力を操作ポリシーに付与する。
    • 自己教師あり学習タスク(深度推定,RGB-D予測,3Dフロー予測)を組み合わせることで,より高度な予測を可能にする。
    • シミュレーションと実環境での実験により,提案手法が操作性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2502.10028

  • ConcreTizer: ボクセル占有分類と分散制御による3D点群復元へのモデル反転攻撃 [cs.CV]目的:3D点群データの復元を目的とするモデル反転攻撃手法
    • 自動運転車の普及に伴い,3D点群データが重要な役割を担う一方,プライバシー保護の重要性が高まっている。
    • 2Dデータにおけるモデル反転攻撃の研究は進んでいるものの,3D点群データへの応用は未だ十分ではない。
    • ボクセル化後の疎性と曖昧さ,特徴抽出層における非空ボクセルの分散という課題を克服し,3D点群データの復元を可能とする。
    • ConcreTizerは,ボクセル占有分類により空ボクセルと非空ボクセルを識別し,分散制御による指導を通じて非空ボクセルの分散を抑制する。
    • KITTIやWaymoなどのベンチマークデータセットを用いた実験により,ConcreTizerが破壊された3D特徴データから元の3D点群シーンを具体的に復元できることが示された。
    • 本研究は,3Dデータがモデル反転攻撃に対して脆弱であり,堅牢な防御戦略が急務であることを強調している。

    Link: https://arxiv.org/abs/2503.06986

  • PE3R:知覚効率の良い3次元再構成 [cs.CV]目的:効率的かつ汎用的な3次元意味再構成
    • 二次元画像からの三次元シーン理解は,ロボットや拡張現実などの応用において重要である。
    • 既存手法は,汎化性能の限界,シーン固有の最適化への依存,視点間の一貫性の欠如などの課題を抱えている。
    • PE3Rは,シーン固有の調整なしに多様なシーンや物体カテゴリで高い性能を発揮することを目指す。
    • PE3Rは,マルチビュー幾何学と二次元意味事前知識を統合することで,高速かつ高精度な3次元再構成を実現した。
    • オープンボキャブラリセグメンテーションとマルチビュー深度推定において,最先端の精度を達成した。
    • 推論速度は最大9倍に向上し,スケーラブルな言語駆動型3次元シーン理解への道を開く。

    Link: https://arxiv.org/abs/2503.07507

  • より多くの信号が報告よりも多いピア予測 [cs.GT]目的:信号空間が報告空間よりも豊富なピア予測メカニズム
    • ピア予測は,集団の知識を活用し,客観的な真実を推定する手段として重要である。
    • 既存の研究では,信号と報告の空間が同一であるという仮定の下で議論されている。
    • 現実の状況における信号と報告の空間の不一致という問題を解決すること。
    • 従来のピア予測メカニズムの均衡は,より豊かな信号空間下では成立しなくなる場合がある。
    • 残った均衡も不安定であることが動的分析により示された。
    • 信号空間の粒度が報告空間よりも細かい場合にも同様の結果が拡張される。
    • これらの結果に基づき,より安定した閾値均衡を持つ新しいメカニズムを開発した。

    Link: https://arxiv.org/abs/2503.16280

  • ゲームプレイ分析からの注意パターン解明:強化学習への応用 [cs.LG, cs.CV]目的:ゲームプレイデータのみから人間の内的な注意パターン(意思決定に関連する注意)を明らかにする手法
    • 人間の認知メカニズム理解は,人間とAIの協調やAI設計において重要である。
    • 人間の内的な注意パターンを客観的に捉えることは困難であり,新たな手法が求められている。
    • ゲームプレイデータから人間の注意パターンを推定し,強化学習への応用可能性を探る。
    • 人間の注意マップは,エージェントのものより疎であり,眼球追跡データに基づくモデルとも整合性があることが示された。
    • 提示手法は,人間の内的な注意パターンを捉えている可能性が示唆された。
    • 人間の注意をガイドとした強化学習エージェントは,ベースラインよりもわずかに改善し,安定した学習を達成した。

    Link: https://arxiv.org/abs/2504.11118

  • ShowMak3r:テレビ番組の構成的再構築 [cs.CV]目的:テレビ番組のシーン再構築パイプライン
    • 映像コンテンツの新たな活用法創出のため,3次元での番組制作技術が求められている。
    • 従来の技術では,出演者の遮り合いや表情変化,背景の複雑さなどが課題となっていた。
    • テレビ番組のような複雑な映像から,編集可能な3Dシーンの再構築を目指す。
    • ShowMak3rは,深度情報を利用した人物位置特定と姿勢推定,ショット間のトラッキングを実現した。
    • 表情変化を動的に復元する顔適合ネットワークを導入し,より自然な再構築を可能にした。
    • Sitcoms3Dデータセットでの実験により,異なる視点からのシーン再構築の有効性が確認された。

    Link: https://arxiv.org/abs/2504.19584

  • 医療画像に対する視覚的質問応答における構造的因果モデルと大規模言語モデルの統合 [cs.CV]目的:医療画像と質問に基づいた医療質問応答の精度向上
    • 医療分野における画像診断支援の重要性が高まっており,正確な質問応答が求められている。
    • 医療データは複雑で交絡因子が多く,画像と質問間のバイアスが精度低下の原因となっている。
    • 画像と質問間の交絡効果を排除し,因果関係に基づいた正確な応答を目指す。
    • 提案手法は,3つの医療画像質問応答データセットにおいて,既存手法と比較して大幅な精度向上を達成した。
    • 本研究では,視覚的要素とテキスト的要素間の相互作用を明示的に表現する新しい因果グラフ構造を導入した。
    • 交絡効果の排除のため,相互情報を用いた不要な相関の発見と多変量リサンプリングフロントドア調整法を提案した。

    Link: https://arxiv.org/abs/2505.02703

  • CompBench:複雑な指示に基づく画像編集のベンチマーク [cs.CV]目的:複雑な指示に基づく画像編集のベンチマーク
    • 現実世界の応用において,複雑なシーン操作の需要が高まっているため。
    • 既存のベンチマークはタスクの複雑さを過小評価し,詳細な指示に欠けている。
    • 複雑な指示に対する画像編集モデルの正確な操作能力を評価するためのベンチマークを提供する。
    • CompBenchは,現在の画像編集モデルの根本的な限界を明らかにした。
    • 指示と複雑な編集要件の整合性を高めるための指示分離戦略を提案した。
    • MLLMと人間の協調フレームワークを用いて,大規模ベンチマークを構築した。

    Link: https://arxiv.org/abs/2505.12200

  • ロバストなテキスト-ビデオ生成のための潜在ビデオ拡散モデルにおける耐障害性学習 [cs.CV, cs.LG]目的:テキストからのビデオ生成におけるロバスト性の向上
    • ビデオ生成技術は,コンテンツ制作やデータ拡張など,多様な応用分野で重要性が増している。
    • 潜在ビデオ拡散モデルはノイズに対する脆弱性を持ち,わずかな入力の摂動がビデオの品質を損なう可能性がある。
    • 入力ノイズに対するロバスト性を高め,より安定したビデオ生成を実現することを目指す。
    • 提案手法CAT-LVDMは,既存のビデオ拡散モデルと比較して,FVDスコアを最大31.9%削減することに成功した。
    • 特に,UCF-101データセットにおいては,12.3%の性能向上を示し,大規模な拡散モデルをも凌駕する結果となった。
    • 低ランクでデータに整合したノイズ注入が,ロバスト性と汎化性能の向上に寄与することが理論的にも裏付けられた。

    Link: https://arxiv.org/abs/2505.21545

  • マルチモーダル大規模言語モデルにおける空間的妥当性推論のための新たなベンチマークSPR-128K [cs.CV]目的:空間的妥当性推論能力の評価と改善
    • 画像生成技術は飛躍的に向上したが,画像評価は遅れており,重要性が増している。
    • マルチモーダル大規模言語モデルは,データ不足と空間的推論能力の弱さにより,画像評価において性能が低い。
    • 大規模データセットと新たな学習手法を用いて,空間的妥当性推論能力の向上を目指す。
    • 128Kを超えるサンプルからなる空間的妥当性推論データセットSPR-128Kを構築した。
    • 動的比例精度(DPA)報酬を導入したDPA-GRPOにより,既存のGRPOよりも優れた性能を達成した。
    • DPA-GRPOを用いた小型モデルが,大規模オープンソースおよびクローズドソースモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2505.23265

  • LLMのボトルネック:オープンソースのビジョンLLMが階層的視覚認識で苦戦する理由 [cs.CV, cs.AI, cs.CL, cs.LG]目的:オープンソースのビジョンLLMにおける階層的視覚認識のボトルネック
    • 視覚認識は,AIの重要な応用分野であり,人間の知能に近づく上で不可欠である。
    • 既存のLLMは,視覚世界に関する階層的な知識を欠いている場合がある。
    • LLMの知識不足が,ビジョンLLMの階層的視覚認識能力を制限している点を解明する。
    • 多くのオープンソースLLMは,生物学的分類体系といった視覚世界の階層構造を理解していないことが示された。
    • 構築されたVQAタスクを用いたファインチューニングは,LLMの階層的一貫性を改善するが,ビジョンLLMへの影響は限定的である。
    • LLMが階層的知識を獲得しない限り,オープンソースのビジョンLLMが視覚概念を階層的に理解することは困難であると考えられる。

    Link: https://arxiv.org/abs/2505.24840

  • ビデオフレーム補間の進展に関する包括的な調査 [cs.CV]目的:ビデオフレーム補間技術の進展の包括的な調査
    • 映像処理において,滑らかな動画生成は重要な課題であり,フレーム補間はその鍵となる技術である。
    • 大規模な動きや遮蔽物,照明変化などにより,高画質なフレーム補間は依然として難しい課題である。
    • ビデオフレーム補間技術の現状を整理し,今後の研究方向性を示すことで,発展に貢献する。
    • 本調査では,250以上の代表的な論文を網羅し,ビデオフレーム補間技術の進展を体系的に分類した。
    • 主要な学習パラダイムとして,中心時刻フレーム補間と任意時刻フレーム補間を整理し,各手法の特徴を分析した。
    • 大規模な動き,遮蔽,照明変化,非線形運動といった課題と,標準的なデータセット,損失関数,評価指標についてレビューした。

    Link: https://arxiv.org/abs/2506.01061

  • 複数値ホログラフィック輝度場 [cs.CL, cs.HC, cs.CL, cs.GR, cs.CV, cs.ET]目的:物理ベースレンダリングの進展に向けた光の波動特性のモデリング
    • 物理的に正しい画像生成には,光の波動特性を正確に再現することが不可欠である。
    • 従来のレンダリング手法は,光の強度のみに焦点を当て,位相情報を考慮していない場合が多い。
    • 光の波動特性を直接モデル化し,3Dジオメトリとの整合性を高めることで表現ギャップを埋める。
    • 本研究では,複数値ガウス素子を用いてシーンを表現し,振幅と位相を直接最適化する手法を提案した。
    • この手法により,計算コストの高いホログラフィックレンダリングを必要とせず,レンダリング速度を30倍から1万倍に向上させた。
    • 提案手法は,最先端のホログラフィー技術と同等の画像品質を実現し,実用的なホログラフィックレンダリングへの道を開く。

    Link: https://arxiv.org/abs/2506.08350

  • パッチから位置を特定: 脳病変検出のための教師なし学習 [cs.CV, cs.LG]目的:脳病変の局所化学習
    • MRI画像における脳病変検出は,診断と治療において不可欠である。
    • 教師あり学習には注釈付き病変が必要であり,労力がかかる。
    • 正常な脳画像から学習し,教師なしで病変を検出する。
    • 本研究では,パッチの位置予測誤差の大きさで異常領域を検出するPatch2Locを提案。
    • BraTS2021,MSLUB,ATLAS,WMHデータセットを用いた実験で,既存の教師なしセグメンテーション手法を上回る性能を示した。
    • 生成されたヒートマップは,より詳細なセグメンテーションに活用可能である。

    Link: https://arxiv.org/abs/2506.22504

  • ハイパーガウス関数:高忠実度アニメーション可能な顔アバターのための高次元ガウススプラッティング [cs.CV, cs.GR]目的:高画質アニメーション可能な顔アバターの作成
    • 拡張現実や仮想現実における顔アバターの需要が高く,高品質な表現が求められている。
    • 従来のガウススプラッティングは静止画には優れるが,非線形な変形や複雑なライティング表現が課題である。
    • 高次元ガウス関数を用いて表現力を高め,より自然な顔アバターを実現すること。
    • 本研究では,ガウス関数を拡張した「ハイパーガウス関数」を導入し,既存のモデルに組み込むことで効率性と表現力を向上させた。
    • 実験結果から,ハイパーガウス関数は従来のガウススプラッティングを数値的にも視覚的にも上回り,特に細部の表現に優れていることが示された。
    • メガネのフレーム,歯,複雑な表情変化,光沢のある反射など,高周波なディテールにおいて顕著な改善が見られた。

    Link: https://arxiv.org/abs/2507.02803