arXiv雑要約

画像・音声 - 2026/03/06 公開

  • WebChain:大規模な人間アノテーション付きウェブインタラクション追跡データセット [cs.AI, cs.CV]目的:実世界のウェブサイトにおける人間による操作軌跡のデータセット
    • ウェブエージェント研究の発展には,現実世界のウェブサイトでのユーザー行動データの重要性が高い。
    • 既存のデータセットは規模が小さく,複雑なタスクを網羅していない場合がある。
    • ウェブエージェントの性能向上と厳密な評価のための,高品質で大規模なデータセットの必要性。
    • WebChainは31,725件の軌跡,318,000ステップを含む,大規模なオープンソースデータセットである。
    • 視覚情報,構造情報,アクションデータのTriple Alignmentにより,豊富なマルチモーダルな学習が可能となる。
    • Dual Mid-Trainingという手法を提案し,WebChainBenchや他のGUIベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05295

  • WavSLM:WavLM蒸留による単一ストリーム音声言語モデル [cs.LG, cs.AI, cs.CL, cs.SD]目的:単一ストリーム音声言語モデルの構築
    • 音声処理分野における言語モデルの重要性が増している
    • 既存の音声言語モデルは複雑な構造やテキスト依存性が課題である
    • テキストを用いずに,効率的な音声言語モデルを開発すること
    • WavSLMは,自己教師あり学習モデルWavLMの表現を蒸留することで構築された。
    • 単一のコードブックと自己回帰的な予測タスクを用いることで,音声と意味情報を同時にモデル化する。
    • 少ないパラメータとデータで,既存モデルと同等の性能を達成し,ストリーミング推論も可能である。

    Link: https://arxiv.org/abs/2603.05299

  • 条件化埋め込みの層別注入による音声強調:SLICE [cs.SD]目的:複合的な音声劣化に対する音声強調手法の開発
    • 現実の音声はノイズ,残響,非線歪みなど複数の劣化を伴うため,高音質な音声処理が不可欠である。
    • 拡散モデルは単一の劣化には強いが,複数の劣化が重なった状況下では性能が低下する。
    • 劣化情報をモデル全体に効果的に伝播させ,複合劣化環境下での性能向上を目指す。
    • 事前学習済みのエンコーダを用いて劣化情報を抽出し,タイムステップ埋め込みに層別に注入する手法を提案した。
    • 入力層のみに条件化する手法と比較して,層別注入は複合劣化環境下で優れた性能を発揮する。
    • 提案手法は,多様な現実世界の録音データに対しても有効であることが示された。

    Link: https://arxiv.org/abs/2603.05302

  • Fusion4CA:包括的な画像活用による3次元物体検出の性能向上 [cs.CV]目的:3次元物体検出のためのLiDARとRGBデータの融合手法
    • 自動運転システムにおいて,周囲環境の正確な認識は安全性確保に不可欠である。
    • 既存手法ではLiDARデータへの依存度が高く,RGB情報の活用が不十分である。
    • RGB情報の効果的な活用により,3次元物体検出の精度向上を目指す。
    • 提案手法Fusion4CAは,BEVFusionフレームワークを基盤とし,画像特徴と3次元形状を照合するモジュールを導入した。
    • カメラ補助ブランチを導入することで,RGB情報の学習を促進し,性能向上を実現した。
    • nuScenesデータセットにおいて,少ない計算量増加でベースラインを上回るmAPを達成し,汎化性能も確認された。

    Link: https://arxiv.org/abs/2603.05305

  • 潜在マーク:ニューラル再合成に強い音声ウォーターマーク [cs.RO, cs.SD, cs.AI]目的:ニューラル再合成に耐性を持つ音声ウォーターマーク技術
    • 音声コンテンツの不正利用防止は重要であり,著作権保護の鍵となる。
    • 従来のウォーターマークは,ニューラルオーディオコーデックによる意味的圧縮に弱い。
    • コーデックの潜在空間にウォーターマークを埋め込み,意味的圧縮への耐性を高める。
    • 提案手法Latent-Markは,複数のコーデックを対象とした最適化により,未知のコーデックへの高い転送性能を示す。
    • 従来のDSP攻撃に対する耐性も高く,知覚的な劣化も最小限に抑えることが確認された。
    • 複雑な生成歪みに対しても整合性を維持できる汎用的なウォーターマーク技術への道を開く。

    Link: https://arxiv.org/abs/2603.05310

  • 拡散Transformerの加速のための頻度を考慮したエラー境界付きキャッシュ [cs.CV]目的:拡散Transformerの推論速度向上
    • 高画質画像生成において拡散Transformerが主流であり,効率化が求められている
    • 既存のキャッシュ手法は,時間,深さ,特徴次元における非一様性を考慮していない
    • 時間,深さ,特徴次元の非一様性を考慮し,高速かつ高画質な推論を実現すること
    • SpectralCacheはFLUX.1-schnell (512x512)において,2.46倍の速度向上を達成した。
    • LPIPS 0.217,SSIM 0.727であり,既存手法TeaCache (2.12x, LPIPS 0.215, SSIM 0.734)を16%上回る。
    • 学習不要で既存の拡散Transformerアーキテクチャに容易に組み込める。

    Link: https://arxiv.org/abs/2603.05315

  • 暗闇における構造復元:Dark3R [cs.CV]目的:低照度環境下での構造復元手法
    • ロボットや自動運転において,暗視下での環境理解は不可欠である。
    • 従来の構造復元手法は,低信号対雑音比(SNR)環境下では性能が著しく低下する。
    • SNRが低い暗闇環境下でもロバストな構造復元を実現することを目的とする。
    • Dark3Rは,大規模3Dモデルを蒸留することで,極端な低照度下でも特徴量マッチングとカメラ姿勢推定を可能にする。
    • 3D教師データを用いず,ノイズ付き/クリーンなロー画像ペアのみで学習可能である。
    • 提案手法は,新規の露光ブラケットデータセットにおいて,低SNR環境下での構造復元と暗闇環境下での新規視点合成において最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.05330

  • マルチ解像度スプーフ検出を用いた離散音声合成における階層的デコーディング [cs.SD, eess.AS]目的:離散音声合成における品質向上
    • 近年,ニューラルコーデック言語モデルによる高品質な音声合成が注目されている。
    • トークンレベルのアーティファクトや分布のずれにより,生成音声の自然さが損なわれる場合がある。
    • 学習なしで,スプーフ検出によるガイダンスを通して音声合成のロバスト性を高める。
    • 提案手法MSpoof-TTSは,異なる時間粒度でのスプーフ検出を用いて,高品質な候補を優先的に選択する。
    • モデルパラメータを変更せずに,異常なパターンを検出し,より自然な音声を生成することに成功した。
    • 実験結果は,提案手法がコーデックベースの音声生成において,ロバスト性と品質を向上させることを示している。

    Link: https://arxiv.org/abs/2603.05373

  • OpenFrontier:視覚言語に基づいたフロンティアを用いた汎用ナビゲーション [cs.RO, cs.CV]目的:視覚言語に基づいたフロンティアを用いた汎用ナビゲーションの実現
    • 実世界でのロボットナビゲーションは,複雑な環境と柔軟なタスク要求への適応が求められる。
    • 従来のナビゲーション手法は,詳細な3D再構成や手動で設計したゴール指標に依存し,汎化性能が低い。
    • 視覚言語モデルの活用により,学習や環境への適応なしに効率的なナビゲーションを可能にすること。
    • OpenFrontierは,密な3Dマッピング,ポリシー学習,モデルのファインチューニングを必要としない,学習不要のナビゲーションフレームワークである。
    • 視覚的なアンカーターゲットとなるフロンティアを選択することで,効率的なゴール条件付きナビゲーションを実現する。
    • 複数のナビゲーションベンチマークで優れたゼロショット性能と,実世界のモバイルロボットでの有効な展開を実証した。

    Link: https://arxiv.org/abs/2603.05377

  • 全方位参照多物体追跡のためのデータセットとフレームワーク:ORMOT [cs.FL, cs.CV]目的:全方位参照多物体追跡の実現
    • コンピュータビジョンにおける基本的な課題であり,自動運転やロボティクスなどへの応用が期待される。
    • 従来のMOTは一般的な映像で良好な性能を示すが,視覚と言語を組み合わせた環境下では課題が多い。
    • 全方位画像を用いることで視野角の制限を克服し,長期間にわたる言語記述の理解を向上させる。
    • 新たなタスクである全方位参照多物体追跡(ORMOT)を提案し,従来の視野角の制限を克服する。
    • 全方位参照多物体追跡データセットORSetを構築し,多様なシーン,言語記述,アノテーションされた物体を提供した。
    • LVLM駆動フレームワークORTrackを提案し,ORSetデータセットにおける有効性を実験的に示した。

    Link: https://arxiv.org/abs/2603.05384

  • Fusion-CAM:勾配ベースと領域ベースのクラス活性化マップの統合によるロバストな視覚的説明 [cs.RO, cs.SY, eess.SY, cs.CV]目的:深層畳み込みニューラルネットワークの視覚的説明の改善
    • AIの信頼性と透明性を高める上で,モデルの判断根拠の解釈は重要である。
    • 既存のCAM手法は,ノイズやオブジェクト全体の捕捉不足といった課題を抱えている。
    • 勾配ベースと領域ベースの手法を融合し,よりロバストな説明を生成することを試みる。
    • Fusion-CAMは,勾配ベースのマップをノイズ除去し,より鮮明な活性化を生成する。
    • 精製された勾配マップと領域ベースのマップを組み合わせることで,クラスの網羅性を高める。
    • 適応的な類似度に基づくピクセルレベルの融合により,一貫性のある活性化を強化し,視覚的説明の質を向上させる。

    Link: https://arxiv.org/abs/2603.05386

  • 3D LiDARベースSLAMにおける最大クリークを用いたループ閉路 [cs.RO, cs.CV]目的:3D LiDARベースSLAMにおけるループ閉路検出の信頼性向上
    • SLAMは,ロボットや自動運転車の自律的なナビゲーションに不可欠な技術である。
    • ノイズや環境の変化により,3D LiDARベースSLAMのループ閉路検出は困難である。
    • 外れ値に強く,ロバストなループ閉路検証アルゴリズムの開発が求められている。
    • 提案手法CliRegは,特徴点対応関係の適合性グラフにおける最大クリーク探索により,RANSACのランダムサンプリングを回避する。
    • 実世界のデータセットを用いた評価により,提案手法はRANSACよりも低い姿勢誤差と信頼性の高いループ閉路を実現することが示された。
    • 2D投影マップへの適用実験により,空間領域における汎用性も確認された。

    Link: https://arxiv.org/abs/2603.05397

  • 魚の健康状態モニタリングのためのビデオベースの運動分析 [cs.CV]目的:魚の運動活動分析による健康状態の評価
    • 養殖業の持続可能性や動物福祉において,魚の健康管理は重要な課題である。
    • 魚の運動活動から健康状態を推測する研究は存在するものの,自動化・高精度化が求められる。
    • ビデオ分析による魚の運動活動の自動計測と,それを用いた健康状態モニタリングの実現を目指す。
    • 本研究では,YOLOv11検出器を用いたトラッキングにより,魚の運動活動を分析するシステムを開発した。
    • 実験の結果,本システムは,水槽内で飼育される Sulawesi ricefish の遊泳方向と速度を正確に計測できることが示された。
    • 本研究で用いたデータセットは,論文発表後に公開される予定である。

    Link: https://arxiv.org/abs/2603.05407

  • ゼロから企業向けリアルタイム音声エージェントを構築する:技術チュートリアル [cs.RO, cs.SD]目的:企業向けリアルタイム音声エージェントの構築方法
    • 音声エージェントは,顧客対応や業務効率化に不可欠であり,その重要性は増している。
    • 既存のオープンソースモデルやフレームワークは,個別の要素から実用的な音声エージェントを構築するまでの完全な流れを説明していない。
    • リアルタイム性を実現するための,各要素のストリーミングとパイプライン処理の重要性を示す。
    • Qwen2.5-Omniなどのネイティブ音声合成モデルは高品質だが,リアルタイム対話には速度が遅すぎる(約13秒)。
    • 業界標準のアプローチはSTT→LLM→TTSのパイプラインだが,リアルタイム性の鍵は個々の高速モデルではなく,コンポーネント間のストリーミングとパイプライン処理である。
    • Deepgram, vLLM, ElevenLabsを使用することで,P50で947ms(最小729ms)の応答時間を実現し,クラウドLLM APIや自社ホストvLLMで同等の低遅延性を確認した。

    Link: https://arxiv.org/abs/2603.05413

  • MobileFetalCLIP:モバイル胎児超音波解析のための選択的反発知識蒸留 [cs.CV, cs.AI, cs.LG]目的:モバイル胎児超音波解析における選択的反発知識蒸留手法
    • 低リソース環境での産前ケアに変革をもたらす可能性があり,医療アクセス格差の是正に貢献しうる。
    • 大規模な基盤モデルは計算資源を必要とし,モバイルデバイスへの実装が困難であるという課題がある。
    • 軽量なモデルでも高精度を維持し,モバイル環境でのリアルタイムな胎児超音波解析を実現することを目指す。
    • 選択的反発知識蒸留により,パラメータ数1140万の軽量モデルが,3億400万パラメータのFetalCLIPモデルを上回る性能を発揮した。
    • HC18生体計測の妥当性(88.6% vs. 83.5%)と脳亜平面のF1スコア(0.784 vs. 0.702)において,教師モデルを凌駕する結果を得た。
    • iPhone 16 Pro上で1.6msの処理速度を実現し,モバイルデバイスでのリアルタイムな胎児超音波支援AIを可能にした。

    Link: https://arxiv.org/abs/2603.05421

  • RelaxFlow:テキスト駆動によるアモダル3D生成 [cs.CV, cs.AI]目的:テキストプロンプトによる未知領域の補完
    • 3D生成技術は,メタバースやロボティクス等,幅広い分野での応用が期待されている。
    • 画像からの3D生成は,隠蔽された部分の解釈に曖昧さを伴い,形状の決定が困難である。
    • テキストによる指示に基づき,観測情報と矛盾なく3D形状を生成することを目指す。
    • RelaxFlowは,観測部分への厳密な制御と,プロンプトによる構造的な柔軟な制御を分離したフレームワークである。
    • Multi-Prior Consensus ModuleとRelaxation Mechanismにより,観測情報を維持しつつテキストの意図に沿った生成を実現する。
    • 提案手法は,生成ベクトル場に対するローパスフィルタに相当し,高周波の詳細を抑制し,幾何学的構造を抽出する。

    Link: https://arxiv.org/abs/2603.05425

  • SAIL:類似度を考慮したガイダンスと相互キャプション拡張学習による弱教師あり密な動画キャプション生成 [cs.CV, cs.AI]目的:弱教師あり密な動画キャプション生成におけるイベントの局所化と記述
    • 動画理解の高度化に不可欠であり,人間の活動認識や動画検索に貢献する。
    • 既存手法は意味的な関連性を考慮せず,簡略化されたマスクしか生成できない。
    • 意味的に意味のある領域を捉え,データスパースネスの問題を克服すること。
    • 提案手法SAILは,クロスモーダルアライメントを通じて意味的に認識されたマスクを構築する。
    • 類似度を考慮した学習目的により,対応するイベントキャプションとの類似度が高い動画領域を強調する。
    • LLMベースの拡張戦略により,より正確なマスク生成が可能となり,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.05437

  • 8トークンでの計画:潜在的ワールドモデルのためのコンパクトな離散トークナイザー [cs.CV, cs.AI, cs.RO]目的:ワールドモデルにおける計画の効率化
    • 環境ダイナミクスをシミュレートし,行動計画や方策学習を可能にする重要な枠組みである。
    • 決定時刻の計画への応用は,リアルタイム制御には計算コストが高すぎるという課題がある。
    • 観察を8トークン程度に圧縮し,計画コストを削減することで実用化を目指す。
    • 提案手法CompACTは,従来のトークナイザーと比較して計算コストを大幅に削減し,高速な計画を可能にする。
    • CompACTを用いた行動条件付きワールドモデルは,競争力のある計画性能を達成する。
    • ワールドモデルの現実世界への展開に向けた実用的な一歩となる。

    Link: https://arxiv.org/abs/2603.05438

  • NaiLIA:密な意図記述とパレットクエリに基づくネイルデザイン検索 [cs.CV]目的:ネイルデザインの検索
    • ネイルデザインは,多様な文化背景を持つ人々に人気があり,自己表現の手段として重要である。
    • 複雑なネイルデザインの意図を記述することは難しく,既存の画像検索システムでは対応が困難である。
    • 密な意図記述とパレットクエリを用いて,より正確なネイルデザイン検索を実現すること。
    • 提案手法NaiLIAは,密な意図記述とパレットクエリを総合的に活用することで,ネイルデザイン画像の検索性能を向上させる。
    • NaiLIAは,ラベルなし画像に対する信頼度に基づく緩和損失を導入し,記述との整合性を高めている。
    • 多様な文化背景を持つ10,625枚の画像から構成されるベンチマークデータセットを用いて,NaiLIAの有効性が実験的に示された。

    Link: https://arxiv.org/abs/2603.05446

  • RealWonder:リアルタイムな物理作用条件付き動画生成 [cs.CV, cs.AI, cs.GR]目的:物理作用条件付き動画生成のシステム
    • 現実世界の物理現象を再現する動画生成は,没入感のある体験やロボット学習に不可欠である。
    • 既存の動画生成モデルは,物理的な影響や3D空間での作用を理解せず,現実的な挙動を再現できていない。
    • 物理シミュレーションを介して,リアリティのある物理作用条件付き動画をリアルタイムに生成することを目指す。
    • RealWonderは,単一画像から物理作用条件付き動画をリアルタイムに生成する初のシステムである。
    • 3D再構成,物理シミュレーション,蒸留された動画生成器を統合し,480x832解像度で13.2FPSを実現した。
    • 剛体,変形体,流体,粒状材料に対する力,ロボットの動作,カメラ制御の探索を可能にする。

    Link: https://arxiv.org/abs/2603.05449

  • 散逸的受容を超えて:DLMのための最長安定接頭辞による高速かつコヒーレントな推論 [cs.CL, cs.CV]目的:拡散言語モデルにおける高速かつコヒーレントな推論手法
    • 拡散言語モデルは並列テキスト生成の可能性を秘めるが,効率的な推論が課題となっている。
    • 従来のデコーディング手法はキャッシュの断片化を引き起こし,メモリ効率を低下させている。
    • 最長安定接頭辞(LSP)スケジューラにより,キャッシュ効率を改善し,推論速度を向上させる。
    • LSPスケジューラは,LLaDA-8BおよびDream-7Bにおいて,推論を最大3.4倍に高速化することを示した。
    • LSPは,数学的推論,コード生成,多言語タスク,クリエイティブライティングなど,様々なベンチマークで優れた性能を発揮した。
    • LSPは,DLMの理論的な並列性と実用的なハードウェア効率のギャップを埋める。

    Link: https://arxiv.org/abs/2603.05454

  • 最大和 payoffs の均衡 [cs.CL, cs.DB, cs.GT, math.GN]目的:不確実性下における非協調ゲームの均衡概念
    • 意思決定におけるリスクや不確実性を考慮する上で,古典的な確率論の限界が指摘されている。
    • 従来の均衡概念は,確率や線形凸性に基づいているため,非加法的測度を扱うことが難しい。
    • 容量とmax-plus積分を用いて,定性的かつべき等な意思決定基準をモデル化し,均衡の存在を示す。
    • コンパクトな戦略空間と連続的な payoffs を持つゲームにおいて,両方の均衡概念の存在が示された。
    • 容量で表現された混合戦略における Nash 均衡と,Dow-Werland による不確実性下での均衡が検討された。
    • 抽象的な凸性技術と Kakutani の不動点定理を用いて,均衡の存在が証明された。

    Link: https://arxiv.org/abs/2603.05461

  • EdgeDAM:モバイルデバイス向けリアルタイム物体追跡 [cs.CL, cs.CV]目的:モバイルデバイス上でのリアルタイムな物体追跡手法
    • 近年のコンピュータビジョンにおいて,エッジデバイスでの物体追跡は重要な課題となっている。
    • 既存の高性能な手法は計算コストが高く,リソースの限られたモバイルデバイスでのリアルタイム処理が困難である。
    • 本研究は,エッジデバイスの制約下で,軽量かつ高精度な物体追跡を実現することを目的とする。
    • 提案手法EdgeDAMは,検出結果を活用した追跡フレームワークであり,遮蔽や類似物体への対応に優れている。
    • デュアルバッファ distracter-aware memory と信頼度に基づく切り替え機構により,ロバスト性と高速性を両立している。
    • DiDiデータセットで88.2%の精度,iPhone 15上で25 FPSの性能を達成し,リアルタイム処理が可能であることを示した。

    Link: https://arxiv.org/abs/2603.05463

  • 視覚言語モデルにおける幻覚検出:単一トークン生成なしでの手法 [cs.CV]目的:視覚言語モデルにおける幻覚のリスク予測
    • 視覚言語モデルの発展は,画像とテキストを理解するAIの可能性を広げるが,誤った情報を生成する幻覚の問題が重要課題である。
    • 従来の幻覚検出手法は,テキスト生成後に適用されるため,コストがかかり,リアルタイムでの対応が難しいという課題がある。
    • 本研究は,テキスト生成前にモデル内部表現を調べることで,幻覚のリスクを早期に予測し,安全性を高めることを目指す。
    • モデル内部表現の調査により,幻覚のリスクをテキスト生成前に検出できることが示された。
    • 特に,クエリ・トークン表現の後半層が,多くのモデルにおいて最も予測性能が高いことが明らかになった。
    • 軽量なプローブを用いることで,早期棄権や選択的ルーティング,適応的デコーディングが可能となり,安全性と効率の向上が期待される。

    Link: https://arxiv.org/abs/2603.05465

  • LWIRハイパースペクトル画像におけるニューラル放射場を用いたガスプルームの3次元シーン理解に向けて [cs.CV]目的:LWIRハイパースペクトル画像からの3次元シーン再構築
    • 環境モニタリングや安全保障など幅広い応用があり,物質の検出・識別が重要視されている。
    • LWIRハイパースペクトル画像の分析では,限られた画像情報からの解析が課題となっていた。
    • 複数の画像を統合し,シーンの形状とスペクトル特性を考慮した解析を目指す。
    • ニューラル放射場(NeRF)を用いて,LWIRハイパースペクトル画像から3次元シーンを再構築できた。
    • 従来のMip-NeRFと比較して,約50%少ない訓練画像数で同等の性能を達成した。
    • NeRFで生成した画像に対するガスプルーム検出において,平均AUC 0.821という良好な結果が得られた。

    Link: https://arxiv.org/abs/2603.05473

  • マルチモーダル生涯学習に向けたデータセットとエージェント型ベースライン [cs.CV]目的:マルチモーダル生涯学習のためのデータセットとエージェント型ベースラインの開発
    • 現実世界の複雑な状況を理解するため,長期的な文脈を考慮したAIシステムの重要性が高まっている。
    • 既存の動画理解データセットは,自然な日常の映像とは異なり,短く連結されたクリップで構成されているという課題がある。
    • 長期的な文脈を効果的に処理し,時間的な疎なデータにおける位置情報崩壊を防ぐことを目指す。
    • MM-Lifelongデータセットは,日,週,月といった時間スケールで構成され,181.1時間の映像を含む。
    • 既存のMLLMは文脈飽和によるワーキングメモリのボトルネックに陥り,エージェント型ベースラインはグローバルな位置情報崩壊を起こすことが明らかになった。
    • 提案手法ReMAは,動的なメモリ管理により,既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2603.05484

  • 較稀な注意機構によるテキスト-ビデオ生成の高速化 [cs.CV]目的:テキスト-ビデオ生成の高速化手法
    • 近年,高品質なビデオ生成が可能になったが,計算コストが高い点が課題となっている。
    • Transformer基盤の空間的時間注意機構がボトルネックとなり,処理速度を低下させている。
    • 入力に依存せず安定した注意機構の疎性パターンを利用し,計算量を削減する。
    • 提案手法CalibAttは,学習なしでビデオ生成を最大1.58倍高速化する。
    • 既存手法と比較して,ビデオ品質とテキスト-ビデオの一致性を維持している。
    • オフラインでの較正により,ブロックレベルの疎性と繰り返しパターンを最適化する。

    Link: https://arxiv.org/abs/2603.05503

  • FaceCam:スケール認識コンディショニングによるポートレートビデオカメラ制御 [cs.CV]目的:単眼ポートレートビデオ入力に対するカスタマイズ可能なカメラ軌跡によるビデオ生成
    • 近年,ビデオ生成モデルを用いたカメラ制御が発展している。高品質な映像制作や新しい表現手法の創出に貢献する。
    • 既存手法では,スケールに関する曖昧さや3D再構成の誤りから,ポートレートビデオに幾何学的歪みや視覚的アーティファクトが生じやすい。
    • 顔に特化したスケール認識表現により,3D事前情報に依存せず,カメラ変換を決定的に制御することでこの問題を解決する。
    • FaceCamは,スケールを意識したカメラ表現によって,ポートレートビデオにおける幾何学的歪みを抑制し,視覚的な品質を向上させる。
    • スタジオ収録と実環境の単眼ビデオの両方で学習し,合成カメラモーションとマルチショットステッチングというデータ生成戦略を採用することで,多様なカメラ軌跡に対応する。
    • Ava-256データセットおよび多様な実環境ビデオにおける実験により,FaceCamのカメラ制御性,視覚的品質,および人物・モーションの保持能力が優れていることが示された。

    Link: https://arxiv.org/abs/2603.05506

  • 疎なマルチカメラ環境におけるリアルタイム3DストリーミングのためのTransformerベースのインペインティング [cs.CV, cs.GR]目的:リアルタイム3Dストリーミングにおける欠損領域の補完
    • AR/VR等の没入型体験において,高品質な3Dストリーミングは不可欠である。
    • リアルタイム制約からカメラ数が限られる場合,欠損情報や不完全なサーフェスが発生する。
    • 既存手法の単純な補完処理による不整合や視覚的なアーティファクトを解消する。
    • 提案手法は,Transformerを用いたマルチビュー対応ネットワークにより,フレーム間の一貫性を保ちつつ微細なディテールも再現する。
    • 解像度に依存しない設計と適応的なパッチ選択戦略により,リアルタイム性能と品質のバランスを実現した。
    • 既存のインペインティング手法と比較して,画像・動画両方の評価指標において品質と速度の点で優れている。

    Link: https://arxiv.org/abs/2603.05507

  • 一般化された双線形選好を用いた正則化オンラインRLHF [cs.LG, cs.GT, stat.ML]目的:文脈的オンラインRLHFにおける一般化された選好のNash均衡の特定
    • 強化学習において,人間のフィードバックを用いた学習は,より自然で高性能なエージェントの実現に不可欠である。
    • オンラインRLHFでは,選好の推定誤差が累積し,学習の安定性や効率を損なう可能性がある。
    • 本研究は,より一般的な正則化手法と低ランク構造を利用し,高次元における効率的なオンラインRLHFを可能とする。
    • 提案手法では,推定誤差の二乗によって貪欲方策の双対ギャップが制限されることを証明した。
    • 貪欲サンプリングアルゴリズムは,$\eta$に依存しない多対数的なリグレットを実現した。
    • Explore-Then-Commitアルゴリズムは,低ランク構造を利用することで,高次元における統計的に効率的な保証を提供した。

    Link: https://arxiv.org/abs/2602.23116

  • 自己教師あり音声埋め込みを用いた訓練不要異常音検出における時間的プーリング戦略 [math.AT, cs.CG, math.DS, eess.AS, cs.SD]目的:訓練不要異常音検出における時間的プーリング戦略の評価と,新たなプーリング手法の提案
    • 異常音検出は,製造業やセキュリティなど,様々な分野で重要な役割を担う技術である。
    • 従来の異常音検出は,異常音の学習データが必要であり,データの収集やラベル付けにコストがかかる。
    • 事前学習済みの音声埋め込みモデルを活用することで,正常データのみで異常音検出を実現し,この課題を解決する。
    • 提案手法である相対偏差プーリング(RDP)は,複数の最先端音声埋め込みモデルにおいて,平均プーリングを常に上回る性能を示した。
    • RDPと一般化平均プーリングを組み合わせたハイブリッドプーリング戦略も,高い性能を発揮した。
    • DCASE2025 ASDデータセットにおいて,既存の訓練済みシステムやアンサンブルを上回る最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.04605

  • ポリベンチ:多声音響における構成的推論のためのベンチマーク [math.CO, cs.DM, eess.AS, cs.SD]目的:多声音響における構成的推論の評価
    • 音響処理技術は,多様な応用分野で重要であり,その性能向上は社会に貢献する。
    • 既存のベンチマークは,複数の音が同時に発生する多声音響の推論に十分に対応していない。
    • 多声音響における構成的推論能力のボトルネックを明らかにし,性能向上に貢献する。
    • 最先端の音響言語モデルの評価により,多声音響において性能が低下することが示された。
    • これは,現在の音響言語モデルにおける根本的な課題を示唆している。
    • ポリベンチは,カウント,分類,検出,同時性,持続時間の推定など,多様な評価サブセットを含む。

    Link: https://arxiv.org/abs/2603.05128

  • ICHOR:自己教師ありマスクオートエンコーダを用いたASL CBFマップのための堅牢な表現学習手法 [physics.soc-ph, cs.CY, eess.IV, cs.CV, physics.med-ph]目的:ASL CBFマップの表現学習
    • 脳血流は疾患診断に重要であり,ASLは非侵襲的に計測可能な有用な手法である。
    • ASL画像は品質にばらつきがあり,サイト間,ベンダー間,プロトコル間の差異が大きい。
    • ICHORは,ラベルなしデータを用いて汎化性能の高い表現学習を可能にする。
    • ICHORは,3DマスクオートエンコーダとVision Transformerを組み合わせた自己教師あり事前学習アプローチである。
    • 11,405件のASL CBFスキャンから構成される大規模データセットを用いて事前学習を行った。
    • ICHORは,既存の神経画像自己教師あり事前学習手法と比較して,診断分類とCBFマップ品質予測において優れた性能を示した。

    Link: https://arxiv.org/abs/2603.05247

  • 予測ニューラルネットワークを用いた錯視も人間を欺く [cs.NE, cs.AI, cs.CV]目的:視覚運動錯視の生成機構解明
    • 視覚は知覚の根幹であり,そのメカニズム解明は認知科学の重要課題である。
    • 視覚運動錯視の原因は未だ解明されておらず,脳の予測機能との関係が不明である。
    • 脳の予測機能が視覚運動錯視を引き起こすメカニズムをモデル化し検証する。
    • 進化型錯視生成器(EIGen)を用いて新規の視覚運動錯視を生成することに成功した。
    • 生成された錯視が,人間被験者に対して実際に運動錯視を引き起こすことを確認した。
    • 本研究は,錯視が網膜からの生の視覚入力ではなく,脳の予測によって生じる可能性を示唆する。

    Link: https://arxiv.org/abs/2112.13243

  • 深層学習とメカニズムデザイン:主要な結果と新たな応用 [cs.GT, cs.AI]目的:深層学習を用いたメカニズムデザインに関する主要な結果と応用事例の検討
    • メカニズムデザインは,経済学,ゲーム理論,コンピューターサイエンスにおいて重要な役割を果たす
    • 現実世界の応用において,理論的に同時に達成不可能な性質を持つメカニズムが求められる場合がある
    • 深層学習を用いて,要求される性質を近似的に満たすメカニズムを学習し,実用的な問題を解決することを目指す
    • 深層学習を用いたメカニズムデザインのアプローチは,複雑な制約下での最適化を可能にする
    • 本研究では,車両ネットワークにおける効率的なエネルギー管理,モバイルネットワークにおけるリソース割り当て,農業投入財のボリュームディスカウント入札設計の3つの事例を通して,その有効性を示す
    • 深層学習は,従来のメカニズムデザイン手法では困難であった問題に対し,新たな解決策を提供する可能性を秘めている

    Link: https://arxiv.org/abs/2401.05683

  • 不確実性を見抜く:ロバストなビジュアルナビゲーションのためのリアルタイム知覚適応への自由エネルギーアプローチ [cs.RO, cs.AI, cs.CV]目的:ロバストなビジュアルナビゲーションのためのリアルタイム知覚適応
    • 自然環境下でのナビゲーションは,不確実な情報下でも目標達成が求められる複雑な課題である。
    • 従来の深層ニューラルネットワークは,急激な感覚変化へのリアルタイムな適応性に課題がある。
    • 本研究は,自由エネルギー原理に基づき,リアルタイムな知覚適応機構を導入し,ロバストなナビゲーションを実現することを目指す。
    • 提案手法FEP-Navは,予測誤差とベイズ驚愕を分解した二重メカニズムアーキテクチャを採用することで,VFEの最小化を実現する。
    • 理論的に,FEP-Navは勾配ベースの更新を必要とせずにVFEを最小化するメカニズムを提供することが示された。
    • シミュレーションおよび実環境実験の結果,FEP-Navは従来の適応手法よりもナビゲーション性能を大幅に回復させることが確認された。

    Link: https://arxiv.org/abs/2403.01977

  • EasyAnimate:ハイブリッドウィンドウ注意と報酬逆伝播を用いた高性能ビデオ生成フレームワーク [cs.NI, eess.SP, cs.IR, cs.CV, cs.CL, cs.MM]目的:高性能ビデオ生成のためのフレームワーク開発
    • ビデオ生成技術は,コンテンツ制作やエンターテインメントなど,幅広い分野で活用が期待されている。
    • 既存のビデオ生成モデルは,生成速度が遅く,ビデオ品質が十分でないという課題を抱えている。
    • 生成速度と品質の両方を改善し,より実用的なビデオ生成を実現することを目指している。
    • 提案手法EasyAnimateは,ハイブリッドウィンドウ注意機構により,計算効率を維持しつつ,3次元方向の受容野を拡大した。
    • 報酬逆伝播を用いることで,人間が好むビデオ生成にモデルを最適化し,ビデオ品質を向上させた。
    • 実験の結果,EasyAnimateはVBenchリーダーボードと人間評価の両方で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2405.18991

  • モーションを考慮したアニメーション可能なガウス人型アバターの鮮明化 [cs.CV]目的:モーションを考慮した3Dガウス人型アバターの鮮明化手法
    • 多様な分野で人間の3Dモデルの活用が不可欠であり,リアルなアバター生成のニーズは高い。
    • 現実の動画は動きの速さや強さにより鮮明度が低下することが多く,高品質なアバター生成の妨げとなる。
    • 動きによるブレを考慮し,鮮明度の低い動画から高精度な3Dアバターを再構成することを目指す。
    • 本研究では,人間の動きによるブレの物理モデルとモーションモデルを統合した新しい手法を提案した。
    • 提案手法は,粗い初期化からアバター表現とモーションパラメータを同時に最適化することで,鮮明な3Dアバターを再構成する。
    • 合成データセットと360度ハイブリッド露光カメラシステムで撮影した実データセットを用いた評価により,その有効性が実証された。

    Link: https://arxiv.org/abs/2411.16758

  • あらゆるものをあらゆるものの裏で追跡:ゼロショットアモダルビデオオブジェクトセグメンテーション [cs.CV]目的:ゼロショットアモダルビデオオブジェクトセグメンテーション手法
    • ビデオ理解において,オブジェクトの正確なセグメンテーションは重要な課題である。
    • 既存手法は,事前学習されたクラスラベルに依存しており,柔軟性に欠ける。
    • 最初のフレームのクエリマスクのみで,アモダルセグメンテーションを実現する。
    • 本研究では,事前学習済みのビデオ拡散モデルを用いて,アモダルセグメンテーションを生成的なアウトペインティングとして定式化する。
    • 拡散モデルの再学習は不要であり,テスト時に追跡対象オブジェクトに特化させる微調整を行う。
    • 完全に遮蔽された状況下でもアモダル補完が可能であり,柔軟な推論を実現する。

    Link: https://arxiv.org/abs/2411.19210

  • 視覚生成モデルにおける学習可能なスパース性 [cs.CV]目的:拡散モデルのスパース化による効率化
    • 拡散モデルは画像処理で目覚ましい進歩を遂げているが,計算コストが増大している。
    • モデルの巨大化に伴い,計算資源やメモリ消費が課題となっている。
    • 再学習コストを抑えつつ,拡散モデルの効率的なスパース化を目指す。
    • 提案手法により,再学習なしで最大20%のパラメータを削減可能であることを示した。
    • 削減によって,モデル性能の顕著な低下は見られなかった。
    • 時間ステップ蒸留拡散モデルに対しても,スパース化が適用できることを示した。

    Link: https://arxiv.org/abs/2412.02852

  • 平坦性に基づく視覚言語モデルのテスト時適応 [cs.CC, cs.NI, cs.CV]目的:視覚言語モデルのテスト時における分布シフトへの対処
    • 視覚言語モデルの応用範囲拡大に伴い,テスト時の分布シフトへの対応が重要となっている。
    • 既存のテスト時適応手法は,モデルの学習特性を考慮せず,性能劣化を招く場合がある。
    • 学習時の平坦性を手がかりに,テスト時の適応を効率化し,性能向上を目指す。
    • 提案手法FGAは,学習とテスト時の手続きを統合し,平坦性に基づいて適応を誘導する。
    • FGAは,高価なプロンプトパラメータの更新を回避し,計算コストを大幅に削減する。
    • ドメイン汎化とクロスデータセットベンチマークにおいて,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2501.18864

  • シンク均衡とゲームにおける学習の引力点 [cs.GT, cs.LG]目的:ゲーム理論における学習ダイナミクスの極限振る舞い,すなわち引力点の特性評価
    • ゲーム理論は,経済学,生物学,政治学など,戦略的相互作用を伴う様々な分野に応用される重要な学問分野である。
    • 学習ダイナミクスの引力点の特定は困難であり,安定的な均衡状態を予測することが難しい。
    • 引力点とシンク均衡の関係を明確化し,引力点の特性評価における課題を克服することを目指す。
    • 本研究は,レプリケーターダイナミクスの引力点とシンク均衡が必ずしも一対一対応しないことを証明した。
    • 引力点内の「局所的な斥力点」の存在が,一対一対応が成立しない原因であることを示した。
    • シンク均衡の「擬凸性」という新しい概念を導入し,二者間ゲームにおいて擬凸なシンク均衡は引力点を正確に定義することを示した。

    Link: https://arxiv.org/abs/2502.07975

  • 3Dダイナミクスを意識した操作:3D予測能力を操作ポリシーに付与 [cs.CV, cs.RO]目的:3Dダイナミクスを考慮した操作フレームワーク
    • ロボットの操作性能向上には,環境の理解が不可欠である。
    • 既存研究では2D視覚情報のみを扱い,奥行き方向の動きに対応できない場合がある。
    • 3D予測能力を操作ポリシーに組み込み,奥行き方向の動きを伴う操作を改善する。
    • 本研究では,自己教師あり学習を用いて3D世界モデルとポリシー学習を統合した。
    • シミュレーションおよび実環境実験により,3D予測が操作性能を大幅に向上させることが示された。
    • 推論速度を損なうことなく,3D予測能力が操作ポリシーを強化できることを確認した。

    Link: https://arxiv.org/abs/2502.10028

  • ミリ秒単位でのRapidPoseTriangulation:複数視点複数人物全身姿勢の三角測量 [cs.CV]目的:複数視点からの姿勢推定における高速な三角測量手法
    • 人間の動作や相互作用の理解を深める上で,複数視点からの画像処理と姿勢推定は重要である。
    • 既存手法では,複数人物の姿勢をリアルタイムに正確に推定することが困難である。
    • 様々な環境下で高速かつ高精度な全身姿勢推定を可能にすることを目指す。
    • 本研究で提案するアルゴリズムは,高速な三角測量と汎化性能の向上を実現した。
    • 顔の表情から指の動きまで,全身の姿勢を複数人物かつ複数視点から捉えることが可能である。
    • 未知のデータセットや設定に対しても高い性能を示し,適応性の高さが確認された。

    Link: https://arxiv.org/abs/2503.21692

  • ノイズからのゴースト: 自己教師あり深層畳み込み再構成によるゴーストイメージング [cs.CV, cs.LG, physics.data-an]目的:ゴーストイメージング再構成手法
    • ゴーストイメージングは,低照度環境での画像取得を可能にするため,多様な分野で応用が期待されている。
    • 従来のゴーストイメージングは,ノイズに弱く,高画質化が課題であった。
    • 本研究は,ノイズに強く,高画質なゴーストイメージング再構成を実現することを目的とする。
    • 自己教師あり学習を用いることで,参照データなしで高い再構成品質を達成した。
    • 理論的検証と実データによる実験により,提案手法の有効性が確認された。
    • 低照度環境下でのゴーストイメージングの応用範囲を拡大する可能性を示した。

    Link: https://arxiv.org/abs/2504.10288

  • ローカル3D占有率予測と汎用的なグローバル占有マップの協調学習 [cs.CV, cs.RO]目的:ローカル3D占有率予測の向上とグローバル占有マップの同時更新
    • 自動運転において,静的環境と動的要素を統一的にモデル化する3D占有率予測は不可欠である。
    • 遮蔽や低照度といった困難な状況下では,現在の観測だけでは信頼性の高い予測が難しい場合がある。
    • 過去の良好な条件下の情報を活用し,ローカル予測の頑健性を高めることを目指す。
    • LMPOccは,グローバル占有マップの事前知識を取り込み,ローカル予測を強化するプラグアンドプレイ可能なフレームワークである。
    • Occ3D-nuScenesベンチマークにおいて,特に静的セマンティックカテゴリで最先端のローカル占有率予測性能を達成した。
    • 複数車両からのクラウドソーシングにより大規模なグローバル占有マップの構築を検証し,3Dオープンボキャブラリーマップの作成に貢献した。

    Link: https://arxiv.org/abs/2504.13596

  • PhysLLM:大規模言語モデルを用いたクロスモーダル遠隔生理学的センシング [cs.CV]目的:遠隔光電体積脈波法における生理学的特徴と言語トークンの間の表現ギャップの解消
    • 非接触での生理計測は,医療やヘルスケア分野において利便性が高く,注目を集めている。
    • 光電体積脈波法は,照明条件や動きの影響を受けやすく,時間的なモデリングが困難である。
    • 大規模言語モデルの能力を活用し,よりロバストで高精度な遠隔生理学的センシングを実現すること。
    • PhysLLMは,大規模言語モデルと光電体積脈波法に特化したコンポーネントを組み合わせた協調最適化フレームワークである。
    • Text Prototype Guidance戦略により,生理学的特徴を言語モデルが解釈可能な意味空間に投影し,クロスモーダルアライメントを確立した。
    • Dual-Domain Stationaryアルゴリズムにより,適応的な時周波数領域の特徴再重み付けを通じて信号の不安定性を解決した。

    Link: https://arxiv.org/abs/2505.03621

  • ReactDance:高忠実度で一貫性のある長尺反応型ダンス生成のための階層的表現 [cs.CV, cs.AI, cs.LG]目的:反応型ダンス生成における空間的相互作用の微細化と長期的時間的一貫性の確保
    • ロボットとのインタラクションや没入型デジタルエンターテイメントの可能性を広げる分野である。
    • ダンスの細かな空間的相互作用や,長期間にわたる時間的な一貫性を実現することが困難である。
    • 階層的潜在空間を用いた拡散フレームワークにより,これらの課題を解決することを目指す。
    • ReactDanceは,階層的有限スカラー量子化(HFSQ)により,高精度な空間表現と詳細な制御を可能にする。
    • ブロックワイズローカルコンテキスト(BLC)という非自己回帰的サンプリング戦略により,長シーケンスを高効率に生成する。
    • 実験の結果,ReactDanceは既存手法と比較して,モーション品質,一貫性,サンプリング効率において大幅な性能向上を示した。

    Link: https://arxiv.org/abs/2505.05589

  • RESAR-BEV:BEVセグメンテーションのための説明可能な漸進的残差自己回帰的カメラ・レーダー融合手法 [cs.CV]目的:BEVセグメンテーションにおけるカメラ・レーダー融合による環境認識の精度向上
    • 自動運転における安全性向上には,周囲環境の正確な認識が不可欠である。
    • カメラとレーダーのマルチモーダルデータのずれやノイズが,認識精度を低下させる要因となる。
    • 本研究は,カメラとレーダーのデータを効率的に融合し,高精度なBEVセグメンテーションを実現することを目指す。
    • RESAR-BEVは,段階的な改良を通して解釈可能な粗い段階から細かい段階へのセグメンテーションを実現する。
    • nuScenesデータセットにおいて,7つの主要な運転シーンカテゴリで54.0%のmIoUを達成し,最先端の性能を示す。
    • フレームレート14.6FPSを維持し,リアルタイム処理能力も兼ね備えている。

    Link: https://arxiv.org/abs/2505.06515

  • オブジェクト中心の自己改善型嗜好最適化:テキストから画像生成への応用 [cs.RO, cs.CV]目的:テキストから画像生成におけるオブジェクトレベルのテキスト-画像アライメントの改善
    • マルチモーダル大規模言語モデルの発展により,多様な情報処理が可能になったが,画像生成においては課題が残る。
    • 既存手法では,オブジェクトの属性や空間関係の正確な描写が難しく,オブジェクトの幻覚が生じやすい。
    • オブジェクト中心のアプローチにより,詳細なアライメントを強化し,幻覚を抑制することを目的とする。
    • OSPOは,外部データやモデルに依存せず,オブジェクト中心の嗜好データを明示的に構築する自己改善型フレームワークである。
    • アテンションベースのオブジェクトマスクとオブジェクト加重SimPO損失を活用し,オブジェクト固有の忠実性を高めている。
    • 3つの合成画像生成ベンチマークにおいて,OSPOは既存手法や専門的な拡散モデルを凌駕する性能を示した。

    Link: https://arxiv.org/abs/2506.02015