arXiv雑要約

画像・音声 - 2026/03/09 公開

  • DFIR-DETR:周波数領域における反復改良と動的特徴集約による小物体検出 [cs.CV, cs.LG]目的:小物体検出における性能向上
    • 複雑なシーンにおける小物体検出は,監視や自動運転など,多くの応用分野で重要である。
    • 既存の物体検出器は,小物体に対して十分な特徴表現を獲得できず,精度が低下する問題がある。
    • 本研究は,周波数領域に着目し,高周波成分を保持することで,小物体検出の精度を向上させることを目指す。
    • DFIR-DETRは,動的特徴集約により,複雑な領域に注意を集中させ,計算量を削減する。
    • 動的特徴ピラミッドネットワークにより,ノルムを保持したアップサンプリングと空間的な詳細の復元を実現する。
    • 周波数領域における反復改良モジュールは,高周波境界成分を直接保持し,NEU-DETとVisDroneで高い性能を示した。

    Link: https://arxiv.org/abs/2512.07078

  • Fast-BEV++:アルゴリズムによる高速化,設計によるデプロイ容易性 [cs.CV]目的:低コストな自動運転の中核となるBEV(鳥瞰図)知覚の精度とデバイス上での効率的な展開の両立
    • 自動運転技術の発展には,精度の高い環境認識が不可欠であり,コスト削減も重要な課題である。
    • 従来のBEV知覚システムは,精度とデバイス上での処理効率のトレードオフという課題を抱えていた。
    • アルゴリズムと設計の両面から高速化とデプロイ容易性を実現し,BEV知覚システムの性能向上を目指す。
    • Fast-BEV++は,ハードウェア指向のIndex-Gather-Reshapeパイプラインにより,カスタムカーネルへの依存をなくし,高速化を実現した。
    • nuScenesベンチマークにおいて0.488 NDSという最先端の結果を達成し,134 FPS以上のリアルタイム推論を実現した。
    • 統合された学習可能な深度モジュールにより,高い精度を維持し,他の比較可能な手法を上回る性能を発揮した。

    Link: https://arxiv.org/abs/2512.08237

  • 分布シフト下におけるロバストな視覚的説明のための不確実性に基づいたサブセット選択 [cs.CV, cs.LG]目的:分布シフト下でのロバストな視覚的説明を実現するためのサブセット選択手法
    • 深層学習モデルの説明可能性は,AIの信頼性を高める上で不可欠であり,その重要性は増している。
    • 既存のサブセット選択手法は,分布外データにおいて説明の信頼性が低下し,不安定な結果となる。
    • 本研究は,不確実性推定を組み込むことで,分布シフト下でのサブセット選択のロバスト性を向上させる。
    • 提案手法は,層ごとの勾配に基づく不確実性推定とサブモジュラサブセット選択を組み合わせることで,追加学習なしに説明の精度と安定性を向上させた。
    • 分布内データだけでなく,分布外データにおいても既存手法の弱点を克服し,性能改善が確認された。
    • 本研究は,不確実性を考慮した最適化が,視覚的説明の解釈可能性と信頼性を高めることを示唆している。

    Link: https://arxiv.org/abs/2512.08445

  • Photo3D:構造に沿った詳細強調によるフォトリアリスティックな3D生成の進展 [cs.CV]目的:フォトリアリスティックな3D生成の進展
    • 3Dコンテンツの需要は高いが,高品質なデータ収集は困難である。
    • 既存の3D生成モデルは,形状の再現性は進むも,リアリティに課題がある。
    • GPT-4o-Imageモデルを活用し,構造とテクスチャの一貫性を保ちつつ詳細を向上させる。
    • Photo3Dは,GPT-4o-Imageモデルの画像データを用いて,フォトリアリスティックな3D生成を推進するフレームワークである。
    • 構造に沿った多視点合成パイプラインと,詳細強調された多視点データセットを構築することで,3D形状とテクスチャの一貫性を高める。
    • 様々な3D生成モデルに適用可能であり,最先端のフォトリアリスティックな3D生成性能を達成した。

    Link: https://arxiv.org/abs/2512.08535

  • モジュール型ニューラル画像信号処理 [cs.CV]目的:モジュール型ニューラル画像信号処理フレームワーク
    • 画像処理は,様々な分野で不可欠であり,高品質な画像生成が求められている。
    • 従来のニューラルISPは,柔軟性や拡張性に課題があり,カメラや好みに対応が難しかった。
    • モジュール化により,柔軟性,拡張性,デバッグ容易性を高め,多様なニーズに応える。
    • 本研究では,モジュール化されたニューラルISPフレームワークを提案し,高いレンダリング精度を実現した。
    • 提案手法は,既存の手法と比較して,スケーラビリティ,デバッグ容易性,汎化性能,柔軟性に優れる。
    • ユーザーインタラクティブな画像編集ツールを構築し,多様な編集操作とスタイルをサポートすることを示した。

    Link: https://arxiv.org/abs/2512.08564

  • Computed Tomography 映像のための新規パッチベース TDA アプローチ [cs.CV, cs.LG]目的:Computed Tomography 映像に対する Topological Data Analysis の新しい手法
    • 医学画像診断において,CT 映像は病変の発見,病期分類,予後予測に不可欠であり,その解析技術の進歩は重要である。
    • 従来の CT 映像解析は手動による特徴抽出に依存しており,その効率性と精度に限界があった。
    • 本研究は,CT 映像から効率的に高次元な特徴を抽出し,診断精度と解析速度を向上させることを目指す。
    • 提案手法は,従来の 3 次元立方体複合体法と比較して,分類性能と計算時間の両面で優れていることが示された。
    • 精度,AUC,感度,特異度,F1 スコアにおいて,それぞれ平均 7.2%,3.6%,2.7%,8.0%,7.2% の改善が見られた。
    • 提案手法の実装を容易にするための Python パッケージ,Patch-TDA が提供される。

    Link: https://arxiv.org/abs/2512.12108

  • 生成のためのビジュアルトークナイザーのスケーラブルな事前学習 [cs.CV]目的:生成のためのビジュアルトークナイザーの事前学習におけるスケーリング問題の解決
    • 現代の生成モデルにおいて,ビジュアルトークナイザーの潜在空間の質が重要である。
    • 従来の再構成ベースの学習では,潜在空間が低レベル情報に偏り,高品質な生成を阻害する。
    • 高レベルな意味情報を簡潔に表現できる潜在空間を構築し,生成性能のスケーリングを改善する。
    • 画像とテキストのコントラスト学習,自己教師あり学習,再構成損失を組み合わせたVTPフレームワークを提案した。
    • 事前学習における計算資源の投入が生成性能の向上に有効であることを示した。
    • VTPはImageNetで優れた性能(78.2%のゼロショット精度,0.36のrFID)を示し,生成における収束速度を向上させた。

    Link: https://arxiv.org/abs/2512.13687

  • CASA:効率的な視覚言語融合のための自己注意への交差注意 [cs.CV, cs.AI]目的:視覚言語モデルにおける効率的な融合手法の開発
    • 視覚と言語の情報を統合するモデルは,様々な応用において重要性が高まっている。
    • 既存手法では,長い画像系列や動画処理において計算コストとメモリ消費量が課題となる。
    • 交差注意機構を用いることで,低遅延かつ安定したメモリコストでの処理を実現する。
    • 交差注意機構と自己注意機構の根本的な違いを分析し,その有効性を検証した。
    • テキストのみのLLMからの学習,および既存のトークン挿入型VLMの適応により,交差注意の競争力を示した。
    • リアルタイム動画キャプション生成において,交差注意が低遅延かつ安定した性能を発揮することを実証した。

    Link: https://arxiv.org/abs/2512.19535

  • 軽量自己回帰型ビデオ履歴埋め込みのためのフレーム保存事前学習 [cs.CV]目的:自己回帰型ビデオ生成における履歴文脈の効率的なエンコード
    • ビデオ生成の品質は履歴文脈に大きく依存するため,その効率的な処理が重要である。
    • ビデオ履歴が長くなるにつれて,計算資源やメモリに制約のある環境ではエンコードが困難となる。
    • 限られた計算資源下でも高精度なビデオ履歴埋め込みを実現し,ビデオ生成の品質を維持すること。
    • フレームクエリ目標による事前学習により,任意の時点におけるビデオコンテンツの特徴を捉えることが可能となった。
    • 事前学習された軽量なエンコーダを自己回帰型ビデオ生成タスクでファインチューニングすることで,コンテンツレベルの一貫性を確立した。
    • 提案手法は,より大規模なエンコーダと比較して同等の性能を達成することを示した。

    Link: https://arxiv.org/abs/2512.23851

  • Spatial4D-Bench:汎用的な4次元空間知能ベンチマーク [cs.CV]目的:マルチモーダル大規模言語モデルの4次元空間推論能力の包括的な評価
    • 空間知能は,広範な空間推論能力を支える重要な認知能力である。
    • 既存の空間知能ベンチマークは,規模が小さく,多様性に乏しい場合が多い。
    • マルチモーダル大規模言語モデルの4次元空間知能の限界を明らかにすること。
    • Spatial4D-Benchは,約4万組の質問応答ペアを含む,大規模で多様なマルチタスク評価ベンチマークである。
    • 様々な最先端のオープンソースおよびプロプライエタリなマルチモーダル大規模言語モデルにおいて,4次元空間推論能力に大きな限界があることが示された。
    • 本研究の知見は,より高度な4次元空間知能を持つマルチモーダル大規模言語モデルの開発を促進すると期待される。

    Link: https://arxiv.org/abs/2601.00092

  • 外れ値に対するロバストな疎信号復元:LADに基づくハード閾値化追求アプローチ [cs.IT, cs.CV, math.IT]目的:外れ値を含む測定値からの疎信号復元
    • 信号処理や機械学習において,疎信号の復元は,データの圧縮や特徴抽出に不可欠である。
    • 従来の復元手法は,ノイズの範囲が限定されているか,信号の疎性の事前知識を必要とする場合が多い。
    • 事前知識なしに,外れ値に汚染された測定値から疎信号を効率的に復元することを目指す。
    • 提案手法GFHTP$_1$は,信号の疎性レベルに関する事前知識を必要とせず,理論的な収束性を示す。
    • GFHTP$_1$は,s-疎な信号を最大s回反復で正確に復元できることが証明され,効率的な復元保証を提供する。
    • 数値実験により,GFHTP$_1$は,信号の疎性や外れ値のサポートサイズが変化した場合でも,競合するアルゴリズムを上回るロバスト性と計算時間の短縮を示す。

    Link: https://arxiv.org/abs/2601.06558

  • SpatialMem:言語と質問応答のための距離指標整合型長尺ビデオメモリ [cs.CV, cs.AI]目的:言語と質問応答のための長尺ビデオからの検索と知識獲得
    • ロボット工学や拡張現実において,環境理解は不可欠であり,視覚情報と言語情報を統合する技術が重要である。
    • 従来のシステムでは,長尺ビデオにおける空間的関係の把握や,複雑な環境における効率的な検索が課題であった。
    • 本研究は,空間的指標と整合したメモリ構造を構築し,長尺ビデオの理解を効率化し,空間的推論を可能にすることを目的とする。
    • SpatialMemは,3次元空間を指標として活用することで,ビデオ内のオブジェクトと場所を効率的に記憶し,検索することを可能にした。
    • 実験の結果,SpatialMemは,雑然とした環境や遮蔽物がある状況でも,安定したレイアウト推論,オフラインガイダンス,階層的な検索を維持できることが示された。
    • 二層記述メモリは経路レベルの接地を改善し,スケール変換に対するロバスト性も確認された。これらの結果は,SpatialMemが空間的知識に基づいた長尺ビデオ理解のための効率的かつ拡張可能なインターフェースであることを示唆する。

    Link: https://arxiv.org/abs/2601.14895

  • OnlineSI:オンライン3D理解と接地のための大規模言語モデルの制御 [cs.CV]目的:オンライン環境における3D理解と物体接地能力の向上
    • ロボット工学や拡張現実において,空間認識と物体との関連付けは不可欠である。
    • 既存手法は,変化する環境への適応や実世界での継続的な運用に課題がある。
    • 動画ストリームに基づき,空間理解を継続的に改善するフレームワークを開発する。
    • 提案手法OnlineSIは,有限の空間メモリを用いることで,入力の増加に伴うメモリサイズの増大を抑制する。
    • 3D点群情報と意味情報を統合することで,大規模言語モデルの物体位置特定と識別精度を向上させる。
    • Fuzzy $F_1$-Scoreを用いて評価した結果,提案手法は代表的なデータセット上で有効性を示す。

    Link: https://arxiv.org/abs/2601.16538

  • SRA 2:効率的な拡散学習のための変分オートエンコーダによる自己表現アライメント [cs.CV]目的:拡散学習の効率化
    • 拡散モデルは高性能だが,学習収束が遅い点が課題である。
    • 既存手法は外部エンコーダや二重モデル構成が必要で,計算コストが高い。
    • 事前学習済VAEを活用し,計算コストを抑えつつ学習を加速する。
    • SRA 2は,拡散モデルの中間層特徴量をVAE特徴量にアライメントすることで学習を高速化する。
    • 生成品質と学習収束速度が向上し,既存の高速化手法と同等以上の性能を示す。
    • 追加の計算コストはわずか4%であり,外部ガイダンスモデルは不要である。

    Link: https://arxiv.org/abs/2601.17830

  • FARTrack:高性能な高速自己回帰型ビジュアルトラッキング [cs.CL, cs.CV]目的:高速かつ高性能なビジュアルトラッキングフレームワーク
    • ビジュアルトラッキングは,監視やロボティクスなど,多様な分野で重要な役割を担う技術である。
    • 高性能なトラッカーは計算コストが高く,リソース制約のあるデバイスでの利用が難しいという課題がある。
    • 本研究は,自己回帰型アプローチを用いて,高速かつ高性能なトラッキングを実現し,実用性を高めることを目指す。
    • FARTrackは,タスク固有の自己蒸留とフレーム間自己回帰的なスパース化を導入することで,高速化と性能向上を実現した。
    • GOT-10kデータセットにおいて,リアルタイムで70.6%の平均オーバーラップ(AO)を達成した。
    • GPU上で343 FPS,CPU上で121 FPSという高い処理速度を実現し,様々なデバイスでの利用を可能にした。

    Link: https://arxiv.org/abs/2602.03214

  • 空間的報酬:画像編集におけるオンライン強化学習の知覚ギャップを埋めるための明示的な空間推論 [cs.CV]目的:画像編集のためのオンライン強化学習における知覚ギャップ解消
    • 画像編集は創造的なタスクであり,その自動化には高度な知覚能力と報酬設計が不可欠である。
    • 既存の評価指標は,画像全体の関係性を見落とし,微細な変化を捉えきれない「注意の崩壊」の問題を抱えている。
    • 本研究は,明示的な空間推論を用いることで,より正確な報酬信号を生成し,画像編集の精度向上を目指す。
    • 提案手法SpatialRewardは,編集領域に空間的根拠を持たせることで,セマンティックな判断の精度を高める。
    • MMRB2,EditReward-Bench,MultiEditReward-Benchにおいて最先端の性能を達成し,商用評価モデルを上回った。
    • オンライン強化学習においてOmniGen2の性能をGEdit-Benchで+0.90向上させ,GPT-4.1の改善幅(+0.45)を上回った。

    Link: https://arxiv.org/abs/2602.07458

  • クロスビュージオローカリゼーションのための微細幾何学的スケールと大域的幾何学的構造の統合 [cs.CV, cs.RO]目的:クロスビュージオローカリゼーションにおける位置特定性能の向上
    • GNSSが利用できない環境下でのUAV航法において,正確な位置特定が不可欠である。
    • 航空写真と衛星画像間の幾何学的歪みが大きく,既存手法では頑健な位置特定が困難である。
    • 航空写真と衛星画像間の幾何学的歪みを軽減し,特徴量のアライメントを改善すること。
    • 提案手法(MGS)$^2$は,拡張された幾何学的勾配を用いて高周波な外観アーチファクトを除去し,水平面の不変性を強化する。
    • 深度情報を活用した動的なスケール補正モジュールにより,入力データの構造的フィルタリングをよりロバストにする。
    • University-1652でRecall@1が97.5%,SUES-200で97.02%を達成し,最先端の性能を示す。

    Link: https://arxiv.org/abs/2602.10704

  • MiDAS:ロボット支援低侵襲手術のためのマルチモーダルデータ取得システムとデータセット [cs.RO, cs.CV, cs.LG]目的:ロボット支援低侵襲手術におけるマルチモーダルデータの取得
    • ロボット支援手術の発展には,多様なデータの活用が不可欠である。
    • ロボットメーカー独自のテレメトリデータへのアクセスが制限されている。
    • オープンソースでプラットフォームに依存しないデータ取得システムの開発。
    • MiDASは,ロボットの独自テレメトリに頼らず,複数のモダリティデータを同期して取得できる。
    • 外部センサーによる手の動きと足元の操作は,ロボット内部の動きと高い相関性を示した。
    • MiDASで取得したデータを用いたジェスチャー認識の性能は,独自テレメトリを用いた場合と同等であった。

    Link: https://arxiv.org/abs/2602.12407

  • DAV-GSWT:データ効率の良いガウススプラッティング王タイル生成のための拡散アクティブビューサンプリング [cs.CV]目的:データ効率の良いガウススプラッティング王タイル生成手法
    • 3Dガウススプラッティングは,写実的なニューラルレンダリングの能力を飛躍的に向上させた。
    • 既存手法は,広大な風景生成に王タイルを活用するも,密なサンプル再構成に依存する点が課題。
    • 本研究は,少ない入力データで高品質なガウススプラッティング王タイルを生成することを可能にする。
    • 拡散モデルとアクティブビューサンプリングを組み合わせることで,少ない観測点数で高精細な王タイルを合成することに成功した。
    • 階層的な不確実性定量化メカニズムにより,最も情報量の多い視点を自動的に特定し,シームレスなタイル遷移を実現した。
    • 実験結果から,本手法は必要なデータ量を大幅に削減しつつ,大規模仮想環境に必要な視覚的整合性とインタラクティブなパフォーマンスを維持することが示された。

    Link: https://arxiv.org/abs/2602.15355

  • 実世界における位置ずれのある観測に対するロバストな自己教師ありクロスモーダル超解像 [cs.CY, cs.CV]目的:実世界のずれのあるデータにおけるクロスモーダル超解像の実現
    • 画像処理分野において,高解像度画像の生成は重要な課題であり,様々な応用が期待される。
    • 実世界のデータは位置ずれが頻繁に発生し,従来の超解像手法では十分な性能を発揮できない場合がある。
    • 位置ずれにロバストで,教師なし学習で高性能な超解像手法を開発し,実用性を高める。
    • 提案手法RobSelfは,位置ずれを考慮した特徴変換器と参照フィルタをオンラインで最適化することにより,高い性能を実現した。
    • 合成データおよび実データを用いた実験により,RobSelfが既存の自己教師ありおよび教師あり手法を上回る性能を示すことが確認された。
    • また,RobSelfは既存の自己教師あり手法と比較して,最大15.3倍の高速化を実現している。

    Link: https://arxiv.org/abs/2602.18822

  • UrbanAlign: VLMと人間の選好の整合に向けた事後意味的較正 [cs.CV]目的:VLMと人間の選好の整合
    • 都市における安全性や美観評価など,特定のタスクにおいて人間の判断とVLMsの乖離が課題となっている。
    • 従来のファインチューニングやRLHFは,大規模なアノテーションとモデルの再学習が必要である。
    • 凍結されたVLMの重みを変更することなく,人間の選好に適合させる方法を模索する。
    • 提案手法UrbanAlignは,Place Pulse 2.0において,6つの知覚カテゴリで72.2%の精度(kappa=0.45)を達成した。
    • 既存のベースラインモデルよりも11.0pp,ゼロショットVLMよりも15.5pp高い性能を示した。
    • 完全な解釈可能性を保ちつつ,モデルの重みを一切変更しない。

    Link: https://arxiv.org/abs/2602.19442

  • 視覚基盤モデルにおけるアフォーダンス推論のための幾何学と相互作用の探索と架橋 [eess.SY, cs.SY, math.OC, cs.CV]目的:アフォーダンス推論における幾何学と相互作用の役割の解明
    • ロボット工学やコンピュータビジョンの発展には,対象物とどのように相互作用できるかの理解が不可欠である。
    • 既存の視覚モデルは,アフォーダンスを効果的に推論するための幾何学と相互作用の情報を十分に活用できていない。
    • 視覚基盤モデルが持つ幾何学情報と相互作用情報を統合し,アフォーダンス推論能力を向上させることを目指す。
    • DINOなどのモデルは,部分レベルの幾何学的構造を内在的に符号化していることが判明した。
    • Fluxなどの生成モデルは,動詞に依存した空間的注意マップを持ち,暗黙的な相互作用の事前情報として機能することが示された。
    • DINOの幾何学的プロトタイプとFluxの相互作用マップを融合させることで,弱教師あり学習を用いた手法と競合可能なアフォーダンス推定が可能となった。

    Link: https://arxiv.org/abs/2602.20501

  • StoryTailor:複数主体の行動豊かなビジュアルナラティブのためのゼロショットパイプライン [cs.CV]目的:複数フレームからなる,行動豊かなビジュアルナラティブの生成
    • 近年,画像生成技術の発展により,テキストからビジュアルコンテンツを生成する研究が盛んである。
    • ファインチューニングなしで高品質なビジュアルナラティブを生成するには,行動の忠実性,主体の識別性,背景の連続性の維持が課題となる。
    • 長編のナラティブプロンプトから,一貫性のある人物と背景を持つ画像シーケンスを効率的に生成することを目指す。
    • 提案手法StoryTailorは,単一のRTX 4090 GPU上で実行可能であり,高品質な画像シーケンスを生成する。
    • Gaussian-Centered AttentionやAction-Boost Singular Value Reweightingなどのモジュールにより,CLIP-Tの性能が最大15%向上した。
    • StoryTailorは,表現豊かなインタラクションと,安定したシーンの進化を可能にする。

    Link: https://arxiv.org/abs/2602.21273

  • UniVBench:ビデオ基盤モデルの統一的評価に向けて [cs.DB, cs.CL, cs.IR, cs.CV]目的:ビデオ基盤モデルの統合的評価
    • ビデオ理解と生成の融合が,次世代のマルチモーダルシステムにおいて重要である。
    • 既存の評価ベンチマークはタスク固有で,モデルの統合能力を十分に評価できていない。
    • ビデオ基盤モデルの理解,生成,編集,再構成能力を包括的に評価する枠組みを提供する。
    • UniVBenchは,ビデオ理解,生成,編集,再構成の4つの主要能力を評価するベンチマークである。
    • 200件の高画質で多様なビデオと詳細なキャプション,編集指示,参照画像を用いることで評価の複雑性を高めている。
    • 統一的な評価システムUniV-Evalを開発し,公平で再現性のある比較を可能にしている。

    Link: https://arxiv.org/abs/2602.21835

  • 拡散モデルの加速:DPCacheによるパスプランニングとしてのノイズ除去 [cs.CV]目的:拡散モデルの高速化
    • 拡散モデルは画像生成で成功を収めているが,多段階反復サンプリングの計算コストが課題となっている。
    • 既存の高速化手法は,大域的なノイズ除去軌跡を考慮せず,誤差の蓄積や視覚的なアーティファクトが発生しやすい。
    • DPCacheは,パス依存の誤差を考慮した大域的なパスプランニングにより,高速化と品質維持を両立する。
    • DPCacheは,パス認識コストテンソルを用いて最適なキータイムステップを選択し,計算コストを削減する。
    • DiT,FLUX,HunyuanVideoを用いた実験で,既存手法を上回り,画質劣化を最小限に抑えながら大幅な高速化を実現した。
    • FLUXにおいて,フルステップベースラインを超えるImageRewardを達成し,DPCacheの有効性が示された。

    Link: https://arxiv.org/abs/2602.22654

  • 合成Visual Genome 2:動画からの大規模空間時間シーングラフの抽出 [cs.IR, cs.CV]目的:大規模な空間時間シーングラフデータセットの構築
    • 動画理解におけるシーングラフの重要性が高まっており,より詳細な情報が必要とされている。
    • 既存の空間時間シーングラフデータセットは規模や多様性が十分ではなく,学習のボトルネックとなっていた。
    • 高品質で大規模なデータセットと,それを利用した高性能なモデルの開発が求められている。
    • 合成Visual Genome 2 (SVG2)は,636K以上の動画,6.6Mのオブジェクト,52.0Mの属性,6.7Mの関係を含む大規模データセットである。
    • TRaSERモデルは,既存のベースラインモデルと比較して,関係検出で+15~20%,オブジェクト予測で+30~40%の性能向上を達成した。
    • TRaSERが生成したシーングラフをVLMに供給することで,動画質疑応答の精度が+1.5~4.6%向上し,中間表現としての有効性が示された。

    Link: https://arxiv.org/abs/2602.23543

  • 命令駆動とタスクフィードバックによる適応的動的除煙:多様なダウンストリームタスクへの適応 [cs.CV]目的:多様なダウンストリームタスクに適応するための適応的動的除煙手法
    • 現実世界のビジョンシステムにおいて,画像の可視化だけでなく,多様なタスクの要件を満たすことが重要である。
    • 既存の除煙手法は,特定のタスクに最適化されていることが多く,汎用性に課題がある。
    • 本研究は,再学習なしで多様なタスクの要求に適応する,動的な除煙手法を提案する。
    • 提案手法は,ダウンストリームタスクの性能に基づいたフィードバックループと,ユーザー指示に基づく調整を統合している。
    • これにより,モデルは推論時にリアルタイムで出力を調整し,多様なタスクの進化するニーズに対応できる。
    • 様々なビジョタスクにおける実験により,提案手法の有効性,ロバスト性,および汎用性が実証された。

    Link: https://arxiv.org/abs/2603.00542

  • ScaleFormerとPanScaleベンチマークによるクロススケールパンシャープニング [cs.CV]目的:クロススケールパンシャープニングにおけるデータ,アルゴリズム,計算上の課題の調査
    • リモートセンシング技術の発展に伴い,高解像度なマルチスペクトル画像の生成が不可欠となっている。
    • 既存手法の評価は限定的な設定に留まり,実環境の高解像度シナリオへの汎化が課題であった。
    • 異なる解像度・スケールへの汎化能力を高める新たな手法と評価基準を確立すること。
    • 大規模データセットPanScaleとベンチマークPanScale-Benchを新たに開発し,汎化性能の評価を可能にした。
    • ScaleFormerは,画像解像度の汎化をシーケンス長への汎化として捉え,マルチスケールパンシャープニングに対応する。
    • 実験結果から,ScaleFormerは既存の最先端手法を上回り,融合品質とクロススケール汎化性能において優れていることが示された。

    Link: https://arxiv.org/abs/2603.00543

  • モバイルVTON:高忠実度オンデバイスバーチャル試着 [cs.HC, cs.CV]目的:モバイルデバイス上での高忠実度バーチャル試着の実現
    • 近年,バーチャル試着技術は進化しているが,プライバシー保護とデバイスでの動作が課題。
    • 既存システムはクラウドへの写真送信を必要とし,プライバシー懸念や動作環境の制約がある。
    • モバイルデバイス上でのプライバシーを保護したバーチャル試着システムの開発。
    • Mobile-VTONは,単一のユーザ画像と衣服画像のみを用いて,モバイルデバイス上でオフラインで高忠実度なバーチャル試着を実現。
    • TeacherNet-GarmentNet-TryonNet(TGT)アーキテクチャとFeature-Guided Adversarial(FGA) Distillation戦略により,効率的なオンデバイス動作を実現。
    • VITON-HDおよびDressCodeでの実験により,サーバーベースのシステムと同等以上の性能を示し,実用的なオンデバイスVTONの可能性を示唆。

    Link: https://arxiv.org/abs/2603.00947

  • 多次元データ復元のための再パラメータ化テンソルリング関数分解 [cs.CV, cs.AI, cs.LG]目的:多次元データの復元
    • 高次元データモデリングにおいて,テンソルリング分解は強力な手法である。
    • 従来のテンソルリング分解は,固定グリッド上の離散データに限定されている。
    • 非グリッドデータや微細な詳細を捉える連続フレームワークの最適化を改善する。
    • 提案手法は,学習可能な潜在テンソルと固定基底の組み合わせにより,テンソルリング因子の学習ダイナミクスを向上させる。
    • 固定基底の初期化スキームを導出し,提案モデルのLipschitz連続性を証明した。
    • 画像インペインティング,ノイズ除去,超解像度,点群復元などの実験で,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.01034

  • FastLightGen:少ないステップとパラメータによる高速かつ軽量な動画生成 [cs.CV]目的:高速かつ軽量な動画生成モデルの実現
    • 動画生成技術は新たな時代を迎えつつあり,その発展は様々な分野での応用を可能にする。
    • 既存の高性能モデルは計算コストが高く,実用的な展開が困難であるという課題がある。
    • モデルサイズと推論ステップの両方を圧縮し,効率的な動画生成を実現することを目的とする。
    • FastLightGenは,大規模モデルを高速かつ軽量なモデルに変換するアルゴリズムである。
    • HunyuanVideo-ATI2VとWanX-TI2Vを用いた実験で,4ステップサンプリングと30%のパラメータ削減により,高品質な動画生成が可能であることが示された。
    • FastLightGenは既存手法を上回り,効率的な動画生成において新たな基準を確立した。

    Link: https://arxiv.org/abs/2603.01685

  • Kiwi-Edit:指示と参照による汎用的な動画編集 [cs.CV, cs.AI]目的:指示と参照を用いた動画編集手法の開発
    • 動画編集はコンテンツ制作において不可欠であり,その効率化と品質向上が求められている。
    • 自然言語による指示だけでは,複雑な視覚的ニュアンスを正確に伝えることが困難である。
    • 高品質な参照データ不足が,参照に基づく動画編集の性能向上を阻害している。
    • 本研究では,画像生成モデルを活用したデータ生成パイプラインを開発し,大規模なデータセットRefVIEを構築した。
    • Kiwi-Editは,学習可能なクエリと潜在的視覚特徴を組み合わせた統合編集アーキテクチャであり,参照に基づくセマンティックガイダンスを実現している。
    • 提案手法は,制御可能な動画編集において最先端の性能を達成し,指示追従性と参照忠実性を大幅に向上させた。

    Link: https://arxiv.org/abs/2603.02175

  • VSearcher:強化学習による長期的視点を持つマルチモーダル検索エージェント [cs.CV]目的:マルチモーダル検索エージェントの開発
    • LLMが現実世界とインタラクトする場面が増加しており,外部ツールとの連携が重要になっている。
    • 既存のマルチモーダルLLMは静的な知識に頼っており,最新のWeb情報を活用できない。
    • Web環境における長期的かつ複数段階のツール利用を可能にするマルチモーダル検索エージェントを構築すること。
    • VSearcherは,テキスト検索,画像検索,Webブラウジングなどのツールを強化学習を用いて効果的に利用する。
    • 大規模で複雑なマルチモーダルQAデータセットを生成し,エージェントの学習を促進するIterative Injection Data Synthesisパイプラインを提案。
    • 複数のマルチモーダル検索ベンチマークで既存のエージェントや商用モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.02795

  • 見るにつれて考える:大規模視覚言語モデルのためのストリーミング思考連鎖推論 [cs.CV]目的:大規模視覚言語モデルにおけるストリーミング思考連鎖推論のパラダイムの調査
    • 動画理解は,現実世界の多様な応用において不可欠であり,その重要性は増している。
    • 既存の推論方法は,動画全体を事前に必要とし,リアルタイムな動画ストリームには不向きである。
    • 動画ストリームに最適化された,効率的かつ応答性の高い視覚理解を実現する。
    • 提案手法TaYSは,従来のバッチ処理や交互処理と比較して,推論性能において一貫して優れた結果を示した。
    • TaYSは,最初のトークンまでの時間(TTFT)および全体的な推論遅延を大幅に削減することに成功した。
    • これらの結果は,データに合わせたストリーミング推論が,大規模視覚言語モデルにおける効率的な動画理解を可能にすることを示す。

    Link: https://arxiv.org/abs/2603.02872

  • Phys4D:ビデオ拡散からの微細な物理整合性4Dモデリング [cs.CY, cs.CV, cs.AI, cs.RO]目的:物理整合性4Dワールド表現の学習
    • 近年の大規模生成モデルの発展に伴い,現実世界の再現が重要になっている。
    • 既存のビデオ拡散モデルは,時間経過に伴う物理的に不自然な挙動を示す場合がある。
    • ビデオ拡散モデルから,微細な物理整合性を持つ4Dワールド表現を獲得することを目指す。
    • Phys4Dは,大規模な疑似教師あり事前学習,物理に基づいた教師ありファインチューニング,シミュレーションに基づく強化学習という3段階の訓練パラダイムを採用する。
    • 実験結果から,Phys4Dは外観ベースのベースラインと比較して,微細な時空間的および物理的一貫性を大幅に向上させることが示された。
    • 4Dワールドの一貫性評価指標を導入し,幾何学的コヒーレンス,運動安定性,長期的な物理的妥当性を評価した。

    Link: https://arxiv.org/abs/2603.03485

  • MoRe:モーションを考慮した4D再構成Transformer [cs.CV]目的:動的な3Dシーンの効率的な再構成
    • 動的なシーン再構成は,ロボット工学やAR/VR等,様々な応用分野で不可欠である。
    • 移動物体がカメラ姿勢推定を妨げ,高精度な4Dシーン再構成が困難である。
    • リアルタイム処理が可能な,効率的な動的3Dシーン再構成手法の開発。
    • MoReは,静的シーン再構成の基盤上に構築され,アテンション強制戦略により動的な動きと静的な構造を分離する。
    • グループ化された因果的アテンション機構により,時間依存性を捉え,フレーム間のトークン長の変化に対応する。
    • 複数のベンチマークにおいて,MoReは優れた効率性と高品質な動的再構成性能を実証した。

    Link: https://arxiv.org/abs/2603.05078

  • 大規模言語モデルによるアルゴリズム的共謀 [econ.GN, cs.AI, cs.GT, q-fin.EC]目的:大規模言語モデルに基づく価格設定エージェントのアルゴリズム的共謀
    • AI技術の価格設定への応用は,市場効率性と企業収益に大きな影響を与えるため重要である。
    • AIエージェントが意図せず共謀し,価格操作を行う可能性が懸念されている。
    • 本研究は,大規模言語モデルを用いた価格設定エージェントにおける共謀メカニズムを解明する。
    • 大規模言語モデルを用いた価格設定エージェントは,寡占市場において競争を制限し,価格と利益を上昇させる。
    • プロンプトのわずかな変更が,価格競争の程度に大きく影響することが示された。
    • 価格競争への懸念が,共謀の要因の一つであることが明らかになった。

    Link: https://arxiv.org/abs/2404.00806

  • 自己整合学習に基づく効率的な自己教師あり地震データ再構成手法 [eess.IV, cs.CV, cs.LG, physics.geo-ph]目的:地震データの再構成
    • 地下構造の特性評価には地震探査が不可欠であり,資源探査や防災に貢献する。
    • 地形の影響等により受信点の配置が不均一となり,地震データの品質が低下する課題がある。
    • 追加データ不要で,安定した地震データ再構成を実現し,探査作業の効率化を目指す。
    • 提案手法は,自己整合学習戦略と軽量ネットワークを用いて高品質な再構成を可能にする。
    • 追加のデータセットを必要とせず,地震データ内部の成分間相関を活用した損失関数を設計した。
    • 公開データセットでの検証により,大規模かつ複雑な地震探査タスクへの有効性が示された。

    Link: https://arxiv.org/abs/2411.00911

  • LLMベースTTSにおける効率的な感情・話者適応:特徴量特化型部分ファインチューニング [eess.AS, cs.SD]目的:LLMベースTTSの感情・話者適応手法
    • 近年,LLMベースTTSのゼロショット性能が注目されるが,未知ドメインでの品質向上が課題。
    • 全パラメータをファインチューニングすると,計算コストが高く,過学習や性能劣化が生じやすい。
    • 感情・話者情報を効率的に捉える層のみを更新し,適応性能と学習効率を向上させる。
    • 提案手法CSP-FTは,全ファインチューニングと同等以上の性能を,パラメータ更新率約8%で達成。
    • 学習速度を約2倍に向上させ,破滅的忘却を大幅に抑制することに成功した。
    • 11のデータセットによる評価で,CSP-FTの有効性が確認された。

    Link: https://arxiv.org/abs/2501.14273

  • 低レベル視覚の心理物理学的測定を通して品質指標を評価する [eess.IV, cs.CV, cs.MM]目的:画像・動画品質指標の評価
    • 視覚情報の質は,人間にとって重要な要素であり,その評価手法の確立が求められている。
    • 既存の品質指標は,必ずしも人間の視覚特性を十分に考慮しているとは限らない。
    • 低レベル視覚の特性に基づいた品質指標の評価枠組みを構築し,指標の性能を検証する。
    • 既存の品質指標を,コントラスト感度,コントラストマスキング,コントラストマッチングのテストで評価した。
    • LPIPSとMS-SSIMは,コントラストマスキングの予測に優れている一方,SSIMは高周波成分を過大評価する傾向が見られた。
    • 多くの品質指標は,閾値以上のコントラスト一定性をモデル化することが困難であることが示された。

    Link: https://arxiv.org/abs/2503.16264

  • 収束型画像再構成のための多変量エキスパート場 [eess.IV, cs.CV, cs.LG, eess.SP]目的:画像事前分布の学習に関する新たな枠組み
    • 画像処理において,高品質な画像再構成は重要な課題である。ノイズ除去や鮮明化など,様々な応用分野で求められている。
    • 既存手法では,計算コストが高い場合や,学習に必要なデータ量が膨大な場合がある。また,解釈性が低いという問題点も存在する。
    • 多変量関数を用いたモデルにより,効率的かつ解釈性の高い画像再構成を実現すること。
    • 本研究で提案する多変量エキスパート場は,画像ノイズ除去,ぼかし除去,MRIやCTなどの逆問題において優れた性能を発揮する。
    • 既存の単変量モデルと比較して性能が向上し,深層学習ベースの正則化手法に匹敵する結果を,より高速かつ少ないパラメータで実現した。
    • モデルの構造設計により高い解釈性を保ち,理論的な収束性保証によって信頼性の高い再構成が可能となる。

    Link: https://arxiv.org/abs/2508.06490

  • カーネルVICReg:再生核ヒルベルト空間における自己教師あり学習 [stat.ML, cs.CV, cs.LG]目的:再生核ヒルベルト空間における自己教師あり学習のためのフレームワーク
    • ラベルなしで表現学習を行う自己教師あり学習は,近年非常に重要な手法となっている。
    • 既存手法はユークリッド空間で動作するため,非線形な依存関係や幾何学的構造の捕捉が困難である。
    • カーネル化により非線形な特徴学習を可能にし,表現の崩壊リスクを軽減することを目的とする。
    • 提案手法であるKernel VICRegは,MNIST,CIFAR-10,STL-10などのデータセットで,ユークリッド空間におけるVICRegを上回る性能を示した。
    • 特に,非線形構造が顕著なデータセットにおいて,顕著な改善が見られた。
    • カーネル化による自己教師あり学習は,古典的なカーネル法と最新の表現学習を繋ぐ有望な方向性を示唆している。

    Link: https://arxiv.org/abs/2509.07289

  • 潜在的な透過マップとグレアマップの学習によるレンズベールグレア除去 [math.CO, cs.DM, math.NT, eess.IV, cs.CV, physics.optics]目的:レンズベールグレアの除去
    • 簡略化された光学系における画像性能向上のために,収差以外の要因の理解が重要である。
    • 従来の散乱モデルは,空間依存性や深度非依存性を持つベールグレアを正確にモデル化できない。
    • 学習データ不足を解消し,ベールグレア除去のためのデータ駆動型モデルを開発すること。
    • 提案手法VeilGenは,Stable Diffusionに基づき,潜在的な透過マップとグレアマップを教師なし学習で推定する。
    • VeilGenは,収差とベールグレアの複合的な劣化を伴う現実的なペアデータセットの生成を可能にする。
    • 復元ネットワークDeVeilerは,推定された潜在マップを用いてベールグレア除去プロセスを誘導し,優れた性能を示す。

    Link: https://arxiv.org/abs/2511.17353

  • 融合前の浄化:堅牢な音声・視覚音声認識のためのマスクフリー音声強調 [eess.AS, cs.AI, cs.LG, cs.MM, cs.SD]目的:ノイズに強い音声・視覚音声認識の実現
    • 音声認識は,多様なインターフェースの実現に不可欠であり,その堅牢性が重要である。
    • 騒音下では音声認識性能が低下し,特に音声と映像の融合過程で悪影響が生じる。
    • 既存手法の課題であるマスク生成による情報損失を回避し,堅牢性を向上させる。
    • 提案手法は,Conformerベースのボトルネック融合モジュールを用いて,視覚情報により音声特徴量を暗黙的に改善する。
    • モダリティ冗長性を低減し,モダリティ間相互作用を強化することで,音声の意味的整合性を維持する。
    • 公開ベンチマークLRS3での評価により,ノイズ下において既存のマスクベース手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2601.12436

  • ドメイン横断型乳児泣き声分類のためのLMUベースの逐次学習と事後アンサンブル融合 [eess.AS, cs.LG, cs.SD]目的:ドメイン横断型乳児泣き声分類における精度向上
    • 乳児の健康モニタリングにおいて,泣き声の解析は重要な課題である。早期発見や適切なケアに繋がる可能性を秘めている。
    • 泣き声信号は短く非定常であり,注釈データが限られ,個人やデータセット間でのドメインシフトが課題となっている。
    • 異なるデータセット間での汎化性能を向上させ,実用的なモニタリングシステムを実現することを目指す。
    • 提案手法は,MFCC,STFT,ピッチ特徴量を多分岐CNNエンコーダで統合し,強化されたLMUを用いて時間的動態をモデル化する。
    • LMUはLSTMと比較して,少ないパラメータで安定した系列モデリングを実現し,効率的な実装を可能にする。
    • キャリブレーションされた事後アンサンブル融合により,ドメイン固有の知識を保持しつつ,データセットバイアスを軽減することで,Baby2020とBaby CryingデータセットでマクロF1スコアが向上した。

    Link: https://arxiv.org/abs/2603.02245

  • Whisper-RIR-Mega:自動音声認識の音響環境ロバスト性評価のためのクリーン・残響ペア音声ベンチマーク [eess.AS, cs.AI, cs.LG, cs.SD]目的:自動音声認識の音響環境に対するロバスト性評価
    • 音声認識技術は,多様な環境下での利用が求められており,音響環境への適応が重要である。
    • 残響環境下では音声認識性能が低下する傾向にあり,ロバスト性の向上が課題となっている。
    • 音響環境変化に対する音声認識モデルの性能評価を可能にするベンチマークデータセットの構築。
    • Whisper-RIR-Megaは,クリーン音声と残響音声のペアから構成されるベンチマークデータセットである。
    • 実験の結果,残響はすべてのモデルサイズにおいて性能を低下させ,WERの低下は0.12~1.07ポイントである。
    • 本データセット,評価コード,およびベースライン結果は公開されており,ロバストな音声認識研究を支援する。

    Link: https://arxiv.org/abs/2603.02252

  • ポリベンチ:多声音響における構成的推論のためのベンチマーク [eess.AS, cs.SD]目的:多声音響における構成的推論の評価
    • 近年,音声処理技術は飛躍的に進歩しており,様々な応用が期待されている。
    • 既存のベンチマークは,複数の音が重なり合う多声音響の推論評価が不十分である。
    • 多声音響における構成的推論能力のボトルネックを特定し,改善を目指す。
    • 最先端の音声言語モデルの評価により,多声音響において性能が低下することが示された。
    • この結果は,現在の音声言語モデルに多声音響の構成的推論における根本的な課題があることを示唆する。

    Link: https://arxiv.org/abs/2603.05128