arXiv雑要約

画像・音声 - 2026/03/24 公開

  • EZ-SP:高速かつ軽量なSuperpointベース3Dセグメンテーション [cs.FL, cs.CV]目的:3Dセマンティックセグメンテーションのための高速・軽量なSuperpoint生成手法
    • 3Dセグメンテーションは,ロボティクスや自動運転などの分野で重要な役割を担っている。
    • 既存のSuperpointベース手法は,CPU負荷の高いパーティション処理がボトルネックとなっている。
    • GPUを用いた学習可能なパーティションアルゴリズムにより,このボトルネックを解消することを目指す。
    • 提案手法EZ-SPは,既存手法と比較して13倍高速に幾何学的・意味的に一貫性のあるSuperpointを生成する。
    • EZ-SPは軽量であり(6万パラメータ以下),20分未満で学習可能で,手動特徴量も不要である。
    • KITTI-360,S3DIS,DALESの3つのドメインにおいて,点ベースの最先端モデルと同等の精度を72倍の高速化と120倍のパラメータ削減で実現した。

    Link: https://arxiv.org/abs/2512.00385

  • PhysGen:産業デザインのための物理に基づいた3D形状生成 [cs.CV]目的:産業デザインにおける3D形状生成のための物理的制約の導入
    • 製品開発において,形状と物理特性は不可分であり,両者の整合性が重要である。
    • 既存の生成モデルは物理特性を考慮せず,現実的な形状生成が困難である。
    • 物理シミュレーションと機械学習を融合し,物理特性を考慮した形状生成を目指す。
    • 提案手法は,形状と物理情報を統合した潜在空間を構築する。
    • 速度ベース更新と物理ベース洗練を交互に行うことで,形状と物理特性を同時に最適化する。
    • 実験結果から,提案手法が視覚的な妥当性だけでなく,物理的な現実性も向上させることが示された。

    Link: https://arxiv.org/abs/2512.00422

  • 暗闇におけるビデオインスタンスセグメンテーションのための低照度画像強調:ELVIS [cs.CY, cs.CV]目的:低照度ビデオインスタンスセグメンテーションの性能向上
    • ビデオインスタンスセグメンテーションは,自動運転や監視システムなど,多様な分野で重要な役割を担う。
    • 低照度環境下では,ノイズやぼやけが生じやすく,正確なセグメンテーションが困難となる。
    • 大規模なアノテーションデータセットの不足や,既存の合成パイプラインの限界を克服し,低照度環境への適応性を高める。
    • 提案手法ELVISは,空間的・時間的な劣化をモデル化する教師なし合成低照度ビデオパイプライン,劣化プロファイル推定ネットワーク,および劣化とコンテンツ特徴を分離する強化デコーダーヘッドで構成される。
    • 合成データセットYouTube-VIS 2019において,最先端のVISモデルの性能を最大+3.7AP向上させた。
    • 実データにおいても,既存の二段階ベースライン手法を少なくとも+2.8AP上回る性能を示した。

    Link: https://arxiv.org/abs/2512.01495

  • 複数回の画像編集における高周波特徴の維持:FreqEdit [cs.CV]目的:複数回の画像編集におけるロバスト性のための高周波特徴の維持
    • 自然言語による画像編集は,直感的な視覚操作の強力な手段として注目されている。
    • 既存モデルは単一の編集では高い成果を示すものの,複数回の編集において品質が著しく低下する。
    • 本研究は,複数回の編集における高周波情報の損失を抑制し,編集品質の安定化を図る。
    • FreqEditは,参照速度場からの高周波特徴の注入,適応的な注入戦略,経路補正メカニズムを組み合わせる。
    • このフレームワークは,10回以上の連続的な編集において安定した編集を可能にする。
    • 実験の結果,FreqEditは7つの最先端ベースラインと比較して,同一性の維持と指示の追従において優れた性能を示す。

    Link: https://arxiv.org/abs/2512.01755

  • AdaptVision:適応的な視覚獲得による効率的な視覚言語モデル [cs.CV, cs.AI, cs.CL, cs.LG]目的:視覚言語モデルの効率化
    • 視覚言語モデルは画像とテキストの理解において目覚ましい進歩を遂げている。
    • 従来の効率化手法は固定的な圧縮率に依存し,タスクに応じた柔軟性に欠ける。
    • 各サンプルに必要な最小限の視覚トークン数をモデルが自律的に決定することを目指す。
    • AdaptVisionは粗い解像度から徐々に詳細な情報を獲得する手法により,効率的な処理を実現した。
    • 強化学習フレームワークとDecoupled Turn Policy Optimization(DTPO)により,精度と効率のバランスを最適化した。
    • 複数のVQAベンチマークで,既存手法を上回る性能と視覚トークン数の削減を達成した。

    Link: https://arxiv.org/abs/2512.03794

  • ノイズ除去による追跡:ビデオ拡散事前知識を活用したロバストな対応点探索 [cs.CL, cs.CV]目的:ビデオ拡散モデルの視覚的事前知識を活用したゼロショット点追跡フレームワーク
    • ビデオ解析は,監視,自動運転,ロボット工学など幅広い分野で不可欠な技術である。
    • 既存の追跡手法は,ノイズやオクルージョンに弱く,ロバスト性に課題が残る。
    • ビデオ拡散モデルの持つ強力な事前知識を活用し,ロバストな対応点探索を実現すること。
    • 提案手法HeFTは,ゼロショットで最先端の追跡性能を達成し,教師あり学習法の精度に匹敵する。
    • ビデオ拡散Transformer(VDiT)の内部表現解析から,注意ヘッドが異なる機能を持つことが明らかになった。
    • 低周波成分が対応点確立に重要であり,高周波成分がノイズとなる傾向が確認された。

    Link: https://arxiv.org/abs/2512.04619

  • 潜在フローマッチング: 生成医療画像セグメンテーションへのアプローチ [cs.CV]目的:医療画像セグメンテーションのための潜在空間における生成モデル
    • 医療画像解析は,診断精度向上や治療計画立案に不可欠であり,その自動化が強く求められている。
    • 従来のセグメンテーション手法では,画像データの多様性に対応し,不確実性を定量化することが課題であった。
    • 潜在空間でのフローマッチングにより,多様なセグメンテーション結果と不確実性の推定を実現することを目指す。
    • 提案手法LatentFMは,潜在空間でフローベースのモデルを構築し,高精度なセグメンテーションを達成した。
    • 生成された複数のセグメンテーション結果のピクセルごとの分散は,基盤となるデータ分布を適切に捉えていることが確認された。
    • ISIC-2018とCVC-Clinicデータセットにおける実験により,既存手法と比較して優れたセグメンテーション精度と効率性が示された。

    Link: https://arxiv.org/abs/2512.04821

  • SCAIL:文脈学習による3D一貫性のある姿勢表現を用いたスタジオ品質のキャラクターアニメーションへ [cs.CV]目的:スタジオ品質のキャラクターアニメーション実現に向けた研究
    • キャラクターアニメーションは,映画やゲームなど幅広い分野で不可欠な技術である。
    • 複雑な動きや異なるキャラクター間でのモーション転送において,構造の一貫性や時間的な整合性が課題である。
    • 3D一貫性のある姿勢表現と文脈学習によって,より高品質なキャラクターアニメーションを実現する。
    • SCAILは,新しい3D姿勢表現と拡散トランスフォーマーによる姿勢注入メカニズムを導入することで,空間的・時間的推論を可能にした。
    • 高品質で多様なデータパイプラインを構築し,系統的な評価のためのベンチマークを確立した。
    • 実験の結果,SCAILは最先端の性能を達成し,スタジオ品質のキャラクターアニメーション制御に貢献することが示された。

    Link: https://arxiv.org/abs/2512.05905

  • M4-RAG:大規模多言語多文化マルチモーダルRAG [cs.CL, cs.AI, cs.CV]目的:大規模多言語多文化マルチモーダルRAGの評価基盤
    • 視覚と言語を組み合わせたモデルはVQAで高い性能を示す。しかし,学習データに限界がある。
    • RAGは最新情報を取り込めるが,多言語・多文化に対応したRAGは未発達である。
    • 多言語・多文化環境におけるRAGの性能評価と課題の明確化を目指す。
    • M4-RAGは42言語,56方言,189カ国に対応する8万件以上の画像質問ペアから構成される。
    • RAGは小規模モデルには有効だが,大規模モデルでは性能が向上せず,むしろ低下する場合がある。
    • 非英語でのプロンプトや検索結果は,性能低下を引き起こすことが示された。

    Link: https://arxiv.org/abs/2512.05959

  • 単一動画からの合成データのみを用いた高精度関節オブジェクトモデリング:sim2art [cs.CV, cs.RO]目的:単眼動画からの関節オブジェクトの3Dパーツ分割と関節パラメータの復元
    • ロボティクスやデジタルツインにおいて,単眼動画からの関節オブジェクト理解は不可欠な技術である。
    • 既存手法は,複雑な多視点構成,高精度なオブジェクトスキャン,または不安定な点追跡に依存し,実環境での利用が困難である。
    • 本研究は,実環境での利用が容易な単眼動画のみから,ロバストな3Dモデルを構築することを目的とする。
    • sim2artは,フレームごとの表面点サンプリングと,短期的シーンフロー,DINOv3セマンティック特徴を用いることで,ロバストな表現を実現した。
    • 合成データのみで学習するも,実環境のシーケンスに対して高い汎化性能を示す。
    • 新規オブジェクトカテゴリへの拡張が容易であり,実世界の注釈作業の負担を軽減する。

    Link: https://arxiv.org/abs/2512.07698

  • モバイルカメラにおける色補正のためのマルチスペクトルセンサの活用 [cs.CV]目的:モバイルカメラにおける色補正の精度向上
    • 近年の画像処理技術の進歩は,モバイルデバイスのカメラ性能向上に不可欠である。
    • 従来のRGBセンサーでは捉えきれない色情報の欠如が,色補正の課題となっていた。
    • マルチスペクトルセンサを活用し,端端一体型の学習フレームワークによる色補正を実現する。
    • 提案手法は,RGBセンサーとマルチスペクトルセンサーのデータを統合的に活用することで,色精度と安定性を向上させる。
    • 既存の画像変換アーキテクチャを改良し,様々な条件下での汎用性を実証した。
    • 公開されているスペクトルデータセットを統合した専用データセットを構築し,効果的な学習と評価を可能にした。

    Link: https://arxiv.org/abs/2512.08441

  • LoGoColor:360度シーンの局所・大域的3Dカラー化 [cs.CV]目的:360度シーンにおける3Dカラー化手法
    • ロボティクスや医療画像処理など,3D再構成技術の応用範囲は広い。
    • 既存の3Dカラー化手法は,2D画像カラー化モデルの知識蒸留に依存し,色の一様化が生じやすい。
    • 本研究は,色の一様化を抑制し,多様性を維持した3Dカラー化を目指す。
    • 提案手法は,シーンを部分シーンに分割し,局所・大域的アプローチにより一貫性を確保する。
    • マルチビュー拡散モデルを微調整することで,部分シーン内外の一貫性を明示的に扱う。
    • 複雑な360度シーンにおいて,既存手法よりも整合性が高く,妥当な3Dカラー化を実現した。

    Link: https://arxiv.org/abs/2512.09278

  • 粒度認識マスク洗練器を用いた音声同期型ビデオインスタンス編集 [cs.DB, cs.FL, cs.DM, math.CO, math.NT, cs.CV]目的:音声同期型ビデオインスタンス編集のためのフレームワーク
    • ビデオ生成技術の進歩に伴い,リアルな音声と映像の同期が重要視されている。
    • 既存のビデオ編集手法は,音声と映像の同期を軽視しており,精密なインスタンスレベルの編集が困難である。
    • AVI-Editは,インスタンスレベルの正確な編集を実現し,音声と映像の同期を向上させることを目指す。
    • AVI-Editは,粗いユーザー指定のマスクを精密なインスタンスレベルの領域へと反復的に洗練させる粒度認識マスク洗練器を提案する。
    • 高品位な音声ガイダンスを提供する自己フィードバック型音声エージェントを設計し,時間的な制御の精度を高める。
    • 大規模なインスタンス中心対応データセットを構築し,AVI-Editの性能を評価した結果,最先端手法を凌駕する成果が得られた。

    Link: https://arxiv.org/abs/2512.10571

  • Flowception:ビデオ生成のための時間的に拡張されたフローマッチング [cs.CL, cs.CL, cs.CY, cs.CV, cs.AI]目的:ビデオ生成のための新たなフレームワーク
    • ビデオ生成技術は,エンターテイメントやコンテンツ制作など多岐にわたる分野で重要性が増している。
    • 既存のビデオ生成手法は,長時間の動画生成においてエラーの蓄積やドリフトが発生しやすいという課題がある。
    • Flowceptionは,エラー蓄積を軽減し,効率的な長期コンテキスト処理を実現することを目的とする。
    • Flowceptionは,離散的なフレーム挿入と連続的なフレームノイズ除去を組み合わせることで,高品質なビデオ生成を可能にする。
    • 従来の自己回帰モデルと比較して,計算コストを大幅に削減し,ローカルアテンションとの相性も良い。
    • FVDやVBenchといった定量的な評価指標において,既存手法を上回る性能を示しており,視覚的な結果からもその有効性が確認された。

    Link: https://arxiv.org/abs/2512.11438

  • VoroLight:球体交差によるボロノイ表面メッシュの学習 [cs.CG, cs.CV, cs.GR, cs.LG, math.OC]目的:3D形状再構成のためのボロノイ表面メッシュの学習
    • 3D形状の表現方法として,凸性,水密性,トポロジーの一貫性が重要視される。
    • 従来の微分可能なボロノイ法では,生成点の配置が安定化しやすく,表面形状が不均一になりやすい。
    • 滑らかな表面再構成を可能にする制御されたボロノイ退化を促進し,形状の不均一性を解消する。
    • VoroLightは,各ボロノイ表面頂点に学習可能な球体を関連付け,球体交差損失を導入することで,表面の規則性を向上させる。
    • この手法は,水密性や凸性といったボロノイ本来の特性を維持しながら,多様な入力形式(暗黙的フィールド,点群,メッシュ,マルチビュー画像)からの形状監視を可能にする。
    • 内側生成点を追加することで,一貫した表面-内部トポロジーを持つ体積ボロノイメッシュにも自然に拡張でき,高い再構成精度と滑らかな表面を実現する。

    Link: https://arxiv.org/abs/2512.12984

  • 複数視点画像からの物理ベースマテリアル再構成のための本質画像融合 [cs.CV, cs.AI]目的:複数視点画像からの高品質な物理ベースマテリアルの再構成
    • 現実世界の再現には,正確なマテリアル表現が不可欠であるため,その再構成技術は重要性が高い。
    • マテリアル再構成は制約が少なく,ノイズを含むレンダリングによる試行錯誤に頼る傾向がある。
    • 単一視点からの事前知識を活用し,一貫性のない推定を統合することで,再構成の精度向上を目指す。
    • 提案手法は,拡散ベースのマテリアル推定器の予測に対し,低次元のパラメータ関数を適用することで不整合を軽減する。
    • 視点ごとの予測選択と信頼度に基づくインライアセットを利用したロバストな最適化フレームワークを提案し,一貫性のあるマテリアル空間を構築する。
    • 合成および実写データセットにおいて,最先端手法を凌駕するマテリアル分離性能と高品質な再構成を実現した。

    Link: https://arxiv.org/abs/2512.13157

  • 因果CLIP:因果に基づいた特徴の分離とフィルタリングによる生成画像汎化検出 [cs.CV]目的:生成画像の識別における汎化性能の向上
    • 生成モデルの急速な発展に伴い,多様な生成技術に対応可能な識別器の需要が高まっている。
    • 既存手法は,重要な特徴と無関係なパターンが混ざり,汎化性能が制限されるという課題がある。
    • 因果推論に基づき,識別性能に寄与する安定した特徴のみを分離・抽出することを目的とする。
    • CausalCLIPは,構造因果モデルを用いて特徴を分離し,統計的独立性を強制することで,分布シフトに強い因果特徴を抽出する。
    • 異なる生成モデルのデータセットにおいて,最新手法と比較して,精度が6.83%向上,平均適合率が4.06%向上した。
    • CausalCLIPは,汎化性能に優れ,未知の生成モデルに対しても高い識別能力を示す。

    Link: https://arxiv.org/abs/2512.13285

  • TTP:Vision-Languageモデルにおける敵対的検出とロバスト適応のためのテスト時パディング [cs.CV, cs.AI]目的:Vision-Languageモデルに対する敵対的摂動の検出と,それに伴うロバスト適応
    • Vision-Languageモデルはゼロショット認識性能が高いが,安全性に関わる場面での脆弱性が課題。
    • 既存の防御策は再学習が必要,もしくは敵対的入力と正常入力の識別が困難である。
    • テスト時に敵対的入力を検出し,注意機構を回復することでロバスト性と精度を向上させる。
    • 提案手法TTPは,空間パディングによる特徴埋め込みのコサイン類似度変化を利用して敵対的入力を高精度に検出する。
    • 検出された敵対的入力に対しては,学習可能なパディングと類似度を考慮したアンサンブル戦略を適用し,ロバスト性を高める。
    • 様々なCLIPモデルやベンチマークにおいて,既存のテスト時防御法を上回り,精度を維持しつつ敵対的ロバスト性を向上させる。

    Link: https://arxiv.org/abs/2512.16523

  • 情報理論圧縮による適応的離散動画トークナイザー:InfoTok [cs.CV, cs.AI]目的:長編動画処理のための,正確かつ効率的な離散動画トークナイズ処理
    • 動画は複雑で情報密度が変動するため,効率的な処理が重要である。
    • 既存のトークナイザーは固定レートで圧縮するため,冗長性や情報損失が生じやすい。
    • 情報量に応じてトークンを割り当てることで,より効率的な動画表現を目指す。
    • 本研究で提案するInfoTokは,情報理論に基づき,動画のトークナイズを適応的に行うフレームワークである。
    • 実験結果から,InfoTokは既存手法と比較して,トークン数を20%削減しつつ,性能を維持していることが示された。
    • また,2.3倍の圧縮率を達成し,ヒューリスティックな適応的アプローチよりも優れていることが確認された。

    Link: https://arxiv.org/abs/2512.16975

  • GroundingME:MLLMにおける視覚的接地能力のギャップを多次元評価で明らかにする [cs.CV]目的:MLLMの視覚的接地能力の評価
    • 言語と視覚の理解を結びつける視覚的接地は,AIの知能にとって不可欠な要素である。
    • 既存のベンチマークは現実世界の複雑さを捉えきれておらず,AIの真の能力を測れない。
    • 現実世界の複雑さを反映したベンチマークを用いて,MLLMの視覚的接地能力の限界を明らかにすること。
    • GroundingMEは,識別,空間,制限,拒否という4つの次元でMLLMを評価するベンチマークである。
    • 25種類の最先端MLLMの評価により,性能に大きなギャップが存在することが明らかになった(最高モデルの精度は45.1%)。
    • テスト時スケーリングやデータ混合学習によって,性能向上が見られた(拒否タスクの精度は0%から27.9%に向上)。

    Link: https://arxiv.org/abs/2512.17495

  • Real2Edit2Real: 3D制御インターフェースによるロボットデモンストレーションの生成 [cs.RO, cs.CV, cs.GR]目的:ロボットデモンストレーションの生成手法
    • ロボット学習の進展にはデータセットが不可欠だが,多様なデータを収集するコストが高い。
    • 特に,空間的な一般化能力を持つ操作タスクにおいて,実データ収集の負担が大きい。
    • 3D編集可能性と2D視覚データ間の橋渡しにより,効率的なデモンストレーション生成を目指す。
    • 提案手法Real2Edit2Realは,3D制御インターフェースを介して新たなデモンストレーションを生成する。
    • わずか1-5件の元データで学習したポリシーが,50件の実データで学習したポリシーと同等またはそれ以上の性能を示す。
    • データ効率を10-50倍向上させ,高さやテクスチャ編集の柔軟性も実証された。

    Link: https://arxiv.org/abs/2512.19402

  • スパイク駆動型ビデオTransformerとスパイク情報事前学習によるリアルタイム手術シーンセグメンテーションへの取り組み [cs.CV]目的:手術シーンのリアルタイムセグメンテーション手法の開発
    • 手術支援システムにおいて,安全性の向上と術中状況認識の精度向上が求められているため。
    • 既存のANNモデルは高性能だが,計算量とエネルギー消費が大きく,リソース制約のある手術環境での利用が課題である。
    • SNNの効率性を活かしつつ,手術シーンセグメンテーションの性能向上と高速化を実現すること。
    • SpikeSurgSegは,SNNの利点を維持しつつ,データ不足の状況下でもANNモデルと同等の性能を達成した。
    • スパイク情報に基づいた事前学習戦略と,情報の漏洩を抑制するチューブマスキングスキームにより,性能が向上した。
    • 周波数領域での知識蒸留により,ANNとSNNの学習を整合させ,推論速度を最大で20倍に向上させた。

    Link: https://arxiv.org/abs/2512.21284

  • Scene-VLM:Vision-Languageモデルによるマルチモーダル動画シーンセグメンテーション [cs.CV]目的:動画シーンのセグメンテーション
    • 大規模な動画理解において,意味的に一貫性のあるシーンへの分割は基本的な課題である。
    • 既存手法は視覚情報に偏り,ショット間の依存関係を考慮せず,物語理解や説明可能性に欠ける。
    • 視覚と言語の両方を活用し,ショット間の依存関係を考慮したセグメンテーションを目指す。
    • 提案手法Scene-VLMは,フレーム,トランスクリプト,メタデータ等のマルチモーダル情報を統合的に処理する。
    • Scene-VLMは,ショットレベルの決定において十分な時間的コンテキストを確保するコンテキストフォーカスウィンドウ機構を導入している。
    • 標準的なシーンセグメンテーションベンチマークにおいて,最先端の性能を達成し,MovieNetでAPが+6,F1が+13.7の顕著な改善を示した。

    Link: https://arxiv.org/abs/2512.21778

  • 視覚言語モデルにおける物理的ダイナミクスと意図推論の性能 [cs.CV, cs.AI, cs.LG]目的:物理的ダイナミクスと意図推論に関する視覚言語モデルの性能評価
    • 身体性を伴う認知において空間知性は重要であり,AIシステムの進歩が求められている。
    • 既存の視覚言語モデルは,現実世界の複雑な物理的相互作用の理解に課題を抱えている。
    • 意図を考慮した空間変化の推論能力(Teleo-Spatial Intelligence)を評価し,そのギャップを特定する。
    • 最先端の視覚言語モデルの精度は57.26%にとどまり,人間の初回応答精度(84.81%-95.14%)を大きく下回る。
    • 実世界のデータによるファインチューニングはギャップを縮小するものの,完全に埋めるには至らない。
    • EscherVerseは,目的を意識した空間推論を診断するためのテストベッドとして機能し,AIの理解度と人間の理解度の差を浮き彫りにする。

    Link: https://arxiv.org/abs/2601.01547

  • ClearAIR:人間視覚認知に着想を得たオールインワン画像復元 [cs.CV]目的:複雑な現実世界の劣化に対する画像復元
    • 画像劣化は,写真や映像の品質を著しく損なうため,復元技術の重要性は高い。
    • 既存手法は劣化の種類に特化しやすく,過剰な平滑化やアーティファクトが発生しやすい。
    • 人間視覚認知に着想を得た新たなフレームワークにより,より高精度な画像復元を実現する。
    • ClearAIRは,大規模言語モデルに基づいた画像品質評価により,複合的な劣化をより正確に評価する。
    • 領域認識とタスク認識パイプラインにより,局所的な劣化特性を捉え,精密な復元を可能にする。
    • 内部的な手がかりの再利用メカニズムにより,画像の持つ情報を活用し,細部の復元を大幅に改善する。

    Link: https://arxiv.org/abs/2601.02763

  • Gen3R:3次元シーン生成とフィードフォワード再構成の融合 [cs.CL, cs.CV]目的:シーンレベルの3次元生成
    • 3次元シーンの生成は,仮想現実やロボティクスなど広範な分野で重要である。
    • 既存手法では,生成される3次元モデルの品質や多様性に課題があった。
    • 再構成モデルと拡散モデルの強みを組み合わせ,高品質な3次元シーン生成を目指す。
    • Gen3Rは,再構成モデルとビデオ拡散モデルの事前知識を活用することで,RGB動画と対応する3次元ジオメトリを同時に生成する。
    • 提案手法は,単一画像および複数画像に基づく3次元シーン生成において,最先端の結果を達成した。
    • 再構成の堅牢性を向上させるなど,再構成と生成モデルの連携による相互的な利点も示された。

    Link: https://arxiv.org/abs/2601.04090

  • UniDrive-WM:自律運転のための統一的な理解,計画,生成ワールドモデル [cs.CV]目的:自律運転におけるワールドモデルの統合的構築
    • 安全な自動運転には,正確な状況理解と将来予測が不可欠であり,そのための基盤技術である。
    • 既存手法では,知覚,予測,計画を分離したモジュールで処理しており,連携が不十分である。
    • 視覚と言語モデルを活用し,状況理解,経路計画,将来画像生成を単一のモデルで統合することを目指す。
    • UniDrive-WMは,視覚言語モデルを用いて,高精度な将来画像を生成し,運転計画の性能向上を実現した。
    • Bench2Driveベンチマークにおいて,L2軌道誤差を7.3%,衝突率を10.4%改善し,最高性能を更新した。
    • 視覚と経路計画を緊密に統合することで,自律運転における推論,計画,生成モデリングの優位性を示した。

    Link: https://arxiv.org/abs/2601.04453

  • GenAI-DrawIO-Creator:自動図表生成のためのフレームワーク [cs.GR, cs.CV]目的:自動図表生成および操作のフレームワーク
    • 複雑な情報を伝える上で図表は不可欠であり,その作成効率化が求められている。
    • 図表の作成・修正には時間と労力がかかり,自動化技術が課題となっている。
    • LLMを活用し,図表の自動生成・操作を効率化する手法を確立すること。
    • GenAI-DrawIO-Creatorは,draw.ioで使用される構造化XML形式で図表を自動生成・操作する。
    • Claude 3.7を用いることで,構造化された視覚データに対する推論と有効な図表表現が可能となった。
    • シミュレーション評価により,図表作成時間の短縮と高い構造的忠実度が示された。

    Link: https://arxiv.org/abs/2601.05162

  • VideoAuto-R1:一度思考し,二度回答するビデオ自動推論 [cs.CV]目的:ビデオ理解のための,必要に応じて推論を行うフレームワーク
    • マルチモーダル大規模言語モデルの性能向上は,様々な応用において重要である。
    • Chain-of-Thought(CoT)推論の必要性と直接回答との比較が十分ではない。
    • 効率的かつ高精度なビデオ理解を実現するための推論戦略を提案する。
    • ビデオQAおよびグラウンディングにおいて,最先端の精度を達成した。
    • 平均応答長を大幅に短縮し,効率性を向上させた (例:149トークンから44トークンへ)。
    • 知覚ベースのタスクでは推論の活性化率が低く,推論集約的なタスクでは高かった。

    Link: https://arxiv.org/abs/2601.05175

  • オブジェクト予見:人間ビデオからの3次元オブジェクト軌跡予測 [cs.CV]目的:3次元オブジェクトの未来の軌跡予測
    • ロボット工学やコンピュータビジョンの発展には,環境を理解し予測する能力が不可欠である。
    • 既存モデルはピクセルや潜在空間で動作するため,幾何学的整合性や物理的合理性に課題がある。
    • 視覚情報のみから,オブジェクトのダイナミクスを学習し,将来の動きを予測することを目指す。
    • ObjectForesightは,オブジェクトレベルでの3次元表現を用いることで,幾何学的に整合性の高い予測を実現した。
    • 大規模なデータセットと最新の技術を活用し,オブジェクトの特性や軌跡を学習するフレームワークを確立した。
    • 未知のオブジェクトやシーンへの汎化性能が向上し,予測精度において顕著な改善が見られた。

    Link: https://arxiv.org/abs/2601.05237

  • 目標力:物理条件に基づいた目標を達成するようにビデオモデルを教育する [cs.DL, cs.CV, cs.AI, cs.RO]目的:物理条件に基づいた目標達成のためのビデオモデルの教育
    • ロボット工学や計画において,将来の予測を可能にする「ワールドモデル」の重要性が増している。
    • テキスト指示は抽象的すぎ,目標画像は動的なタスクに対して実現不可能な場合が多い。
    • 力ベクトルと中間的なダイナミクスを通じて目標を定義し,物理的なタスクの概念化を可能にする。
    • モデルは,単純な物理データで訓練されているにも関わらず,現実世界の複雑なシナリオへのゼロショット汎化を示す。
    • ビデオ生成を基本的な物理的相互作用に固定することで,モデルは暗黙的なニューラル物理シミュレーターとして機能する。
    • これにより,外部エンジンに依存せずに,精密かつ物理に配慮した計画が可能になる。

    Link: https://arxiv.org/abs/2601.05848

  • エビデンシャル深層学習による認識的不確実性最小化を用いたヒエラルキー型能動ラディアンスフィールド探索 [cs.RO, cs.CV]目的:ニューラルラディアンスフィールドに基づく能動的3Dシーン再構成
    • 3Dシーン再構成は,ロボティクスやAR/VRなど幅広い分野で不可欠な技術である。
    • 既存手法では,データ不足による再構成誤差が課題であり,効率的なデータ収集が困難である。
    • 認識的不確実性を活用し,探索効率を向上させることで,高精度な3D再構成を実現すること。
    • 提案手法HEREは,エビデンシャル深層学習に基づき,データ不足を正確に捉え,再構成誤差との相関が高い。
    • ヒエラルキー型探索戦略により,不確実性の高いボクセルからターゲット視点を抽出し,効率的な軌道生成を可能にした。
    • シミュレーション実験および実機デモンストレーションにより,既存手法と比較して再構成の完全性が向上することが示された。

    Link: https://arxiv.org/abs/2601.07242

  • 長期記憶を活用した探索:具現化された探索のためのベンチマークとマルチモーダルLLMベースの強化学習フレームワーク [cs.AI, cs.CV]目的:具現化された探索における長期記憶の活用
    • 汎用環境での継続的な運用には,長期的かつ複雑なタスクに対応できる生涯学習能力が不可欠である。
    • 既存の具現化タスクはタスク完了結果に偏っており,探索プロセスと記憶の利用が軽視されている。
    • 具現化された探索のプロセスと結果を包括的に評価するためのベンチマークと手法を提案する。
    • 提案手法MemoryExplorerは,強化学習によるマルチモーダル大規模言語モデルのファインチューニングにより,積極的な記憶検索を促進する。
    • マルチタスク報酬関数(行動予測,フロンティア選択,質疑応答)を用いることで,積極的な探索を実現している。
    • 最先端の具現化された探索モデルに対する広範な実験により,提案手法が長期的タスクにおいて有意な利点を持つことが示された。

    Link: https://arxiv.org/abs/2601.10744

  • SupScene:制約なしSfMにおける画像検索のためのシーン構造化オーバーラップ教師あり学習 [cs.CV]目的:制約なしSfMにおける画像検索のための画像ペア識別性能向上
    • SfMは,画像マッチングの計算コストを削減するために不可欠である。
    • 既存手法は孤立したタプルベースで学習し,SfMシーン内の密なオーバーラップ構造を活かせていない。
    • シーン構造化オーバーラップ教師あり学習により,幾何学的整合性を考慮した画像検索を実現する。
    • 提案手法SupSceneは,SfMオーバーラップグラフから連結な部分グラフをサンプリングし,部分グラフ内のペア関係を共同で教師あり学習する。
    • 幾何学的可視性を考慮するため,多類似度最適化と連続相対オーバーラップランキング項を組み合わせたオーバーラップ順序付け目的関数を導入する。
    • 軽量なStructural Context Probe Pooling(SCPP)ヘッドにより,構造的応答を統合し,コンパクトなグローバル記述子を生成する。

    Link: https://arxiv.org/abs/2601.11930

  • VIRTUE:統一埋め込みによる汎用的な動画検索 [cs.CV]目的:多様な動画検索タスクにおける性能向上
    • 動画検索技術は,情報検索において不可欠であり,その重要性は増している。
    • 既存手法は,タスクごとに特化したアーキテクチャが必要で,柔軟性に欠ける。
    • マルチモーダルなクエリにも対応可能な,汎用的な動画検索フレームワークの構築。
    • VIRTUEは,共有されたMLLMバックボーンを用いた埋め込みベースの効率的な候補検索を実現した。
    • LoRAによる効率的な学習により,ゼロショット動画検索タスクで既存のMLLMベース手法を上回る性能を達成した。
    • 追加学習によるランキング再調整により,大規模データで訓練された専門モデルに匹敵する性能を実現した。

    Link: https://arxiv.org/abs/2601.12193

  • 低リソースアラビア語AudioLLMのためのデータスケジューリングによるマルチタスク命令チューニング [cs.SD, cs.AI, cs.CL, eess.AS]目的:低リソースアラビア語環境におけるAudioLLMのマルチタスク命令チューニング手法
    • 音声言語モデルは音声理解と生成を統合するが,アラビア語のような言語的複雑さを持つ環境への適応は困難である。
    • アラビア語の音声要約データセットの不足が,アラビア語に特化したAudioLLMの開発を阻害している。
    • 低リソース環境で効率的かつロバストなマルチタスク学習を実現し,アラビア語AudioLLMの性能向上を目指す。
    • 多様なサンプリング(ADS)は,初期収束を加速し,副言語的性能を向上させるが,他のタスクの性能を低下させる。
    • 2段階のTPC→ADS戦略は,タスク間のバランスが最も良く,低リソースで多様な環境への適応に有効である。
    • アラビア語音声要約データセットAraMega-SSumと実験資源を公開し,研究コミュニティに貢献する。

    Link: https://arxiv.org/abs/2601.12494

  • Memory-V2V:一貫性のある複数ターン編集のためのメモリ拡張型ビデオ対ビデオ拡散 [cs.CV, cs.AI, cs.LG]目的:複数ターンにおけるビデオ編集の一貫性向上
    • ビデオ編集技術は,コンテンツ制作や多様な応用において不可欠である。
    • 既存のビデオ対ビデオ拡散モデルでは,複数ターンの編集において一貫性を保つことが困難である。
    • 過去の編集結果を考慮し,編集のドリフトや上書きを防ぐことで,一貫性を実現する。
    • Memory-V2Vは,過去の編集結果をメモリに保持し,関連する編集を検索・統合する。
    • これにより,計算量の増加を抑えつつ,スケーラブルな条件付けが可能となる。
    • 実験結果から,Memory-V2Vは既存モデルと比較して,一貫性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2601.16296

  • 単一画像からの反射分離:層融合・分離による手法 [cs.CV, cs.LG]目的:単一画像からの透過層と反射層の分離
    • 画像編集やコンピュータビジョンの分野において,反射成分の分離は重要な課題である。
    • 非線形な混合下において,既存手法は透過層と反射層の混同が生じやすいという課題がある。
    • 層融合・分離のメカニズムを用いて,透過層と反射層の分離精度向上を目指す。
    • 提案手法ReflexSplitは,CrGFとLFSBの導入により,勾配の流れを安定化し,特徴の一貫性を維持する。
    • LFSBは,共有構造の抽出と層固有の分離を交互に行うことで,効果的な分離を実現する。
    • 実写および合成データを用いた実験により,最先端の性能と優れた知覚品質が確認された。

    Link: https://arxiv.org/abs/2601.17468

  • SPACE-CLIP:単眼深度推定のための適応的CLIP埋め込みによる空間知覚 [cs.CV]目的:単眼深度推定のための空間知覚モジュール
    • ロボットや自律システムの環境認識において,空間情報の正確な把握は不可欠である。
    • 既存の単眼深度推定モデルは,計算コストが高い,特定のタスクに依存する,既存システムへの統合が困難といった課題がある。
    • 凍結されたCLIPモデルを活用し,テキストプロンプトやバックボーンの更新なしに効率的な深度推定を実現すること。
    • SPACE-CLIPは,凍結されたCLIP vision encoderから直接幾何学的情報を読み取る,デコーダーのみのフレームワークである。
    • KITTIデータセットでAbsRel 0.0901,NYU Depth V2で0.1042を達成し,高い性能を示す。
    • この研究は,共有された基盤モデルのバックボーンを再利用可能な空間知覚モジュールへと変換できることを示唆している。

    Link: https://arxiv.org/abs/2601.17657

  • ロボット制御のための因果世界モデル [cs.HC, cs.CV, cs.RO]目的:ロボット制御における因果関係に基づいた世界モデルの構築
    • ロボットの自律性を高めるには,環境の因果関係を理解し予測する能力が不可欠である。
    • 既存のロボット学習手法は,データ効率や汎化性能の面で課題が残されている。
    • 視覚情報と行動を統合し,未来予測に基づいた効率的なロボット制御を実現する。
    • 提案手法LingBot-VAは,視覚情報と行動を共有潜在空間に統合する自己回帰拡散フレームワークである。
    • シミュレーションおよび実環境での実験により,長時間の操作,データ効率,および新しい構成への汎化性能が確認された。
    • 環境からのフィードバックを活用するクローズドループ展開機構と,効率的な制御のための非同期推論パイプラインを採用している。

    Link: https://arxiv.org/abs/2601.21998

  • OpenVTON-Bench:制御可能なバーチャル試着評価のための大規模高解像度ベンチマーク [cs.CV, cs.AI]目的:制御可能なバーチャル試着システムの評価基準
    • バーチャル試着技術は,オンラインショッピング体験を向上させる上で重要な役割を担う。
    • 既存の評価指標は,微細なテクスチャや意味の一貫性を定量化することが困難である。
    • 大規模かつ多様なデータセットと,より信頼性の高い評価プロトコルを確立すること。
    • OpenVTON-Benchは,約10万組の高解像度画像ペア(最大1536×1536)を含む大規模ベンチマークである。
    • 提案されたマルチモーダルプロトコルは,背景の一貫性,IDの忠実度,テクスチャの忠実度など,5つの評価軸でVTONの品質を測定する。
    • 実験結果は人間の判断と強く一致し(Kendall's τ = 0.833),VTON評価の堅牢なベンチマークとして機能することが示された。

    Link: https://arxiv.org/abs/2601.22725

  • 支援技術におけるOCR性能評価:歩行速度,カメラ配置,カメラタイプの効果 [cs.CV]目的:歩行速度,カメラ配置,カメラタイプが支援技術におけるOCR性能に与える影響の評価
    • 視覚障碍者向け支援技術において,OCRは重要な役割を担う技術であるため,性能向上が求められている。
    • 既存のOCR評価は静止画像データに依存しており,移動中の利用状況を反映できていないという課題がある。
    • 移動環境下でのOCR性能低下要因を特定し,より実用的なOCRシステム開発に貢献することを目指す。
    • 認識精度は歩行速度の増加および視野角の拡大に伴い低下することが示された。
    • Google Visionが全体的に最も高い精度を達成し,PaddleOCR 3.0がその強力なオープンソース代替としてそれに続いた。
    • スマートフォンのメインカメラが最も高い精度を示し,肩掛け配置が最も高い平均精度を示したが,有意差はなかった。

    Link: https://arxiv.org/abs/2602.02223

  • CALM:大規模オーディオ言語モデルのためのクラス条件付き疎な注意ベクトル [cs.SD, cs.AI]目的:大規模オーディオ言語モデルにおけるクラス識別性能の向上
    • オーディオと言語の融合は,多様な応用を可能にする重要な研究分野である。
    • 大規模モデルは識別タスクにおいて,専門的なモデルに劣ることが課題である。
    • 注意ヘッドの重要度をクラスごとに学習し,識別性能の向上を目指す。
    • 提案手法は,既存の均一投票方式と比較して,オーディオ分類で最大14.52%の性能向上を達成した。
    • オーディオビジュアル分類およびスプーフィング検出においても,それぞれ1.53%,8.35%の絶対的な性能向上を示した。
    • 注意ヘッドが各セマンティックカテゴリに特化し,信頼度に応じて予測に貢献する。

    Link: https://arxiv.org/abs/2602.07077

  • PTB-XL-Image-17K: 深層学習に基づく ECG 画像のデジタル化のための包括的な正解データ付き大規模合成 ECG 画像データセット [cs.CV]目的:深層学習を用いた ECG 画像のデジタル化を支援するための大規模合成 ECG 画像データセット
    • 過去の臨床データを活用するには ECG のデジタル化が不可欠であり,医療の発展に寄与する。
    • ECG 画像と対応する正解信号を伴う大規模データセットが不足しており,研究の進展を妨げている。
    • 包括的な正解データを含む大規模データセットを提供し,ECG 画像デジタル化の研究課題を解決する。
    • 本研究では,17,271枚の高品位12誘導 ECG 画像から構成される PTB-XL-Image-17K データセットを開発した。
    • このデータセットは,ECG 画像,ピクセルレベルセグメンテーションマスク,正解時系列信号,バウンディングボックスアノテーション,メタデータなど,5種類のデータを包括的に提供する。
    • 公開された Python フレームワークにより,紙の速度,電圧スケール,サンプリングレートなどを制御したカスタマイズ可能なデータセット生成が可能である。

    Link: https://arxiv.org/abs/2602.07446

  • BAAF:教師なし画像異常検知のためのワンクラス分類器の汎用的な変換 [cs.CV]目的:画像異常検知におけるワンクラス分類器を教師なし学習に変換する手法
    • 産業検査,医療診断,環境監視など,様々な現実世界の課題において,画像や動画の異常検知は不可欠である。
    • ワンクラス分類問題では,正常データのみで学習するため,学習データのノイズに弱く,汎化性能が課題となる場合がある。
    • Bootstrap Aggregation Anomaly Filtering(BAAF)を用いて,既存のワンクラス分類器を教師なしで利用可能にし,性能向上を目指す。
    • BAAFは,様々なワンクラス分類器を教師なし異常検知器に変換できることを実験的に示した。
    • MVTec AD,ViSA,MVTec Loco ADデータセットにおいて,最先端の性能を達成した。
    • ワンクラス分類器の改善が,教師なし領域への直接的な性能向上に繋がる。

    Link: https://arxiv.org/abs/2602.13091

  • 特徴再調整に基づく嗅覚・視覚マルチモーダルモデルによる米の品質劣化検出の向上 [cs.CV, cs.AI]目的:米の品質劣化検出のための,特徴再調整に基づく嗅覚・視覚マルチモーダルモデル
    • 食糧安全保障において,農産物の品質管理は不可欠であり,特に米の品質劣化は重要な課題である。
    • 既存手法では,微細な異常特徴の表現・抽出が不十分であり,高価な装置や長時間のデータ取得が必要となる。
    • 微細な劣化信号を強調し,検出手順を簡略化することで,より高精度かつ効率的な米の品質劣化検出を実現すること。
    • 提案手法は,SS-Netと比較して分類精度を8.67%向上させ,他の従来手法と比較して平均11.51%の改善を示した。
    • 現場での検出結果も,精度と操作性の両面で優位性を示しており,実用性が高い。
    • 本手法は,農業および食品業界における他のアグリフードアプリケーションにも応用可能である。

    Link: https://arxiv.org/abs/2602.14408

  • 実異常は不要:MLLMを活用したゼロショット動画異常検知 [cs.RO, cs.HC, cs.CV, cs.AI]目的:動画異常検知のためのフレームワーク
    • 動画データは稀であり,異常データの収集・検知は困難である。実用的な異常検知システムの構築が求められている。
    • 既存手法は,データセットの多様性の欠如や,文脈依存の異常意味の理解不足により,実世界での性能が低い。
    • 未知の異常カテゴリに対しても,データを用いずに異常検知性能を向上させることを目指す。
    • LAVIDAは,疑似異常を用いてモデルの適応性を高めるAnomaly Exposure Samplerと,意味理解能力を強化するMLLMを統合したフレームワークである。
    • 逆注意に基づくトークン圧縮により,異常パターンの空間的・時間的な稀少性に対応し,計算コストを削減している。
    • 4つのベンチマークデータセットで,ゼロショット設定下において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.19248

  • 安全性衝突:適応的安全ガイダンスによるテキスト-画像拡散における多岐にわたる有害競合の解決 [cs.CV]目的:テキスト-画像拡散モデルにおける有害コンテンツ生成時の多岐にわたる有害競合の解決
    • テキスト-画像拡散モデルの発展は目覚ましいが,有害コンテンツ生成のリスクが伴うため,安全性確保が重要である。
    • 既存手法では,複数の有害カテゴリを平均化することで安全性確保を図るが,カテゴリ間の複雑な相互作用を捉えきれない。
    • 本研究では,有害カテゴリ間の競合を動的に識別し,適切な安全ガイダンスを適用することで,全体的な有害率の低減を目指す。
    • 提案手法CASGは,モデルの生成状態に応じて最も関連性の高い有害カテゴリを特定し,そのカテゴリに沿った安全ガイダンスを適用する。
    • CASGは,潜在空間およびテキスト空間の両方の安全対策に適用可能であり,既存手法と比較して最大15.4%の有害率削減を実現した。
    • 本研究により,有害カテゴリ間の競合を考慮した適応的な安全ガイダンスの有効性が示された。

    Link: https://arxiv.org/abs/2602.20880

  • Easy3E:修正されたボクセルフローによる前方への3Dアセット編集 [cs.CV]目的:3Dアセットの効率的な編集手法
    • 3Dコンテンツ作成の需要は増加の一途を辿っており,効率的な編集技術が不可欠である。
    • 既存手法は計算コストが高く,複数視点間での整合性が課題となっていた。
    • 単一視点からの高速かつ整合性のある3D編集を実現する。
    • 本研究では,TRELLISを基盤とした前方への3D編集フレームワークを提案し,効率的な編集を可能にした。
    • ボクセルフローEditにより,グローバルに整合性の取れた3D変形を単一パスで実現した。
    • ノーマルマップをガイドとした複数視点生成モジュールにより,高忠実度のテクスチャ復元に成功した。

    Link: https://arxiv.org/abs/2602.21499

  • ThinkOmni:ガイダンスデコーディングによるテキスト推論能力をマルチモーダルシナリオへ拡張 [cs.CV]目的:マルチモーダル推論能力の向上
    • 多様なデータから推論する知能システムにおいて,マルチモーダル推論は不可欠である。
    • 既存のマルチモーダル大規模言語モデルは多様なモダリティを認識する能力に優れるものの,高度な推論能力が不足している。
    • 追加学習によるマルチモーダル大規模言語モデルの推論能力向上における課題を,学習データや計算コストを要さずに解決する。
    • ThinkOmniは,既存の推論モデルをガイドとして活用し,マルチモーダル大規模言語モデルのデコーディングを誘導する「推論モデルによるガイダンス」を導入する。
    • 「段階的コントラスティブスケーリング」により,知覚と推論の信号を自動的に調整し,手動でのハイパーパラメータ調整を不要にする。
    • 6つのマルチモーダル推論ベンチマークにおいて,MathVistaで70.2,MMAUで75.5のスコアを獲得し,性能向上を実証した。

    Link: https://arxiv.org/abs/2602.23306