arXiv雑要約

画像・音声 - 2025/12/16 公開

  • 因果CLIP:因果に基づいた特徴量の分離とフィルタリングによる生成画像汎化検出 [cs.CV]目的:生成画像の検出における汎化性能の向上
    • 生成モデルの急速な発展に伴い,多様な生成手法に対応できる検出器の需要が高まっている。
    • 既存手法は特徴表現が複雑に絡み合い,重要な手がかりと無関係なパターンを区別できない場合がある。
    • 因果推論に基づき,安定した特徴量を分離・フィルタリングすることで汎化性能を高める。
    • CausalCLIPは,構造因果モデルを用いて特徴量を分離し,統計的独立性を強制することで,分布変化に強い安定した特徴量を抽出する。
    • 未知の生成モデルに対する評価において,CausalCLIPは最先端手法と比較して,精度が6.83%,平均適合率が4.06%向上した。
    • この結果から,CausalCLIPが汎化性能において有効であることが示された。

    Link: https://arxiv.org/abs/2512.13285

  • 拡散モデルにおける物理的整合性と汎化のための適応的介入学習:LINA [cs.CL, cs.CV, cs.AI, cs.LG]目的:拡散モデルにおける物理的整合性と,分布外指示への追従能力の向上
    • 画像や動画生成において,拡散モデルは目覚ましい成果を上げているため,その性能向上は重要である。
    • 拡散モデルは,物理的整合性や分布外指示への対応において課題を抱えている。
    • 因果関係の学習と因果要素の分離を促すことで,これらの課題を解決することを目指す。
    • 因果シーングラフ(CSG)と物理的整合性プローブ(PAP)データセットを用いた分析から,拡散モデルは明示的に指示されていない要素に関する多段階推論に苦労することが示された。
    • プロンプト埋め込みは,テクスチャと物理学に関する分離された表現を含んでいることが確認された。
    • LINAは,プロンプトと視覚的潜在空間における標的型ガイダンスと,因果性を考慮したデノイズスケジュール再配分により,物理的整合性と分布外指示への追従を強化し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.13290

  • 協調的な考察と改良によるクリエイティブな表の可視化 [cs.CE, physics.app-ph, cs.CV]目的:クリエイティブな表の可視化
    • データに基づいた意思決定の重要性が高まる中で,効果的な可視化は不可欠である。
    • 既存の画像生成モデルは,高度な推論や計画,正確なデータとビジュアルのマッピングが苦手である。
    • 表のデータから,忠実かつ審美的に可視化されたインフォグラフィックを生成することを目指す。
    • 提案手法ShowTableは,MLLMと拡散モデルを組み合わせ,反復的な自己修正プロセスを実現した。
    • MLLMが視覚計画の立案とエラー判断を行い,拡散モデルがその指示を実行することで,高精度な結果を得た。
    • 新たなベンチマークTableVisBenchを導入し,多様な評価軸で性能を評価した結果,既存手法を大幅に上回った。

    Link: https://arxiv.org/abs/2512.13303

  • KlingAvatar 2.0 技術報告 [cs.RO, cs.NI, cs.CV]目的:アバター動画生成における課題解決
    • 動画生成技術は近年飛躍的に進歩しているが,高解像度かつ長尺の動画生成には限界がある。
    • 既存手法では,長尺化に伴い時間軸でのずれ,画質劣化,プロンプト追従性の低下が問題となる。
    • 空間・時間的カスケードフレームワークで長尺動画の効率的な生成と高品質化を目指す。
    • KlingAvatar 2.0は,空間解像度と時間次元の両方でアップスケーリングを行うことで,効率的な動画生成を実現した。
    • 提示されたCo-Reasoning Directorは,マルチモーダルな指示の融合と整合性を向上させ,より詳細なストーリーラインを生成する。
    • 実験結果から,本手法は視覚的な明瞭度,リアルなリップシンク,強力なID保持,および一貫性のあるマルチモーダル指示の追従において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.13313

  • 検索のための埋め込み分散による顔識別情報の消去 [cs.CV, cs.AI, cs.LG]目的:顔識別情報の消去
    • 顔認識技術はセキュリティに貢献する一方,プライバシー侵害の懸念がある。
    • 既存の機械学習アンラーニング手法は,顔検索への適用が十分ではない。
    • 顔検索システムにおけるプライバシー保護を強化する。
    • 顔識別情報の消去において,埋め込み空間の分散が有効であることが示された。
    • 提案手法は,既存手法と比較して優れた消去性能と検索性能の維持を両立した。
    • VGGFace2,CelebAといったベンチマークデータセットで有効性が確認された。

    Link: https://arxiv.org/abs/2512.13317

  • 顔面熱画像を用いたSiameseネットワークによる自動ユーザ識別 [cs.CV, cs.CR]目的:顔面熱画像に基づく生体認証のための自動ユーザ識別手法
    • セキュリティ向上への貢献が期待されるため,生体認証技術の研究は重要である。
    • 従来の認証方法は,環境や個人差に影響されやすく,頑健性に課題がある。
    • 顔面熱画像を用いることで,照明条件に左右されない高精度な識別を目指す。
    • 提案手法は,独自データセットを用いた実験で約80%の精度を達成した。
    • 赤外スペクトルの範囲(NIR, SWIR, MWIR, LWIR)の比較分析を行った。
    • 可視光と赤外線スペクトルを組み合わせたハイブリッドシステムの可能性を示唆した。

    Link: https://arxiv.org/abs/2512.13361

  • DINO自己注意「キー」によるポリープセグメンテーションの汎化性能向上 [cs.CV]目的:ポリープセグメンテーションにおける汎化性能の向上
    • 大腸癌の臨床的識別において,ポリープセグメンテーションは極めて重要である。
    • 既存手法は,データ制約下や困難な状況で汎化性能が低いという課題がある。
    • DINO自己注意「キー」の特徴を利用し,汎化性能の高いセグメンテーションを実現する。
    • 提案手法は,多施設データセットを用いた厳格な評価により,最先端の性能を達成した。
    • 特に,データ不足や困難な状況において,汎化性能が大幅に向上することが示された。
    • ポリープ特化型アーキテクチャを用いずに,nnU-NetやUM-Netなどの既存モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2512.13376

  • 視覚情報の制約を超えて:隠れた領域を考慮したプロキシ動的グラフによる画像編集 [cs.CV]目的:隠れた領域におけるユーザ制御を伴う画像から動画への生成
    • 動画生成技術は,現実世界の表現や新たなコンテンツ創造に不可欠であり,その重要性は増している。
    • 既存の手法では,ユーザが指定した内容を新しい領域に反映させつつ,予測可能で滑らかな動きを生成することが困難である。
    • ユーザの意図を反映した動画生成を実現するため,動きの制御と外観合成を分離し,新たなワークフローを提案する。
    • ユーザが編集可能な軽量なプロキシ動的グラフを用いて,動画の動きを決定的に制御し,拡散モデルでリアルな外観を合成する。
    • 隠れた領域におけるユーザの編集内容と,グラフがエンコードした視覚情報を統合することで,意図に沿った動画生成を可能にする。
    • 関節運動や変形可能なオブジェクトを含む様々な画像に対し,既存手法を上回る制御性と生成品質を示す。

    Link: https://arxiv.org/abs/2512.13392

  • rNCA:自己修復セグメンテーションマスク [eess.SY, cs.SY, cs.IR, cs.CV, cs.LG, eess.IV]目的:セグメンテーションマスクの修復
    • 汎用的なセグメンテーションは困難であり,正確な形状予測が求められている。
    • 既存手法では,断片化や分離が生じやすく,手動修正が必要となる場合がある。
    • ニューラルセルオートマトンを用いて,自動的にマスクの欠陥を修復すること。
    • ニューラルセルオートマトン(NCA)が,画像の文脈に基づいた局所的な反復更新により,セグメンテーションマスクの修復に有効であることが示された。
    • 網膜血管のセグメンテーションにおいて,Dice係数/clDice係数を2-3%向上させ,ベッチエラーも大幅に減少させた。
    • 心筋のセグメンテーションでは,ゼロショット設定で61.5%の破断事例を修復し,ASSDとHDもそれぞれ19%と16%低減した。

    Link: https://arxiv.org/abs/2512.13397

  • End2Reg:脊椎手術におけるマーカーレス登録のためのタスク固有セグメンテーション学習 [cs.CV, cs.AI]目的:脊椎手術におけるマーカーレス登録のためのタスク固有セグメンテーション
    • 脊椎手術のナビゲーション精度向上は,患者の安全と術後機能回復に不可欠である。
    • 従来のナビゲーションシステムは侵襲性,放射線被ばく,作業フローの妨げとなる。
    • 弱いセグメンテーションラベルに依存しない,自動化されたナビゲーションシステムの実現を目指す。
    • 提案手法は,既存のベンチマークにおいて最先端の性能を達成し,ターゲット登録誤差の中央値を32%削減した。
    • また,平均二乗誤差も45%減少し,それぞれ1.83mmと3.95mmとなった。
    • エンドツーエンド最適化が登録精度を大幅に向上させることを,消去研究によって確認した。

    Link: https://arxiv.org/abs/2512.13402

  • ガウススプラッティングを用いたロボット環境向けコンピュータビジョン学習データセット生成 [cs.CV, cs.GR]目的:ロボット環境におけるコンピュータビジョンタスク用の大規模かつ高精度,自動ラベリング済みデータセットの生成
    • ロボットの自律性を高めるには,現実世界を正確に認識する視覚システムの構築が不可欠である。
    • 実環境とシミュレーション環境のギャップ,および手動アノテーションの労力が課題となっている。
    • シミュレーションデータと実データを用いたハイブリッド学習戦略で,高性能なモデルを効率的に構築すること。
    • 3Dガウススプラッティングを活用し,フォトリアリスティックな環境とオブジェクトを生成するパイプラインを提案。
    • 生成されたデータセットを用いたハイブリッド学習により,検出とセグメンテーションの性能が向上することを確認。
    • 物理シミュレーションと影の生成技術を組み合わせ,現実感の高い合成データセットを実現。

    Link: https://arxiv.org/abs/2512.13411

  • 連続手話認識のための統一的空間・時間モデリング [cs.CV]目的:連続手話認識における正確な空間・時間的モデリング
    • 手話は聴覚障害者にとって重要なコミュニケーション手段であり,その自動認識は社会参加促進に不可欠である。
    • 既存の手話認識システムは,微細な手や顔の動き,長距離の時間的依存関係の捉え方に課題があった。
    • 本研究は,微細な特徴と長期的な文脈を捉え,よりロバストな手話認識を実現することを目的とする。
    • 提案手法USTMは,Swin Transformerをベースとした空間・時間エンコーダであり,高い認識性能を示す。
    • USTMは,RGB動画のみを用いて,既存のRGBベースおよびマルチモーダル手法を上回る性能を達成した。
    • マルチストリームアプローチに対しても遜色ない性能を示すことから,USTMの有効性が確認された。

    Link: https://arxiv.org/abs/2512.13415

  • クロス・タスクで悪用不可能な例の生成学習 [cs.CV]目的:クロス・タスクにおける悪用不可能な例の生成
    • 個人情報保護の重要性が高まる中で,オンライン上の画像悪用を防ぐ技術が求められている。
    • 既存手法は,特定のタスクでは有効だが,汎用性に欠け,多様な状況下で悪用を防げない場合がある。
    • 異なるコンピュータビジョンタスク間で広く有効な,悪用不可能な例を生成することを目指す。
    • 提案手法MCT-UEGは,悪用不可能な例を生成器が効果的に生成できるよう,平坦な極小値指向のメタ学習・テストスキームを採用している。
    • 実験結果から,提案手法が広範なタスクにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2512.13416

  • RecTok:修正されたフローに沿った再構成蒸留 [cs.CV]目的:高次元視覚トークナイザーの性能向上
    • 拡散モデルにおいて,視覚トークナイザーは重要な役割を担う。
    • 潜在空間の次元数と生成品質の間にはトレードオフが存在する。
    • 高次元トークナイザーの潜在的な能力を引き出すことを目指す。
    • RecTokは,フローセマンティック蒸留と再構成アライメント蒸留という二つの革新的な手法を用いる。
    • これにより,潜在空間に焦点を当てるのではなく,拡散トランスフォーマーの学習空間としてセマンティック豊かな順方向フローを実現する。
    • gFID-50Kにおいて最先端の結果を達成し,潜在空間構造のセマンティクスを維持しながら,次元数の増加に伴い性能が向上する。

    Link: https://arxiv.org/abs/2512.13421

  • テキスト画像モデルにおけるバイアスの自動抽出:MineTheGap [cs.CV, cs.LG]目的:テキスト画像モデルにおけるバイアスの原因となるプロンプトの抽出
    • テキスト画像モデルは急速に発展しており,社会への影響が大きい。生成される画像におけるバイアスは重要な課題である。
    • テキスト画像モデルは,曖昧なプロンプトに対して特定のバイアスを示す傾向があり,多様性の欠如や不公平な表現につながる。
    • 本研究は,バイアスを自動的に検出し,バイアスの度合いを定量的に評価する手法を開発し,改善に貢献する。
    • 提示手法MineTheGapは,遺伝的アルゴリズムを用いて,バイアスを顕在化させるプロンプトを反復的に洗練する。
    • バイアスの度合いは,生成された画像の分布と,プロンプトのバリエーションとしてLLMが生成したテキストの分布を比較することで算出される。
    • 提案手法は,既存のバイアスを含むデータセットで検証され,バイアスを適切に評価できることが示された。

    Link: https://arxiv.org/abs/2512.13427

  • 少ないデータでの植物病害分類のためのドメイン適応軽量アンサンブル [cs.CV]目的:少ないデータでの植物病害の分類
    • 持続可能な農業には,植物病害の正確かつ迅速な特定が不可欠である。
    • 深層学習は大量の学習データと計算資源を必要とし,データが不足している環境では適用が困難である。
    • データ不足かつリソース制約のある環境でも植物病害を正確に診断できる手法を開発する。
    • 提案手法は,PlantVillageデータセットのトマトの葉病害において,1~15ショットシナリオで性能を向上させ,15ショットでは98.23±0.33%を達成した。
    • 実環境下でのDhan Shomadhanデータセットでも,15ショットで69.28±1.49%を維持し,複雑な背景に対する堅牢性を示した。
    • PlantVillageの6種類の病害に対しては,以前の最先端技術の精度96.0%を上回り,わずか15ショットで99.72%を達成した。

    Link: https://arxiv.org/abs/2512.13428

  • IMILIA:IBDにおけるH&E全スライド画像からの炎症予測のための解釈可能なマルチプルインスタンス学習 [eess.SY, cs.SY, cs.CV]目的:IBDのH&E全スライド画像からの炎症予測と,その予測を駆動する組織領域の特徴づけ
    • 炎症性腸疾患(IBD)の治療標的は組織学的寛解へと移行しており,微細な炎症の正確な評価が重要になっている。
    • 病理画像からの炎症評価は熟練した病理医に依存しており,客観性や効率性に課題がある。
    • 本研究は,病理画像の自動解析による炎症予測と解釈可能性の向上を目指している。
    • IMILIAは,交差検証ROC-AUCで0.83,外部検証コホートで0.99および0.84を達成した。
    • 予測スコアが高いタイルは,免疫細胞(リンパ球,形質細胞,好中球,好酸球)の密度が高く,低いスコアのタイルは正常な上皮細胞が優勢であった。
    • これらのパターンは,すべてのデータセットで一貫していた。

    Link: https://arxiv.org/abs/2512.13440

  • テスト時修正:ロバストな知覚のための逆ドメイン変換 [cs.CV]目的:ドメイン汎化におけるロバストな知覚の実現
    • 汎化性能は,現実世界の多様な環境への適応に不可欠であり,応用範囲が広い。
    • ターゲットドメインのデータを網羅的に合成するには,コストと時間がかかる点が課題である。
    • テスト時に拡散モデルを用いてターゲット画像をソース分布へ変換し,その問題を解決する。
    • 提案手法は,セグメンテーション,検出,分類といった様々なタスクにおいて性能向上を示した。
    • 特に,BDD100K-Night,ImageNet-R,DarkZurichにおいて,顕著な性能改善が確認された。
    • アンサンブルモデルを用いることで,ロバスト性をさらに高めることができた。

    Link: https://arxiv.org/abs/2512.13454

  • PoseAnything:部分認識による時間的整合性を備えた汎用的なポーズ誘導ビデオ生成 [cs.CV]目的:汎用的なポーズ誘導ビデオ生成の実現
    • 映像制作において,キャラクターの動きを精密に制御する技術は重要であり,アニメーション等の分野で需要が高い。
    • 既存手法は主に人間のポーズに限定され,他のキャラクターや複雑な動きへの汎用性に課題があった。
    • 人間以外のキャラクターにも対応し,より自然で一貫性のある動きのビデオ生成を可能にすること。
    • PoseAnythingは,人間と非人間キャラクターの両方に対応する初の汎用的なポーズ誘導ビデオ生成フレームワークである。
    • 部分認識の時間的整合性モジュールにより,フレーム間の部分対応を確立し,詳細なレベルでの一貫性を実現した。
    • 新たなガイダンス戦略により,ビデオ生成におけるカメラワークの独立した制御が可能となり,表現の幅を広げた。

    Link: https://arxiv.org/abs/2512.13465

  • 変換学習済みTransformer:4K動画生成を10倍以上加速 [cs.CV]目的:4K動画生成の効率と品質のバランス改善
    • 動画生成技術は,エンターテイメントやコミュニケーションにおいて重要な役割を担う。
    • 高解像度動画生成において,計算量が急増し,効率と品質の両立が困難である。
    • 既存の事前学習済みモデルを効率的に変換し,4K動画生成を高速化することを目指す。
    • 提案手法T3-Videoは,既存のアプローチと比較して,VQAで+4.29,VTCで+0.08の性能向上を達成した。
    • T3-Videoは,事前学習済みモデルの計算量を削減し,4K動画生成を10倍以上高速化することに成功した。
    • マルチスケール重み共有ウィンドウ注意機構と階層的ブロック化により,効率的な注意パターン変換を実現した。

    Link: https://arxiv.org/abs/2512.13492

  • Soul:デジタルヒューマンに生命を吹き込む高忠実度長尺マルチモーダルアニメーション [cs.CV]目的:高忠実度長尺デジタルヒューマンアニメーションの生成
    • 仮想現実やエンターテイメント分野において,リアルなデジタルヒューマンの需要が高まっている。
    • 既存手法では,長期間にわたるアニメーションの一貫性や,多様な入力からの制御が困難である。
    • 単一画像,テキスト,音声から,高精度かつ一貫性のある長尺アニメーションを生成することを目指す。
    • 提案手法Soulは,ポートレート画像,テキスト,音声から,高精度な口パク,豊かな表情,堅牢なID保持を実現する。
    • 大規模データセットSoul-1Mを構築し,データ不足を解消。また,公平な評価のためのベンチマークSoul-Benchを整備した。
    • 速度向上策により,推論効率を大幅に改善し,既存のオープンソースおよび商用モデルを凌駕する性能を実証した。

    Link: https://arxiv.org/abs/2512.13495

  • 動的製造における教師なし視覚異常検知のためのデバイス上継続学習 [eess.SY, cs.SY, cs.LG, cs.CV]目的:動的製造環境下での教師なし視覚異常検知
    • 近年の製造業では,自動検査と一貫した製品品質確保に視覚異常検知が不可欠である。
    • 多品種少量生産やオンデマンド生産では,頻繁な製品変更への迅速なモデル更新が課題である。
    • リソース制約のあるエッジデバイスでも,効率的に学習・推論可能な異常検知手法が求められている。
    • 提案手法は,既存手法と比較してAUROCを12%改善し,高い検出精度を実現した。
    • メモリ使用量を80%削減し,バッチ再学習と比較して高速な学習を可能にした。
    • 本研究は,動的かつスマートな製造環境に適した,正確でリソース効率の高い適応型視覚異常検知を提供する。

    Link: https://arxiv.org/abs/2512.13497

  • Seedance 1.5 pro:ネイティブなオーディオビジュアル同時生成基盤モデル [cs.CV]目的:ネイティブなオーディオビジュアル同時生成のための基盤モデル
    • 動画生成技術の進展により,統一的なオーディオビジュアル生成が可能となった。
    • 高品質なオーディオビジュアル同期と生成品質が依然として課題であった。
    • 精密な口パクと,ダイナミックなカメラ制御,そして一貫性のある物語性を実現する。
    • Seedance 1.5 proは,デュアルブランチ拡散Transformerアーキテクチャを採用し,優れたオーディオビジュアル同期を実現した。
    • 高品質データセットを用いたSFTと,多次元報酬モデルを用いたRLHFによる厳密な最適化を施している。
    • 推論速度を10倍以上向上させる高速化フレームワークを導入し,プロレベルのコンテンツ作成を可能にした。

    Link: https://arxiv.org/abs/2512.13507

  • TARA:動画理解のためのMLLMの時間認識型検索適応 [cs.CV, cs.IR]目的:動画とテキストの検索のための時間認識型埋め込みモデルの構築
    • 動画とテキストの理解は,様々な応用において不可欠であり,その重要性は増している。
    • 既存のモデルは,動画の時間的な側面を十分に考慮できていない場合がある。
    • 時間情報を考慮した動画とテキストの埋め込みモデルを,動画データを使用せずに構築する。
    • TARAは,時間的な対立する行動を困難な負例とする新しいベンチマークにおいて,既存のモデルを上回る性能を示した。
    • TARAは,標準的なベンチマークにおいても良好な結果を達成し,時間認識能力を超えた利点も示唆している。
    • TARA埋め込みは,否定認識能力を持ち,動画における動詞と副詞の理解においても最高水準の性能を実現した。

    Link: https://arxiv.org/abs/2512.13511

  • パンケーキ:生体医用分野における多岐にわたる画像セグメンテーションの一貫性 [cs.CV, cs.LG]目的:生体医用画像の多種多様なセグメンテーションプロトコル
    • 生体医用画像解析は,診断,治療計画,創薬において不可欠であり,その精度向上が常に求められている。
    • 既存の自動セグメンテーションモデルは,特定のプロトコルに特化し汎用性に欠ける,または手動での指示が必須である。
    • 未学習のドメイン画像に対しても,複数のセグメンテーションプロトコルを自動生成し,一貫性を保つことを目指す。
    • Pancakesは,従来のモデルでは困難であった新たな問題設定を可能にする。
    • 7つのデータセットを用いた実験で,Pancakesは既存のモデルを凌駕し,複数の妥当なセグメンテーションを生成することを示した。
    • 生成されたセグメンテーションは,画像間で意味的に一貫性を保っていることが確認された。

    Link: https://arxiv.org/abs/2512.13534

  • 分散配置と安全ネット削減 [cs.GT]目的:並行システムの形式仕様と同等の小規模なPetriネットの発見
    • 並行システムの検証と実装において,形式的な仕様の効率的な検証が重要である
    • Petriネットが形式仕様を表現する際,規模が大きくなり,検証が困難となる場合がある
    • 安全ネットの規模を削減し,検証の効率化と実装の実現可能性を高める
    • 分散配置という概念を導入し,Petriネットの個々の場所の振る舞いを実装する
    • 分散配置を用いることで,Petriネットの規模を静的かつ局所的に削減できることを示した
    • 反復を含むプロセス表現においても,規模削減が可能となることを明らかにした

    Link: https://arxiv.org/abs/2512.13538

  • 3D人間間相互作用の異常検知 [cs.CV]目的:人間間の相互作用における異常行動の識別
    • 人間は協調的に行動するため,相互作用の分析は社会行動理解に不可欠である。
    • 既存の異常検知モデルは単独の行動に焦点を当てており,相互作用の複雑な動的特徴を捉えられない。
    • 協調的な3D人間行動における異常な相互作用行動を検知する新たな手法を開発すること。
    • 提案手法IADNetは,時間的注意共有モジュール(TASM)と距離に基づく関係エンコーディングモジュール(DREM)を導入することで,人間間の協調運動相関を効果的に同期し,社会的指標を反映する。
    • IADNetは,既存の人間中心の異常検知モデルと比較して,人間間相互作用の異常検知において優れた性能を示す。
    • 正規化フローを用いることで,異常スコアリングの精度向上を実現している。

    Link: https://arxiv.org/abs/2512.13560

  • MMhops-R1:マルチモーダル多段推論 [cs.CV]目的:マルチモーダル多段推論のためのベンチマークとフレームワーク
    • 現実世界の複雑な課題解決には,多様なモダリティと外部知識を統合する推論能力が不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,単一ステップ推論に限定されており,多段推論能力を評価するベンチマークが不足している。
    • 複雑な推論を可能にする,多段推論能力を評価・促進するための新たなベンチマークとモデルを提案する。
    • MMhopsは,モデルが外部知識を統合しながら複雑な推論チェーンを構築する必要がある,BridgingとComparisonという2つのタスク形式を含む大規模ベンチマークである。
    • 提案手法MMhops-R1は,強化学習を用いて推論経路の計画,標的を絞ったクエリの生成,多層的な情報の統合を最適化する,動的なRetrieval-Augmented Generationフレームワークである。
    • MMhops-R1はMMhopsにおいて強力なベースラインを大きく上回り,動的な計画とマルチモーダル知識統合が複雑な推論に重要であることを示している。

    Link: https://arxiv.org/abs/2512.13573

  • 一貫性ソルバーによる画像拡散プレビュー [cs.DC, astro-ph.IM, cs.PF, cs.LG, cs.CV]目的:画像拡散モデルのプレビュー生成における品質と一貫性の向上
    • 画像拡散モデルは高品質な画像を生成するが,推論速度が遅く,インタラクティブな利用体験を損なう。
    • 既存の高速化手法では,プレビューの品質と最終出力との一貫性を両立することが困難である。
    • 少ないステップ数で高品質かつ一貫性のあるプレビューを生成し,ユーザーのインタラクション時間を短縮すること。
    • 提案手法ConsistencySolverは,少ないステップ数で高品質なプレビューを生成し,既存手法を上回る性能を示す。
    • ConsistencySolverは,Multistep DPM-Solverと同等のFIDスコアを47%少ないステップ数で達成する。
    • ユーザー調査の結果,本手法は全体のインタラクション時間を約50%削減し,生成品質を維持することが確認された。

    Link: https://arxiv.org/abs/2512.13592

  • 運動中の照明:時空間HDR照明推定 [cs.CV]目的:時空間HDR照明推定
    • 現実的な映像制作やコンピュータビジョンの分野において,正確な照明環境の再現は不可欠である。
    • 既存手法では,高周波な詳細表現と正確な照度の推定を両立することが困難であった。
    • 入力画像から高精度な照明情報を推定し,映像のリアリティ向上を目指す。
    • 拡散モデルを活用し,多様な露出の鏡面球と拡散球を生成することで,高周波詳細と照度の両方を高精度に推定する手法を提案。
    • 深度情報に加え,シーンと目標3D位置の関係を示す新たな幾何学的条件を導入することで,空間的条件付けの精度を向上。
    • 異なる露出での鏡面・拡散予測を微分可能なレンダリングにより統合し,単一のHDRIマップを生成する。

    Link: https://arxiv.org/abs/2512.13597

  • DA-SSL:転移学習のための自己教師ありドメインアダプター - 膀胱腫瘍組織学的スライドにおける基盤モデルの活用 [cs.CV, cs.AI]目的:膀胱腫瘍組織学的スライドにおける基盤モデルの転移学習による性能向上
    • 病理画像解析における深層学習は診断精度向上に貢献するが,汎化性能が課題となる。
    • 基盤モデルは,データ分布の偏りにより特定の癌種や標本に対して性能が低下することがある。
    • 膀胱腫瘍組織学的スライド特有のアーチファクトや断片化に対応し,基盤モデルの性能を向上させる。
    • 提案手法DA-SSLは,基盤モデルをファインチューニングすることなく,TURBTドメインへの適応を実現した。
    • 5分割交差検証でAUC 0.77+/-0.04,外部テストで精度0.84,感度0.71,特異度0.91を達成した。
    • 自己教師あり学習を用いた軽量なドメイン適応が,臨床的に困難な病理学的課題に有効であることが示された。

    Link: https://arxiv.org/abs/2512.13600

  • LongVie 2:マルチモーダル制御可能な超長尺ビデオワールドモデル [cs.CV]目的:超長尺ビデオの生成と制御に関するワールドモデルの構築
    • 汎用的な時空間知能を実現する上で,ビデオワールドモデルの構築は不可欠である。
    • 既存のモデルでは,制御性,長期間にわたる画質維持,時間的一貫性が課題となっていた。
    • 制御性向上と長尺・高品質な生成能力を両立し,統一的なビデオワールドモデリングを目指す。
    • LongVie 2は,マルチモーダルガイダンス,劣化を考慮した学習,履歴コンテキストガイダンスの3段階で学習される。
    • 多様な環境を含む100個の長尺ビデオからなるベンチマークLongVGenBenchを用いて評価を行った。
    • LongVie 2は,最先端の性能を示し,最長5分間の連続ビデオ生成を可能にした。

    Link: https://arxiv.org/abs/2512.13604

  • DBT-DINO:デジタル乳房断層撮影のための基盤モデルの構築に向けて [cs.CV]目的:デジタル乳房断層撮影(DBT)のための基盤モデルの開発と評価
    • 乳がん検診において,DBTは重要な役割を担っており,診断精度の向上が求められている。
    • 3次元画像に対する基盤モデルの活用は進んでおらず,DBTに特化したモデルは存在しない。
    • DBTに特化した基盤モデルを構築し,臨床タスクにおける性能向上を目指す。
    • DBT-DINOは乳房密度分類において,MetaAI DINOv2やDenseNet-121を上回る精度(0.79)を示した。
    • 5年以内の乳がんリスク予測において,DBT-DINOはDINOv2と同程度の性能(AUROC 0.78)を示した。
    • 病変検出においては,DINOv2の方がわずかに高い感度(0.67)を示したが,DBT-DINOは癌性病変の検出率で優位性を示した(78.8%)。

    Link: https://arxiv.org/abs/2512.13608

  • Do-Undo:ビジョン言語モデルにおける物理的行動の生成と逆転 [cs.CV, cs.LG]目的:物理的に妥当なシーン変換の理解と生成
    • 現実世界とのインタラクションを理解するAIの実現には,物理法則に基づく推論能力が不可欠である。
    • 既存のモデルは,物体レベルの編集に焦点を当てており,物理的な因果関係の理解が不十分である。
    • 物理的な可逆性の理解を深め,マルチモーダルシステムにおける物理的推論能力を向上させる。
    • Do-Undoタスクとベンチマークを新たに提案し,現在のモデルが物理的な可逆性において課題を抱えていることを示した。
    • 大規模な可逆的行動データセットを構築し,一貫性を重視した学習戦略が頑健な行動の理解に貢献することを確認した。
    • 本研究は,具現化されたAI,ロボット工学,物理に基づいた生成モデリングの発展に資する。

    Link: https://arxiv.org/abs/2512.13609

  • SCR2-ST:強化学習を用いた効率的な活性サンプリングのために,単一細胞と空間トランスクリプトミクスを組み合わせる [cs.CV]目的:空間トランスクリプトミクスデータの効率的な取得と正確な発現予測
    • 組織形態の背後にある分子関係を調査する上で,空間トランスクリプトミクス技術は重要性が高まっている。
    • 空間トランスクリプトミクスデータの取得コストが高く,固定グリッドサンプリングでは情報量の少ない領域が多くなる。
    • 単一細胞データを用いて,空間トランスクリプトミクスのサンプリング効率と予測精度を向上させる。
    • SCR2-STは,単一細胞の事前知識を活用して,情報豊富な組織領域を選択的に取得する活性サンプリング手法を開発した。
    • ハイブリッド回帰・検索予測ネットワークSCR2Netにより,限られたシーケンス予算下での予測精度が向上した。
    • 公開データセットを用いた評価で,サンプリング効率と予測精度において最先端の性能を示した。

    Link: https://arxiv.org/abs/2512.13635

  • MindDrive:オンライン強化学習による自律運転のためのビジョン・言語・行動モデル [cs.CV, cs.RO]目的:自律運転のためのビジョン・言語・行動モデルにおけるオンライン強化学習の有効性
    • 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に変革をもたらす可能性を秘めている。
    • 模倣学習は分布シフトや因果混同といった課題を抱え,実用化には限界がある。
    • オンライン強化学習を用いて,複雑なシナリオにおける最適化と効率的な探索を実現することを目指す。
    • MindDriveは,大規模言語モデル(LLM)とLoRAパラメータを活用したビジョン・言語・行動フレームワークである。
    • LLMを意思決定専門家と行動専門家に分け,言語による意思決定を軌跡に変換することで,効率的な探索を実現した。
    • Bench2Driveベンチマークにおいて,Driving Score 78.04,Success Rate 55.09を達成し,オンライン強化学習の有効性を示した。

    Link: https://arxiv.org/abs/2512.13636

  • Charge:包括的な新規ビュー合成ベンチマークとデータセット [cs.DC, cs.AR, cs.CV]目的:新規ビュー合成のための包括的なベンチマークとデータセット
    • 3Dビジョンの発展には,現実世界のシーンを正確に再現するデータセットが不可欠である。
    • 既存のデータセットは,複雑なシーンや多様なカメラ設定に対応しておらず,汎化性能の評価が困難である。
    • 高品質なデータと多様な評価シナリオを提供し,新規ビュー合成技術の進歩を促進すること。
    • 本研究では,高品質なアニメーション映画から生成された新規ビュー合成用のデータセットを公開した。
    • このデータセットは,RGB画像に加え,深度,法線,セグメンテーション,光流などの豊富なアノテーション情報を提供する。
    • 多様なカメラ設定に対応した3つのベンチマークシナリオを用意し,様々な実験を可能にする。

    Link: https://arxiv.org/abs/2512.13639

  • コードからフィールドへ:マンゴーの葉の病気診断における畳み込みニューラルネットワークの頑健性の評価 [cs.LG, cs.AI, cs.CV]目的:マンゴーの葉の病気診断のための畳み込みニューラルネットワークの頑健性評価
    • 農業分野におけるAI活用は,食糧生産の安定化や効率化に不可欠である。
    • 現実環境における画像劣化(ノイズ,ぼかし等)に対するAIモデルの頑健性が課題となっている。
    • マンゴーの葉の病気診断AIモデルの現実環境下での信頼性を検証すること。
    • LCNNは,現実的な劣化条件(デフォーカスぼかし,モーションぼかし等)下で複雑なモデルよりも優れた性能を示した。
    • ResNet-101等の高性能モデルは,劣化条件下で性能が大幅に低下することが示された。
    • 軽量かつ特化したモデルが,エッジデバイス等の実用環境においてより適している可能性が示唆された。

    Link: https://arxiv.org/abs/2512.13641

  • ワールドモデルは,器用な操作のために人間のビデオを活用できる [cs.SI, cs.RO, cs.AI, cs.CV]目的:器用な操作に関する環境の次の潜在状態の予測
    • 器用な操作は,物体の接触を通じて微妙な手の動きが環境に与える影響を理解する必要があり,複雑である。
    • 器用な操作のデータセットは不足しており,学習が困難である。
    • 人間のビデオを活用することで,データ不足を克服し,より正確な予測を目指す。
    • DexWMは,テキスト,ナビゲーション,全身アクションに基づく既存のワールドモデルを上回り,より正確な将来の状態予測を実現した。
    • DexWMは,Franka Pandaアームを用いた実験で,未知の操作スキルに対する優れたゼロショット汎化能力を示した。
    • 把持,配置,到達タスクにおいて,Diffusion Policyを平均で50%以上上回る性能を発揮した。

    Link: https://arxiv.org/abs/2512.13644

  • ロボトレーサー:ロボットのためのビジョン言語モデルにおける空間トレースの習得 [cs.RO, cs.CV]目的:ロボットにおける空間トレース能力の向上
    • ロボットが現実世界で活動するには,空間を理解し,正確な測定を行う能力が不可欠である。
    • 既存手法では,複雑な空間参照や測定,複数段階の推論を組み合わせた空間トレースが困難である。
    • 空間トレースにおける,空間認識,測定,参照の精度向上を目指す。
    • ロボトレーサーは,汎用的な空間エンコーダと回帰監視付きデコーダにより,3D空間参照と測定を可能にする。
    • 強化学習による微調整と,測定に敏感なプロセス報酬により,複数段階の距離に基づいた推論を促進する。
    • TraceSpatialデータセットとTraceSpatial-Benchベンチマークを導入し,最先端の性能を達成した(Gemini-2.5-Proを36%上回る精度)。

    Link: https://arxiv.org/abs/2512.13660

  • Grab-3D:3D幾何学的時間的一貫性からのAI生成動画の検出 [cs.CV]目的:AI生成動画の検出
    • 拡散モデルの進化により,現実と見分けがつかない動画が生成可能となり,検出技術の重要性が増している。
    • 既存手法では,AI生成動画に特有な3D幾何学的パターンに着目した検討が十分でない。
    • 3D幾何学的時間的一貫性の違いを利用し,AI生成動画を高精度に検出すること。
    • 提案手法Grab-3Dは,消失点を3D幾何学パターンの表現として利用し,AI生成動画と実写動画の幾何学的矛盾を捉える。
    • 幾何学的位置エンコーディングや時間-幾何学的アテンション機構を導入したTransformerにより,3D幾何学的情報を時間モデリングに明示的に組み込んだ。
    • 実験結果から,Grab-3Dは最先端の検出器を大幅に上回り,未知の生成モデルに対しても高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.13665

  • エージェントIAD:産業異常検知のためのツール拡張単一エージェント [cs.RO, cs.CV]目的:産業異常検知における性能向上
    • 産業設備の安定稼働には,異常の早期発見が不可欠であるため,異常検知技術は重要性が高い。
    • 正常データの不足や,異常の局所的・微妙な性質が,従来の異常検知技術の課題となっていた。
    • 視覚と言語情報を活用し,ツールを用いることで,微細な異常を高精度に検知することを目指す。
    • 提案手法AgentIADは,MMADデータセットにおいて,97.62%という最先端の分類精度を達成した。
    • 段階的な視覚検査と,正常事例との比較により,微細な異常を効果的に検出できることを示した。
    • 検査過程の透明性と解釈可能性を確保し,異常検知の信頼性を向上させている。

    Link: https://arxiv.org/abs/2512.13671

  • パーソナライズされたテキストから画像生成のための方向性テキスト反転 [cs.LG, cs.CV]目的:テキストから画像へのパーソナライズ生成における性能向上
    • 画像生成技術の発展は,多様なコンテンツ作成を可能にする重要な研究分野である。
    • テキスト反転は効率的だが,複雑なプロンプトに対しては性能が低下する課題があった。
    • 埋め込みベクトルの方向のみを最適化することで,より忠実なパーソナライズを目指す。
    • 提案手法DTIは,テキストの忠実性をTIやその変種よりも向上させることを確認した。
    • DTIは,学習された概念間の滑らかな補間(slerp)を可能にし,標準的なTIでは得られない能力を提供する。
    • 方向のみの最適化が,プロンプトに忠実なパーソナライズのための堅牢かつスケーラブルな手法であることを示唆する。

    Link: https://arxiv.org/abs/2512.13672

  • デジタルヒューマンのためのインタラクティブ知能 [cs.CV, cs.CL, cs.GR, cs.HC]目的:インタラクティブ知能の実現
    • 人間らしい自然な対話を実現するデジタルヒューマンは,様々な分野での応用が期待されている。
    • 既存のデジタルヒューマンは,対話の一貫性や個性表現に課題があり,真のインタラクションが難しい。
    • デジタルヒューマンに,個性に基づいた表現,適応的な対話,自己進化の能力を付与する。
    • 本研究では,思考,会話,表情,身体,レンダリングの各モジュールから構成されるMioフレームワークを提案した。
    • Mioは,認知推論とリアルタイムマルチモーダルな具現化を統合し,流暢かつ一貫性のある対話を可能にする。
    • 実験の結果,提案手法は,評価されたすべての側面において,最先端の手法よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2512.13674

  • JoVA:ビデオとオーディオの同時生成のための統一マルチモーダル学習 [cs.CL, cs.CV]目的:ビデオとオーディオの同時生成に関する統一的なフレームワーク
    • 近年,マルチモーダル生成の重要性が増しており,現実世界の複雑な情報を扱う上で不可欠である。
    • 既存の手法は,人間の音声や口パクとの同期が難しく,また複雑なアーキテクチャになりがちである。
    • JoVAは,シンプルな構造で高品質なビデオとオーディオの同時生成を可能にすることを目指す。
    • JoVAは,ビデオとオーディオのトークン間で自己注意機構を共有することで,効率的なクロスモーダル相互作用を実現した。
    • 顔のキーポイント検出に基づく口領域損失関数を導入し,口パクと音声の同期精度を向上させた。
    • 複数のベンチマークにおいて,最先端手法と同等またはそれ以上の性能を示し,高品質なマルチモーダル生成フレームワークであることを示した。

    Link: https://arxiv.org/abs/2512.13677

  • テキスト指示による3D編集:画像から3Dへの生成モデルへの応用 [cs.CV, cs.AI]目的:テキストによる制御可能な画像から3Dへの生成手法の開発
    • デザイン,AR/VR,ロボティクス等の分野において,3Dコンテンツの重要性が増している。
    • 生成された3Dアセットの容易な編集機能が,実用的な応用において課題となっていた。
    • 言語指示に基づいて3Dアセットを編集し,より実用的な3Dコンテンツ生成を目指す。
    • 提案手法Steer3Dは,ControlNetに着想を得て,画像から3Dへの生成時にテキスト指示を直接反映する。
    • 大規模なデータ生成エンジンと,フローマッチング学習およびDPOに基づく二段階の学習レシピを開発した。
    • Steer3Dは既存手法と比較して,指示への追従性と3Dアセットの一貫性が高く,高速な処理を実現した。

    Link: https://arxiv.org/abs/2512.13678

  • 逐次4D再構成のための層別スケールアラインメント:学習不要ストリーミング手法 [cs.CV]目的:ストリーミング4D再構成における性能向上
    • リアルタイムな3次元環境理解は,ロボット工学や拡張現実など多くの応用分野で不可欠である。
    • 既存のストリーミング手法は,再学習が必要であったり,オフラインモデルの性能を十分に活かせない場合がある。
    • 学習を必要とせず,オフラインモデルの性能をストリーミング環境で最大限に引き出すことを目指す。
    • 提案手法LASERは,オフライン再構成モデルをストリーミングシステムに変換するため,連続する時間窓間の予測をアラインメントする。
    • 層別スケールアラインメントにより,時間窓間およびタイムステップ間での深さ予測のスケール変動を抑制し,高精度な再構成を実現した。
    • 実験結果から,LASERはカメラポーズ推定と点群再構成において最先端の性能を達成し,キロメートル規模のストリーミング動画への実用的な展開を可能にした。

    Link: https://arxiv.org/abs/2512.13680

  • I-Scene:3Dインスタンスモデルは暗黙的な空間学習能力を持つ [cs.CV]目的:インタラクティブな3Dシーン生成における汎化能力の向上
    • 3Dシーン生成は,ロボティクスやVR/ARなど幅広い分野で重要性が増している。
    • 既存手法はデータセットに依存し,未知のレイアウトへの汎化が困難である。
    • インスタンス生成器をシーンレベル学習器として再プログラミングし,汎化能力を高める。
    • 事前学習済みの3Dインスタンス生成器を再利用することで,データセットに依存しない空間学習を実現した。
    • ランダムに構成されたシーンからでも空間推論が成立し,幾何学的特徴から近接性,支持,対称性を学習できることを示した。
    • インスタンスモデルから直接空間関係を学習する,汎化可能なシーン生成器を構築した。

    Link: https://arxiv.org/abs/2512.13683

  • 再帰型ビデオマスク自動符号化器 [cs.CV]目的:ビデオ表現学習
    • ビデオデータ解析における高性能な特徴抽出は,様々な応用において重要である。
    • 既存のビデオモデルは,計算コストが高い,または長時間の依存関係を捉えにくいという課題がある。
    • 効率的かつ高精度なビデオ表現学習手法を開発し,課題解決に貢献すること。
    • 提案手法RVMは,ビデオレベルタスク(行動認識,トラッキング)で最先端モデルに匹敵する性能を達成した。
    • RVMは,画像モデルと比較しても,幾何学的・空間的理解度において優れた性能を示した。
    • RVMは,知識蒸留を必要とせず,パラメータ効率が他のビデオマスク自動符号化器よりも最大30倍高い。

    Link: https://arxiv.org/abs/2512.13684

  • 生成のためのビジュアルトークナイザーのスケーラブルな事前学習に向けて [cs.CL, cs.AR, cs.CV]目的:生成のためのビジュアルトークナイザーの潜在空間の質向上
    • 近年の生成モデルにおいて,ビジュアルトークナイザーの潜在空間の質が重要性を増している。
    • 従来の再構成ベースの学習法では,潜在空間が低レベル情報に偏り,生成性能の向上を阻害する問題がある。
    • 高レベルな意味情報を潜在空間に簡潔に表現することで,生成性能のスケーリング問題を解決することを目指す。
    • 画像とテキストのコントラスト学習,自己教師あり学習,再構成損失の同時最適化フレームワークVTPを提案した。
    • 事前学習における計算資源の投入が,生成性能の向上に有効であることが示された。
    • VTPを用いた事前学習は,ImageNetにおいて競争力のある性能(ゼロショット精度78.2,rFID 0.36)と,蒸留法と比較して4.1倍の高速な収束を実現した。

    Link: https://arxiv.org/abs/2512.13687