arXiv雑要約

画像・音声 - 2025/12/19 公開

  • OMG-Bench:スケルトンベースのオンラインマイクロハンドジェスチャ認識のための新たな挑戦的ベンチマーク [cs.CV, cs.HC]目的:スケルトンベースのオンラインマイクロハンドジェスチャ認識のための大規模なベンチマークデータセット
    • VR/AR技術の発展に伴い,自然なインタラクションを実現する手段として重要性が高まっている。
    • 公開データセットが限られており,タスク固有のアルゴリズム開発が課題となっている。
    • 高精度なスケルトンデータとフレームレベルの注釈を持つ大規模データセットの構築を目指す。
    • OMG-Benchは,40種類の微細なジェスチャクラスと13,948個のインスタンスを含む大規模なデータセットである。
    • 提案手法HMATrは,従来の最先端手法と比較して検出率で7.6%の性能向上を示した。
    • HMATrは,フレームレベルとウィンドウレベルの情報を活用することで,過去の文脈を効果的に保持する。

    Link: https://arxiv.org/abs/2512.16727

  • タスク指向データ合成と制御修正サンプリングによるリモートセンシングセマンティックセグメンテーション [cs.CV]目的:リモートセンシングセマンティックセグメンテーションのためのデータ合成手法
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その精度向上は重要である。
    • セグメンテーションの精度向上には大量のラベル付きデータが必要だが,手動アノテーションはコストと時間がかかる。
    • 合成データを利用することで,アノテーションコストを削減し,セグメンテーション精度を向上させることを目指す。
    • 提案手法TODSynthは,マルチモーダル拡散トランスフォーマー(MM-DiT)とタスクフィードバックによるサンプリング戦略を用いる。
    • テキスト,画像,マスクの共同注意機構とフルファインチューニングにより,リモートセンシングセマンティックセグメンテーションのデータ合成効果が向上する。
    • 制御修正フローマッチング(CRFM)により,生成画像の安定性を高め,合成データとセグメンテーションタスク間のギャップを縮小する。

    Link: https://arxiv.org/abs/2512.16740

  • TreeNet:低ビットレート画像圧縮のための軽量モデル [cs.CV, cs.AI]目的:低ビットレート画像圧縮のためのモデル
    • 画像圧縮は,データサイズ削減と効率的な伝送に不可欠であり,様々な応用分野で重要である。
    • 学習ベースの画像圧縮は計算コストが高く,実用化には計算量の削減が課題となっていた。
    • TreeNetは,計算量を削減しつつ,高効率な画像圧縮を実現することを目的としている。
    • TreeNetは,JPEG AIと比較して,低ビットレートにおいてBDレートを平均4.83%改善した。
    • モデルの複雑さを87.82%削減し,軽量な画像圧縮モデルであることが示された。
    • TreeNet内の潜在表現に関する詳細な分析により,再構成への影響因子が明らかになった。

    Link: https://arxiv.org/abs/2512.16743

  • ポーズ自在:3Dヒューマノイドキャラクターアニメーションのためのフィードフォワード潜在ポーズモデル [cs.CV]目的:3Dヒューマノイドキャラクターのポーズ生成
    • 3Dキャラクターアニメーションは,ゲームや映画など様々な分野で不可欠な技術である。
    • 従来のポーズ生成手法は,スキニングの不正確さや形状の欠陥により,汎用性に限界がある。
    • 潜在空間での操作により,これらの問題を解決し,高品質なポーズ生成を可能とする。
    • 本手法は,キャラクターを直接潜在表現で操作することで,従来法よりも高品質なポーズ生成を実現した。
    • 形状トークンに基づく潜在ポーズ変換器と,高精度なポーズ表現が,その性能を支えている。
    • また,パーツの置換や修正といった3D編集アプリケーションへの応用も可能であることが示された。

    Link: https://arxiv.org/abs/2512.16767

  • FlowDet:物体検出と生成輸送フローの統合 [cs.CV]目的:物体検出のための生成輸送フローの統一的フレームワーク
    • 物体検出はコンピュータビジョンの基盤であり,様々な応用分野で不可欠な技術である。
    • 既存の物体検出手法は,計算コストが高く,特に高精度な検出が困難な場合がある。
    • 生成輸送フローを用いることで,より効率的かつ高精度な物体検出を実現することを目標とする。
    • FlowDetは,拡散モデルを用いた既存のDiffusionDetを一般化し,より単純で直線的な経路を学習する。
    • その結果,推論ステップ数が増加するにつれて,検出性能の向上がより迅速に実現される。
    • COCOおよびLVISデータセットにおいて,DiffusionDetと比較して,APが最大3.6%,AP$_{rare}$が最大4.2%向上した。

    Link: https://arxiv.org/abs/2512.16771

  • Kling-Omni技術報告 [cs.CV]目的:マルチモーダルな視覚言語入力からの高忠実度ビデオ合成のための汎用生成フレームワーク
    • ビデオ生成技術は,エンターテイメント,教育,コミュニケーションなど,幅広い分野で重要性が増している。
    • 既存のビデオ生成手法は,パイプラインが分断されており,多様な入力に対応しにくいという課題がある。
    • 本研究は,多様な入力を統合し,高品質で知的なビデオコンテンツを生成するフレームワークを開発することで,この課題を解決する。
    • Kling-Omniは,テキスト指示,参照画像,ビデオコンテキストなど,多様な入力を統合したマルチモーダル表現を生成できる。
    • 大規模な事前学習と推論のためのインフラストラクチャ最適化により,効率的なビデオ生成を実現している。
    • 文脈内生成,推論に基づく編集,マルチモーダル命令追従において,優れた性能を示すことが評価で確認された。

    Link: https://arxiv.org/abs/2512.16776

  • R3ST:リアルな軌跡を持つ合成3Dデータセット [cs.CV]目的:交通解析用コンピュータビジョンモデルの学習と評価,および道路安全性の向上
    • 交通分析や道路安全の向上には,質の高いデータセットが不可欠である。
    • 実データセットは現実的だが,正確なアノテーションが不足していることが多い。
    • 実世界の軌跡データを利用することで,合成データセットのリアリティ向上を目指す。
    • 本研究では,ドローン映像から得られた実世界の軌跡を統合した合成3D環境R3STを提案する。
    • R3STは,合成データと現実的な軌跡のギャップを埋め,道路車両の軌跡予測研究を促進する。
    • 正確なマルチモーダルなアノテーションと,人間運転による車両のリアルな軌跡を提供する。

    Link: https://arxiv.org/abs/2512.16784

  • KineST:疎な信号からの人体モーション追跡のための運動学誘導時空間状態空間モデル [cs.CV, cs.AI]目的:疎な信号からの人体モーション追跡における精度,時間的一貫性,効率性のバランス
    • AR/VR技術の発展に伴い,現実世界と仮想世界を繋ぐための正確な人体モーション追跡が不可欠である。
    • ヘッドマウントディスプレイからの疎な信号に基づくモーション追跡は,精度,時間的一貫性,計算コストの課題を抱える。
    • 運動学的な知識を導入し,時空間的依存性を効率的に捉えることで,上記課題の解決を目指す。
    • KineSTは,運動学誘導双方向スキャンにより関節の関係性を効果的に捉え,状態空間モデルを再構築した。
    • 混合時空間表現学習により,空間的・時間的コンテキストを密接に結合し,精度と滑らかさのバランスを実現した。
    • 幾何学的角速度損失を導入することで,回転変化に物理的な制約を課し,モーションの安定性を向上させた。

    Link: https://arxiv.org/abs/2512.16791

  • GeoPredict:予測的運動学と3Dガウス幾何学を活用した高精度VLA操作 [cs.CV, cs.RO]目的:ロボット操作における高精度な3D推論
    • ロボット操作の汎用性向上は,産業界や日常生活において重要な課題である。
    • 既存のVLAモデルは,2D中心で反応性が高く,正確な3D推論が課題となっていた。
    • 予測的な運動学と幾何学に基づき,VLAモデルの3D推論能力を向上させる。
    • GeoPredictは,ロボットアームの多段階3Dキーポイント軌跡を予測するモジュールを導入した。
    • ワークスペースの幾何構造を予測し,未来のキーポイント軌跡に沿って精緻化する3Dガウス幾何学モジュールを導入した。
    • RoboCasa Human-50,LIBERO,実世界での操作タスクにおいて,既存のVLAモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2512.16811

  • DenseBEV:BEVグリッドセルを3Dオブジェクトへ変換 [cs.CV]目的:マルチカメラ3Dオブジェクト検出におけるBEV特徴セルを直接アンカーとして利用する手法
    • 自動運転技術の発展に伴い,周囲環境の正確な3Dオブジェクト検出が不可欠となっている。
    • 従来のBEVベースのTransformerはランダムなクエリを使用し,最適化に時間がかかるという課題があった。
    • BEVグリッドセルを直接アンカーとして利用することで,効率的な3Dオブジェクト検出を目指す。
    • 提案手法DenseBEVは,nuScenesデータセットにおいてNDSとmAPでベースラインを上回る性能を安定的に示した。
    • 特に小物体検出において効果が高く,nuScenesでの歩行者検出のmAPを3.8%向上させた。
    • Waymo Openデータセットにおいても最先端の性能を達成し,LET-mAPで60.7%を記録した。

    Link: https://arxiv.org/abs/2512.16818

  • YOLOv8を用いた次世代ナンバープレート検出・認識システム [cs.CV, cs.AI]目的:ナンバープレート検出・認識システムの性能評価と最適化
    • 交通管理や車両監視において,効率的なナンバープレート検出・認識は不可欠である。
    • 多様な環境下でのリアルタイムな高精度な認識が課題であった。
    • YOLOv8を用いて,高精度かつ効率的なナンバープレート検出・認識システムの開発を目指す。
    • YOLOv8 Nanoはナンバープレート検出において,精度0.964,mAP50 0.918を達成した。
    • YOLOv8 Smallは文字認識において,精度0.92,mAP50 0.91を示した。
    • x座標に基づく文字シーケンス処理により,検出文字の並び順を最適化した。

    Link: https://arxiv.org/abs/2512.16826

  • 層別解剖学的アテンションを用いた放射線レポート生成 [cs.CL, cs.CV]目的:胸部X線画像からの所見セクションの自動生成
    • 医療画像診断支援の自動化は,医師の負担軽減と診断精度の向上に貢献する重要な課題である。
    • 既存の放射線レポート自動生成システムは,大規模なデータや計算資源を必要とし,導入が困難である。
    • 本研究は,少ない計算資源で高精度なレポート生成を可能にする手法を開発し,実用性を高めることを目指す。
    • 単一の胸部X線画像から,既存手法と比較して,主要な5つの病理に対するCheXpert Macro-F1スコアが168%向上した。
    • 14種類の所見全体での性能も86%向上し,構造的な一貫性を示すRadGraph F1スコアも9.7%上昇した。
    • 本研究で提案する解剖学的アテンション機構は,限られたリソースでも臨床的に重要な領域への空間的な注意を強化することを示した。

    Link: https://arxiv.org/abs/2512.16841

  • OPENTOUCH:現実世界における全手部触覚の実現 [cs.CV, cs.AI, cs.RO]目的:現実世界における全手部触覚データセット及びベンチマーク
    • 人間の手は物理世界との主要なインターフェースであるため,その触覚情報の理解が重要である。
    • ウェアラブル触覚センサーが乏しく,一人称視点動画と全手部触覚データを組み合わせたデータセットが存在しない。
    • 視覚と触覚の融合を深め,ロボットの操作能力向上に貢献するデータセットと評価基準を構築すること。
    • OpenTouchは,5.1時間の動画・触覚・姿勢データと2,900の注釈付きクリップを含む,初の現実世界における全手部触覚データセットである。
    • 触覚信号は,把持の理解を深める強力な手がかりとなり,視覚と触覚のクロスモーダル整合性を強化する。
    • OpenTouchを用いた検索と分類ベンチマークにより,触覚が知覚と行動をどのように結びつけるかを検証できる。

    Link: https://arxiv.org/abs/2512.16842

  • GenEval 2:テキスト画像生成モデルの評価におけるベンチマークドリフトへの対処 [cs.CV, cs.AI]目的:テキスト画像生成モデルの評価におけるベンチマークドリフトの問題と,それに対処するための新たなベンチマークGenEval 2の提案
    • テキスト画像生成技術は急速に進歩しており,客観的かつ信頼性の高い評価手法の確立が重要である。
    • 既存のベンチマークは,時間の経過とともにモデル性能に追いつけなくなり,評価結果が乖離するベンチマークドリフトの問題が生じている。
    • 本研究は,GenEvalのドリフトを分析し,より頑健な評価を実現するGenEval 2を提案することで,この問題を解決することを目指す。
    • GenEvalはリリース当初は人間の判断と一致していたが,時間の経過とともに大きく乖離し,現在のモデルに対して最大17.7%の誤差が生じていることが示された。
    • 新たなベンチマークGenEval 2は,基本的な視覚概念の網羅性と構成性の高さにより,現在のモデルにとってより困難な評価を提供することが確認された。
    • 視覚素因に対する判断を組み合わせるSoft-TIFAは,人間の判断との整合性が高く,ベンチマークドリフトの影響を受けにくい評価手法であることが示唆された。

    Link: https://arxiv.org/abs/2512.16853

  • RePlan:複雑な指示に基づく画像編集のための推論駆動型領域計画 [cs.CV]目的:複雑な指示に基づく画像編集における領域計画
    • 画像編集において,自然言語による制御は利便性を高める重要な要素である。
    • 複雑な指示と曖昧な画像が混在する場合,既存モデルは性能が低下しやすい。
    • 複雑な状況下でも高精度な編集を実現するための領域計画手法を開発する。
    • RePlanは,推論と領域特定を組み合わせた計画・実行フレームワークにより,複雑な編集を可能にする。
    • GRPOに基づく強化学習を用いることで,推論の忠実性と形式の信頼性を向上させている。
    • 新たなベンチマークIV-Editで,既存モデルを大きく上回り,領域精度と全体的な忠実度が向上した。

    Link: https://arxiv.org/abs/2512.16864

  • ピクセルシール:不可視画像・動画透かしのための敵対的学習 [cs.CV, cs.AI, cs.CR, cs.LG]目的:不可視透かし技術の性能向上
    • デジタルコンテンツの出所追跡は重要であり,そのために不可視透かし技術が不可欠である。
    • 既存手法は,堅牢性と完全な不可視性のバランスを取るのが難しく,透かしが目に見えるアーティファクトが生じやすい。
    • 人間の知覚に合致した不可視透かしを実現し,高解像度画像・動画への適用を可能にする。
    • Pixel Sealは,画像および動画透かしにおいて最先端の性能を達成する。
    • 敵対的学習のみを用いることで,不安定なピクセル単位の損失関数への依存を排除し,学習の安定化を実現した。
    • JNDベースの減衰と,学習時推論シミュレーションにより,高解像度化時のアーティファクトを抑制し,動画への効率的な適応を可能にした。

    Link: https://arxiv.org/abs/2512.16874

  • 共同学習によるより良い診断:コラーゲンVI関連筋ジストロフィーに対する連合学習 [cs.LG, cs.AI, cs.CV, cs.DC]目的:コラーゲンVI関連筋ジストロフィーの診断における連合学習の有効性
    • 希少疾患の診断は患者数が少ないため困難であり,診断精度の向上が求められている。
    • 患者データが分散し,プライバシー保護の観点からデータ共有が制限されることが課題である。
    • 分散データを利用しつつ,プライバシーを保護しながら診断精度の向上を目指す。
    • 連合学習を用いることで,単一機関のモデルよりも高いF1スコア(0.82)を達成した。
    • 本研究は,コラーゲンVI関連筋ジストロフィーの病因メカニズムに基づいた画像分類を可能にした。
    • このアプローチは,診断精度向上に加え,不明確な変異の解釈や新たな病原性変異の特定に役立つと期待される。

    Link: https://arxiv.org/abs/2512.16876

  • 遮蔽に強い手術器具セグメンテーションのためのメモリ増強SAM3 [cs.CV]目的:内視鏡動画における手術器具の正確なセグメンテーション
    • 手術支援システムにおいて,器具の認識は安全かつ効率的な介入に不可欠である。
    • 頻繁な遮蔽,急激な動き,反射,器具の再登場により,正確なセグメンテーションは困難である。
    • SAM3のメモリ更新の偏り,固定されたメモリ容量,遮蔽後の弱いID復元を改善する。
    • 提案手法ReMeDI-SAM3は,遮蔽を考慮したメモリフィルタリングと特徴に基づく再識別により,SAM3の性能を向上させた。
    • EndoVis17およびEndoVis18データセットにおいて,ゼロショット設定でSAM3と比較してmcIoUがそれぞれ約7%,16%改善された。
    • ReMeDI-SAM3は既存の学習ベースの手法をも凌駕し,信頼性の高いセグメンテーションを実現した。

    Link: https://arxiv.org/abs/2512.16880

  • M-PhyGs:ビデオからの多素材オブジェクトのダイナミクス [cs.CL, cs.CV]目的:多素材オブジェクトの材質構成とパラメータ推定
    • 現実世界のオブジェクト挙動を予測するには,材質特性の理解が不可欠である。
    • 既存手法は単一素材,事前学習済みのダイナミクスに限定され,複雑なオブジェクトに対応できない。
    • 複雑な自然物である花を対象に,多素材オブジェクトの材質推定問題を解決する。
    • M-PhyGsは,ビデオからオブジェクトを素材ごとに分割し,重力も考慮して機械的パラメータを回復する。
    • カスケード損失と時間的なミニバッチ処理により,効率的な推定を実現している。
    • 新たに構築したPhlowersデータセットを用いた実験で,M-PhyGsの精度と有効性が確認された。

    Link: https://arxiv.org/abs/2512.16885

  • LinkedOut:次世代ビデオ推薦のためのビデオLLMからの世界知識表現の連携 [cs.CV, cs.AI, cs.IR, cs.LG, cs.MM]目的:ビデオ推薦における世界知識の活用
    • ビデオ理解において,大規模言語モデルの活用が重要視されている。
    • リアルタイムな多動画入力と低遅延推論が課題となっている。
    • 世界知識を保持しつつ,詳細な視覚情報を活用する表現を構築する。
    • LinkedOutは,ビデオLLMから直接世界知識を抽出し,高速推論を実現する表現である。
    • 多動画履歴に対応し,言語の制約を取り除くことで,より精度の高い推薦が可能となる。
    • 標準的なベンチマークで最先端の結果を達成し,解釈可能性も確認された。

    Link: https://arxiv.org/abs/2512.16891

  • 3D認識による表情蒸留を用いた即時表現力豊かなガウスヘッドアバター [cs.CV]目的:2D拡散モデルから知識を蒸留し,単一画像から3D一貫性,高速かつ表現力豊かなアニメーション可能な表現を生成する手法
    • デジタルツインやテレプレゼンスなど,リアルタイムな応用において,高品質かつ高速な人物アニメーションが求められている。
    • 既存の2D手法は3D一貫性に欠け,3D認識手法は表情の細部に劣るという課題がある。
    • 両者の長所を組み合わせ,高速かつ高表現力な3D人物アニメーションを実現することを目指す。
    • 本手法は,3D構造とアニメーション情報を効率的に融合することで,高い表現力を実現した。
    • アニメーション速度は107.31 FPSと高速でありながら,最先端手法と同等のアニメーション品質を達成した。
    • 従来の複雑な融合メカニズムと比較し,軽量な局所融合戦略を採用することで,速度と品質のトレードオフを解消した。

    Link: https://arxiv.org/abs/2512.16893

  • コアの空虚性の限界:承認型複数勝者投票への自動推論的アプローチ [cs.GT]目的:承認型複数勝者投票におけるコア安定性の存在判定
    • 複数勝者投票は,公平な集団意思決定を可能にする重要な手法である。
    • コア安定性の存在が保証されているかどうかは未解決問題である。
    • 特定の候補者数におけるコア安定性の存在を判定する手法を開発する。
    • 混合整数計画法を用いることで,従来のSATベース手法よりも証明の生成効率が良い。
    • コア安定性の問題に対する新しい双対表現を導き出し,特殊なケースにおける存在結果を得た。
    • コア安定性と価格性といった他の望ましい特性との間の新たな関係性を明らかにした。

    Link: https://arxiv.org/abs/2512.16895

  • Sceniris:高速なプロシージャルシーン生成フレームワーク [cs.RO, cs.CV, cs.GR]目的:大規模シーンの高速生成
    • 物理AIや生成モデル開発に3Dシーンは不可欠であり,その重要性は増している。
    • 既存手法では生成速度が遅く,データセット作成のスケーラビリティが課題となっていた。
    • データセット作成のボトルネックを解消し,多様なシーンを迅速に生成することを目指す。
    • Scenirisは,既存手法Scene Synthesizerと比較して,少なくとも234倍の高速化を実現した。
    • バッチサンプリングやcuRoboによる高速な衝突判定が,その効率化に貢献している。
    • オブジェクト間の空間関係の多様性を拡大し,様々なシーン要件に対応可能とした。

    Link: https://arxiv.org/abs/2512.16896

  • マルチモーダル報酬ベンチマーク2:交錯するテキストと画像のオムニ報酬モデルの評価 [cs.CL, cs.CV]目的:マルチモーダル理解と生成における報酬モデルの評価
    • 大規模言語モデルの訓練に報酬モデルは不可欠であり,その重要性は増している。
    • 画像とテキストが混在するシーケンスを扱うオムニモデルに対する報酬モデルの研究は遅れている。
    • マルチモーダルなデータに対する報酬モデルの性能を客観的に評価する手段を確立すること。
    • マルチモーダル報酬ベンチマーク2(MMRB2)は,テキスト画像間変換,画像編集,交錯生成,マルチモーダル推論の4つのタスクで構成される。
    • Gemini 3 Proは75〜80%の精度を達成し,GPT-5やGemini 2.5 Pro(66〜75%)はGPT-4o(59%)を上回る結果となった。
    • MMRB2の性能は,Best-of-Nサンプリングを用いた下流タスクの成功と強い相関関係があることが示された。

    Link: https://arxiv.org/abs/2512.16899

  • FlashPortrait:適応潜在予測による6倍高速な無限ポートレートアニメーション [cs.CV]目的:ID(個人識別情報)を保持しつつ,無限長の動画を生成する手法
    • 動画生成技術は,エンターテイメントからコミュニケーションまで幅広い分野で重要性が増している。
    • 拡散モデルを用いた長尺ポートレートアニメーションでは,IDの一貫性を維持することが課題である。
    • IDの一貫性を保ちながら,推論速度を大幅に向上させることを目指す。
    • FlashPortraitは,既存手法と比較して最大6倍の高速化を実現した。
    • IDに依存しない表情特徴量を抽出し,拡散潜在変数との整合性を高めることで,ID安定性を向上させた。
    • 動的なスライディングウィンドウと重み付けブレンドにより,スムーズな遷移とIDの一貫性を確保した。

    Link: https://arxiv.org/abs/2512.16900

  • 錬金術師:メタ勾配データ選択によるテキスト画像モデル学習の効率化 [cs.CV]目的:テキスト画像モデル学習におけるデータ効率の向上
    • 近年の画像生成モデルの進歩は目覚ましいが,性能は学習データの質に大きく左右される。
    • Web収集データや合成データには低品質・冗長なサンプルが含まれ,学習の不安定化や非効率性を招く。
    • メタ勾配に基づくデータ選択により,高品質なデータサブセットを自動的に抽出し,効率的な学習を実現する。
    • 提案手法Alchemistは,軽量な評価器を用いて各サンプルの影響度を勾配情報から推定する。
    • Shift-Gsampling戦略により,情報量の多いサブセットを選択し,効率的なモデル学習を可能にする。
    • 実験の結果,Alchemistは視覚的品質と下流タスクの性能を向上させ,データ量を削減してもフルデータセットでの学習を上回る性能を示す。

    Link: https://arxiv.org/abs/2512.16905

  • VIVA:報酬最適化によるVLM誘導型指示に基づく動画編集 [cs.CV]目的:指示に基づく動画編集の性能向上
    • 動画編集は,コンテンツの多様な利用を可能にする重要な技術である。
    • 既存手法は単純な編集操作のペアデータに依存し,複雑な指示への汎化が課題である。
    • VLM誘導と報酬最適化により,複雑な指示にも対応可能な動画編集を実現する。
    • VIVAは,VLMによるエンコーディングと報酬最適化を活用したスケーラブルなフレームワークである。
    • VLMベースのインストラクターが,テキスト指示と動画の情報を視覚的に関連付けた表現を生成する。
    • Edit-GRPOは,動画編集に特化した相対報酬最適化により,編集の質を向上させる。

    Link: https://arxiv.org/abs/2512.16906

  • 推論から運動へ:一人称視点ヒューマンインタラクション動画からの3D手軌跡予測学習 [cs.CV, cs.AI, cs.RO]目的:3D手軌跡予測の精度向上
    • ロボットの人間との協調や仮想現実など,多様な応用において3D手動作の理解が不可欠である。
    • 既存の研究では,運動と意味的理解が分離されたデータセットや,推論と行動の結びつきが弱いモデルが課題となっていた。
    • 意味的,空間的,運動的な推論を統合し,より正確で段階的な軌跡予測を実現することを目指す。
    • 大規模な一人称視点データセットEgoMANを新たに構築し,インタラクション段階に応じた3D手軌跡予測を可能にした。
    • 推論と運動を繋ぐReasoning-to-MotionフレームワークEgoMANモデルを提案し,軌跡トークンインターフェースを用いて視覚言語推論と運動生成を連携させた。
    • 段階的に学習することで,現実世界のシーンにおいても汎化性能の高い,正確な軌跡予測を達成した。

    Link: https://arxiv.org/abs/2512.16907

  • SceneDiff:多視点オブジェクト変化検出のためのベンチマークと手法 [cs.CV]目的:多視点画像におけるオブジェクトの追加,削除,移動の検出
    • ロボットの整理整頓や建設現場の安全管理など,様々な応用分野で変化検出が重要である。
    • 視点の変化が,オブジェクトが変化したと誤認させる要因となることが課題である。
    • 視点変動に強い変化検出手法を開発し,客観的な評価基準を提供する。
    • SceneDiff Benchmarkは,オブジェクトインスタンス注釈付きの多視点変化検出ベンチマークとして公開される。
    • 提案手法SceneDiffは,3Dモデルやセマンティック情報を活用し,既存手法を大幅に上回る性能を示した。
    • 多視点および二視点ベンチマークにおいて,それぞれ94%と37.4%の平均適合率(AP)の改善が確認された。

    Link: https://arxiv.org/abs/2512.16908

  • MomaGraph:タスク対応型状態認識統一シーングラフとビジョン言語モデルによる具現化タスク計画 [cs.CV, cs.RO]目的:家庭用モバイルマニピュレータのための,空間的・機能的な関係性および部分レベルのインタラクション要素を統合した統一的なシーン表現
    • 家庭内でのロボットの自律的な動作には,周囲の環境を理解し,タスクを遂行するための高度な認識能力が不可欠である。
    • 既存のシーングラフは,空間情報と機能情報を分離したり,静的な環境描写に留まったり,タスク関連性の情報が不足している場合が多い。
    • 現在のタスクに応じて必要な情報を効率的に表現し,ロボットの計画能力を向上させること。
    • MomaGraphは,空間的・機能的な関係と部分レベルのインタラクション要素を統合した新しいシーン表現である。
    • MomaGraph-ScenesデータセットとMomaGraph-Bench評価スイートを新たに構築し,厳密な評価を可能にした。
    • MomaGraph-R1は,Graph-then-Planフレームワークにおいて,71.6%の精度を達成し,既存のオープンソースモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2512.16909

  • SFTok:離散型トークナイザーの性能ギャップを埋める [cs.CV, cs.LG]目的:高解像度画像生成における画像トークン化の性能向上
    • マルチモーダルモデルにおいて,画像トークン化は計算効率と複雑性軽減に不可欠である。
    • 離散型トークナイザーは連続型に比べて性能が劣り,マルチモーダルシステムへの応用が制限されている。
    • 多段階反復メカニズムにより,離散型トークナイザーの再構成精度を高め,性能ギャップを解消すること。
    • SFTokは,自己強制ガイド付きビジュアル再構成と,バイアス除去・適合学習戦略を統合することで,多段階プロセスの学習・推論の不整合を解消した。
    • ImageNetにおける再構成品質は,rFID = 1.21と最高水準を達成した。
    • クラスから画像への生成タスクにおいても,gFID = 2.29と優れた性能を示した。

    Link: https://arxiv.org/abs/2512.16910

  • パノラマ画像深度推定のための基盤モデル:あらゆる深度のパノラマ [cs.CV]目的:多様なシーン距離におけるパノラマ画像の深度推定
    • 360度画像等の没入型コンテンツの活用が広がる中で,深度情報の高精度な推定が重要である。
    • 既存手法では,屋内・屋外,実写・合成など,データドメインの違いに起因する性能劣化が課題である。
    • 実世界シーンにおけるロバストで安定した深度予測を可能にする汎用的な基盤モデルの構築を目指す。
    • 大規模なデータセットを構築し,合成データと実データ間のドメインギャップを低減する疑似ラベルキュレーションパイプラインを導入した。
    • DINOv3-Largeをバックボーンに採用し,距離変化へのロバスト性と幾何学的整合性を強化する最適化手法を導入した。
    • Stanford2D3D等の複数のベンチマークにおいて,高い性能とゼロショット汎化能力を示すことが確認された。

    Link: https://arxiv.org/abs/2512.16913

  • StereoPilot: 生成的事前分布を用いた統一的かつ効率的な立体変換学習 [cs.CL, cs.CV]目的:高品質な立体映像コンテンツの生成
    • VRヘッドセットや3Dシネマの普及により,高品質な立体映像コンテンツへの需要が高まっている。
    • 従来の単眼から立体への変換は,多段階の「Depth-Warp-Inpaint」パイプラインの制約により困難であった。
    • 本研究は,明示的な深度マップや反復拡散サンプリングに依存しない,効率的な立体変換モデルを開発する。
    • 本研究で開発したStereoPilotは,異なる立体形式への適応性と一貫性を向上させるサイクル整合性損失と学習可能なドメインスイッチを備えている。
    • 大規模な立体ビデオ変換用データセットUniStereoを構築し,公平なベンチマークとロバストなモデル学習を可能にした。
    • StereoPilotは,既存の最先端手法と比較して,視覚的な忠実度と計算効率において大幅な性能向上を実証した。

    Link: https://arxiv.org/abs/2512.16915

  • AdaTooler-V:画像・動画に対する適応的なツール利用 [cs.CV]目的:画像と動画におけるツール利用の適応性
    • マルチモーダルLLMの性能向上には,視覚ツールとの相互作用が重要である。
    • 既存のオープンソースモデルは,不要なツール利用を行う傾向があり,計算コストが増加し,性能が低下する。
    • 本研究は,ツール利用が必要な場合にのみツールを使用する適応的なツール利用メカニズムを開発する。
    • AdaTooler-Vは,各サンプルのツール利益スコアに基づいて報酬尺度を適応的に調整するAT-GRPOアルゴリズムを導入した。
    • SFTのためのAdaTooler-V-CoT-100kと,RLのためのAdaTooler-V-300kという2つのデータセットを構築し,学習を支援した。
    • 12のベンチマークにおける実験で,AdaTooler-Vの高い推論能力が示され,特にAdaTooler-V-7BはV*で89.8%の精度を達成し,GPT-4oやGemini 1.5 Proを上回った。

    Link: https://arxiv.org/abs/2512.16918

  • DVGT:運転用視覚幾何変換器 [cs.CV, cs.AI, cs.RO]目的:運転環境における3次元シーンの幾何学的知覚
    • 自動運転の実現には,周囲環境の正確な3次元把握が不可欠である。
    • 既存手法は,特定のカメラ設定に依存し,多様な環境への適応が困難である。
    • DVGTは,カメラパラメータに依存せず,柔軟な幾何学的知覚を実現する。
    • DVGTは,複数の視点からの画像系列から,グローバルな3次元点マップを再構築する。
    • DINOバックボーンと注意機構により,画像間の幾何学的関係を推論し,正確な3次元形状を予測する。
    • nuScenes等の大規模データセットで学習した結果,既存モデルを大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2512.16919

  • EasyV2V:高品質な指示に基づく動画編集フレームワーク [cs.CV, cs.AI]目的:指示に基づく動画編集のためのフレームワークの設計と実装
    • 画像編集技術の進歩に比べ,動画編集は発展が遅れている。高品質な動画編集技術の確立が求められている。
    • 動画編集において,一貫性,制御性,汎用性の確保が課題となっている。既存の手法では十分な性能が得られていない。
    • 多様なデータとシンプルなモデル設計により,高品質かつ制御可能な動画編集を実現することを目指す。
    • 既存のモデルを活用し,軽量なLoRAによる微調整のみで,強力な動画編集モデルを構築できることを示した。
    • 動画とテキスト,動画とマスク,動画とマスクと参照画像など,多様な入力形式に対応可能である。
    • 提案手法EasyV2Vは,既存の手法や商用システムと比較して,最先端の動画編集結果を達成した。

    Link: https://arxiv.org/abs/2512.16920

  • 重要な違い:能力ギャップの発見と修正のための監査モデル [cs.CV, cs.AI]目的:マルチモーダルLLMの能力ギャップの発見と修正
    • LLMの性能向上は重要であり,特にマルチモーダルLLMはその応用範囲の広さから注目されている。
    • 既存の評価方法は解釈性に欠け,モデル間の重要な能力ギャップを十分に明らかにできないという課題がある。
    • モデル間の不一致を監査することで,マルチモーダルLLMの弱点を明らかにし,改善を目指す。
    • AuditDMは,モデル間の不一致を最大化する質問と反事実画像を生成する監査モデルを強化学習で学習させる。
    • 学習された監査モデルは,モデルの弱点を示す多様で解釈可能な事例を発見し,修正のための無注釈データを提供する。
    • AuditDMはGemma-3やPaliGemma-2において20種類以上の失敗タイプを発見し,16のベンチマークでモデルの性能を向上させた。

    Link: https://arxiv.org/abs/2512.16921

  • 次の埋め込み予測が強力な視覚学習器を生み出す [cs.CV]目的:視覚学習における自己教師あり学習の可能性
    • 自然言語処理の成功例から,視覚学習においても同様のアプローチが有効かという問題意識がある。
    • 既存の視覚学習は,特徴抽出やピクセル再構成などに依存し,複雑になりがちである。
    • 埋め込みの予測を通して,より単純かつスケーラブルな学習方法を確立すること。
    • ImageNet-1kで次の埋め込み予測のみを用いて事前学習したTransformerが有効であることを示した。
    • ViT-BおよびViT-Lバックボーンを用いたImageNet-1Kで,それぞれ83.8%と85.3%のトップ1精度を達成した。
    • ADE20Kのセマンティックセグメンテーションへの転移学習においても良好な結果が得られた。

    Link: https://arxiv.org/abs/2512.16922

  • 生成によるリフォーカス:単一画像からの柔軟な被写界深度制御 [cs.CV]目的:単一画像からの柔軟な被写界深度制御手法
    • 写真において被写界深度の調整は重要だが,理想的な焦点合わせは困難を伴う。
    • 単一画像からのリフォーカスは難題であり,鮮明な画像と自然なボケの両立が課題である。
    • 既存手法の制約を克服し,現実的なボケ表現を可能にするリフォーカス手法を開発する。
    • 本研究では,DeblurNetで全焦点画像を復元し,BokehNetで制御可能なボケを生成する二段階プロセスを提案した。
    • 半教師あり学習により,シミュレーターデータと実写ボケ画像を組み合わせ,現実的な光学特性を学習した。
    • 提案手法は,被写界深度の復元,ボケ合成,リフォーカスのベンチマークで高い性能を示し,テキストによる調整やカスタム絞り形状も実現した。

    Link: https://arxiv.org/abs/2512.16923

  • 世界があなたのキャンバス:参照画像,軌跡,テキストによるプロンプト駆動型イベントの描画 [cs.CV]目的:プロンプト駆動型ワールドイベントのためのフレームワーク
    • 現実世界のシミュレーションは,ロボット工学やバーチャルリアリティなど,多様な分野で不可欠である。
    • 従来のテキストのみのアプローチでは,イベントの制御や視覚的な一貫性を確保することが困難である。
    • 多様な情報を統合し,より自然で制御可能なイベント生成を実現すること。
    • WorldCanvasは,テキスト,軌跡,参照画像を組み合わせることで,豊かなユーザー主導のシミュレーションを可能にする。
    • 生成された動画は,時間的な一貫性だけでなく,オブジェクトの識別やシーンの一貫性も維持している。
    • WorldCanvasは,受動的な予測モデルから,インタラクティブでユーザーが形作るシミュレーターへとワールドモデルを進化させる。

    Link: https://arxiv.org/abs/2512.16924

  • 深層ニューラルネットワークとGrad-CAMによる胸部X線写真からの弱学習肺炎局在化 [cs.CV, cs.AI]目的:胸部X線写真を用いた肺炎の分類と局在化
    • 肺炎の診断には胸部X線写真が広く用いられるが,詳細なアノテーションが必要。
    • ピクセルレベルのアノテーション作成には,コストと時間がかかるという課題がある。
    • 画像レベルのラベルのみで肺炎領域を特定し,診断支援の効率化を目指す。
    • 提案手法では,画像レベルのラベルを用いて臨床的に意味のある熱力学マップを生成した。
    • ResNet-18やEfficientNet-B0は高い分類精度(96-98%)を示し,MobileNet-V3は軽量な代替案となった。
    • Grad-CAMによる可視化により,提案手法が臨床的に関連性の高い肺領域に焦点を当てていることが確認された。

    Link: https://arxiv.org/abs/2511.00456

  • 広告交換におけるリアルタイム入札オークションにおける戦略的入札減額:少数ゲーム理論の応用 [econ.TH, cs.GT]目的:広告交換におけるリアルタイム入札オークションでの入札減額戦略の解明
    • 広告市場は,企業にとって重要な顧客獲得の場であり,効率的な広告配信が重要である。
    • リアルタイム入札では,不確実性が高く,最適な入札額を決定することが困難である。
    • 少数ゲーム理論を用いて,入札者の戦略的な行動を分析し,入札減額メカニズムを明らかにする。
    • 大規模な入札データ分析により,入札者が時間帯ごとに市場を分割し,少数派になることを予測して入札する戦略が確認された。
    • この少数派戦略は,入札額を抑えつつ,落札確率を高める効果を持つことが示された。
    • 本研究は,分散型,高頻度オークション環境における入札者のダイナミクスと価格形成への少数戦略の影響を明らかにする。

    Link: https://arxiv.org/abs/2512.15717

  • 生体医用画像における基盤モデル:誇大宣伝を現実へ [eess.SP, cs.ET, q-bio.QM, cs.AI, cs.CV, cs.LG]目的:生体医用画像における基盤モデルの現状と課題の評価
    • 医療分野におけるAI活用は,診断精度向上や効率化に不可欠であり,基盤モデルはその可能性を広げる。
    • 基盤モデルの臨床評価と導入には,信頼性,バイアス,安全性といった課題が立ちはだかっている。
    • 因果推論に基づいた,安全で検証可能なシステム開発が重要である。
    • 基盤モデルは,複雑な臨床推論や多種多様なデータ統合において潜在能力を持つが,現状では表面的なパターン認識に留まる場合が多い。
    • アルゴリズムバイアス,データバイアス,モデルの幻覚といった問題に対処し,信頼性と安全性を確保する必要がある。
    • 完全な自動診断はまだ遠いものの,臨床現場を支援する強力なツールとして,基盤モデルの活用が期待される。

    Link: https://arxiv.org/abs/2512.15808

  • BioimageAIpub:AI対応バイオイメージングデータ公開ツールボックス [eess.IV, cs.CV]目的:AIを活用したバイオイメージング研究を促進するためのデータ公開ワークフロー
    • 近年のバイオイメージ解析は大量のデータが必要であり,研究者は自施設外のデータ収集が不可欠である。
    • 既存のデータリポジトリはメタデータが充実しているものの,画像解析ツールで直接利用するには労力がかかる。
    • バイオイメージングデータの変換と共有を簡素化し,AIモデル開発の加速を目指す。
    • BioimageAIpubは,バイオイメージングデータの変換作業を効率化し,HuggingFaceへのシームレスなアップロードを可能にする。
    • これにより,研究者はデータ準備にかかる時間を削減し,解析ツール開発に注力できるようになる。
    • 本ワークフローは,AIを活用したバイオイメージング研究の発展に貢献する。

    Link: https://arxiv.org/abs/2512.15820

  • 真実の探求:AIベースの解剖学的セグメンテーションモデルの一致性評価 [eess.IV, cs.CV]目的:AIベースの解剖学的セグメンテーションモデルの一致性評価のためのフレームワーク
    • 画像解析における自動化の需要が高まっており,解剖学的セグメンテーションは重要な役割を担う。
    • 教師データなしでのモデル評価が困難であり,モデルの信頼性を客観的に判断することが課題。
    • 教師データが不要な,実用的なモデル評価フレームワークを提供し,モデル選択を支援する。
    • 本フレームワークにより,複数のモデルのセグメンテーション結果を効率的に読み込み,構造ごとに比較・検証が可能になった。
    • 予備的な結果は,問題のあるセグメンテーション結果を迅速に特定し,レビューする上で本アプローチが有用であることを示唆している。
    • 肺などの構造は高い一致性を示したが,脊椎や肋骨などの構造ではモデル間で不一致が見られた。

    Link: https://arxiv.org/abs/2512.15921

  • MCR-VQGAN:アルツハイマー病イメージングのためのスケーラブルかつ費用対効果の高いタウPET合成アプローチ [eess.IV, cs.CV]目的:アルツハイマー病のタウPET画像の合成
    • アルツハイマー病の診断において,タウPETは神経原線維変化を可視化する重要な手法である。
    • 従来のタウPET検査は,放射線被曝,利用制限,高コスト等の課題があり,臨床への普及が妨げられている。
    • T1強調MRI画像から高精度なタウPET画像を合成し,検査の代替手段を提供することで上記課題の解決を目指す。
    • 提案手法MCR-VQGANは,既存の生成モデルと比較して,MSE,PSNR,SSIM等の画像品質指標において優れた性能を示した。
    • 合成画像を用いてアルツハイマー病の分類器を訓練した結果,実画像と同程度の識別精度が得られ,診断情報の保持が確認された。
    • MCR-VQGANは,従来のタウPET検査のスケーラブルな代替手段となり,アルツハイマー病研究・臨床への応用が期待される。

    Link: https://arxiv.org/abs/2512.15947

  • 機械学習を活用した粒子系複合材料のグラフ分析:全固体電池カソードへの応用 [cond-mat.mtrl-sci, cs.CV]目的:粒子系複合材料の微細構造と物性との関係性の解明
    • 複合材料は,化学・電気化学システムにおいて重要な役割を担う。性能向上には微細構造制御が不可欠である。
    • X線顕微鏡のデータは膨大だが,その解析から新たな知見を得ることは依然として課題である。
    • 機械学習とグラフ分析を用いて,微細構造と物性の関係性を効率的に明らかにすること。
    • 機械学習によるグラフ表現が,多種多様な実験画像と機能的理解を結びつける強力な手段となることが示された。
    • 全固体リチウム電池カソードにおいて,三相接合部の重要性とイオン/電子伝導経路が確認された。
    • 本研究は,粒子系複合材料のデータ駆動型材料設計を促進するための新たなパラダイムを確立する。

    Link: https://arxiv.org/abs/2512.16085

  • 特殊ポンセレー三角形族におけるキペルト放物線の焦点の固定性 [physics.soc-ph, cs.SY, eess.SY, math.MG, cs.GR]目的:特殊ポンセレー三角形族におけるキペルト放物線の焦点の固定
    • 幾何学における古典的な問題であり,円に内接する多角形の性質を深く理解する必要がある。
    • キペルト放物線の焦点が,特定の三角形族においてどのように変化するかは未解明な部分が多い。
    • 正三角形を含むポンセレー三角形族において,キペルト放物線の焦点が固定されることを明らかにすること。
    • キペルト放物線の焦点は,正三角形を含む円に内接するポンセレー三角形族において,固定されていることが示された。
    • この結果は,特定の幾何学的配置において,放物線の焦点が不変であるという興味深い性質を示している。

    Link: https://arxiv.org/abs/2512.16678

  • ランキングに基づくピボット規則の下限 [math.OC, cs.GT]目的:ランキングに基づくピボット規則の下限の導出
    • 線形計画法,マルコフ決定過程,パリティーゲーム等の分野で,効率的なピボット規則の存在が長年の課題となっている。
    • 既存の下限構成は特定の規則または小規模な規則集合に限定されており,汎用性に欠ける点が課題であった。
    • 入力情報への依存性に基づく規則のクラス分けを行い,それらの下限を統一的に示すことを目指す。
    • 戦略改善において,入力のランク比較のみに基づくメモリベースのBland規則に対し,超多項式時間の下限が示された。
    • 政策反復において,改善アクションのランク,還元コスト,目的関数の改善に基づいて決定するルールに対し,準指数時間の下限が示された。
    • これらの結果は線形計画法のシンプレックス法にも適用される。

    Link: https://arxiv.org/abs/2512.16684

  • Tiny Actions Challengeに向けた低解像度行動認識 [cs.CV]目的:低解像度における人間の行動認識
    • 監視カメラ等の現実世界における人間の行動理解は,安全保障や生活支援において重要である。
    • 遠距離からの記録による低解像度な映像では,行動を識別するための手がかりが少ないという課題がある。
    • 長尾分布の問題を緩和し,低解像度映像における行動認識の精度向上を目指す。
    • データバランスを考慮した学習により,過学習を抑制し,認識性能を向上させた。
    • デュアル解像度蒸留フレームワークを用いることで,高解像度知識を活用し,低解像度行動認識を効果的に支援した。
    • モデルアンサンブルと後処理を適用することで,長尾分布のカテゴリにおける性能をさらに向上させた。

    Link: https://arxiv.org/abs/2209.14711