arXiv雑要約

画像・音声 - 2025/12/16 公開

  • 受動的な環境音と実環境ビデオによるカメラ姿勢推定 [cs.CV]目的:カメラ姿勢推定の性能向上
    • ロボット工学や3Dシーン理解において,カメラの動きの把握は不可欠である。
    • 視覚情報のみでは,モーションブラーや遮蔽物により推定精度が低下することがある。
    • 環境音を活用することで,視覚情報が不足する状況下でのカメラ姿勢推定を改善する。
    • 提案手法は,方向推定とバイノーラル埋め込みを既存の視覚モデルに統合する。
    • 大規模データセットを用いた実験で,視覚情報のみのベースラインを上回る結果が得られた。
    • 視覚情報が劣化した場合でも,ロバストな推定が可能であることが示された。

    Link: https://arxiv.org/abs/2512.12165

  • SMRABooth:被写体とモーション表現の整合によるカスタマイズ動画生成 [cs.CY, cs.HC, physics.soc-ph, cs.DL, cs.CV]目的:カスタマイズ動画生成における被写体とモーションの表現整合
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で活用が期待されており,その重要性は増している。
    • 既存手法では,被写体とモーションの双方を忠実に再現することが難しく,品質の向上が課題となっていた。
    • 被写体とモーションをオブジェクトレベルで制御することで,より自然で高品質なカスタマイズ動画生成を目指す。
    • SMRABoothは,自己教師あり学習エンコーダと光流エンコーダを用いて,被写体とモーションのオブジェクトレベル表現を学習する。
    • LoRAファインチューニングの過程でこれらの表現を整合させることで,被写体とモーションのカスタマイズ性能を向上させている。
    • 実験結果から,SMRABoothは被写体の外観とモーションの一貫性を維持し,制御可能なテキストからの動画生成において有効であることが示された。

    Link: https://arxiv.org/abs/2512.12193

  • AutoMV:音楽ビデオ自動生成のためのマルチエージェントシステム [cs.RO, cs.MM, cs.CV, cs.SD, eess.AS]目的:楽曲からの長尺音楽ビデオの自動生成
    • 音楽と映像を結びつける研究は,エンターテイメント産業において重要な役割を担う。
    • 既存手法では,短く断片的な映像しか生成できず,楽曲との整合性や一貫性に課題がある。
    • 楽曲構造に沿った,一貫性のある長尺音楽ビデオを自動的に生成することを目指す。
    • AutoMVは,楽曲の構造,ボーカル,歌詞などの情報を活用し,複数のエージェントが連携して音楽ビデオを生成する。
    • 提案手法は,既存のベースラインと比較して,音楽内容,技術,ポストプロダクション,アートの全てのカテゴリで有意に高い性能を示した。
    • 大規模マルチモーダルモデルを自動評価器として利用する試みも行われたが,専門家による評価にはまだ及ばないことが示された。

    Link: https://arxiv.org/abs/2512.12196

  • マイクロUAVを用いた山火事境界追跡のための熱画像とRGB画像の融合:低帯域幅環境下での最小限の通信 [cs.CV, cs.AI]目的:山火事環境下におけるマイクロUAVチームの境界追跡手法
    • 山火事の早期発見と被害状況の把握は,防災活動において極めて重要である。
    • 従来の追跡手法は,通信帯域幅の制約やGPSの不安定性により,実用性に課題があった。
    • 低帯域幅環境下でも安定した追跡を可能にする,軽量でロバストな手法を確立すること。
    • 熱画像による粗いホット領域のマスクとRGB画像によるエッジ検出を組み合わせることで,誤検出を抑制した。
    • Ramer-Douglas-Peuckerアルゴリズムによる簡略化により,追跡経路の長さを短縮し,境界のジッターを減少させた。
    • シミュレーション及び計算資源の使用量から,標準的なマイクロプラットフォームで10-15m/sの速度での動作が可能であることが示された。

    Link: https://arxiv.org/abs/2512.12199

  • 可視・熱画像融合による未知宇宙物体のナビゲーション [cs.RO, cs.CV]目的:未知宇宙物体のナビゲーションにおける精度向上
    • 軌道上での運用増加に伴い,正確な位置特定が重要となる。
    • 従来のカメラは暗闇や影で性能が低下する。LiDARは大型で高消費電力。
    • 可視光と熱画像の長所を組み合わせ,ナビゲーション精度を改善する。
    • 可視光と熱画像の融合により,単独のカメラよりもナビゲーション性能が大幅に向上した。
    • 様々な照明条件下や軌道で,融合画像の有効性が確認された。
    • 可視光,熱画像のみと比較して,誤差が顕著に減少した。

    Link: https://arxiv.org/abs/2512.12203

  • 都市街路灯の画像データセット:視覚的モニタリングと空間的・時間的ドリフト検出 [cs.CV]目的:都市部における街路灯の画像データセットの構築と,それを用いた視覚的モニタリングおよび空間的・時間的ドリフト検出
    • スマートシティ実現には,都市インフラの継続的なモニタリングが不可欠である。効率的かつ信頼性の高いモニタリング手法の確立が求められている。
    • 長期的な運用において,画像認識モデルの性能は環境変化や時間の経過とともに劣化する(ドリフト)。このドリフトへの対策が課題となっている。
    • 本研究は,現実世界のデータを用いた長期的なモデルの安定性評価と,ドリフトに強い学習手法の開発に貢献することを目的とする。
    • ブリストル市で2021年から2025年にかけて収集された526,000枚以上の街路灯画像データセットを公開した。
    • 各カメラノードおよび昼夜画像セットに対してCNN-VAEを学習させ,潜在空間のずれと再構成誤差に基づいたドリフト指標を定義した。
    • このデータセットは,長期的なモデル安定性の評価,ドリフト対応型学習,実用的な視覚システムの開発のための現実的なベンチマークを提供する。

    Link: https://arxiv.org/abs/2512.12205

  • IR-UWBを用いた運転行動認識のためのALERTオープンデータセットと入力サイズに依存しないVision Transformer [cs.CV, cs.AI, cs.LG]目的:運転行動認識のための大規模UWBデータセットと,入力サイズに依存しないVision Transformer
    • 運転中の注意散漫は重大な事故を引き起こすため,その検知技術の重要性は高い。
    • 実環境で収集された多様な運転行動を網羅する大規模なUWBデータセットが不足している。
    • 既存のVision TransformerをUWBレーダーデータに適用するための入力サイズ問題を解決する。
    • 新たにALERTデータセットを構築し,10,220件の運転行動データを公開した。
    • 入力サイズに依存しないVision Transformer (ISA-ViT) を提案し,UWBデータに特化した特徴量を保持した。
    • ISA-ViTは既存手法と比較して,UWBベースの運転行動認識において22.68%の精度向上を達成した。

    Link: https://arxiv.org/abs/2512.12206

  • 自閉症児におけるNAOロボットを介したインタラクション中の感情認識のためのハイブリッド深層学習フレームワーク [cs.CV, cs.RO]目的:自閉症児の感情認識モデルの構築
    • 発達心理学とヒューマンロボットインタラクションにおいて,自閉症児の社会的相互作用中の感情理解は重要である。
    • 自閉症児の感情は微細であり,従来の認識手法では捉えにくいという課題がある。
    • NAOロボットとのインタラクションにおける感情認識パイプラインを構築し,自閉症児の感情理解を深める。
    • 提案手法は,視覚的特徴と幾何学的特徴を組み合わせたハイブリッドモデルにより,微細な感情反応を捉えることに成功した。
    • 大規模なデータセットとパイプラインをインドで初めて構築し,自閉症に焦点を当てた感情分析における基盤を提供した。
    • この研究は,臨床および治療におけるヒューマンロボットインタラクションにおいて,自閉症児の感情プロファイリングに貢献する可能性を示す。

    Link: https://arxiv.org/abs/2512.12208

  • CineLOG:訓練不要による映画のような長尺動画生成手法 [cs.CV]目的:映画のような長尺動画生成のための新しいアプローチ
    • 動画合成はコンピュータビジョンの重要な課題であり,映像制作の自動化に貢献する。
    • 既存モデルは,テキスト指示以上の詳細な制御,特にカメラワークやジャンル表現が困難である。
    • カメラワークやジャンルを考慮した高品質な動画生成を,データセットと生成パイプラインによって実現する。
    • CineLOGは,5000件の高品位動画クリップを含む新しいデータセットであり,詳細なシーン記述,カメラ指示,ジャンルラベルが付与されている。
    • 提案手法は,複雑なテキストから動画への生成を4つの段階に分割し,カメラワークに基づいたスムーズな動画遷移モジュールを導入している。
    • 人間による評価で,提案手法は既存の最先端モデルを上回り,カメラや脚本の指示への適合性とプロフェッショナルな映像品質を両立している。

    Link: https://arxiv.org/abs/2512.12209

  • 目的地より過程重視:スローシンキングにおける視覚的忠実性の重要性 [cs.CV, cs.CL, cs.LG]目的:視覚言語モデルにおける推論過程の視覚的忠実性の評価
    • 視覚と言語を組み合わせたAIは,複雑な問題を解決する可能性を秘めている。
    • 推論過程を明示するモデルは,視覚的に不正確なステップを踏むことがある。
    • 視覚的忠実性を評価し,推論過程の信頼性を高める方法を確立すること。
    • 推論過程を認識と推論のステップに分解し,既存の視覚言語モデルを用いてステップごとの忠実性を評価するフレームワークを提案した。
    • 学習や参照データなしで,視覚的に不正確なステップを検出し,再生成する自己反省的な手法を開発した。
    • 複数のモデルで実験の結果,忠実性の低い認識ステップが減少し,最終的な正答率は維持された。

    Link: https://arxiv.org/abs/2512.12218

  • 属性中心表現による高精度ゼロショット学習 [cs.CV]目的:未見の細分類別における認識精度向上
    • 画像認識分野において,細分類別は重要な課題であり,その精度向上が求められている。
    • 従来のモデルでは,色,形状,テクスチャなどの属性が混在し,識別が困難になるという問題があった。
    • 属性の分散化を表現学習時に行うことで,属性間の干渉を軽減し,識別精度を向上させることを目指す。
    • 提案手法では,MoPEとMoAEという2つの専門家混合モデルを用いて属性中心表現(ACR)を学習する。
    • MoPEは,画像パッチを専門家へ条件的に分配し,属性間のコヒーレンスを維持する。
    • CUB, AwA2, SUNなどのベンチマークデータセットにおいて,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.12219

  • ProImage-Bench:専門的な画像生成の評価基準 [cs.CV]目的:専門的な画像生成における性能評価
    • 科学技術分野では,視覚的な訴求力だけでなく,正確性と情報密度が求められる。
    • 既存の画像生成モデルは,見た目の美しさのみを評価される傾向があり,科学的な正確性に課題がある。
    • 科学技術図表の生成において,詳細な評価基準を用いてモデルの性能を客観的に測る。
    • ProImage-Benchは,生物学的図解,工学図,一般的な科学図を対象とした評価基準である。
    • 既存の画像生成モデルは,ProImage-Benchにおいて低い精度を示し,科学的な正確性に課題が残る。
    • 評価基準を用いてモデルの改善を試みた結果,反復的な修正により性能が向上することが示された。

    Link: https://arxiv.org/abs/2512.12220

  • 乳児脳MRIにおける異なるセグメンテーションアルゴリズムの比較:脳容積とフラクタル次元 [cs.CV, cs.AI]目的:乳児脳MRIにおけるセグメンテーションの精度と,それらが脳容積およびフラクタル次元の推定に与える影響の比較
    • 乳児脳の発達変化を定量的に評価するには,正確な脳構造の把握が不可欠である。
    • 乳児期におけるミエリン化の進行や低い組織コントラストが,自動セグメンテーションを困難にしている。
    • より信頼性の高いセグメンテーションアルゴリズムを特定し,乳児脳の発達研究におけるバイアスを低減すること。
    • SynthSegは,主要な領域において平均Dice係数が0.8を超えるなど,SamSegよりも全ての品質指標で優れた性能を示した。
    • SynthSegによる脳容積の推定値は,専門家による手動アノテーションの結果と一致しており,平均で+4% [-28% - 71%] の誤差であった。
    • セグメンテーションの精度は年齢とともに向上し,ミエリン化に伴う組織コントラストの増加と一致した。

    Link: https://arxiv.org/abs/2512.12222

  • 浅いエンコーダを用いた超低ビットレート知覚画像圧縮 [cs.RO, cs.CV]目的:超低ビットレート画像圧縮におけるエンコーダの簡素化と高品質な復元
    • 帯域幅や計算資源が限られた環境下での画像圧縮技術の重要性が高まっている。
    • 既存手法は重いエンコーダに依存するため,低スペックなデバイスへの実装が困難である。
    • 浅いエンコーダを用いながらも,高画質を維持できる圧縮フレームワークを提案し,その有効性を示す。
    • 提案手法AEICは,従来の技術と比較して,超低ビットレートにおけるレート-歪み-知覚性能において優れている。
    • 1080P画像に対して35.8FPSという高いエンコード効率を実現し,既存手法と同等のデコード速度を維持している。
    • 浅いエンコーダの効率を向上させるための二方向特徴蒸留スキームが有効であることが示された。

    Link: https://arxiv.org/abs/2512.12229

  • MLLMフレーム分割による瞬間およびハイライト検出 [cs.CV]目的:瞬間およびハイライト検出のための手法
    • 動画理解は,コンテンツ検索や要約において不可欠であり,その重要性は増している。
    • 従来のテキストベースのアプローチでは,フレームレベルの予測に対する直接的な勾配が得られないという課題がある。
    • LLMの出力トークンに対する分割目的を適用することで,この課題を克服し,より効率的な検出を目指す。
    • 提案手法は,QVHighlightsデータセットにおいて,高いハイライト検出性能(HIT@1: 56.74%)を示した。
    • 既存手法と比較して少ないフレーム数(25フレーム)で,良好な瞬間検索性能(MAP: 35.28)を達成した。
    • 分割損失は,因果言語モデル損失が停滞した場合でも,安定した補完的な学習信号を提供する。

    Link: https://arxiv.org/abs/2512.12246

  • MetaTPT:Vision-Languageモデルのためのメタテスト時プロンプトチューニング [cs.CL, cs.CV]目的:テスト時におけるドメインシフトへの適応
    • 画像とテキストを理解するモデルは,様々な応用で重要であり,汎化性能が求められる。
    • テスト時のドメインシフトにより,モデルの性能が低下することが課題である。
    • テスト時にプロンプトを調整することで,ドメインシフトへの適応能力を高める。
    • MetaTPTは,自己教師あり学習を用いて,より効果的なテスト時プロンプトチューニングを実現する。
    • 動的にパラメータ化されたオーギュメンテーションを学習し,ターゲットドメインの本質的な特徴を捉える。
    • ドメイン汎化およびクロスデータセットベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.12268

  • 複雑な表情認識のための特徴集約による効率的な継続学習 [cs.CV]目的:複雑な表情認識における継続学習の効率化
    • AIが普及する中で,人間との自然な対話を可能にする感情認識が重要である。
    • 従来のモデルは,新しい情報を学習する際に過去の知識を忘れてしまうという課題がある。
    • 過去の知識を保持しつつ,新しい表情を学習できる継続学習フレームワークの構築。
    • 提案手法では,深層畳み込み特徴と顔の動作単位(AU)を組み合わせることで,効率的な学習を実現した。
    • ベイジアンガウス混合モデル(BGMM)を用いることで,再学習を避けながら高い識別性能を維持した。
    • CFEEデータセットを用いた実験により,基本的な表情から複合的な表情への認識能力の向上と,知識の保持効果が確認された。

    Link: https://arxiv.org/abs/2512.12277

  • 認知YOLO:データ第一原理に基づくオブジェクト検出のためのLLM駆動型アーキテクチャ合成 [cs.CV]目的:オブジェクト検出のためのアーキテクチャ合成
    • オブジェクト検出はコンピュータビジョンの基盤であり,様々な応用分野で重要性を増している。
    • 従来のアーキテクチャ設計は手作業に頼るため,時間と労力がかかる。NASも計算コストが高い。
    • データの特徴を理解し,最適なアーキテクチャを直接生成することで,これらの課題を解決する。
    • 提案手法Cognitive-YOLOは,データセットの特性からアーキテクチャを直接合成するLLM駆動型フレームワークである。
    • 5つの異なるオブジェクト検出データセットで優れた性能を示し,既存手法と比較してパラメータ効率も高い。
    • LLMによるデータ駆動型推論が性能向上に不可欠であり,データの本質的な理解が重要であることが示された。

    Link: https://arxiv.org/abs/2512.12281

  • RealDrag:リアルなターゲット画像を用いた初のドラッグベンチマーク [cs.CV]目的:ドラッグに基づく画像編集モデルの評価
    • 画像編集技術は,多様な用途で不可欠であり,その発展が求められている。
    • 既存の評価方法では,客観的な比較が難しく,技術進歩の妨げとなっている。
    • 標準化されたベンチマークと指標により,客観的な評価を可能にすること。
    • RealDragは,400以上のアノテーション付きサンプルを含む初の包括的なベンチマークである。
    • 4つの新規評価指標(SeD,OMPS,IPPS,DiS)を提案し,詳細な性能分析を実施した。
    • 現在のモデルのトレードオフを明らかにし,今後の研究のための基盤を確立した。

    Link: https://arxiv.org/abs/2512.12287

  • GrowTAS:効率的なViTアーキテクチャ探索のための小規模から大規模サブネットへの漸進的な拡張 [cs.CV, cs.LG]目的:ViTアーキテクチャ探索における効率性向上
    • 画像認識分野において,Transformerベースのモデルが高性能を示すが,手動設計には限界がある。
    • 既存のTAS手法では,過剰パラメータなスーパーネットが用いられるため,小規模サブネットの性能劣化が課題である。
    • 小規模サブネットを基盤とし,漸進的に大規模サブネットを学習することで,干渉を低減し,安定した学習を実現する。
    • 提案手法GrowTASは,小規模サブネットから学習を開始し,徐々に大規模なサブネットを取り込むことで,干渉を抑制し,学習の安定化を図った。
    • GrowTAS+は,大規模サブネットの性能をさらに向上させるため,選択的な重みのファインチューニングを導入した。
    • ImageNetやCIFAR-10/100等のベンチマーク実験により,既存のTAS手法と比較して高い有効性が示された。

    Link: https://arxiv.org/abs/2512.12296

  • 人間意図から行動予測へ:意図駆動型エンドツーエンド自律運転の包括的ベンチマーク [cs.CV, cs.CL, cs.RO]目的:高レベルな人間意図を安全かつ正確な運転行動に変換する能力の評価
    • 真に知的な自律運転には,低レベルな指示の実行にとどまらず,人間意図を理解し実現することが不可欠である。
    • 人間意図を理解し実現するための評価基準が確立されておらず,研究開発の進展を妨げている。
    • 人間意図に基づいた自律運転の性能を客観的に評価するためのベンチマークを構築し,課題を明確にすること。
    • Intention-Driveは,複雑なシナリオと自然言語による意図を含む新しいデータセットを提供する。
    • 意図の充足率(ISR)という新たな評価指標を導入し,幾何学的な精度だけでなく,意図のセマンティックな実現度を評価する。
    • 既存のモデルは,複雑なシーンと意図の理解において性能不足であり,高度なタスクの実現が困難であることが示された。

    Link: https://arxiv.org/abs/2512.12302

  • OMUDA:セマンティックセグメンテーションにおけるドメイン適応のための全レベルマスキング [cs.CV]目的:セマンティックセグメンテーションにおけるドメイン適応手法
    • 現実世界のデータに適用するには,ラベルなしデータへの汎化能力が重要。
    • 既存手法では,ドメイン間のギャップが大きく,性能が十分でない場合がある。
    • コンテキスト,表現,カテゴリレベルでのドメインシフトを軽減することを目指す。
    • 提案手法OMUDAは,コンテキスト認識マスキング,特徴蒸留マスキング,クラス分離マスキングの階層的マスキング戦略を採用する。
    • これにより,文脈,表現,カテゴリの各レベルでドメインシフトを効果的に軽減し,統一的な解決策を提供する。
    • SYNTHIA→CityscapesおよびGTA5→Cityscapesタスクで最先端の結果を達成し,平均7%の改善を示した。

    Link: https://arxiv.org/abs/2512.12303

  • MRD:物理ベースの微分可能なレンダリングを用いた3Dシーン理解のためのビジョンモデルの探求 [cs.CY, cs.CV, cs.GR]目的:ビジョンモデルの3Dシーンに関する暗黙的な理解の探求
    • 深層学習は目覚ましい進歩を遂げているが,モデルの内部表現や判断根拠の理解は困難である。
    • ビジョンモデルは2D入力で学習されるが,3Dシーンの理解を前提としている場合が多い。その理解度合いの評価が難しい。
    • 物理的に異なるシーンパラメータが同じモデル活性化を生成する「モデルメタマー」を見つけ,モデルの3Dシーン理解の度合いを評価する。
    • MRDは物理ベースの微分可能なレンダリングを用いて,モデルの活性化が同一になる異なる3Dシーンパラメータを探索する。
    • 実験の結果,最適化されたシーンとターゲットシーンの間で高い活性化の類似性が確認された。
    • 再構成されたシーンを分析することで,モデルが敏感または不変な物理的シーン属性の特定に貢献する。

    Link: https://arxiv.org/abs/2512.12307

  • WeDetect:検索による高速なオープンボキャブラリ物体検出 [cs.CV]目的:オープンボキャブラリ物体検出における性能向上と応用範囲の拡大
    • 物体検出は,画像認識の基本的な課題であり,様々な応用分野で重要視されている。
    • 既存手法は,検出速度や汎用性に課題があり,リアルタイム処理や未知の物体への対応が難しい。
    • テキストプロンプトを用いた検索による高速かつ汎用的な物体検出フレームワークを構築し,その有効性を検証する。
    • WeDetectは,クロスモーダル融合層を用いないアーキテクチャにより,高速な推論を実現し,既存の融合モデルを上回る性能を達成した。
    • WeDetect-Uniは,カテゴリ固有の提案Embeddingを利用し,過去のデータからの物体検索という新たな応用を可能にした。
    • WeDetect-Refは,大規模言語モデル(LLM)との統合により,複雑な指示表現を理解し,高効率な物体分類を実現した。

    Link: https://arxiv.org/abs/2512.12309

  • 拡散モデルの推論時ガイダンスのための統一的制御 [cs.CV, cs.LG]目的:拡散モデルの出力を下流の目的に合わせること
    • 拡散モデルは高性能だが,特定のタスクへの適応が課題。
    • 報酬に基づくサンプリングは非効率であり,勾配誘導は事前分布からの逸脱を招く。
    • サンプリングと勾配誘導の利点を統合し,効率性と精度を向上させる。
    • UniCoDeは,サンプリング中に局所的な勾配信号を統合することで,サンプリング効率を改善する。
    • 報酬への適合性と拡散モデルの事前分布からの逸脱のバランスを調整可能である。
    • 様々なタスクにおいて,最先端のベースラインと同等の性能を示す。

    Link: https://arxiv.org/abs/2512.12339

  • 時間変動かつ非同一な通信・フィードバック遅延を持つ差分プライバシーオンライン分散集約型ゲーム [cs.GT, math.OC]目的:時間変動かつ非同一な通信・フィードバック遅延下における,差分プライバシーを考慮したオンライン分散集約型ゲームの実現
    • 分散システムにおけるゲーム理論は,資源配分や協調行動の設計において重要である。
    • 現実のネットワーク環境では,通信遅延やフィードバック遅延がナッシュ均衡への収束を妨げる可能性がある。
    • 時間変動かつ非同一な遅延下でのプライバシー保護と収束性の両立が課題である。
    • 提案するオンライン分散二乗平均化アルゴリズムは,プライバシー保護と遅延問題を同時に解決し,低い後悔限界を達成する。
    • シミュレーション結果は,各クライアントの局所的な行動の実行平均が時間とともに収束することを示している。

    Link: https://arxiv.org/abs/2512.12344

  • TCLeaf-Net:グローバル・ローカル注意機構を備えた,堅牢な現地病害検出のためのトランスフォーマー・畳み込みフレームワーク [cs.HC, cs.HC, cs.CV]目的:植物葉の病害の,現地における病斑レベルでの高精度な検出
    • 農作物の生育保護と収量減少の抑制には,病害の早期発見が不可欠である。
    • 複雑な背景やドメインシフト,限られた病斑データセットが,堅牢なモデリングの妨げとなる。
    • 複雑な環境下でも病害を正確に検出できる,汎用性の高いモデルを開発すること。
    • TCLeaf-Netは,Daylily-Leafデータセットの現地分割において,mAP@50を5.4%向上させ,78.2%を達成した。
    • 計算量とGPUメモリ使用量をそれぞれ7.5 GFLOPs,8.7%削減することに成功した。
    • PlantDoc,Tomato-Leaf,Rice-Leafデータセットでも優れた性能を示し,汎用性の高さを実証した。

    Link: https://arxiv.org/abs/2512.12357

  • ビデオARM:階層的メモリを用いた長編動画理解のためのエージェント的推論 [cs.CV, cs.CL]目的:長編動画理解のためのエージェント的推論のパラダイム
    • 動画理解は,人工知能の重要な応用分野であり,社会における様々な課題解決に貢献しうる。
    • 既存手法は,手動による推論パイプラインや動画の事前処理に依存しており,効率性や柔軟性に課題がある。
    • 動画の内容に応じて動的に推論とメモリ構築を行い,効率的な長編動画理解を目指す。
    • 提案手法VideoARMは,既存の最先端手法DVDを上回り,長編動画におけるトークン消費量を大幅に削減した。
    • VideoARMは,動画を大まかから詳細へと解釈するツールを自律的に呼び出すことで,効率的な推論を実現している。
    • 階層的なマルチモーダルメモリにより,多層的な手がかりを継続的に捉え,文脈情報を正確に提供する。

    Link: https://arxiv.org/abs/2512.12360

  • ストーリーボードに固定された多ショット映画的物語生成のためのSTAGE [eess.SY, cs.SY, cs.CY, cs.CV]目的:映画的な多ショット物語の生成
    • 映像生成技術は急速に進歩しているが,一貫性のある物語を生成することは困難である。
    • 既存手法では,ショット間の整合性を保ち,映画的な表現を捉えることが課題である。
    • ストーリーボードに基づき,ショット間の整合性と映画的なトランジションを実現する。
    • STAGEは,ショット開始-終了フレームペアから構成される構造化されたストーリーボードを予測する。
    • 長距離エンティティの一貫性を保証するマルチショットメモリパックを導入している。
    • 実験により,STAGEが構造化されたナラティブ制御とクロスショットの一貫性において優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2512.12372

  • V-Warper:価値変換による外観一致ビデオ拡散パーソナライズ [cs.CV]目的:ビデオ拡散モデルにおける外観一致パーソナライズ手法
    • ビデオ生成技術は,ユーザーの意図を反映したコンテンツ作成を可能にする点で重要である。
    • 既存手法は,大規模なデータセットや計算コストを必要とし,フレーム間の外観の一貫性を保てない。
    • 追加のビデオトレーニングなしに,ビデオ生成における人物の外観の一貫性を高めることを目指す。
    • V-Warperは,わずかな参照画像とLoRA,および埋め込み適応を用いて,効率的に人物のアイデンティティを忠実に再現する。
    • RoPEフリーのミッドレイヤー特徴量から意味的対応を計算し,外観情報を生成プロセスに注入することで,視覚的な忠実度を高める。
    • プロンプトへの適合性と動きのダイナミクスを維持しつつ,大規模なビデオファインチューニングなしに外観の一貫性を大幅に改善する。

    Link: https://arxiv.org/abs/2512.12375

  • M4Human:人間のメッシュ再構成のための大規模マルチモーダルミリ波レーダーベンチマーク [cs.RO, cs.CV]目的:人間のメッシュ再構成のための大規模マルチモーダルデータセット
    • 身体と環境の相互作用の理解は,没入型アプリケーションの開発に不可欠である。
    • 既存のデータセットはRGB入力に依存しており,遮蔽やプライバシーの問題がある。
    • より大規模で多様なデータセットを用いて,レーダーベースの人間モデリングの課題を解決する。
    • M4Humanは661Kフレームという大規模なマルチモーダルベンチマークデータセットである。
    • 生レーダーテンソルと処理済みレーダー点群を提供し,多様な研究レベルに対応する。
    • 20人の被験者と50種類の動作を含む高品質なモーションキャプチャデータを提供する。

    Link: https://arxiv.org/abs/2512.12378

  • ImageNet拡散のスピードラン [cs.CV]目的:拡散Transformerの学習効率向上
    • 画像生成AIの発展には,計算資源と学習時間の削減が不可欠である。
    • 既存手法は単独で研究されており,組み合わせによる相乗効果が未解明である。
    • 複数手法の統合により,小規模モデルでの高性能化を目指す。
    • SR-DiTは,トークンルーティング,アーキテクチャ改善,学習修正を体系的に統合したフレームワークである。
    • ImageNet-256において,140MパラメータモデルでFID 3.49,KDD 0.319を達成し,より大規模モデルに匹敵する性能を示す。
    • 実験により,効果的な手法の組み合わせと非互換性を明らかにし,今後の研究の基盤を提供する。

    Link: https://arxiv.org/abs/2512.12386

  • 関節を持つ物体の任意のパーツレベル状態における条件付き生成モデリング [cs.CG, cs.CV]目的:関節を持つ物体の生成
    • ロボティクス,デジタルツイン,具現化された知能にとって,高品質なアセット生成が不可欠である。
    • 既存の生成モデルは閉じた状態の単一視点入力に依存し,幾何学的形状と関節運動の絡み合いにより,曖昧または非現実的な運動構造となる。
    • 任意のパーツレベル状態における正確な幾何学的形状と一貫性のある運動を持つ関節を持つ3Dオブジェクトの生成を実現する。
    • ArtGenは,単一視点画像またはテキスト記述から,関節を持つ3Dオブジェクトを生成する拡散ベースのフレームワークである。
    • クロスステートモンテカルロサンプリングにより,グローバルな運動の一貫性を明示的に強制し,構造-運動の絡み合いを低減する。
    • Chain-of-Thoughtモジュールを統合することで,パーツのセマンティクス,関節タイプ,接続性などのロバストな構造的事前知識を獲得する。

    Link: https://arxiv.org/abs/2512.12395

  • LiDARビーム欠損復元のためのグラフアテンションネットワークに基づくフレームワーク [cs.DC, cs.CV, cs.AI]目的:LiDARビーム欠損の復元手法
    • 自動運転車の3D環境認識において,LiDARは重要な役割を担う。
    • LiDARセンサーの経年劣化や環境要因により,垂直方向のビームが欠損する問題がある。
    • LiDARビーム欠損を,画像や時間情報なしに復元することを目指す。
    • 提案手法は,LiDARデータを空間グラフとして表現し,グラフアテンションネットワークを用いて欠損した高さを予測する。
    • KITTIデータセットを用いた実験により,平均RMSEが11.67cm,87.98%の点が10cm以内の誤差で復元された。
    • 本手法は,LiDAR点群の幾何学的形状のみを用いて,現実的なセンサー劣化状況下で欠損ビームを効果的に復元可能であることを示した。

    Link: https://arxiv.org/abs/2512.12410

  • ベトナム語インフォグラフィックに対する視覚的質問応答のベンチマーク [cs.CV, cs.LG]目的:ベトナム語インフォグラフィックにおける視覚的質問応答の性能評価
    • インフォグラフィックは情報を効率的に伝達するため広く利用されており,その理解は重要である。
    • 既存のVQAは自然画像やシーンテキストに偏っており,複雑なレイアウトを持つインフォグラフィックの理解は困難である。
    • ベトナム語のインフォグラフィックにおける視覚的質問応答の新たな評価基準を確立し,モデルの課題を明らかにする。
    • ViInfographicVQAは,経済,医療,教育など多様な分野の6747枚以上の実世界のインフォグラフィックと20409組の質問応答ペアを含む。
    • Single-imageタスクでは単一インフォグラフィックからの回答を,Multi-imageタスクでは複数インフォグラフィック間の推論を評価する。
    • 評価の結果,特にMulti-imageタスクにおいて,現在のビジョン言語モデルには課題が残ることが示された。

    Link: https://arxiv.org/abs/2512.12424

  • ボケ生成による単眼深度推定の強化:BokehDepth [cs.CV]目的:単眼深度推定の精度向上
    • 画像認識技術の発展は,自動運転やロボット工学など幅広い分野に応用が期待されている。
    • 単眼深度推定は,テクスチャの少ない領域や遠景で精度が低下しやすいという課題がある。
    • ボケ効果に着目し,深度推定とボケ生成を分離することで,よりロバストな深度推定を目指す。
    • BokehDepthは,ボケ生成と深度推定を分離した二段階のフレームワークである。
    • 物理ベースのボケジェネレーターを用いて,深度マップに依存しない高品質なボケ画像を生成する。
    • 既存の単眼深度推定モデルにボケを考慮したモジュールを追加し,精度とロバスト性を向上させる。

    Link: https://arxiv.org/abs/2512.12425

  • 無限世界:リアルタイム3D認識長尺動画生成 [cs.CV]目的:長尺で一貫性のある3D構造を持つ動画の生成
    • 動画生成技術は,エンターテイメント,教育,コミュニケーションなど様々な分野で重要性を増している。
    • 長尺動画の生成においては,3D構造の安定性や一貫性を維持することが困難であるという課題が存在する。
    • 本研究は,リアルタイムで無限に続く3D一貫性のある動画生成を可能にすることを目的とする。
    • 本研究で開発されたEndless Worldは,既存手法と同等かそれ以上の視覚的品質と空間的一貫性を実現した。
    • 条件付き自己回帰的訓練戦略により,効率的な計算コストで長距離依存性を維持し,リアルタイム推論を可能にした。
    • グローバル3D認識アテンション機構は,時間軸に沿った連続的な幾何学的ガイダンスを提供し,物理的な妥当性と幾何学的な一貫性を強化した。

    Link: https://arxiv.org/abs/2512.12430

  • 粒子から場へ:連続ガウス光子場によるフォトマッピングの再構築 [cs.CV, cs.GR]目的:多視点レンダリングの効率化
    • リアルな画像合成には正確な光の伝搬モデリングが不可欠である。
    • 従来のフォトマッピングは,多視点レンダリングにおいて計算効率が低い。
    • 光子分布を連続場として表現し,計算量を削減する。
    • 提案手法であるガウス光子場(GPF)は,光子の分布を3Dガウス素子として表現する。
    • GPFは物理ベースの光子追跡で初期化され,多視点からの教師データで最適化される。
    • GPFは,従来のフォトマッピングと同等の精度を保ちつつ,計算量を大幅に削減する。

    Link: https://arxiv.org/abs/2512.12459

  • 健康な室内空間のためのプライバシーを考慮した環境音センシング [cs.SD]目的:室内空気質のモニタリングシステムの開発
    • 室内空気質は健康に大きな影響を与えるため,そのモニタリングは重要である。
    • 既存のモニタリング手法は侵襲的,高コスト,または直接的な対策に至らない場合が多い。
    • 既存のマイクを活用し,プライバシーを保護しながら室内空気リスクをリアルタイムで評価する。
    • 環境音センシングにより,換気,エアロゾル放出,居住者の分布を非侵襲的に推定可能となった。
    • 開発したシステムはプライバシーを保護しつつ,室内空気質全体をモニタリングする基盤を提供する。
    • 日常的なデバイスを用いた,プライバシーに配慮した空気感染リスクのモニタリングに繋がる。

    Link: https://arxiv.org/abs/2512.12471

  • 同時AlphaZero:マルコフゲームへの木探索の拡張 [cs.GT]目的:同時AlphaZeroによる戦略の獲得
    • ゲームAIの発展は,複雑な意思決定問題への応用が期待され,重要な研究分野である。
    • 従来のゲームAIは,単一エージェント環境や直前の行動のみを考慮するため,同時行動を含む複雑な状況に対応できない。
    • 同時行動を伴うマルコフゲームにおいて,最適な戦略を学習し,ロバスト性を向上させることを目指す。
    • 同時AlphaZeroは,マルコフゲームにおける同時行動選択を,バンディットフィードバックに対応した行列ゲームソルバーを用いて解決する。
    • 継続状態離散行動の追跡・回避ゲームや衛星の保全シナリオにおいて,頑健な戦略を実証した。
    • 最大に搾取的な対戦相手に対しても有効であることが示された。

    Link: https://arxiv.org/abs/2512.12486

  • 最終解答以上のもの:ビジョン言語モデルにおける視覚的抽出と論理的一貫性の向上 [cs.CV]目的:ビジョン言語モデルにおける視覚的抽出と論理的推論能力の改善
    • 画像とテキストを組み合わせた処理は,AIの汎用的な知能を実現する上で不可欠である。
    • 既存モデルは,視覚情報の抽出精度が低く,論理的な思考過程に一貫性が欠けるという課題がある。
    • 視覚情報の正確な抽出と論理的な推論能力を分離して改善することで,モデルの性能向上を目指す。
    • 提案手法PeRL-VLは,RLVRを基盤とし,視覚的認識とテキストによる推論を個別に強化する。
    • 視覚的認識の改善には,モデル自身が生成した画像の説明文の忠実性と十分性を評価する報酬を用いる。
    • 推論の強化には,論理的な思考過程を含むテキストデータを用いて,テキストのみでの微調整を行う。

    Link: https://arxiv.org/abs/2512.12487

  • オープンワールド環境におけるゼロショットポリープ検出のための適応型検出・検証フレームワーク [cs.CV, cs.CL]目的:ゼロショットポリープ検出における検出性能の向上
    • 内視鏡検査の精度向上は,早期がん発見と治療に不可欠であるため,ポリープ検出技術の発展が重要。
    • 実際の臨床環境では,照明変化やモーションブラーなどにより画像品質が劣化し,既存の検出器の性能が低下する。
    • 臨床現場で遭遇する様々な画像劣化に対応し,見逃しを減らすことで,患者の転帰改善を目指す。
    • 本研究では,YOLOv11検出器とVLM検証器から構成される適応型検出・検証フレームワークAdaptiveDetectorを提案した。
    • VLMのガイダンス下で検出器がフレームごとの信頼度閾値を適応的に調整し,検証器はGRPOを用いて見逃しを抑制するようにファインチューニングされた。
    • 合成テストベッドを用いた評価により,提案手法はYOLO単独と比較して14~22%の再現率向上を達成し,臨床的に有用なポリープ検出を実現した。

    Link: https://arxiv.org/abs/2512.12492

  • パッチ駆動型関係型ゲート付きグラフ注意によるキャッシュベースの少数ショット分類の進歩 [cs.CV]目的:少数ショット画像分類における性能向上
    • 画像認識の分野において,限られた教師データでの分類は重要な課題である。
    • 既存手法は汎用的な特徴表現に依存し,少ないデータでの特化タスクへの適応が困難である。
    • 画像内のパッチ間の関係性を活用し,キャッシュへの知識蒸留を行うことで,少数ショット分類の精度を向上させる。
    • 提案手法は,画像内のパッチ間の相互作用を強調する関係型ゲート付きグラフ注意ネットワークを導入し,文脈を豊かにしたパッチ埋め込みを生成する。
    • 学習済みのキャッシュアダプターの重みを,画像埋め込み全体ではなく,パッチ間の依存関係から学習することで,より識別的な表現を獲得する。
    • 11のベンチマークデータセットで,最先端のCLIPアダプターやキャッシュベースの手法と比較して一貫した改善が見られた。また,負傷兵認識の新たなデータセットを導入し,実用性を検証した。

    Link: https://arxiv.org/abs/2512.12498

  • 生成時空間データ拡張 [cs.CV, cs.LG]目的:時空間データの多様性向上
    • 画像認識の性能はデータ量に依存する。十分なデータ確保が課題。
    • データ不足は,特にUAV画像のような注釈が少ない場合に問題となる。
    • 生成モデルを用いてデータ分布を広げ,データ不足を補う。
    • ビデオ拡散モデルを活用し,現実的な3次元空間・時間変化を生成。
    • 生成された動画クリップを補完データとして用いることで,低データ環境下での性能向上が確認された。
    • 生成時の設定,注釈の転送,オクルージョンの処理に関する実践的な指針が示された。

    Link: https://arxiv.org/abs/2512.12508

  • Animus3D:モーションスコア蒸留によるテキスト駆動型3Dアニメーション [cs.OS, cs.DC, cs.NI, cs.CV, cs.GR, cs.LG]目的:テキストと静的3Dアセットからモーションフィールドの生成
    • 3Dコンテンツ制作において,テキストによる直感的なアニメーション制御の需要が高まっている。
    • 既存手法では,生成されるアニメーションの動きが乏しい,または目立つジッターが発生する課題がある。
    • モーションスコア蒸留(MSD)により,より自然で詳細な3Dアニメーション生成を目指す。
    • Animus3Dは,多様なテキストプロンプトから静的3Dアセットをアニメーション化することに成功した。
    • 最先端の基盤モデルと比較して,より大幅で詳細な動きを生成し,高い視覚的整合性を維持する。
    • ローRA拡張ビデオ拡散モデルと,外観保存のためのノイズ推定技術が,モーションの品質向上に貢献する。

    Link: https://arxiv.org/abs/2512.12534

  • 空間周波数共同モデリングを用いたCCTAからの解剖学的ガイド付き冠動脈セグメンテーション [cs.CV]目的:冠動脈セグメンテーションの精度向上
    • 定量的な冠動脈解析と臨床的判断支援において,正確な冠動脈セグメンテーションは不可欠である。
    • 冠動脈の微細な血管径,複雑な分岐,不明瞭な境界線,心筋組織の干渉により,信頼性の高いセグメンテーションが困難である。
    • 心筋解剖学的知識と周波数解析を統合し,複雑な条件下でも安定した冠動脈セグメンテーションを実現する。
    • 提案手法は,ImageCASデータセットにおいてDice係数0.8082,感度0.7946,精度0.8471,HD95 9.77mmを達成し,既存の主要なセグメンテーションモデルを上回る性能を示した。
    • 心筋解剖学的知識の組み込みと,ウェーブレット変換による周波数モデリングが,セグメンテーション精度向上に貢献していることが,消去実験によって確認された。
    • 本手法は,その安定性と一貫性により,その後の冠動脈構造解析タスクのための信頼性の高いセグメンテーション結果を提供する。

    Link: https://arxiv.org/abs/2512.12539

  • 教師ありコントラストフレーム集約による動画表現学習 [cs.CV, cs.LG]目的:動画表現学習のための教師ありコントラスト学習フレームワーク
    • 動画理解は,監視,自動運転,ロボット工学など,様々な応用分野で不可欠である。
    • 従来の動画モデルは計算コストが高く,限られたリソースでの学習が困難である。
    • 効率的で高性能な動画表現学習手法を開発し,計算コストを削減すること。
    • 提案手法は,Penn Actionデータセットにおいて76%の分類精度を達成し,ViVITの43%を上回る。
    • HMDB51データセットにおいても48%の分類精度を達成し,ViVITの37%を上回る結果を示した。
    • 本手法は,教師あり学習と自己教師あり学習の両方で効果的な動画表現を獲得し,分類やキャプション生成などの様々なタスクに適用可能である。

    Link: https://arxiv.org/abs/2512.12549

  • StreamingAssistant: オンライン動画理解を加速するための効率的な視覚トークンプルーニング [cs.CV, cs.AI]目的:オンライン動画理解における計算効率の向上
    • 公共監視やAIグラスなど,リアルタイムな動画理解の応用が重要性を増している。
    • 大規模マルチモーダル言語モデルの利用は,動画フレーム数の多さにより計算コストが高い。
    • 動画理解の精度を維持しつつ,計算負荷を軽減するためのトークンプルーニング手法を提案する。
    • 提案手法は,動画の空間的・時間的冗長性を考慮したトークンプルーニングにより,GPUメモリ使用量を削減する。
    • 複数の動画理解ベンチマークにおいて,精度を最大4%向上させながら,プルーニングによる遅延は1ms未満に抑えられた。
    • 本研究の成果は,オンライン動画理解の効率化に貢献すると期待される。

    Link: https://arxiv.org/abs/2512.12560

  • トークンから光子へ:Vision-Languageモデルのためのテスト時物理プロンプティング [cs.CV]目的:Vision-Languageモデルのテスト時適応における物理プロンプティングの有効性
    • 画像認識技術は,Web画像だけでなく現実世界のセンサデータを扱う必要性が高まっている。
    • 現実世界の環境下では,照明条件などの物理的要因がモデルの性能に大きな影響を与える。
    • カメラの設定(ISO,シャッタースピード,絞り)を物理プロンプティングとして活用し,ロバスト性を向上させる。
    • 提案手法MVPは,テスト時に複数の物理的視点から画像を撮影し,最適な設定を選択することで性能を向上させる。
    • ImageNet-ESおよびImageNet-ES-Diverseにおいて,従来のデジタルTTAと比較して最大25.6ppの性能向上を達成した。
    • MVPは,パラメータ候補数を削減しても効果を維持し,実用性も高いことが示された。

    Link: https://arxiv.org/abs/2512.12571

  • 集団意思決定におけるデジタル代表としての生成AI:ゲーム理論的アプローチ [cs.GT]目的:集団意思決定における生成AIの戦略的情報開示
    • チームワークの効率化が求められる現代において,AIを活用した意思決定支援は重要である。
    • AIが個人の選好を正確に表現するには情報が必要だが,完全な情報開示は現実的ではない。
    • ゲーム理論を用いて,AIへの戦略的な情報開示をモデル化し,最適な情報共有を模索する。
    • チームメンバー間の選好の対立は,より多くの情報開示を促す競争を生み出すことが示された。
    • デジタル代表による意思決定は,直接参加と同等以上の集団選好損失を抑制する可能性がある。
    • 参加コストが高い場合やAIの性能が高い場合,デジタル代表を利用することで個人の選好に合致した結果が得られやすい。

    Link: https://arxiv.org/abs/2512.12582