arXiv雑要約

画像・音声 - 2026/02/03 公開

  • テキスト埋め込みにおける方向性オブジェクト分離:複数オブジェクト画像生成のために [cs.CV]目的:複数オブジェクト画像生成におけるオブジェクトの無視や混同の改善
    • 画像生成技術は,テキストからの画像生成において急速な進歩を遂げている。
    • 複数オブジェクトを含むプロンプトにおいて,オブジェクトの無視や混同が発生しやすい。
    • CLIP埋め込みを修正することで,複数オブジェクトの生成における問題を解決する。
    • DOSは,類似形状,類似テクスチャ,背景バイアス,多数オブジェクトといった問題のあるシナリオにおいて,生成成功率を改善する。
    • 実験結果から,DOSは複数オブジェクト画像生成の成功率を向上させ,オブジェクトの混同を軽減することが示された。
    • 人間評価において,DOSは競合手法を大幅に上回り,4つのベンチマークで26.24%-43.04%多くの票を獲得した。

    Link: https://arxiv.org/abs/2510.14376

  • VisJudge-Bench:可視化の美観と品質評価 [cs.CL, cs.AI, cs.CV]目的:可視化の美観および品質を評価するMLLMの性能測定
    • 可視化は複雑なデータを直感的に理解させる上で重要であり,その価値はデータの正確性,明瞭性,美観に依存する。
    • 可視化の品質評価は,データエンコーディングの正確性,情報表現力,視覚的魅力の同時判断が必要で困難である。
    • 本研究は,MLLMによる可視化評価の能力を定量的に評価する標準的なベンチマークの欠如を解消することを目指す。
    • VisJudge-Benchは,32種類のチャートタイプを含む3,090件の専門家による注釈付きサンプルから構成される,包括的なベンチマークである。
    • 最先端のMLLM(GPT-5を含む)でも,人間専門家と比較して判断に大きな隔たりがあり,MAEは0.553,人間評価との相関は0.428にとどまる。
    • VisJudgeは,この問題を解決するために設計されたモデルであり,MAEを0.421に削減し(23.9%減),人間専門家との一致度を0.687に向上させた(60.5%改善)。

    Link: https://arxiv.org/abs/2510.22373

  • UrbanIng-V2X:協調知覚のための複数交差点にわたる大規模マルチ車両・マルチインフラデータセット [cs.CV]目的:協調知覚のための大規模マルチ車両・マルチインフラデータセット
    • スマートモビリティ実現には,車両間やインフラ間の情報共有が不可欠である。
    • 既存のデータセットは単一交差点に限られ,多様な交通環境下での性能評価が困難である。
    • 複数交差点にわたるデータセットを提供し,アルゴリズムの汎化性能向上を目指す。
    • UrbanIng-V2Xは,ドイツのインゴルシュタット市にある3つの交差点で収集された,車両とインフラセンサーの協調知覚を支援する大規模なマルチモーダルデータセットである。
    • 本データセットは34件の時系列的に整合性のとれたセンサーシーケンスを含み,合計71万2千件の注釈付きインスタンスを提供する。
    • 最先端の協調知覚手法を用いた包括的な評価を行い,データセット,HDマップ,デジタルツインを公開する。

    Link: https://arxiv.org/abs/2510.23478

  • GenTrack2:視覚的マルチオブジェクトトラッキングの改良されたハイブリッド手法 [cs.HC, cs.CV, cs.RO]目的:視覚的マルチオブジェクトトラッキング手法
    • 監視カメラや自動運転など,多くの応用分野でマルチオブジェクトトラッキングは不可欠な技術である。
    • 対象物の数や動きが複雑な状況下では,追跡精度を維持し,IDの入れ替わりを防ぐことが課題となる。
    • 非線形な動きやノイズに対処し,IDの一貫性を保ちつつ,よりロバストなトラッキングを実現すること。
    • 提案手法は,粒子フィルタと粒子群最適化,決定論的なアソシエーションを組み合わせることで,IDの一貫性を向上させている。
    • 過去の状態からの速度回帰を用いることで,粒子サンプリングと状態更新の効率を高めている。
    • 実験結果から,提案手法が既存のトラッカーと比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.24410

  • 効率的な視覚-言語-行動モデルに関する調査 [cs.CV, cs.AI, cs.LG, cs.RO]目的:効率的な視覚-言語-行動モデルの体系的整理と将来展望
    • 具現化された知能研究における重要な分野であり,デジタル知識と現実世界との相互作用を可能にする。
    • 大規模なモデル構造に起因する計算資源とデータ需要の高さが課題となっていた。
    • VLAの効率化に向けた研究を整理し,今後の研究の方向性を示すことを目指す。
    • 本調査は,VLAの効率化に関する研究を,モデル設計,学習,データ収集の3つの柱で体系化した。
    • 最新の手法を批判的にレビューすることで,コミュニティにとっての基礎的な参照資料となる。
    • 代表的な応用事例,主要な課題,将来の研究ロードマップを提示する。

    Link: https://arxiv.org/abs/2510.24795

  • ニューラル画像圧縮に対する標的型マルチスケール対数指数攻撃フレームワークT-MLA [cs.CV, cs.NA, math.NA]目的:ニューラル画像圧縮のセキュリティ脆弱性の解明と,標的型マルチスケール対数指数攻撃フレームワークの開発
    • ニューラル画像圧縮は高い圧縮性能を示すが,セキュリティ評価は十分に進んでいない。
    • 既存の攻撃手法は単純なピクセル空間での改変に留まり,圧縮パイプラインの構造を考慮していない。
    • 圧縮パイプラインの構造を考慮した,より巧妙な攻撃手法を開発し,その脆弱性を明らかにする。
    • 本研究で提案するT-MLAは,ウェーブレット変換領域で知覚的に目立たない摂動を加え,再構成品質を効果的に低下させる。
    • 標準的なニューラル画像圧縮ベンチマークにおいて,既存手法と比較して,攻撃成功率を維持しつつ摂動の不可視性を向上させた。
    • 本研究は,生成パイプラインやコンテンツ配信パイプラインにおける重要なセキュリティ上の欠陥を明らかにした。

    Link: https://arxiv.org/abs/2511.01079

  • SciTextures:科学と芸術における視覚的パターン,モデル,コードの収集と接続 [cs.CL, cs.CY, cs.RO, cs.SY, eess.SY, cs.CV]目的:科学と芸術の分野における視覚的パターン,モデル,コードの大規模な収集
    • 視覚的パターンと生成過程の関連理解は,科学的探求や芸術表現において不可欠である。
    • 既存の研究では,多様な分野の視覚的パターンを体系的に比較・分析する手段が不足していた。
    • 本研究は,視覚的パターンと生成メカニズムの関連性を評価するためのデータセットとベンチマークを提供する。
    • SciTexturesデータセットは,物理,化学,生物,社会学など多様な分野から10万枚以上の画像と1270以上のモデルを含む。
    • 大規模言語モデル(VLM)の視覚パターンと生成モデルの関連理解能力を評価するベンチマークを開発した。
    • VLMは,物理システムを複数の抽象レベルで理解し,シミュレーションできることが示された。

    Link: https://arxiv.org/abs/2511.01817

  • TabRAG:構造化表現による検索拡張生成のための表形式ドキュメント質疑応答の改善 [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:表形式ドキュメント質疑応答の性能向上
    • 知識集約型タスクにおいて,外部知識の活用は重要である。特に,表形式データからの情報抽出は,様々な応用分野で求められている。
    • 従来の表形式ドキュメントに対する質疑応答は,構造的なセマンティクスを捉えきれず,妥当な回答を生成できない場合がある。
    • 表形式ドキュメントの構造化された表現を用いて,質疑応答の精度を向上させることを目指す。
    • 提案手法TabRAGは,ドキュメントを細分化し,階層的な構造表現に変換することで,表形式ドキュメントの解析精度を向上させた。
    • 自己生成の文脈学習モジュールを統合することで,様々な表形式のスタイルやフォーマットに対応できるようになった。
    • 実験結果から,TabRAGが既存の解析手法と比較して,広範な評価ベンチマークにおいて優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2511.06582

  • 自動交渉入門 [cs.CL, cs.MA, cs.AI, cs.GT]目的:自動交渉の基礎知識
    • AI技術の発展に伴い,人間との協調や自律的な意思決定が重要になっている。
    • 自動交渉は複雑であり,効果的なアルゴリズム開発が課題となっている。
    • 自動交渉の基礎を学習し,アルゴリズム開発の第一歩を踏み出すことを目指す。
    • 本書は,コンピュータサイエンスの学生を対象とした自動交渉の入門書である。
    • 数学とプログラミングの基礎知識があれば,自動交渉の学習が可能である。
    • Pythonで実装された簡単な交渉フレームワークを利用し,実験を行うことができる。

    Link: https://arxiv.org/abs/2511.08659

  • コサイン類似度を超えて:No-Reference Image Quality AssessmentのためのMagnitude-Aware CLIP [cs.CV, cs.AI]目的:No-Reference Image Quality Assessmentにおける性能向上
    • 画像品質評価は,画像処理やコンピュータビジョンの重要な分野であり,多様な応用が存在する。
    • 既存手法では,画像の知覚品質とCLIP特徴量のコサイン類似度の間にずれが生じることが課題である。
    • CLIP特徴量のMagnitudeに着目し,より精度の高い画像品質評価手法を確立することを目指す。
    • CLIP特徴量のMagnitudeを考慮することで,既存のCLIPベースの画像品質評価手法を大幅に改善した。
    • Box-Cox変換による統計的正規化と,信頼度に基づく融合スキームが,性能向上に貢献している。
    • 複数のベンチマークデータセットにおいて,タスク固有の訓練なしで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2511.09948

  • ラムダマッピングを用いた学習型全変動法による低線量CTノイズ除去 [cs.CV]目的:低線量CT画像におけるノイズ除去手法の開発
    • CT画像は医療診断に不可欠だが,被ばく線量を低減することが課題である。
    • 従来の全変動法は,パラメータ調整が難しく,最適な平滑化が困難である。
    • ピクセルごとの最適化された正則化マップを用いることで,より効果的なノイズ除去を目指す。
    • 提案手法は,DeepLesionデータセットを用いた実験で,従来の全変動法やFBP+U-Netよりも高い性能を示した。
    • PSNRは最大で+3.7dB,SSIMは相対的に8%改善された。
    • 学習型全変動法は,ブラックボックスCNNに代わる解釈可能なノイズ除去手法を提供する。

    Link: https://arxiv.org/abs/2511.10500

  • NP-LoRA:Null空間投影によるLoRA融合における主題とスタイルの統合 [cs.CV]目的:LoRA融合における主題とスタイルの分離・統合
    • 生成AIの発展に伴い,学習済みモデルの効率的な再利用が重要になっている。
    • 既存のLoRA融合手法では,主題とスタイルが干渉し,生成品質が低下する問題がある。
    • Null空間投影を用いて,主題とスタイルを分離し,干渉を抑制することで高品質な生成を目指す。
    • NP-LoRAは,既存のLoRA融合手法と比較して,より高い性能を示すことが確認された。
    • 特筆すべきは,事前学習済みのLoRAペアに対して再学習なしに高い汎化性能を発揮することである。
    • 主題の忠実性とスタイルの維持のバランスを,連続的に制御することが可能である。

    Link: https://arxiv.org/abs/2511.11051

  • 降水予測のための時空変換器 [cs.CV]目的:降水予測の精度向上
    • 気象災害からの人命保護のため,リアルタイムな降水予測は不可欠である。
    • 物理モデルは計算コストが高く,短時間予測においては精度が低下する。
    • 衛星データを用いて,高精度な降水予測を可能とする新たなモデルを開発する。
    • 提案手法SaTformerは,衛星放射データから極端な降水を高精度に予測する。
    • 降水量の回帰問題を分類問題として再構築し,ラベルの不均衡を緩和する損失関数を導入した。
    • NeurIPS Weather4Cast 2025「累積降水量」チャレンジで1位を獲得した。

    Link: https://arxiv.org/abs/2511.11090

  • ビデオに基づく情動計算のためのロバストな低ランク疎フレームワーク [cs.CV]目的:ビデオ情動計算におけるモデルの不安定性と表現劣化の課題解決
    • 情動分析や人間-コンピュータ相互作用において,ビデオに基づく情動計算は不可欠である。
    • 複雑な情動変動により,モデルの不安定性や表現の劣化が課題となっている。
    • 情動の基盤と一時的な変動を分離する階層的構造メカニズムを導入し,情動変動の理解を目指す。
    • 提案手法LSEFは,低ランク疎原理に基づき,情動変動を階層的な低ランク疎合成過程として捉える。
    • LSEFは,安定性符号化モジュール(SEM),動的分離モジュール(DDM),および整合性統合モジュール(CIM)の3つのモジュールで構成される。
    • 複数のデータセットを用いた実験により,LSEFがロバスト性と動的識別能力を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2511.11406

  • ImAgent:テスト時スケーラブルな画像生成のための統一マルチモーダルエージェントフレームワーク [cs.CV, cs.AI]目的:テスト時スケーラブルな画像生成のための統一マルチモーダルエージェントフレームワーク
    • 近年の画像生成技術の進歩は目覚ましいが,その応用範囲は広く,さらなる発展が期待される。
    • テキストプロンプトが曖昧な場合,生成される画像のランダム性や意味の一貫性の欠如が課題となる。
    • 外部モデルに依存せず,効率的なテスト時スケーリングを可能にする画像生成手法を確立すること。
    • ImAgentは,推論,生成,自己評価を統合した統一的なフレームワークであり,追加モジュールを必要としない。
    • ImAgentは,バックボーンモデルを上回り,特にバックボーンモデルが失敗する場合でも,他の強固なベースラインを超える性能を示す。
    • 複数の生成アクションが動的に相互作用し,自己組織化することで,画像の忠実性と意味的整合性を高める。

    Link: https://arxiv.org/abs/2511.11483

  • 触覚,言語,視覚モダリティのアライメントのための協調表現学習 [cs.RO, cs.CV]目的:触覚,言語,視覚モダリティ間の協調表現
    • ロボットの物体認識能力向上には,視覚と言語に加え,触覚情報の活用が不可欠である。
    • 触覚センサの標準化が不十分であり,冗長な特徴量が生じて汎化性能を阻害している。
    • 異なるモダリティ間の情報伝達を統合し,効率的な表現学習を実現すること。
    • 提案手法TLV-CoReは,触覚センサ間の差異を吸収し,不要な触覚特徴を分離することに成功した。
    • また,共有表現空間におけるトリモダリティ間の相互作用を強化するUnified Bridging Adapterが有効性を実証した。
    • 新たに提案したRSS評価フレームワークにより,触覚モデルの頑健性,相乗効果,安定性が評価された。

    Link: https://arxiv.org/abs/2511.11512

  • 表現と学習パラダイムの変化下における分布外検出の体系的分析 [cs.LG, cs.CV]目的:分布外検出手法の性能評価と,その性能に影響を与える要因の解明
    • 機械学習モデルの信頼性確保のため,未知のデータに対する検出能力が重要視されている。
    • 分布外検出は,学習データと異なる分布のデータに対する性能が課題となっている。
    • 表現学習パラダイムと学習方法が分布外検出に与える影響を明らかにすること。
    • 分布外検出の性能は,学習された特徴空間に大きく依存することが明らかになった。
    • CNNでは,より強いシフト下で幾何学的なスコアが優位に立ち,ViTではGradNormやKPCA Reconstruction Errorが競争力を持つ。
    • ニューラルコラプスに基づく幾何学的分析により,プロトタイプや境界に基づくスコアが最適な条件が説明された。

    Link: https://arxiv.org/abs/2511.11934

  • マルチモーダル合成画像に対する物理ベースのベンチマーク指標 [cs.CV, cs.AI]目的:マルチモーダル合成画像の評価指標
    • 画像生成技術の発展に伴い,生成された画像の品質評価が重要になっている。
    • 既存の評価指標は,特にドメイン特化型や文脈依存型シナリオにおいて,意味的・構造的正確性を捉えきれない。
    • 意味的・構造的正確性を向上させる新たな評価指標を提案し,既存指標の限界を克服する。
    • 提案手法PCMDEは,大規模言語モデルと推論,知識ベースマッピング,視覚言語モデルを組み合わせることで,既存指標の課題を克服する。
    • PCMDEは,物体検出やVLMによる空間・意味情報の抽出,コンポーネントレベルの検証,物理に基づいた推論の3段階で構成される。
    • 物理的制約(配置,位置,一貫性など)を考慮した評価により,より正確な画像の品質評価が可能となる。

    Link: https://arxiv.org/abs/2511.15204

  • GEO-Bench-2:性能から能力へ,地理空間AIの評価の再考 [cs.PF, cs.CV, cs.AI]目的:地理空間AIモデルの評価フレームワークの構築
    • 地球観測技術は,環境変化の監視や災害対策など,多岐にわたる分野で重要性が増している。
    • 地理空間AIモデルの性能評価には標準化された手法がなく,公平な比較が困難である。
    • 多様なタスクとデータセットに対応可能な,包括的かつ柔軟な評価プロトコルを確立する。
    • 単一のモデルが全てのタスクで優位性を示すことはなく,モデル設計と事前学習の選択が重要であることが確認された。
    • 自然画像で事前学習したモデルは高解像度タスクに,地球観測に特化したモデルはマルチスペクトル応用に強みを発揮する。
    • GEO-Bench-2により,特定の利用事例に合わせた,情報に基づいた地理空間AIモデルの評価が可能となる。

    Link: https://arxiv.org/abs/2511.15658

  • より詳細な視点学習:小脳病変セグメンテーションのための新しいインスタンスごとの損失関数 [cs.CV]目的:小脳病変セグメンテーションにおける損失関数の改善
    • 医療画像解析は,病変の早期発見と正確な診断に不可欠である。
    • 従来の損失関数は,体積の小さい病変のセグメンテーション性能が低い。
    • 小病変のセグメンテーション精度向上を目指す。
    • 提案手法CC-DiceCEは,既存手法と比較して検出率の向上を示した。
    • セグメンテーション性能への影響は軽微であり,データセットによって精度とのトレードオフが存在する。
    • 複数のデータセットを用いた評価で,CC-DiceCEはblob lossよりも優れた性能を発揮した。

    Link: https://arxiv.org/abs/2511.17146

  • AVERY:具現化された自己認識による適応型VLM分割計算を用いた効率的な災害対応システム [cs.DC, cs.AR, cs.CV, cs.LG, cs.NI]目的:災害対応における効率的なVLM展開のための適応型分割計算フレームワーク
    • 災害時における迅速な状況把握と意思決定は,人命救助の成否を左右する重要な要素である。
    • 従来のオンボードCNNでは高度な意味推論が難しく,クラウドオフローディングは帯域幅の制約により限界がある。
    • ネットワーク環境やオペレーターの意図に応じてVLM処理を動的に分割し,リソース制約下での高性能化を目指す。
    • AVERYは,VLMをリアルタイム認識用の「コンテキストストリーム」と詳細分析用の「インサイトストリーム」に分割する新しい分割計算パラダイムを提案する。
    • 実験の結果,AVERYは静的な設定と比較して,11.2%高い精度と93.98%低いエネルギー消費を達成した。
    • これにより,変動するネットワーク環境下でも,リソース制約のあるプラットフォーム上でリアルタイムかつ高度な知能を提供することが可能となる。

    Link: https://arxiv.org/abs/2511.18151

  • ゼロショット動画雨除去:動画拡散モデルの活用 [cs.CV]目的:動画の雨除去手法
    • 動画解析における悪天候対策は,自動運転や監視システム等,幅広い応用分野で重要である。
    • 既存手法は,学習データに依存し,実写データへの汎化性能や動的シーンへの対応に課題がある。
    • 事前学習済みの拡散モデルを活用し,実写データや動的シーンにも対応可能な雨除去手法を提案する。
    • 本手法は,合成データやモデルの再学習を必要とせず,複雑な動的シーンにおける動画の雨除去を可能にする。
    • 負のプロンプトを用いた拡散モデルの潜在空間での介入と,注意機構による動的背景の維持により,アーティファクトを軽減する。
    • 実写データを用いた実験により,既存手法を上回る性能と汎化性能が確認された。

    Link: https://arxiv.org/abs/2511.18537

  • CostNav:物理AIエージェントの現実的な経済コスト評価のためのナビゲーションベンチマーク [cs.RO, cs.AI, cs.CE, cs.CV, cs.LG, cs.RO]目的:現実世界の経済コスト評価に基づく物理AIエージェントのナビゲーション性能評価
    • 自動配送システムの商業化には,タスク成功だけでなく経済的制約が不可欠である。
    • 既存のナビゲーションベンチマークは,現実世界のビジネス運用における経済コストを無視している。
    • ナビゲーション研究の指標と商業的実現可能性の間のギャップを定量的に示すことを目指す。
    • 既存のNav2ナビゲーションアプローチは経済的に実行不可能であることが示された(AMCL:-22.81/run,GPS:-12.87/run)。
    • タスク成功の最適化と現実世界の経済的展開の最適化は根本的に異なることが明らかになった。
    • CostNavは,ナビゲーションポリシーの経済的実現可能性を評価するための新しいベンチマークを提供する。

    Link: https://arxiv.org/abs/2511.20216

  • CrossCheck-Bench:マルチモーダル対立解決における構成的失敗の診断 [cs.RO, cs.SY, eess.SY, cs.CL, cs.CL, cs.CV]目的:マルチモーダル入力における矛盾検出の評価
    • 画像とテキストの組み合わせが主流だが,現実世界との不整合検出能力は未開拓である。
    • 視覚情報とテキスト情報の矛盾を構造的に理解し,解決する能力が課題となっている。
    • マルチモーダルモデルの矛盾検出能力を診断し,改善の方向性を示す。
    • CrossCheck-Benchは,3段階の推論複雑度と7つの基本能力を包含する診断ベンチマークである。
    • 最先端の13モデルを評価した結果,知覚的なマッチングから論理的な矛盾検出への移行で性能が低下した。
    • 記号的な推論と視覚情報の統合が,安定的な性能向上に繋がる可能性が示唆された。

    Link: https://arxiv.org/abs/2511.21717

  • SocialFusion:事前学習済みビジョン言語モデルにおける社会性低下への対処 [cs.CV, cs.AI]目的:事前学習済みビジョン言語モデルにおける社会性低下問題の解決
    • 社会的なAIの実現には,視覚情報からの社会的な相互作用の理解が不可欠である。
    • 高性能な事前学習済みモデルでも,複数の社会認識タスクを同時に学習する際に負の転移が生じやすい。
    • 事前学習過程で,視覚エンコーダーが持つ微妙な社会情報の表現能力が損なわれている点を改善する。
    • 本研究では,負の転移の原因として「社会性低下」に着目し,そのメカニズムを線形表現プロービングと勾配競合分析を通して解明した。
    • 提案手法SocialFusionは,凍結された視覚エンコーダーと言語モデル間の最小限の接続を学習することで,5つの社会性タスクにおいて正の転移を実現した。
    • SocialFusionは,既存モデルと同等の性能を様々なベンチマークで示し,事前学習戦略が社会性獲得に及ぼす悪影響と,より社会性を意識した学習パラダイムの必要性を示唆した。

    Link: https://arxiv.org/abs/2512.01148

  • MRI再構成における展開型ネットワークは条件付き確率フローである [cs.HC, cs.CV]目的:MRI再構成における展開型ネットワークの不安定性を改善する手法
    • MRIは臨床診断に不可欠であり,高速かつ高画質な再構成技術の確立が求められている。
    • 展開型ネットワークは効率的だが,カスケード全体で出力品質が不安定になるという課題がある。
    • 確率フローの考え方を導入し,カスケードの安定性と収束性を高めることで再構成品質を向上させる。
    • 展開型ネットワークが条件付き確率フローの離散化であるという理論的証明を得た。
    • Flow-Aligned Training (FLAT) により,カスケードパラメータを最適化し,中間再構成を理想的なフローに沿わせる。
    • 3つのMRIデータセットでFLATが安定した軌跡を示し,最終的な再構成品質を向上させることを確認した。

    Link: https://arxiv.org/abs/2512.03020

  • 安定的な手話生成モデル:階層的手話生成モデル [cs.CV, cs.CL, cs.CY]目的:手話生成の質の向上
    • 手話は聴覚障害者にとって重要なコミュニケーション手段であり,そのデジタル化は社会的包摂に不可欠である。
    • 従来のテキストから動画への変換過程で誤差が累積しやすく,高品質な手話動画の生成が困難であった。
    • テキスト理解とポーズ生成を効率化し,高品質で多様なスタイルの手話動画を直接生成することを目指す。
    • 本研究では,従来の冗長な構造を簡素化し,テキスト理解(Prompt2Gloss, Text2Gloss)とPose2Vidのみを含む階層的な生成モデル「Stable Signer」を提案した。
    • 新たに開発したSemantic-Aware Gloss Masking Loss (SAGM Loss) を用いたSign Language Understanding Linker (SLUL) により,性能が大幅に向上した。
    • 既存の最先端手法と比較して,性能が48.6%向上し,高品質な手話動画生成が可能となった。

    Link: https://arxiv.org/abs/2512.04048

  • リアルタイムビデオモーション転送のためのGRU-正規化フローの推論時確率的洗練 [cs.CL, cs.CV, cs.LG]目的:リアルタイムビデオモーション転送における正確かつ多様な将来予測の実現
    • 没入型ゲームや異常検知など,現実世界の応用において,将来予測の精度と多様性は重要である。
    • 決定的な変換構造が表現力を制限し,多様な予測を生成することが課題となっていた。
    • 推論時に確率的要素を導入することで,多様性を向上させ,真のデータ分布への近似精度を高める。
    • 提案手法GRU-SNFは,GRU-NFと比較して,予測精度を維持しつつ,より多様な出力を生成することを示した。
    • 推論時に確率性を注入することで,多峰性を持つ行動をより効果的に捉えることが可能になった。
    • フローベースのシーケンスモデルと確率的ダイナミクスを統合することで,時系列データの生成モデリングの可能性が示唆された。

    Link: https://arxiv.org/abs/2512.04282

  • GuidNoise:単一ペアによる誘導拡散を用いた汎用ノイズ合成 [cs.CV, cs.AI]目的:汎用的なノイズ合成手法の開発
    • 画像復元において,実データに基づいたノイズ合成は重要である。実環境のノイズデータ取得のコストが高い。
    • 既存手法は,カメラメタデータや大量のノイズ画像ペアを必要とし,設定間の汎用性に課題がある。
    • 単一ペアの誘導拡散により,容易に入手可能なデータで汎用的なノイズ合成を可能にすること。
    • GuidNoiseは,単一のノイズ/クリーン画像ペアを誘導として汎用的なノイズ合成を実現する。
    • GAFMとノイズ認識型Refine Lossにより,拡散モデルの潜在能力を最大限に引き出す。
    • GuidNoiseは,追加のメタデータなしで多様なノイズ環境下での高品質なノイズ画像を生成し,データ拡張による復元性能向上に貢献する。

    Link: https://arxiv.org/abs/2512.04456

  • ARCAS:SLAMベースの追跡による拡張現実衝突回避システム - 歩行者安全性の向上 [eess.SY, cs.AR, cs.CV, cs.ET, cs.RO, cs.SY, eess.IV]目的:歩行者などの交通弱者の安全性を向上させるための拡張現実衝突回避システム
    • 都市部における交通事故は深刻であり,特に交通弱者の安全確保が重要である。
    • 既存の安全システムは主にドライバーや車両支援に重点を置いており,交通弱者への直接的な支援が不足している。
    • 本研究は,拡張現実技術を用いて交通弱者に直接的な衝突回避情報を提供することで,安全性を高めることを目指す。
    • 本システムは,LiDARとSLAMを組み合わせることで,リアルタイムに周囲の危険を検出し,拡張現実を通じて歩行者に視覚的な警告を提供する。
    • 実環境での実験により,ARCASは歩行者の衝突回避時間をほぼ2倍にし,相手の反応余剰時間を最大4倍に増加させることが示された。
    • これらの結果は,LiDAR駆動の拡張現実ガイダンスの有効性と,ウェアラブルARが都市部の移動安全性にとって有望な次世代ツールとなり得ることを示唆している。

    Link: https://arxiv.org/abs/2512.05299

  • AudioMOSチャレンジ2025向けT12システム:KANおよびVERSAに基づくモデルを用いた音響美点スコア予測システム [cs.SD, eess.AS]目的:音響美点スコアの予測
    • 音響信号処理の発展は,より高品質な音声体験の提供に不可欠である。
    • 主観的な音響美点の客観的な評価方法が確立されていない。
    • 高精度な音響美点スコア予測モデルの開発が求められている。
    • 提案システムT12は,AudioMOSチャレンジ2025において,3つの軸で発話レベル,2つの軸でシステムレベル,そして全体平均において,提出されたシステムの中で最高の相関を示した。
    • 本研究では,Kolmogorov-Arnold Network (KAN) をベースとした音響美点予測モデルと,VERSAツールキットを用いた指標スコアに基づく予測モデルを組み合わせた。
    • KANベースの予測器では,基盤モデルの多層パーセプトロン層を群有理KANに置き換え,ラベル付きおよび擬似ラベル付きの音声サンプルでモデルを訓練した。

    Link: https://arxiv.org/abs/2512.05592

  • SCAIL:文脈学習による3D一貫性のある姿勢表現を通じたスタジオ品質のキャラクターアニメーションへ [cs.CV]目的:スタジオ品質のキャラクターアニメーションの実現
    • アニメーション制作は,映画やゲームなど様々な分野で不可欠であり,高品質なものが求められている。
    • 既存手法では,複雑な動きや異なるキャラクター間のモーション転送において,構造の忠実性や時間的一貫性を維持することが困難である。
    • 3D姿勢表現と拡散・Transformerアーキテクチャにより,モーションシーケンス全体の空間的・時間的推論を可能にし,スタジオレベルの品質を実現する。
    • SCAILは,最先端の性能を達成し,キャラクターアニメーションをスタジオレベルの信頼性とリアリズムに近づける。
    • 提案手法は,ロバストかつ柔軟なモーション信号を提供する新しい3D姿勢表現を採用している。
    • 多様性と品質を確保したデータパイプラインと包括的な評価ベンチマークを開発し,スタジオレベルの要件に対応している。

    Link: https://arxiv.org/abs/2512.05905

  • 周波数領域マスキングによる持続可能な汎用ディープフェイク検出へ [cs.CV]目的:汎用ディープフェイク検出のための手法
    • AI技術の進展により,偽画像が容易に作成可能となり,社会への影響が懸念されている。
    • 既存のディープフェイク検出手法は,特定の生成モデルに依存し,未知の偽画像への対応が困難である。
    • 計算コストを抑えつつ,多様な生成モデルに強い汎用的なディープフェイク検出手法を開発すること。
    • 周波数領域マスキングを用いた学習戦略が,多様な生成モデルに対して高い検出精度を示すことが示された。
    • この手法は,モデルのプルーニングに対する耐性も高く,計算資源の効率的な利用に貢献する。
    • GANおよび拡散モデルによって生成された画像データセットにおいて,最先端の汎化性能を達成した。

    Link: https://arxiv.org/abs/2512.08042

  • VL-JEPA:ビジョン言語のためのJoint Embedding Predictive Architecture [cs.CV]目的:ビジョン言語モデルの性能向上
    • 画像とテキストの相互理解は,AIの応用範囲を広げる上で不可欠である。
    • 従来のVLMは,パラメータ数が多く,計算コストが高いという課題がある。
    • 抽象表現空間での学習により,効率的かつ高性能なVLMを実現すること。
    • VL-JEPAは,従来のVLMと同等以上の性能を,50%少ないパラメータ数で達成した。
    • VL-JEPAは,必要に応じてのみテキストデコーダーを起動する選択的デコーディングを可能にする。
    • VL-JEPAの埋め込み空間は,分類,検索,VQAなど,様々なタスクに柔軟に対応できる。

    Link: https://arxiv.org/abs/2512.10942

  • 視覚的知識蒸留によるロバストなMLLMアンラーニング [cs.CV, cs.AI]目的:MLLMからの機密情報の除去
    • 大規模言語モデルの普及に伴い,プライバシー保護の重要性が増している。
    • 既存のアンラーニング手法は主にLLMに焦点を当てており,MLLMへの適用は未成熟である。
    • MLLMに埋め込まれた視覚的知識を効率的に除去し,モデルの有用性を維持すること。
    • 提案手法は,中間層の視覚表現を教師信号として利用する視覚的知識蒸留(VKD)スキームを導入する。
    • VKDにより,アンラーニングの有効性とモデルの有用性が大幅に向上する。
    • 視覚コンポーネントのみをファインチューニングするため,効率性に優れる。また,再学習攻撃に対するロバスト性も評価した。

    Link: https://arxiv.org/abs/2512.11325

  • ショートカットされたフローパスによるワンステップ拡散モデルの設計について [cs.LG, cs.CV]目的:ワンステップ拡散モデルの設計に関する共通フレームワーク
    • 拡散モデルは画像生成において高い性能を示すが,計算コストが大きい。
    • 既存のワンステップ拡散モデルは理論と実装が密接に結合しており,設計空間が限定されている。
    • この研究は,理論的根拠に基づいた設計フレームワークを提供し,モデル改善の方向性を示す。
    • 提案フレームワークに基づき改良されたワンステップモデルは,ImageNet-256x256でFID50k 2.85を達成した。
    • さらに,学習ステップ数を2倍にすることでFID50k 2.53を達成し,最先端の性能を示した。
    • 本モデルは事前学習,蒸留,カリキュラム学習を必要とせず,革新的なコンポーネント設計を促進する。

    Link: https://arxiv.org/abs/2512.11831

  • 美的整合性の普遍化が芸術表現を狭める [cs.CY, cs.AI, cs.CV]目的:画像生成モデルにおける美的整合性の問題点
    • 芸術表現は多様性が重要であり,美的基準の画一化は創造性を阻害する恐れがある。
    • 画像生成モデルが普遍的な美的嗜好に過度に適合することで,ユーザーの意図が反映されにくい。
    • ユーザーの多様な美的要求に応え,芸術的自由を尊重する画像生成を目指す。
    • 画像生成モデルは,指示に反して,慣習的に美しい画像を生成する傾向があることが確認された。
    • 報酬モデルは,ユーザーの明確な指示に合致する低品質または否定的な画像を不当に評価する。
    • 画像編集や抽象芸術作品との比較により,美的バイアスが系統的に存在することが示された。

    Link: https://arxiv.org/abs/2512.11883

  • SCR2-ST:単一細胞と空間トランスクリプトミクスを強化学習で組み合わせた効率的な活性サンプリング [cs.CV]目的:空間トランスクリプトミクスにおける効率的なデータ取得と正確な発現予測
    • 組織形態の背後にある分子関係を調査する上で,空間トランスクリプトミクスは重要な技術である。
    • 空間トランスクリプトミクスのデータ取得コストが高く,固定グリッドサンプリングでは冗長な測定が生じる。
    • 単一細胞配列データの活用により,空間トランスクリプトミクスのデータ取得を効率化し,予測精度を向上させる。
    • SCR2-STは,単一細胞データの事前知識を利用し,強化学習に基づいた活性サンプリングとハイブリッド回帰・検索予測ネットワークを統合する。
    • 強化学習では,単一細胞の埋め込み表現と空間密度情報を組み合わせ,生物学的に根拠のある報酬信号を構築することで,情報量の多い組織領域を選択的に取得する。
    • 実験結果から,SCR2-STは,特に低予算のシナリオにおいて,サンプリング効率と予測精度で最先端の性能を示すことが示された。

    Link: https://arxiv.org/abs/2512.13635

  • 文脈を豊かにした画像キャプション生成:マルチモーダル検索によるアプローチ [cs.CV, cs.AI]目的:画像と外部テキスト知識を組み合わせた,文脈を豊かにした画像キャプションの生成
    • 画像理解は,ジャーナリズム,教育,デジタルアーカイブ等の分野で重要であり,より詳細な記述が求められる。
    • 従来の画像キャプションは,視覚情報だけでは捉えられない背景情報や時間的要素,固有名詞などを欠いている場合がある。
    • 視覚情報に加えて外部知識を活用することで,より豊かで詳細な画像キャプションの生成を目指す。
    • 提案手法は,OpenEvents v1データセットにおいて,従来の画像キャプション生成手法と比較して,より情報量の多いキャプションを生成した。
    • BEIT-3やSigLIPを用いて類似画像を検索し,ORBやSIFTで幾何学的な位置合わせを行うことで,関連する記事から文脈情報を抽出した。
    • Qwen3モデルとInstruct BLIPを組み合わせることで,イベントを豊かにした文脈を考慮した画像キャプションを生成した。

    Link: https://arxiv.org/abs/2512.20042

  • SVBench:ビデオ生成モデルにおける社会的推論の評価 [cs.CV]目的:ビデオ生成モデルにおける社会的推論能力の評価基準
    • 人間は視覚情報から容易に社会的状況を理解するが,その能力をモデルで再現することは重要である。
    • 既存のビデオ生成モデルは,視覚的リアリズムは高いものの,社会的に整合性のある行動の生成に限界がある。
    • 社会的推論の能力を定量的に評価し,モデルの改善点を見出すことを目指す。
    • 本研究で開発したSVBenchは,発達心理学と社会心理学に基づいた30の実験パラダイムを含む。
    • 最先端のビデオ生成システム7つを評価した結果,表面的な妥当性は高いものの,意図理解や共同注意において性能差が顕著であった。
    • モデルは,心的状態推論,目標指向行動,協調行動,親社会行動などの社会的推論能力が不足していることが示された。

    Link: https://arxiv.org/abs/2512.21507

  • クライオEMにおける組成的・形状的異質性の,変形可能な3次元ガウス表現による解決 [cs.CV]目的:クライオEM画像からの組成的・形状的異質性の解析
    • タンパク質の機能理解には,柔軟性や分子間相互作用の把握が不可欠である。
    • クライオEMデータセットに含まれる連続的・離散的な構造状態の混合を解析することが困難である。
    • クライオEMデータの解析において,組成的・形状的異質性を同時に解決することを目指す。
    • GaussianEMは,クライオEM画像から学習可能なガウス成分に分解する二重エンコーダ・単一デコーダ構造を採用している。
    • 本手法は,連続的かつ直感的な形状ダイナミクスの表現を可能にし,局所的な構造的完全性を維持する。
    • GaussianEMは,既存の公開データセットにおいて,これまで観察されなかった詳細な情報を再構成することに成功した。

    Link: https://arxiv.org/abs/2512.21599

  • DyStream:フローマッチングに基づく自己回帰モデルによる双方向対話頭部生成 [cs.CV]目的:双方向対話頭部動画のリアルタイム生成
    • 人間らしいコミュニケーションにおいて,視覚的フィードバックは不可欠であり,低遅延な動画生成が求められる。
    • 既存手法は非因果的なコンテキストウィンドウを利用するため,遅延が大きく,リアルタイムな対話には不向きである。
    • DyStreamは因果的なフレームワークで,低遅延かつ高品質な双方向対話頭部動画生成を実現する。
    • DyStreamはフローマッチングに基づく自己回帰モデルであり,話者と聞き手の音声からリアルタイムで動画を生成可能である。
    • 提案手法は,短時間の未来コンテキストを組み込むことで,従来の因果的戦略よりも高品質な生成を可能にする。
    • 実験により,1フレームあたり34msで動画を生成し,システム全体の遅延を100ms未満に抑えることが確認された。HDTFにおけるLipSync Confidenceはそれぞれ8.13と7.61を達成。

    Link: https://arxiv.org/abs/2512.24408

  • 物理法則を意識したテキストから動画生成のための物理ベース直接選好最適化:PhyGDPO [cs.CV]目的:物理的に整合性のある動画生成
    • 動画生成技術は急速に進歩しているが,物理法則を忠実に再現することは難しい課題である。
    • 既存手法は単純な環境に限定されるか,物理的推論を学習できず,物理相互作用の豊富なデータが不足している。
    • 大規模な物理シミュレーションデータセットと,物理整合性を重視した学習フレームワークを構築すること。
    • 物理増強パイプライン(PhyAugPipe)により,大規模な物理動画データセット(PhyVidGen-135K)を構築した。
    • 物理を意識したグループワイズ直接選好最適化(PhyGDPO)フレームワークを提案し,物理報酬(PGR)を用いて最適化を誘導した。
    • LoRA-Switch Reference(LoRA-SR)により,メモリ効率の良い学習を実現し,既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2512.24551

  • FaithSCAN:忠実な視覚的質疑応答のためのモデル駆動型単一パスでの幻覚検出 [eess.SY, cs.SY, cs.CV, cs.AI]目的:視覚的質疑応答における幻覚の検出
    • 視覚と言語を組み合わせたAIの信頼性は重要であり,特に安全性が求められる応用分野では不可欠である。
    • 既存手法は計算コストが高いか,モデルの不確実性を十分に捉えられておらず,幻覚検出の性能に限界がある。
    • モデル内部の信号を活用し,効率的かつ高精度な幻覚検出を実現すること。
    • FaithSCANは,トークンレベルの不確実性,中間的な視覚表現,クロスモーダルアラインメント特徴などの豊富な内部信号を活用する軽量なネットワークである。
    • 実験の結果,FaithSCANは既存手法と比較して,有効性と効率の両面で大幅に性能が向上することが示された。
    • 幻覚は,視覚的認識,クロスモーダル推論,言語デコーディングにおける体系的な内部状態の変化に起因することが明らかになった。

    Link: https://arxiv.org/abs/2601.00269

  • 空間的にダウンサンプリングされた等方ネットワークによる効率的な深層デモザイキング [cs.CV]目的:効率的な深層デモザイキング手法の開発
    • デジタル画像処理において,デモザイキングは色再現に不可欠な工程であり,画質に大きな影響を与える。
    • 深層学習を用いたデモザイキングは高性能だが,計算コストが高く,モバイル環境での利用が課題となる。
    • 空間的ダウンサンプリングを取り入れることで,等方ネットワークの効率と性能を向上させることを目指す。
    • 空間的ダウンサンプリングを導入した等方ネットワークは,従来の設計よりも計算効率が向上することが示された。
    • ダウンサンプリングされたJD3Netは,様々なデモザイキングおよびノイズ除去タスクにおいて高い性能を発揮した。
    • ダウンサンプリングは,等方ネットワークの性能向上に有効であることが実験的に確認された。

    Link: https://arxiv.org/abs/2601.00703

  • 多言語会話型ASRにおけるSpeech-LLMとエンドツーエンドアーキテクチャの比較研究 [cs.CL, cs.SD, eess.AS]目的:多言語会話型ASRのためのSpeech-LLMとエンドツーエンドアーキテクチャの比較
    • 音声認識技術は,人間と機械の自然な対話を可能にする基盤であり,その重要性は高い。
    • 大規模言語モデル(LLM)を用いた音声認識は発展途上であり,エンドツーエンド方式との性能差が課題である。
    • Speech-LLMの性能向上を目指し,WhisperとmHuBERTエンコーダの融合による表現力の強化を試みる。
    • 提案システムは,MLC-SLMチャレンジの評価セットにおいて,CER/WER10.69%を達成し,上位システムと同等の性能を示した。
    • しかし,ファインチューニングされたエンドツーエンドWhisperモデルの性能には及ばなかった。
    • この結果は,今後のSpeech-LLM設計に向けた貴重な示唆を与える。

    Link: https://arxiv.org/abs/2601.01461

  • 統一的マルチモーダル外部接触推定:UNIC [cs.RO, cs.AI, cs.CV]目的:外部接触推定のための統一的マルチモーダルフレームワーク
    • 接触豊富な操作には信頼性の高い接触推定が不可欠。計画,制御,方針学習に重要な情報を提供する。
    • 既存手法は,定義された接触タイプ,固定された把持構成,カメラキャリブレーションなどの制約がある。
    • 未知の物体や非構造化環境への汎化性能を向上させ,カメラキャリブレーションを不要とする。
    • UNICは,事前知識やカメラキャリブレーションなしで動作する統一的なマルチモーダルフレームワークである。
    • 未知の接触位置における平均Chamfer距離誤差は9.6mmであり,未知の物体や動的カメラ視点に対しても頑健性を示す。
    • 本研究は,接触豊富な操作のための実用的かつ汎用性の高い外部接触推定能力を確立する。

    Link: https://arxiv.org/abs/2601.04356

  • 幾何における注意:適応密度場とFAISS加速カーネルによるスケーラブルな空間モデリング [cs.CL, cs.LG, cs.CV, cs.GR]目的:幾何学的注意機構の構築
    • 空間データの解析は,都市計画,気象予測,ロボティクスなど幅広い分野で重要である。
    • 大規模空間データに対する効率的な空間モデリング手法が課題となっていた。
    • 適応密度場を用いて,スケーラブルな空間モデリングを実現し,空間構造の抽出を可能にすること。
    • 本研究では,空間集約を連続空間における距離に基づく注意機構として定式化した適応密度場(ADF)を提案した。
    • ADFは,近似最近傍探索を注意機構の固有要素として組み込むことで,FAISSによる高速化を実現している。
    • 成都市の航空機軌跡分析において,軌跡に依存する影響圏(ZOI)を抽出し,反復的な空域構造と局所的な逸脱を明らかにした。

    Link: https://arxiv.org/abs/2601.06135

  • VULCA-Bench:文化理解の評価のための多文化Vision-Languageベンチマーク [cs.CL, cs.CV]目的:Vision-Languageモデルの文化理解度
    • グローバル化が進む中で,文化背景を考慮したAIの重要性が高まっている。
    • 既存のベンチマークは,表層的な視覚認識能力の評価に偏っており,文化解釈能力の評価が不十分である。
    • 文化理解の評価基準を設け,Vision-Languageモデルの文化解釈能力を詳細に分析すること。
    • VULCA-Benchは,8つの文化圏にわたる画像と批評のペア7,410組で構成され,文化理解を5層構造で評価する。
    • 高次の思考層(L3-L5)の推論は,視覚的・技術的な分析(L1-L2)よりも一貫して困難であることが示された。
    • 本研究は,文化理解能力を評価するための新たなベンチマークと評価指標を提供する。

    Link: https://arxiv.org/abs/2601.07986

  • TP-Blend:拡散モデルにおける精密なオブジェクトスタイル混合のためのテキストプロンプト注意ペアリング [cs.CV, cs.AI, cs.LG, cs.MM]目的:拡散モデルにおけるオブジェクトとスタイルの同時導入による精密な画像編集
    • 画像生成AIの発展により,テキスト指示に基づいた画像編集のニーズが高まっている。
    • 既存手法では,オブジェクトとスタイルを同時に変更する際に,品質が低下する課題があった。
    • TP-Blendは,オブジェクトとスタイルの両方を精密に制御する画像編集手法の確立を目指す。
    • TP-Blendは,2つのテキストプロンプトを利用し,オブジェクトとスタイルを独立して注入することで高解像度かつ写実的な編集を実現した。
    • Cross-Attention Object Fusion(CAOF)とSelf-Attention Style Fusion(SASF)の組み合わせにより,高品質な編集を効率的に行う。
    • 定量評価および知覚評価において,既存のベースライン手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2601.08011