arXiv雑要約

画像・音声 - 2026/03/20 公開

  • GLAD:複数話者ASRのためのグローバル・ローカル認識ダイナミックエキスパート混合 [cs.RO, cs.SD]目的:複数話者同時音声認識における,重なり合った音声を正確に書き起こすこと
    • 複数話者環境下での音声認識は,会議や多重通話など様々な場面で重要性が増している。
    • 深層ネットワークの層が深くなるほど,話者固有の情報が希釈され,重なり合った音声を区別することが困難になる。
    • 話者固有の情報を活用し,エキスパート選択を適応的に誘導することで,重なり合った音声の認識精度を向上させる。
    • 提案手法GLADは,LibriSpeechMixおよびCH109データセットにおいて,既存のSOTベースMTASR手法を大幅に上回る性能を示した。
    • 特に,音声の重なりが激しい状況において,GLADの頑健性が確認された。
    • グローバル・ローカル融合MoE戦略をMTASRに適用した初の研究である。

    Link: https://arxiv.org/abs/2509.13093

  • キャプション不要の写実的な画像復元:大規模拡散Transformer LucidFlux [cs.CV]目的:未知の劣化混合による画像劣化からの画像復元
    • 画像復元は,画像処理において重要な課題であり,様々な分野で応用されている。
    • 従来の復元手法では,過剰な平滑化や幻覚,構造のずれといった問題が発生しやすい。
    • 本研究は,キャプションなしで高精度な画像復元を実現し,既存手法の課題を克服することを目指す。
    • LucidFluxは,大規模拡散Transformer(Flux.1)を画像キャプションなしで適応させることで,写実的な画像復元を可能にする。
    • 軽量なデュアルブランチコンディショナーと,時間ステップおよびレイヤー適応モジュレーションスケジュールにより,高精度な復元を実現している。
    • SigLIP特徴を用いたキャプション不要のセマンティックアライメントと,構造が豊富なデータによる大規模なキュレーションパイプラインが性能向上に貢献している。

    Link: https://arxiv.org/abs/2509.22414

  • ソフト-Di[M]O:ソフト埋め込みによる1ステップ離散画像生成の改善 [cs.CV, cs.AI, cs.LG]目的:1ステップ離散画像生成における性能向上
    • 画像生成技術は,創造性や表現力を拡張し,様々な応用分野において重要な役割を担っている。
    • 既存の1ステップ生成器は,教師モデルのバイアスを受けやすく,勾配の流れが途絶えるという課題がある。
    • ソフト埋め込みにより,勾配計算を可能にし,生成器の性能を改善することを目的とする。
    • ソフト埋め込みは,離散トークンを生成器の出力分布に基づく期待埋め込みに置き換えることで,表現の忠実性を保ちながら,微分可能な連続的な代替表現を提供する。
    • ソフト-Di[M]Oは,様々なMasked Diffusion Modelで最先端の結果を達成した。ImageNet-256でのFIDスコアは1.56。
    • 報酬に基づくファインチューニングやTTEOとの組み合わせにより,さらに性能が向上することも確認された。

    Link: https://arxiv.org/abs/2509.22925

  • 位置に盲目,言語に偏り:ゼロショット言語 grounded 空間理解のためのVision-Language Encoderの中間層表現バイアス探求 [cs.CV, cs.AI]目的:Vision-Language Encoderの中間層表現バイアス
    • 画像と言語を連携させる技術は,AIの多岐にわたる応用において重要な役割を担っている。
    • 既存のVision-Language Encoderは,空間情報への感受性が低く,言語依存の偏りを抱えている。
    • 中間層表現を活用し,空間認識能力を向上させることで,ゼロショット空間理解の精度を高める。
    • Vision-Language Encoderの中間層表現において,位置情報に対する感受性が低いこと,そして言語に依存した幾何学的なシフトが生じていることが明らかになった。
    • 中間層の表現を用いて空間マップを構築することで,ゼロショット参照画像セグメンテーションの性能が1-7 mIoU改善された。
    • 混合言語の中間層表現を活用することで,空間 grounding の精度がさらに向上 (7-8 mIoU, IoU@50) したが,推論コストが増加した。

    Link: https://arxiv.org/abs/2509.23098

  • FSFSplatter:疎な視点からの高速表面再構成と新規視点生成 [cs.CV, cs.GR]目的:疎な画像からの高速表面再構成手法
    • 3D再構成技術は,仮想現実や自動運転など,幅広い分野で不可欠である。
    • 従来のGaussians Splattingは,密な視点データを必要とし,疎な画像からは精度が低下する。
    • 疎な画像からの高品質な3D再構成と高速化を実現することを目指す。
    • FSFSplatterは,Transformerを用いて画像から密なGaussian初期化を行い,高速な最適化を実現した。
    • 貢献度に基づくプルーニングと,微分可能なカメラパラメータによる深度・特徴量の supervisionにより,過学習を抑制した。
    • DTU,Replica,BlendedMVSデータセットにおいて,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.02691

  • ビジョンエンコーダのアクティベーション量子化にはプレフィックスレジスタが必要である [cs.LG, cs.CV]目的:ビジョンエンコーダにおける量子化性能の改善
    • マルチモーダル知能において,大規模な事前学習済みビジョンエンコーダは重要な役割を担う。
    • 量子化は推論コスト削減に有効だが,外れ値により8ビット精度でも課題が残る。
    • 大規模ビジョンエンコーダにおける外れ値を軽減し,低ビット量子化を可能にすること。
    • 本研究では,外れ値が発生しやすいトークンをエンコーダに導入することで,他のトークンの外れ値を抑制する手法RegCacheを提案した。
    • RegCacheは,中間層へのプレフィックス付与とトークンの削除という2つの技術革新を取り入れている。
    • 実験結果から,RegCacheは様々なビジョンエンコーダにおいて,特に4ビットなどの極めて低ビット条件下で量子化性能を改善することが示された。

    Link: https://arxiv.org/abs/2510.04547

  • 3Dシーングラフ予測のための物体中心表現学習 [cs.CV]目的:3Dシーンにおける物体とそれらの意味的関係の検出
    • ロボティクスやAR/VRなどへの応用が期待され,3次元シーン理解の重要な技術である。
    • 既存手法は,物体や関係性の特徴表現能力の最適化が不十分であり,識別能力の限界がある。
    • 物体特徴の質を向上させることで,より高精度なシーングラフ予測を実現することを目指す。
    • 提案手法では,識別能力の高い物体特徴エンコーダを設計し,コントラスト学習による事前学習を行った。
    • その結果,物体分類精度が向上し,関係性予測の精度向上にも直結した。
    • 既存フレームワークへの組み込みにより,全ての評価指標で大幅な性能向上が確認された。

    Link: https://arxiv.org/abs/2510.04714

  • 2Dセマンティック知識による3Dアフォーダンスセグメンテーションの解明 [cs.CV]目的:3Dオブジェクトの機能的役割に応じた部分分解
    • ロボット工学やコンピュータビジョンにおいて,物体の操作やインタラクションの理解は重要である。
    • 3D点群データは情報が疎であり,幾何学的手がかりが弱く曖昧な場合,アフォーダンスセグメンテーションが困難となる。
    • 2Dビジョンモデルの知識を活用し,3D表現学習を促進することで,アフォーダンスセグメンテーションの精度向上を目指す。
    • 大規模2Dビジョンモデルのセマンティック知識を利用するクロスモーダルアラインメント機構「CMAT」を提案した。
    • CMATは,幾何学的再構成と特徴量の多様性を促す補助損失と合わせて,3Dエンコーダを2D特徴に整合させる。
    • 提案手法は,既存の最先端手法と比較して,精度と効率の両面で一貫した改善を示した。

    Link: https://arxiv.org/abs/2510.08316

  • 多様な音響条件下における音声クエリを用いたオーディオビジュアルマルチモーダルLLMのハルシネーション評価 [cs.CL, cs.SD, cs.AI, eess.AS]目的:オーディオビジュアルマルチモーダルLLMにおけるハルシネーションの評価
    • 音声インターフェースの普及に伴い,マルチモーダルモデルの信頼性評価が重要になっている。
    • 画像とテキストの組み合わせによる評価は多いが,音声クエリがハルシネーションに与える影響は未解明である。
    • 音声クエリを用いた評価パイプラインを構築し,信頼性の高い音声インターフェース開発に貢献する。
    • 既存のマルチモーダルハルシネーションベンチマークを音声クエリ版に変換したRePOPE-Spkを公開した。
    • 音声クエリを用いると,ハルシネーションが顕著に増加し,クリーンな音声でも3-6%,ノイズ下では最大30%エラー率が上昇した。
    • Few-shotプロンプティングやChain-of-Thought推論は,ハルシネーションの軽減に限定的な効果しか示さなかった。

    Link: https://arxiv.org/abs/2510.08581

  • DREAM:ディープフェイクの写実性評価のためのベンチマーク研究 [cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的:ディープフェイクの写実性評価
    • 偽情報拡散の脅威から,ディープフェイクの信頼性評価が重要視されている。
    • ディープフェイクの写実性に関する主観的知覚の計算モデル化が不足している。
    • ディープフェイクの質と欺瞞性を評価し,インターネットへの影響予測と生成改善に貢献する。
    • 大規模なデータセットDREAMを構築し,14万件の写実性スコアと記述データを提供した。
    • 18の評価手法を分析し,最新のビジョン言語モデルの性能を検証した。
    • 記述に整合したCLIPを用いた新しい評価手法を提案し,その有効性を示した。

    Link: https://arxiv.org/abs/2510.10053

  • CoPRS:思考連鎖からの位置事前知識の学習による推論セグメンテーション [cs.CL, cs.CV, cs.MM]目的:推論セグメンテーションのための位置事前知識
    • 画像とテキストの理解に基づく,より高度な視覚認識システムの構築が求められている。
    • 既存手法では,推論過程とセグメンテーションの関連性が不明確であり,精度向上の限界がある。
    • 思考連鎖を用いて推論過程を明確化し,セグメンテーション精度を向上させることを目指す。
    • CoPRSは,RefCOCOおよびReasonSegデータセットにおいて,既存の最先端手法と同等またはそれ以上の性能を達成した。
    • 思考連鎖の軌跡,生成されたヒートマップ,およびデコードされたマスク間に強い正の相関関係が認められた。
    • 推論駆動による集中化と,より正確なマスク予測において優位性を示す結果となった。

    Link: https://arxiv.org/abs/2510.11173

  • より包括的な解釈可能性へ:軽量な分離概念ボトルネックモデル [cs.RO, cs.IR, cs.CV, cs.LG]目的:概念ボトルネックモデルの解釈性と分類性能の向上
    • AIの意思決定過程を人間が理解することは,信頼性と安全性を高める上で重要である。
    • 既存の概念ボトルネックモデルは,入力と概念の間の偏りや制御性の低さという課題を抱えている。
    • 視覚的特徴を意味的に分離し,概念と視覚パターンの整合性を高めることで,解釈可能なAIの信頼性を向上させる。
    • 提案するLDCBMは,従来のCBMと比較して,概念およびクラスの精度において高い性能を発揮する。
    • LDCBMのパラメータ数とFLOPsは,Vanilla CBMと比較してわずか5%増加に抑えられており,軽量性を実現している。
    • 背景マスク介入実験により,LDCBMが不要な画像領域を抑制する能力が高いことが確認された。

    Link: https://arxiv.org/abs/2510.15770

  • 遠近両方から:詳細度に応じた群衆表現の知覚的評価 [cs.CV, cs.GR, cs.HC]目的:群衆表現における詳細度と視点距離に対するユーザーの知覚品質評価
    • 仮想環境におけるリアリティの向上は,没入感とユーザー体験の質を左右する重要な要素である。
    • 群衆の表現は計算コストが高く,詳細度とパフォーマンスのバランスが課題となっている。
    • 知覚的に最適化された詳細度調整戦略の設計指針を提供することを目的とする。
    • 幾何学的メッシュ,画像ベースのインポスター,NeRF,3Dガウスなどの表現方法について,視覚的な忠実度と計算性能のトレードオフが明らかになった。
    • 質的・定量的な評価から,詳細度に応じた群衆表現の最適な戦略を検討するための知見が得られた。

    Link: https://arxiv.org/abs/2510.20558

  • Open-o3-Video:明示的な時空間的証拠を用いたビデオ推論 [cs.CV, cs.AI, cs.MM]目的:ビデオ推論における明示的な時空間的証拠の統合
    • ビデオ理解は,現実世界の状況を把握する上で不可欠であり,その応用範囲は広い。
    • 既存のビデオ推論モデルは,証拠の提示が不十分であり,推論の根拠が不明確である。
    • ビデオにおける重要な証拠(時間,場所,対象物)を特定し,推論の透明性と検証可能性を高める。
    • Open-o3-Videoは,時空間的証拠を統合することで,V-STARベンチマークにおいて最先端の性能を達成した。
    • Qwen2.5-VLをベースラインとして,mAMで14.4%,mLGMで24.2%の改善が見られた。
    • 生成された推論トレースは,テスト時の信頼性向上に貢献する。

    Link: https://arxiv.org/abs/2510.20579

  • 画像を超える洞察:心電図と解剖学的知識に基づく遅延ガドリニウム強調画像からの心筋瘢痕分割 [cs.CV, cs.AI]目的:心筋瘢痕の分割
    • 心不全治療において,心筋の組織状態評価は重要である。
    • 遅延ガドリニウム強調MRI画像はアーチファクトやコントラスト変動の影響を受けやすい。
    • 心電図と解剖学的知識を統合し,より正確な瘢痕分割を目指す。
    • 本研究では,心電図由来の生理学的情報と解剖学的情報を統合する新しいフレームワークを提案した。
    • 時間依存型特徴融合機構により,異なる時間で取得された画像と心電図の特徴を動的に統合する。
    • 臨床データセットにおいて,既存の画像のみのベースラインと比較して,Dice係数を0.6149から0.8463に大幅に向上させた。

    Link: https://arxiv.org/abs/2511.14702

  • DuoTeach:視覚言語モデルにおける粗粒度から細粒度への意思決定協調のための二重役割による自己教師法 [cs.MM, cs.CV]目的:視覚言語モデルにおける粗粒度から細粒度への意思決定協調の改善
    • 視覚と言語を組み合わせたモデルは,多様なタスクで高い性能を示すため,研究が活発である。
    • 既存の評価指標は各レベルを独立に評価するため,パス全体の整合性が評価されていない。
    • パス全体の有効性と整合性を考慮した評価プロトコルと,それに対応する学習フレームワークを開発する。
    • 本研究では,Joint Path Decision (JPD) プロトコルとDepth-Weighted Prefix Accuracy (DWPA) 評価指標を導入した。
    • DuoTeachは,教師ありデータを用いずに,同一の事前学習済み視覚言語モデルを二つの役割で再利用する自己教師法である。
    • 実験の結果,DuoTeachは既存手法と比較して,DWPAを最大30.24ポイント向上させ,未学習のタスクにおいても性能を大幅に改善した。

    Link: https://arxiv.org/abs/2511.18415

  • 無限RoPE:自己回帰的ロールアウトから生まれるアクション制御可能な無限ビデオ生成 [cs.CV]目的:無限ビデオ生成における時間制約,プロンプト応答性,およびシネマティックな遷移の実現
    • ビデオ生成技術は,エンターテイメント,教育,コミュニケーションなど幅広い分野で応用が期待されている。
    • 既存の自己回帰型ビデオ拡散モデルは,生成可能な時間長やアクション制御の精度に課題があった。
    • 本研究は,既存モデルの時間的制約を克服し,より自然で制御性の高いビデオ生成を目指す。
    • 提案手法である無限RoPEは,時間エンコーディングを相対的な参照フレームとして再構築することで,時間長の制限を克服した。
    • KVフラッシュにより,KVキャッシュを更新することでプロンプトへの即時応答性を実現し,より詳細なアクション制御を可能にした。
    • RoPEカットにより,時間座標に制御された不連続性を導入し,単一の生成ストリーム内で複数のカットを含むシネマティックな遷移を実現した。

    Link: https://arxiv.org/abs/2511.20649

  • 靴のスタイルに依存せず,地面を意識した密な足接触推定学習 [cs.CV]目的:密な足接触推定
    • 人間の動きや物理的相互作用の理解を深める上で,足接触の探求は重要である。
    • 既存手法は速度ゼロ制約による近似や関節レベルの接触に焦点を当て,足と地面の細かい相互作用を捉えられていない。
    • 本研究は,単一のRGB画像から密な足接触を高精度に推定するための課題解決を目指す。
    • 提案手法は,靴のスタイルに依存しない特徴量を学習することで,多様な靴のスタイルに対応したロバストな足接触推定を実現した。
    • 空間的文脈に基づいた地面特徴抽出器を導入し,地面情報の効果的な利用を可能にした。
    • 実験結果から,提案手法が靴のスタイルや地面の状態に左右されず,高精度な足接触推定を達成することが示された。

    Link: https://arxiv.org/abs/2511.22184

  • 効率的かつスケーラブルな単眼ヒューマン・オブジェクト相互作用モーション再構成 [cs.CV]目的:ヒューマン・オブジェクト相互作用(HOI)の4次元モーションデータ抽出
    • 汎用ロボットの実現には,多様なHOIデータからの学習が不可欠である。
    • 現実世界の動画からHOIデータを正確かつスケーラブルに抽出することは困難である。
    • アノテーションコストを削減し,高精度なHOIモーション再構成を可能にすること。
    • 効率的な疎な接触アノテーションパラダイムと,マルチモーダル予測器InterPointを開発した。
    • 新規最適化フレームワーク4DHOISolverにより,HOI再構成の空間的・時間的一貫性と物理的妥当性を維持した。
    • 135種類のオブジェクトと133種類のアクションを含む大規模HOIデータセットOpen4DHOIを公開する。

    Link: https://arxiv.org/abs/2512.00960

  • 高解像度画像理解のためのマルチ解像度検索・検出融合 (MRD) [cs.CV, cs.AI, cs.MM]目的:高解像度画像理解の性能向上
    • マルチモーダル大規模言語モデルの能力向上には,高解像度画像の理解が不可欠である。
    • 従来の画像検索・生成によるアプローチでは,対象物の断片化や誤検出が発生しやすい。
    • マルチ解像度での情報統合と物体検出による局所・大域的な理解を目指す。
    • 提案手法MRDは,マルチ解像度での意味的整合性を強化し,対象物の断片化を軽減する。
    • また,オープンボキャブラリ物体検出を組み込むことで,局所化の事前知識を統合する。
    • 複数のMLLMを用いた実験により,MRDが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2512.02906

  • 拡散ベースの影生成への物理的推論の組み込み [cs.CV]目的:挿入されたオブジェクトに対する現実的な影の生成
    • シーンのリアリティを高めるには,影の正確な描写が不可欠である。
    • 既存手法では,影とオブジェクトの関係が暗黙的に学習され,不自然な影になりやすい。
    • 影の生成に物理に基づいたアプローチを導入し,より自然な影を生成することを目指す。
    • 提案手法では,シーンの形状と照明を推定し,物理に基づいた影の初期推定を行う。
    • 照明の推定に不確実性がある場合,信頼度スコアを用いて生成プロセスを調整する。
    • DESOBAV2データセットでの実験により,影のリアリティと位置精度の向上が確認された。

    Link: https://arxiv.org/abs/2512.06174

  • 反復的な光と幾何学的推論による影と付着影の検出 [cs.CV]目的:影と付着影の同時検出
    • シーン理解において,影は幾何学形状や光源に関する重要な情報を提供する。
    • 既存手法では,影全体を予測するか,付着影を無視するかのいずれかであり,両方を正確に検出することが困難である。
    • 光の方向と表面形状の物理モデルに基づき,影と付着影を同時に高精度に検出することを目指す。
    • 本研究では,光の推定と影の検出を反復的に改善する二重モジュール構造を提案した。
    • 提案手法は,光源からの表面の向きに基づいて影を予測し,その予測と光の推定を交互に更新する。
    • 実験により,既存手法と比較して付着影の誤り率を大幅に低減し,高い検出性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.06179

  • GTAvatar: ガウススプラッティングとテクスチャマッピングの架け橋 - 再光照・編集可能なガウスアバター [cs.CV, cs.GR]目的:ガウススプラッティングの精度とUVテクスチャマッピングの直感性を組み合わせた,編集可能なガウスアバターの生成
    • 近年,写実的なアバター生成技術が発展し,視覚効果,ビデオ会議,VRなど様々な分野での応用が期待されている。
    • 従来の三角形メッシュベースの方法と比較して,ガウススプラッティングは直感的な編集が困難であるという課題がある。
    • 単眼動画から,UV空間上で連続的に編集可能なマテリアルヘッドテクスチャを効率的に再構築し,アバターの外観や形状を制御することを目的とする。
    • 提案手法は,ガウススプラッティングの精度とUVテクスチャマッピングの直感性を両立し,高品質なアバター生成を可能にする。
    • 物理ベースの反射モデルを活用することで,アバターの再光照と編集を容易に行うことができる。
    • 最先端手法との比較により,再構成の精度,再光照の品質,そしてテクスチャマッピングによる直感的な制御能力が確認された。

    Link: https://arxiv.org/abs/2512.09162

  • HE染色標本を用いたリンパ腫サブタイピングのための多インスタンス学習モデルの多施設ベンチマーク [cs.CV, cs.AI]目的:リンパ腫サブタイピングのための多インスタンス学習モデルの性能評価
    • リンパ腫の正確な診断は,治療方針を決定する上で不可欠である。迅速な診断が望まれる。
    • リンパ腫診断には専門的な機器や熟練した人員が必要であり,診断の遅延やコスト増大が生じやすい。
    • HE染色標本のみから診断情報を抽出し,迅速かつ低コストな診断支援を目指す。
    • 複数の施設からのデータを用いたベンチマークでは,いずれの拡大率においても,多クラスのバランスアキュラシーが80%を超えた。
    • 基盤モデル間の性能差は小さく,集約手法も同程度の性能を示した。40倍の解像度で十分であり,高解像度化や拡大率の組み合わせは性能向上に繋がらなかった。
    • 分布外データを用いた評価では,性能が約60%に低下し,汎化性能の課題が明らかになった。

    Link: https://arxiv.org/abs/2512.14640

  • GriDiT:効率的な長画像シーケンス生成のためのファクタライズされたグリッドベース拡散 [cs.CV]目的:長画像シーケンス生成の効率化
    • 画像シーケンス生成は,動画生成や予測など,様々な応用分野で重要である。
    • 既存手法は,巨大なテンソルとして扱うため,計算コストが高く,効率が悪い。
    • 低解像度で粗いシーケンスを生成し,高解像度で個々のフレームを洗練することで,効率と品質を向上させる。
    • 提案手法は,既存の画像シーケンス生成モデルと比較して,合成品質とシーケンスの一貫性が向上する。
    • 任意の長さのシーケンスを高忠実度で生成可能であり,推論時間と訓練データ使用量の効率も向上する。
    • シンプルな構造により,多様なデータドメインへの汎化性能に優れ,追加の事前知識や教師信号を必要としない。

    Link: https://arxiv.org/abs/2512.21276

  • 整流化されたCNNフィルタリングの力学 [cs.CV]目的:CNNフィルタリングにおける力学的特性の理解
    • 画像認識技術は,AI分野において不可欠であり,その性能向上は重要な課題である。
    • CNNのフィルタリング処理の内部メカニズムは必ずしも明確に理解されているとは言えない。
    • CNNフィルタリングを情報力学の観点から解明し,そのエネルギー・運動量関係を明らかにすること。
    • CNNカーネルを偶数成分と奇数成分に分解することで,画像情報の拡散と中心移動がそれぞれエネルギーと運動量に対応することを示した。
    • フィルタのエネルギー比と情報伝達速度の線形関係を明らかにし,CNNの情報処理と相対論的物理学のエネルギー・運動量関係を結びつけた。
    • 離散コサイン変換(DCT)を用いて,小さなCNNフィルタの構造が低周波成分によって支配されることを示した。

    Link: https://arxiv.org/abs/2512.24338

  • HyperAlign: 適応的なテキスト-画像アライメント評価のための双曲的包含円錐 [cs.CL, cs.CV]目的:テキストと生成画像の間のアライメント評価
    • テキスト画像生成技術の発展に伴い,生成された画像とテキストの対応評価が重要になっている。
    • 既存手法はユークリッド空間の指標に依存し,セマンティックアライメントの構造的性質を無視している。
    • サンプルごとに適応的に評価できる双曲的包含幾何に基づくフレームワークを提案することで解決を目指す。
    • 提案手法HyperAlignは,CLIPの特徴量を双曲空間にマッピングし,動的監督下での包含モデリングを導入する。
    • 双曲幾何特徴量を用いた適応的な変調回帰器により,サンプルレベルでの調整を実現し,アライメントスコアを予測する。
    • 単一データベース評価とクロスデータベース汎化タスクの両方において,高い性能を示すことで,その有効性が確認された。

    Link: https://arxiv.org/abs/2601.04614

  • GeoMotionGPT:大規模言語モデルによる幾何学的整合性のある動作理解 [eess.SY, cs.SY, math.OC, cs.CV, cs.AI]目的:動作理解と動作-言語推論のための大規模言語モデルの基盤としての幾何学的整合性の確立
    • 人間行動の理解は,ロボット工学やコンピュータグラフィックスなど多くの分野で重要である。
    • 既存手法では,動作の幾何学的構造と埋め込み空間が十分に整合しておらず,高度な推論が困難である。
    • 動作コードブックとLLM埋め込み空間に直交性を強制し,幾何学的整合性を高めることで,推論能力の向上を目指す。
    • 提案手法は,HumanML3Dにおいて最先端のベースラインよりも集計平均で22.4%,KIT-MLで14.4%の改善を達成した。
    • 動作トークナイザー,射影,正則化の設計が効果的であることが,消去実験によって確認された。
    • Gumbel-Softmaxを用いたデコーダー専用量子化により,微分可能な学習とバランスの取れたコードブック利用を実現した。

    Link: https://arxiv.org/abs/2601.07632

  • 画像から衣服の生成:単一画像からのシミュレーション対応衣服生成 [cs.CV]目的:単一画像からのシミュレーション対応衣服生成手法
    • 衣服のデザインやバーチャル試着など,様々な分野で衣服の3Dモデルの需要が高まっている。
    • 単一画像から物理的に正確な衣服を生成するには,画像と物理シミュレーションを結びつけるデータセットが不足している。
    • 単一画像から,現実的なシミュレーションに必要な衣服の形状と材質の両方を推定することを可能にする。
    • 本研究では,画像とテキストを関連付けるモデルを微調整することで,衣服の材質と生地の属性を推定する。
    • 推定された属性を軽量な予測器に入力することで,対応する物理パラメータを予測し,シミュレーション対応の衣服を生成する。
    • 提案手法は,既存手法と比較して,材質推定の精度とシミュレーションの忠実度において優れている。

    Link: https://arxiv.org/abs/2601.09658

  • 洪水に対するオンボード継続的変化検出に向けて [cs.CV, cs.LG]目的:洪水検出のためのオンボード変化検出システムの開発
    • 災害監視は社会インフラの維持に不可欠であり,迅速な対応が求められる。
    • 衛星データ処理には,演算リソースの制約とリアルタイム性が課題となる。
    • 小型衛星でのリアルタイムな洪水検出システムの構築を目指す。
    • 提案手法であるHiT機構により,過去の文脈を維持しつつ,データ保存量を大幅に削減した。
    • STTORM-CDデータセットでの検証により,HiT機構が検出精度を維持することが確認された。
    • Jetson Orin Nano上での実測により,43 FPSの処理速度を実現し,小型衛星への実装可能性を示した。

    Link: https://arxiv.org/abs/2601.13751

  • 森林チャット:インタラクティブな森林変化分析のためのビジョン言語エージェントの適応 [cs.CV, cs.AI, cs.CL, cs.HC]目的:森林の変化検出と意味的解釈に関するタスクを自然言語で実行可能なエージェントの開発
    • 森林管理は地球規模での環境保全や資源利用において重要であり,高精度な森林変化分析が求められる。
    • 既存手法では,森林のような複雑な環境における変化検出と意味解釈の精度向上が課題であった。
    • 大規模言語モデルとビジョン言語モデルを統合し,森林変化分析の精度と利便性を高めることを目指す。
    • Forest-Chatは,森林変化データセットForest-Changeにおいて,mIoUで67.10%,BLEU-4で40.17%のスコアを達成した。
    • ゼロショット条件下でも高い性能を示し,Forest-ChangeでmIoU 60.15%,BLEU-4 34.00%を記録した。
    • キャプションの改良により,地理的ドメイン知識の注入効果が確認され,インタラクティブな森林変化分析の可能性を示した。

    Link: https://arxiv.org/abs/2601.14637

  • SuperOcc:超二次元に基づく3D occupancy予測における一貫性のある時間的モデリングへ [cs.CV]目的:3D occupancy予測のための,超二次元に基づく新しいフレームワーク
    • 自動運転において,周囲環境の理解は不可欠であり,3D occupancy予測はその重要な役割を担う。
    • 既存手法は,実際の運転シーンの疎性を考慮せず,密なシーン表現を構築する傾向がある。
    • 超二次元表現の有効性を活かし,時間的モデリングの改善,疎性と表現力のバランス,効率的なvoxel化を実現する。
    • 提案手法SuperOccは,view-centricとobject-centricな時間的特徴を同時に活用する一貫性のある時間的モデリング機構を導入。
    • SuperOccは,複数超二次元のデコード戦略により,queryの疎性を損なわずに幾何学的表現力を向上。
    • SurroundOccとOcc3Dベンチマークにおいて,最先端の性能と高い効率性を両立することが示された。

    Link: https://arxiv.org/abs/2601.15644

  • 階層的量子化は最適な再構成に不可欠か [cs.CV, cs.LG]目的:単一層VQ-VAEによる再構成精度の検証
    • 高精度な再構成は,ニューラル圧縮や生成パイプラインなど,様々なモデルの性能を左右する重要な要素である。
    • 従来の階層型VQ-VAEは優れていると考えられてきたが,その効果が十分に検証されていなかった。
    • 本研究では,単一層VQ-VAEが階層型VQ-VAEと同等の再構成精度を達成可能か検証する。
    • 単一層VQ-VAEにおけるコードブック崩壊は,利用可能な表現能力を制限することが確認された。
    • コードブックの初期化,非アクティブベクトルのリセット,ハイパーパラメータの調整によって,コードブック崩壊を大幅に軽減できた。
    • 表現能力を一致させ,コードブック崩壊を抑制することで,単一層VQ-VAEは階層型VQ-VAEと同等の再構成精度を達成できることが示された。

    Link: https://arxiv.org/abs/2601.22244

  • 1S-DAug:少数の事例からのロバストな汎化のためのワンショットデータ拡張 [cs.CV, cs.AI, cs.LG]目的:少数事例学習におけるロバストな汎化性能の向上
    • 少数事例学習は,限られたラベル付きデータから新しいクラスへの汎化能力を試す重要な研究分野である。
    • 従来のテスト時拡張は,少数事例学習においては効果が薄いという課題がある。
    • 本研究は,単一の事例画像から多様かつ忠実なバリアントを生成することで,この課題を解決する。
    • 1S-DAugは,従来の幾何学的摂動と制御されたノイズ注入,そしてノイズ除去拡散プロセスを組み合わせる。
    • 生成された画像と元の画像を組み合わせた表現を用いることで,少数事例学習の予測精度を向上させる。
    • miniImagenet 5-way-1-shotベンチマークにおいて,最大20%の精度向上が確認された。

    Link: https://arxiv.org/abs/2602.00114

  • シーンテキスト認識のための合成データに問題があるのはなぜか:多様なシミュレーションと自己進化を用いた強力な合成エンジン [cs.CV]目的:シーンテキスト認識モデルの訓練に必要な大規模かつカテゴリバランスの取れたテキストデータの生成
    • シーンテキスト認識は,自動運転や画像検索など,様々な応用において重要な役割を担う技術である。
    • 実データ収集はコストと手間がかかるため,十分な量の学習データを用意することが困難である。
    • 実データと合成データの間のドメインギャップを埋め,合成データを用いた認識精度向上を目指す。
    • 本研究で開発したUnionST-Sは,既存の合成データセットと比較して顕著な性能向上を示した。
    • 特定のシナリオにおいては,実データで訓練されたモデルの性能を上回る結果が得られた。
    • 自己進化学習フレームワーク(SEL)を用いることで,実データラベルの9%のみで競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2602.06450

  • PFGNet:効率的な時空間予測学習のための周波数誘導ペリフェラルゲーティングネットワーク [cs.CV]目的:時空間予測学習における高性能かつ効率的なモデルの提案
    • 時空間予測学習は,幅広い応用分野において将来フレームの予測に不可欠である。
    • 従来の畳み込みモデルは固定された受容野しかなく,空間的に変動する動きパターンへの適応が困難である。
    • 周波数誘導ゲーティング機構により,受容野を動的に調整し,空間適応的なフィルタリングを実現する。
    • PFGNetは,Moving MNIST,TaxiBJ,Human3.6M,KTHなどのデータセットで最先端またはそれに匹敵する予測性能を達成した。
    • 従来のモデルと比較して,パラメータ数とFLOPsを大幅に削減し,効率性を向上させている。
    • 再帰的または注意機構を用いずに,構造を意識した時空間モデリングを可能にする。

    Link: https://arxiv.org/abs/2602.20537

  • 記憶に残る写真の撮り方:実行可能なフィードバックによるユーザーの支援 [cs.CV]目的:写真の記憶想起可能性向上策
    • 写真の記憶想起可能性は,個人の記憶や経験と深く関わる重要な研究テーマである。
    • 既存研究では,記憶想起可能性の予測や生成に焦点が当たり,撮影時の改善支援が不足している。
    • 撮影時にユーザーに具体的な改善提案を行い,写真の記憶想起可能性を高めることを目指す。
    • 本研究では,記憶想起可能性向上を促す「MemFeed」タスクと,自然言語による改善提案を行う「MemCoach」を提案した。
    • MemCoachは,大規模マルチモーダル言語モデルを活用し,教師あり学習なしで効果的なフィードバックを提供する。
    • 実験結果から,記憶想起可能性は予測できるだけでなく,指導を通して向上させることが示された。

    Link: https://arxiv.org/abs/2602.21877

  • 協調のギャップ:反復ゲームにおける時間的公平性のためのマルチエージェント交互性指標 [cs.MA, cs.GT, cs.LG]目的:マルチエージェントにおける時間的公平性の評価指標の開発
    • マルチエージェントシステムは,個々の最適化と集団的厚生の間の緊張関係を露呈する
    • 従来の評価指標は時間構造を考慮せず,不公平を適切に識別できない
    • 時間的要素を考慮した協調性の評価指標を提案し,公平性をより正確に評価する
    • 従来の報酬公平性指標は高い値を示すものの,提案する交互性指標ではランダムベースラインを下回る結果が得られた
    • 集団的な報酬が高い場合でも,時間的な協調性が低い状況が存在することが示された
    • マルチエージェントゲームにおける協調性を分析するには,時間的要素を考慮した指標が不可欠である

    Link: https://arxiv.org/abs/2603.05789

  • LucidNFT:LRアンカー型マルチ報酬嗜好度最適化による生成実世界超解像 [cs.CV]目的:生成実世界超解像における視覚的に説得力のある詳細の合成と,LR証拠への忠実性の最適化
    • 実世界画像処理の進展は,低解像度画像から高解像度画像を生成する技術の重要性を高めている。
    • 生成モデル特有の確率的なサンプリングにより,LR証拠に基づかない不正確な詳細の生成が課題となっている。
    • LRアンカー型忠実性評価を可能にし,報酬信号の劣化を防ぐことで,実世界超解像の性能向上を目指す。
    • LucidNFTは,LRアンカー型忠実性を測定・最適化する評価指標LucidConsistencyを導入した。
    • ロールアウトグループ内での報酬信号のコントラストを維持するデカップルド正規化戦略により,最適化の安定性を向上させた。
    • 大規模な実世界劣化画像データセットLucidLRを活用し,ロバストな強化学習によるファインチューニングを可能にした。

    Link: https://arxiv.org/abs/2603.05947

  • 網膜VLMにおけるドメイン特化知識のアンカリングのための深層専門家注入 [cs.CV, cs.AI]目的:網膜VLMにドメイン特化知識を注入し,信頼性の高い眼科診断を可能にすること。
    • 眼科診断におけるAI活用は,熟練した専門家の負担軽減や診断精度の向上に貢献しうるため重要である。
    • 汎用的なVLMは眼科領域特有の知識に乏しく,微細な病理学的徴候の認識や根拠のない幻覚生成といった課題が存在する。
    • 本研究は,VLMの認識能力と推論能力のギャップを埋め,視覚的証拠に基づいた正確な診断を実現することを目指す。
    • 提案手法EyExInは,専門家知識を効率的に注入し,網膜VLMの性能を大幅に向上させることを実証した。
    • Expert-Aware Dual-StreamエンコーディングとSemantic-Adaptive Gated Fusionモジュールが,病理学的情報の抽出とノイズ除去に効果的である。
    • Adaptive Deep Expert Injectionメカニズムにより,VLMの推論過程を視覚的証拠に固定化し,幻覚生成を抑制することに成功した。

    Link: https://arxiv.org/abs/2603.07131

  • ドリフトモデルとスコアベースモデルの統一的見解 [cs.LG, cs.AI, cs.CV]目的:データ分布とモデル分布間の平均シフト不一致に基づくワンステップ生成器の学習
    • 生成モデルは,現実世界の複雑なデータ分布を再現する上で重要な役割を担う。
    • 既存のモデルでは,データ分布とモデル分布の乖離を効率的に解消することが課題となっていた。
    • カーネル平滑化された分布におけるスコアベース定式化を通じて,ドリフトモデルと拡散モデルの関係を明確化すること。
    • ドリフトモデルは,カーネル平滑化された分布上でのスコアマッチング定式化を持つことが示された。
    • ガウスカーネルの場合,平均シフト場はデータとモデルのガウス平滑化分布間のスコア差と一致する。
    • 一般のラジアルカーネルに対する正確な分解が導出され,ラプラスカーネルにおける誤差限界が証明された。

    Link: https://arxiv.org/abs/2603.07514

  • 非線形マルチアダプターを用いたビジョン言語モデルによる単純な効率的増分学習フレームワーク [cs.CV, cs.AI]目的:増分学習における効率向上
    • 人工知能の発展において,継続的な学習能力は不可欠である。特に,新しいタスクを効率的に学習し,既存の知識を保持することが重要となる。
    • 従来の増分学習手法は,学習効率の低さ,過去データの保存に依存する点,強力なバックボーンアーキテクチャの必要性といった課題を抱えていた。
    • 本研究は,ビジョン言語モデルとアダプターを活用することで,これらの課題を克服し,より効率的で高性能な増分学習フレームワークを構築することを目指す。
    • SimEフレームワークは,TinyImageNetにおいて従来の方式を9.6%上回り,CIFAR-100ではCLIPベースの手法を5.3%上回る性能を達成した。
    • アダプター接続数とモデルの増分学習能力の間には非線形な相関関係が存在することが示された。特に,Transformerブロック間の接続が有効である。
    • CLIPモデルをより大規模なデータセット(LAION2Bなど)や強力なアーキテクチャ(ViT-L/14など)で学習させることで,SimEの性能をさらに向上させることが期待される。

    Link: https://arxiv.org/abs/2603.11211

  • 公平性重視型解釈可能なリスクゲーティングによる性差に配慮した音声生体認証 [cs.SD, eess.AS]目的:音声生体認証における性差に着目した公平性改善
    • 音声生体認証は,セキュリティや利便性向上に貢献する重要な技術である。
    • 音声生体認証システムは,性別間で性能に差が生じる場合がある。
    • 性別と話者識別間の相関や,音響特徴の混同による性能差を解消する。
    • 提案手法Fair-Gateは,性別ごとのリスクを低減し,公平性と性能のトレードオフを改善する。
    • 中間特徴量を話者識別と性別識別経路に分岐させるゲーティング機構により,解釈可能性を確保する。
    • VoxCeleb1での実験により,Fair-Gateが厳しい評価条件下で,より公平なASV性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.11360

  • YOLO11に基づくカスタム綿検出アルゴリズムCOTONET:綿の生育段階における花蕾検出 [cs.CL, cs.HC, cs.CV]目的:綿の生育段階における花蕾の検出
    • 綿花収穫は繊維品質に影響するため,繊細な摘取が重要である。
    • 収穫の自動化には,様々な生育段階の花蕾を認識するシステムが必要である。
    • 複雑な生育状況下で,花蕾を高精度に検出することを目指す。
    • COTONETは,YOLO11を改良し,注意機構を組み込んだカスタムモデルである。
    • Squeeze-and-ExitationブロックやCARAFEなどの改良により,特徴抽出性能を向上させた。
    • mAP50で81.1%,mAP50-95で60.6%を達成し,既存のYOLOモデルを上回った。

    Link: https://arxiv.org/abs/2603.11717

  • SoulX-LiveAct:近傍強制とConvKVメモリによる時間規模のリアルタイム人物アニメーションへ [cs.CV]目的:時間規模のリアルタイム人物アニメーションの実現
    • 動画生成において,拡散モデルと因果推論を組み合わせた自己回帰モデルが有望視されている。
    • 既存の自己回帰拡散モデルは,効率的なスケーリングが困難である。
    • 時間規模のリアルタイム人物アニメーションにおける不安定な学習と推論効率の低下を改善すること。
    • 本研究では,近傍強制という拡散ステップ一貫性のある自己回帰的定式化を提案し,安定した学習信号とドリフトの維持を実現した。
    • さらに,因果注意におけるキーと値を固定長表現に圧縮するConvKVメモリ機構を導入し,定常的なメモリ推論と無限の動画生成を可能にした。
    • 実験の結果,既存手法と比較して学習収束,生成品質,推論効率が大幅に向上し,2基のNVIDIA H100/H200 GPUで時間規模のリアルタイム人物アニメーションを実現した。

    Link: https://arxiv.org/abs/2603.11746

  • HaltNav:軽量トポロジカル事前情報を用いたリアクティブな視覚停止によるロバストな視覚言語ナビゲーション [cs.CL, cs.NI, cs.RO, cs.CV]目的:視覚言語ナビゲーションにおけるロバスト性の向上
    • 視覚言語ナビゲーションは,より自律的な行動を可能にするために重要である。ロボットの環境理解と行動計画に不可欠な技術。
    • 従来のナビゲーションは,詳細な地図に依存し,環境変化に弱いという課題があった。
    • 環境変化にロバストに対応できる,新しいナビゲーションフレームワークを開発すること。
    • 提案手法HaltNavは,osmAGと呼ばれる軽量なトポロジカル事前情報とVLNのローカル探索能力を組み合わせることで,ロバストなナビゲーションを実現した。
    • 特に,環境の変化(閉じたドアなど)を検出し,経路を再計画するReactive Visual Halting(RVH)メカニズムが有効であることを示した。
    • データ合成パイプラインを用いることで,学習効率を向上させ,長距離ナビゲーションにおけるロバスト性を大幅に改善した。

    Link: https://arxiv.org/abs/2603.12696

  • マルチモーダルOCR:ドキュメントからのあらゆるものを解析 [cs.CV]目的:ドキュメントのテキストとグラフィックスを統合的なテキスト表現として解析する手法
    • デジタル化されたドキュメントの活用が重要であり,情報抽出の精度向上が求められている。
    • 従来のOCRシステムでは,グラフィックス要素の解析が不十分であり,ドキュメント全体の理解を妨げる。
    • テキストとグラフィックスを等価に扱い,セマンティックな関係を維持したドキュメント解析を実現する。
    • 提案手法は,ドキュメント解析ベンチマークにおいて,Gemini 3 Proに次ぐ性能を示し,既存のオープンソースシステムを上回る結果を得た。
    • 構造化グラフィックス解析においては,Gemini 3 Proよりも高い再構成品質を達成し,グラフ,UIレイアウト,科学図などの解析性能が確認された。
    • 本研究は,マルチモーダル事前学習のための大規模な画像-コードコーパス構築へのスケーラブルな道筋を示すものである。

    Link: https://arxiv.org/abs/2603.13032

  • 効率的な長尺動画推論のためのマルチエージェント知覚・行動連携 [cs.CV, cs.MA]目的:効率的な長尺動画推論の実現
    • 動画理解は,様々な応用において不可欠であり,その重要性は増している。
    • 長尺動画の推論は,計算コストが高く,効率的な手法が求められている。
    • マルチエージェント連携による,長尺動画の効率的かつ高精度な推論を目指す。
    • 提案手法A4VLは,マルチラウンドの知覚・行動探索ループを通じて,長尺動画の推論を行う。
    • 複数のVLMエージェントが協調し,イベント駆動型の分割と手がかりに基づくブロックアラインメントを行うことで,高精度な推論を可能にする。
    • 5つのVideoQAベンチマークにおいて,既存のVLMや長尺動画推論に最適化された手法を凌駕し,推論速度も向上した。

    Link: https://arxiv.org/abs/2603.14052

  • ITKIT:SimpleITKとMMEngineに基づく実行可能なCT画像解析 [cs.SE, cs.CV]目的:CT画像解析のための実行可能性評価
    • 臨床診断や治療においてCT画像は不可欠であり,その解析技術の重要性は高い。
    • 既存のフレームワークは,使いやすさや設定の柔軟性に課題が残されている場合がある。
    • ITKITは,より使いやすく設定可能なCT画像解析パイプラインを提供することを目指す。
    • ITKITは,DICOMから3Dセグメンテーション推論までの完全なパイプラインを提供する。
    • 基本的な操作はCLIを通じて容易に実行でき,低スペック環境でも利用可能である。
    • OneDL-MMEngineフレームワークにより,高度なユーザーは柔軟なモデル設定とデプロイが可能となる。

    Link: https://arxiv.org/abs/2603.14255

  • 未ラベルデータとLiDARデータを用いた人体姿勢推定のためのmmWaveデータセットの拡張 [cs.CV]目的:人体姿勢推定のためのmmWaveデータセットの拡張
    • mmWave技術は,屋内環境での人体姿勢推定に有用であり,プライバシー保護にも貢献する。
    • 既存のmmWaveデータセットは規模が小さく,多様性に乏しいため,汎化性能が低い。
    • 未ラベルのmmWaveデータとLiDARデータを利用することで,データセットの多様性と規模を拡大し,汎化性能を向上させる。
    • 提案手法EMDULは,未ラベルmmWaveデータに擬似ラベルを付与し,LiDARデータをmmWaveデータに変換することで,データセットを拡張する。
    • 拡張されたデータセットを用いることで,様々な人体姿勢推定モデルの性能が向上し,in-domainおよびout-of-domain設定において,それぞれ15.1%と18.9%の誤差が減少した。
    • 本研究で開発したコードは公開されており,再現性と発展を促進する。

    Link: https://arxiv.org/abs/2603.14507