arXiv雑要約

画像・音声 - 2026/03/23 公開

  • AI生成動画の評価に関する調査 [cs.CV]目的:AI生成動画の評価手法
    • AI技術の発展に伴い,動画生成の可能性が広がり,その品質評価が重要になっている。
    • 動画は静止画やテキストと異なり,時間的な要素を含むため,評価が複雑である。
    • AI生成動画が人間の知覚と一致し,指示を満たす度合いを評価する枠組みを確立すること。
    • 本調査は,AI生成動画評価(AIGVE)という新しい分野を明らかにし,既存の手法を構造的に分析した。
    • 現在の評価アプローチの強みと課題を提示し,より堅牢で微妙な評価フレームワークの開発を提唱した。
    • 学術研究者と実務家双方のための基礎知識を確立し,AI生成動画の評価方法の将来的な進歩を促進する。

    Link: https://arxiv.org/abs/2410.19884

  • AtGCN:失調歩行検出のためのグラフ畳み込みネットワーク [cs.CV, cs.LG]目的:失調歩行の検出および重症度識別
    • 歩行分析は,様々な疾患の診断に不可欠であり,患者のQOL向上に貢献する。
    • 失調歩行は正常な歩行との差異が微細であり,検出が困難である。
    • 本研究は,データセットの小規模性という課題を克服し,高精度な失調歩行検出を目指す。
    • 提案手法AtGCNは,既存手法を上回り,検出精度93.46%,平均絶対誤差0.4169を達成した。
    • AtGCNは,既存手法と比較して5.5倍小型であり,効率的なモデルである。
    • 時空間グラフ畳み込みと,歩行周期に分割するデータ拡張により,微細な特徴を捉えることに成功した。

    Link: https://arxiv.org/abs/2410.22862

  • GoDe:プログレッシブレベルの詳細とスケーラブルな圧縮のためのオンデマンドガウス関数 [cs.CV]目的:プログレッシブレベルの詳細とスケーラブルな圧縮を実現するフレームワーク
    • 3Dコンテンツの表現・レンダリングにおいて,効率的な圧縮技術が不可欠である。
    • 既存の圧縮手法は単一レートであり,様々な環境への適応が困難である。
    • 単一モデルから多様なレート・歪み特性を実現し,スケーラブルな圧縮を可能とする。
    • GoDeは,3D Gaussian Splattingに対して,再学習やレベルごとの微調整なしに複数のレート・歪み特性をサポートする。
    • GoDeは,最先端の単一レート手法と同等のレート・歪み性能を達成しつつ,スケーラブルな圧縮と適応レンダリングを実現する。
    • 訓練された明示的な放射モデルが持つ情報の構造化された分布を利用し,勾配感度に基づいたガウス素数の編成を行う。

    Link: https://arxiv.org/abs/2501.13558

  • イベントカメラにおけるバイアス調整の理論 [cs.CV, math.OC]目的:イベントカメラのバイアス調整に関する理論的基礎
    • 近年,脳型カメラという新しいセンシング技術が注目されており,低消費電力かつ高速な情報処理が期待される。
    • イベントカメラの性能はバイアス設定に大きく依存するが,最適なバイアス調整は複雑な課題である。
    • バイアス調整の原理に基づき,多変数の問題を二パラメータ問題に削減し,実験的な解決を可能にすること。
    • バイアスの感度とイベント発生率の関係を数学的に定式化し,理論的基盤を確立した。
    • ポアンカレ・ミランダの定理を応用することで,レート予算と極性バランスという一般的な調整原理が,一意なバイアス設定をもたらすことを示した。
    • これらの原理を用いることで,多変数のバイアス調整問題を実験的に解決可能な二パラメータ問題に簡略化できることを示した。

    Link: https://arxiv.org/abs/2501.18788

  • SASNet:空間適応正弦ネットワークによるINRs [cs.CL, cs.SI, cs.DL, cs.CV]目的:陰式ニューラル表現(INR)のための空間適応正弦ネットワーク
    • 画像やグラフィックス分野で低次元信号を扱う上で,陰式ニューラル表現の重要性が高まっている。
    • 正弦ネットワーク(SIRENs)の学習は不安定で,周波数初期化に大きく依存する問題がある。
    • SIRENsの学習安定化と,詳細領域と滑らか領域での適切な周波数割り当てを目指す。
    • 提案手法SASNetは,固定された周波数埋め込み層と学習可能な空間マスクを組み合わせることで,最適化を安定化させる。
    • その結果,エッジが鮮明になり,滑らかな領域のノイズが抑制されることが確認された。
    • 2D画像,3Dボリュームデータ,符号付き距離場再構成のベンチマークにおいて,SASNetは高い再構成品質とロバストな周波数局在性を示した。

    Link: https://arxiv.org/abs/2503.09750

  • 分離された制御可能な人間画像生成の探求:エンドツーエンドから段階的アプローチへ [cs.CV]目的:人間画像の分離と制御可能な生成
    • 画像生成技術は,多様な応用可能性を持つため,近年注目を集めている。
    • 既存手法では,視点,ポーズ,服装,IDなどを同時に制御することが困難である。
    • 本研究は,これらの要素を分離し,より自然で制御可能な画像生成を目指す。
    • エンドツーエンドモデルでは,MVHumanNetと実データ間のドメインギャップが課題となった。
    • 段階的フレームワークは,異なるデータセットを効果的に活用し,制御性と汎化性能を向上させた。
    • 提案手法は,視覚的品質と分離性の両面において,エンドツーエンドモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2503.19486

  • 自律運転のための疑似シミュレーション [cs.RO, cs.AI, cs.CV, cs.LG]目的:自律運転システムの評価手法
    • 自律運転技術の安全性確保は不可欠であり,信頼性の高い評価手法が求められている。
    • 実走行評価は安全上の問題があり,シミュレーションは現実との乖離や計算コストが高いという課題がある。
    • 実データと合成データを用いて,効率的かつ高精度な評価を実現する。
    • 提案手法である疑似シミュレーションは,実データに3D Gaussian Splattingで生成した合成データを加えることで,評価の精度向上を目指している。
    • 疑似シミュレーションの結果は,既存のオープンループ評価手法よりもクローズドループシミュレーションとの相関が高いことが示された ($R^2=0.8$ vs $R^2=0.7$)
    • コミュニティ向けの公開リーダーボードを設置し,新たな手法のベンチマークを促進する。

    Link: https://arxiv.org/abs/2506.04218

  • DreamCS:ペアなし3D報酬を用いた幾何学的知識に基づくテキストから3D生成 [cs.CV]目的:テキストから3D生成における人間による好みの整合性向上
    • 3Dコンテンツ生成の需要増加に伴い,高品質な3Dアセットの自動生成技術が重要視されている。
    • 既存手法は,幾何学的制約を満たせず,人間が好む形状を生成することが困難である。
    • ペアデータを用いずに,3D形状に関する人間の好みを直接学習し,生成品質の向上を目指す。
    • 本研究では,大規模なペアなし3D好みのデータセット3D-MeshPrefを構築し,幾何学的知識に基づいた報酬モデルRewardCSを開発した。
    • RewardCSは,Cauchy-Schwarz divergenceを用いて,3D形状に対する人間の好みを効果的に学習する。
    • DreamCSはRewardCSを統合し,生成される3Dアセットの幾何学的正確性と人間による好みを両立している。

    Link: https://arxiv.org/abs/2506.09814

  • 生成ブロックワールド:画像内での物体の移動 [cs.GR, cs.CV]目的:生成された画像内のシーンを,単純な幾何学的抽象化を用いて操作すること
    • 画像生成技術は,多様な視覚コンテンツの作成に不可欠であり,その応用範囲は広い。
    • 既存の画像編集技術では,一貫性のあるテクスチャを維持しながら,複雑なシーンを編集することが困難である。
    • 生成画像内の物体移動と編集を,より高精度かつ一貫性を持って実現すること。
    • シーンを凸3Dプリミティブの集合として表現することで,構造全体または詳細な部分の移動が可能となった。
    • 深度とテクスチャヒントに基づいて画像生成を行うことで,既存技術よりも高いテクスチャの一貫性を実現した。
    • 実験の結果,本手法は視覚的な忠実度,編集可能性,構成的な一般化において,既存手法を上回ることが示された。

    Link: https://arxiv.org/abs/2506.20703

  • PoseMaster:様式化されたポーズ生成のための統一的な3Dネイティブフレームワーク [cs.CV]目的:様式化されたポーズ生成における3D生成とポーズ様式化の統合
    • 2D,3D,動画といった多様な分野において,ポーズに沿った様式化されたコンテンツの合成は不可欠である。
    • 既存手法は2Dモデルを介して3D表現を生成するため,精度と多様性に限界がある。
    • 本研究は,累積誤差を減らし,より高精度で多様な3Dポーズ様式化を実現する。
    • PoseMasterは,既存の最先端手法と比較して,定性的および定量的な評価において優れた性能を示した。
    • 3Dメッシュとスケルトンの厳密な空間的整合性により,自動スキニングモデルと組み合わせることでアニメーション可能なアセットを直接作成できる。
    • 本研究は,キャラクターリギングの自動化におけるPoseMasterの潜在能力を強調する。

    Link: https://arxiv.org/abs/2506.21076

  • 原理に基づいた多Modal表現学習 [cs.CV, cs.LG, cs.MM]目的:多Modal表現の学習
    • AIの発展には,画像やテキストなど多様な情報を統合する多Modal理解が不可欠である。
    • 従来の学習法は特定のModalに依存し,すべてのModal間の整合性を確保することが困難であった。
    • 本研究は,アンカー依存性なく,より安定的に多Modalを同時に整合させることを目指す。
    • PMRLは,文脈行列の主要特異値の最適化により,複数のModalを共有する主要な方向に整合させる新しいフレームワークである。
    • 特異値をlogitとして扱うsoftmaxベース損失関数により,最大の特異値を優先し,安定した学習を実現している。
    • インスタンスごとの対照的な正則化により,インスタンス間の分離性を維持し,表現の崩壊を防ぐ。

    Link: https://arxiv.org/abs/2507.17343

  • LEDベンチマーク:ドキュメントレイアウト解析における構造的レイアウトエラーの診断 [cs.CV]目的:ドキュメントレイアウト解析における構造的エラーの検出と評価
    • ドキュメント理解は,情報検索や知識獲得において不可欠な要素である。
    • 既存の評価指標は,空間的な重複に偏っており,構造的エラーの検出が困難である。
    • 構造的エラーを的確に評価し,ドキュメントレイアウトモデルの改善を促進すること。
    • 本研究では,構造的エラーに焦点を当てた新たなベンチマーク「LED」を提案した。
    • LEDは,8種類の標準的なエラータイプを定義し,3つの評価タスクを構成する。
    • 実験結果から,LEDは従来の指標では見過ごされがちなモデルの構造理解能力の違いを明確に示せた。

    Link: https://arxiv.org/abs/2507.23295

  • 赤外線・可視画像融合のための双曲サイクルアラインメント [cs.CV]目的:赤外線画像と可視画像からの情報統合
    • 複数画像の情報を統合することで,単一の画像システムでは得られない高度な情報表現が可能となる。
    • 従来の画像登録手法は,ユークリッド空間に基づくため,異なる種類の画像間のずれを正確に処理できない場合がある。
    • 双曲空間を利用することで,異なる種類の画像間のずれをより効果的に検出し,正確な画像登録を実現することを目指す。
    • 本研究では,双曲空間に基づく新しい画像登録手法であるHy-CycleAlignを提案した。
    • Hy-CycleAlignは,双方向のサイクル登録フレームワークと,双曲階層コントラストアラインメントモジュールを特徴とする。
    • 実験の結果,Hy-CycleAlignは既存手法と比較して,画像アラインメントと融合の両方の性能において大幅な改善が見られた。

    Link: https://arxiv.org/abs/2507.23508

  • スタンドイン:ビデオ生成のための軽量かつプラグアンドプレイ可能なID制御 [cs.CV]目的:ユーザー指定のIDに一致する高忠実度な人物ビデオの生成
    • 生成AI分野において,多様なIDに対応したビデオ生成の需要が高まっている。
    • 既存手法はパラメータ数が多く,他のAIGCツールとの互換性が低いという課題がある。
    • 事前学習済みのモデルを活かし,軽量かつ汎用的なID制御手法を確立することを目指す。
    • 本研究では,事前学習済みビデオ生成モデルに条件付き画像分岐を導入するStand-Inを提案した。
    • 条件付き位置マッピングを用いた制限付き自己注意機構により,ID制御を実現している。
    • わずか1%の追加パラメータと2000組の訓練ペアで,他のフルパラメータ学習法を上回る性能を示した。

    Link: https://arxiv.org/abs/2508.07901

  • 上位クラスによる表現分離:欺瞞相関の緩和 [cs.CV, cs.AI, cs.LG]目的:欺瞞相関の緩和手法
    • 機械学習モデルの汎化性能向上には,データの潜在的な偏りを理解し対処することが重要である。
    • 既存手法はグループ注釈に依存し,学習データとテストデータでグループ構成が一致することが前提となる。
    • 事前学習済みのビジョン言語モデルを活用し,より本質的な信号を用いて欺瞞相関を特定・緩和する。
    • 提案手法は,グループ構造や欺瞞相関が複雑な場合でもロバスト性を実現できる。
    • 学習データへの注釈を必要とせず,既存の強力なベースライン手法を大幅に上回る性能を示す。
    • 定量的な評価指標と定性的な可視化の両面で,ビジョン言語モデルのガイダンスを超えた明確な改善が見られた。

    Link: https://arxiv.org/abs/2508.08570

  • マッシュ,スプレッド,スライス!視覚空間的進行による物体状態操作の学習 [cs.RO, cs.CV]目的:物体状態変化操作タスクにおける統一的フレームワークの構築
    • ロボットの操作技術は,産業や生活を支える基盤技術であり,その重要性は高い。
    • 従来のロボット操作は物体の位置移動に偏り,マッシュやスプレッドのような状態変化操作は未発達である。
    • 物体状態変化操作において,視覚情報に基づいた効率的な学習手法を確立することを目指す。
    • SPARTAは,物体状態変化操作タスクを統一的に扱う初のフレームワークである。
    • SPARTAは,視覚的スキルと進捗に応じた報酬設計により,学習時間と精度を向上させた。
    • 実験結果から,進捗を意識した視覚表現が,物体状態操作タスクの基盤として有効であることが示された。

    Link: https://arxiv.org/abs/2509.24129

  • ZOO-Prune:視覚言語モデルにおけるゼロ次勾配推定による学習不要トークン剪定 [cs.CV]目的:視覚言語モデルにおける冗長な視覚トークンの削減
    • 大規模な視覚言語モデルは強力だが,計算コストが高い。効率化が求められている。
    • 既存のトークン剪定手法は,不安定な注意スコアや不要な領域の削除といった課題がある。
    • トークンの影響度を効率的に推定し,高精度な剪定を実現すること。
    • ZOO-Pruneは,学習を必要とせず,既存手法を上回る剪定性能を達成した。
    • 最大94.4%のトークンを剪定しても,精度を維持することが確認された。
    • エンドツーエンド推論速度は,ベースラインと比較して最大2.30倍向上した。

    Link: https://arxiv.org/abs/2509.24837

  • VR-Thinker:画像を用いた思考推論による動画報酬モデルの性能向上 [cs.CV]目的:動画報酬モデルにおける思考推論能力の向上
    • 動画生成モデルの事後学習において,マルチモーダル報酬モデルの重要性が増している。
    • 既存の報酬モデルは,コンテキスト長の制限から詳細な情報が失われやすい。
    • 画像を用いた思考推論により,報酬モデルの推論精度と信頼性を高める。
    • VR-Thinkerは,動画の重要なフレームを選択し,コンテキスト内で視覚的証拠を更新することで,推論能力を向上させる。
    • 厳選されたデータを用いた初期学習と,高精度なサンプルを用いたリジェクションサンプリングによるファインチューニングを実施。
    • VideoGen Rewardで80.5%,GenAI-Benchで82.3%,MJ-Bench-Videoで75.6%を達成し,最先端の性能を示した。

    Link: https://arxiv.org/abs/2510.10518

  • SpikeGrasp:ステレオスパイクストリームからの6自由度把持姿勢検出のためのベンチマーク [cs.RO, cs.CV]目的:6自由度把持姿勢の検出
    • ロボットの把持は,自動化における重要な要素であり,産業や生活の様々な場面で活用が期待される。
    • 従来のシステムは3D点群の再構成に依存しており,計算コストが高く,生物の視覚システムとは異なる。
    • スパイクカメラを用いた,点群再構成を必要としない,生物に触発された新しい把持システムの実現を目指す。
    • SpikeGraspは,ステレオスパイクカメラからの情報を直接利用し,把持姿勢を効率的に検出できることを示した。
    • 特に,乱雑な環境やテクスチャの少ない環境において,従来の点群ベースの手法を上回る性能を発揮する。
    • この研究は,生物の神経回路を模倣した,効率的で柔軟なロボット把持システムの開発を促進する。

    Link: https://arxiv.org/abs/2510.10602

  • 大規模ビジョンモデルにおけるプロンプトベース適応:サーベイ [cs.CV]目的:大規模ビジョンモデルのプロンプトベース適応手法の体系的な整理と現状把握
    • 大規模ビジョンモデルの活用は,様々な画像認識タスクにおいて高い性能を発揮するが,学習コストが高い。
    • Visual PromptingとVisual Prompt Tuningは混同されやすく,それぞれの特徴と適用範囲が明確になっていない。
    • プロンプトベース適応(PA)の枠組みを通して,VPとVPTを区別し,その分類と応用を明確にすること。
    • 本サーベイでは,プロンプトベース適応(PA)を,ピクセルレベルのVPとトークンレベルのVPTに分類する枠組みを提示した。
    • 固定,学習可能,生成の各プロンプト生成メカニズムに基づいたPA手法の分類を行った。
    • 医療画像,3D点群,視覚言語タスクなど,多様なドメインにおけるPAの応用例と,今後の課題・方向性をまとめた。

    Link: https://arxiv.org/abs/2510.13219

  • 顔認識埋め込みにおける方向的アライメントによる交差的バイアスの発見 [cs.CV, cs.LG]目的:顔認識埋め込みにおける交差的バイアスの検出
    • 顔認識技術はセキュリティや利便性の向上に貢献するが,バイアスは公平性を損なうため重要。
    • 既存手法では,定義済みの属性や距離に基づくクラスタリングに頼り,潜在的な交差的サブグループを捉えられない。
    • 潜在的な方向的特徴を利用し,属性情報に依存せずに交差的バイアスを検出し,公平性を評価すること。
    • LatentAlignは,既存のクラスタリング手法よりも意味的に一貫性のあるグループを検出することに成功した。
    • 検出されたサブグループは,明示的な注釈によるグループよりも高い誤マッチ率を示す交差的な脆弱性を明らかにした。
    • 潜在的な属性を方向的特徴として扱うことで,標準的な監査では見過ごされる隠れたバイアスを効率的に特定できる。

    Link: https://arxiv.org/abs/2510.15520

  • CARES:文脈を考慮したVLMのための解像度選択器 [cs.CL, cs.CV, cs.AI, cs.LG]目的:VLMにおける最小限必要な入力解像度の予測
    • VLMは多様なタスクで高い性能を発揮するが,計算コストが大きいという課題がある。
    • VLMは高解像度画像を処理することが多く,計算資源を無駄に消費している。
    • 入力解像度を最適化することで,計算コストを削減しつつ性能を維持することを目指す。
    • 提案手法CARESは,画像とクエリのペアから適切な解像度を予測する軽量なモジュールである。
    • CARESは,計算量を最大80%削減しながら,タスク性能を維持できる。
    • 解像度を連続的に制御することで,よりきめ細かい調整が可能となる。

    Link: https://arxiv.org/abs/2510.19496

  • RobotArena ∞:実世界からシミュレーションへの翻訳によるスケーラブルなロボットベンチマーキング [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボットベンチマーキングフレームワークの構築
    • 多様な環境でのタスク実行能力を持つ汎用ロボットの実現が求められており,その評価方法が重要である。
    • 実世界でのロボットポリシーのテストには,労力,時間,安全性,再現性などの課題が存在する。
    • 大規模シミュレーション環境とオンライン人間のフィードバックを活用し,これらの課題を克服することを目指す。
    • RobotArena Infinityは,ビデオデモンストレーションをシミュレーション環境に自動変換することで,大規模な評価を可能にする。
    • 自動化された視覚言語モデルによるスコアリングと,クラウドワーカーによる人間による選好判断を組み合わせることで,効率的な評価を実現する。
    • シミュレーション環境を系統的に摂動させることで,ポリシーのロバスト性を評価し,汎化性能を検証する。

    Link: https://arxiv.org/abs/2510.23571

  • CompAgent:視覚的コンプライアンス検証のためのエージェント的フレームワーク [cs.CL, cs.CV]目的:視覚的コンプライアンス検証の枠組み
    • メディア,エンタメ,広告などにおいて,コンテンツのポリシー遵守は重要課題である。
    • 既存手法は,コスト高な教師データに依存し,汎用性に乏しい点が課題である。
    • 大規模言語モデルの弱点を補い,視覚的詳細に基づいた構造化されたコンプライアンス検証を実現する。
    • CompAgentは,既存の分類器,直接プロンプティング,ルーティングベースラインを上回る性能を示した。
    • UnsafeBenchデータセットにおいて,最先端技術を10%上回り,F1スコアで最大76%を達成した。
    • エージェント的計画と堅牢なツール拡張推論が,スケーラブルな検証に有効であることが示された。

    Link: https://arxiv.org/abs/2511.00171

  • 局所的な監督を用いたグローバル画像復元 [cs.CV, cs.NA, math.NA]目的:不完全な計測からの画像再構成
    • 画像処理技術は,医療画像診断など幅広い分野で重要である。
    • 従来の教師あり学習は完全なデータが必要であり,現実的な制約がある。
    • 固定的なサンプリングパターン下での画像復元性能向上を目指す。
    • 提案手法は,光音響顕微鏡(PAM)における超解像画像復元で,既存手法と同等以上の性能を示した。
    • 特に,大幅に少ない教師データで同等の性能を実現した点が特徴である。
    • 画像の潜在的な不変性を活用することで,教師データ不足の問題を克服した。

    Link: https://arxiv.org/abs/2511.01998

  • カメラ認識型クロスビューアライメントによる参照3Dガウススプラッティングセグメンテーション [cs.CV]目的:参照3Dガウススプラッティングセグメンテーションにおける,自由形式の言語クエリを3Dガウス場にグラウンディングすること。
    • 3次元シーンの理解とインタラクションにおいて,言語による指示は重要な役割を担う。
    • 既存手法は単一視点からの疑似教師あり学習に依存しており,視点ドリフトや視点間の一貫性のない予測が問題となる。
    • カメラ情報を活用し,異なる視点間の一貫性を高めることで,より正確な3Dセグメンテーションを目指す。
    • 提案手法CaRFは,カメラ情報をガウス-テキスト相互作用に注入し,異なる視点からの応答を明示的にアライメントする。
    • CaRFは,Ref-LERF,LERF-OVS,3D-OVSの3つのベンチマークにおいて最先端の性能を達成し,mIoUをそれぞれ16.8%,4.3%,2.0%改善した。
    • 視点間不一致を最適化可能な目的関数とすることで,3Dガウス空間内でのジオメトリを意識した推論を可能にする。

    Link: https://arxiv.org/abs/2511.03992

  • 動的勾配誘導による多Modal継続的命令チューニング [cs.CV]目的:多Modal大規模言語モデルにおける継続学習における,破滅的忘却の軽減
    • 近年,大規模言語モデルの発展が著しいが,新しいタスクへの適応能力向上が求められている。
    • 継続学習では,新しいタスクを学習する際に,過去に学習した知識が失われる「破滅的忘却」が問題となる。
    • 過去のタスクからの勾配消失に着目し,幾何学的性質を利用した勾配誘導によって忘却を抑制する。
    • 提案手法は,現在のパラメータと過去の最適パラメータの方向ベクトルを利用し,失われた勾配を近似する。
    • 限られたリプレイバッファとベルヌーイサンプリング戦略を組み合わせ,モデルの安定性と可塑性を動的に調整する。
    • 多Modal継続的命令チューニングデータセットにおいて,モデル拡張なしに最先端の性能を達成し,破滅的忘却を効果的に軽減する。

    Link: https://arxiv.org/abs/2511.15164

  • FastMMoE:動的エキスパート活性化とルーティング認識型トークンプルーニングによるマルチモーダル大規模言語モデルの高速化 [cs.CV, cs.LG]目的:マルチモーダル大規模言語モデルの高速化手法
    • マルチモーダル大規模言語モデルは高性能だが,高解像度画像入力による計算負荷が大きい
    • 既存の画像トークンプルーニングは,注意機構に依存しており,MoEアーキテクチャには最適ではない
    • MoEベースのモデルにおいて,計算量とメモリ使用量を削減しつつ性能を維持することを目指す
    • FastMMoEは,エキスパートの活性化削減とルーティング認識型トークンプルーニングを組み合わせる。
    • FLOPsを最大55.0%削減しつつ,元の性能の約95.5%を維持できる。
    • DeepSeek-VL2やInternVL3.5といった大規模モデルで,既存のプルーニング手法よりも優位性を示す。

    Link: https://arxiv.org/abs/2511.17885

  • 対応関係の指針による3次元一貫性のあるマルチビュー編集 [cs.CV, cs.AI, cs.LG]目的:3次元一貫性のあるマルチビュー編集手法
    • 近年の画像生成技術の発展に伴い,3次元表現の編集需要が高まっている。
    • 既存手法では,異なる視点間での幾何学的・光度的な不整合が課題となっていた。
    • 異なる視点間で対応する点は,編集後も類似性を持つべきであるという制約を導入する。
    • 本研究では,学習不要な指針フレームワークを提案し,編集過程でマルチビューの一貫性を強化する。
    • 提案手法は,既存のマルチビュー編集手法と比較して,3次元の一貫性を大幅に向上させる。
    • 一貫性の向上により,高品質なガウススプラット編集を実現し,ユーザー指定のテキストプロンプトへの忠実度を高める。

    Link: https://arxiv.org/abs/2511.22228

  • フローマッチング生成モデルにおけるテスト時スケーリングの再考 [cs.CV]目的:テスト時スケーリングによる画像生成性能の向上
    • 画像生成モデルの性能向上は,AI研究において重要な課題である。
    • フローマッチングモデルにおけるテスト時スケーリングは計算コストが高く,効率性が課題である。
    • 多様性と報酬の正確性を高め,効率的なテスト時スケーリングを実現すること。
    • 提案手法DOG-Trimは,既存手法と比較して,同じ計算コストで約2倍の性能向上を達成した。
    • トークンレベルでの多様性向上メカニズムRepelと,ノイズを考慮した報酬微調整NARFが有効である。
    • フローモデル特有の分布の偏りを克服し,早期段階での報酬モデルのバイアスを軽減した。

    Link: https://arxiv.org/abs/2511.22242

  • CryoHype:Transformerベースのハイパーネットワークによる1000のクライオEM構造の再構成 [cs.CV]目的:クライオEM画像からの多様な分子種の構造再構成
    • クライオ電子顕微鏡は,動的な生体分子複合体の3次元構造決定に不可欠な技術である。
    • 既存手法は,単一または少数の構造内での構造異質性に焦点を当てており,複数の分子種混合に起因する組成異質性の解決には不向きである。
    • 本研究は,クライオEM画像から多数の異なる構造を効率的に再構成することを目指す。
    • CryoHypeは,Transformerベースのハイパーネットワークを用いて,暗黙的ニューラル表現の重みを動的に調整する。
    • 難しいベンチマークデータセットにおいて,最先端の結果を達成した(100構造)。
    • ラベルなしクライオEM画像から1000の異なる構造を再構成できることを実証した(固定ポーズ設定)。

    Link: https://arxiv.org/abs/2512.06332

  • 大規模推論モデルにおける潜在的探索による推論:ReLaX [cs.LG, cs.CV]目的:大規模推論モデルの推論能力向上のための潜在的探索の枠組み
    • 大規模言語モデルの推論能力は,様々なタスクにおいて重要な役割を担う。
    • 強化学習を用いた推論能力向上は,過度な決定論に陥りやすく,探索が不十分になる。
    • 潜在的なダイナミクスに着目し,探索と活用間のバランスを改善することで,推論能力を向上させる。
    • ReLaXは,Koopman演算子理論に基づき,モデルの潜在的なダイナミクスを解析し,多様性を促進する。
    • 提案手法は,様々なベンチマークで既存手法を上回り,推論能力の向上が確認された。
    • 潜在的ダイナミクスの異質性を定量化する新しい指標Dynamic Spectral Dispersion(DSD)を導入した。

    Link: https://arxiv.org/abs/2512.07558

  • EagleVision:BEVグラウンディングに基づく思考の連鎖を用いた二段階フレームワークによる空間知能 [cs.AR, cs.CV]目的:ビデオに基づく空間推論における高性能化
    • ロボット工学や自動運転において,周囲環境の正確な理解は不可欠である。
    • 既存のマルチモーダル大規模言語モデルは固定されたフレームのみを使用し,必要な情報を取得できない場合がある。
    • 視覚情報と空間情報を融合し,能動的に視点を変更することで,空間推論の精度を向上させる。
    • EagleVisionは,意味的関連性と視点多様性を考慮したフレーム選択により,効率的な情報収集を実現した。
    • BEV(鳥瞰図)に基づく思考の連鎖により,モデルは必要に応じてリアルなフレームを検索し,推論精度を高める。
    • VSI-BenchとSQA3Dにおいて,EagleVisionはオープンソースのビジョン-言語モデルの中で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.15160

  • CageDroneRF:ドローン知覚のための大規模RFベンチマークおよびツールキット [cs.CV, cs.AI, cs.RO]目的:ドローンRF検出および識別に関する大規模ベンチマークおよびツールキット
    • ドローン技術の進展に伴い,セキュリティ上の脅威が増加しており,ドローンの検知・識別技術の重要性が高まっている。
    • 既存のRFデータセットは規模が小さく,多様性に乏しいため,汎用的なRF知覚モデルの開発が困難である。
    • 実環境と合成データを組み合わせた包括的なベンチマークとツールキットを提供し,RF知覚モデルの進歩を加速させる。
    • CageDroneRFは,実際のキャプチャと体系的に生成された合成バリアントから構築された,大規模なRFデータセットである。
    • SNR制御,干渉源の注入,周波数シフトとバウンディングボックス再計算など,データ拡張パイプラインにより多様性を高めている。
    • 分類,オープンセット認識,物体検出のための標準化されたベンチマークを可能にし,厳密な比較と再現可能なパイプラインを支援する。

    Link: https://arxiv.org/abs/2601.03302

  • FeatureSLAM:特徴量強化3DガウススプラッティングによるリアルタイムSLAM [cs.CL, cs.CV]目的:特徴量強化3Dガウススプラッティングを用いたリアルタイムSLAMシステムの開発
    • SLAMはロボットの自律移動や環境理解に不可欠であり,その精度と効率が求められている。
    • 従来のSLAMは,セマンティック情報を活用しきれておらず,環境の理解や応用範囲に限界があった。
    • RGB-D入力に加え,セマンティック情報を統合することでSLAMの精度向上と新たな応用可能性を目指す。
    • 本手法は,既存のリアルタイムSLAMシステムと同等の追跡性能を維持しつつ,追跡安定性とマップの忠実性を向上させた。
    • 従来の固定クラスラベルを用いたセマンティックSLAMと比較して,姿勢誤差を9%,マッピング精度を8%低減した。
    • これにより,新たな視点からのセグメンテーションなど,ダウンストリームタスクの実現可能性を示した。

    Link: https://arxiv.org/abs/2601.05738

  • オープン環境と指示に基づく汎用的な視覚言語ナビゲーション:高速・低速インタラクティブ推論によるアプローチ [cs.DB, cs.CV]目的:多様な環境と指示に対する汎化されたナビゲーション能力の学習
    • 現実世界は多様であり,既存のナビゲーション手法では対応が困難な状況が多く存在する。
    • 従来の視覚言語ナビゲーションは,訓練データとテストデータが同一のスタイルに限定され,汎化性能が低い。
    • 未知の環境や不整合な指示に対しても,ロバストなナビゲーションを可能とする手法を開発する。
    • 高速・低速認知システムに着想を得たslow4fast-VLNは,動的なインタラクティブな推論フレームワークを構築した。
    • 高速推論モジュールはリアルタイム入力に基づいて行動を決定し,その実行履歴をメモリとして蓄積する。
    • 低速推論モジュールは蓄積されたメモリを分析し,汎化能力を高めるための経験を抽出し,高速推論モジュールの最適化に活用する。

    Link: https://arxiv.org/abs/2601.09111

  • 参照表現理解のための検証付きロバストかつ効率的なニューロシンボリック推論 [cs.CL, cs.AI, cs.CV]目的:参照表現理解における,ロバストかつ効率的なニューロシンボリック推論手法
    • 画像と自然言語を結びつける研究分野であり,人間とコンピュータの円滑なコミュニケーションに不可欠である。
    • 既存手法では,中間推論ステップの誤りが連鎖的に伝播し,誤検出を引き起こす可能性がある。
    • 推論ステップごとに検証を行い,誤りを抑制することで,より信頼性の高い推論を実現することを目指す。
    • 提案手法VIROは,推論演算子レベルの検証機能を組み込むことで,対象が存在しない場合でも適切に判断できる。
    • VIROは,既存の最先端手法と比較して,ターゲットが存在する場合と存在しない場合のバランスのとれた精度において優れた性能を示す。
    • プログラムの失敗率は0.3%以下であり,高い信頼性と効率性,そして拡張性も実現している。

    Link: https://arxiv.org/abs/2601.12781

  • RayRoPE:多視点Attentionのための射影光線位置エンコーディング [cs.CV, cs.LG]目的:多視点Transformerにおける位置エンコーディングのメカニズム
    • 3次元シーンの理解には,複数の視点からの情報を統合することが不可欠である。
    • 既存の位置エンコーディングは,3次元空間における不変性や柔軟性に課題がある。
    • 3次元シーンの幾何学構造に適応可能な位置エンコーディングを開発すること。
    • RayRoPEは,光線と射影座標を用いることで,$SE(3)$不変性を実現した。
    • 深度予測と不確実性のモデル化により,シーンの幾何学構造への適応を可能にした。
    • 新規視点合成やステレオ深度推定において,既存手法と比較して性能向上を確認した。

    Link: https://arxiv.org/abs/2601.15275

  • FD-VLA:力蒸留によるビジョン-言語-行動モデル - 接触豊富な操作向け [cs.RO, cs.CV]目的:接触豊富な操作における力感覚の統合
    • ロボットの高度な操作能力には,視覚,言語,行動の統合が不可欠である。接触豊かなタスクでは特に重要。
    • 従来のシステムは,高価で壊れやすい力センサに依存しており,ロボットの普及を妨げている。
    • 力センサなしでも,視覚情報から力を推定し,ロボットの操作性能を向上させる。
    • 提案手法FD-VLAは,物理的な力センサを必要とせずに,力を蒸留することで接触豊かな操作を可能にする。
    • 力蒸留モジュール(FDM)は,視覚情報とロボットの状態から予測される力ベクトルを生成し,VLMに注入する。
    • 実機実験の結果,蒸留された力ベクトルは,直接的なセンサ計測よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2602.02142

  • ビジョンベースセンシングを用いた予測安全性と飢餓回避制約を持つ不確実性認識対向型交通信号制御 [eess.SY, cs.SY, cs.CL, cs.CV]目的:交通信号制御における不確実性の考慮と安全性・公平性の確保
    • 交通渋滞の緩和と環境負荷の低減は,都市生活の質向上に不可欠である。
    • 従来の交通信号制御は,視覚情報に基づく認識の不確実性や安全性の問題,解釈困難な制御ポリシーが課題である。
    • 交通信号制御における安全性と公平性を明示的に保証し,実用的なシステムを構築すること。
    • 本研究では,確率的決定過程と制約条件に基づいたUCATSCを提案し,不確実性を考慮した対向型交通信号制御を実現した。
    • UCATSCは,安全制約と飢餓回避制約を明示的に設定することで,安全性と公平性を保証する。
    • シミュレーション結果から,交通遅延と排出量を改善しつつ,安全上の重大なエラーを防ぐことが示された。

    Link: https://arxiv.org/abs/2602.07784

  • ReMoT:運動コントラスト三つ組を用いた強化学習 [cs.CV]目的:視覚言語モデルにおける時空間的一貫性の欠如への対処
    • ナビゲーション,ロボティクス,自動運転といった分野において,時空間的一貫性は不可欠である。
    • 既存の視覚言語モデルは,微妙な運動属性の識別において課題を抱えている。
    • 運動コントラスト三つ組を用いた学習により,視覚言語モデルの時空間推論能力を向上させる。
    • 本研究では,動画メタ注釈に基づき,大規模な運動コントラストデータセットReMoT-16Kを構築した。
    • グループ相対的方策最適化が,コントラスト学習において最適な性能とデータ効率を示すことを実証した。
    • 提案手法は,新たなベンチマークや標準的な視覚言語モデルベンチマークにおいて最先端の性能を達成し,時空間推論タスクで25.1%の性能向上を実現した。

    Link: https://arxiv.org/abs/2603.00461

  • Vision-TTT:テスト時学習による効率的かつ表現力豊かな視覚表現学習 [cs.CV]目的:効率的かつ表現力豊かな視覚表現の学習
    • コンピュータビジョンの発展において,高性能な視覚表現の学習は不可欠である。
    • Vision Transformer(ViT)は拡張性に優れるが,自己注意メカニズムの計算量が課題である。
    • テスト時学習(TTT)を導入し,ViTの効率性と表現力を向上させることを目指す。
    • Vision-TTTはImageNet分類において,77.7%,81.8%,82.7%のTop-1精度を達成した。
    • ダウンストリームタスクにおいても,既存手法を大幅に上回る性能を示した。
    • 1280x1280解像度において,FLOPsを79.4%削減し,DeiT-Tと比較して4.72倍高速化,メモリ使用量を88.9%削減した。

    Link: https://arxiv.org/abs/2603.00518

  • 直感から調査へ:汎用的な顔認証改ざん防止のためのツール拡張型推論MLLMフレームワーク [cs.CV, cs.AI]目的:顔認証改ざん防止における,汎用性を高めるためのツール拡張型MLLMフレームワーク
    • 顔認証技術は広く利用されているが,改ざん攻撃に対して脆弱であるため,堅牢な改ざん防止技術が求められている。
    • 既存のMLLMベースの手法は,ドメイン間の汎用性に限界があり,微細な視覚的パターンを捉えるのが難しい。
    • 本研究は,外部ツールを用いてMLLMに詳細な調査を促し,改ざんの微妙な手がかりを捉えることで,汎用性を向上させる。
    • 提案手法TAR-FASは,Chain-of-Thought with Visual Tools (CoT-VT)パラダイムを採用し,直感的な観察から微細な調査へとMLLMを導く。
    • ToolFAS-16Kデータセットは,ツール利用の推論軌跡を含み,ツールを意識した学習パイプラインとDT-GRPOアルゴリズムにより効率的なツール利用を学習する。
    • 厳しいクロスドメイン評価において,TAR-FASは最先端の性能を達成し,信頼性の高い改ざん検出のための詳細な視覚的調査を提供する。

    Link: https://arxiv.org/abs/2603.01038

  • コントラスト信号による拡散再構成の誘導:バランスの取れた視覚表現に向けて [cs.CV, cs.AI, cs.LG]目的:バランスの取れた視覚表現の獲得
    • 画像とテキストの関連性を学習するCLIPモデルの性能向上は,多様な応用において重要である。
    • CLIPモデルの視覚エンコーダの表現能力がボトルネックとなっており,識別能力と詳細知覚能力のバランスが課題である。
    • 拡散モデルを用いた再構成にコントラスト信号を統合し,CLIPの表現能力の限界を克服することを目指す。
    • 拡散再構成にコントラスト信号を組み込むことで,識別能力と詳細知覚能力を同時に最適化できることを理論的に示した。
    • Diffusion Contrastive Reconstruction (DCR)という手法を提案し,コントラスト信号を再構成画像から注入することで最適化のバランスを取る。
    • 様々なベンチマークにおいて,提案手法DCRの有効性を検証し,多岐にわたるマルチモーダル大規模言語モデルで優れた性能を示した。

    Link: https://arxiv.org/abs/2603.04803

  • GazeShift:VR向け教師なし視線推定とデータセット [cs.CV]目的:VR環境における視線推定のためのデータセットと,教師なし学習フレームワーク
    • 現代のVRシステムにおいて,視線推定は没入感とインタラクションの向上に不可欠である。
    • VR環境下での大規模かつ正確なラベル付きデータセットが不足しており,研究の発展を阻害している。
    • オフ軸カメラ構成で撮影されたVR環境下での視線推定を,ラベルなしで実現することを目指す。
    • 大規模なVR向け視線推定データセットVRGazeを構築し,210万枚の近赤外線画像を収集した。
    • GazeShiftは,アテンション機構を用いて,ラベルなしで視線表現を学習するコンパクトでリアルタイムなモデルである。
    • VRGaze上では1.84度の平均誤差,MPIIGaze上では7.15度の個人非依存誤差を達成し,既存手法を凌駕した。

    Link: https://arxiv.org/abs/2603.07832

  • レイヤーの一貫性が重要:汎用性のある合成画像検出のための洗練された潜在的遷移の不一致 [cs.ET, cs.CV]目的:合成画像の検出における汎用性の向上
    • 生成モデルの急速な進歩により,合成画像が現実のものと区別がつかなくなり,メディアの信頼性やコンテンツ操作といったセキュリティリスクが生じている。
    • 既存の検出手法は,モデル固有のアーティファクトや低レベルな統計的特徴に依存するため,未知のデータへの汎用性に乏しい。
    • 本研究は,潜在表現における実画像と合成画像のレイヤー間の一貫性の違いに着目し,それを検出に利用することで,汎用性を高めることを目指す。
    • 実画像は潜在表現において,ネットワークの層間で一貫した意味的注意と構造的整合性を示すが,合成画像は明確な差異を示すという新たな発見があった。
    • 提案手法である潜在的遷移の不一致(LTD)は,実画像と合成画像の層間の一貫性の違いを捉え,識別力の高い層を適応的に特定する。
    • LTDは,多様なGANとDMを含む3つのデータセットにおいて,ベースモデルよりも平均正解率が14.35%向上し,最先端手法を上回る精度,汎用性,およびロバスト性を示した。

    Link: https://arxiv.org/abs/2603.10598

  • A$^2$-Edit:任意のオブジェクトと曖昧なマスクによる高精度な参照画像編集 [cs.CV]目的:任意のオブジェクトカテゴリにおける参照画像を用いた画像編集手法
    • 画像編集技術は,写真加工やコンテンツ生成など,多様な分野で重要性が増している。
    • 既存手法では,編集対象のカテゴリが限定的であったり,編集結果が均質化されてしまうという課題があった。
    • 多様なカテゴリに対応し,より自然で高精度な編集を実現することを目指している。
    • 提案手法A$^2$-Editは,粗いマスクのみを用いて,任意の対象領域を別のオブジェクトに置き換えることができる。
    • 大規模な多カテゴリデータセットUniEdit-500Kを構築し,モデルの汎化性能向上を図った。
    • Mixture of TransformerモジュールとMask Annealing Training Strategyにより,既存手法を大幅に上回る性能をVITON-HDやAnyInsertionなどのベンチマークで示した。

    Link: https://arxiv.org/abs/2603.10685

  • G2HFNet:光学リモートセンシング画像における顕著物体検出のためのジオグラン認識階層的特徴融合ネットワーク [cs.DC, cs.CV]目的:光学リモートセンシング画像における顕著物体検出の性能向上
    • リモートセンシング画像は多様な分野で利用され,その解析技術の重要性は高い。
    • 既存手法は,スケール変化や複雑な背景への対応が不十分であり,検出精度が課題である。
    • ジオグラン認識に基づく特徴融合により,リモートセンシング画像における検出精度を向上させる。
    • G2HFNetは,Swin Transformerをバックボーンに,詳細強調,ジオグラン補完,深層意味知覚モジュールを統合している。
    • マルチスケール詳細強調モジュールは,物体のスケール変化に対応し,細かい詳細を強化する。
    • 実験により,G2HFNetが難しいリモートセンシングシナリオで高い性能を示すことが証明された。

    Link: https://arxiv.org/abs/2603.12680

  • リモートセンシングにおける多実体推論に基づく質問応答ベンチマークと探索 [cs.CV]目的:リモートセンシング画像における多実体推論の基盤構築
    • リモートセンシング技術は,環境モニタリングや災害対応など,幅広い分野で不可欠である。
    • 既存手法は,単一実体への対応に偏っており,複雑な関係性を捉えきれていない。
    • 多実体間の関係性を考慮した推論能力の向上を目指す。
    • 新たなベンチマークデータセットME-RSRGを構築し,多実体推論の困難性を示した。
    • EARフレームワークが,視覚言語モデルを活用し,構造化された推論パスを生成することを確認した。
    • 実体認識を考慮した報酬駆動型GRPOによる最適化が,EARの性能向上に貢献することを実証した。

    Link: https://arxiv.org/abs/2603.12788

  • 効率的な長動画推論のためのマルチエージェント知覚・行動連携 [cs.RO, cs.MA, cs.CV, cs.MA]目的:長動画推論における効率化
    • 動画理解は,様々な応用において重要であり,特に長尺動画の解析は課題となっている。
    • 既存手法では,長動画全体の処理に高い計算コストが必要であり,推論速度が課題となっていた。
    • マルチエージェントによる連携を通じて,長動画の効率的な推論を実現し,低遅延化を目指す。
    • 提案手法A4VLは,複数のVLMエージェントによる知覚・行動探索ループを用いることで,長動画推論を効率化する。
    • イベント駆動型分割と手がかりに基づいたブロックアライメントにより,高品質な動画推論を維持しつつ,実世界の長動画へのスケーラビリティを実現した。
    • 5つの主要なVideoQAベンチマークにおいて,A4VLは既存のVLMや長動画推論に最適化された手法を凌駕し,推論速度も大幅に向上した。

    Link: https://arxiv.org/abs/2603.14052