arXiv雑要約

画像・音声 - 2026/03/24 公開

  • 拡散プローブ:CNNプローブによる生成画像結果予測 [cs.CV]目的:生成画像の品質予測手法
    • 画像生成AIの発展に伴い,効率的な品質評価が不可欠となっている。
    • 生成AIは試行錯誤が必要で,計算コストが高いという課題がある。
    • 早期に画像品質を予測することで,無駄な計算を削減し,効率化を図る。
    • 拡散モデルの初期段階におけるクロスアテンション分布と最終的な画像品質の間に強い相関関係が明らかになった。
    • Diffusion Probeは,クロスアテンションマップを利用し,高い予測精度を実現した(PCC > 0.7,AUC-ROC > 0.9)。
    • プロンプト最適化や強化学習訓練の加速に貢献し,計算コストを削減しつつ,最終的な出力品質を向上させる。

    Link: https://arxiv.org/abs/2602.23783

  • SwitchCraft:アテンション制御による学習不要のマルチイベント動画生成 [cs.CC, cs.CV]目的:マルチイベント動画生成の改善
    • 動画生成技術は,エンターテインメントや教育など様々な分野で応用が期待されている。
    • 既存モデルは単一イベント生成に最適化されており,マルチイベント動画生成において場面の混同や崩壊が課題である。
    • イベントとフレーム間の対応を考慮し,イベントの正確な配置と動画の一貫性を実現すること。
    • SwitchCraftは,フレームレベルのアテンションをイベントプロンプトに合わせることで,プロンプトとの整合性を大幅に向上させる。
    • イベントの明確性とシーンの一貫性も向上し,既存手法と比較して優れた結果が得られた。
    • 学習を必要とせず,シンプルかつ効果的なマルチイベント動画生成ソリューションを提供する。

    Link: https://arxiv.org/abs/2602.23956

  • スケールから速度へ:画像編集のための適応的テスト時スケーリング [cs.CV, cs.AI, cs.LG, eess.IV]目的:画像編集における効率と性能の向上
    • 画像生成技術は発展を続け,多様な応用が期待されている
    • 画像編集では,生成に比べて解空間が限られるため,既存手法が有効でない
    • 編集の難易度に応じたリソース配分と検証機構の改善
    • ADE-CoTは,編集難易度推定に基づき,動的なサンプリング予算を割り当てることで,リソース効率を向上させる。
    • 領域の局所化とキャプションの一貫性を用いた編集特化型の検証により,初期段階での信頼性の低い候補を排除する。
    • 意図に合致した結果が得られた時点で探索を停止する深さ優先探索により,処理速度を2倍以上向上させる。

    Link: https://arxiv.org/abs/2603.00141

  • 階層的視覚認識のためのタクソノミーを意識した表現アラインメント [cs.CV, cs.AI]目的:大規模マルチモーダルモデルにおける階層的視覚認識のための表現アラインメント
    • 視覚理解モデルは,ラベルの階層構造をマッピングし,未知のカテゴリを識別することが求められる。
    • 既存の大規模マルチモーダルモデルは,未知のカテゴリを含む階層的視覚認識において課題がある。
    • 本研究は,タクソノミー知識を大規模マルチモーダルモデルに注入し,認識精度と一貫性を向上させる。
    • 提案手法TARAは,生物学的基礎モデルの表現を用いて,視覚特徴表現をタクソノミー構造に合わせてアラインメントする。
    • TARAは,大規模マルチモーダルモデルの階層的一貫性とリーフノード精度を向上させることを実験的に示した。
    • 既知のカテゴリだけでなく,複雑な生物学的タクソノミーにおける未知のカテゴリの信頼性のある認識を実現する。

    Link: https://arxiv.org/abs/2603.00431

  • LLMベース自動運転のためのドメイン特化数値エンコーディング:DriveCode [cs.RO, cs.CV, cs.RO]目的:LLMベース自動運転システムにおける数値推論の精度向上
    • 自動運転は,安全性向上と効率化に貢献する重要な技術分野である。
    • LLMが数値をトークンとして扱う場合,数値の精度と位置情報の重要性が損なわれる。
    • DriveCodeは,数値エンコーディングの限界を克服し,LLMの自動運転性能を向上させる。
    • DriveCodeは数値を専用の埋め込み表現に変換し,LLMの潜在空間へマッピングすることで,マルチモーダルな特徴との統合を実現した。
    • OmniDrive,DriveGPT4,DriveGPT4-V2のデータセットを用いた評価で,DriveCodeは軌跡予測と制御信号生成において優れた性能を示した。
    • この結果は,DriveCodeがLLMベース自動運転システムの有効性を裏付けている。

    Link: https://arxiv.org/abs/2603.00919

  • 編集を意識した注入による修正フローモデルを用いたゼロショット画像駆動型ビデオ編集 [cs.CV]目的:ゼロショット画像駆動型ビデオ編集の実現
    • ビデオ編集は,映像制作において不可欠な技術であり,その効率化が求められている。
    • 既存手法では,注入量の過多や不足により,品質が十分でない場合が多い。
    • 編集領域を考慮した注入量の調整により,高品質な編集を実現することを試みる。
    • 本研究では,編集を意識した注入(REE)という新しい手法を提案した。
    • REE注入と最近登場した修正フローモデルを組み合わせたFREE-Editは,ファインチューニングなしで効果を発揮する。
    • 様々な画像駆動型ビデオ編集シナリオにおいて,既存技術よりも高品質な出力が可能となった。

    Link: https://arxiv.org/abs/2603.01164

  • Tri-path DINO:リモートセンシング多クラス変化検出のための特徴相補的学習 [cs.CV]目的:リモートセンシング画像における多クラス変化検出
    • リモートセンシングは広範囲な土地利用変化の監視に不可欠であり,社会インフラの維持管理に貢献する。
    • 詳細なアノテーションの不足や複雑なシーン変化が,高精度な変化検出の課題となっている。
    • 事前学習済みのモデルを複雑な環境に適応させ,詳細な変化検出を可能にすることを目的とする。
    • 提案手法であるTri-path DINOは,粗い特徴と細かい特徴を相補的に学習する戦略を採用している。
    • GazaとSECONDのデータセットにおいて,既存手法を上回る性能を達成した。
    • Grad-CAMによる可視化から,それぞれのパスが意味的な変化と構造的な詳細に焦点を当てていることが確認された。

    Link: https://arxiv.org/abs/2603.01498

  • Proact-VL:リアルタイムAIコンパニオンのためのプロアクティブなVideoLLM [cs.CV]目的:リアルタイムAIコンパニオンを実現するためのプロアクティブなVideoLLMの構築
    • 人間らしいAIコンパニオンには,リアルタイムなインタラクションが不可欠である。
    • 連続的なストリーミング入力下での低遅延推論,応答タイミングの自律的な決定が課題である。
    • 生成されるコンテンツの質と量を制御し,リアルタイム制約を満たすことを目指す。
    • Proact-VLは,環境認識とインタラクション能力を備えた,プロアクティブでリアルタイムなエージェントとして機能する。
    • Live Gaming Benchmarkを用いて評価した結果,優れた応答速度と品質が確認された。
    • Proact-VLは,ゲーム実況やガイドといったシナリオで高い実用性を示す。

    Link: https://arxiv.org/abs/2603.03447

  • MPFlow: ゼロショットMRI再構成のためのマルチモーダル事後分布誘導フローマッチング [cs.CV, cs.AI]目的:ゼロショットMRI再構成における解剖学的忠実性の向上
    • MRI画像再構成は医療診断において不可欠であり,迅速かつ高精度な再構成が求められている。
    • 単一モダリティの生成事前分布では,重度の不適切性下で幻覚が生じやすいという課題がある。
    • 既存手法では,臨床で得られる補完的なMRI情報を活用できていないという問題点を解決する。
    • 提案手法MPFlowは,拡散モデルと同等の画像品質を,サンプリングステップの20%で達成した。
    • PAMRIによる自己教師あり事前学習により,モダリティ間で共有された表現を学習し,クロスモーダルガイダンスを実現した。
    • 特に脳腫瘍の幻覚を15%以上削減し,セグメンテーションのダイススコアを向上させた。

    Link: https://arxiv.org/abs/2603.03710

  • 効率的かつ高精度なジオメトリ推定のためのデュアルストリームアーキテクチャ [cs.CV]目的:効率的かつ高精度なジオメトリおよびカメラポーズ推定
    • コンピュータビジョン分野において,3次元空間の再構成は重要な課題である。
    • 未校正マルチビュー画像や動画からの正確なジオメトリ推定は,特に高解像度かつ長時間シーケンスにおいて困難である。
    • 本研究は,グローバルなコヒーレンスと詳細な情報を分離することで,高解像度動画におけるジオメトリ推定の精度向上を目指す。
    • DAGEは,低解像度ストリームと高解像度ストリームのデュアルストリームアーキテクチャを採用することで,効率的かつ一貫性のあるジオメトリ推定を実現した。
    • 軽量なアダプターを用いて両ストリームを融合することで,グローバルなコンテキストを注入しつつ,単一フレームパスウェイの性能を維持している。
    • 提案手法は,2Kまでの高解像度入力に対応し,ビデオジオメトリ推定およびマルチビュー再構成において最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.03744

  • セマンティック拡張動的コントラスト対話による高度に転移可能な視覚言語攻撃 [cs.CV]目的:視覚言語モデルに対する転移可能な攻撃手法の開発
    • 視覚言語モデルの応用が拡大する中で,その脆弱性を評価し,対策を講じることは重要である。
    • 既存の攻撃手法は,静的な相互作用に依存し,正の画像-テキストペアの破壊に偏っており,転移性が低い。
    • セマンティック誘導に基づいた動的な摂動により,攻撃の転移性を向上させることを目指す。
    • 本研究では,セマンティック拡張動的コントラスト攻撃(SADCA)を提案し,敵対的摂動によるクロスモーダルアライメントの漸進的な破壊を実現した。
    • SADCAは,敵対的,正,負のサンプルを用いたコントラスト学習メカニズムを確立し,摂動のセマンティックな不整合を強化する。
    • 多様なデータセットとモデルでの実験により,SADCAが既存手法を凌駕し,転移可能な攻撃性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2603.04839

  • マルチパラダイム協調的敵対的攻撃:マルチモーダル大規模言語モデルに対する [cs.CV]目的:マルチモーダル大規模言語モデルに対する敵対的攻撃の転移性を向上させること
    • マルチモーダル大規模言語モデルは様々な応用を可能にする一方で,その安全性確保が重要である。
    • 既存の敵対的攻撃は単一の学習パラダイムに依存し,多様な摂動を探索できていない。
    • 異なるパラダイムを協調させ,表現バイアスを軽減することで,攻撃の汎化性能を高める。
    • 提案手法MPCAttackは,視覚情報とテキスト情報を統合し,共同で最適化を行う。
    • マルチパラダイム協調的最適化(MPCO)戦略により,異なるパラダイムの表現の重要度を適応的に調整する。
    • 複数のベンチマークにおいて,MPCAttackは最先端手法を上回り,高い攻撃成功率を示した。

    Link: https://arxiv.org/abs/2603.04846

  • 協調のギャップ:反復ゲームにおける時間的公平性のためのマルチエージェント交互作用指標 [cs.MA, cs.GT, cs.LG]目的:マルチエージェント反復ゲームにおける時間的公平性を評価するための交互作用指標の開発
    • マルチエージェントシステムは,個々の最適化と集団的厚生の間の緊張を抱えているため,その協調メカニズムの理解が重要である。
    • 従来の評価指標は時間的な構造を考慮せず,エージェント数が増加すると公平性の評価が曖昧になるという課題があった。
    • 時間的構造を考慮した新しい評価指標を導入し,マルチエージェントシステムの協調の質をより正確に評価することを目指す。
    • 従来の評価指標では高く評価される協調戦略が,時間的な観点からはランダムな戦略よりも劣ることが示された。
    • 高い集団的報酬と時間的な協調性の低さが共存しうることを実証し,従来の評価指標の限界を明らかにした。
    • マルチエージェントゲームにおける協調を分析するためには,時間的要素を考慮した観測指標が不可欠であることを強調した。

    Link: https://arxiv.org/abs/2603.05789

  • PaQ-DETR:パターンと品質を意識した動的クエリ学習による物体検出 [cs.RO, cs.RO, cs.CV]目的:物体検出におけるパターンと品質を考慮した動的クエリ
    • 物体検出はコンピュータビジョンの基礎であり,自動運転やロボティクスなど幅広い分野で活用されている。
    • DETR系モデルはクエリの利用バランスに課題があり,モデルの潜在能力を十分に活かせていない。
    • 動的なクエリ生成と品質を意識した学習により,DETR系モデルの性能向上を目指す。
    • PaQ-DETRは,グローバルな意味を捉える潜在パターンを学習し,コンテンツに応じてクエリを動的に生成する。
    • 位置と分類の一貫性に基づき,正例を動的に選択することで,学習の監督を強化し,クエリの最適化を促進する。
    • COCOやCityScapesなどのベンチマークで,ResNetやSwin-Transformerを含むDETRのバックボーンでmAPが1.5%-4.2%向上した。

    Link: https://arxiv.org/abs/2603.06917

  • MipSLAM:エイリアスフリーなガウススプラッティングSLAM [cs.CV]目的:高忠実度なアンチエイリアシングによる新規視点合成と,多様なカメラ構成下でのロバストな姿勢推定
    • SLAMはロボットや自動運転などの分野で,周囲環境の地図作成と自己位置推定に不可欠である。
    • 既存の3DガウススプラッティングSLAMは,エイリアシングや軌道ドリフトといった問題に直面している。
    • 高周波ノイズとドリフトを抑制し,高品質なレンダリングと高精度な位置推定を実現すること。
    • MipSLAMは,幾何学に基づいた数値積分による高速なアンチエイリアシングアルゴリズム(EAA)を提案している。
    • 周波数領域での軌道推定を行うSpectral-Aware Pose Graph Optimization(SA-PGO)モジュールにより,ドリフトを抑制している。
    • ReplicaおよびTUMデータセットにおける評価で,最先端のレンダリング品質と位置推定精度を達成している。

    Link: https://arxiv.org/abs/2603.06989

  • SWIFT:少数のサンプルと学習なしによる生成動画の帰属性特定のためのスライディングウィンドウ再構成 [cs.CV]目的:生成動画の帰属性特定
    • 動画生成技術の進歩に伴い,悪用防止の重要性が増している。
    • 既存手法は追加処理や学習が必要で,品質低下やデータ不足の問題がある。
    • 少数のサンプルと学習なしで生成動画の起源を特定することを目指す。
    • SWIFTは,動画のTemporal Mappingを利用したスライディングウィンドウ再構成により,高精度な帰属性特定を実現した。
    • 5つの最先端動画生成モデルで平均90%以上の精度を達成し,HunyuanVideo等でゼロショット帰属性特定も可能となった。
    • わずか20サンプルで高い精度が得られるため,実用的な手法である。

    Link: https://arxiv.org/abs/2603.08536

  • CIGPose:全身姿勢推定のための因果介入グラフニューラルネットワーク [cs.CV]目的:全身姿勢推定におけるロバスト性の向上
    • 複雑なシーン下での姿勢推定は,人間とコンピュータの相互作用において不可欠であり,その精度が求められる。
    • 既存の姿勢推定器は,視覚的コンテキストからの誤った相関関係を学習し,解剖学的に不自然な予測を招く問題がある。
    • 視覚的コンテキストの影響を取り除き,より因果関係に基づいた姿勢推定を実現することで,ロバスト性を高める。
    • CIGPoseは,予測不確実性に基づき,交絡されたキーポイント表現を特定し,コンテキストに依存しない埋め込みに置き換えることで,因果効果を近似する。
    • 提案手法は,階層的なグラフニューラルネットワークを用いて人体骨格を局所的およびグローバルなレベルで推論し,解剖学的妥当性を強化する。
    • COCO-WholeBodyデータセットにおいて,CIGPoseは最新の性能を達成し,追加の訓練データに頼らない既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.09418

  • SignSparK:疎なキーフレーム学習による効率的な多言語手話生成 [cs.DC, cs.CV]目的:自然で言語的に正確な手話アバターの生成
    • 手話は聴覚障がい者にとって重要なコミュニケーション手段であり,そのデジタル化が求められている。
    • 既存の手話生成システムは,自然さか正確さのどちらかを犠牲にする傾向がある。
    • 疎なキーフレーム学習により,自然かつ正確な手話生成を可能にすること。
    • 提案手法SignSparKは,FASTという高効率な手話分割モデルとConditional Flow Matching (CFM) フレームワークを組み合わせることで,4つの手話言語に対応する大規模な多言語手話生成システムを実現した。
    • キーフレーム駆動のアプローチにより,高い忠実度で3D手話シーケンスを少ないステップ数で合成可能であり,スムーズな動作と正確な表現を両立した。
    • 3D Gaussian Splattingとの統合により,フォトリアリスティックなレンダリングを実現し,多様な手話生成タスクにおいて最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.10446

  • UniStitch:セマンティック特徴と幾何学的特徴の統合による画像ステッチング [cs.RO, cs.CV]目的:画像ステッチングのためのセマンティック特徴と幾何学的特徴の統合
    • 画像ステッチングは,広視野角の画像やパノラマ画像の生成に不可欠な技術である。
    • 従来法と学習ベースの手法が別個に発展しており,両者の利点を統合した手法は存在しない。
    • セマンティック特徴と幾何学的特徴を統合し,よりロバストで高精度な画像ステッチングを実現すること。
    • UniStitchは,セマンティック特徴と幾何学的特徴を統合する統一的なフレームワークを提案する。
    • Neural Point Transformerモジュールにより,幾何学的特徴とセマンティック特徴のアライメントを実現した。
    • Adaptive Mixture of Expertsモジュールにより,信頼性の高い特徴に動的に焦点を当て,複雑なシーンにも対応可能となった。

    Link: https://arxiv.org/abs/2603.10568

  • 回転照明とピクセルごとの学習によるイベントベースフォトメトリックステレオ [cs.CV]目的:イベントカメラを用いたフォトメトリックステレオシステム
    • フォトメトリックステレオは,表面形状復元に不可欠な技術であり,ロボットビジョンやコンピュータグラフィックス等に応用される。
    • 従来のフォトメトリックステレオは,制御された照明環境下でのみ機能し,環境光の影響を受けやすいという課題があった。
    • 本研究では,環境光の影響を受けにくく,高ダイナミックレンジな環境下でも動作可能なイベントベースのフォトメトリックステレオを実現する。
    • 提案手法は,回転する単一光源とピクセルごとのニューラルネットワークを用いることで,システム校正の必要性を排除し,コンパクトな設計を可能にした。
    • ベンチマークデータセットおよび実データ実験の結果,既存のイベントベースフォトメトリックステレオ手法と比較して,平均角度誤差を7.12%削減することに成功した。
    • イベント活動が少ない領域,強い環境光,および鏡面反射の影響を受けるシーンにおいてもロバストな性能を示した。

    Link: https://arxiv.org/abs/2603.10748

  • クラスター認識可能な実行可能領域を持つ球面VAE:事後崩壊の確実な防止 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV]目的:事後崩壊の防止
    • 潜在変数モデルは,データ生成モデルや表現学習において重要な役割を担う。
    • VAEは,事後分布が事前分布に退化する事後崩壊という問題を抱えやすい。
    • 球面幾何学とクラスター認識制約を用いて,理論的に事後崩壊を回避すること。
    • 本研究では,データを球面殻に変換し,K-meansによる最適なクラスタリングを行い,クラスタ内分散Wと崩壊損失δcollapseの間の実行可能領域を定義することで,数学的に事後崩壊を防ぐことを理論的に保証する。
    • 従来のVAEが完全に失敗する条件下でも100%の崩壊防止を実現し,再構成品質は最先端手法と同等かそれ以上である。
    • 提案手法は,明示的な安定条件を必要とせず,任意のニューラルネットワークアーキテクチャで使用可能である。

    Link: https://arxiv.org/abs/2603.10935

  • セマンティック・ジオメトリ保存による視覚言語モデルの継続学習 [cs.CV, cs.LG]目的:視覚言語モデルの継続学習におけるセマンティック・ジオメトリの保存
    • 事前学習済みモデルの活用は,様々なタスクで高い性能を示すため重要である。
    • 継続学習において,新しいタスクへの適応時に過去の知識が失われることが課題である。
    • セマンティック・ジオメトリの歪みを抑制し,継続学習の安定性と性能向上を目指す。
    • 提案手法SeGP-CLは,敵対的アンカーを用いたセマンティック・ジオメトリの保存により, catastrophic forgetting を抑制する。
    • アンカーガイドによるクロスモーダルジオメトリ蒸留(ACGD)とテキストセマンティック・ジオメトリ正則化(TSGR)により,クロスモーダル構造とテキスト参照枠を安定化させる。
    • 5つの継続学習ベンチマークにおいて,最先端の性能を達成し,セマンティック・ジオメトリの保存効果が確認された。

    Link: https://arxiv.org/abs/2603.12055

  • 微細なHRCTレポート生成のためのビデオ言語モデルの活用 [cs.CV]目的:高分解能CT画像からの精密な診断レポートの生成
    • 臨床ワークフローにおいて,高分解能CT画像からの正確な診断レポートが不可欠である。
    • 3Dボリューム内の病理学的多様性と空間的な疎疎性により,高精度なレポート生成は困難である。
    • ビデオ言語モデルを用いて,高精度なHRCTレポート生成を可能にすること。
    • 提案手法AbSteeringは,異常に焦点を当てたChain-of-ThoughtスキームとDirect Preference Optimization目標を導入する。
    • AbSteeringは,大規模なCTデータで事前学習されたドメイン特化モデルを上回り,検出感度を向上させつつ,幻覚を抑制する。
    • 汎用的なビデオ言語モデルが,このパラダイムによって医療画像分野に効果的に転移可能であることが示された。

    Link: https://arxiv.org/abs/2603.12469

  • HIFICL:マルチモーダルタスクのための高忠実度インコンテキスト学習 [cs.CV]目的:マルチモーダルタスクにおけるインコンテキスト学習の性能向上
    • 大規模マルチモーダルモデルの適応において,インコンテキスト学習が重要な役割を担う。
    • インコンテキスト学習の性能は,デモンストレーションの設定に左右されやすく,計算コストが高い。
    • デモンストレーションの影響をより正確にモデル化することで,計算効率と性能を両立させる。
    • HIFICLは,既存の近似手法と比較して,複数のマルチモーダルベンチマークで安定的に高い性能を示す。
    • HIFICLは,学習可能なコンテキストとして「仮想キーバリューペア」を用いることで,インコンテキスト学習のメカニズムを高忠実にモデル化する。
    • HIFICLは,文脈を考慮したパラメータ効率の良いファインチューニングの一形態と捉えることができる。

    Link: https://arxiv.org/abs/2603.12760

  • 二軸変換による視点不変表現を用いたクロスビュー姿勢推定:VIRD [cs.CV]目的:クロスビュー姿勢推定における視点不変表現の構築
    • 自動運転やロボティクスにおいて,正確なグローバル測位は不可欠である。
    • GNSSは遮蔽やマルチパスの影響を受けやすく,信頼性に課題がある。
    • 地上視点画像と衛星画像間の視点差を埋め,高精度な姿勢推定を実現すること。
    • 提案手法VIRDは,二軸変換により水平方向の一致を促進し,文脈強化位置注意機構で垂直方向のずれを軽減する。
    • VIRDはKITTIデータセットにおいて,既存手法と比較して位置誤差と姿勢誤差の中央値をそれぞれ50.7%,76.5%削減した。
    • VIGORデータセットにおいても,それぞれ18.0%,46.8%の誤差削減を達成し,高い有効性を示した。

    Link: https://arxiv.org/abs/2603.12918

  • Qwen3-Omniを活用したセグメントベースのMLLMフレームワークによるニュアンス感情認識:AH検出 [cs.CV, cs.AI]目的:曖昧性と躊躇のような微妙な心理状態の感情認識
    • 行動介入やデジタルヘルスにおいて,人の微妙な心理状態を理解することの重要性が高まっている。
    • 表情,声のトーン,テキストの意味の不一致など,異なるモダリティ間の矛盾が感情認識の課題となっている。
    • 複雑な感情の矛盾を捉えるための,多言語大規模言語モデルの有効性を検証すること。
    • 提案手法はテストセットで85.1%の精度を達成し,既存のベンチマークを大幅に上回った。
    • 多言語大規模言語モデルが,複雑でニュアンスのある感情の葛藤を捉える能力が実証された。
    • セグメントベース戦略により,長時間の動画処理における計算効率とトークン制約の問題に対処した。

    Link: https://arxiv.org/abs/2603.13406

  • 大規模事前学習のための空間トランスクリプトミクスを画像として [cs.CV, cs.AI]目的:空間トランスクリプトミクスデータの効果的な大規模事前学習手法
    • 臨床・病理研究において,組織内の空間的文脈を考慮した遺伝子発現解析が不可欠である。
    • 既存の事前学習手法では,空間的依存性を無視したり,入力サイズが大きくなり学習効率が低下する問題がある。
    • 空間トランスクリプトミクスデータを画像として扱うことで,大規模事前学習を可能にし,下流タスクの性能向上を目指す。
    • 空間トランスクリプトミクスデータをクロップされた画像として扱うことで,空間的文脈を保持しつつ,訓練サンプル数を大幅に増加させることができた。
    • 提案手法は,従来の事前学習スキームと比較して,下流タスクにおける性能を安定的に向上させることを示した。
    • 空間パッチングとチャネル設計の両方が,効果的な事前学習のために必要であることを検証した。

    Link: https://arxiv.org/abs/2603.13432

  • 多重モダリティ緑内障診断のための反復最適化による同時セグメンテーションと重症度評価 [cs.CV]目的:多重モダリティ緑内障診断のための同時セグメンテーションと重症度評価手法
    • 緑内障は早期発見が重要であり,進行を抑制することで失明を防ぐことができる。
    • 既存手法は単一モダリティに依存し,病変の初期段階の変化を見落とす可能性がある。
    • 網膜画像とOCT画像の特徴を統合し,より正確な診断を可能にすること。
    • 提案手法は,網膜画像とOCT画像の特徴を効果的に統合することで,緑内障の評価において包括的かつ臨床的に意味のあるアプローチを提供する。
    • クロスモダリティ特徴アライメントモジュールにより,モダリティ間の差異を低減し,より高精度なセグメンテーションと重症度評価を実現した。
    • 反復的な精緻化デコーダは,ノイズ除去拡散メカニズムを通じて,多重モダリティの特徴を段階的に最適化する。

    Link: https://arxiv.org/abs/2603.14188

  • VorTEX:ターゲット音声抽出のための様々な重複比率 [cs.SD, cs.AI, cs.CL]目的:ターゲット音声抽出の性能向上
    • 音声分離技術は,雑音環境下でのコミュニケーションや音声認識の精度向上に不可欠である。
    • 既存手法は完全な重複を前提としており,現実的な重複比率における挙動が不明である。
    • 様々な重複比率下でロバストなターゲット音声抽出を可能にするモデルを開発する。
    • VorTEXは,Decoupled Adaptive Multi-branch (DAM) Fusionブロックを用いて主要な抽出と補助的な正則化を分離している。
    • 実験により,既存モデルが重複下で抑制や残差干渉を示すのに対し,VorTEXは20~100%の重複比率で最高分離忠実度を達成した。
    • VorTEXはSuRE(Suppression Ratio on Energy)をゼロに維持し,抑制駆動型アーチファクトのない堅牢な抽出を実現した。

    Link: https://arxiv.org/abs/2603.14803

  • 疎だが単純ではない:Vision Transformer の多層解釈可能性分析 [cs.CV]目的:Vision Transformerにおける重み疎性と解釈可能性との関係の評価
    • 近年,AIの社会実装が進む中で,モデルの意思決定根拠を理解することが重要となっている。
    • モデルの疎性は計算効率向上に寄与する一方,解釈可能性が低下する懸念がある。
    • 本研究は,Vision Transformerの疎性が解釈可能性向上に繋がるのか検証する。
    • 疎なモデルは,密なモデルと比較して約2.5倍少ないエッジ数の回路を生成する。
    • しかし,活性化ノードの割合は同程度か高く,疎性は単純な機能モジュールを分離するのではなく,計算を再分配している可能性が示唆された。
    • ニューロンレベルの選択性,SAE特徴の解釈性,アトリビューションの忠実度において,疎なモデルに系統的な改善は見られなかった。

    Link: https://arxiv.org/abs/2603.15919

  • VIGOR:時間的生成アライメントのためのビデオ幾何学的報酬 [cs.CV]目的:ビデオ拡散モデルにおける時間的生成アライメントの改善
    • ビデオ生成技術は,多様な応用可能性を持つ重要な研究分野である。
    • ビデオ拡散モデルは幾何学的制約が弱く,生成動画に歪みが生じやすい。
    • 幾何学的報酬を用いることで,動画の一貫性と品質を向上させる。
    • 提案手法では,事前学習済みの幾何学的モデルを用いてフレーム間の再投影誤差を評価し,ロバストな幾何学的報酬を算出する。
    • 低テクスチャ領域や意味のない領域を除外するサンプリング戦略により,幾何学的に意味のある領域に焦点を当て,評価の信頼性を高める。
    • 実験結果から,提案手法が他の手法と比較して優れたロバスト性を持つことが確認された。

    Link: https://arxiv.org/abs/2603.16271

  • TinyGLASS:リアルタイム自己教師ありインセンサー異常検知 [cs.CV]目的:産業用品質管理における異常検知手法の開発
    • 産業用品質管理において,欠陥検出は不可欠であり,異常の早期発見が生産性向上に繋がる。
    • ラベル付き欠陥サンプルが不足している場合,従来の異常検知手法は性能が低下しやすい。
    • リソース制約のあるエッジデバイスやインセンサー処理アーキテクチャへの実装を可能にする軽量な異常検知手法を確立する。
    • TinyGLASSは,パラメータ数を8.6倍削減しつつ,MVTec-ADベンチマークにおいて競争力のある検出性能を維持する。
    • 画像レベルAUROCは94.2%に達し,IMX500プラットフォーム上で20FPSの動作を実現した。
    • 推論あたりの低消費電力(4.0mJ),リアルタイムなエンドツーエンドレイテンシ,高エネルギー効率(470 GMAC/J)を示す。

    Link: https://arxiv.org/abs/2603.16451

  • Fast-WAM:ワールドアクションモデルはテスト時の未来予測を必要とするか? [cs.CV, cs.AI]目的:ワールドアクションモデルにおける未来予測の必要性
    • ロボットの自律的な行動計画において,環境の変化を予測する能力は重要である。
    • 既存のワールドアクションモデルは計算コストが高く,リアルタイム性に課題がある。
    • テスト時の未来予測を省略することで,計算効率を向上させることを目指す。
    • 提案手法Fast-WAMは,未来予測をテスト時に行わないにも関わらず,既存手法と同等の性能を達成した。
    • ビデオモデリングを訓練時に行うことが,性能向上の主要因であることが示唆された。
    • Fast-WAMは,既存の未来予測を行うWAMよりも4倍高速に動作し,リアルタイムでの実行が可能である。

    Link: https://arxiv.org/abs/2603.16666

  • GigaWorld-Policy:効率的な行動中心型ワールド・アクションモデル [cs.CV]目的:ロボットのポリシー学習のための効率的な行動中心型ワールド・アクションモデルの開発
    • ロボットの自律的な行動を実現するには,環境を理解し,将来を予測する能力が不可欠である。
    • 既存のワールド・アクションモデルは,計算コストが高く,視覚情報と行動表現が複雑に絡み合っている。
    • 本研究では,計算効率を高め,視覚情報と行動表現を分離することで,より実用的なモデルを目指す。
    • GigaWorld-Policyは,既存の最先端モデル(Motus)と比較して9倍高速に動作する。
    • 実世界のロボットプラットフォームでの実験により,タスク成功率が7%向上することが示された。
    • RoboTwin 2.0においては,pi-0.5と比較して95%の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.17240

  • Omni-I2C:高精度画像からコード生成に関する包括的ベンチマーク [cs.CV]目的:複雑な構造を持つデジタルグラフィックスを,実行可能なコードに変換する能力の評価
    • 画像とコードの生成は,AI技術の応用範囲を広げ,様々な分野での自動化を促進する上で重要である。
    • 現在のLMMは,複雑な視覚情報の正確な理解と,構文的に正しく論理的に一貫性のあるコードの生成が困難である。
    • LMMの画像理解とコード生成能力のボトルネックを特定し,その改善を促すこと。
    • Omni-I2Cは,被写体,画像の種類,プログラミング言語にわたる1080件のサンプルで構成される。
    • 評価フレームワークは,知覚的忠実度と記号的精度を分離することで,LMMの構造的な欠陥や推論のボトルネックを明らかにしている。
    • 主要なLMMの間には性能差が大きく,最先端モデルでさえ複雑なシナリオで構造的整合性を維持するのに苦戦している。

    Link: https://arxiv.org/abs/2603.17508

  • 整列化されたターゲットドメイン局所的アラインメントによる解釈可能なクロスドメイン少数ショット学習 [cs.HC, cs.CV, cs.AI]目的:クロスドメイン少数ショット学習における解釈可能性の向上
    • クロスドメイン少数ショット学習は,汎用データから少ないターゲットデータで学習する重要技術である。
    • 既存のCLIPモデルは,ターゲットドメインにおける微細な視覚的特徴を捉えるのが難しい。
    • ドメインギャップとデータ不足によるCLIPの局所的パターン認識の課題を解決する。
    • 提案手法CC-CDFSLは,サイクル整合性により局所視覚特徴とテキスト意味を自己教師ありでアラインメントする。
    • Semantic Anchor機構は,視覚特徴を拡張・縮小することでノイズを低減し,関連性の低いマッピングをフィルタリングする。
    • 様々なベンチマークで,局所的アラインメントの改善,解釈性の向上,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.17655

  • 単一画像からの群衆向け高忠実度3Dガウス再構成:CrowdGaussian [cs.CV]目的:単一画像からの人物群衆の3Dガウス再構成
    • 近年,3D人間再構成は注目を集めており,様々な応用が期待される分野である。
    • 既存研究は個人を対象とした鮮明な画像に偏り,複数人物の複雑な状況下での再構成性能は十分ではない。
    • 本研究は,遮蔽や低解像度,多様な外観といった課題に対し,高精度な群衆3D再構成を目指す。
    • CrowdGaussianは,単一画像から人物群衆の3Dガウススプラッティング表現を直接再構成する統一的なフレームワークを提案する。
    • 自己教師あり適応パイプラインにより,遮蔽された入力画像からでも妥当な3D形状と外観を持つ人物を再構成可能にする。
    • 自己較正学習(SCL)により,粗いレンダリングを最適化し,写実的かつ幾何学的に一貫性のある多人数シーンを再構成する。

    Link: https://arxiv.org/abs/2603.17779

  • 存在としてのアイデンティティ:外見と声の個別化された共同オーディオ・ビデオ生成に向けて [cs.CV]目的:アイデンティティを意識した共同オーディオ・ビデオ生成のための統一的かつ拡張可能なフレームワーク
    • コンテンツ作成におけるアイデンティティを考慮した需要が高まっており,その技術的重要性が増している。
    • 顔の外見と声の音色を細かく制御可能な,公開されたフレームワークが存在しないという課題がある。
    • 顔の外見と声の音色を制御し,高忠実度で一貫性のある個別化を実現することを目指す。
    • 提案フレームワークは,多様なシナリオに対応するアイデンティティ情報を自動的に抽出するデータキュレーションパイプラインを導入した。
    • 単一および複数被写体シナリオに対応する,柔軟で拡張可能なアイデンティティ注入メカニズムを提案した。
    • モダリティ間の不一致に対処するため,収束を加速し,クロスモーダルコヒーレンスを強化する多段階トレーニング戦略を採用した。

    Link: https://arxiv.org/abs/2603.17889

  • ParallelVLM:視覚的アラインメントを意識した並列推測デコーディングによるロスレス動画LLM加速 [cs.CV]目的:動画LLMのデコーディング効率向上
    • 動画理解におけるLLMの重要性が高まる中で,効率的なデコーディングが課題となっている。
    • 既存の動画トークンプルーニング手法では情報損失が発生し,デコーディング速度の向上は限定的である。
    • 長編動画において,ドラフトモデルとターゲットモデル間の待ち時間を解消し,高速化率を向上させる。
    • ParallelVLMは,ドラフトウィンドウを1.6~1.8倍に拡大し,高い受理率を達成した。
    • LLaVA-Onevision-72Bにおいて,3.36倍,Qwen2.5-VL-32Bにおいて2.42倍の速度向上を実現した。
    • バイアスなし検証者誘導プルーニングにより,ドラフトモデルとターゲットモデルのアラインメントを改善した。

    Link: https://arxiv.org/abs/2603.19610

  • 2K Retrofit:エントロピーに基づく効率的な疎な洗練による高解像度3D形状予測 [cs.CV]目的:高解像度3D形状予測の効率化
    • 自動運転やAR/MR等の分野において,高解像度な環境認識は不可欠である。
    • 既存のモデルは,高解像度な現実世界のデータへの適用において,計算量とメモリ使用量の問題がある。
    • 本研究は,既存モデルの再学習なしに,高解像度での効率的な形状予測を可能にする。
    • 2K Retrofitは,高速な粗予測とエントロピーに基づく疎な洗練を組み合わせることで,高解像度な3D形状予測を効率的に実現する。
    • 幅広いベンチマークテストにおいて,2K Retrofitは最先端の精度と速度を達成し,研究と実用化のギャップを埋める。
    • 既存の幾何学的な基礎モデルに変更を加えることなく,2K解像度での推論を可能にする。

    Link: https://arxiv.org/abs/2603.19964

  • 普遍的な非理想計測CTの強化のためのイメージング基盤モデル [eess.IV, cs.AI, cs.CV]目的:非理想計測CTの画質向上
    • CT検査は医療診断に不可欠だが,被ばく線量を低減する試みで画質が低下することがある。
    • 非理想計測CTでは,画質と臨床的有用性のバランスを取ることが課題となっている。
    • 本研究は,多様な条件下で汎用的に機能する画質向上モデルを開発し,非理想計測CTの実用化を促進する。
    • TAMPは,1080万件の物理駆動型シミュレーション画像で事前学習されており,様々な非理想計測CT環境下で優れた汎化性能を示す。
    • パラメータ効率の良いファインチューニング戦略により,TAMPは少数のスライスを用いて特定の臨床シナリオに適応できる。
    • 放射線科医による評価および実臨床検証の結果,TAMPは画質と臨床的受容性を一貫して向上させることが示された。

    Link: https://arxiv.org/abs/2410.01591

  • 医療画像における疾患分類の改善に向けた解釈可能な深層学習フレームワーク [eess.IV, cs.AI, cs.CV, cs.LG]目的:医療画像における疾患分類のための解釈可能性,信頼性向上のための深層学習フレームワーク
    • 医療画像解析において深層学習の利用が進む中で,その高い性能は臨床現場での応用を促進する。
    • 深層学習モデルは過信度の高い予測を行いやすく,臨床的正確性や信頼性を損なう可能性がある。
    • 高性能と不確実性の認識のギャップを埋め,より信頼性の高い医療画像診断を実現すること。
    • 提案フレームワークは,COVID-19でAUC99.75%,結核で100%,肺炎で99.3%,網膜OCTで98.69%という高い分類性能を達成した。
    • 双方向クロスアテンションと不確実性定量化により,医療画像分類の性能と透明性が向上することが示された。
    • 不確実性を考慮した推論により,解釈可能な例と共に,キャリブレーションされた予測セットが得られた。

    Link: https://arxiv.org/abs/2503.11851

  • 説明からアーキテクチャへ:MRIにおける脳腫瘍分類のための説明可能性駆動型CNN改良 [eess.IV, cs.CV]目的:脳腫瘍分類のための説明可能性に基づいたCNNアーキテクチャの改良
    • 医療AIの信頼性向上は,診断精度だけでなく,判断根拠の透明性を確保することが重要である。
    • 深層学習モデルは高精度だが,解釈性が低く,予測の根拠が不明確な場合がある。
    • 脳腫瘍のMRI画像分類において,説明可能性と精度を両立するモデルを構築すること。
    • 提案手法は,主要データセットにおいて98.21%の精度を達成し,高い分類性能を示した。
    • 未知のデータセットに対しても95.74%の精度を維持し,汎化性能の高さが確認された。
    • Grad-CAM等の説明手法を活用し,不要な層の削除と重要な領域への集中を促すことで,モデルの透明性を高めた。

    Link: https://arxiv.org/abs/2506.09161

  • 形状適応型ゲートエキスパートによる適応ヒストパソロジー画像セグメンテーション [eess.IV, cs.AI, cs.CV]目的:ヒストパソロジー画像セグメンテーションにおける,形状と大きさが多様な細胞への対応
    • 癌検出支援において,ギガピクセル全スライド画像(WSI)の解析が重要であり,細胞の不均一性が課題である。
    • 既存のCNN-Transformerハイブリッドは固定されたルーティングを用いるため,変化する入力への適応が困難である。
    • 入力に応じて動的に専門家をルーティングするフレームワークを構築し,柔軟な画像解析を実現する。
    • SAGEは,畳み込みとTransformerモジュールを統合し,階層的ゲート機構と形状適応ハブ(SA-Hub)によって特徴表現を調和させる。
    • EBHIデータセットでDice係数95.23%,GlaS Test A/Test Bでそれぞれ92.78%/91.42%,DigestPathでWSIレベルで91.26%のDSCを達成した。
    • 分布シフトに対してもロバストな汎化性能を示し,局所的な精密化とグローバルなコンテキストのバランスを適応的に調整する。

    Link: https://arxiv.org/abs/2511.18493

  • LLMによる共謀的価格設定 [econ.TH, cs.AI, cs.CE, cs.CL, cs.GT]目的:LLMへの価格設定委任が,両売り手が同一の事前学習済みモデルに依存する二重寡占において,いかに共謀を促進するか
    • 市場の公正な競争を維持するため,価格設定における不正行為のメカニズム理解が不可欠である。
    • AIが価格設定に利用される際,意図せぬ共謀的行動を引き起こす可能性が懸念される。
    • LLMの特性と再学習プロセスが,価格設定における共謀的行動に及ぼす影響を明らかにすること。
    • LLMの出力忠実度がある閾値を超えると,競争的価格設定と共謀的価格設定が両方とも安定する二重安定性が生じる。
    • 出力忠実度が低い場合は競争的価格設定が唯一の安定状態となるが,高い場合は初期状態によって実現される結果が決定される。
    • 訓練バッチサイズが大きいほど,共謀状態から競争状態への移行が抑制され,共謀の確率が高まる。

    Link: https://arxiv.org/abs/2601.01279

  • M3CoTBench:医学画像理解におけるMLLMの思考過程ベンチマーク [eess.IV, cs.CV]目的:医学画像理解におけるMLLMの思考過程の正確性,効率性,影響,および一貫性の評価
    • 医療分野では,視覚的情報と段階的思考が診断に不可欠であり,CoTは臨床思考と親和性が高い。
    • 既存の医学画像理解ベンチマークは最終的な答えに焦点を当てており,思考過程が評価されていない。
    • 本研究は,医学画像理解におけるCoTの思考過程を評価するための新たなベンチマークを開発し,信頼性の高いAI開発を促進する。
    • M3CoTBenchは,24種類の検査タイプと13種類の難易度を変えたタスクを含む,多様で多水準の難易度を持つデータセットを備えている。
    • 本ベンチマークは,臨床推論に特化したCoT評価指標(正確性,効率性,影響,一貫性)を提供し,複数のMLLMの性能分析を実施した。
    • 実験により,MLLMが信頼でき,臨床的に解釈可能な思考過程を生成する上での限界が明らかになった。

    Link: https://arxiv.org/abs/2601.08758

  • ENSOの伝統的なジャワのガムラン音階を用いた予備的な音化 [physics.soc-ph, cs.SD, physics.ao-ph]目的:ENSOの音化による複雑系表現の可能性
    • 地球規模の気候変動理解は,持続可能な社会の実現に不可欠である。
    • 複雑な気候システムの可視化・聴覚化は,新たな洞察をもたらす可能性を秘めている。
    • 文化的背景を考慮した音化手法が,気候データの理解を深めることを目指す。
    • ENSOの海面温度異常を,ジャワのガムラン音階(ペログ,スレンドロ)を用いて音化する。
    • 音化されたデータは,2次元音響位相空間における軌跡として分析され,ENSOの準周期性やダイナミクスが再現された。
    • 音階の違いにより,スペクトル輝度とエネルギー間の結合様式に違いが認められた。

    Link: https://arxiv.org/abs/2602.14560