arXiv雑要約

画像・音声 - 2026/05/08 公開

  • 経過観察内視鏡における直腸腫瘍再増殖評価のための二重クロスアテンションSiamese Transformer [cs.CV]目的:直腸癌における化学放射線療法後の経過観察内視鏡画像を用いた腫瘍再増殖の識別
    • 直腸癌治療において,術後経過観察が重要視される傾向にある。
    • 経過観察における腫瘍再増殖の早期発見は,画像診断の精度に依存している。
    • 内視鏡画像から客観的に腫瘍再増殖を識別する手法の確立が求められている。
    • 提案手法SSDCAは,81.76%のバランスアキュラシー,90.07%の感度,72.86%の特異度を示した。
    • 画像中の血液や便などのアーチファクトに強く,安定した性能を維持した。
    • 抽出された特徴量を用いたUMAPクラスタリングにより,識別能力の高さが確認された。

    Link: https://arxiv.org/abs/2512.03883

  • RobustSora:堅牢なAI生成動画検出のためのウォーターマーク除去ベンチマーク [cs.DC, cs.HC, cs.CV, cs.AI]目的:AI生成動画の堅牢な検出のための評価基準
    • AI生成動画の普及は,情報保全とデジタル信頼性に新たな課題をもたらしている。
    • 既存の評価基準は,ウォーターマークの影響を考慮しておらず,検出器が生成アーチファクトではなくウォーターマークパターンを学習している可能性が残る。
    • ウォーターマークの影響を分離し,検出器の真の性能を評価すること。
    • AI生成動画からウォーターマークを除去した場合,検出精度が-9.4%から+1.6%変動する(平均6.6%)。
    • 偽のウォーターマークを付加した認証動画に対する誤検知率を評価した結果,検出器はウォーターマークに依存していることが示唆された。
    • Sora 2は,PikaやOpen-Sora 2と比較して検出精度の低下が大きく,ウォーターマークの顕著さが依存度の主な要因であることが示された。

    Link: https://arxiv.org/abs/2512.10248

  • SoccerMaster:サッカー理解のためのビジョン基盤モデル [cs.CV, cs.AI]目的:サッカーの視覚的理解に関する多様なタスクの統合
    • スポーツ分析の高度化に貢献するため,サッカー特有の複雑な視覚情報処理が重要である。
    • 従来のタスク固有のモデルは,汎用性に欠け,データ効率が低いという課題があった。
    • 単一のモデルで多様なタスクを効率的に処理し,サッカー理解の精度向上を目指す。
    • SoccerMasterは,サッカーに特化した最初のビジョン基盤モデルであり,複数のタスクを統合的に処理する。
    • SoccerFactoryというデータキュレーションパイプラインを開発し,大規模な学習データセットを構築した。
    • 多様な下流タスクにおいて,タスク固有のモデルを上回る性能を実証した。

    Link: https://arxiv.org/abs/2512.11016

  • VideoASMR-Bench:AI生成ASMR動画はVLMと人間を欺けるか? [cs.CV]目的:AI生成ASMR動画の識別能力評価
    • AI技術の発展に伴い,生成動画の品質向上は重要な課題となっている。
    • 既存のベンチマークは,ASMR動画のような繊細な知覚評価には不十分である。
    • VLMとVGMの能力を測り,より現実的な生成動画の評価を目指す。
    • 最先端のVLMでさえ,AI生成ASMR動画の信頼性のある検出に失敗していることが判明した。
    • 現在のVGMは,VLMが識別困難なASMR動画を生成できるものの,人間には見破られる場合が多い。
    • VideoASMR-Benchは,VGMとVLMの間の敵対的な評価枠組みを可能にする。

    Link: https://arxiv.org/abs/2512.13281

  • MACE-Dance:音楽駆動型ダンスビデオ生成のためのモーション・外観カスケード専門家 [cs.CV]目的:音楽駆動型ダンスビデオ生成のためのフレームワーク
    • オンラインダンスプラットフォームの普及とAI技術の進歩により,新たなコンテンツ生成の需要が高まっている。
    • 既存手法では,高品質な視覚表現とリアルな人間の動きを両立することが難しい。
    • 音楽と動きに基づいて,高品質で自然なダンスビデオ生成を実現することを目的とする。
    • MACE-Danceは,モーション生成と外観合成をカスケード構造で実現し,ダンスビデオ生成の性能を向上させた。
    • モーション生成の専門家は,拡散モデルとBiMamba-Transformerハイブリッドアーキテクチャにより,最先端の性能を達成した。
    • 外観生成の専門家は,動きと参照に基づいて,視覚的な同一性を維持しつつ,時空間的な一貫性を実現した。

    Link: https://arxiv.org/abs/2512.18181

  • CSMCIR:構成画像検索のためのCoT強化対称的アライメントとメモリバンク [cs.CV, cs.AI]目的:構成画像検索における性能向上
    • 画像検索は,大量の画像データから目的の画像を効率的に見つけ出すため,重要な技術である。
    • 既存手法では,異なるモダリティ間の表現空間の断片化により,検索精度が制限されている。
    • モダリティ間の表現空間を統一し,より効率的な画像検索を実現することを目指す。
    • 提案手法CSMCIRは,Multi-level Chain-of-Thoughtプロンプティングと対称的二重塔アーキテクチャを組み合わせ,表現空間のアライメントを改善する。
    • メモリバンク戦略により,高品質な負例サンプルを提供し,モデルの学習状態との整合性を維持する。
    • 4つのベンチマークデータセットで最先端の性能を達成し,トレーニング効率も向上している。

    Link: https://arxiv.org/abs/2601.03728

  • ニューラルネットワークにおける整合的な説明 [cs.LG, cs.CV, stat.ML]目的:ニューラルネットワークの説明の整合性
    • AIの意思決定の重要性が増す中で,その根拠の説明は信頼を得る上で不可欠である。
    • 既存の説明手法は,モデルの真の推論を反映している保証がない。
    • モデルの予測を直接構築する説明手法を確立し,信頼性向上を目指す。
    • 提案手法PiNetsは,画像分類・セグメンテーションにおいて,説明の忠実性(MARS)を示すことができた。
    • PiNetsは,深い学習の予測力と線形モデルの解釈可能性を両立させることで,信頼できるAIの基礎を提供する。
    • データ駆動型科学的発見への応用の道を開く。

    Link: https://arxiv.org/abs/2601.04378

  • ICTにおけるマルチモーダルLLMを用いた画像キャプション生成:汎用性と業界ドメインのギャップを埋める [cs.CV]目的:ICT分野におけるドメイン特化型画像キャプションモデルの開発と評価
    • ICT分野では,画像を含む多様な情報が重要な知識源となるが,その活用は十分ではない。
    • 既存手法では,テキスト解析は可能だが,画像から情報を抽出する能力が不足している。
    • マルチモーダルLLMのドメイン知識不足を解消し,画像から論理的なテキストを効率的に抽出することを目指す。
    • 本研究で開発したDICModel(7Bパラメータ)は,既存の最先端モデル(32Bパラメータ)を凌駕する性能を示した。
    • BLEUスコアにおいて,7Bおよび32BパラメータのSOTAモデルと比較して,それぞれ約56.8%および20.8%の改善が見られた。
    • ICTドメイン専門家が作成した客観式問題において,DICModelはQwen2.5-VL 32Bよりも1%高い正答率を達成した。

    Link: https://arxiv.org/abs/2601.09298

  • イベント認識と時間的多様性を考慮した動画キャプション生成のための学習可能なフレーム選択器 [cs.CV]目的:イベント認識と時間的多様性を考慮した動画キャプション生成のためのフレーム選択手法
    • 動画キャプション生成は,動画の内容を理解し,自然言語で説明する上で重要である。
    • 動画全体のフレームを全て処理する計算コストが高いため,通常は均一にフレームをサンプリングするが,イベントの分布の偏りを無視する問題がある。
    • イベントの重要度と時間的多様性を考慮したフレーム選択により,より質の高い動画キャプション生成を目指す。
    • 学習可能なフレーム選択器(LFS)は,既存の動画キャプション生成ベンチマークおよびICH-CCにおいて,詳細な動画キャプションの性能を安定的に向上させた。
    • LFSを用いることで,VDCで最大2.0%,ICH-CCで4%以上の性能向上を達成し,動画の質疑応答タスクにおいても改善が見られた。
    • LFSは,動画キャプション生成における効果的かつ容易に統合可能な解決策を提供する。

    Link: https://arxiv.org/abs/2601.14594

  • HERMES:効率的なストリーミング動画理解のためのKVキャッシュを階層型メモリとして [cs.CV, cs.AI, cs.CL]目的:ストリーミング動画の効率的な理解
    • 動画理解技術は,多様な応用分野において重要性が増しており,その発展が求められている。
    • 既存のモデルは,リアルタイム性,精度,メモリ消費量のバランスを取ることが困難である。
    • HERMESは,限られた計算資源下で,ストリーミング動画のリアルタイムかつ高精度な理解を実現する。
    • HERMESは,KVキャッシュを階層型メモリとして捉えることで,効率的なストリーミング動画理解を可能にする。
    • 追加計算なしでリアルタイム応答を保証し,既存の最先端技術と比較してTTFTを10倍高速化する。
    • 動画トークン数を最大68%削減しても,全てのベンチマークにおいて同等以上の精度を達成し,ストリーミングデータセットでは最大11.4%の改善を示す。

    Link: https://arxiv.org/abs/2601.14724

  • SwitchCodec:高忠実度ニューラル音声符号化のための適応残差エキスパート疎量化 [cs.HC, cs.CL, cs.IR, cs.NI, cs.SD, cs.AI]目的:高忠実度ニューラル音声符号化のための適応残差エキスパート疎量化手法
    • 音声圧縮技術は,効率的なデータ伝送と保存に不可欠であり,その重要性は増している。
    • 従来の残差ベクトル量子化は,固定されたコードブック数を用いるため,多様な音声コンテンツに対応しきれない。
    • 音声コンテンツの変動に応じて最適な量子化器を選択し,ビットレートとコードブック容量を分離することを目指す。
    • SwitchCodecは,動的にルーティングされるエキスパート量子化器を用いることで,共有量子化器と組み合わせ,圧縮効率を向上させている。
    • 推論時にアクティブなエキスパート量子化器数を調整する可変ビットレート機構により,再学習なしでマルチビットレート運用を実現している。
    • 客観評価と主観評価の両方において,既存のベースラインを上回る性能を示している。

    Link: https://arxiv.org/abs/2601.20362

  • FRISM:部分空間レベルのモデル統合による視覚言語モデルへの微細な推論能力の注入 [cs.CV, cs.LG]目的:視覚言語モデルへの推論能力注入手法
    • 視覚言語モデルの性能向上は,画像とテキストの理解を深める上で不可欠である。
    • 既存手法では,推論能力と視覚能力のバランスを取ることが難しい場合がある。
    • 部分空間レベルでのモデル統合により,推論能力を向上させつつ視覚能力を維持すること。
    • FRISMは,大規模推論モデルのタスクベクトルを特異値分解(SVD)し,各部分空間のスケーリング係数を学習することで,微細な推論能力注入を実現する。
    • ラベルを用いない自己蒸留学習戦略を採用し,視覚言語モデルの知覚データセットを用いて双方向の最適化を行う。
    • 多様な視覚言語推論ベンチマークにおいて,FRISMは推論能力を効果的に向上させ,視覚能力を維持することを示した。

    Link: https://arxiv.org/abs/2601.21187

  • XRにおける迅速な注意捕捉のための空間オーディオキューの評価 [cs.HC, cs.SD, eess.AS]目的:XR環境における空間オーディオによる迅速な注意捕捉の精度
    • XR技術の発展に伴い,安全性や効率性を高めるための注意喚起手法の重要性が増している。
    • 既存の視覚的な注意喚起は,視認性の問題や情報過多により,迅速な反応を妨げる場合がある。
    • 本研究は,短時間で効果的な空間オーディオによる注意誘導メカニズムの可能性を探る。
    • 短い時間でも空間オーディオは,おおまかな方向情報を伝えることができることが示された。
    • 短期間の視覚・聴覚フィードバック訓練は,オーディオ信号の知覚精度を向上させることが確認された。
    • 空間オーディオ単独では高精度な誘導は難しく,他の感覚や視覚キューとの組み合わせが有効であると考えられる。

    Link: https://arxiv.org/abs/2601.21264

  • 忘却の錯覚:初期潜在変数最適化による学習解除された拡散モデルへの攻撃 [cs.LG, cs.AI, cs.CV, cs.CY]目的:テキストから画像への拡散モデルにおける有害コンテンツ生成問題に対する,学習解除手法の脆弱性評価
    • 拡散モデルは強力だが,悪用される可能性があり,公共の利益を脅かすため,安全性の確保が重要である。
    • 学習解除は有効な対策だが,知識が潜在的に残存し,再活性化される「忘却の錯覚」という課題がある。
    • 拡散モデルのノイズ分布のずれを指標とし,学習解除の強度と脆弱性を定量的に評価する手法を開発する。
    • 学習解除は言語と知識の間のマッピングを部分的に破壊するだけであり,知識は潜在的に残存する。
    • 提案手法IVOは,初期潜在変数を最適化することで,学習解除されたモデルのノイズ分布を復元し,潜在的な知識を再活性化する。
    • IVOは既存の攻撃手法を上回り,現在の学習解除メカニズムの根本的な欠陥を明らかにする。

    Link: https://arxiv.org/abs/2602.00175

  • SMI:信頼性の高い学習済みモデルの監査のための統計的メンバーシップ推論 [cs.LG, cs.AI, cs.CR, cs.CV, math.OC]目的:機械学習システムの忘却権を施行するための機械的アンラーニングの監査手法
    • 機械学習モデルのプライバシー保護は重要であり,データ主体の権利擁護に不可欠である。
    • 既存のメンバーシップ推論攻撃は,忘却の評価に誤りをもたらす可能性がある。
    • 忘却率の正確な推定と,監査の信頼性評価を可能にする新しい手法を開発すること。
    • 本研究では,学習済みモデルの監査のための新しいフレームワークである統計的メンバーシップ推論(SMI)を提案する。
    • SMIは,メンバーシップ推論攻撃に必要なシャドウムーデルの訓練を不要とし,計算コストを削減する。
    • 実験結果から,SMIは既存のメンバーシップ推論攻撃ベースラインよりも一貫して優れた性能を示すことが示された。

    Link: https://arxiv.org/abs/2602.01150

  • PixelGen:知覚的教師信号を用いたピクセル拡散の改善 [cs.CV, cs.AI]目的:ピクセル拡散における画像生成の質的向上
    • 画像生成技術は,多様な応用分野で重要性が増しており,高画質化が求められている。
    • 従来のピクセル拡散は,全てのピクセルを均等に扱うため,知覚的に重要でない信号に計算資源を費やす傾向がある。
    • 知覚的教師信号を導入することで,ピクセル拡散の画質を向上させ,潜在拡散との差を縮小することを目指す。
    • PixelGenは,LPIPS損失とP-DINO損失という2つの補完的な知覚的損失を導入することで,ローカルテクスチャとグローバルセマンティクスを改善する。
    • ImageNet-256において,PixelGenは分類器フリーガイダンスなしでFID 5.11を80エポックで達成し,潜在拡散のベースラインを上回った。
    • PixelGenはテキストからの画像生成にも効率的に拡張でき,8xH800 GPUで6日間トレーニングした結果,GenEvalスコア0.79を達成した。

    Link: https://arxiv.org/abs/2602.02493

  • それは宝くじではない,競争である:勾配降下がタスクに合わせてネットワークの容量を適応させる仕組みの理解 [cs.LG, cs.AI, cs.CV, cs.NE]目的:勾配降下法によるニューラルネットワークの容量適応メカニズム
    • ニューラルネットワークは実証的に成功を収めているが,理論的理解は遅れている。
    • 訓練中に,理論的な容量がタスクに適合する有効容量にどのように削減されるか不明である。
    • 勾配降下法が容量を削減するメカニズムを,ReLUネットワークのニューロンレベルで解明する。
    • 相互整列,ロック解除,競争という3つの動的原理が,同等なニューロンの統合や低ノルム重みの剪定を説明する。
    • 特定のニューロンの初期条件がより高い重みノルムを獲得する理由を,宝くじチケット仮説を通じて説明する。
    • 勾配降下法が,タスクの複雑さに応じてネットワークの容量を動的に調整する仕組みを明らかにする。

    Link: https://arxiv.org/abs/2602.04832

  • 記憶拡張カルマンフィルタによる連続ナビゲーションにおける誤差蓄積の軽減 [cs.RO, cs.CV, cs.SY, eess.SY]目的:複雑な環境における連続ナビゲーションのための誤差蓄積軽減手法
    • UAVの自律飛行において,正確な位置推定は不可欠であり,ナビゲーションの信頼性を左右する。
    • 従来のVLNモデルはデッドレコニングに依存し,誤差が時間とともに蓄積し,位置ずれを引き起こしやすい。
    • カルマンフィルタを利用し,過去の観測情報を用いて誤差を修正することで,ドリフトの蓄積を抑制することを目指す。
    • 提案手法NeuroKalmanは,運動モデルに基づく事前予測と,過去の観測に基づく尤度補正の2つのプロセスを分離する。
    • カーネル密度推定とアテンション機構を関連付け,勾配更新なしで過去のアンカーを用いて潜在表現を修正する。
    • TravelUAVベンチマーク実験で,わずかな学習データで既存手法を凌駕し,ドリフトの蓄積を抑制できることが示された。

    Link: https://arxiv.org/abs/2602.11183

  • 検証可能な推論のためのマルチモーダルファクトレベル帰属 [cs.CL, cs.AI, cs.CV]目的:マルチモーダル推論におけるファクトレベル帰属の評価
    • 現実世界のタスクでは,複雑な推論と長文生成が求められ,信頼性が重要となる。
    • 既存の評価手法は,単純な観察に基づいたり,対象となるモダリティが限定的であったりする。
    • 複雑なマルチモーダル推論における帰属の評価を目指す。
    • MuRGAt(マルチモーダルファクトレベル帰属)というベンチマークを新たに提案した。
    • 強力なMLLMであっても,正しい推論を行う一方で,引用の誤り(ハルシネーション)が頻繁に発生することが明らかになった。
    • 推論の深さを増したり,構造化された帰属を強制したりすると,精度が低下するトレードオフが存在することが示された。

    Link: https://arxiv.org/abs/2602.11509

  • 視覚的パラ思考者:視覚的理解のための分割統治型推論 [cs.IR, cs.CV, cs.AI]目的:視覚的理解のための分割統治型推論の枠組み
    • 大規模言語モデルの性能向上には,推論能力の拡張が不可欠である。
    • 深層な推論に偏りがちで,探索が停滞する課題があった。
    • 視覚情報に対する並列推論の有効性を検証し,新たな枠組みを提案する。
    • Visual Para-Thinkerは,マルチモーダル大規模言語モデルにおける並列推論を実現した初の枠組みである。
    • Pa-AttentionとLPRoPEを統合することで,多様な推論経路を確保し,経路依存性を低減した。
    • V*,CountBench,RefCOCO,HallusionBench等のベンチマークデータセットで,視覚的推論の性能向上が確認された。

    Link: https://arxiv.org/abs/2602.13310

  • レイヤー誘導UAVトラッキング:効率と遮蔽へのロバスト性の向上 [cs.CV]目的:UAVトラッキングにおける効率と遮蔽へのロバスト性の向上
    • UAV応用に際し,視覚物体トラッキングは重要な役割を担う。
    • 精度と効率のトレードオフが課題であり,特に遮蔽のような状況下で顕著である。
    • 遮蔽時のロバスト性を高めつつ,追跡の効率を向上させることを目指す。
    • 提案手法LGTrackは,動的レイヤー選択,効率的な特徴強化,遮蔽に対するロバストな表現学習を統合する。
    • 軽量なGGCAモジュールにより,遠距離依存性とグローバルコンテキストを捉え,計算コストを抑えつつ特徴判別性を向上させる。
    • SGLAモジュールを採用し,知識蒸留に代わるアプローチで,追跡精度と推論効率の最適なバランスを実現した。

    Link: https://arxiv.org/abs/2602.13636

  • MARVL:視覚言語モデルによるロボット操作のための多段階ガイダンス [cs.RO, cs.CV, cs.LG]目的:ロボット操作における視覚言語モデルによる多段階ガイダンスの設計
    • ロボットの強化学習は自動化に不可欠だが,報酬関数の設計が課題となる。
    • 従来の報酬関数は手動設計に依存し,拡張性と自動性に限界がある。
    • 視覚言語モデルを活用し,報酬設計の自動化と性能向上を目指す。
    • MARVLは,視覚言語モデルの空間的・意味的一貫性を向上させる。
    • タスクを多段階のサブタスクに分解し,軌道感受性を高める。
    • Meta-Worldベンチマークで既存手法を凌駕し,高いサンプル効率と頑健性を示す。

    Link: https://arxiv.org/abs/2602.15872

  • EAGLE:専門家による注意誘導を用いた,チューニングフリーなマルチモーダル大規模言語モデルによる産業異常検知 [eess.SY, cs.SY, cs.CV]目的:産業異常検知におけるマルチモーダル大規模言語モデルの性能向上
    • 産業設備の異常検知は,安全性と生産性維持に不可欠である。早期発見が重要。
    • 大規模言語モデルは異常検知に有用だが,専門的な検知器に劣る精度が課題。
    • 既存手法の柔軟性の制限を克服し,チューニングなしで性能向上を目指す。
    • EAGLEは,専門家の異常検知器と凍結された大規模言語モデルを統合するチューニングフリーなフレームワークである。
    • TGPSとCAASにより,大規模言語モデルの注意を視覚的証拠に集中させ,精度を向上させる。
    • MVTec-ADとVisAにおいて,5つの大規模言語モデルで最先端の性能を達成し,チューニングベースの手法と同等の結果を得た。

    Link: https://arxiv.org/abs/2602.17419

  • 疎な衛星時系列と気象共変量からのNDVI確率的予測 [cs.LG, cs.CV, stat.ML]目的:精密農業におけるデータ駆動型意思決定支援のための,植物の動態短期予測
    • 農業生産性の向上や食糧安全保障の確保に,植物の生育状況を正確に把握することが重要である。
    • 雲の影響や気候条件の不均一性により,衛星観測からのNDVI予測は困難であった。
    • 疎な観測データや不規則な時間間隔,予測期間に依存する不確実性への対処を目指す。
    • 提案手法は,統計モデルや深層学習モデル,時系列モデルといった既存手法を上回る性能を示した。
    • 過去のNDVIデータが予測性能の主要な要因であり,気象共変量はさらなる改善に貢献することが確認された。
    • 時間距離重み付き分位損失関数が,予測精度と不確実性評価の両方を向上させた。

    Link: https://arxiv.org/abs/2602.17683

  • イベントからフレームへの再構成のための統一拡散フレームワーク:ビデオ基礎モデルを活用して [cs.CV]目的:イベントデータからの高忠実度ビデオフレームの再構成
    • イベントカメラは高速・低消費電力で高ダイナミックレンジな映像認識に優れる。
    • イベントデータは絶対的な輝度情報を記録せず,空間情報や静的なテクスチャが失われやすい。
    • ビデオ拡散モデルの生成能力を用いて,イベントデータからフレームを再構成し,その精度を向上させる。
    • 本研究では,事前学習済みのビデオ拡散モデルを利用することで,イベントデータから高品位なビデオフレームを再構成する手法を提案した。
    • イベントストリームとビデオフレームの物理的な相関に基づき,フレーム間の残差ガイダンスを導入することで,再構成の精度を向上させた。
    • 提案手法は,既存手法と比較して,定量・定性両面で優れた性能を示すことが,実データおよび合成データを用いた実験で確認された。

    Link: https://arxiv.org/abs/2602.19202

  • 同じ言葉,異なる判断:嗜好がモダリティ間でどのように変化するか [cs.DC, cs.ET, cs.SD, cs.AI, cs.HC]目的:人間の嗜好にAIシステムを適合させるための,嗜好に基づく強化学習の評価プロトコル
    • AIシステムの人間との整合性が重要視される中で,人間の嗜好をAIに学習させる技術が求められている。
    • 既存の評価プロトコルはテキスト向けに設計されており,音声データへの妥当性が検証されていない。
    • テキストと音声の評価を比較し,音声データに特化した評価プロトコルの必要性を示す。
    • テキストと音声で同じ内容を評価した場合,良好な合意を得るためには約9人の評価者が必要である。
    • 音声評価者は,テキスト評価者と比較して,判断の閾値が狭く,長さの影響を受けにくく,ユーザー視点の評価基準を持つことが示された。
    • 合成評価は,評価者間の合意を予測するのに有効であり,刺激の選択や人間によるアノテーションの代替として機能する。

    Link: https://arxiv.org/abs/2602.22710

  • 盲点から成果へ:診断駆動型反復学習による大規模マルチモーダルモデルの訓練 [cs.CV]目的:大規模マルチモーダルモデルの能力盲点診断と,動的なターゲットを絞った強化学習
    • 大規模マルチモーダルモデルは複雑な推論と意思決定において進歩しているが,更なる性能向上が求められている。
    • 静的なデータと固定されたレシピに依存した訓練方法では,能力の盲点の診断や動的な強化学習が困難である。
    • テスト駆動型エラー露出とフィードバックに基づく修正の有効性に着目し,診断に基づいたデータ生成と強化学習の反復サイクルを実現する。
    • 提案手法DPEは,複数のエージェントによる大規模なマルチモーダルデータの注釈と品質管理を通じて,多様で現実的なサンプルを生成する。
    • DPEは失敗の原因を特定し,データ混合比を動的に調整することで,弱点に焦点を当てたデータ生成によるターゲットを絞った強化学習を可能にする。
    • Qwen3-VL-8B-InstructとQwen2.5-VL-7B-Instructを用いた実験では,11のベンチマークで安定した性能向上が確認され,DPEがオープンタスク分布下での継続的なLMM訓練に適していることが示された。

    Link: https://arxiv.org/abs/2602.22859

  • ロバストな声門面積波形の抽出と臨床病理学的評価のための検出ゲート付きパイプライン [cs.CV, cs.AI, cs.LG]目的:高速度ビデオ内視鏡 (HSV) 画像における声門面積の正確かつ汎用性の高いセグメンテーション
    • 声帯の機能評価は,音声障害の診断や治療において不可欠な要素である。
    • 従来のセグメンテーション手法では,声門閉鎖時の誤検出や,撮影条件の変化による精度低下が課題となっていた。
    • 本研究は,検出ゲート機構を用いて,これらの課題を克服し,高精度かつリアルタイムな声門面積の抽出を実現することを目指す。
    • 提案手法は,異なるデータセット間での高い移植性を示し,既存手法と同等以上の性能を達成した。
    • 臨床試験では,声門面積の変動係数 (CV) が正常と病的な機能を統計的に有意に識別することが示された (p=0.006)。
    • 本システムは,汎用的なハードウェア上で約35フレーム/秒の処理速度を実現し,臨床現場でのインタラクティブなレビューを可能にする。

    Link: https://arxiv.org/abs/2603.02087

  • 適応型AI委譲における経路依存性 [cs.CY, cs.AI, cs.GT]目的:AI委譲が長期的な人間のスキルに与える影響の数学的分析
    • AI技術の進展に伴い,人間の意思決定へのAIの統合が拡大しているため,その影響を理解することが重要。
    • AIへの過度な依存は,人間のスキル低下を招く可能性があり,長期的なパフォーマンスに悪影響を及ぼすことが懸念される。
    • AI委譲が人間のスキルに与える影響を定量化し,スキルの低下リスクを評価すること。
    • 反復的なAI支援は,即時のタスクパフォーマンスを向上させる一方で,将来的な自立作業に必要なスキルを低下させる。
    • 適応型AI委譲システムは,2つの安定した終端状態を持ち,初期条件の違いによって異なる結果が生じる可能性がある。
    • AI能力の向上は,低スキル状態への移行を容易にし,結果的にスキルの喪失リスクを高める可能性がある。

    Link: https://arxiv.org/abs/2603.02950

  • 医療画像復元における幻覚評価のためのsFRC [cs.CV, physics.med-ph, stat.ML]目的:医療画像復元における深層学習モデルの幻覚検出
    • 医療画像は診断に不可欠であり,高品質な画像復元が求められる。
    • 深層学習は画像復元に有効だが,視覚的に良好でも実際には幻覚を含む可能性がある。
    • 深層学習モデルが出力する画像中の幻覚を定量的に評価する手法の開発。
    • 提案手法sFRCは,深層学習によるCT超解像,CTスパースビュー,MRIサブサンプリング復元において幻覚を検出できることを示した。
    • sFRCはCT問題において幻覚特徴の検出に有効であり,MR問題においては画像理論に基づく幻覚マップとの一致性も確認された。
    • 深層学習法の頑健性を評価するため,データ分布やサブサンプリング率を変化させた際の幻覚率を定量化した。

    Link: https://arxiv.org/abs/2603.04673

  • DARK:大規模圧縮下におけるビジョン言語モデルのための対角アンカー反発知識蒸留 [cs.CV, cs.AI, cs.LG]目的:大規模圧縮下におけるビジョン言語モデルの知識蒸留
    • 臨床現場でのオンデバイス展開のため,ビジョン言語モデルの圧縮が重要視されている。
    • 教師モデルと生徒モデルの能力差が大きい場合,知識蒸留の性能が著しく低下する。
    • 本研究では,極端な圧縮下で教師モデルの構造的バイアスを生徒モデルに伝播させないことを目指す。
    • DARKは,教師モデルの画像とテキストのペア間の類似度構造を生徒モデルに効率的に伝達する。
    • 実験の結果,MobileFetalCLIPはFetalCLIPと同等またはそれ以上のゼロショットベンチマーク性能を示した。
    • DARKは,教師モデルの信頼性を維持しながら,クラス間の混同を抑制する構造的非相関を誘導する。

    Link: https://arxiv.org/abs/2603.05421

  • 拡散生成FIDの予測指標としての再構成FID [cs.CV, cs.LG]目的:拡散モデルの生成FIDと相関性の高い指標の開発
    • 生成モデルの性能評価は重要であり,FIDはその代表的な指標である。
    • VAEの再構成FIDは,拡散モデルの生成FIDとの相関が低いという課題がある。
    • 再構成指標と生成FIDの相関を高め,より信頼性の高い評価を可能にすること。
    • 提案手法であるiFIDは,既存の再構成FIDと比較して生成FIDとの高い相関性を示すことが確認された。
    • iFIDは,拡散モデルがサンプリングする領域の特性を捉え,生成品質を評価していると考えられる。
    • 多様なVAEにおいて,iFIDは拡散生成FIDとのピアソンの相関係数約0.85を達成し,優れた予測性能を証明した。

    Link: https://arxiv.org/abs/2603.05630

  • 動的チャンキングによるビジュアル生成のための適応的計算と弾力的な推論 [cs.CV, cs.AI, cs.LG]目的:ビジュアル生成における計算効率と柔軟性の向上
    • 画像生成モデルの効率化は,計算資源の制約を考慮する上で重要である。
    • 従来の拡散モデルでは,入力画像全体に対して固定的なトークン数を割り当てていた。
    • 画像の特徴に応じてトークン数を動的に調整することで,計算コストを削減する。
    • DC-DiTは,固定的なパッチ分割を学習されたエンコーダー・ルーター・デコーダー構造に置き換える。
    • 推論FLOPsを最大36.8%削減し,FIDを最大37.8%改善した。
    • モデルのスケール,解像度,ガイダンス設定にわたって,品質と計算量のトレードオフを最適化する。

    Link: https://arxiv.org/abs/2603.06351

  • 融合複雑性の反転:牧草バイオマス回帰における単純なクロスビューモジュールがSSMやクロスビューアテンションTransformerを上回る理由 [cs.CV, cs.LG]目的:牧草バイオマスの回帰精度向上
    • 持続可能な畜産管理には,牧草バイオマスの正確な推定が不可欠である。
    • 実際のモニタリングでは,データセットが小規模,不均衡,アノテーションが疎であることが課題である。
    • 限られた農業データにおける最適なモデル構造を特定すること。
    • 少ない農業データでは,2層ゲート付きDepthwise Convolutionが,クロスビューアテンションTransformerやSSMよりも優れた性能を発揮することが示された。
    • バックボーンの事前学習スケールが,他のアーキテクチャの選択よりも重要であることが明らかになった。
    • 推論時に利用できない特徴を除外することが,性能向上に繋がる。

    Link: https://arxiv.org/abs/2603.07819

  • 線形化注意機構は,現実的な幅においてカーネル領域に到達できない [cs.LG, cs.CV, cs.NA, math.NA, stat.ML]目的:注意機構がカーネル領域に収束するかどうかの理解
    • Transformerの解釈可能性評価における影響関数は重要である。正確な評価にはカーネル領域への収束理解が不可欠。
    • Softmax注意機構の非線形性により厳密な解析が困難。線形化注意機構は代替手段として利用されているが,問題が残る。
    • 線形化注意機構の学習ダイナミクスにおける根本的なトレードオフを明らかにし,カーネル領域への収束限界を示す。
    • 線形化注意機構は,入力グラム行列の条件数に依存し,現実的な幅でカーネル領域に収束しないことが示された。
    • MNISTやCIFAR-10などの自然画像データセットでは,必要なモデル幅が既存のアーキテクチャを大幅に超えることが示された。
    • 線形化注意機構は,ReLUネットワークと比較して,敵対的摂動に対する脆弱性が高く,データの条件数に依存して影響を受けやすい。

    Link: https://arxiv.org/abs/2603.13085

  • ChArtist:統一的な空間と被写体制御による図解チャートの生成 [cs.CV, cs.AI]目的:図解チャートの自動生成
    • 視覚的なストーリーテリングにおいて,データと視覚要素を融合した図解チャートは効果的である。
    • 視覚要素の柔軟性とチャート構造の厳密性の矛盾が,図解チャート作成の課題となっている。
    • 空間制御と被写体制御を統合し,データ忠実性と視覚的美観を両立した生成手法を確立すること。
    • ChArtistは,空間制御と被写体制御を可能にするドメイン固有の拡散モデルである。
    • スケルトンベースの空間制御表現を用いることで,参照画像の視覚的特徴を尊重しながら,データエンコーディング情報を容易に組み込む。
    • 生成されたチャートのデータ忠実性を評価するための統一的な指標を提案し,大規模データセットを構築した。

    Link: https://arxiv.org/abs/2603.14209

  • 全方向性LLMにおけるデコーディング戦略を形成する注意シンクの性質について [cs.CV]目的:全方向性大規模言語モデル(Omni-LLM)における推論時の推論能力強化
    • マルチモーダルな情報処理は,AIの応用範囲を広げ,より高度な知能を実現するために重要である。
    • Omni-LLMは大量のトークンを扱うため,注意機構の効率的なルーティングが課題となっている。
    • 注意シンクという現象を分析し,その機能を解明することで,モデルの推論能力向上を目指す。
    • 注意シンクは,トークンの意味内容に関わらず過剰な注意を集める現象であり,ヘッドの冗長性だけでは説明できない機能的役割を持つことが示された。
    • 注意シンクのベクトル表現は,各トークンの出力に付加される共有バイアスとして機能し,全体の表現を組織化するグローバルな信号として働く。
    • 提案手法OutRoは,注意シンクとの特徴空間での非シンクトークン表現のアライメントと,初期層での因果マスクの緩和によって,推論能力を向上させる。

    Link: https://arxiv.org/abs/2603.14337

  • VISER:視覚情報に基づくオープンセット虹彩プレゼンテーション攻撃検出の堅牢性向上システム [cs.CL, cs.CC, cs.CV]目的:オープンセット虹彩プレゼンテーション攻撃検出における堅牢性向上
    • 虹彩認識は高いセキュリティを誇るが,偽造攻撃に対する脆弱性が課題である。
    • 既存手法では,未知の攻撃手法に対する汎化性能が十分でない場合がある。
    • 人間の視覚的注意に基づく情報を用いて,攻撃検出の精度と汎化性能を向上させる。
    • 人間の視覚的注意情報を活用することで,虹彩プレゼンテーション攻撃検出の性能向上が期待できる。
    • 特に,ノイズ除去された眼球追跡ヒートマップが,他の視覚情報よりも優れた汎化性能を示すことが明らかになった。
    • 本研究で開発したモデル,コード,および視覚情報は,今後の研究を促進するための公開資源として提供する。

    Link: https://arxiv.org/abs/2603.17859

  • 空間を感じる:効率的かつ正確な3次元シーン理解のための自己運動認識型ビデオ表現 [cs.CV]目的:3次元シーン理解と空間推論の性能向上
    • 3次元シーン理解は,ロボット工学や自動運転などの応用において不可欠である。
    • 既存手法は計算コストが高く,スケールやサイズに関する曖昧性の解消が課題であった。
    • 自己運動情報を活用し,効率的かつ正確な3次元シーン理解を実現することを目指す。
    • 提案手法Motion-MLLMは,IMUデータと視覚特徴を活用したキーフレームフィルタリングにより,計算効率を高めている。
    • 自己運動情報を中間表現として利用する非対称クロスモーダル融合モジュールにより,物理的なスケールと空間関係を理解する。
    • 実験結果から,Motion-MLLMは既存手法と同等以上の精度を,より高速に達成することが示された。

    Link: https://arxiv.org/abs/2603.17980

  • 長編ビデオ理解のための適応的貪欲フレーム選択 [cs.CV, cs.AI, cs.CL]目的:長編ビデオの質疑応答におけるフレーム選択手法
    • 長編ビデオの理解は,監視,教育,エンターテイメントなど,多様な分野で重要性が増している。
    • 大規模言語モデルの推論速度が,入力フレーム数とそれに対応する視覚トークンの数に制限される。
    • クエリへの関連性と意味的代表性の両方を最適化するフレーム選択により,効率的な推論を実現する。
    • 提案手法は,関連性と意味的類似性を考慮し,固定されたフレーム予算内で最適なフレームを選択する。
    • MLVUベンチマークにおいて,一様サンプリングや既存手法と比較して,特に厳しいフレーム予算下で精度向上が確認された。
    • 質問タイプに応じた戦略を用いることで,関連性とカバレッジのバランスを最適化できる。

    Link: https://arxiv.org/abs/2603.20180

  • StableTTA:学習不要なテスト時適応手法によるビジョンモデル性能の向上 [cs.CL, cs.CV, cs.AI]目的:テスト時適応手法によるビジョンモデル性能向上
    • 画像認識の精度向上は,様々な応用分野において重要な課題である。
    • アンサンブル学習は計算コストやメモリ消費が課題となる。
    • 非線形変換や投票操作による予測の一貫性の不安定性を解消する。
    • StableTTA-Iは,一貫性のあるバッチ推論において,予測の一貫性と精度を大幅に向上させる。
    • StableTTA-IIは,単一のモデルで軽量かつアーキテクチャに依存しない精度向上を実現する。
    • テスト時の意味的 coherence と集約の安定性が,実用的なテスト時適応システムを改善する上で有用であることが示唆される。

    Link: https://arxiv.org/abs/2604.04552

  • ビジョン言語モデルは空から思考できるか?UAV推論と生成の統合 [cs.CV]目的:UAV(無人航空機)環境における統一的な空中推論と生成の研究
    • UAV技術は,災害監視,インフラ点検など多岐にわたる分野で重要性が増している。
    • 従来のビジョン言語モデルは,高高度からのUAV映像のような,物体の小ささや配置の複雑さ,視点の曖昧さに弱い。
    • 本研究は,UAVに特化したデータセットとモデルにより,これらの課題を克服し,空中での知能を実現する。
    • 大規模なUAVデータセットUAVReasonを構築し,RGB画像,深度マップ,セマンティックセグメンテーション,キャプション,質問応答ペアを提供した。
    • UAVReason-Bagelという統合的なモデルを開発し,言語推論と高密度な画像生成を同時に最適化した。
    • 実験の結果,UAVReason-Bagelは既存モデルを大幅に上回り,質問応答と画像生成の性能を向上させた。生成と推論の相乗効果も確認した。

    Link: https://arxiv.org/abs/2604.05377

  • 周波数強調拡散モデル:ゼロショット骨格アクション認識のためのカリキュラムガイド型意味的アラインメント [cs.CV, cs.AI]目的:ゼロショット骨格アクション認識における意味的アラインメント
    • 人間行動認識は,監視からヒューマン・ロボットインタラクションまで,コンピュータビジョンの重要な分野である。
    • 教師あり学習は注釈に依存し,未知のアクションへの汎化が課題である。
    • 拡散モデルの高周波ダイナミクスの過剰平滑化問題を解決し,詳細な動作を復元する。
    • 提案手法FDSMは,意味的ガイド型スペクトル残差モジュールと時間ステップ適応型スペクトル損失を統合する。
    • カリキュラムベースの意味的抽象化により,微細な動きの詳細を効果的に回復する。
    • NTU RGB+D,PKU-MMD,Kinetics-skeletonデータセットで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.09063

  • SSMamba:病理画像分類のための自己教師ありハイブリッド状態空間モデル [cs.CV, cs.AI]目的:病理画像の分類における,より効果的な特徴学習
    • 病理診断は画像解析に大きく依存しており,精度の高い画像解析が重要である。
    • 既存のモデルは,倍率変化への適応や,局所・大域的関係性のモデリングが不十分である。
    • 本研究は,これらの課題を解決し,微細な診断的特徴を捉えることを目指す。
    • SSMambaは,ターゲットROIデータセットを用いた自己教師あり事前学習と,教師ありファインチューニングの二段階パイプラインを採用している。
    • SSMambaは,10の公開ROIデータセットにおいて,11の最先端病理Foundation Modelを上回り,性能を実証した。
    • また,6つの公開WSIデータセットでは,8つの最先端手法を凌駕し,タスク固有のアーキテクチャ設計の優位性を示した。

    Link: https://arxiv.org/abs/2604.15711

  • 報酬スコアマッチング:フローモデルと拡散モデルに対する報酬ベースのファインチューニングの統合 [cs.LG, cs.AI, cs.CV]目的:報酬に基づく生成モデルの調整手法の統合
    • 生成モデルの性能向上は,画像生成などの分野で重要な課題である。
    • 既存の報酬ベースファインチューニングは手法が多様で,理論的な整理が求められていた。
    • 報酬スコアマッチングという共通の枠組みを通して,既存手法の理解と効率化を目指す。
    • 多くの報酬ベースファインチューニング手法を「報酬スコアマッチング」という共通の枠組みで説明できることが示された。
    • この枠組みにより,既存手法のトレードオフが明確になり,最適化の主要な要素と付加的なメカニズムの区別が可能になった。
    • その洞察に基づき,よりシンプルで効率的な再設計が,代表的なタスクで実現された。

    Link: https://arxiv.org/abs/2604.17415

  • MedFlowSeg:周波数認識注意機構を用いた医療画像セグメンテーションのためのフローマッチング [cs.CL, cs.HC, cs.CV]目的:医療画像セグメンテーションのためのフローマッチングフレームワーク
    • 医療画像解析は診断精度向上に不可欠であり,自動化による効率化が求められている。
    • 既存の拡散モデルは計算コストが高く,リアルタイム処理が困難である。
    • 効率的な推論を可能にしつつ,生成モデルの柔軟性を維持することを目的とする。
    • MedFlowSegは,従来の最先端手法と比較して,複数の医療画像モダリティにおいて一貫して優れた性能を示した。
    • 提案手法は,時間依存ベクトル場を学習することで,セグメンテーション分布への効率的な変換を実現する。
    • Dual-Branch Spatial AttentionとFrequency-Aware Attentionモジュールにより,構造的一貫性と境界の明確化が向上した。

    Link: https://arxiv.org/abs/2604.19675

  • 囁き声を用いた話者認証の性能向上:後処理によるアプローチ [cs.SD, cs.AI]目的:囁き声に対するロバストな表現学習
    • 話者認証は,セキュリティシステムや音声インターフェース等,多様な分野で重要な役割を担う技術である。
    • 囁き声は,通常の音声とは異なる音響特性を持つため,話者認証システムの性能を低下させる問題がある。
    • 囁き声環境下でも高い認証精度を実現するためのモデル開発を目指す。
    • 提案手法は,話者認証のバックボーンをファインチューニングしたエンコーダー・デコーダー構造を採用し,コサイン類似度に基づく分類とトリプレット損失を組み合わせて最適化された。
    • 通常の音声と囁き声の検証において,ベースラインと比較して相対的な性能向上率が22.26% (ベースライン6.77%に対し,提案手法は5.27%) を達成し,AUCは98.16%となった。
    • 囁き声同士の検証では,EERが1.88%,AUCが99.73%となり,既存のReDimNet-B2と比較して15%の相対的な性能向上が確認された。

    Link: https://arxiv.org/abs/2604.20229

  • NeuroClaw技術報告 [cs.CV]目的:実行可能かつ再現性のある神経画像研究のためのマルチエージェント研究支援システム
    • 科学的ワークフローの加速が期待されるエージェントAIだが,神経画像は特有の課題を抱える。
    • 神経画像データは多様なモダリティを持ち,処理パイプラインが長く,再現性の確保が困難である。
    • NeuroClawは,神経画像データの処理における実行可能性と再現性を向上させることを目指す。
    • NeuroClawは,多様なモダリティの生神経画像データを直接処理し,データセットのセマンティクスに基づいて意思決定を行う。
    • 環境構築やツールチェーンの管理を自動化し,チェックポイント機能や実行監査記録を通じて透明性と再現性を高める。
    • マルチモーダルLLMを用いた実験により,NeuroClaw導入により実行可能性,成果物の妥当性,再現性に関するスコアが大幅に向上した。

    Link: https://arxiv.org/abs/2604.24696

  • ビデオ事前知識と非同期ノイズ除去による統一的な4D世界行動モデリング [cs.RO, cs.AI, cs.CV]目的:ロボット行動の実行と高精度な4D世界合成の統合
    • ロボット工学における環境理解と行動計画の重要性が増しており,現実世界での応用が期待される。
    • 従来の統一的世界モデルは2Dピクセル空間に限定され,行動効率と世界モデルの品質のバランスが課題であった。
    • 本研究は,行動効率と高精度な世界モデルの両立を目指し,4D世界モデルの性能向上を図る。
    • X-WAMは,5,800時間以上のロボットデータで事前学習された結果,RoboCasaで79.2%,RoboTwin 2.0で90.7%の平均成功率を達成した。
    • X-WAMは,既存手法と比較して,視覚的・幾何学的指標の両方において,より高精度な4D再構成と生成を実現した。
    • 非同期ノイズサンプリングにより,効率的なリアルタイム実行と高精度なビデオ生成を両立した。

    Link: https://arxiv.org/abs/2604.26694

  • MesonGS++:ハイパーパラメータ探索による3Dガウススプラッティングのポストトレーニング圧縮 [cs.CV, cs.GR, cs.MM]目的:3Dガウススプラッティングのポストトレーニング圧縮手法
    • 3Dガウススプラッティングは高品質な新規視点合成を可能にするが,実用的な展開には記憶容量が課題となる。
    • 既存の圧縮手法は多数のハイパーパラメータに依存し,圧縮サイズ制御やレート歪トレードオフの最適化が困難である。
    • ターゲットストレージサイズ下でのレート歪トレードオフを最適化し,圧縮率を向上させることを目指す。
    • MesonGS++は,重要度に基づくプルーニング,オクトリー幾何符号化,属性変換,選択的ベクトル量子化,グループワイズ混合精度量子化,エントロピー符号化を組み合わせる。
    • 目標ストレージサイズ内で,リザーブ比とビット幅配分を最適化する離散サンプリングと0--1整数線形計画法を用いる。
    • 34倍以上の圧縮率を達成し,レンダリング品質を維持しながら,既存手法を上回り,ターゲットサイズを正確に満たす。

    Link: https://arxiv.org/abs/2604.26799