arXiv雑要約

画像・音声 - 2026/05/12 公開

  • 幾何学的近似モデリングによる,動的なLiDARシミュレーションにおけるエミッタ中心のレイ・トライアングルフィルタリング [cs.RO, cs.GR, cs.PF, cs.RO]目的:動的な LiDAR シミュレーションにおける,エミッタ中心のレイ・トライアングルフィルタリング手法
    • リアルタイム LiDAR シミュレーションは,自動運転やロボティクスにおいて不可欠であり,精度の高い環境認識が求められる。
    • 従来の高速化構造は,動的な幾何学形状に対してフレームごとに再構築が必要であり,計算コストが課題となる。
    • エミッタ中心のアプローチにより,高速かつ効率的なレイ・トライアングルフィルタリングを実現し,動的な環境でのシミュレーションを可能にする。
    • 本研究で提案する Gajmer Ray-Casting Algorithm (GRCA) は,従来の OptiX (GPU) や Embree (CPU) よりも最大で7.97倍,14.55倍の高速化を実現した。
    • レンジカリングを有効にすると,GPU で最大7.02倍,CPU で最大9.33倍の性能向上が見られた。
    • 動的幾何学形状に GRCA を,静的幾何学形状に OptiX/Embree を組み合わせたハイブリッドパイプラインは,GPU で最大10.5倍,CPU で最大19.2倍の性能向上を実現した。

    Link: https://arxiv.org/abs/2605.10457

  • ゼブラフィッシュ発生における異常の自動検出 [cs.CV]目的:ゼブラフィッシュ発生過程における異常検出のためのデータセットとモデル
    • 創薬において,ゼブラフィッシュは光学的な透明性とヒトとの遺伝的類似性から有用なモデルである。
    • 従来の評価は手作業による視覚検査に依存しており,コストと労力がかかるという課題がある。
    • 本研究は,異常検出のための大規模データセットと基盤モデルを提供し,自動化を促進することを目指す。
    • 本研究で構築したデータセットは,受精卵の生存率評価と毒性評価の二つのベンチマークタスクを支援する。
    • 提案するTransformerベースのモデルは,空間的・時間的特徴を統合し,発生異常の早期予測を可能にする。
    • 受精卵の生存率評価では98%,毒性評価では92%の精度を達成し,自動化アプローチの有効性が示された。

    Link: https://arxiv.org/abs/2605.10464

  • 適応的コンテキストが重要:超解像のための証明可能なマルチモーダルガイダンスへ [cs.CV]目的:超解像におけるマルチモーダルガイダンスの理論的モデル化と性能向上
    • 画像超解像は,実世界の問題解決に不可欠であり,画像処理の重要な課題である。
    • 既存手法では,異種モダリティの融合が不十分で,最適なモダリティ活用が課題となっていた。
    • モダリティの重みと貢献度を調整し,表現の複雑さを軽減することで汎化性能を向上させる。
    • 本研究では,マルチモーダル超解像の理論モデルを初めて提示し,既存手法のボトルネックを明らかにした。
    • 提案手法M$^3$ESRは,空間的・時間的に適応的なモダリティ重み付けによりリスク制御と貢献度最適化を実現した。
    • 実験結果から,M$^3$ESRが汎化性能と意味的一貫性を大幅に向上させることが確認された。

    Link: https://arxiv.org/abs/2605.10470

  • 攪乱された市場における双方向取引での後悔最小化 [cs.GT, cs.LG]目的:双方向取引における取引利益の最大化
    • 国際貿易や市場メカニズムの設計において,効率的な価格設定と取引戦略は不可欠である。
    • 敵対的環境と確率的環境の間には,後悔最小化の学習可能性に大きな差が存在する。
    • 確率的環境に敵対的な摂動を加えた市場における最適な取引戦略を開発する。
    • 提案アルゴリズムは,摂動のレベルに応じて適応的にスケールし,最適な予算均衡価格分布に対する $\tilde{\mathcal{O}}(T^{3/4}) + \mathcal{O}(C\log(T))$ の後悔限界を達成する。
    • 同時に,毎回の予算均衡ベースラインに対する $\tilde{\mathcal{O}}(T^{3/4})$ の最悪の場合の後悔限界を維持し,完全に敵対的な環境下でも最適性を保証する。

    Link: https://arxiv.org/abs/2605.10475

  • OpenSGA:オープンワールドにおける効率的な3Dシーングラフアライメント [cs.CV, cs.RO]目的:3Dシーングラフ間のオブジェクト対応関係の確立
    • ロボットが環境と相互作用する長期タスクには,長期的な記憶が不可欠である。
    • 既存手法は部分的なスキャン間アライメントに偏り,言語情報を活用できていない。
    • 大規模なデータセットと,よりロバストなアライメント手法の開発。
    • 本研究では,視覚・言語特徴,テキスト,幾何学特徴を融合するアライメントフレームワークを提案した。
    • フレームワークは,空間的注意エンコーダ,最小コストフローアロケータ,グローバルシーン埋め込み生成器で構成される。
    • 大規模データセットScanNet-SGを導入し,既存手法を大幅に上回る性能を実証した。

    Link: https://arxiv.org/abs/2605.10484

  • 多層アテンションプロービングがバイオアコースティクス向け音声表現の転移学習を改善する [eess.SY, cs.SY, eess.SY, cs.SY, cs.SD, cs.AI]目的:バイオアコースティクスにおける音声表現の転移学習の改善
    • 生物音響学は,生態系のモニタリングや種の識別において重要であり,自動化技術の進展が求められている。
    • 既存の研究では,プロービングヘッドの設計が固定化されており,エンコーダーの特徴とプローブの相互作用が十分に考慮されていない。
    • エンコーダーの品質をより正確に評価し,転移学習の性能向上を目指す。
    • 多層プロービングは,既存の最終層プロービングと比較して,全てのモデルにおいて下流タスクの性能を向上させた。
    • 特に,Transformerモデルにおいては,線形プロービングよりもアテンションプロービングの方が優れた性能を示した。
    • 現在のベンチマークは,最終層プロービングに依存することでエンコーダーの品質を誤って評価する可能性があることが示唆された。

    Link: https://arxiv.org/abs/2605.10494

  • M$^2$E-UAV:機上モーション・オン・モーションイベントベース小型UAV検出のためのベンチマークと解析 [cs.CV]目的:機上モーション・オン・モーションイベントベース小型UAV検出に関するベンチマークと解析
    • 小型UAVの利用拡大に伴い,自律飛行のための環境認識技術の重要性が増している。
    • イベントカメラは高速な動きに強いが,機体自身の動きと対象物の動きが同時に発生する場合,誤検出が多い。
    • 本研究は,イベントカメラを用いたモーション・オン・モーション環境下での小型UAV検出性能向上を目指す。
    • M$^2$E-UAVベンチマークは,計87,223枚の学習データと21,395枚の検証データを含む。
    • Point-basedイベントモデリングは強力なベースラインとなり,IMUによる条件付けはわずかな改善に留まる。
    • M$^2$E-PointはF1スコア0.9673,mAP50-95 0.5501を達成し,IMU条件付け版はmAP50-95 0.5561を達成した。

    Link: https://arxiv.org/abs/2605.10496

  • 高度に不均衡なマルチモーダルデータに対する同時長尾認識とマルチモーダル融合 [cs.CV, cs.AI, stat.ML]目的:長尾分布を持つ不均衡マルチモーダルデータにおける認識
    • 機械学習において,データセットのクラス分布の偏りは重要な課題である。特に不均衡データでは性能低下が起こりやすい。
    • 既存手法は単一のモダリティに限定され,複数モダリティ間の補完的な情報を十分に活用できていない。
    • 複数のモダリティを統合し,長尾分布かつ不均衡なデータに対する認識性能を向上させる。
    • 本研究では,異なるモダリティの情報を統合し,モダリティごとの情報量を考慮した動的な融合処理を提案した。
    • 提案手法は,ベンチマークデータセットおよび実世界のデータセットにおいて,既存手法を上回る性能を示した。
    • その結果,高度に不均衡なマルチモーダルデータに対するロバスト性と汎化能力が確認された。

    Link: https://arxiv.org/abs/2605.10498

  • NeuroAIにおける多層的相互作用均衡の理論 [cs.CL, cs.NE, cs.GT, econ.TH]目的:NeuroAIにおける均衡状態の研究の数学的基盤
    • AIシステムの高度化に伴い,相互作用するエージェント間の均衡状態の理解が不可欠である。
    • 古典的なゲーム理論は,完全合理性や完全観測可能性などの強い仮定に基づいている。
    • 部分観測可能性や計算資源の制約下におけるNeuroAIシステムの均衡状態を解析する。
    • 提案する多層的相互作用均衡(MIE)は,古典的なナッシュ均衡を拡張し,内部計算を持つ知能システムに適用可能である。
    • MIEは,ニューラル学習,認知表現,行動戦略の相互安定化として定義され,生物学的脳,人工エージェント,人間とAIのハイブリッドシステムに等しく適用できる。
    • 本研究は,人間と自動運転車の協調,人間と機械のインタラクション,人間とLLMのインタラクション,計算精神医学への応用を示唆する。

    Link: https://arxiv.org/abs/2605.10505

  • 一般制約下におけるオンライン資源配分 [cs.GT]目的:オンライン資源配分における,予算制約と一般的な制約の両方を考慮したアルゴリズム開発
    • オンライン広告や収益管理など,予算制約下での逐次意思決定は経済活動において重要である。
    • 従来のモデルは予算制約のみを考慮しており,投資対効果のような一般的な制約を扱えない点が課題であった。
    • 予算制約と一般的な制約を同時に満たすアルゴリズムを開発し,実用的な経済要件への対応を目指す。
    • 提案アルゴリズムは,動的なベンチマークに対し,確率的環境で$\widetilde{\mathcal O}(\sqrt{T})$リグレットを達成する。
    • また,敵対的環境においても,オフライン問題の実行可能性マージンに依存する$\alpha$-リグレットを$\widetilde{\mathcal O}(\sqrt{T})$オーダーで実現する。
    • さらに,予算制約の厳格な充足に加え,一般的な制約に対する累積違反も$\widetilde{\mathcal O}(\sqrt{T})$に抑える。

    Link: https://arxiv.org/abs/2605.10519

  • DuetFair: サブグループ間およびサブグループ内ロバスト性の結合による公正な医用画像セグメンテーション [eess.SY, cs.SY, cs.CV, cs.AI]目的:公正な医用画像セグメンテーションの実現
    • 医療画像セグメンテーションは診断・治療に不可欠であり,その精度向上は重要な課題である。
    • 既存手法では,サブグループ内の一様性を仮定するため,困難なケースが隠蔽される場合がある。
    • サブグループ間適応とサブグループ内ロバスト性を同時に考慮し,隠れた失敗を低減することを目指す。
    • 提案手法FairDROは,Harvard-FairSegにおいて,公平性スケーリングされた性能で最高の結果を達成した。
    • HAM10000では,年齢・人種に基づくグループ化において,最悪サブグループ性能を向上させた。
    • 3D放射線治療ターゲットデータセットでは,腫瘍ステージ・機関別グループ化において,最悪グループDice係数をそれぞれ3.5点,4.1点向上させた。

    Link: https://arxiv.org/abs/2605.10521

  • セマンティック表現アライメントによる人物画像アニメーションの改善 [cs.HC, cs.CV]目的:人物画像アニメーションの品質向上
    • 画像から動画生成技術は進展しているが,長尺動画や複雑な動きで問題が生じやすい。
    • 既存手法は人物特有の情報を条件に加えるが,柔軟性が低下したり,3次元構造の学習が不十分になる。
    • セマンティック表現を教師信号としてアライメントすることで,構造と一貫性を改善し,高品質な動画を生成する。
    • 提案手法SemanticREPAは,動画の潜在表現と深度推定特徴を構造アライメントモジュールでアライメントする。
    • このモジュールを拡散モデルに適用し,構造の歪みを修正することで,安定した人物構造を生成する。
    • IDアライメントモジュールを開発し,生成動画のID表現と顔認識特徴をアライメントすることで,人物の一貫性を向上させた。

    Link: https://arxiv.org/abs/2605.10523

  • GemDepth:3D一貫性のあるビデオ深度のための幾何学埋め込み特徴 [cs.CV]目的:3D一貫性のあるビデオ深度推定手法
    • ビデオ深度推定は,単眼予測を時間領域に拡張し,ビデオの一貫性を確保する上で重要である。
    • 既存手法は,詳細領域の空間的ぼかしや時間的な不整合といった問題点を抱えている。
    • 本研究は,カメラの動きとグローバルな3D構造を明示的に認識することで,3D一貫性を向上させることを目指す。
    • 提案手法GemDepthは,カメラの動きを予測し,幾何学的な埋め込みを生成するGeometry-Embedding Module(GEM)を導入する。
    • ASTT(Alternating Spatio-Temporal Transformer)が,幾何学的ヒントに基づいて空間精度と時間一貫性を高める。
    • 複数のデータセットで最先端の性能を達成し,特に複雑な動的シーンにおいて顕著な効果が確認された。

    Link: https://arxiv.org/abs/2605.10525

  • イベントに基づくビデオ生成のための時間間隔エンコーディング [cs.CV]目的:イベントに起因するビデオ生成における時間間隔表現の改善
    • ビデオ生成技術は,ロボット制御やゲームプレイなど,様々な応用分野で重要性が増している。
    • 既存のビデオ生成モデルは,同時発生する複数のイベントを正確に処理できないという課題がある。
    • 本研究は,時間間隔を考慮したエンコーディング手法を開発し,複数イベントの同時発生をより正確に表現することを目指す。
    • 提案手法TIEは,DiTモデルのクロスアテンション機構に時間間隔を組み込むことで,時間的な制御性を大幅に向上させる。
    • OmniEventsデータセットを用いた実験により,TIEは時間制約充足率を77.34%から96.03%に,時間境界エラーを0.261秒から0.073秒に改善した。
    • TIEは,既存のDiTモデルの視覚的な品質を維持しつつ,時間的な整合性を高めることを実証した。

    Link: https://arxiv.org/abs/2605.10543

  • EnergyLens:マルチモーダルLLM推論サービングのための解釈可能な閉形式エネルギーモデル [cs.CV, cs.LG]目的:LLM推論におけるエネルギー最適化手法
    • LLMの利用拡大に伴い,推論時のエネルギー消費が重要な課題となっている。
    • 既存手法は遅延時間をエネルギーの代替指標とするか,ブラックボックスな代理モデルに依存するため,汎用性に課題がある。
    • システム特性に基づいた閉形式エネルギーモデルにより,エネルギー効率の高いLLMデプロイメントを可能とする。
    • EnergyLensは,プロファイリングデータからシステム特性とエネルギー消費の関係を解析し,12パラメータの閉形式エネルギーモデルを導出する。
    • EnergyLensは,従来の解析的ベースラインと比較して,構成選択の精度が大幅に向上し,少ないプロファイリングサンプルで高い予測精度を実現する。
    • 未知のバッチサイズやハードウェアプラットフォームに対しても,構造変更なしに信頼性の高い予測が可能であり,実用的なエネルギー最適化ツールとなる。

    Link: https://arxiv.org/abs/2605.10556

  • DeepSight:潜在状態予測による長期的世界モデル化とエンドツーエンドの自動運転 [cs.CV, cs.RO]目的:長期的世界状態の予測
    • 自動運転技術は,安全性向上と効率化に不可欠であり,社会実装が期待されている。
    • 既存のビジョン言語モデルは汎用性が高くとも,自動運転特有の課題への対応が不十分である。
    • 自動運転における長期的な予測精度を向上させ,複雑な状況下での安全性を確保すること。
    • 提案手法は,鳥瞰視点(BEV)空間における潜在的セマンティック特徴の並列予測を実現した。
    • これにより,長期的な世界状態のモデル化が可能となり,ベンチマークBench2driveで最先端の結果を達成した。
    • 追加的な社会的知識と推論能力を取り入れたテキスト推論機構も導入され,困難な状況下での性能が向上した。

    Link: https://arxiv.org/abs/2605.10564

  • VeloGauss:動画からの物理的に整合性の取れたガウス速度場の学習 [cs.CV]目的:3Dシーンの幾何学,外観,物理情報を動画のみから学習すること
    • 3Dシーン理解において,物理的整合性はリアリティと精度を高める上で重要である。
    • 既存手法では複雑な運動物理を学習できず,剛体と非剛体の相互作用のモデル化が困難である。
    • 物理的事前知識を用いずに,複雑な3Dシーンの物理特性を学習し,物理的整合性を実現すること。
    • 提案手法VeloGaussは,Physics CodeとParticle Dynamics Systemを用いてガウス粒子の速度場を学習する。
    • Global Physical Constraintsを導入し,シーン全体の物理的整合性を確保することで,より現実的な表現を可能にする。
    • Novel View InterpolationとFuture Frame Extrapolationの両タスクにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.10567

  • SenseBench:大規模ビジョン言語モデルにおけるリモートセンシングの低レベル視覚認識と記述のためのベンチマーク [cs.CV, cs.AI]目的:リモートセンシングの低レベル視覚認識と記述に関する診断ベンチマーク
    • リモートセンシング画像は地理空間情報の重要な情報源であり,その分析精度は社会経済活動に大きく影響する。
    • 既存の画像品質評価手法は,物理的な劣化要因を特定できず,専門家の診断ニーズと乖離している。
    • 大規模ビジョン言語モデルの性能を評価し,リモートセンシング画像特有の劣化を認識・記述する能力向上を目指す。
    • SenseBenchは,リモートセンシング画像の劣化を網羅的に評価するための新しいベンチマークであり,10K以上の高品質なデータセットを提供する。
    • 29種類の最先端ビジョン言語モデルの評価により,自然画像への偏りや,複数の劣化要因に対する認識の限界が明らかになった。
    • このベンチマークは,リモートセンシング分野におけるビジョン言語モデルの発展を促進するためのテストベッドおよび高品質な診断データを提供する。

    Link: https://arxiv.org/abs/2605.10576

  • ポリゴンマンバ:多角形スキャンマンバと空間周波数協調的注意を用いた網膜血管セグメンテーション [cs.CL, cs.CV]目的:網膜血管のセグメンテーション
    • 眼疾患の診断と評価において,網膜血管の正確な抽出は不可欠である。
    • 特に微細な網膜血管のセグメンテーションは,技術的に困難であり,精度向上が求められる。
    • 多角形スキャンマンバと空間周波数協調的注意メカニズムにより,微細血管の構造的特徴をより正確に捉えることを目指す。
    • 提案手法は,DRIVE,STARE,CHASE_DB1の3つの公開データセットにおいて,高い性能を示した。
    • F1スコアはそれぞれ0.8283,0.8282,0.8251,AUCは0.9806,0.9840,0.9866であった。
    • 提案手法は,従来の技術と比較して,微細血管の接続性を維持し,より正確なセグメンテーションを実現した。

    Link: https://arxiv.org/abs/2605.10581

  • FrequencyCT:自己教師あり低線量CTノイズ除去のための周波数領域擬似ラベル生成 [cs.CV]目的:低線量CTのノイズ除去に向けた周波数領域での擬似ラベル生成手法
    • CT画像は医療診断に不可欠だが,被ばく線量を低減することが課題。
    • 従来のノイズ除去手法では,投影データの特徴を十分に活用できていない。
    • 周波数領域の特性を利用し,自己教師あり学習で擬似ラベルを生成し,ノイズ除去性能向上を目指す。
    • FrequencyCTは,周波数領域でノイズとクリーン信号を分離する地域低周波アンカリング技術を提案。
    • 位相保存振幅変調と高周波領域でのマスク摂動により,自己教師あり学習用の擬似ラベルデータを生成。
    • 複数のデータセットで臨床応用可能性が確認され,ノイズ除去分野に革新をもたらすことが期待される。

    Link: https://arxiv.org/abs/2605.10583

  • 3D動的シーンの物理的因果関係をガウス表現で学習するCausalGS [cs.CV]目的:3D動的シーンの物理的因果関係の学習
    • AI分野において,物理法則を理解し物体軌跡を予測する能力は重要である。
    • 既存手法は強い事前知識や高精度な形状再構成に依存し,汎用性に課題がある。
    • 本研究は,明示的な事前知識なしに複雑な動的シーンの因果関係を学習することを目指す。
    • CausalGSは,多視点動画のみから3Dシーンの因果的ダイナミクスを学習するフレームワークである。
    • 複雑な動きを初期速度場と物性という2つの要素に分解し,物理シミュレーターと連携して学習を促進する。
    • 長期的な未来フレーム予測や新規視点からの補間において,最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.10586

  • 新たな視点による思考:生成を活用した空間知能の体系的分析 [cs.CV]目的:生成による新たな視点合成を推論ループに組み込むパラダイム
    • 空間認識はロボティクスやAR/VRなど,様々な分野で重要な役割を担う技術である。
    • 既存のLMMは,単一の静的な観察に限定され,視点依存の空間推論が苦手である。
    • LMMの空間知能を向上させるため,視点変更による情報補完を試みる。
    • TwNVは,LMMが空間的な曖昧さを検出し,Painterに代替視点の合成を指示することで,精度を向上させる。
    • 数値によるカメラポーズ指定が,自由記述による指示よりも安定した視点制御を可能にする。
    • 合成された視点の品質と,その後の空間的な精度は密接に関連していることが示された。

    Link: https://arxiv.org/abs/2605.10588

  • 堅牢な不確実性-精度相関を持つ汎用セグメンテーション [cs.CV]目的:ドメインシフト下におけるセグメンテーションの信頼性向上
    • 画像認識技術は,自動運転や医療診断など幅広い分野で重要性が増している。
    • 既存のセグメンテーションモデルは,学習データと異なる環境下で性能が低下しやすい。
    • 本研究は,ドメインシフトによる性能低下を抑制し,より信頼性の高いセグメンテーションを実現する。
    • 本研究で提案するRUACは,軽量な不確実性推定ヘッドを追加し,協調的なスタイル-変形攻撃を用いて訓練する。
    • RUACは,不確実性と精度の相関を強化し,23のゼロショットドメインでセグメンテーション品質を向上させた。
    • 不確実性-精度アライメントにより,敵対的摂動下でも誤ったピクセルを正確に強調することが可能となった。

    Link: https://arxiv.org/abs/2605.10603

  • MulTaBench:テキストと画像によるマルチモーダル表形式学習のベンチマーク [cs.CL, cs.LG, cs.CL, cs.CV]目的:マルチモーダル表形式学習のためのベンチマークデータセット
    • 表形式データは広く利用されており,その学習は重要である。特に,数値やカテゴリカルデータに加えて,テキストや画像などの非構造化データを活用する研究が求められている。
    • 既存のマルチモーダル表形式学習ベンチマークは,モダリティの単純な共起に焦点を当てており,タスク固有のチューニングによる効果が見えにくい。
    • タスクに合わせた表現を学習することで,テキストと画像の情報をより効果的に活用し,予測性能を向上させる。
    • MulTaBenchは,画像-表形式とテキスト-表形式タスクをそれぞれ20データセットずつ含む,合計40データセットから構成される大規模なベンチマークである。
    • 実験結果から,タスクを意識した表現のチューニングは,テキストと画像の双方で性能向上に繋がり,様々な表形式学習モデルやエンコーダのスケール,埋め込み次元数に一般化することが示された。
    • MulTaBenchは,ヘルスケアやeコマースといった高影響度の分野を網羅し,共同モデリングとタスクを意識した表現を組み込んだ新しいアーキテクチャの研究を促進する。

    Link: https://arxiv.org/abs/2605.10616

  • LVLMにおける語彙の乗っ取り:不活性トークンを除去することによる重要なアテンションヘッドの解明と幻覚の軽減 [cs.MM, cs.CV]目的:大規模ビジョン言語モデルにおける幻覚の原因特定と軽減
    • マルチモーダルタスクにおいて,大規模ビジョン言語モデルは目覚ましい進歩を遂げているが,信頼性が課題である。
    • 幻覚の原因として,視覚的注意の不十分さが指摘されているが,そのメカニズムは未だ解明されていない。
    • 不活性トークンに着目し,アテンションヘッドの重要なものを特定することで,幻覚を軽減することを試みる。
    • 本研究では,「語彙の乗っ取り」という新たな現象を特定し,特定の視覚トークンが不適切な語彙に注意を集中させるメカニズムを明らかにした。
    • 提案手法HABIとHAVAEは,追加の計算コストなしで幻覚を大幅に軽減し,モデルの汎化性能を維持することを示した。
    • 非乗っ取り視覚アテンション比(NHAR)という新しい指標を導入し,事実に基づいた正確性を維持する重要なアテンションヘッドを特定した。

    Link: https://arxiv.org/abs/2605.10622

  • ハイパーグラフを用いた学習不要・言語不要な少数ショット異常検知 [cs.CV]目的:少数ショット異常検知における課題解決
    • 異常検知は,製造や医療など幅広い分野で重要であり,品質管理や安全性の向上に不可欠である。
    • 従来の少数ショット異常検知は,タスク固有の学習や言語情報に依存しており,汎用性に課題があった。
    • 本研究は,学習や言語を必要とせず,様々なドメインでロバストな異常検知を実現することを目指す。
    • 提案手法HyperFSADは,DINOv3とハイパーグラフを用いた推論メカニズムにより,タスク固有の最適化やテキストプロンプトなしで高い性能を発揮する。
    • スパースハイパーマッチングとデュアルブランチ画像スコアリングにより,背景ノイズの影響を抑制し,ロバストな異常スコア算出を可能にした。
    • 工業および医療分野の6つのデータセットで,最先端の性能を達成し,本手法の有効性を実証した。

    Link: https://arxiv.org/abs/2605.10628

  • ガウス混合モデル生成拡散モデルによる非線形MRI同時再構成 [cs.CV]目的:非線形MRI再構成のためのガウス混合モデル生成拡散モデル
    • MRIは,診断や治療において不可欠な画像診断技術であり,高画質化が常に求められている。
    • 既存手法は,大規模ネットワークに依存し,解釈可能性が低く,柔軟性に欠けるという課題がある。
    • 本研究は,画像とコイル感度を同時に再構成し,解釈可能性と柔軟性を向上させることを目指す。
    • 提案手法は,パラメータ効率の高いガウス混合モデル拡散モデルと,コイル感度に対する古典的な平滑化事前分布を組み合わせる。
    • 本手法は,コントラストや解剖学的分布の変化,k空間軌跡の変化に対して高速かつロバストである。
    • 画像事前分布のより表現力豊かなパラメータ化により,ノイズ除去とMRI再構成の結果が改善される。

    Link: https://arxiv.org/abs/2605.10629

  • LLaVA-CKD:ボトムアップカスケード知識蒸留によるVision-Languageモデル [cs.CV, cs.AI]目的:Vision-Languageモデルの効率的な知識伝達手法
    • 近年,画像と言語を理解するVLモデルが多様なタスクで成果を上げている。
    • VLモデルは計算資源を多く必要とするため,実用的な展開が課題となっている。
    • 知識蒸留によるモデルの軽量化を目指し,段階的な知識伝達フレームワークを提案する。
    • 提案手法であるボトムアップカスケード知識蒸留は,段階的にモデルの能力を向上させる。
    • 理論的分析により,カスケード蒸留がStudentモデルの汎化性能に与える影響を検証した。
    • LLaVAを基盤としたモデルで実験を行い,7つのVQAベンチマークで最高水準の性能を達成した。

    Link: https://arxiv.org/abs/2605.10641

  • GenMed:医療診断タスクのペアワイズ生成再構成 [cs.CV]目的:医療AIにおける生成モデルを用いた診断手法
    • 医療現場では多様なデータ形式が存在し,既存のAI技術では対応が難しい。
    • 従来の識別的なAIモデルは,未知のデータや形式への汎化性能が低い。
    • 生成モデルを用いて柔軟な診断を可能にし,新たなデータ形式にも対応すること。
    • 拡散モデルを用いて入力と出力の同時分布をモデル化し,推論時に観測データに基づいて生成プロセスを制御する。
    • この手法により,既存のモデル構造を変更せずに,様々なデータ形式や組み合わせへの対応が可能となる。
    • 様々な医療画像セグメンテーションタスクや,少ないデータでの学習,ノイズの多いデータへの対応など,幅広い実験で高い性能を示した。

    Link: https://arxiv.org/abs/2605.10645

  • bViT:画像認識のためのVision Transformerにおける単一ブロックの再帰的処理の調査 [cs.CV, cs.AI]目的:画像認識におけるVision Transformerの再帰的処理機構の解明
    • 画像認識技術は,コンピュータビジョンの根幹であり,様々な応用分野で不可欠な要素である。
    • Vision Transformerはパラメータ数が多く,計算コストが高いという課題を抱えている。
    • 再帰的処理により,パラメータ数を削減しつつ,ViTの性能を維持することを目指す。
    • bViTは,標準的なViT-Bと同等の精度を,より少ないパラメータ数で実現した。
    • 再帰的性能は,表現幅を広げることで向上し,標準的なViTの性能に近づくことが示された。
    • 共有ブロックが再帰的なステップごとに異なる振る舞いを示すことが明らかになり,ViTの深さを再帰的に再利用できる可能性を示唆した。

    Link: https://arxiv.org/abs/2605.10661

  • 不確実性モデリングによるニューロモーフィック単眼深度推定 [cs.CV]目的:単眼イベントストリームからのピクセルごとの深度分布の予測
    • 従来のフレームベースセンサーの限界を超え,低遅延かつ高ダイナミックレンジなセンシングが求められている
    • イベントカメラのデータ表現法が,深度推定の精度に大きな影響を与えることが課題である
    • イベントカメラの特性を活かし,信頼性の高い深度推定と不確実性評価を実現することを目指す
    • 様々なイベント表現形式を比較した結果,10ビンLog-Normalと5ビンEvidential Learningが最も優れた性能を示した。
    • 不確実性推定をイベントベースの単眼深度推定に統合することが可能となり,信頼できる深度を持つピクセルを示唆できることが示された。
    • U-Netベースのモデルは,合成データで学習し,実データでファインチューニングすることで,良好な結果を得ている。

    Link: https://arxiv.org/abs/2605.10675

  • 盲目ではないが沈黙させられている:敵対的常識均衡による視覚と言語の再均衡 [cs.CV, cs.LG]目的:視覚と言語の不均衡を是正するための手法
    • マルチモーダル大規模言語モデルの性能向上は,視覚情報と言語情報の適切な統合に不可欠である。
    • 既存手法では,無関係な視覚トークンをノイズとみなし,注意を強制的に偏らせることで不均衡を悪化させている。
    • 視覚的文脈を敵対的パッチで摂動させ,安定した視覚信号を補正することで均衡を回復する。
    • ACEは,トレーニングを必要としないプラグアンドプレイ型フレームワークであり,推論時のオーバーヘッドを無視できる。
    • ACEは,幻覚を引き起こす言語的先入観を抑制しつつ,安定した視覚信号を補正することで,視覚と言語のバランスを調整する。
    • 実験結果から,ACEがモデルの信頼性を高めることが示された。

    Link: https://arxiv.org/abs/2605.10676

  • 透過型GS:残差誘導型分離ガウススプラッティングによる透過性シーンの再構成とレンダリング [cs.CV]目的:透過性シーンの分離再構成とレンダリング
    • 現実世界のシーンには透過性が存在し,その正確な再現が重要である。
    • 従来の再構成手法では,透過性表面での反射と透過情報の絡み合いが課題であった。
    • 反射と透過を分離し,高精度な再構成とレンダリングを実現することを目指す。
    • TransmissiveGSは,二重ガウス表現と遅延シェーディング関数を用いて透過性シーンを分離再構成・レンダリングする。
    • 残差を誘導することで,幾何学と外観を分離し,高精度な反射光場を推定する。
    • 合成データセットおよび実世界データでの実験により,既存手法よりも高品質な結果が得られることが示された。

    Link: https://arxiv.org/abs/2605.10705

  • UAVを用いた物理情報ガウススプラッティングによる地すべりスキャン・シミュレーション [cs.CV]目的:地すべりのスキャンからシミュレーションへのフレームワーク
    • 都市の安全評価と防災において,地すべりの監視とシミュレーションは重要である。
    • 従来のシミュレーションは,視覚的なリアリズムに欠け,インタラクティブな応用や防災教育に課題がある。
    • フォトリアリスティックなシーンキャプチャと物理ベースのシミュレーションを統合し,リアリズムと有効性を両立させる。
    • UAVによる画像取得と3Dガウススプラッティングによる低異方性シーン再構成を実現した。
    • 再構成されたモデルをボリューメトリック変換し,Material Point Methodによる地すべりシミュレーションと統合した。
    • 香港の実際の地すべり現場での検証により,リアルな再構成と効果的なシミュレーションが可能となった。

    Link: https://arxiv.org/abs/2605.10715

  • マルチエージェント軌跡モデリングのためのヘテロスケダスティック拡散 [cs.LG, cs.CV]目的:マルチエージェント軌跡の補完と不確実性推定
    • 現実世界のアプリケーションにおいて,軌跡予測だけでなく補完が重要である。
    • 既存手法では,状態ごとの不確実性を定量化できていない。
    • 生成されたシーンの誤差確率を推定し,予測のランキングを可能にすること。
    • U2Diffineは,軌跡補完と状態ごとの不確実性推定を同時に行う統一的な拡散モデルである。
    • 提案手法は,4つのスポーツデータセットにおいて最先端の性能を達成した。
    • 誤差確率推定のためのRankNNを統合することで,高い相関関係が確認された。

    Link: https://arxiv.org/abs/2605.10717

  • AllocMV:構造化された持続的状態による音楽ビデオ生成のための最適リソース配分 [cs.CV, cs.AI, cs.LG, cs.MA]目的:音楽ビデオ生成における最適リソース配分
    • 音楽ビデオの自動生成は,エンターテイメント産業において重要な役割を担う技術である。
    • 長尺の音楽ビデオ生成には,計算コストやショット間の整合性維持が課題となっていた。
    • 計算コストを抑えつつ,高品質で一貫性のある音楽ビデオを生成することを目指す。
    • AllocMVは,音楽ビデオ合成を多肢選択ナップサック問題として定式化する階層的フレームワークである。
    • このフレームワークは,グローバルプランナーがキャラクター,シーン,共有グラフを含むコンパクトな構造化オブジェクトとして持続的状態を表現する。
    • 評価の結果,AllocMVは,厳格な予算とリズムの制約下で,知覚品質とリソース消費の最適なトレードオフを達成した。

    Link: https://arxiv.org/abs/2605.10723

  • Qwen-Image-2.0 技術報告 [cs.CE, physics.plasm-ph, cs.CV]目的:汎用画像生成基盤モデルの開発
    • 画像生成技術は,デザイン,教育,エンターテインメントなど,幅広い分野で活用が広がっている。
    • 既存モデルは,長文テキスト処理,多言語対応,高解像度表現,指示への正確な追従性に課題があった。
    • 複雑な指示や多言語環境下でも高品質な画像生成・編集を可能にするモデルの実現を目指す。
    • Qwen-Image-2.0は,高品質な画像生成と精密な画像編集を統合した汎用的な基盤モデルである。
    • 最大1Kトークンまでの指示に対応し,スライド,ポスター,インフォグラフィックなどのテキストを豊富に含むコンテンツ生成が可能となった。
    • 人間による評価の結果,Qwen-Image-2.0は以前のQwen-Imageモデルを生成・編集の両面で大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2605.10730

  • iPay:マルチモーダルネットワークと適応的空間事前学習による統合的な支払い行動認識 [cs.CV, cs.AI]目的:公共交通機関における支払い行動の自動認識
    • 公共交通機関の利用状況分析や不正乗車対策において,決済データの自動分析は不可欠である。
    • 既存手法は,騒がしい車内監視映像への対応が難しく,汎化性能の低い手動特徴量に依存する傾向がある。
    • RGB画像と骨格データの利点を組み合わせ,高精度かつ効率的な支払い行動認識を実現すること。
    • iPayは,RGB画像と骨格情報を統合したマルチモーダルなエキスパートアーキテクチャを採用し,認識精度を向上させた。
    • 特に,手からアンカーへの相対的な動きを明示的にモデル化する空間差分識別器(SDD)が,認識能力の向上に貢献した。
    • 実際の車内監視映像を用いた実験により,iPayが既存手法を上回り,83.45%の認識精度を達成した。

    Link: https://arxiv.org/abs/2605.10732

  • C-CoT:視覚言語モデルを用いた安全な自動運転のための反実仮想的思考の連鎖 [cs.CV, cs.RO]目的:安全な自動運転のための反実仮想的思考の連鎖
    • 複雑な環境下での安全確保は自動運転の根幹であり,都市部の交差点はその難易度が高い。
    • 既存手法は,複雑な状況を捉えきれず,潜在的リスクの推論や稀な危険回避が困難である。
    • 視覚言語モデルの推論能力を向上させ,より安全でロバストな自動運転を実現すること。
    • 提案手法は,シーン記述,リスク予測,反実仮想的思考を含む5段階の意思決定プロセスを用いる。
    • 反実仮想的思考では,メタアクション評価木を用いて行動選択と安全性の因果関係を明確化する。
    • 実験結果から,リスク予測のリコールは81.9%,衝突率は3.52%に低減,L2誤差は1.98mに減少した。

    Link: https://arxiv.org/abs/2605.10744

  • サイバー犯罪と予防:ソーシャルエンジニアリングにおけるコロネル・ブロト [cs.CR, cs.GT]目的:ソーシャルエンジニアリング攻撃に対する防御資源の最適配分
    • サイバー攻撃は巧妙化の一途をたどっており,技術的防御だけでは限界がある。
    • 人的脆弱性は,サイバーセキュリティ対策の重要な弱点となっている。
    • 組織や国家レベルでの,効果的な予防策の策定を支援する。
    • 本研究では,ルーティン活動理論とVIVAフレームワークに基づき,サイバー犯罪データを活用したモデルを開発した。
    • 国家レベルの予防策においては,国ごとの特性に応じた資源配分の重要性が示された。
    • 組織レベルの分析では,組織規模や特徴に応じた最適な対策が導き出された。

    Link: https://arxiv.org/abs/2605.10755

  • TINS:テスト時IDプロトタイプ分離負のセマンティクス学習によるOOD検出 [cs.CV]目的:OOD検出における性能向上
    • 画像とテキストの相互理解は重要であり,OOD検出の精度向上に不可欠である。
    • 既存手法は静的な負ラベルに依存し,多様なOOD概念への対応が課題である。
    • テスト時の負のセマンティクス学習におけるID汚染を抑制し,OOD検出の安定化を図る。
    • 本研究で提案するTINSは,テスト時にIDプロトタイプ分離正則化を用いることで,負のセマンティクスをIDセマンティクスから分離する。
    • グループワイズ集約スコアリングとバッファー更新戦略により,負のセマンティクス拡張の安定性を高める。
    • Four-OODベンチマークにおいて,TINSは平均FPR95を14.04\%から6.72\%に削減し,高い有効性を示した。

    Link: https://arxiv.org/abs/2605.10756

  • ア adjoint matchingの強化:拡散モデルとフローマッチングモデルのポストトレーニングにおける強化学習のスケーリング [cs.LG, cs.CV]目的:拡散モデルおよびフローマッチングモデルにおける強化学習によるポストトレーニングのスケーリング
    • 拡散モデルは,スケーラブルな画像生成技術として注目されており,その性能向上は重要である。
    • 既存の強化学習によるポストトレーニング手法は,計算コストが高く,スケーリングが課題となっている。
    • 拡散モデルの学習構造を維持しつつ,報酬に基づいたモデルの調整を効率的に行うことを目指す。
    • 提案手法であるReinforce Adjoint Matching (RAM) は,SDEロールアウトや報酬勾配を必要とせず,計算コストを大幅に削減する。
    • Stable Diffusion 3.5Mにおける実験結果から,RAMは合成,テキストレンダリング,人間による嗜好性において最高の報酬を達成した。
    • RAMは,Flow-GRPOのピーク報酬に,最大で50分の1の学習ステップ数で到達することが示された。

    Link: https://arxiv.org/abs/2605.10759

  • RadThinking:放射線科における縦断的臨床推論のためのデータセット [cs.RO, cs.CV]目的:放射線科における臨床推論の学習を可能にするための,質問応答データセット
    • がん検診は,放射線科医の高度な推論能力を必要とする重要な臨床課題である。
    • 既存のデータセットでは,臨床推論のプロセスが明示的に表現されておらず,AIモデルの学習が困難である。
    • 臨床ガイドラインに沿った多段階の推論をAIに学習させ,がんの検出だけでなく,推論能力の向上を目指す。
    • RadThinkingは,難易度別に3層構造の質問応答ペアを提供し,段階的な学習を可能にする。
    • データセットは,9,131人の患者の20,362例のCTスキャンと2,077例の健康な対照群を含む大規模な規模である。
    • 本データセットは,AIシステムががんについて推論できるかどうかの体系的なトレーニングと評価を可能にする。

    Link: https://arxiv.org/abs/2605.10761

  • GridProbe:長編動画VLMにおける適応的なテスト時計算のための事後探索 [cs.CV, cs.AI]目的:長編動画VLMにおける効率的なフレーム選択手法の開発
    • 動画理解は,VLMの重要な応用分野であり,その性能向上は様々なタスクに貢献する。
    • 従来のVLMは,大量のフレームを処理する必要があり,計算コストが課題となっていた。
    • 本研究は,テスト時に必要な計算量を動的に調整し,効率性と精度を両立することを目指す。
    • GridProbeは,VLM自身の推論能力を用いてフレームの重要度を評価し,質問に関連するフレームを適応的に選択する。
    • Video-MME-v2において,GridProbeはベースラインと同等の精度を維持しつつ,計算量を大幅に削減した。
    • 小規模なフレーム選択モデルと大規模なQAモデルを組み合わせることで,より高い性能と効率を実現した。

    Link: https://arxiv.org/abs/2605.10762

  • ブレーキを壊せ,車輪を壊すな:エントロピー最大化による非ターゲット型脱獄 [cs.CV, cs.AI]目的:視覚言語モデルにおける非ターゲット型脱獄の実現
    • 視覚言語モデルの安全性確保は重要である。悪意のあるプロンプトによる誤動作を防ぐ必要がある。
    • 既存の脱獄手法はモデル間の汎用性に乏しく,実用的な脅威とはなりにくいという課題がある。
    • エントロピー最大化により,汎用性の高い脱獄攻撃を実現し,モデルの脆弱性を明らかにする。
    • 自己回帰デコーディングにおいて,拒否応答が高エントロピーのトークンに集中することが示された。
    • 提案手法UJEM-KLは,拒否応答を反転させつつ,出力品質を維持する軽量な攻撃である。
    • UJEM-KLは,複数のモデルとベンチマークで高い攻撃成功率と汎用性を示す。

    Link: https://arxiv.org/abs/2605.10764

  • マルチモーダル継続的命令チューニングのための動的クロスモーダルプロンプト生成 [cs.CV, cs.AI, cs.LG]目的:マルチモーダル継続的命令チューニングにおける能力獲得と破滅的忘却の抑制
    • マルチモーダル大規模言語モデルの性能向上に不可欠であり,実世界での応用範囲拡大が期待される分野である。
    • 既存手法はタスクレベルでのモジュール選択に偏っており,画像や質問の多様性に対応しきれていない。
    • クエリと画像のペア毎に異なるプロンプトを生成し,タスクレベルの制約を克服することを試みる。
    • DRAPEは,テキスト命令と視覚的特徴に基づいて,クエリ・画像条件付きのプロンプトを動的に生成する。
    • 既存のプロンプトベースおよびLoRAベースの手法と比較して,最先端の性能を達成した。
    • 共有プロジェクターへの帰無空間勾配投影とCLIPベースのプロトタイプルーティングにより,忘却を抑制している。

    Link: https://arxiv.org/abs/2605.10765

  • MPerS:動的なMLLM MixExperts知覚誘導リモートセンシングシーンセグメンテーション [cs.CV, cs.AI]目的:リモートセンシングシーンのセグメンテーション手法
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その精度向上が重要である。
    • 既存研究では,テキスト情報を効果的に活用できておらず,高品質なリモートセンシングキャプションの生成が課題となっている。
    • 多様な視点からの高品質なキャプション生成と,効果的なテキストと画像の融合によるセグメンテーション精度の向上を目指す。
    • MLLMを活用し,多様な専門家の視点から高品質なリモートセンシングキャプションを生成する手法を提案した。
    • 動的なMixExpertsモジュールにより,最も効果的なテキスト情報を適応的に統合することで,セグメンテーション精度を向上させた。
    • 提案手法は,3つの公開データセットで優れた性能を達成し,有効性を実証した。

    Link: https://arxiv.org/abs/2605.10769

  • MSTAR自動ターゲット認識のための大規模言語-視覚質問応答モデルの構築に向けて [cs.CV, cs.AI, eess.IV]目的:SAR画像における詳細なターゲット認識能力の向上
    • 地空認識技術は,軍事・情報分野において極めて重要な役割を担うため,その精度向上が求められている。
    • SAR画像は環境条件に左右されやすく,軍事車両の識別は熟練した分析者の長年の経験を要する。
    • 大規模言語-視覚モデル(LLVM)を用いて,SAR画像におけるターゲット認識の自動化と精度向上を目指す。
    • 大規模言語-視覚モデル(LLVM)のパラメータ効率的なファインチューニングにより,98%の精度で詳細なターゲット特性を識別することに成功した。
    • MSTAR公開データセットを拡張し,SAR画像用の説明文キャプションと質問応答ペアを含む,新しいトレーニング・評価ベンチマークを開発した。
    • 本研究は,軍事・情報分野における機械支援リモートセンシングATRの発展に貢献するユニークな試みである。

    Link: https://arxiv.org/abs/2605.10772

  • 最終層を超えて:視覚的トークン化のための多層表現融合 [cs.CV, cs.AI]目的:視覚的トークン化における多層表現融合
    • 画像処理技術は,画像認識や生成といった様々な応用において不可欠である。
    • 既存手法では,事前学習済みのエンコーダの最終層のみを利用し,中間層の豊富な情報を活用できていない。
    • 中間層の情報を効果的に融合することで,表現力を高め,画像生成品質を向上させる。
    • DRoRAEは,エネルギー制約ルーティングと漸進的修正を用いて,すべてのエンコーダ層を適応的に集約する軽量な融合モジュールである。
    • ImageNet-256において,DRoRAEはrFIDを0.57から0.29に,生成FIDを1.74から1.65に低減した。
    • 融合容量と再構成品質の間にロジスティック線形スケーリング則($R^2{=}0.86$)が認められ,表現の豊富さが重要な指標となることが示された。

    Link: https://arxiv.org/abs/2605.10780

  • バーチャルリモートセンシングとメートルスケールのフィードフォワード3D再構成による迅速な森林燃料負荷量推定 [cs.CV]目的:森林燃料負荷量の迅速な推定
    • 森林火災リスク評価や生態系管理において,森林被覆率や可燃性バイオマスの正確な定量化は不可欠である。
    • 従来の航空LiDARや現地調査は高コストで時間もかかる。衛星画像では,樹冠体積解析に必要な垂直解像度が不足することがある。
    • Google Earth Studio由来のデータを用いた,迅速かつ費用対効果の高い森林調査手法を確立すること。
    • 提案手法は,物理的なスキャンに代わるスケーラブルで費用対効果の高い代替手段を提供する。
    • 再構成された3D点群は高い幾何学的整合性を持つ森林バイオマスのニアリアルタイム推定を可能にする。
    • Pi-LongモデルとSim(3) Umeyama最適化によるメトリック回復モジュールが,高精度な推定に貢献する。

    Link: https://arxiv.org/abs/2605.10789