arXiv雑要約

画像・音声 - 2026/05/29 公開

V2XCrafter：複数エージェント間の運転シーン生成学習 [cs.CV]目的：複数エージェント間の協調運転シーンの制御可能かつ現実的な生成
- 自動運転技術の発展に伴い，安全性を向上させるV2X通信の重要性が高まっている。
- 実世界のV2X運転データセットが不足しており，多様な運転条件下での汎化性能が課題である。
- 複数エージェント間の物理的属性の一貫性を保ちつつ，高品質な運転シーン生成を可能にすること。
- V2XCrafterは，単一エージェントのバックボーンに基づいたプログレッシブなマルチエージェント拡散モデルを開発した。
- 近傍エージェントの潜在状態を参考に，単一から複数への拡散を段階的にガイドすることで効果的な学習を実現。
- 提案手法は，エージェント間の視点間の一貫性を保ちながら，高精細で制御可能な街並み画像生成を可能にし，協調3D物体検出タスクの性能向上に貢献。
Link: https://arxiv.org/abs/2605.29471
意味と戦略の架け橋：公正な交渉予測のためのデュアルストリームグラフネットワーク [cs.GT]目的：交渉予測における意味的および戦略的シグナルの適応的融合
- 交渉は社会活動の根幹であり，経済学，政治学，コミュニケーションなど多岐にわたる分野で重要である。
- 既存の計算モデルはタスク構造の変化に対応できず，履歴データに内在する分配的考慮を十分に考慮していない。
- 本研究は，効用格差の反省的なモデリングを取り入れながら，意味的および戦略的シグナルを適応的に融合する。
- 提案手法ST-GFNは，DealOrNoDealとCaSiNoという対照的なベンチマークにおいて高い適応性を示した。
- モデルは動的にモダリティの重みを調整し，自由形式設定では言語的手がかり，構造化タスクでは戦略的制約により重点を置く。
- 格差の大きい環境で不平等乖離が43.8％減少し，予測精度への影響は最小限に抑えられた。
Link: https://arxiv.org/abs/2605.29480
AnyMo：マスクモデリングを用いたあらゆるモダリティ条件付きモーション生成のスケーリング [cs.CV, cs.AI]目的：あらゆるモダリティ条件付きモーション生成のスケール拡大
- 視覚とロボティクスにおいて，条件付きの人間モーション生成は重要な課題である。
- 既存手法は固定されたモダリティ構成に制約され，汎化性能が低い。
- 多様な制御信号に対応可能な汎用的なモーション生成モデルの実現。
- AnyMoは，残差FSQベースのモーショントークナイザーとスケーラブルなマスクモデリングTransformerを組み合わせた統一フレームワークである。
- 大規模データセットOmniHuMoを活用することで，任意のモダリティ組み合わせ下での高品質なモーション合成が可能となった。
- 実験により，AnyMoが空間的・様式的な属性の両方を柔軟に制御しながら，高忠実度な合成を実現することが示された。
Link: https://arxiv.org/abs/2605.29488
視覚言語モデルのポストトレーニングにおける推論と知覚の非対称的最適化について [cs.CL, cs.CV]目的：視覚言語モデルにおける推論と知覚の最適化における非対称性
- 近年，視覚言語モデルは急速に進歩しているが，推論能力と知覚能力のバランスが課題となっている。
- ポストトレーニングでは推論能力は向上するものの，知覚能力の向上が限定的であり，ボトルネックとなっている。
- この研究は，推論と知覚の非対称性を診断し，その改善策を提案することを目的とする。
- 実験の結果，ポストトレーニングでは推論能力の向上が知覚能力の向上を上回ることが示された。
- 教師ありファインチューニングでは，Chain-of-Thought supervisionにおけるトークン数のアンバランスが原因であることが判明した。
- 強化学習では，報酬と推論の相関が知覚能力への学習信号を弱めることが示唆され，知覚に配慮した報酬設計が有効であることが示された。
Link: https://arxiv.org/abs/2605.29496
ターゲットを隠蔽する：LoRA忘却に対するプラグアンドプレイ正則化手法 [cs.CL, cs.CV]目的：LoRAによる適応学習における忘却現象の軽減
- 大規模言語モデルの活用範囲拡大に伴い，特定用途への適応技術の重要性が高まっている。
- LoRAのような適応学習は，新しいデータへの適応時に，事前学習で獲得した能力を損なう可能性がある。
- 本研究は，LoRA適応学習における新しい学習と忘却のバランスを改善し，より安定したLLMの更新を目指す。
- 提案手法は，既存のLoRA学習パイプラインに容易に組み込むことができ，追加のデータやアーキテクチャ変更を必要としない。
- 出力空間に正則化を適用することで，ベースモデルの相対的なトークン選好を維持しながら，適応学習を促進する。
- 様々なLoRAバリアントとバックボーンで，適応分布とベースモデルの学習分布が大きく異なる場合に，新しい学習と忘却の間のトレードオフを改善できることを示した。
Link: https://arxiv.org/abs/2605.29498
ESAM++：エッジにおける効率的なオンライン3D知覚 [cs.CV]目的：エッジデバイスにおけるオンライン3Dシーン知覚の効率化
- ロボティクス，AR/VR，自動運転など，リアルタイム3Dシーン知覚は不可欠な技術である。
- 既存手法は計算コストが高く，リソース制約のあるエッジデバイスでの実用性に課題がある。
- エッジデバイスでの実用性を高めるため，軽量かつスケーラブルな3D知覚手法を開発する。
- 提案手法ESAM++は，3D Sparse Feature Pyramid Network (SFPN) を導入し，計算コストとモデルサイズを大幅に削減した。
- ScanNet等の4つのベンチマークにおいて，ESAMと比較して最大3倍高速な推論と，2倍小さいモデルサイズを達成した。
- 本手法は，GPU非搭載のエッジデバイスへの実用的な展開を可能にする。
Link: https://arxiv.org/abs/2605.29505
KGEdit：曖昧性認識知識グラフを用いた，トレーニング不要の正確な動画生成と編集 [cs.CV]目的：テキストから動画への拡散モデルにおける構造化されたセマンティック制御
- 動画生成技術は，コンテンツ制作やエンターテインメント分野において重要性を増している。
- 複雑な指示に対応する際，既存手法はセマンティックな曖昧性や概念の誤った結合，フレーム間の不整合に課題がある。
- 入力プロンプトの曖昧性解消と，高精度な動画生成・編集を実現すること。
- KGEditは，曖昧性認識知識グラフ（AAKG）を用いて入力プロンプトを構造化し，正確なセマンティック制御を可能にする。
- 構造化セマンティック注入モジュール（SSIM）により，拡散Transformerの主要層にセマンティック信号を注入することで，微細な制御を実現する。
- 時間的認識セマンティック制御（TASC）モジュールにより，ノイズ除去過程の段階的特性に応じたセマンティック目標の動的スケジュールを設定し，セマンティックアライメントと時間的一貫性を向上させる。
Link: https://arxiv.org/abs/2605.29509
交差注意特徴融合を用いた半真実局所化による音声ディープフェイク検出 [eess.SY, cs.SY, cs.SD, cs.CV, cs.LG]目的：音声ディープフェイクの検出と，操作箇所の局所化
- 音声データの信頼性は重要であり，悪意のある改ざんから保護する必要がある。
- 既存の手法では，部分的に操作された音声（半真実）の検出と局所化が困難である。
- 半真実音声の検出と，操作箇所の正確な局所化を可能にする手法の開発。
- 提案手法CAFNetは，音声の真偽判定（本物，完全な偽物，半真実）と操作箇所の局所化を同時に行う。
- MLADDC T2+T3テストセットにおいて，92.71%の精度と0.9910のAUC，0.075秒のMAEを達成した。
- 少ないパラメータ数で，既存のモデル（XLS-R 300M，AST 87M）を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2605.29531
RadioFormer3D：生成モデリングによる低高度空間における弱学習3D電波マップ推定 [cs.CV]目的：3D空間における電波伝搬特性の把握
- 3次元環境での無線通信利用拡大に伴い，電波マップ推定の重要性が増している。
- 2Dから3Dへの拡張は，空間的な疎らさと高度方向の教師データの不足が課題である。
- 弱学習下で高精度な3D電波マップ推定を実現し，無線ネットワークの性能向上を目指す。
- 提案手法RadioFormer3Dは，3D空間の疎な測定値を効率的に処理できる構造を持つ。
- 新たに開発した損失関数により，高度方向の教師データ不足を緩和し，垂直方向の構造を効果的に学習する。
- 複数のデータセットで，既存手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.29538
GiPL：クロスドメイン少数ショット物体検出のための生成拡張反復擬似ラベリング [cs.CV, cs.AI]目的：クロスドメイン少数ショット物体検出における性能向上
- 画像と言語を組み合わせた大規模モデルが，多様なデータへの対応能力を持つことが重要視されている。
- ターゲットドメインのサンプル数が極端に少ない場合，過学習が深刻な課題となる。
- 限られたサポートセットを有効活用し，過学習を抑制することで，検出精度を高めることを目指す。
- GiPLは，2つのブランチを持つ効率的な学習フレームワークである。
- 擬似ラベリングによる自己学習と，大規模言語モデルを用いたデータ拡張により，性能を向上させている。
- RUOD，CARPK，CarDDの3つのデータセットで，最先端手法を上回る顕著な性能改善が確認された。
Link: https://arxiv.org/abs/2605.29539
3Dガウススプラットからの表現学習 [cs.CV]目的：3Dガウススプラットで表現されたシーンの分類における幾何学的深層学習アーキテクチャの比較評価
- 3次元シーンの理解は，ロボティクスや拡張現実など幅広い分野で重要性を増している。
- 従来の点群データでは，シーンの複雑な形状や詳細な情報を捉えるのが困難であった。
- 3Dガウススプラットの表現力を最大限に活かし，より効果的なシーン理解を可能にする。
- 様々な幾何学的深層学習アーキテクチャを比較評価した結果，アーキテクチャによって性能に一貫した差が見られた。
- ガウススプラット特有の属性が，表現の質に影響を与えることが明らかになった。
- 点群データセットとガウススプラット専用データセットの両方で，適切なアーキテクチャと入力特徴の組み合わせが重要であることが示された。
Link: https://arxiv.org/abs/2605.29549
TAE：夜間UAV追跡のためのターゲットを意識したエンハンサー [cs.CV]目的：夜間UAV追跡における画像エンハンスメント手法
- UAVの全天候型運用において，夜間のような低照度環境での安定した追跡は不可欠である。
- 従来の画像エンハンスメントは，ターゲットと背景の識別が難しく，背景ノイズの増幅やターゲット特徴の劣化を招く。
- ターゲット領域に焦点を当てたエンハンスメントにより，夜間UAV追跡の精度とロバスト性を向上させる。
- 提案手法TAEは，追跡バウンディングボックスからの弱い教師信号を利用し，ターゲット領域に特化したエンハンスメントを実現する。
- 適応的なRGBマルチカーブ融合機構により，異なる領域における精緻なモデリングと適応的な調整を可能にする。
- 新しいベンチマークDarkSOTを公開し，DarkSOTとUAVDark135での実験により，TAEが低照度夜間環境で追跡性能を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.29558
VLA-Pro：ビジョン・言語・行動モデルにおけるタスク間手続き記憶の転移 [cs.RO, cs.AI, cs.CV]目的：タスク間における手続き記憶の転移機構
- 汎用ロボット操作において，VLAモデルの重要性が高まっている。
- 未知のタスクへの汎化性能が，オブジェクトや状況の変化に弱点を持つ。
- タスク関連情報を記憶し，状況に応じて活用することで汎化性能を向上させる。
- VLA-Proは，訓練時にタスク固有のLoRAアダプターを手続き記憶として保存する。
- 推論時には，マルチモーダルな文脈に基づいて関連する手続き記憶を検索し，動的に融合させる。
- RoboTwin，RLBench，実世界操作タスクで，最大207%の性能向上，実世界成功率を5.8%から65.0%に向上させた。
Link: https://arxiv.org/abs/2605.29562
視点自己探索による視点計画 [cs.AI, cs.CV, cs.RO]目的：視点計画の性能向上
- 現実世界のナビゲーションやロボット工学において，視点の理解と計画は不可欠である。
- 既存の視覚言語モデル(VLM)は，単一のアクションによる視点変化は理解できるものの，複数ステップにわたる計画においては性能が低い。
- 視点グラフ蒸留と自己探索を組み合わせることで，VLMの視点計画能力を向上させる。
- 提案手法は，Qwen2.5-VL-7Bのインタラクティブな視点計画の成功率を2.5%から47.8%に大幅に向上させた。
- この性能は，GPT-5.4 Pro(18.5%)やGemini 3.1 Pro(21.4%)を上回る。
- 自己探索は，3次元空間におけるVLMの推論と計画能力を向上させる有望なアプローチである。
Link: https://arxiv.org/abs/2605.29563
汎用的な視覚から信頼性の高い移動可能性推定へ：非構造化屋外環境向けビジョン基礎モデルの適応 [cs.RO, cs.CV, cs.RO]目的：非構造化屋外環境における信頼性の高い移動可能性推定
- ロボットの自律的な移動に不可欠であり，安全な経路計画と探索を可能にする。
- 既存手法は，汎用モデルの限界，アノテーションの曖昧さ，意味ラベルと物理的安全性の乖離に課題がある。
- これらの課題を克服し，よりロバストで安全な移動可能性推定を実現すること。
- 提案手法ViTAは，学習可能な移動可能性プロンプトを通じてタスク固有知識を注入し，汎用モデルの汎化性能を維持する。
- 曖昧な境界における誤った予測を抑制するため，Perspective-Diversified Trainingにより意味的不確実性を推定する。
- RGB画像から勾配や高さを推定し，意味的知識と幾何学的知識を融合することで，より正確な移動可能性スコアを得る。
Link: https://arxiv.org/abs/2605.29565
DefSynUS：変形を考慮したCT-USドメイン適応によるリアルタイム患者固有肝内血管識別 [cs.CV]目的：リアルタイム患者固有肝内血管識別の実現
- 肝臓手術における安全性を高めるため，リアルタイムでの血管可視化が重要である。
- プローブの制約，複雑な血管構造，組織変形により血管識別は困難である。
- 変形を考慮した超音波データ拡張により，組織変形下でもロバストな血管識別を目指す。
- 本手法は，腹部ファントムおよび限定的な臨床試験において，リアルタイムでの肝内血管分岐識別を達成した。
- 患者固有の情報に対応し，新たな患者姿勢においても性能を維持することが示された。
- 術前超音波を必要とせず技術的な実現可能性を示すが，一般化可能性と臨床的な実現可能性のためには多患者での検証が必要である。
Link: https://arxiv.org/abs/2605.29570
非ゼロ制約付き最適化による核の計算 [cs.GT]目的：核の多項式時間計算可能性を持つゲームのリストの拡張
- 協力ゲーム理論は，資源配分や合意形成など，多様な状況をモデル化する上で重要である。
- 核の計算はNP困難であり，効率的なアルゴリズムが限られていた。
- 特定クラスのゲームにおいて，核の計算を効率的に行うための手法を確立すること。
- 核の計算を，線形部分空間に属さない最小超過を持つ同盟の発見問題に帰着させることで，計算可能性を向上させた。
- この手法により，木構造ゲーム，ネットワーク強さゲーム，特定の$b$-マッチングゲームにおける核の多項式時間計算が可能となった。
- 一般的に，線形部分空間回避は最小超過問題の複雑さを増大させるが，近似誤差とのトレードオフによる解決策も提示した。
Link: https://arxiv.org/abs/2605.29571
地球観測衛星による堅牢な建物被害評価のための潜在表現の最適化 [cs.RO, cs.HC, cs.DC, cs.CV]目的：建物被害評価（位置特定と被害分類）の実現
- 自然災害や紛争時における迅速な被害状況把握は，緊急対応と支援優先度決定に不可欠である。
- 地球観測衛星データは広範囲を迅速にカバーするが，データ伝送遅延や地上処理，人手による解釈に時間がかかる。
- 衛星上でのデータ処理により，伝送量を削減し，迅速な意思決定を支援することを目指す。
- 事前災害画像から抽出した潜在表現を衛星に送信し，災害後画像と比較することで，建物被害を現地で評価するシステムを提案。
- Siamese処理，クロスアテンション，潜在空間圧縮，ロバスト性指向データ拡張などの設計空間を網羅的に評価した結果，高い性能を維持した。
- xBDデータセットを用いた実験では，位置ずれや圧縮に対する高い堅牢性を示し，信頼性の高い被害評価を実現した。
Link: https://arxiv.org/abs/2605.29575
視覚言語行動モデルにおける状態曖昧性の軽減：逆ダイナミクス学習によるアプローチ [cs.CV]目的：視覚言語行動モデルにおける状態曖昧性の軽減
- ロボット操作において，知覚，推論，制御を統合する視覚言語行動モデルの重要性が高まっている。
- 事前学習済み視覚言語モデルは，微細な視覚的区別が難しく，異なる行動を要する状態を曖昧に捉えやすい。
- 逆ダイナミクス学習を用いて，視覚エンコーダを直接監督し，状態曖昧性を解消することを目指す。
- 逆ダイナミクス学習は，現在の観測と未来の観測間の行動を予測することで，視覚エンコーダに微細な視覚的区別を学習させる。
- 擬似逆方向の教師あり学習を用いることで，エンコーダはより広範な行動方向を学習し，限られたロボットデモンストレーションでも汎化性能が向上する。
- 実験結果から，提案手法は様々な視覚言語行動モデルにおいて一貫した改善をもたらすことが示された。
Link: https://arxiv.org/abs/2605.29577
ReactBench：体系的な評価によるマルチモーダルな幻覚の原因別ベンチマーク [cs.CV]目的：マルチモーダルな幻覚の原因特定と改善
- 視覚と言語の理解において，マルチモーダル大規模言語モデルの進歩は目覚ましい。
- 既存のベンチマークは幻覚の検出に偏っており，根本原因の評価が不十分である。
- 幻覚を引き起こす原因を特定し，マルチモーダルモデルの信頼性を向上させる。
- ReactBenchは，関係性の削除，反事実的な属性，変更の追跡，密なカウントという4つのタスクを通じて，幻覚の原因を体系的に評価する。
- 評価の結果，現在のMLLMは特定の原因に起因する幻覚に対して脆弱であることが示された。
- ReactBenchは，マルチモーダルモデルの診断と改善のための，体系的かつ解釈可能なテスト環境として有用である。
Link: https://arxiv.org/abs/2605.29579
BitC-3DGS：ビット圧縮による大容量3次元ガウススプラッティング透かし [cs.CV]目的：3次元ガウススプラッティングアセットへの大容量透かし埋め込み
- 3Dアセットの流通において，所有権や真正性確認は不可欠であり，その実現に透かし技術が重要となる。
- 既存のテキストエンコーダを用いた透かし方法は，CLIPのトークン数制限により，埋め込める情報量が限られていた。
- トークンあたりのビット数を圧縮することで，より多くの情報を3Dアセットに埋め込み，可用性を高める。
- BitC-3DGSは，複数のビットを一つのトークンに圧縮するビット圧縮トークン化スキームを採用した。
- Dual-branchアーキテクチャとハードメッセージサンプリング戦略により，圧縮情報の復元精度を向上させた。
- BlenderとLLFFデータセットでの実験により，128ビットのメッセージ容量で高い復元精度とレンダリング品質を達成した。
Link: https://arxiv.org/abs/2605.29583
脳-IT-VQA：脳波から質問への回答 [cs.CV, cs.AI, q-bio.NC]目的：fMRI信号からの視覚的コンテンツの解読と，見ている画像に関する質問への回答
- 脳活動から情報を読み取る研究は，脳機能の解明やブレイン・マシン・インターフェースの実現に不可欠である。
- fMRIからのVQAの性能は未だ限られており，脳内視覚表現の構造を理解するためのツールとしての活用が少ない。
- 脳波からより正確に情報を読み取り，視覚的理解のレベルを詳細に分析するためのベンチマークを確立すること。
- Brain-IT-VQAは，従来のfMRIベースのキャプション生成やVQAアプローチを大幅に上回る性能を示した。
- NSD-VQAは，画像ごとに平均20個の質問-回答ペアを提供し，より信頼性の高い評価を可能にする新しいデータセットである。
- このベンチマークを用いて，fMRI応答から信頼性高く解読できる視覚情報と意味情報を定量的に評価できた。
Link: https://arxiv.org/abs/2605.29588
クラス増分学習のための二層競争による忘却防止知識割り当て [cs.CV]目的：クラス増分学習における知識の忘却抑制と，アダプタの効率的な活用
- 事前学習済みモデルの知識を活かしつつ，新しいクラスを継続的に学習する手法が求められている。
- 既存手法では，タスクごとの知識割り当てが均一であり，タスク間の差異を考慮できていない。
- タスクの差異に応じたアダプタ知識の割り当てを最適化し，忘却を抑制することを目指す。
- 提案手法NoFA-BCは，アダプタの割り当てを再帰最小二乗問題として定式化し，全データで学習した同等の割り当てを実現する。
- 二層競争(BLC)メカニズムにより，タスク内での勝者総取り(WTA)とタスク間での最後尾排除(LOF)を行い，アダプタ知識のより良い割り当てを実現する。
- 安定化強化(SE)プロセスを組み込むことで，古いタスクの性能をさらに向上させている。
Link: https://arxiv.org/abs/2605.29592
オフロード環境におけるセマンティックセグメンテーションの分布シフト軽減方法 [cs.RO, cs.CV]目的：オフロード環境向けセマンティックセグメンテーションにおける分布シフトの軽減
- オフロード環境での自動走行には，周囲の正確な認識が不可欠であり，セマンティックセグメンテーションはその重要な要素である。
- オフロード特有の環境要因により，学習時と異なるデータ分布が発生し，セグメンテーション精度が低下する課題がある。
- 本研究は，オフロード環境における分布シフトの影響を軽減し，セマンティックセグメンテーションのロバスト性を向上させることを目指す。
- 提案手法ST-Segは，スタイル拡張(SE)とテクスチャ正則化(TR)により，ソース分布を拡張することで分布シフトに対応する。
- SEは，限られたソースドメインのスタイル情報を多様化し，ドメインの網羅性を高める。
- TRは，スタイル拡張学習の影響を受けやすい局所的なテクスチャ表現を安定化させる。
Link: https://arxiv.org/abs/2605.29599
CogniVerse：認知的な反省と幾何学的推論によるマルチモーダル検索拡張生成の革命 [cs.CV]目的：マルチモーダル検索拡張生成の性能向上
- 知識集約型質問応答において，マルチモーダル大規模言語モデルの能力を高める上で重要な手法である。
- 既存手法では，ノイズの多い検索，クロスモーダル意味の不整合，適応的な推論の欠如といった課題が存在する。
- 認知的な反省と幾何学的推論に基づき，これらの課題を解決し，精度と一貫性を向上させることを目指す。
- CogniVerseは，動的な検索必要性の評価とフィルタリングにより，ノイズを削減し，計算コストを低減する。
- 情報幾何学とスペクトルグラフ理論を用いて，マルチモーダル埋め込みの整合性を高め，知識グラフを洗練する。
- 最適輸送に基づく損失関数により，トークンレベルの精度とグローバルな意味的整合性を両立した生成を実現する。
Link: https://arxiv.org/abs/2605.29602
プロトタイプフィードバックによる文脈条件付き述語意味の学習 [cs.CV, cs.AI, cs.LG]目的：文脈条件付き述語意味の学習
- シーングラフ生成において，述語の意味は文脈によって変化するため，そのモデリングが重要である。
- 既存手法は静的な述語表現を用いるため，画像固有の証拠を反映した意味の再構成が困難である。
- 画像内の関係候補から文脈条件付き述語意味を推論し，関係表現の再調整を行うことで，曖昧な文脈での混乱を解消する。
- 提案手法AlignGは，VG-150およびGQA-200におけるシーングラフ検出(SGDet)タスクで，最先端手法を上回るF@100スコアの改善 (+1.4 / +2.7) を示した。
- 画像ごとのプロトタイプ類似度の変化を可視化することで，シーンの証拠に基づいた一貫性のある文脈依存性の再編成が確認された。
- 学習目標がグローバルな意味中心に固定されるため，意味のドリフトを防ぎつつ，選択的な再編成を可能としている。
Link: https://arxiv.org/abs/2605.29610
DiffSpot：VLMはWebインターフェースの微細な視覚的差異を検出できるか [cs.MA, cs.CL, cs.CV, cs.CL]目的：Webインターフェースにおける微細な視覚的差異の検出能力に関する研究
- GUIエージェントやデザインツールなど，Web開発における自動化や効率化が重要である。
- VLMは高レベルの画像-テキスト対応は進むものの，微細な視覚的差異の認識能力が十分ではない。
- Webインターフェースの微細な差異を正確に検出するためのベンチマークを作成し，VLMの限界を明らかにする。
- DiffSpotベンチマークを用いて13種類のVLMを評価した結果，最も性能の良いモデルでも真の変化の40.7%しか識別できなかった。
- 特に，難易度の高い問題では，すべてのモデルでRecallが23%を下回った。
- CSSプロパティの種類によって難易度が大きく異なり，ピクセル差やCLIP距離はRecallを正確に予測できなかった。
Link: https://arxiv.org/abs/2605.29615
COMET：オーディオ・テキストマルチモーダルコントラスト埋め込みにおけるモダリティギャップの概念空間解剖 [cs.SD, cs.AI, cs.CL, cs.LG, eess.AS]目的：オーディオ・テキストマルチモーダルコントラスト埋め込みにおけるモダリティギャップの概念空間構造
- 近年のマルチモーダル研究は，異なるモダリティ間の知識を統合し，より高度なAIシステムを構築する上で重要である。
- 既存のモデルはオーディオとテキストの埋め込み間のモダリティギャップの影響を受けやすく，性能低下の原因となっている。
- 本研究は，概念空間分解を通じてモダリティギャップの構造を明らかにし，その影響を軽減することを目指す。
- COMETフレームワークは，共有概念を捉える少数の軸のみが類似度計算に大きく貢献することを示した。
- 平均成分はモダリティギャップを完全に表現するものではなく，概念空間の構造が重要であることが明らかになった。
- 提案手法であるスペクトル切断は，追加学習なしにモダリティギャップを緩和し，ゼロショットオーディオキャプション性能を向上させた。
Link: https://arxiv.org/abs/2605.29628
エージェントCVR：スクリプトシミュレーションによる強化学習を用いたマルチエージェントクロスビデオ推論 [cs.CV, cs.MA]目的：クロスビデオ推論における証拠の能動的な獲得
- マルチモーダル知能の発展において，複数の動画に分散する証拠を統合する能力は重要である。
- 既存のモデルは，複数の動画を圧縮されたコンテキストにエンコードするため，重要な証拠を見落とす可能性がある。
- エージェントCVRは，証拠獲得タスクとしてクロスビデオ推論を捉え，その性能向上を目指す。
- AgentCVRは，マスターエージェントが視覚・聴覚エージェントを協調させ，標的となる証拠を抽出するマルチエージェントフレームワークである。
- スクリプトシミュレーションによる強化学習を用いることで，高コストなマルチモーダル推論を回避し，効率的な学習を実現している。
- 実験結果から，AgentCVRは既存手法を上回り，特に複雑なクロスビデオアライメントと局在化において高性能を示した。
Link: https://arxiv.org/abs/2605.29643
MARTIAN：HiRISE軌道データからの火星航空写真レンダリングフレームワーク [cs.CV]目的：火星の航空写真生成のためのフレームワーク
- 火星探査において，自律的なナビゲーションは不可欠であり，そのためには画像認識技術が重要となる。
- 火星の多様な地形と照明条件は，画像認識システムの開発を困難にしている。また，大規模な学習データが不足している。
- 本研究は，学習データ不足という課題を解決するため，現実的な火星航空写真の自動生成を目指す。
- MARTIANは，HiRISEの軌道データを用いて，制御可能な照明条件と高度で，リアルな火星の航空写真を合成する。
- 生成された画像には正確な姿勢情報が付与されており，火星での画像ベースナビゲーションのための学習データとして活用できる。
- 本フレームワークは，Ingenuityや将来の火星ロータークラフトのマッピングシステムの検証に利用され，合成データで学習した画像照合器が実データでも良好な性能を示した。
Link: https://arxiv.org/abs/2605.29647
SuperVoxelGPT：自己回帰形状生成のための適応的・順序付けられた3Dトークン化 [cs.CV, cs.GR]目的：高解像度形状生成における3Dトークン化の課題解決
- 3D形状生成は，様々な応用分野において重要性が増している。
- 既存の3Dトークン化手法は，空間的順序と冗長性の間でトレードオフが存在する。
- SuperVoxelGPTは，適応的なスーパーボクセル分割により，この問題を解決することを目指す。
- SuperVoxelGPTは，一様ボクセル化と比較してトークンシーケンス長を12.8%に削減した。
- 生成品質は最先端レベルを達成し，既存手法と比較して平均10倍の高速化を実現した。
- テキストと順序付けられたスーパーボクセルレイアウトに基づいて，SuperVoxelVAEを用いてトークンを自己回帰的に生成する。
Link: https://arxiv.org/abs/2605.29655
OccamToken：訓練不要かつ予算適応型トークン刈り込みによる効率的なVLM推論 [cs.CV, cs.AI]目的：視覚言語モデルにおける推論効率の向上
- 視覚言語モデルは画像理解に不可欠だが，計算資源を大量に消費する。
- 既存のトークン刈り込みは固定されたトークン数で精度低下を招く場合がある。
- 入力画像に応じて柔軟にトークン数を削減し，精度を維持すること。
- OccamTokenは，絶対的なトークンランキングではなく，参照にアンカーされた相対的なエビデンステストを用いる。
- 登録トークンは低情報な注意パターンを吸収し，安定した基準を提供する。
- LLaVA-NeXT等で，精度を93%以上維持しつつ，トークン数を大幅に削減することに成功した。
Link: https://arxiv.org/abs/2605.29657
幾何学に基づいた基礎特徴のモデリングによる，汎化可能な物体形状変形学習 [cs.CV]目的：汎化可能な物体形状変形学習の実現
- 幾何学的理解の基盤となる単眼3D形状復元は，多様な視点と未知の物体カテゴリへの対応が課題。
- 既存手法では，大きな形状変化や多様な視点への対応が難しく，汎化性能に限界がある。
- テンプレート形状を変形させることで3D物体を復元し，汎化性能を向上させる。
- 提案手法は，テンプレートのトポロジーを利用した幾何学に基づいた特徴モデリングにより，複雑な形状変化に対応。
- 視点に依存しないロバストな特徴アライメントを実現するため，視点適応的な特徴集約モジュールを導入。
- 実験により，提案手法が最先端手法を大幅に上回り，新規カテゴリへの汎化性能とロボット操作タスクへの貢献が示された。
Link: https://arxiv.org/abs/2605.29661
SAFE-Pruner：意味的注意と未来予測に基づく効率的な視覚言語行動操作のためのトークン剪定 [cs.CV]目的：視覚言語行動モデルにおける効率的なトークン剪定手法
- ロボット制御において，リアルタイムな推論が不可欠であり，モデルの高速化が重要である。
- 既存のトークン剪定手法は浅い層の情報に依存し，深い層で必要となる視覚情報を誤って削除するリスクがある。
- 未来の層の注意情報を活用し，重要なトークンの早期除去を防ぐことで，安定した高速化を実現する。
- 提案手法SAFE-Prunerは，未来の層の注意情報を組み込むことで，トークン剪定の精度を向上させている。
- シミュレーションおよび実環境での実験により，成功率を1.7%以下に抑えつつ，最大1.89倍の高速化を達成した。
- 既存の最先端手法と比較して，最大1.9%の性能向上を示している。
Link: https://arxiv.org/abs/2605.29662
SRCの幾何学的視点：安定した残差推論のための表現学習 [cs.LG, cs.CV]目的：安定した残差推論のための表現学習
- 識別問題において，データの潜在的な構造を捉えた表現学習は重要である。特に，残差に基づく推論は，その信頼性が表現の幾何学に依存する。
- 従来の表現学習では，クラス内・クラス間の分離が不十分な場合があり，残差推論の安定性を損なう可能性がある。
- 残差の幾何学的構造を制御することで，残差推論の安定性を向上させ，識別性能を高めることを目指す。
- クラスごとの残差の比較に基づくSRCにおいて，残差の安定性を幾何学的視点から分析し，残差マージンを定量的に評価した。
- 理想的な残差ファミリーが分離されている条件を特定し，実用的な残差近似がその順序を維持する範囲を明らかにした。
- クラス内自己表現性，クラス間再構成経路の抑制，クラス間スパンのアライメント防止などの幾何学的形状化目的関数を提案した。
Link: https://arxiv.org/abs/2605.29673
教師なしセマンティックセグメンテーションによるモデル理解の促進 [cs.CE, q-fin.CP, cs.CV]目的：視覚トランスフォーマーのモデル理解のための可視化プロトコル
- 近年の自己教師あり学習の発展により，多様な視覚トランスフォーマーが登場し，その応用範囲は広い。
- コントラスト学習とマスク画像モデリングで学習されたモデルの特性の違いが十分に理解されていない。
- モデルの挙動を直感的に理解するための可視化手法を提案し，モデル理解を促進すること。
- 教師なしセマンティックセグメンテーションの結果を可視化するプロトコルを提案した。
- このプロトコルにより，DINOv3-Largeモデルにおける境界アーティファクトなど，新たな知見が得られた。
- 位置効果と局所性バイアスの違いを明確に視覚的に区別できることが示された。
Link: https://arxiv.org/abs/2605.29691
大規模顔認識データセットに対する効率的な検証不要型内在的品質推定 [cs.AR, cs.CV, cs.LG]目的：大規模顔認識データセットのモデル性能予測のための内在的品質
- 顔認識技術は，セキュリティや認証など様々な分野で重要な役割を担っている。
- 大規模データセットの品質評価はコストがかかり，モデル性能の事前予測が困難である。
- データセットの品質を迅速かつ正確に評価し，効率的なモデル開発を支援すること。
- 内在的品質（IQ）は，大規模なトレーニングを必要とせず，データセットの潜在能力を評価する指標である。
- IQは，近傍一致性スコアとグローバル表現部分空間の複雑さを統合することで，データセットの多様性を捉える。
- 実験の結果，IQはダウンストリームの性能を予測する有効な指標であることが示された。
Link: https://arxiv.org/abs/2605.29720
SLAD：タスク固有蒸留のための共有LoRAアダプター [cs.CV]目的：タスク固有蒸留における知識伝達効率の向上
- 組み込みシステム等のリソース制約環境下では，ファウンデーションモデルの活用が重要視されている。
- 教師モデルのファインチューニングにより性能は向上するものの，生徒モデルへの知識伝達が阻害される場合がある。
- 教師モデルと生徒モデルの表現のずれを解消し，より効率的な知識伝達を実現すること。
- 提案手法SLADは，教師モデルと生徒モデル間の特徴表現のずれを軽減する。
- SLADは，生徒モデルのみならず教師モデルの性能も向上させ，学習速度も2倍に向上した。
- 複数の分類・セグメンテーションデータセットで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.29726
S2MDF：交差のない多物体符号付き距離場のためのプラグアンドプレイ層 [cs.CV, cs.CG]目的：多物体符号付き距離場における物体間の交差の抑制
- 3Dシーンの表現において，複数の物体を組み合わせる手法は重要である。複雑なシーンを効率的に表現できるため。
- 従来の符号付き距離場を用いた手法では，物体同士が物理的にありえない交差を生じやすいという問題があった。
- 本研究では，物体間の交差を厳密に防止する手法を提案し，より現実的な3Dシーンの構築を目指す。
- 提案手法S2MDFは，既存の符号付き距離場表現に容易に組み込むことが可能であり，既存手法よりも計算コストが低い。
- 実験の結果，S2MDFは数値誤差レベルまで交差を低減し，再構成品質を維持することが示された。
- S2MDFは，学習時だけでなく，後処理としても適用可能であり，汎用性の高い手法である。
Link: https://arxiv.org/abs/2605.29761
幾何学的知識に基づく状態空間モデルによる動画モーション強調 [cs.CV]目的：動画モーション強調の幾何学的整合性向上
- 動画内の微細な動きを可視化する技術であり，医療，セキュリティ，監視など幅広い分野で応用が期待される。
- 複雑な幾何学的変換下では，構造的な不整合が生じやすく，強調された動画の品質が低下する課題がある。
- 状態空間モデルと大規模合成データセットを活用し，幾何学的整合性を保ちつつ，効率的なモーション強調を実現する。
- 提案手法GeoMagは，従来のCNNやTransformerの課題を克服し，線形時間複雑度でグローバルに整合性の取れたモーション強調を可能にする。
- 新たに構築したGeo-200Kデータセットは，多様性と現実感のある学習信号を提供し，現実世界の動画における性能向上に貢献する。
- 合成データおよび実動画評価実験において，GeoMagは既存手法と比較して，視覚的な忠実度と計算効率において優れた結果を示した。
Link: https://arxiv.org/abs/2605.29762
セマンティックセグメンテーションにおける単一パスの分布外検出のためのエネルギー認識型NECO [cs.SI, cs.RO, cs.NI, cs.CV, cs.AI, cs.RO]目的：セマンティックセグメンテーションにおける分布外検出手法
- モバイルロボットの信頼性向上には，正確なセグメンテーションと不確実性推定が不可欠である。
- 従来の不確実性推定手法は計算コストが高く，エッジデバイスへの実装が困難である。
- 単一パスで効率的に分布外検出を行い，エッジデバイスでの利用を可能にすること。
- 提案手法であるEnergy-Aware NECOは，miniMUADデータセットにおいてAUROC 0.8539を達成し，既存手法を上回った。
- デコーダー特徴量とlogitに基づいたEnergyスコアを組み合わせることで，分布外検出の性能が向上した。
- 単一パス設計により，効率性を維持しながら高い検出精度を実現した。
Link: https://arxiv.org/abs/2605.29773
CLIP適応の改善：ソースフリークロスドメイン少数ショット学習のためのテールアラインメントの打破 [cs.CV]目的：クロスドメイン少数ショット学習におけるCLIPベースのファインチューニング手法
- 画像とテキストの関連性を学習するVLMsは，ゼロショットでの汎化性能が高いが，ドメイン間のずれが大きい場合に性能が低下する。
- ターゲットドメインの学習データが少ない状況では，過学習が起こりやすく，性能向上が困難である。
- テールトークンと呼ばれる低類似度トークンのアラインメントを弱めることで，過学習を抑制し，ターゲットドメインでの性能向上を目指す。
- 本研究では，適応的テールヘッドアラインメント(ATHA)という新しいファインチューニング戦略を提案した。
- ATHAは，従来の均一なアラインメントパラダイムから，アラインメントの強化と弱化を組み合わせた適応的なアラインメントパラダイムへと移行する。
- 4つの難易度の高いCDFSLベンチマークにおける実験結果は，最先端の性能を達成したことを示している。
Link: https://arxiv.org/abs/2605.29776
少ないステップでより良い性能：言語を用いたビデオモーメント検索のための効率的なクロスモーダルクリップトリミング [cs.CL, cs.CV]目的：ビデオモーメント検索におけるクエリ関連部分の効率的なクリップトリミング
- ビデオ検索は，大量のビデオデータから目的のシーンを迅速に見つけるために重要である。
- 従来のビデオモーメント検索は計算コストが高く，長時間のビデオには適用が困難である。
- クエリ関連のクリップを効率的にトリミングすることで，計算コストを削減し，検索精度を向上させる。
- 提案手法SpotVMRは，言語クエリに基づいて有望なビデオ領域を検索するクリップ検索モデルを設計した。
- 低コストな意味的インデックス特徴を用いて，クエリ関連部分の探索を効率化する。
- 知識蒸留損失を用いることで，クリップ選択器とVMRモデルの同時学習における最適化問題を解決した。
Link: https://arxiv.org/abs/2605.29793
ジルコニア強化アルミナの多重スケール破断原因分類における低倍率SEMで十分：解釈可能な深層学習 [cs.CL, cs.CV, cond-mat.mtrl-sci, eess.IV]目的：ジルコニア強化アルミナ製人工関節の破断原因の自動分類
- 人工関節の品質保証と患者安全の確保は重要であり，破断原因の正確な特定が不可欠である。
- 従来の破断原因特定は，時間と労力を要し，主観的な判断に依存しやすく，高倍率SEMが必要となる。
- 本研究は，低倍率SEM画像を用いた破断原因の迅速かつ客観的な分類を目指す。
- 解釈可能なVision Transformer (ViT) を用いて，破断原因の分類を自動化し，高い精度（0.907）と再現性（F1スコア0.888）を達成した。
- 低倍率（50倍）のSEM画像でも，高倍率画像と同等の性能が得られたことから，破断面の宏視的な特徴が十分な情報を含んでいることが示された。
- Grad-CAMによる可視化の結果，破断鏡面やハックルラインなど，従来の破断力学に基づいた特徴が適切に検出された。
Link: https://arxiv.org/abs/2605.29798
AgentDoG 1.5：AIエージェントの安全性とセキュリティのための軽量かつスケーラブルなアライメントフレームワーク [cs.CL, cs.AI, cs.CL, cs.CR, cs.CV, cs.LG]目的：AIエージェントの安全性とセキュリティを向上させるためのアライメントフレームワーク
- 現代のAIエージェントは強力だが，新たな安全上のリスクを生み出す可能性があり，対策が急務である。
- 既存のアライメントフレームワークは，高度なAIモデルの進化と実世界への展開において十分な対応ができていない。
- AgentDoG 1.5は，現実世界の脅威に対応できる，軽量かつスケーラブルなアライメントフレームワークを提供することを目指す。
- AgentDoG 1.5は，CodexとOpenClawの実行シナリオから発生する新たなリスクに対応するため，エージェントの安全性分類を更新した。
- わずか1000サンプルで学習可能な軽量なAgentDoG 1.5モデルを開発し，GPT-5.4などの閉鎖的モデルと同等の性能を達成した。
- AgentDoG 1.5をオンラインの安全ガードレールとして導入し，リアルタイムでの安全管理を実現し，優れた性能を示した。
Link: https://arxiv.org/abs/2605.29801
Cert-LAS：層適応平滑化によるテキスト画像拡散モデルの所有権検証の確証に向けて [cs.CR, cs.CV, cs.GR, cs.LG, cs.MM]目的：テキスト画像拡散モデルの所有権検証の確証
- 大規模言語モデルの応用拡大に伴い，知的財産の保護が重要になっている。
- 既存の水標識手法は検証過程の信頼性が損なわれる可能性がある。
- 悪意のある除去攻撃に対しても信頼性の高い検証を可能にすること。
- Cert-LASは，拡散分類器とLFSガイドによる層適応ノイズを用いて水標識を埋め込み，仮説検定により所有権を検証する。
- 特定の条件下では，悪意のある除去攻撃が存在しても信頼性の高い検証が可能であることが証明された。
- 実験により，Cert-LASの有効性と適応攻撃への耐性が確認された。
Link: https://arxiv.org/abs/2605.29809
言語を用いたオープンセット動画モーメント検索へ: 全ての入力が有効とは限らない [cs.CV]目的：オープンセット動画モーメント検索におけるIDクエリとOODクエリの識別と，IDクエリに基づく正確なモーメント検索
- 動画コンテンツの理解と検索は，監視，医療，エンターテイメントなど様々な分野で重要性が増している。
- 既存の動画モーメント検索は，全てのクエリが動画に関連するという閉じた設定を前提としており，現実世界での応用が困難である。
- 本研究は，動画と無関係なクエリを検出し拒否することで，より安全で信頼性の高い動画検索を実現することを目指す。
- 提案手法OpenVMRは，正規化フロー技術を用いてIDクエリとOODクエリを識別し，IDクエリのみに基づいてモーメント検索を行う。
- IDクエリ分布を多変量ガウス分布と仮定し，不確実性スコアを用いてID/OODの境界を学習・洗練する。
- 動画とクエリ，フレームとクエリの照合により粗粒度・細粒度のクロスモーダル相互作用を実現し，実験結果から有効性が示された。
Link: https://arxiv.org/abs/2605.29812
外見に基づく潜在的集団における医療画像診断の公平性：人口統計学的属性を超えて [cs.CV]目的：医療画像分析モデルにおける，外見に基づく潜在的集団間の性能格差の最適化
- 医療画像診断の精度は，患者の安全と公平性に直結する重要な課題である。
- 既存手法では，人口統計学的属性ごとに公平性を最適化するが，潜在的な格差源が見過ごされがちである。
- 本研究は，画像の外見から発見される潜在的集団に対する公平性を最適化することで，この問題を解決する。
- ラベルを用いない潜在的集団公平性（LHCF）訓練パラダイムを提案し，人口統計学的属性に依存せず，画像の外見に基づいて公平性を最適化する。
- 提案手法は，単一および複数の人口統計学的属性において，最先端の公平性を示すことがHIDFairBenchデータセットで確認された。
- LHCFは，信頼性の高い医療画像分析のための，実用的かつスケーラブルな公平性最適化手法として期待される。
Link: https://arxiv.org/abs/2605.29827
組織学的スコアリングにおけるマルチタスク負の転移を軽減するためのパラメータ効率的な部分空間デカップリングViT [cs.CV, cs.LG, cs.MM]目的：非アルコール性脂肪性肝疾患（NAFLD）の組織学的スコアリングにおけるマルチタスク学習の安定性と汎化性能の向上
- 組織学的スコアリングはNAFLDの診断に不可欠であり，病理診断の効率化が求められている。
- マルチタスク学習において，NAFLD活動度スコア（NAS）の指標間の強い相関関係が負の転移を引き起こす。
- タスク固有の適応モジュールと直交制約を用いて，タスク間の干渉を軽減し，安定した学習を目指す。
- 提案手法は，個別のシングルタスクモデルと比較して，大幅に計算コストを削減しつつ，マルチタスクの安定性と汎化性能を向上させた。
- 部分空間デカップリングにより，脂肪変性，気球化，炎症の独立した特徴部分空間を構築し，タスク間の干渉を効果的に低減した。
- 専門家による注釈が付与されたマウスNAFLD組織学的画像のマルチタスクデータセットを構築し，再現性を支援する。
Link: https://arxiv.org/abs/2605.29852
密集都市部スラムにおける建物・道路認識：データセットとベンチマーク [cs.CV]目的：密集都市部スラムにおける建物と道路の抽出のためのデータセットとベンチマーク
- 都市の持続可能な発展とガバナンスにおいて，都市部スラムの精密なマッピングは不可欠である。
- 既存の遠隔センシングデータセットは，都市部スラム特有の高密度な建物パターンと狭い道路ネットワークに対応できていない。
- 本研究は，密集都市部スラムにおける建物・道路抽出のための，高品質なデータセットと評価基準を提示することを目指す。
- 本研究で提供するDenseUISデータセットは，中国の深センと広州の126都市部スラムを網羅する高解像度データである。
- 既存の深層学習モデルの評価実験の結果，都市部スラム特有の形態的パターンに対応する能力に限界があることが示された。
- DenseUISデータセットは，複雑で高密度なスラム環境における都市マッピングの精度向上に貢献する。
Link: https://arxiv.org/abs/2605.29856