arXiv雑要約

画像・音声 - 2026/05/19 公開

信頼性のある医療画像質問応答のためのWasserstein均衡デコーディング [cs.HC, cs.CV, cs.AI]目的：医療画像質問応答における信頼性向上
- 医療現場では，プライバシー保護や低遅延性が求められ，小型モデルの利用が重要となる。
- 小型モデルは容量が限られるため，妥当だが誤った回答を生成しやすいという課題がある。
- 本研究は，意味的な合意に基づいた収束により，より信頼性の高い回答生成を目指す。
- Wasserstein均衡デコーディングは，VQA-RADおよびPathVQAにおいて，既存手法と比較して一貫した性能向上を示した。
- VQA-RADでは，Qwen3-VL-2Bの精度を3.5%向上させ，4Bモデルに匹敵する性能を達成した（p < 0.01）。
- PathVQAでは，ドメイン特化型ファインチューニングなしでGemma-3-4BがMedGemma-4Bと同等の精度を実現し，収束に必要な反復回数を約20%削減した。
Link: https://arxiv.org/abs/2605.18313
リーマン最適化と測地的 Temporal Regularization を用いた動的楕円グラフ因子モデル [cs.NI, cs.AR, cs.LG, cs.GR]目的：時間変化するグラフ構造の推論
- 神経科学，金融，気候学など幅広い分野で時間変化するグラフ構造の推定が重要である。
- 潜在グラフの時系列の一貫性を維持し，正定値行列のリーマン幾何学を考慮する必要がある。
- 測地的 Temporal Regularization により，グラフ構造の時間的整合性を高めることを目指す。
- 提案手法「Degfm」は，潜在的な楕円グラフ因子モデルを用いて，時間変化する精度行列を効率的に推定する。
- グラスマン多様体上でのリーマン幾何学的な勾配降下法により，複雑な最適化問題を解く。
- 合成データと実データでの実験により，Degfm が既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.18316
表現オートエンコーダの改良によるベースラインの向上 [cs.CV, cs.AI, cs.GR, cs.LG, stat.ML]目的：表現オートエンコーダの設計選択に関する調査と改善
- 画像生成モデルの性能向上は，様々な応用分野において重要である。
- 従来のVAEは，事前学習済みモデルの表現力を十分に活用できていない場合がある。
- RAEの簡素化と性能改善を通じて，効率的な画像生成を目指す。
- 表現をエンコーダの複数層の和として定義することで，再構成精度が大幅に向上した。
- RAEとREPAは相補的なメカニズムを有しており，両者を組み合わせることで性能を高めることができた。
- REPAをRAEの潜在空間におけるx予測と捉え，追加の学習なしにclassifier-free guidanceを実現した。
Link: https://arxiv.org/abs/2605.18324
CineMatte：バーチャルプロダクションおよびそれ以上の背景マッティング [cs.CV]目的：バーチャルプロダクションにおける背景マッティングの枠組み
- LEDバーチャルプロダクションは映像制作の効率化に貢献するが，後処理の負担が大きい。
- 既存のマッティング手法は，背景の変化や詳細な境界の表現に課題がある。
- 背景変化に強く，精緻なマッティングを実現し，後処理の効率化を図る。
- CineMatteは，DINOv3 Vision Transformerとクロスアテンションモジュールを用いて，背景と前景を効果的に分離する。
- 画像誘導型特徴アップサンプラーにより，従来の畳み込み層によるアーティファクトを軽減し，より自然な境界を生成する。
- CineMatte-4Kデータセットは，バーチャルプロダクション環境で撮影された高品質なデータであり，実環境での汎用性も高い。
Link: https://arxiv.org/abs/2605.18328
フォールドに迷い込む：交差検証が不確実性推定のための深層アンサンブルではない場合 [cs.CV, cs.LG]目的：医療画像セグメンテーションにおけるエピステミック不確実性の推定
- 医療画像セグメンテーションの信頼性向上は，診断精度向上と安全な臨床応用のため不可欠である。
- 交差検証アンサンブルと深層アンサンブルの区別が曖昧で，不確実性評価の解釈に誤りをもたらす可能性がある。
- アンサンブル構築方法が研究目的に合致しているか検証し，適切な不確実性推定を目指す。
- 深層アンサンブルはセグメンテーション精度を維持しつつ，較正と故障検出の性能を向上させた。
- 交差検証アンサンブルは，研究対象データセットにおいて，評価者間変動とより強い相関を示した。
- アンサンブル構築方法は，信頼性重視の用途（選択的紹介/故障検出）には深層アンサンブル，曖昧性評価には交差検証アンサンブルが適切である。
Link: https://arxiv.org/abs/2605.18329
任意のカメラ軌跡可視化エンジンを備えた3D非対称ガウススプラッティング [cs.CV, cs.GR]目的：3Dシーンの構造的忠実性とコンパクト性の向上
- 3DGSはリアルタイムなフォトリアリスティックなレンダリングを可能にする画期的な技術であるため，様々な応用が期待されている。
- 従来の3DGSは対称ガウス分布に依存するため，形状や色の不連続性を捉えきれず，視覚的分析の精度を損なう場合がある。
- 非対称ガウス分布を導入することで，複雑な形状や透明度をより正確に表現し，高精度な可視化を実現することを目指す。
- 提案手法である3DSGSは，従来の3DGSと比較して，複雑なディテールを持つ領域において，より優れたレンダリング品質と構造的コンパクト性を実現した。
- 3DSGSは，対称ガウスと非対称ガウスの両方をサポートするCUDAラススタライズパイプラインを再構築し，汎用的な可視化エンジンに統合した。
- 実験の結果，3DSGSはインタラクティブな探索に必要なリアルタイムフレームレートを維持しつつ，視覚分析における精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2605.18334
集中強制：効率的な自己回帰型ビデオ拡散のためのコンテンツ認識型フレーム単位KV選択 [cs.CV, cs.AI]目的：自己回帰型ビデオ拡散における効率的なKVキャッシュ圧縮手法
- ビデオ生成技術は急速に進歩しているが，長尺動画生成には大規模なキャッシュが必要となる。
- 既存手法は注意スコアに基づく粗い履歴フレーム選択に留まり，ヘッドごとの重要度を考慮していない。
- 生成フレームとヘッド次元に沿ったキャッシュ履歴に焦点を当て，効率的なKV選択を目指す。
- 学習を必要とせず，エンドツーエンドで最大1.48倍の高速化を実現した。
- 視覚品質とテキストとの整合性を向上させた。
- 生成されるフレームごとに異なる履歴フレームへの依存関係を捉え，ヘッドの重要度に応じた予算配分を行った。
Link: https://arxiv.org/abs/2605.18346
公共交通機関における乗客数推定のためのパラメータフリーな注意機構を用いたCSRNetの最適化 [cs.CV, cs.AI]目的：公共交通機関における乗客数推定と密度マップ推定の精度向上
- スマートで効率的な公共交通機関の設計には，乗客数の推定が不可欠である。
- 従来の乗客数推定モデルは，乗客数の変動に対応するためには調整が必要である。
- リソースに制約のある環境下でも利用可能な，軽量な注意機構の活用。
- パラメータフリーな注意機構は，追加のパラメータ数を増やすことなく，従来の注意機構と同等またはそれ以上の精度を達成した。
- PFCASAは，乗客数が少ないシーンで他の注意機構よりも優れた性能を示した。
- PFCAは，乗客密度が高いシーンでより効果的であり，スマート公共交通機関への統合の可能性を示唆した。
Link: https://arxiv.org/abs/2605.18349
RAVE：大規模マルチモーダルモデルにおける視覚的注意の再配分 [cs.CV]目的：大規模マルチモーダルモデルにおける視覚的注意の最適化
- マルチモーダルモデルは，画像とテキストを統合し，多様なタスクに対応できるため重要である。
- 従来の注意機構では，視覚情報への注意配分が不均衡になり，性能低下を招く場合がある。
- 視覚的注意の再配分により，モデルの視覚情報の理解精度を向上させることを目指す。
- RAVEは，視覚キーに対する学習されたクエリ-キーバイアスを追加することで，注意配分を改善する。
- RAVEは，バックボーンアーキテクチャを変更することなく，モデル全体とエンドツーエンドで学習可能である。
- マルチモーダルベンチマークにおいて，RAVEは標準的な注意機構と比較して平均で3ポイントの性能向上を示した。
Link: https://arxiv.org/abs/2605.18359
GeoFlow: ビデオ生成における暗黙の幾何学的整合性の強制 [cs.CV]目的：ビデオ生成における幾何学的整合性の向上
- ビデオ生成技術は，現実世界の表現を可能にする重要な分野であり，その品質向上が求められている。
- 既存のテキストからのビデオ生成モデルは，幾何学的な整合性を暗黙的に学習するため，物体の変形やテクスチャのずれが生じやすい。
- 生成されたビデオにおいて，カメラの動きと整合性のとれた背景運動と物体の運動を実現し，幾何学的アーティファクトを削減すること。
- 提案手法は，幾何学的整合性を評価する報酬関数を導入し，強化学習によってビデオ生成モデルを微調整することで，幾何学的整合性を明示的に最適化する。
- この手法は，カメラと物体の両方の動きを含む多様な動的シーンに適用可能であり，モデルに依存しない。
- 実験の結果，強力なベースラインと比較して，時間的な幾何学的アーティファクトが大幅に削減され，知覚的な品質が維持されていることが示された。
Link: https://arxiv.org/abs/2605.18365
画像生成のための汎用トークナイザーとしてのビジョンファウンデーションモデル [cs.CV]目的：画像生成のための汎用視覚トークナイザーの構築
- 画像生成モデルの性能向上は，コンピュータービジョンの重要な課題である。
- 既存の画像トークナイザーは，効率性やセマンティック忠実性に課題がある。
- 凍結されたビジョンファウンデーションモデルを活用し，これらの課題を解決する。
- 提案手法VFMTokは，離散空間と連続空間の両方で優れた画像合成性能を示す。
- ImageNetを用いた条件付き合成において，gFIDを1.36まで向上させ，収束を3倍に加速した。
- また，分類器フリーガイダンスなしで高忠実度な条件付き合成が可能となり，推論速度も向上した。
Link: https://arxiv.org/abs/2605.18390
物理に基づいたビデオ生成のためのエージェント的計画：NEWTON [cs.CV]目的：物理的妥当性を有するビデオ生成
- ビデオ生成技術は進歩しているが，物理法則を無視した不自然な動きが生じやすい。
- テキストプロンプトだけでは，物理シミュレーションに必要な詳細な情報を十分に伝えることができない。
- 物理的制約を考慮した計画立案により，より自然なビデオ生成を実現すること。
- NEWTONは，ビデオ生成をエージェントの行動の一つと捉え，物理を意識したツールを用いて計画を立てる。
- 計画立案は唯一学習可能な要素であり，Flow-GRPOによって最適化される。
- VideoPhy-2データセットにおいて，LTX-VideoとVeo-3.1の両方で精度が向上した。
Link: https://arxiv.org/abs/2605.18396
n次元平面ベース幾何代数における交差比の一般化 [cs.DC, cs.CG, cs.CV]目的：n次元平面ベース幾何代数における射影交差比の完全な理論
- 幾何学は，コンピュータビジョンやロボティクスなど，多様な応用分野において不可欠である。
- 高次元幾何における交差比の体系的な取り扱いが課題であった。
- 平面ベース幾何代数を用いた交差比の一般化と，その射影不変性を示す。
- n次元平面ベース幾何代数において，あらゆる種類の幾何対象に対する明示的な交差比の公式を確立した。
- 確立した公式は，古典的な不変量と一致し，カノニカルなペアワイズ測定演算子を特定した。
- 交差比は，幾何対象の次数に依存しない射影不変量としてPGA内で機能し，n次元ホモグラフィの構築を可能にする。
Link: https://arxiv.org/abs/2605.18398
グローバル海洋における推定到着時刻のための歴史的知識グラフ [cs.CV]目的：グローバル規模での船舶の推定到着時刻予測手法
- 港湾運営や脱炭素化において，正確な船舶の到着時刻予測は不可欠である。
- 高コストな文脈データを必要とせず，グローバル規模での航行時間予測は困難である。
- AISデータのみを用いて歴史的海洋知識グラフを構築し，航行時間予測を可能にすること。
- 本研究では，AISデータのみを用いて歴史的海洋知識グラフを構築する手法を提案した。
- テストデータセットにおいて，セグメントレベルRMSE中央値は22.75分，トラジェクトリレベルは30.90分であった。
- 本手法は，グローバル規模での航行時間予測を実現し，適切なタイミングでの入港計画や排出量削減に貢献する。
Link: https://arxiv.org/abs/2605.18408
EnvTriCascade：ESDD2 2026チャレンジのための環境を意識した三段階カスケードフレームワーク [cs.SD]目的：現実世界の音声偽装検出における高性能なフレームワーク
- 音声偽装検出は，セキュリティ上の重要性が高く，その技術的進歩が求められている。
- 従来の音声偽装検出は，単一の音声操作に焦点を当てていたため，環境音との組み合わせによる高度な偽装に対応できない。
- 多様な混合条件におけるロバストな検出性能を向上させ，より現実的な環境での音声偽装に対応すること。
- 提案手法EnvTriCascadeは，ミックス整合性検出器，多分岐特徴抽出器，RawBoostオーギュメンテーションを組み合わせることで，高い検出精度を実現した。
- 公式CompSpoofV2データセットのみで学習し，テストセットでMacro-F1スコア0.8266を達成し，公式ベースラインを大幅に上回った。
- ESDD2チャレンジにおいて，2位の成績を収め，その有効性が示された。
Link: https://arxiv.org/abs/2605.18409
基礎のひび割れ：ビジョンファウンデーションモデルを検証するための土木インフラデータセット [cs.DL, cs.CV]目的：土木インフラの欠陥セグメンテーションのための大規模データセット
- 土木インフラの老朽化が進み，構造的健全性の維持が重要課題となっている。
- 土木インフラの欠陥セグメンテーションには専門的なアノテーションが必要であり，データ不足が課題である。
- 本研究は，大規模データセットの提供により，土木インフラの構造的健全性評価の精度向上を目指す。
- 大規模な土木インフラデータセット「Cracks in the Foundation (CiF)」を公開した。
- 最新のファウンデーションモデルやセグメンテーションモデルであっても，実世界のインフラにおいて十分な性能を発揮できないことを示した。
- 現在のモデルは，インターネット画像で学習されたものが多く，土木インフラのような特殊な環境への適応が課題であることが明らかになった。
Link: https://arxiv.org/abs/2605.18413
病理組織学におけるロバストなビジュアルインコンテキストラーニングのための幾何学的認識不確実性コアセット [cs.DC, cs.CV, cs.AI]目的：病理組織学におけるロバストなビジュアルインコンテキストラーニングのための不確実性コアセットの構築
- 病理組織学は，病気の診断や予後予測において重要な役割を担うが，専門知識が必要とされる。
- 限られた専門家によるアノテーションデータで大規模モデルを微調整することは困難である。
- 提示する事例の選択や質問の言い回しに影響されやすく，診断の信頼性が低いという問題を解決する。
- GAUCは，事前学習済みのマルチモーダル埋め込み空間で直接動作するトレーニング不要のコアセット選択手法である。
- データセット全体の分布に対するコアセットの分布的忠実性を保証し，プロンプトの言い換えに対する性能劣化を抑制する。
- CRC-100KおよびMHISTデータセットで，既存のICL選択手法やデータセット蒸留ベースラインと比較して，精度，キャリブレーション，プロンプトロバスト性が向上した。
Link: https://arxiv.org/abs/2605.18419
共に見る：マルチモーダル大規模言語モデルによる複数ロボット協調エゴセントリック空間推論 [cs.CV]目的：複数ロボット協調動的空間推論
- ロボットの協調作業は，人間社会における多様なタスクの自動化に不可欠である。
- 複数ロボットの視点からの協調的な空間推論は，既存研究では十分に探求されていない。
- 複数ロボットの視点情報を統合し，空間推論能力を向上させることを目指す。
- 本研究では，複数ロボット協調空間推論のための新しいベンチマークデータセットCoopSRとEgoTeamを開発した。
- 提案手法SP-CoRは，ロボットの姿勢情報を活用したフレームサンプリングとビューフュージョンにより，協調推論性能を向上させた。
- SP-CoRは，HabitatとiGibsonにおいて，既存の最良手法をそれぞれ+3.87%，+7.12%上回り，実環境でのテストにおいても良好な汎化性能を示した。
Link: https://arxiv.org/abs/2605.18431
TIGER-FG：テキスト誘導によるEコマース検索のための暗黙的な細粒度グラウンディング [cs.IR, cs.CV]目的：Eコマース検索における画像とテキストのマルチモーダル検索性能の向上
- Eコマースにおける画像検索の需要が高まっており，効率的な検索技術が求められている。
- 既存手法では，切り抜かれた画像クエリと完全な商品画像・テキストの間のモダリティと粒度の不一致が課題である。
- 背景や不要な要素の影響を受けにくい，より正確な商品表現を学習することを目指す。
- TIGER-FGは，商品テキストをセマンティックガイダンスとして利用し，オブジェクト検出なしでターゲットに焦点を当てた商品表現を生成する。
- デュアル蒸留目的関数により，ターゲット領域の空間的一貫性とクエリ-商品間の類似性構造を維持し，より安定したマルチモーダル表現を実現する。
- ECom-RF-IMMRベンチマークにおいて，既存の最良手法と比較してRecall@1がそれぞれ6.1%と34.4%向上した。
Link: https://arxiv.org/abs/2605.18434
西洋楽譜における歴史的・手書き楽譜認識のためのデータセット [cs.CV]目的：歴史的・手書き楽譜認識システムの学習・評価用データセット
- 音楽文化遺産のデジタル化が進む中で，楽譜の機械可読化は重要である。
- 深層学習の進歩にもかかわらず，現実的な条件での学習データセットが不足していた。
- 記憶機関由来の楽譜コレクションを対象とした，大規模な学習データセットの提供。
- MusiCorpusデータセットは1,309ページの歴史的楽譜（主に手書き）を提供し，MusicXML形式の楽譜と記号アノテーションを含む。
- 本データセットは，現在までに存在する手書き楽譜のデータセットの中で最大規模であり，現実的なサンプルを提供することでOMRシステムの性能比較を可能にする。
- エンドツーエンド方式とオブジェクト検出ベースのOMRシステムの双方の学習・評価に適している。
Link: https://arxiv.org/abs/2605.18436
潜在的な視覚的推論を阻害する要因 [cs.CV, cs.AI, cs.CL, cs.LG]目的：潜在的な視覚的推論におけるモデルの活用状況の解明
- 人間は視覚問題を解決する際，言語だけではなく視覚的なシミュレーションを用いる。そのメカニズムをAIに実装することの重要性。
- 既存のVision-Languageモデルでは，中間段階として生成される潜在的な視覚トークンが，予測にほとんど影響を与えていないという問題。
- 潜在的な視覚的推論を有効にするための，データセットと潜在トークン予測の改善。
- モデルの精度は，潜在トークンを無情報な「ダミー」トークンに置き換えても変わらないことが判明。
- 既存のデータセットでは，潜在トークンが画像情報以上の有用な情報を提供せず，モデルが学習時に無視していることが示唆された。
- 診断データセットで学習させた場合，モデルは潜在トークンに因果的に依存できることが示された。推論時の潜在トークンが，理想的な表現から乖離していることも課題。
Link: https://arxiv.org/abs/2605.18445
変動する照明と姿勢不確実性下における近距離単眼画像からのNeRFベース宇宙機再構成 [cs.CV]目的：宇宙機の3次元モデル再構成
- 宇宙デブリ除去や軌道上サービス等の自律運用には，対象宇宙機の正確な3次元モデルが不可欠である。
- 宇宙空間の照明条件は変動が激しく，姿勢情報の誤差も大きいため，3次元再構成の精度が課題となる。
- 照明変動と姿勢誤差に強い，ロバストな3次元再構成手法を確立すること。
- NeRFに画像ごとの自由度（照明埋め込みと姿勢補正項）を導入することで，照明変動と姿勢誤差に対するロバスト性を向上させた。
- 3つの軌道上作戦を代表する画像セットを用いて検証し，オフライン再構成の有効性を実証した。
- オンライン再構成への適用可能性を示唆し，今後の課題解決に貢献する。
Link: https://arxiv.org/abs/2605.18447
コードとしての部屋：エージェントによるコード合成を通じてトップダウン画像から3D部屋を生成 [cs.CV, cs.GR]目的：3D部屋の生成
- インテリアデザイン，VR，ゲーム，具現化されたAIなど，広範な応用において不可欠な技術である。
- テキストベースの手法では空間情報の正確な把握が難しく，画像ベースのエージェントは不安定になりがちである。
- トップダウン画像から3D部屋を生成する際の安定性と精度を向上させることを目指す。
- 本研究では，3D部屋をBlenderコードで表現するエージェントフレームワーク「Code-as-Room」を提案する。
- 提案手法は，トップダウン画像を解析し，要素と空間関係を抽出し，幾何学，材質，照明の実行可能なBlenderコードを生成する。
- クロスステージメモリモジュールにより，既存のエージェントベースフレームワークにおけるコンテキストの忘却を軽減し，効果を検証した。
Link: https://arxiv.org/abs/2605.18451
PERL：CLIP潜在空間におけるパラメータ効率的な推論 [cs.CL, eess.SY, cs.SY, cs.CV]目的：CLIP潜在空間におけるパラメータ効率的な推論手法の開発
- 画像とテキストを共通の埋め込み空間に整合させることで，強力なゼロショット転移学習を可能にする。
- 既存のパラメータ効率適応手法では，汎化性能を維持しつつ下流タスクへの適応が難しい。
- 潜在表現に対する反復的な推論を通じて，パラメータ数を増やさずに適応を実現することを目指す。
- PERLは，凍結されたCLIPモデルに軽量な推論モジュールを追加し，反復的な洗練ステップを適用することで適応を行う。
- PERLは，15のベンチマークにおいて，パラメータと性能のトレードオフにおいて比較対象手法を上回る結果を示した。
- わずか約6Kの学習可能なパラメータで，強力な新規クラス精度と競争力のある転移性能を達成した。
Link: https://arxiv.org/abs/2605.18464
リアルタイムMRIにおける音声誘導マルチモーダル学習による声道セグメンテーション [cs.CV]目的：リアルタイムMRI画像における声道セグメンテーションの精度向上
- 音声研究や臨床応用において，声道形状の正確な把握は重要である。
- リアルタイムMRI画像は低コントラスト，高速運動，空間解像度の制約がある。
- 音声情報とMRI画像の融合による，ロバストな声道セグメンテーションの実現。
- 提案手法は，音声および音韻情報を活用し，声道部位の局在化を支援する空間バウンディングボックスを生成する。
- 視覚情報と音声情報を，二重レベルのコントラスト学習により統合し，単一モダリティでの推論に活用する。
- 75-Speaker~Annot-16およびUSC-TIMITデータセットにおいて，既存手法を凌駕する性能を達成した。
Link: https://arxiv.org/abs/2605.18466
命令誘導によるオーディオ・ビデオ同時編集 [cs.CV]目的：命令に基づいたオーディオとビデオの同時編集手法
- 動画コンテンツ操作技術は近年目覚ましい進歩を遂げており，様々な応用が期待されている。
- 既存手法は，編集された動画と音声の間の不整合が課題であり，自然なコンテンツ生成が困難である。
- 本研究は，動画と音声を同時に編集することで，より自然で整合性の高い動画コンテンツ生成を目指す。
- 本手法は，高品質なオーディオ・ビデオ編集データセットInsAVE-80Kを新たに構築し，大規模なデータに基づいた学習を実現した。
- 提案手法InstructAV2AVは，命令への追従性とコンテンツの保持を向上させるためのゲート付き注意機構を導入した。
- 複数の評価指標において，既存手法を上回り，制御可能なコンテンツ生成の可能性を示した。
Link: https://arxiv.org/abs/2605.18467
自己教師あり学習の事前学習の，同一および異なるモダリティのセグメンテーションタスクへの転移可能性のベンチマーク [cs.CL, cs.IR, cs.CV]目的：自己教師あり学習による事前学習の転移可能性の評価
- 医療画像解析において，高品質なセグメンテーションは診断や治療計画に不可欠であり，その精度向上は重要な課題である。
- ラベル付きデータの取得はコストと時間がかかるため，ラベルなしデータを用いた事前学習による性能向上が求められている。
- 限られたアノテーション予算下でのセグメンテーション性能を最大化するため，最適な事前学習手法を特定する。
- 自己蒸留マスク画像トランスフォーマー（SMIT）が，9つのタスク全体で最高のセグメンテーション精度，最速のファインチューニング収束，最小の少量ショットから大量ショットの性能ギャップを示した。
- SMITは，少量ショットと大量ショットのファインチューニング間で最も一貫した特徴再利用パターンを示した。
- マスク画像モデリング（MIM）ベースのSimMIMや自己蒸留法（DINO，iBOT）は，画像レベルのグローバル表現に依存するコントラスト学習や回転予測よりも優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.18491
4Dレーダーシーンフロー推定のための弱教師ありクロスモーダル学習 [cs.CL, cs.NI, cs.CL, cs.CV]目的：4Dレーダーシーンフロー推定
- 自動運転やロボティクスにおいて，周囲環境の正確な理解は不可欠である。
- 4Dレーダーシーンフロー推定の学習データ取得は困難であり，既存手法は制約が多い。
- 画像とオドメトリのみを用いて，より効率的なレーダーシーンフロー推定を目指す。
- 提案手法は，既存のクロスモーダル学習アプローチよりも優れた性能をVoDデータセットで示した。
- 2Dトラッキングとセグメンテーションを活用した自己教師あり損失が，シーンフロー推定の精度向上に貢献した。
- 車両のオドメトリとレーダーの固有モーション情報に基づく剛体静止損失が有効であることが示された。
Link: https://arxiv.org/abs/2605.18507
形態学を超えて：がん分類における色の特徴の診断能力の定量化 [cs.CL, cs.DC, eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的：がん分類における色の特徴の診断能力
- 病理診断において，色の情報は重要な役割を担う。診断精度向上への貢献が期待される。
- 機械学習モデルは色情報を構造情報と分離して処理するため，色の診断能力が不明確である。
- 構造情報を用いずに，色の特徴のみでがん分類が可能か検証する。
- 色の特徴のみでも，良性・悪性の二値分類において最大89%の精度を達成した。
- この高い性能は，悪性腫瘍に伴う全体的な色変化に起因すると考えられる。
- 単純な色特徴は，効率的な事前スクリーニングツールとして機能する可能性がある。
Link: https://arxiv.org/abs/2605.18522
LESSViT：スペクトル構成の変化下におけるロバストなハイパースペクトル表現学習 [cs.CV]目的：ハイパースペクトル画像のクロスセンサー汎化
- ハイパースペクトル画像は多様な分野で利用され，その応用範囲は拡大している。
- センサーの違いによるスペクトル構成の変動が，モデルの汎化性能を低下させる。
- スペクトル構成の変化にロバストな表現学習手法を確立し，センサー間の互換性を高める。
- 提案手法LESSViTは，低ランク分解を用いた効率的な空間-スペクトルアテンション機構を採用している。
- これにより，計算コストを削減しつつ，空間・スペクトル情報を効果的にモデル化することを可能にした。
- SpectralEarthベンチマークにおける実験により，LESSViTがスペクトルシフトに対して高いロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2605.18541
安定手: エゴ視点動画からのワールド空間における双手モーション推定のための品質を意識したフローマッチング [cs.CV, cs.AI]目的：エゴ視点動画からワールド空間における双手モーションの推定
- ロボットのポリシー学習を監督する上で，人間の手のように自然な動きを再現することは重要である。
- 頭部の動きや物体との接触による遮蔽により，手の動きが一時的にカメラから見えなくなることがある。
- 推定される手の動きの品質を考慮することで，推定精度を向上させる。
- 提案手法StableHandは，手の動きの品質を示す4つのチャネル（手首の位置と指の関節角度）を利用する。
- 品質を考慮したフローマッチングにより，信頼性の高い観察データを維持しつつ，信頼性の低いデータを学習済みのモーション事前知識に基づいて再構築する。
- HOT3DとARCTICという2つのベンチマークデータセットにおいて，既存手法を大きく上回り，特に遮蔽されたARCTICデータセットで顕著な性能向上を示した。
Link: https://arxiv.org/abs/2605.18553
OmniPro：包括的なオムニ・プロアクティブストリーミングビデオ理解ベンチマーク [cs.CV]目的：オムニ・プロアクティブストリーミングビデオ理解の評価
- マルチモーダル大規模言語モデルの能力向上に不可欠であり，実世界への応用が期待される。
- 既存のベンチマークは，視覚情報への依存度が高く，プロアクティブな評価が不十分である。
- 多様なタスクと認知レベルを網羅し，信頼性の高い評価を可能にするベンチマークの提供。
- OmniProは，マルチモーダル知覚，プロアクティブな応答，多様なビデオ理解タスクを評価する初のベンチマークである。
- 評価の結果，音声情報は一貫して性能向上に貢献するものの，モデルによって利用率にばらつきが見られた。
- 時間経過とともに性能が低下する傾向があり，長期的なロバスト性に課題があることが示唆された。
Link: https://arxiv.org/abs/2605.18577
意味・空間的デカップリングによるフィードフォワード新規視点合成Transformerの表現曖昧性解消 [cs.CV]目的：フィードフォワード新規視点合成Transformerにおける表現曖昧性の解消
- 近年，Transformerが新規視点合成の性能向上に貢献している。
- 既存手法では，意味情報と空間情報を混合するため，空間バイアスが表現の精度を低下させる。
- 意味情報と空間情報を分離し，相互作用を保つことで，表現の質を改善することを目指す。
- 意味情報と空間情報を分離した設計により，既存モデルに対して一貫した性能向上が確認された。
- 提案手法は，デコーダー専用およびエンコーダー・デコーダー型モデルの両方で有効であることが示された。
- アーキテクチャ設計により，推論時の遅延はほぼ発生しない。
Link: https://arxiv.org/abs/2605.18599
呪文：マルチエンティティビデオワールドモデルのアクションインターフェースとしての自然言語 [cs.CV]目的：マルチエンティティビデオワールドモデルにおけるファインチューンな制御と，エンティティやワールドを跨いだ汎化能力の向上
- ビデオワールドモデルは視覚的な忠実度が高いが，複雑な制御と汎化能力に課題がある。
- 既存のアクションインターフェースは，アクションの意味を特定のエンティティやエンジンに固定してしまう。
- 自然言語インターフェースを用いて，より表現力豊かで汎用的な制御を実現する。
- 自然言語による条件付けを導入したインタラクティブなビデオワールドモデル「Incantation」を提案した。
- エンティティを跨いだ転移学習において，Action-Indexベースラインを大幅に上回る性能を示した。
- 自己強制蒸留とRoPEデカップルドスライディングKVキャッシュにより，リアルタイムかつ安定した長時間の推論を実現した。
Link: https://arxiv.org/abs/2605.18601
知覚を飢餓状態にする：制約された視覚帯域幅によるVLMにおける怠惰な知覚の抑制 [cs.CV]目的：VLMにおける活動的知覚の学習
- 高解像度環境下でVLMが状況認識エージェントとして機能するには，能動的な知覚が不可欠である。
- 既存の学習方法では，モデルが操作の出力に機能的に依存せず，表面的に模倣する「怠惰な知覚」が生じやすい。
- 視覚帯域幅を制約することで，活動的知覚を唯一の有効な戦略とする学習方法を提案する。
- 提案手法「Starve to Perceive」は，追加損失や報酬形成，アーキテクチャ変更を必要とせず，既存の学習パイプラインに容易に組み込める。
- この手法により，多様なベンチマークにおいて平均5%の相対的な性能向上が確認された。
- モデルは，限られた視覚情報のみでタスクを達成する必要に迫られ，能動的に視覚情報を探索することを学習する。
Link: https://arxiv.org/abs/2605.18603
シフト間のダンス：動的スタイルブリッジングによる前方促進継続テスト時適応 [cs.CV]目的：継続テスト時適応における前方促進パラダイムの提案
- 実世界での認識システムは，展開後に分布シフトに直面する。その適応能力が重要である。
- 既存手法は後方整合に依存し，信頼性の低い教師信号や変化するシフトへの対応が課題である。
- 生成バイアスを軽減し，信頼性の高い教師信号により，安定した適応を実現することを目指す。
- 動的スタイルブリッジングは，入力，統計，表現レベルでスタイルを注入し，プロキシの忠実性を高める。
- 生成されたクラスの例を知識ベースとして活用し，オンデマンドな教師信号を提供する。
- 標準的なCTTAベンチマークにおいて，最先端手法を大きく上回る一貫した改善を達成した。
Link: https://arxiv.org/abs/2605.18608
CATA：対立回避タスク算術による継続的な機械的アンラーニング [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおける継続的な機械的アンラーニング
- 視覚言語モデルの応用範囲拡大に伴い，プライバシーや著作権の問題が重要視されている。
- 既存研究は単発アンラーニングに偏っており，時間経過に伴う逐次的な削除要求への対応が課題である。
- 逐次更新下での知識除去，モデル汎用性維持，および知識の再出現防止を同時に解決する。
- CATAは，各削除要求をアンラーニングタスクベクトルとして表現することで，対立回避タスク算術を実現する。
- 過去のタスクベクトルを保持し，符号を考慮した対立回避集約を行うことで，以前の忘却効果を弱める競合成分を抑制する。
- 単発および継続的な設定の両方で実験を行い，CATAが忘却効果，モデルの忠実度，忘却の持続性の点で既存手法を上回ることを示す。
Link: https://arxiv.org/abs/2605.18610
SAME：意味的に整合された音楽自動符号化器 [cs.RO, cs.AR, cs.SD, cs.AI]目的：音楽及び一般的な音声の効率的な潜在表現の獲得
- 近年の生成モデルにおいて，潜在表現は重要な役割を担うため，その質の向上が不可欠である。
- 既存の音声符号化器は，高い圧縮率と音質の維持を両立することが課題であった。
- 高い圧縮率を維持しつつ，音質の劣化を最小限に抑え，生成性能を向上させることを目指す。
- 本研究で開発したSAMEは，4096倍の時系列圧縮率を実現しつつ，再構成品質と生成性能を維持している。
- Transformerベースのバックボーンと意味的正則化，位相を考慮した再構成損失，改良された識別器を組み合わせることでこれを達成した。
- 大規模モデル（SAME-L）とCPU展開可能なモデル（SAME-S）をオープンウェイトで公開する。
Link: https://arxiv.org/abs/2605.18613
ManiSoft：ソフトコンティニュアムロボティクスにおけるビジョン言語操作へ向けて [cs.RO, cs.AI, cs.CV]目的：ソフトロボットアームを用いたビジョン言語操作のためのベンチマーク環境
- ロボットの柔軟性向上は，複雑な環境下での適応能力を高め，多様な作業への応用を可能にする。
- 従来のビジョン言語操作研究は剛体ロボットに偏っており，狭い空間や複雑な環境への適用が課題である。
- ソフトロボットの持つ変形可能性を活かした，より柔軟な操作手法の確立を目指す。
- ManiSoftは，ソフトボディのリアルな挙動と接触を考慮したシミュレータを搭載したベンチマーク環境である。
- 多様なシーンと専門家の軌跡データが6,300個生成され，強化学習によるポリシー学習を支援する。
- 実験結果から，ランダム化された環境下では性能が低下し，視覚的推定の精度と変形能力の活用が課題であることが示された。
Link: https://arxiv.org/abs/2605.18617
CrossView Suite：MLLMのクロスビュー空間知能を活用するためのデータセット，モデル，ベンチマーク [cs.CV, cs.AI]目的：MLLMにおけるクロスビュー空間推論能力の向上
- 現実世界の知能には，単一視点だけでなく，多視点からの空間認識が不可欠である。
- 大規模なクロスビューデータセットの不足，評価ベンチマークの欠如，視点間の一貫性確保の難しさ。
- クロスビュー空間推論を可能にするためのデータセット，ベンチマーク，およびモデルの開発。
- 大規模なクロスビューデータセットCrossViewSetを構築し，17種類のタスクで160万サンプルを網羅した。
- MLLMのクロスビュー空間理解能力を評価するための，シーンが分離されたCrossViewBenchを構築した。
- 知覚・アライメント・推論の段階的フレームワークCrossViewerを提案し，MLLMの空間推論能力を向上させた。
Link: https://arxiv.org/abs/2605.18621
障害時における地域接続のためのメカニズム設計 [cs.GT]目的：地域間の経路接続メカニズムの設計
- 災害や工事などにより地域が分断される状況は，社会経済活動に大きな影響を与えるため，その対策が重要である。
- 既存の手法では，個々のエージェントの私的な位置情報を考慮した最適な経路設計が困難であるという課題がある。
- エージェントの真実な位置情報を引き出し，経路建設地点を決定することで，社会全体の費用を最小化することを目指す。
- 本研究では，戦略的操作耐性を持つメカニズムの特性を明らかにした。
- 社会的な費用および最大費用を最適化する戦略的操作耐性メカニズムのアプローチ率の上界と下界を提示した。
- 匿名性も考慮したメカニズム設計の条件を明確にした。
Link: https://arxiv.org/abs/2605.18626
SPIKE：費用対効果の高い長期的ゲームエージェントのための適応型デュアルコントローラーフレームワーク [cs.CV]目的：費用対効果の高い長期的ゲーム制御
- オープンワールドゲームでは，エージェントが多くの低レベルな相互作用を通じて目標指向を維持する必要がある。
- 既存手法は，高コストなステップごとの推論と，ドリフトや失敗を繰り返しやすい反応的な実行のトレードオフに陥りやすい。
- 戦略的推論を局所的に安定したセグメントで再利用し，イベント境界で再起動することで問題を解決する。
- SPIKEは，StarDojoのLite-100分割において，最も強力なベースラインと比較して成功率を5.0%向上させた。
- 予算制約下での成功率も9.3%向上し，トークン消費量と遅延をそれぞれ54.9%と40.8%削減した。
- イベントトリガー，反応的オーバーライド，異種メモリが成功と回復に貢献することが示され，ステップごとの推論ではなく選択的な推論の有効性が示された。
Link: https://arxiv.org/abs/2605.18636
沈黙における潜在的な視覚的推論の活用 [cs.CV]目的：潜在的な視覚的推論の効果の評価と改善
- マルチモーダル推論において，視覚情報の活用は重要な課題であり，その性能向上は様々な応用を可能とする。
- 潜在的な視覚的推論では，推論時に潜在トークンが必要かどうか不明確であり，その有効性に疑問が残されていた。
- 潜在トークンの学習指針としての役割を評価し，より効果的な活用方法を模索すること。
- 潜在トークンをランダムノイズや削除しても性能低下が少なく，潜在的な視覚的推論の有用性に対する疑問が生じた。
- 潜在トークンが生成される頻度が少なくなる中でも，提案手法は視覚的推論のベンチマークにおいて性能を向上させた。
- 潜在トークンとテキストトークン間の相互作用を促す報酬関数によって，潜在的な視覚的推論の活用を改善した。
Link: https://arxiv.org/abs/2605.18641
Primeにおける関節表現：単一のカジュアルビデオからの原始要素に基づく関節物体の理解 [cs.CV]目的：単一ビデオからの関節物体の3次元運動学的復元
- コンピュータビジョンにおいて，関節物体の3次元運動を理解することは重要な課題である。
- 既存手法は，閉塞やカメラの動き，特徴点の弱さに弱く，汎化性能に課題がある。
- 本研究は，原始要素を用いた新しいフレームワークにより，これらの課題を解決することを目指す。
- 本研究では，幾何学的原始要素を代理表現として利用することで，不安定な点追跡の問題を回避している。
- 提案手法は，分割と関節パラメータを同時に最適化し，複雑な運動を単一のビデオから復元する。
- AiP-synthおよびAiP-realベンチマークで既存手法を上回り，カメラの動きや閉塞に対するロバスト性を示す。
Link: https://arxiv.org/abs/2605.18645
メントモGUI：長期的なGUIエージェントのための能動的マルチモーダルメモリ制御の学習 [cs.CV]目的：GUI環境における長期タスク遂行のための，能動的なメモリ制御フレームワーク
- GUI自動化は，人間のコンピュータ利用を効率化する上で重要であり，その性能向上は社会に大きな利益をもたらす。
- 既存のGUIエージェントは，長期タスクにおいて状態の維持が難しく，脆弱性を示すことが多い。
- 本研究では，タスク関連情報を選択的に保存・検索するメモリ制御により，長期タスクの成功率向上を目指す。
- メントモGUIは，既存手法と比較して，GUI-Odyssey，MM-Mind2Web，メントモGUI-Benchといったベンチマークにおいて，一貫して性能向上を示した。
- メントモGUIは，不要な情報を削減し，タスクに必要な視覚的証拠とテキスト要約を効率的に保存することで，長期的なGUI制御を可能にする。
- メントモCoreは，メモリ制御をステップ処理，圧縮，書き込み，選択といった専門的なオペレーターに分割し，GUIエージェントの微調整なしにメモリ拡張を可能にする。
Link: https://arxiv.org/abs/2605.18652
地球埋め込みモデルの相補性の評価 [cs.CV, cs.LG]目的：地球埋め込みモデルの相補性
- 地球観測データ活用において，位置情報と特徴量を結びつける埋め込み表現が重要である。
- 既存研究では，個々の埋め込みモデルを独立して評価するため，モデル間の相乗効果が見過ごされがちである。
- 複数のモデルを組み合わせることで，より高精度な予測が可能になるか検証する。
- 融合された埋め込み表現は，単一の最良モデルと比較して，6つの下流タスクのうち4つで優れた性能を示した。
- 単一の埋め込み表現のみを評価する方法では，地球埋め込みモデルの能力を過小評価する可能性があることが示唆された。
- 相補性はタスクと位置に依存し，土地被覆回帰タスクでは土地被覆クラスの空間スケールによって左右されることがわかった。
Link: https://arxiv.org/abs/2605.18667
Lance：マルチタスク相乗効果による統一マルチモーダルモデリング [cs.CV, cs.AI]目的：マルチモーダルな理解，生成，編集を可能にする統一モデル
- 画像や動画といった多様なデータを統合的に扱うことが重要になっている。
- 既存モデルは，規模の拡大やテキスト・画像への偏りが課題となっていた。
- マルチタスク学習を通じて，効率的なマルチモーダルモデリングを目指す。
- Lanceは，既存のオープンソース統一モデルを画像および動画生成において大幅に上回る性能を示す。
- 統一されたコンテキストモデリングと分離された機能経路により，理解と生成の両方を実現。
- モダリティを意識したロータリー位置エンコーディングが，タスク間の整合性を向上させている。
Link: https://arxiv.org/abs/2605.18678
CMAG：マーケットプレイスアバター生成のための概念的骨格を用いた検索 [cs.CV]目的：マーケットプレイスにおけるアバター生成のための概念的骨格を用いた検索フレームワーク
- メタバースは新たなコミュニケーション空間として重要性が増しており，アバターはその表現の根幹をなす。
- テキスト検索のみでは，曖昧な自然言語や不正確なメタデータ，部品間の不整合などの課題が存在する。
- テキストの曖昧性を解消し，一貫性のあるアバター生成を実現するための新たな手法を開発する。
- CMAGは，テキストプロンプトから3D概念的骨格を生成し，意図を明確化することで検索精度を向上させる。
- 部品の発見と分類において，プロンプト分解とテキストに基づいたセグメンテーションを活用し，視覚的根拠に基づいた検索を行う。
- 検証エージェントによる反復的な検証ループを通じて，プロンプトに忠実で，かつ形状的に整合性の取れたアバターを生成する。
Link: https://arxiv.org/abs/2605.18680
ファインチューン画像認識における学習・評価設定の精度とコストのトレードオフに関する大規模研究 [cs.HC, cs.CV]目的：ファインチューン画像認識における学習・評価設定の精度とコストのトレードオフの分析
- 画像認識技術は，多様な応用分野において不可欠であり，その精度向上は重要課題である。
- ファインチューン画像認識では，バックボーンの選択が重視されてきたが，学習・評価設定による影響は軽視されてきた。
- 学習・評価設定のトレードオフを明らかにし，高精度かつ低コストなファインチューン画像認識手法を確立すること。
- データ拡張はファインチューン学習において有効であり，特にカウンターファクチュアルアテンション学習(CAL)にクロスイメージの識別領域混合拡張を組み込むことで性能が向上した。
- CALと同様の手法で通常行う識別領域のフォワードパスを省略する効率的な評価手法を提案し，推論コストを削減しつつ高い精度を維持できることを示した。
- データに基づいた拡張のみで，クロップを使用せずに高い精度を実現し，推論コストを大幅に削減できることを実証した。
Link: https://arxiv.org/abs/2605.18700
統一マルチモーダルモデルのための意味的生成チューニング [cs.DC, cs.DC, cs.CV, cs.AI]目的：マルチモーダルモデルにおける理解と生成の能力の統合
- 画像理解と生成を統合することで，より高度なAIシステムの実現が期待される。
- 既存手法では，理解と生成の学習が分離しており，両者の連携が不十分である。
- 意味的生成チューニングにより，理解と生成の能力を協調的に向上させることを目指す。
- 意味的生成チューニングは，画像セグメンテーションを生成的なプロキシとして活用する。
- セグメンテーションは，テクスチャの詳細に惑わされず，構造的意味を捉え，理解と生成の両方を向上させる。
- 実験結果から，本手法は主要なベンチマークにおいて，マルチモーダル理解と生成精度を向上させることが示された。
Link: https://arxiv.org/abs/2605.18714