arXiv雑要約

画像・音声 - 2026/05/12 公開

わずかなステップで十分：学習不要のID保持型生成の高速化 [cs.CV, cs.AI]目的：ID保持型画像生成における効率と忠実度のトレードオフ改善戦略
- 近年，個別化された画像生成の需要が高まっており，ID保持型生成技術が重要性を増している。
- ID保持型画像生成は，多くの場合，多数のステップを必要とする拡散モデルに依存しており，計算コストが高いという課題がある。
- 本研究は，学習を必要としないバックボーンの置換により，ID保持型生成の効率を向上させることを目指す。
- ID適応アダプターを組み込むことで，推論時間を5.9倍に短縮しつつ，ID類似度と知覚品質を向上させることが示された。
- ノイズ除去軌跡の分析から，IDの忠実度は初期段階で確立され，その後のステップは主に視覚的詳細の微調整に貢献することが明らかになった。
- スタイルアダプターやオブジェクトアダプターを用いた実験からも，同様の傾向が確認され，バックボーン置換の有効性が示唆された。
Link: https://arxiv.org/abs/2605.09460
外れ値に頑健な逆問題に対する拡散ソルバー [cs.CV, cs.AI]目的：逆問題における外れ値への頑健性の向上
- 現実の計測データにはノイズや外れ値が含まれることが多く，高精度な復元が課題となる。
- 拡散モデルに基づく手法は強力だが，外れ値に対しては性能が低下しやすい。
- 外れ値を含む逆問題をロバストに解くための新しい手法を開発すること。
- まず，明示的なノイズ推定により計測データを修正し，外れ値の影響を軽減する。
- 次に，Huber損失に基づく反復重み付き最小二乗法を導入し，外れ値に頑健な目的関数を構築する。
- 共役勾配法を用いて最適化問題を効率的に解くことで，高い復元性能と外れ値への耐性を示す。
Link: https://arxiv.org/abs/2605.09477
拡散モデルにおけるチャネル順序再構成によるグループ量子化誤差の低減: PermuQuant [cs.CV]目的：拡散モデルの低ビット量子化における量子化誤差の低減
- 大規模な画像生成モデルは性能が向上しているが，計算資源やメモリ消費量が大きい。
- 既存の量子化手法では，極端に低ビット化した場合に画質の劣化が激しい。
- チャネル順序を最適化することで，グループ量子化時の誤差を抑制し，低ビット化時の画質劣化を軽減する。
- PermuQuantは，チャネルを活性化と重みの統計量に基づいてソートし，類似した統計量のチャネルを同じグループに配置する。
- キャリブレーションデータを用いた検証により，量子化誤差が低減される場合にのみ再構成を適用することで，計算コストを削減する。
- 実験により，PermuQuantは既存の量子化手法と比較して，一貫して量子化誤差を低減し，処理速度の向上とメモリフットプリントの削減に貢献することが示された。
Link: https://arxiv.org/abs/2605.09503
ビデオ要約のための不確実性認識およびデコーダ整合学習 [cs.CV]目的：ビデオ要約の精度向上
- 動画コンテンツの増加に伴い，効率的な要約技術の重要性が高まっている。
- アノテーションの主観性や離散的なデコーディング手順が，要約の品質を阻害する要因となっている。
- 不確実性を考慮し，デコーディング段階との整合性を高めることで，よりロバストな要約を目指す。
- 提案手法VASTSumは，フレームレベルの重要度スコアを確率的に予測することで，アノテーションのばらつきを明示的にモデル化する。
- バイナリアノテーションにおける主観性を考慮し，単一の合意目標を課すのではなく，妥当なアノテーションモードとの整合性を促す。
- ナップサックベースの要約選択の安定性を高めるデコーダ整合正則化を導入し，予測スコアのわずかな変動に対する感度を低減する。
Link: https://arxiv.org/abs/2605.09507
QueST：長期的トラッキングにおけるドリフト抑制のためのセマンティックモニタとしての持続的クエリ [cs.CV, cs.RO]目的：長期的トラッキングにおけるセマンティックドリフト抑制
- 動画中の点追跡は，ロボット工学やコンピュータビジョンにおいて重要な課題である。
- 関節，オクルージョン，視点変化により誤差が蓄積し，セマンティックドリフトが発生しやすい。
- セマンティックモニタを組み込むことで，ドリフトを抑制し，より信頼性の高い追跡を目指す。
- QueSTは，追跡対象を一時的な点ではなく，持続的なセマンティッククエリとして扱う新しいフレームワークである。
- 各クエリは，空間時間的な特徴量をグローバルに参照することで，時間的なセマンティックアンカーを提供する。
- PartNet-Mobilityデータセットにおいて，既存手法と比較して，平均絶対点誤差（APE）を大幅に改善した。
Link: https://arxiv.org/abs/2605.09513
PhysHanDI：物理ベースの手と変形可能物体のインタラクション再構成 [cs.RO, cs.CV, cs.AI, cs.RO]目的：手と変形可能物体のインタラクションの3次元再構成
- 現実世界のインタラクションを理解する上で，手の動きと物体の変形を正確に捉えることが重要である。
- 既存手法では，変形可能な物体の複雑な挙動を捉えきれていない，もしくは手と物体の同時再構成が困難である。
- 物理シミュレーションを用いて，手と変形可能物体のインタラクションを物理的に整合性の高い形で再構成することを目指す。
- PhysHanDIは，手の3次元モーションに基づいた物理シミュレーションにより，変形可能物体の挙動を再構成する。
- このシミュレーションは，手の動きと整合性があり，物理的に妥当な物体の変形を実現する。
- 実験結果から，PhysHanDIは既存手法よりも再構成と将来予測の精度で優れていることが示された。
Link: https://arxiv.org/abs/2605.09538
コンパクトな手話翻訳：フレームレートとモデルサイズのトレードオフ [cs.HC, cs.CC, cs.CL, cs.CV]目的：手話翻訳の効率化
- 聴覚障害者と健聴者のコミュニケーションを円滑にするために，手話翻訳技術の重要性が高まっている。
- 既存の手話翻訳モデルは大規模であり，実用的な展開が困難であるという課題がある。
- 軽量なモデルアーキテクチャを用いて，実用性と性能を両立することを目指す。
- フレームレートを12fpsに下げることで，系列長の半分化と計算量の削減を実現した。
- BLEU-4スコアの低下は軽微であり，24fpsと比較して9.53から10.06への差に留まった。
- 本システムは従来のT5-baseシステムと比較して約3分の1のサイズで，遜色ない性能を維持する。
Link: https://arxiv.org/abs/2605.09554
画像圧縮センシングのための双経路ハイパー事前情報に基づく深層アンフォールディングネットワーク [cs.CV]目的：画像圧縮センシングにおける再構成性能の向上
- 画像センシング技術は，医療，セキュリティ，環境モニタリングなど，広範な分野で不可欠である。
- 既存の圧縮センシング法は，測定データの相互作用が不十分で，画像領域の再構成難易度の違いに対応できていない。
- 双経路アーキテクチャとハイパー事前情報を導入し，効率的な再構成と高精度な画像復元を実現すること。
- 提案手法DPH-DUNは，測定データを二つのサブセットに分割し，ハイパー事前情報に基づく再構成を可能にする。
- 深層ハイパー事前情報学習ブランチでは，軽量なニューラルモジュールにより，様々なドメインのハイパー事前情報を効率的に生成する。
- 実験結果から，提案手法が既存の圧縮センシング法よりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.09566
手話表記から視覚へ？手話表記を用いたマルチスケールシーケンスベースのポーズアニメーションのためのKolmogorov-Arnoldネットワークの探求 [cs.CV, cs.AI, cs.MM]目的：手話表記から二次元人体ポーズシーケンスへの変換
- 手話は聴覚障害者にとって重要なコミュニケーション手段であり，その視覚化技術の発展が求められている。
- 既存の手話アニメーション生成方法は，データ量や計算コストが課題であり，効率的な手法が求められている。
- 手話表記から高精度かつ効率的にポーズアニメーションを生成する手法を開発し，アクセシビリティ向上に貢献する。
- 提案手法KANMultiSignは，HamNoSys表記から二次元人体ポーズシーケンスを生成するマルチスケールシーケンス生成器である。
- 粗から細かい生成戦略とKolmogorov-Arnoldネットワークモジュールを導入することで，少ないパラメータで高い精度を実現した。
- ポーランド語，ドイツ語，ギリシャ語，フランス語の手話コーパスを用いた実験で，既存手法と比較して動的時間伸縮法に基づく関節誤差を低減した。
Link: https://arxiv.org/abs/2605.09572
イベントベースビジョンにおけるコントラスト最大化のためのFPGAベースハードウェアアーキテクチャ [cs.CV]目的：イベントベースビジョンシステムにおけるコントラスト最大化アルゴリズムのハードウェア実装
- 高速かつ低消費電力な画像処理が求められる組み込みシステムへの応用が期待される分野である。
- 従来のフレームベースのカメラでは，高速な動きの捉え方や消費電力に課題があった。
- イベントベースカメラの特性を生かし，リアルタイムな動き推定を実現するハードウェア基盤を構築する。
- 提案手法は，CPUおよびGPU実装と比較して，200倍以上の高速化を実現した。
- FPGAのパイプライン構造を活用することで，高スループットかつエネルギー効率の高い処理を実現した。
- イベントベースオブジェクト追跡アプリケーションにおける検証により，リアルタイム動作の有効性が確認された。
Link: https://arxiv.org/abs/2605.09581
変形マスター：ビデオからの変形物体のインタラクティブな物理・ニューラルワールドモデル [cs.CV, cs.RO]目的：変形物体の物理的ダイナミクス，相互作用，材質挙動の再現
- 変形物体の理解は，ロボット工学やコンピュータグラフィックスなど広範な分野で重要である。
- 現実のビデオデータからの学習は，高次元な変形，ノイズ，複雑な材質応答により困難である。
- 本研究は，ビデオからインタラクティブな変形物体モデルを構築し，現実的なダイナミクスを再現することを目指す。
- DeformMasterは，現実の相互作用ビデオからオンラインで変形物体のインタラクティブモデルを構築できる。
- 物理的な状態を予測し，新しい相互作用下で展開し，高精度な外観をレンダリングする。
- 実験により，DeformMasterが最先端手法を上回り，新しいアクションや材質パラメータ変化に対応できることが示された。
Link: https://arxiv.org/abs/2605.09586
二値およびペアワイズフィードバックからの効率的なアンサンブル選択 [cs.GT, cs.AI, cs.LG]目的：AIシステムのアンサンブル選択手法
- 多様なタスクにおいてAIシステム活用が拡大。最適なアンサンブル選択は重要。
- アンサンブル選択にはコストがかかる。モデル呼び出し，ベンチマーク，人的評価等。
- 二値/ペアワイズフィードバックに基づく効率的な選択手法を提案し，コスト削減を目指す。
- 二値フィードバック設定において，既存手法と同等の性能保証を持つ貪欲法を提案。
- ペアワイズフィードバック設定では，部分情報最適化の計算困難性を示す。
- 重み付き序数カバレッジ緩和法と，それを基にした貪欲法を提案し，実験で有効性を示した。
Link: https://arxiv.org/abs/2605.09588
ピクセルから概念へ：セグメンテーションモデルは，セグメント化しているものを理解しているか？ [cs.CV]目的：プロンプタブルセグメンテーションモデルにおける概念に基づいた忠実なセグメンテーションの評価
- セグメンテーションは様々な応用分野の基礎となる重要な画像処理技術である。
- 既存の評価基準はマスクの精度に偏っており，モデルが概念を忠実に捉えているか不明確である。
- モデルが視覚的な手がかりに頼らず，概念に基づいたセグメンテーションを行えるかを検証する。
- CAFEベンチマークを導入し，属性レベルの反実仮想操作を通じてセグメンテーションモデルの概念忠実性を評価した。
- 実験の結果，モデルは誤解を招くプロンプトに対しても正確なマスクを生成することが多く，マスク精度と概念識別には乖離が見られた。
- CAFEベンチマークは，セグメンテーションモデルが概念に基づいたセグメンテーションを行っているか，あるいは単なるショートカットを利用しているかを診断するのに役立つ。
Link: https://arxiv.org/abs/2605.09591
SoccerLens：正確性を超えたグラウンデッドサッカー動画理解 [cs.SI, q-bio.QM, cs.CV]目的：サッカー動画のグラウンデッド理解のためのベンチマーク
- スポーツ解析における映像技術の重要性が高まっており，高度な理解が求められている。
- 既存の評価方法は分類精度に偏っており，モデルが映像の根拠に基づいているか評価できない。
- モデルの視覚的注意がアノテーションされた手がかりと一致するかを評価する新しい指標を提案する。
- SoccerLensベンチマークは，13種類のサッカーイベントのアノテーション付き動画セグメントを提供する。
- 最先端のサッカーVLMは，高い分類精度を示しつつも，グラウンデッド性能は50%を超えない。
- 予測性能と真の視覚的グラウンディングの間には大きな乖離が存在することが示された。
Link: https://arxiv.org/abs/2605.09598
予測市場におけるオンライン学習を通じた適応的流動性 [cs.GT]目的：予測市場における適応的流動性の実現
- 市場の効率的な価格形成には，取引量である流動性が不可欠である。
- 従来の流動性メカニズムは固定されており，変化する市場状況に対応できない。
- 本研究は，オンライン学習を用いて流動性を動的に調整する手法を提案する。
- 提案メカニズムは，複数のコスト関数市場を学習可能な重みで混合し，無裁定性，損失の上限，表現力，潜在的な利益を維持する適応的市場を実現する。
- 価格への影響と在庫リスクのバランスを示すハイブリッド構造リスク信号を導入し，オンライン学習アルゴリズムによる後視的な最適な流動性体制へのスイッチング後悔保証を示す。
- シミュレーションにより，メカニズムが注文フローと在庫動向に応じて流動性を適応的に変化させることが確認された。
Link: https://arxiv.org/abs/2605.09599
ドップラー認識点ネットワーク：異種ミリ波行動認識 [cs.CL, cs.CV]目的：異種ミリ波環境下における行動認識手法の開発
- ミリ波レーダーはプライバシーを保護しつつ，人間の行動認識に有用なセンシング技術である。
- 既存のミリ波点群データセットは規模が限られており，異種レーダーソースへの対応が課題である。
- 異なるデバイスや周波数帯に対応した，実環境での性能評価と汎化性能の向上を目指す。
- 提案手法DAP-Netは，異種ミリ波環境下で既存手法を大きく上回り，最先端の認識精度を達成した。
- DAP-Netは，ドップラー情報を活用し，点群の特徴表現を強化することで，ソースに依存しない行動の意味を学習する。
- D2RモジュールとTAMモジュールにより，適応的な幾何学的増強と意味的な安定化を実現し，ロバスト性を高めた。
Link: https://arxiv.org/abs/2605.09604
画像から3Dモデル生成における有害形状の生成と緩和について [cs.CR, cs.CV]目的：画像から3Dモデル生成における有害形状の生成と緩和に関する体系的な測定研究
- 3Dコンテンツ作成の容易化と精度向上に貢献する画像から3Dモデル生成技術の重要性が増している。
- 悪意のある者が有害な形状を生成し，3Dプリンター等で現実世界に悪影響を及ぼすリスクが懸念される。
- 既存の画像から3Dモデル生成技術における有害形状生成の可能性と，その対策の有効性を明らかにすること。
- 現在の画像から3Dモデル生成技術は，有害な形状を効果的に再構成できることが明らかになった。
- 既存の商用モデレーション機能では，有害形状のごく一部（0.3%未満）しか検出できないという結果が得られた。
- 提案する多層防御システムは有害形状の保持率を1%未満に削減できるものの，誤検知率が11%に及ぶ。
Link: https://arxiv.org/abs/2605.09606
SABER：実世界VLA適応のためのスケーラブルな行動ベースの具現化データセット [cs.CL, cs.RO, cs.CV]目的：実世界の小売環境におけるロボットのVLA（視覚言語行動）適応を可能にする行動データセットの構築
- ロボットの実用化には，高性能なモデルアーキテクチャに加え，豊富なドメイン特有の行動データが不可欠である。
- 汎用ロボットの基礎モデルは，小売環境のような複雑な未学習タスクにおいて，期待される性能を発揮できない。
- 大規模で質の高い小売環境の行動データを収集し，ロボットの適応能力を向上させることを目指す。
- SABERは，複数の実店舗で100時間以上の自然な店内撮影から構築された，高精度の小売ロボティクス行動データセットである。
- GR00T N1.6にSABERを適用した結果，10の小売操作タスクで平均成功率が29.3%に達し，ファインチューニングベースラインの2.19倍以上の性能を示した。
- SABERは，ロボットを介在させずに，今日，大規模に収集可能なデータが，有能な小売ロボットへの道を開くことを示唆している。
Link: https://arxiv.org/abs/2605.09613
長鎖マルチモーダル推論における伝播を意識した視覚的保持のためのリフレクション・アンカー [cs.CV]目的：長鎖思考による大規模視覚言語モデルの性能向上と，視覚情報の消失を抑制するメカニズムの解明
- 大規模言語モデルと視覚情報の融合が，複雑な推論タスクにおいて重要な役割を担う。
- 視覚情報の伝播が弱まり，長期間にわたるマルチモーダル推論の精度が低下する問題が存在する。
- 視覚情報の効果的な保持と伝播を促し，推論能力を向上させるための手法を開発すること。
- 提案手法RAPOは，既存の強化学習ベースラインと比較して，複数のLVLMバックボーンにおいて顕著な性能向上を示した。
- RAPOは，視覚的に重要な意思決定ポイントを特定し，生成された軌跡に沿って視覚的依存信号を増強する。
- 情報理論的分析に基づき，リフレクション・アンカーの選択と，視覚的依存性の最適化を行うことで，効果的な視覚情報の保持を実現した。
Link: https://arxiv.org/abs/2605.09614
GSMap：オンラインHDマッピングのための2次元ガウス関数 [cs.CL, cs.CY, cs.CV]目的：高精度HDマップ構築のための新しい枠組み
- 自動運転の安全性と信頼性を向上させる上で，正確なHDマップは不可欠である。
- 既存手法は，幾何学的精度とトポロジーの維持の間にトレードオフが存在する。
- 幾何学的精度とトポロジーを同時に最適化し，HDマップ構築の課題を解決する。
- GSMapは，2次元ガウス関数を用いてマップ要素を表現することで，幾何学的精度とトポロジーを統合する。
- 微分可能なラスタライズとトポロジーを考慮したベクトル化により，同時最適化を実現する。
- nuScenesとArgoverse2での実験により，既存のHDマッピングアーキテクチャとの高い互換性を示す。
Link: https://arxiv.org/abs/2605.09619
知識転移を用いたAny2Any 3D拡散モデル：放射線治療計画の研究 [cs.HC, cs.CV, cs.AI]目的：放射線治療計画におけるボクセルごとの線量予測
- 放射線治療計画の精度向上は，患者の治療効果とQOLに直結するため重要である。
- 既存モデルは，臨床現場の多様な状況への汎化性能が課題となっていた。
- 事前学習済みの拡散モデルの知識を活用し，汎化性能の高い線量予測を実現する。
- DiffKT3Dは，事前学習済みの動画拡散モデルの知識転移により，効率的な線量予測を可能にした。
- GDP-HMMチャレンジの優勝モデルと比較し，ボクセルレベルのMAEを2.07から1.93に低減した。
- 画像品質と臨床的嗜好の一致においても，DiffKT3Dは優れた性能を示した。
Link: https://arxiv.org/abs/2605.09622
DegBins：劣化駆動型ビン分割による深度超解像 [cs.HC, cs.CV]目的：深度超解像における，高精度な深度マップの復元
- 深度情報は，自動運転やロボティクス等の応用において不可欠であり，その高解像化技術は重要である。
- 従来の深度超解像は，高解像度と低解像度の差分を学習する方式が主流だが，複雑な劣化状況下では精度が課題となっていた。
- 本研究は，劣化に合わせた適応的な残差モデリングにより，深度超解像の精度向上を目指す。
- DegBinsは，残差を離散的な深度ビンとして表現することで，より柔軟かつ表現力豊かな表現を可能にした。
- 劣化状況に応じてビン範囲を調整し，確率分布を最適化することで，局所的な劣化特性に対応した深度復元を実現した。
- 粗から細への段階的な改良スキームにより，特に劣化が激しい領域や複雑な構造を持つ領域での深度復元精度を向上させた。
Link: https://arxiv.org/abs/2605.09628
視覚的継続学習における強化学習による微調整を用いた破滅的忘却の克服 [cs.CV, cs.LG]目的：視覚的継続学習における破滅的忘却の軽減
- 継続学習は，モデルが新しいタスクを学習する際に過去の知識を保持する必要があるため重要である。
- 従来の継続学習手法は，新しいタスクの学習時に過去の知識を忘却しやすいという課題がある。
- 本研究では，強化学習による微調整を改善し，破滅的忘却を効果的に抑制することを目指す。
- 強化学習による微調整（RFT）は，教師あり微調整（SFT）よりも破滅的忘却に強いことが確認された。
- 提案手法RaPOは，軌道レベルの報酬形成によって知識保持を促進し，継続学習時の最適化を安定化させる。
- RaPOは，5つの視覚的継続学習設定において最先端の性能を達成し，破滅的忘却を大幅に軽減した。
Link: https://arxiv.org/abs/2605.09640
アテンション自体が検索可能：クエリキー類似性検索によるトレーニング不要な長文脈ストリーミング3D再構成 [cs.CV]目的：長文脈ストリーミング3D再構成のためのフレームワーク
- 3D再構成は，ロボット工学や拡張現実など，様々な分野で重要な役割を果たす。
- Transformerアーキテクチャの計算複雑性が高く，長文脈の処理が困難である。
- メモリ使用量を抑えつつ，高品質な長文脈ストリーミング3D再構成を実現すること。
- RetrieveVGGTは，トレーニングを必要とせず，クエリとキーの類似性検索を利用することで，VGGTの文脈構築を効率化する。
- 提案手法は，既存のStreamVGGT，TTT3R，InfiniteVGGTを凌駕する性能を，一定のメモリ使用量で実現する。
- カメラ姿勢を考慮した空間メモリ機構により，位置情報を意識した検索が可能となる。
Link: https://arxiv.org/abs/2605.09644
BEA-GS：3DGSにおける輝度勾配以上の，正確なオブジェクト抽出 [cs.CV]目的：3DGSにおける精密なオブジェクト抽出手法の開発
- 3Dシーンのセマンティックな表現は，様々なアプリケーションにおいて重要性が増している。
- 従来のGaussian Splatting技術では，3D形状の最適化が行われず，オブジェクト編集やアセット抽出が困難である。
- セマンティック境界を尊重した3D形状の修正により，高精度なオブジェクト抽出を実現すること。
- 提案手法BEA-GSは，セマンティック境界を尊重するように可視ガウスの形状を修正する損失関数を導入した。
- さらに，オブジェクト抽出時に現れる非可視ガウスの形状を調整する損失関数も導入し，部分的または非可視のガウスの形状も最適化する。
- 4つのデータセットと6つの評価指標を用いた比較実験の結果，提案手法が最先端手法を上回り，最も優れた境界セグメンテーション性能を示した。
Link: https://arxiv.org/abs/2605.09662
多発性硬化症病変セグメンテーションモデルの評価再考 [cs.CV, cs.AI]目的：多発性硬化症病変セグメンテーションモデルの評価方法
- 多発性硬化症は患者の生活の質を低下させる慢性疾患であり，早期発見と精密な経過モニタリングが重要である。
- 既存の評価指標は病変ごとの検出性能や，臨床的に重要なケースにおけるモデルの性能を十分に捉えられていない。
- 神経科医がMRIスキャンで確認するポイントを特定し，それらを定量化する適切な指標を提示することを目指す。
- 病変の検出と経過モニタリングにおいて，神経科医が重視する点と必要な指標を詳細に示した。
- 最新のモデルをオープンソースデータセットで評価した結果，臨床現場での利用可能性に課題があることが示された。
- 従来のDiceスコアだけでは，モデルの性能を正確に評価できず，より包括的な評価方法が求められることが明らかになった。
Link: https://arxiv.org/abs/2605.09666
S2P-Net：少量データ下における回転不変物体認識のためのスペクトル・空間極性ネットワーク [cs.CV, cs.AI]目的：少量データ下における回転不変物体認識のための深層学習アーキテクチャ
- 画像認識は，コンピュータビジョンの基礎であり，多様な応用分野で重要である。
- 既存の深層学習モデルは，データ量に依存し，回転に対して脆弱である場合が多い。
- データ拡張に頼らず，数学的に回転不変性を保証するモデルの構築。
- S2P-Netは，数学的に保証された回転不変性を実現するコンパクトな深層学習アーキテクチャである。
- 他のニューラルネットワークアーキテクチャ（CNN）と比較して，良好な結果が得られた。
Link: https://arxiv.org/abs/2605.09667
視覚に基づく遠隔操作のための生成予測ディスプレイ：既製ビデオモデルのゼロショットベンチマーク [cs.RO, cs.CV]目的：遠隔操作における通信遅延による状況認識と制御性能の低下を軽減するための生成予測ディスプレイの実現可能性評価
- 遠隔操作は，危険な環境や遠隔地での作業に不可欠だが，通信遅延が大きな課題となっている。
- 従来の遠隔操作システムは，遅延によりオペレーターの状況把握が困難になり，制御精度が低下する。
- 生成予測ディスプレイは，遅延を隠蔽し，オペレーターにリアルタイムに近い視覚情報を提供することで，遠隔操作の性能向上を目指す。
- 既製の生成ビデオモデルを用いたゼロショットベンチマークの結果，どのモデルも低エラー率，安定した誤差挙動，リアルタイム推論を同時に達成できなかった。
- モデルの規模や解像度を向上させても，性能向上は限定的であり，場合によっては逆効果となった。
- 汎用的なビデオ生成と遠隔操作における予測ディスプレイの要求との間にギャップが存在することが示唆された。
Link: https://arxiv.org/abs/2605.09670
VFM-SDM：訓練不要・マーカー不要・キャリブレーション不要な構造変位計測のためのビジョンファウンデーションモデルに基づくフレームワーク [cs.CV]目的：構造変位の計測手法
- 構造物の健全性監視やデジタルエンジニアリングにおいて，直接的な構造応答情報は不可欠である。
- 従来のビジョンベース計測は，特定タスクへのモデル訓練やマーカー設置，カメラキャリブレーションが必要で，実用上の制約があった。
- 本研究は，訓練や準備作業なしで構造変位を計測できる新たなフレームワークを提案し，実用性を高めることを目指す。
- 提案手法は，ビジョンファウンデーションモデルを用いてカメラパラメータを推定し，点追跡により多方向の構造変位を再構成する。
- 実橋の計測データを用いた評価により，低い振幅誤差（NRMSE: 0.11/0.12），高い時間的相関（相関係数: 0.86/0.88），小さいピークツーピーク誤差（RPPAE: 0.01/0.02）が確認された。
- これにより，自動化されたスケーラブルな変位監視が可能となり，デジタルツインやデータ駆動型建設における構造応答計測の基盤となる。
Link: https://arxiv.org/abs/2605.09677
DeepTumorVQA：医療VLMsとツール拡張エージェントの段階的評価のための階層的3D CTベンチマーク [cs.CV, cs.AI]目的：腫瘍診断における多段階のエビデンスチェーンを追跡し，3D CTの推論を認識，測定，視覚的推論，医療的推論の4段階に分解した階層的ベンチマーク
- 医療画像診断の精度向上は，医療の質を高め，患者の予後改善に不可欠である。
- 既存の医療VQAベンチマークは，モデルの能力を単一の精度で評価するため，失敗箇所が不明確である。
- 本研究は，モデルの失敗箇所を特定し，段階的な評価を通じて医療VLMとAIエージェントの開発を促進する。
- DeepTumorVQAは，9,262の3D CTボリュームにわたる476Kの質問を含む大規模なベンチマークである。
- 定量的な測定が信頼性の低いボトルネックであり，後続の視覚的および医療的推論を困難にしていることが示された。
- ツール拡張により，この問題が大幅に緩和され，医療知識とツールを活用した推論が新たな課題となることが明らかになった。
Link: https://arxiv.org/abs/2605.09679
強制KV：効率的な自己回帰型ビデオ拡散モデルのためのハイブリッドKVキャッシュ圧縮 [cs.CY, cs.CV]目的：自己回帰型ビデオ拡散モデルにおけるKVキャッシュ圧縮によるスケーラビリティの向上
- ビデオ生成において，リアルタイム性と長尺化が求められているため，自己回帰型拡散モデルへの注目が集まっている。
- 既存のモデルは，過去フレームの冗長なKVキャッシュにより，計算量とメモリ使用量が増大し，スケーラビリティが課題となっている。
- アテンションヘッドの機能的専門性を活用し，静的・動的なプルーニングを組み合わせることで，効率的な圧縮を実現する。
- 提案手法Forcing-KVは，静的ヘッドに対し構造化プルーニング，動的ヘッドに対しセグメント間類似度に基づいた動的プルーニングを適用する。
- NVIDIA H200 GPU上で29fps以上の生成速度を達成し，キャッシュメモリ使用量を30%削減することに成功した。
- LongLiveおよびSelf Forcingで最大1.35倍，1.50倍の高速化，1080P解像度では最大2.82倍の高速化を実現した。
Link: https://arxiv.org/abs/2605.09681
リモートセンシング単一画像超解像のための空間周波数ゲート付きSwin Transformer [cs.CV]目的：リモートセンシング単一画像超解像における高解像度画像再構成
- リモートセンシングは，広範囲の地表情報を効率的に取得する上で不可欠な技術である。
- 既存手法では，高周波詳細の再構成が十分でなく，画像品質が低下することがある。
- 空間周波数分離による詳細な画像再構成を可能にし，超解像性能を向上させる。
- SFG-SwinSRは，Swin2SRの注意ブロックを修正し，空間周波数ゲート付きフィードフォワードネットワークを導入した。
- SpaceNetデータセットにおいて，45.19 dBのPSNRと0.9852のSSIMを達成し，高周波詳細の有効な改善を示した。
- Transformerのフィードフォワードネットワーク内での空間周波数変換が，リモートセンシング超解像における詳細再構成を改善する。
Link: https://arxiv.org/abs/2605.09687
ConFixGS：信頼度を考慮した拡散事前分布を用いた3Dガウススプラッティングの修正学習 [cs.CV]目的：運転シーンにおける前方への3Dガウススプラッティングの修正
- 自動運転や拡張現実など，3Dシーン再構成技術は様々な応用分野で重要性が増している。
- 従来の3Dガウススプラッティングは，軌道に基づいた疎な視点からの運転シーンで課題を抱えていた。
- 本研究では，信頼度を考慮した拡散事前分布を用いて，前方への3Dガウススプラッティングの修正を可能とする。
- ConFixGSは，Waymo，nuScenes，KITTIデータセットにおいて，新たな視点からの合成においてPSNRを最大3.68dB向上させた。
- FIDスコアもほぼ半減し，視覚的な品質が大幅に改善された。
- 信頼度を考慮した生成モデルとサポートビューの一貫性の融合が，堅牢な3Dシーン再構成の鍵となることを示唆している。
Link: https://arxiv.org/abs/2605.09688
マルチモーダルモデルは電気羊を夢見るか？ [cs.CV, cs.AI, cs.LG]目的：空間パズルの解決におけるマルチモーダルモデルのメンタルイメージ形成
- 近年，視覚と言語を統合するマルチモーダルモデルの研究が盛んであり，その能力向上に期待が集まっている。
- モデルが推論過程でどのような情報を内部的に保持しているかは未だ解明されていない部分が多い。
- モデルが推論時に形成するメンタルイメージの存在とその活用方法を明らかにすること。
- マルチモーダルモデルは空間パズルを解く際にメンタルイメージを形成することが確認された。
- 特に，羊に関するパズルを解く際には，羊のイメージを想起していることが示唆された。
- 思考連鎖に16個の視覚トークンを統合することで，解決率が向上し，特に推論負荷の高いタスクでの改善が顕著であった。
Link: https://arxiv.org/abs/2605.09693
識別的なスパンを介した合成データ有用性の予測：分類器再構成によるアプローチ [cs.CV, cs.LG]目的：合成データの有用性の予測
- コンピュータビジョン分野では，特に医療画像や産業検査において，陽性サンプルが不足する課題が存在する。
- 合成データ生成は有効だが，その品質が下流モデルの性能に与える影響の評価が困難である。
- 下流モデルの訓練を伴わずに，合成データの有用性を事前に予測する指標を提案する。
- 提案手法は，事前学習済みモデルの埋め込み空間でデータセットを表現し，差ベクトルを用いて合成データの品質を評価する。
- 線形分類器の重みベクトルが，合成データによる変動が張る部分空間内に近似できるかを，投影誤差を測定することで判断する。
- 複数のデータセットで，提案指標と下流モデルの分類性能との間に強い相関関係が確認された。
Link: https://arxiv.org/abs/2605.09697
DriveFuture：自律運転のための未来を意識した潜在世界モデル [cs.CV]目的：自律運転のための未来を考慮した潜在世界モデルの学習
- 自律運転は，安全性と効率性の向上に不可欠であり，その実現には高度な環境認識と予測が求められる。
- 既存の潜在世界モデルは，未来の状態予測と計画立案を分離しており，両者の連携が不十分である。
- 本研究は，計画立案の際に未来の状態を明示的に条件づけることで，より洗練された自律運転の実現を目指す。
- 提案手法DriveFutureは，NAVSIM-v2 navhardベンチマークにおいて55.5 EPDMSを達成し，最先端の性能を示した。
- NAVSIM-v2 navtestでは89.9 EPDMS，NAVSIM-v1 navtestでは90.7 PDMSを記録し，優れた汎化性能を証明した。
- 潜在世界モデルの鍵は，未来の状態をシミュレーションするだけでなく，現在の意思決定に未来の状態を条件づけることにある。
Link: https://arxiv.org/abs/2605.09701
MOTOR-Bench：ゼロショット人間メンタル状態理解のための現実世界データセットとマルチエージェントフレームワーク [cs.CV]目的：現実世界の共同学習シナリオにおける人間の行動からのメンタル状態理解
- 知的なシステムにとって，人間メンタル状態の理解は不可欠であり，人間とロボットの協調や教育への応用が期待される。
- 既存研究は単一のメンタル状態ラベルの予測に偏っており，複雑な対人関係における構造化されたアノテーションが不足している。
- 本研究は，観察可能な行動から深いメンタル状態への構造化された推論を可能にするフレームワークを提案し，性能向上を目指す。
- 提案手法MOTOR-MASは，単一モデルによるベンチマークをMacro-F1スコアで15.93ポイント上回る性能を示した。
- また，一般的なマルチエージェントベンチマークと比較して，内部認知の予測において10.2ポイントの性能向上を達成した。
- MOTOR-Benchデータセットは，ノイズやドメイン固有の言語を含む現実世界特有の課題に対応する構造化されたアノテーションを提供する。
Link: https://arxiv.org/abs/2605.09703
CoTを用いた軽量なVision-Languageモデルへの3D空間推論の知識蒸留 [cs.CV, cs.AI]目的：3D空間推論能力の知識蒸留
- 3Dシーン理解は，ロボット工学や拡張現実など，多様な応用分野において不可欠である。
- 大規模な3D Vision-Languageモデルは計算コストが高く，実用上の展開が困難である。
- 計算資源の限られた環境下でも3Dシーン質問応答を可能にする効率的なモデルの構築。
- 7Bの教師モデルから2.29Bの生徒モデルへの知識蒸留により，推論速度を8.7倍向上，モデルサイズを3分の1に削減した。
- 「Hidden CoT」と呼ばれる学習可能な潜在的トークンを導入し，CoTデータなしでの推論性能向上を実現した。
- ScanNetと3D-FRONTでの実験により，生徒モデルが空間理解において高い精度（68-72%）を示した。
Link: https://arxiv.org/abs/2605.09719
N個のロールアウトから最適な教師を選択するオンポリシー蒸留 [cs.CV]目的：オンポリシー蒸留における教師ロールアウト選択方法
- 強化学習の報酬依存や，教師あり学習の破局的忘却を回避し，効率的な推論能力向上が求められている
- 従来のオンポリシー蒸留は，ノイズの多い学生生成の文脈下で教師の監督を計算し，単一の確率的ロールアウトに依存する
- 教師の文脈を利用し，正確性と学生との整合性を重視することで，より信頼性の高い教師信号を提供する
- 提案手法BRTSは，AIME 2024，AIME 2025，AMC 2023などの推論ベンチマークにおいて，標準的なオンポリシー蒸留を上回る性能を示す。
- 特に，難易度の高いデータセットにおいて大きな改善が見られた。
- BRTSは，複数の正解教師ロールアウトから，学生の行動と最も整合性の高いものを選択する。
Link: https://arxiv.org/abs/2605.09725
胎児脳画像：超音波ビデオにおけるキーフレーム検出のための複合ニューラルネットワークアプローチ [cs.CV]目的：超音波ビデオにおけるキーフレーム検出
- 胎児の脳発達評価は，早期診断と治療計画の策定に不可欠である。
- 超音波ビデオの解析には，時間と労力がかかるため，効率化が課題である。
- 超音波ビデオからのキーフレーム自動検出による解析効率の向上を目指す。
- 提案モデルは，CNNとRNNを組み合わせた複合ニューラルネットワークである。
- CNNは空間特徴を抽出し，RNNはフレーム間の時間的依存性を捉える。
- 本研究は，胎児脳超音波解析の効率と精度向上に貢献し，早期発見を支援する可能性がある。
Link: https://arxiv.org/abs/2605.09750
DRIVE-C：自動運転のための制御された破損データセット [cs.CV]目的：自動運転システムの視覚的認識の堅牢性評価
- 自動運転技術の安全性確保は喫緊の課題であり，環境変化への適応が重要である。
- 現実環境下ではカメラの劣化が生じやすく，認識性能低下の原因となる。
- カメラ劣化の影響を定量的に評価し，システムへの対策を講じる。
- DRIVE-Cは，現実の走行映像を基に，物理に基づいた劣化を施したデータセットである。
- 10本のクリーンな映像と，12種類のカメラ劣化を5段階の重症度で再現した600本の破損映像を含む。
- このデータセットは，ADASの堅牢性評価，劣化を考慮したモデリング，異常検知などに活用できる。
Link: https://arxiv.org/abs/2605.09774
逐次合理的な戦略的エージェントに対する行動推奨 [eess.SY, cs.GT, cs.SY, math.OC]目的：戦略的エージェントの逐次合理性を保証する行動推奨戦略
- 多人数エージェントシステムの設計は，社会全体の効率性向上に不可欠である。
- エージェントの合理的行動を促すメカニズム設計が困難である。
- エージェントが従順な戦略を選択するインセンティブ設計を目指す。
- 提案アルゴリズムは，線形計画問題を後方帰納法で解くことで最適な行動推奨を導出する。
- 設計者は，エージェントが推薦された行動を取るように誘導する戦略を構築できる。
- この手法により，エージェントの逐次合理性を満たしつつ，設計者の目的を最大化することが可能となる。
Link: https://arxiv.org/abs/2605.09785
グループ活力指標：公理とアルゴリズム [cs.SI, cs.GT]目的：ネットワークにおけるノード集団の活力評価
- 複雑なネットワーク分析において，ノードの重要度を測ることは不可欠である。
- 既存の中央性指標では，ノード集団全体の貢献度を的確に評価できない場合がある。
- ノード除去の影響を考慮した，集団に対する活力指標の明確化と計算手法の確立。
- 活力指標は，グループへの拡張が可能であり，Shapley値との関連性を示すことができた。
- 活力指標全体の公理化と，正規化条件を満たす2つの具体的な指標を提示した。
- 活力指標およびグループアタッチメント中心性の計算特性について検討した。
Link: https://arxiv.org/abs/2605.09791
クロスVL：複雑度を考慮した特徴ルーティングとペアードカリキュラムによるクロスビューVision-Language検出 [cs.RO, cs.CV, cs.AI, cs.LG]目的：クロスビューVision-Language検出における性能向上
- 視覚と言語を組み合わせたモデルは，物体検出において重要な役割を担う。
- 地上視点と航空視点の差異により，既存のVLモデルの性能が著しく低下する。
- 異なる視点間における複雑度の違いを考慮し，ロバストな検出を実現すること。
- 提案手法CrossVLは，複雑度を考慮した経路集約(CPA)とペアードカリキュラム学習(PCL)を組み合わせることで，クロスビュー検出性能を向上させる。
- MAVRECデータセットにおいて，Florence-2の航空視点mAPを58.66%から61.03%に改善し，地上-航空間の性能差を8.63ppから6.65ppに縮小した。
- CPAによる安定した特徴集約と，PCLによる最適化ダイナミクスの改善が，この結果に貢献している。
Link: https://arxiv.org/abs/2605.09802
ファッション・フローレンス：構造化されたファッション属性抽出のためのFlorence-2の微調整 [cs.CV, cs.AI]目的：ファッション画像の構造化された属性抽出
- ファッション分野における画像認識技術は，顧客体験の向上や効率的な商品検索に不可欠である。
- 既存モデルでは，ファッション属性の抽出精度や構造化された出力形式の実現に課題があった。
- 高精度かつ構造化されたファッション属性抽出モデルを構築し，実用的なシステムへの統合を目指す。
- Fashion Florenceは，カテゴリ属性の認識精度において，GPT-4o-miniやGemini 2.5 Flashを上回る性能を示した。
- マテリアル属性の認識精度も向上しており，実用的なファッション検索システムの構築に貢献できる。
- LoRAによる微調整により，少ないパラメータで高精度なモデルを実現し，効率的な推論を可能にした。
Link: https://arxiv.org/abs/2605.09827
Loom：意味的素材適合性と場面認識埋め込み事前知識を用いたハイブリッド検索・スコアリングによる服の組み合わせ推薦 [cs.IR, cs.CV]目的：ファッションカタログからの完全で一貫性のある服の組み合わせの生成
- ファッションEC市場の拡大に伴い，顧客のニーズに合致した服の組み合わせ提案が重要となっている
- 既存の推薦システムは，学習データへの依存やルールベースのアプローチの限界などの課題を抱えている
- 意味的素材適合性と場面認識埋め込みを活用し，より高品質な服の組み合わせを迅速に提案することを目指す
- Loomは，FashionCLIP埋め込みを用いた類似アイテム検索と，構造化されたドメイン知識に基づくスコアリングを組み合わせている
- 実験結果から，Loomはランダムベースラインと比較して，服の組み合わせの品質を3.3倍向上させ，違反率を42%削減することが示された
- 特に，方向性再ランキングが不可欠な要素であり，これを除去するとスコアは大幅に低下する
Link: https://arxiv.org/abs/2605.09830
ChladniSonify：ニューメディアアート制作におけるクラッドニ図形の視覚・聴覚マッピング手法 [cs.SD, cs.AI]目的：クラッドニ図形と音響のリアルタイムな視覚・聴覚マッピングシステム
- 視覚と聴覚の融合は，表現豊かなアート体験を生み出す上で不可欠である。
- 既存のクラッドニ図形を利用した音響マッピングは，技術的なハードルが高く，リアルタイム性に欠ける場合が多い。
- クラッドニ図形と音響をリアルタイムにマッピングすることで，インタラクティブなアート制作を可能にすること。
- 提案システムChladniSonifyは，クラッドニ図形のパターン分類において99.33%という高い精度を達成した。
- マッピングされた周波数は理論値と完全に一致し，わずかな遅延(平均50ms未満)でリアルタイムなインタラクションを実現している。
- 本研究は，クラッドニ図形を用いた視覚・聴覚アート制作のための再現性のあるプロトタイプを提供する。
Link: https://arxiv.org/abs/2605.09846
Attention-Residual Transformer におけるルーティング条件付きキャリブレーションの検証 [cs.CV, cs.AI]目的：Attention-Residual Transformerにおけるルーティング情報のキャリブレーションへの貢献度
- 深層学習モデルの信頼性向上は重要であり，特に不確実性の推定は安全な応用において不可欠である。
- 現在のキャリブレーション評価は，主にlogitやsoftmaxの信頼度のみに依存しており，ルーティング情報が十分に活用されていない。
- ルーティング情報がキャリブレーションに有用であるか，その安定性を検証し，誤った解釈を防ぐことを目指す。
- Attention-Residual Transformerにおいて，ルーティングに基づく要約統計量からは，安定したルーティング条件付きの誤キャリブレーションの証拠は得られなかった。
- ルーティング深度の分散と信頼度に基づいたシンプルなプローブ（AR-CondCal）は，信頼度のみを用いたプローブや予測エントロピーを用いたプローブと比較して，有意な改善を示さなかった。
- ルーティング情報を考慮したモデルの性能向上は，モデルの容量や，ルーティング情報のシャッフルによって再現できることが示され，真のキャリブレーション改善とは言えない可能性がある。
Link: https://arxiv.org/abs/2605.09850
MoPO：遮蔽に対する運動事前知識の組み込みによる人体メッシュ復元 [cs.CV, cs.AI]目的：遮蔽された人体メッシュの復元
- 人体メッシュ復元は，モーションキャプチャや人間行動理解などに応用可能な重要な研究分野である。
- 遮蔽部分の空間特徴が不十分なため，既存手法では遮蔽に対する頑健性が低く，姿勢推定に不安定性が生じやすい。
- 遮蔽部分の推定に，過去の姿勢系列に含まれる信頼性の高い運動事前知識を活用し，より正確な復元を目指す。
- MoPOは，遮蔽検出モジュールと運動予測器を組み合わせることで，遮蔽された関節位置を予測し，人体メッシュの復元精度を向上させる。
- 運動情報を考慮した融合・洗練モジュールにより，予測された関節系列と画像特徴を統合し，より自然な姿勢を推定する。
- 実験結果から，MoPOは遮蔽に特化したベンチマークおよび標準ベンチマークにおいて最先端の性能を発揮し，精度と時間的一貫性を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.09856
クリップレベルの不確実性と時間認識型アクティブラーニングによるエンドツーエンド多物体追跡 [cs.CV]目的：エンドツーエンド多物体追跡におけるクリップレベルのアクティブラーニング手法
- 動的な環境下での多物体追跡は，一貫した物体ID維持に時間的推論が不可欠である。
- 既存のアクティブラーニングはフレーム単位であり，クリップ単位で推論を行う最新のトラッカーと整合性が低い。
- クリップレベルでの不確実性に着目し，効率的なアノテーションと多様性を担保することで，学習コストを削減する。
- 提案手法CUTALは，MeMOTRとSambaMOTRにおいて既存手法を上回る性能を示した。
- CUTALは，MeMOTRにおいて50%の学習データ量でフル教師あり学習と同等の性能を達成した。
- フレーム間の対応の曖昧さを捉え，時間的な多様性を考慮したクリップ選択が有効であることが示された。
Link: https://arxiv.org/abs/2605.09858