arXiv雑要約

画像・音声 - 2026/05/27 公開

LongCat-Video-Avatar 1.5 技術報告 [cs.CV]目的：音声駆動型動画生成における安定性と実用性の向上
- 動画生成技術はエンターテイメントやコミュニケーションの分野で重要な役割を担うため，その発展は不可欠である。
- 高品質で安定した動画生成は依然として難題であり，特に商用レベルでの実用化が課題となっている。
- 商用利用可能なレベルの安定性と効率性を実現し，多様な条件下での動画生成を可能にすること。
- LongCat-Video-Avatar 1.5は，Whisper Largeによる音声エンコーダのアップグレードと学習レシピの改善により，正確な口パクと全身の安定性を実現した。
- 多様なスタイル（アニメ，動物など）や複雑な状況（複数人，物体操作など）にも対応可能であり，実用的なデプロイメントに適した推論速度を実現している。
- 500件を超える多様なテストケースにおける定量評価と人間評価の結果，既存の商用システムと同等またはそれ以上の性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.26486
ペアワイズ比較を超えて：拡散モデルのためのリストワイズ報酬対応アラインメント [cs.LG, cs.CV]目的：拡散モデルのアラインメント手法
- 画像生成AIの性能向上が求められており，人間のフィードバックを活用したアラインメント技術が重要である。
- 既存手法はペアワイズ比較に依存しており，複数の候補画像や連続的な報酬情報を十分に活用できていない。
- リストワイズなアプローチで報酬情報を活用し，より効率的なアラインメントを実現することを目指す。
- 提案手法 Diffusion LAIR は，SD1.5 および SDXL において，画像生成，合成生成，画像編集のベンチマークで既存手法を上回る性能を示した。
- 報酬スコアを利点重みに変換し，暗黙的な報酬に対する加重回帰目的関数を最適化することで，すべての候補画像を同時に利用する。
- 暗黙的な報酬の大きさを明示的に制御する正則化項を導入し，安定した学習を実現している。
Link: https://arxiv.org/abs/2605.26491
視覚言語ナビゲーションのための3Dガウスマップとオープンセットセマンティックグルーピング [cs.CL, cs.CV]目的：視覚言語ナビゲーションにおける環境表現とナビゲーション戦略
- 現実世界の複雑な環境を理解し，ナビゲーションを実現するためには，正確な3Dシーン理解が不可欠である。
- 既存の手法では，3D環境の複雑な形状や豊富なセマンティクスが十分に考慮されておらず，汎化性能が課題となっている。
- 3Dガウスマップとセマンティックグルーピングにより，よりロバストで汎化性の高いナビゲーションを実現することを目指す。
- 提案手法では，疎な擬似LiDAR点群から3Dガウスを初期化し，オンラインでエゴセントリックシーンマップを構築する。
- オープンセットセマンティックグルーピングにより，3Dガウスをオブジェクトインスタンスやカテゴリに基づいてグループ化し，統一的な3Dガウスマップを生成する。
- R2R，R4R，REVERIEの３つのベンチマークにおいて，提案手法の有効性が検証された。
Link: https://arxiv.org/abs/2605.26500
視覚言語モデルの脆弱性の解明：テクスチャ制約摂動とクロスモーダル最適化によるマルチモーダル敵対的相乗効果 [cs.CV, cs.AI]目的：大規模視覚言語モデルに対する汎用的なブラックボックス型マルチモーダル攻撃手法の開発
- 視覚言語モデルは，画像キャプション生成や視覚的質疑応答など，マルチモーダルな理解において重要な役割を担っている。
- 敵対的攻撃に対する頑健性が検証されておらず，自動運転やコンテンツモデレーションなどの重要なアプリケーションにおいてリスクがある。
- 既存手法の限界を克服し，現実世界での応用可能性のある，効果的なマルチモーダル攻撃手法を提案する。
- 本研究で開発したMMASは，画像とテキストの両方に対して同時に摂動を生成し，モデルのクエリのみを用いて最適化を行う。
- 画像摂動にはウェーブレットに基づくテクスチャ制約を導入することで，知覚的な自然さを保ちながら様々な視覚入力に対して頑健性を確保している。
- テキスト摂動は埋め込み空間でのLノルム制約により，意味的な一貫性を維持しつつ，出力をターゲットに向けて誘導する。
Link: https://arxiv.org/abs/2605.26501
ビジョン言語ナビゲーションのための不確実性認識ガウスマップ [cs.CV]目的：ビジョン言語ナビゲーションにおける不確実性の明示的なモデリング
- 視覚と自然言語を組み合わせたナビゲーションは，ロボット工学や拡張現実において重要な技術である。
- 既存の手法では，環境認識の不確実性が無視されており，頑健性に課題がある。
- 環境の幾何学的，意味的，外観的不確実性を考慮し，より信頼性の高いナビゲーションを実現する。
- 提案手法では，3Dガウス素子から構成されるセマンティックガウスマップを構築し，不確実性を明示的にモデル化した。
- 幾何学的，意味的，外観的不確実性を定量化し，3Dバリューマップとして統合することで，ナビゲーションの信頼性を向上させた。
- 複数のVLNベンチマークにおける評価により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2605.26503
Re-M3Dr：再調整された多種モダリティ平均偏差回帰 [cs.CV]目的：視力検査における平均偏差の予測
- 視力検査において，視覚野欠損の評価には平均偏差が重要である。
- OCTと眼底写真の多種モダリティ融合が，期待に反して単一モダリティモデルよりも性能が低い。
- データ分布の不均衡とモダリティ学習の競合を解決し，多種モダリティ回帰の安定化を図る。
- 提案手法Re-M3Drは，適応的なマージンに基づく教師ありコントラスト学習により単一モダリティ表現を強化する。
- 鋭敏度を考慮した勾配変調により，共同最適化を安定化させる。
- 公開および非公開の臨床データセットにおいて，最先端の多種モダリティ学習手法と比較して，平均29％のMSE削減を達成した。
Link: https://arxiv.org/abs/2605.26513
CSV-ViT：可変サイズの皮質超頂点を用いたアルツハイマー病病理検出のためのVision Transformer [cs.CV, cs.AI, cs.LG]目的：アルツハイマー病関連状態の分類
- アルツハイマー病の診断はPET検査に依存するが，高コストで侵襲的であるため，MRIを用いた事前スクリーニングが求められている。
- 脳皮質の非ユークリッド幾何学的な構造は深層学習における課題であり，既存の表面モデルは重複頂点や非皮質領域を含むことがある。
- 関心領域を保持し，頂点に基づいた可変サイズのパッチ分割により，皮質表面データの学習を改善することを目指す。
- 提案するCSV-ViTは，従来の表面ベースモデルと比較して，アルツハイマー病関連状態の分類においてより高い性能を達成した。
- この結果は，CSV-ViTがPET検査やCSF検査に先立ち，MRIに基づいたアルツハイマー病関連状態の予測を支援できる可能性を示唆する。
- 可変サイズのパッチに寛容なVision Transformerにより，MRI画像からのアルツハイマー病病理の検出精度向上に貢献する。
Link: https://arxiv.org/abs/2605.26514
相対回帰による3D再構成：$R^3$ [cs.CV]目的：3D再構成手法
- ロボット工学や拡張現実など，3D環境理解は様々な分野で重要である。
- 従来の3D再構成は，グローバル座標系に依存し，長尺・ストリーミング処理が困難であった。
- 本研究は，相対回帰により，グローバル座標系への依存を解消し，効率的な3D再構成を目指す。
- 提案手法$R^3$は，軽量なMLPを用いて信頼度加重された相対制約を予測する。
- この信頼度は，学習時の損失重み付けと推論時の姿勢集約を統合的に制御する役割を果たす。
- オフラインおよびストリーミング環境での評価により，相対回帰メカニズムの有効性が検証された。
Link: https://arxiv.org/abs/2605.26519
InterSketch：自己修正型ビジュアルスケッチと段階的報酬を用いた相互推論モデル [cs.CV, cs.AI]目的：複雑な視覚的課題に対するVT-CoT能力の向上
- 視覚情報と言語情報を統合した推論は，AIの高度化に不可欠である。
- 既存のVLMは，推論の深さや視覚情報への依存度が低く，複雑な課題への適用が困難である。
- 長期的視覚理解タスクにおいて，視覚とテキストの相互推論を深め，自己修正機能を強化すること。
- InterSketchは，外部ツールで生成した視覚スケッチとテキスト推論を交互に行うことで，VT-CoT能力を強化する。
- 合成されたVT-CoTデータセットとリフレクション機構により，モデルは多段階の相互推論と自己修正が可能となる。
- 段階的報酬メカニズムは，長期的推論における報酬の希薄性を緩和し，効果的な学習を実現する。
Link: https://arxiv.org/abs/2605.26520
船舶航路予測のためのクロスモーダルインタラクション：海事インテリジェンス [cs.CV, cs.AI]目的：船舶航路予測の精度向上
- 船舶の安全かつ効率的な航行には，海事インテリジェント輸送システムが不可欠である。
- AISデータは小型船舶では不足し，CCTVデータだけでは船舶の動的な挙動を捉えきれない。
- AISとCCTVデータの相互作用を活用し，より正確な航路予測を実現することを目指す。
- 提案手法CmIVTPは，シーンセマンティック特徴抽出により，船舶と環境の相互作用を効果的に捉え，予測精度を向上させた。
- クロスモーダルインタラクションTransformerが，AISとCCTVデータの情報を統合し，動的かつ実現可能な航路予測を可能にした。
- 大規模なマルチモーダルデータセットMaritime-MmD$^+$を構築し，航路予測研究を支援する。
Link: https://arxiv.org/abs/2605.26524
ReCA：再帰的コンテキスト割り当てによる複数ショット長尺ビデオ外挿 [cs.CV, cs.AI]目的：複数ショットのビデオ外挿タスクにおける長尺ビデオ生成
- 生成モデルによる長尺ビデオ生成は，映画制作などにおいて重要な課題である。
- 既存手法では，長尺ビデオの構造維持と，観察された状態の継続が困難である。
- 本研究は，コンテキストの効率的な割り当てによって長尺ビデオ生成の課題を解決する。
- ReCAは，計画と生成においてコンテキストを階層的に割り当てることで，既存手法よりも高い性能を示す。
- MSVE-BenchおよびNB-Qという新たな評価ベンチマークを提案し，長尺ビデオ生成における課題を明確化した。
- 平均正規化スコアは8〜16％，複数ショットの一貫性指標は28〜43％向上した。
Link: https://arxiv.org/abs/2605.26525
産業検査における欠陥推論とレポート作成のためのハイブリッド視覚言語アーキテクチャ [cs.CV, cs.AI, cs.CL, cs.LG]目的：産業検査における欠陥の特定と構造化されたメンテナンスレポートの生成
- 産業界では，製品の品質管理における効率化と自動化が重要な課題となっている。
- 従来の検査方法は，専門家の言語解釈に依存しており，時間とコストがかかるという問題がある。
- 本研究は，自動化された検査プロセスを実現し，人的エラーを低減することを目的とする。
- 提案システムは，BLEU-4スコア0.41，幻覚率4％，専門家スコア8.6/10という高い性能を達成した。
- QLoRAで適応された1.5Bモデルは，同等の検出情報に対して汎用的な大規模言語モデルよりも高品質なレポートを生成した。
- 専用のデカップルアーキテクチャが，構造化された生成タスクにおいて汎用的なエンドツーエンドモデルよりも優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.26533
再帰的フローマッチング [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV, cs.NA, math.NA]目的：複雑な時空間ダイナミクスの予測
- 物理シミュレーションや複雑な現象モデリングにおいて，生成モデルは不可欠な役割を担う。
- 既存手法は，精度と計算コストのトレードオフに直面し，高精度なシミュレーションは計算量が膨大になる。
- 本研究は，離散化誤差を低減し，高精度かつ効率的な予測を実現する新たな手法を提案する。
- 再帰的フローマッチング(RecFM)は，異なる離散化スケール間で一貫性を保ち，物理に基づいたタスクの性能を向上させる。
- RecFMは，最先端の多段階ソルバーに匹敵する性能で，科学システムにおける高精度なワンステップおよび少数ステップ予測を初めて実現した。
- RecFMは，主要な拡散ベースのエミュレーターと比較して最大20倍の高速化を達成し，予測精度も向上させる。
Link: https://arxiv.org/abs/2605.26535
計画的スタイル注入：訓練不要拡散モデルを用いたスタイル転送におけるスタイル-コンテンツのパレート最適フロンティアの拡大 [cs.CL, cs.CV]目的：拡散モデルにおけるスタイル注入の最適化
- 拡散モデルは画像生成において高い性能を示すが，スタイル転送におけるスタイル注入位置の最適化は未解決課題である。
- 既存手法は単一のパラメータでスタイル注入強度を制御するため，スタイル品質とコンテンツ保持の間のトレードオフが固定化され，柔軟性に欠ける。
- 本研究は，拡散モデルの各層と時間ステップにおけるスタイル注入強度を計画的に調整することで，より優れたトレードオフを実現することを目指す。
- スタイル注入強度を層と時間ステップに沿って減衰させるスケジュールが，既存手法よりも優れた性能を示すことが示された。
- コサイン関数や平方根関数を用いた時間ステップスケジュールが，線形スケジュールよりも優れていることが確認された。
- スタイル注入のスケジュールとControlNetによる幾何学的条件付けはほぼ独立しており，組み合わせることでスタイル忠実度とコンテンツ保持のバランスが向上する。
Link: https://arxiv.org/abs/2605.26538
TrackRef3D：3Dガウススプラッティングにおけるオープンワールド参照セグメンテーションのためのトラック・ゼン・ラベル [cs.CL, cs.CV, cs.LG]目的：オープンワールド参照セグメンテーションの実現
- 具現化されたAIにおいて，自然言語による3Dオブジェクトセグメンテーションは重要な能力である。
- 既存手法は高コストな手動アノテーションや，多視点不整合，クエリ特異性への汎化性能の低さが課題である。
- 手動アノテーションなしで，多視点一貫性のあるトラック・ゼン・ラベルパラダイムにより上記課題を解決する。
- TrackRef3Dは，3Dガウススプラッティングにおいて，手動アノテーションなしでオープンワールド参照セグメンテーションを実現する。
- Trajectory-Aware Semantic Consensus Module（TSCM）により，多視点予測を統合し，カノニカルな意味的同一性を確立することで多視点一貫性を確保する。
- 可視性に基づいた記述生成戦略と，Hybrid Training Strategy（HTS）により，多様なクエリ特異性に対してロバストな性能を示す。
Link: https://arxiv.org/abs/2605.26576
O-MARC：効率的な動画理解のための全記憶拡張圧縮蒸留 [cs.CV]目的：効率的な動画理解のための圧縮手法の開発
- マルチモーダル大規模言語モデルは音声と映像の統合理解を可能にするが，計算コストが高い。
- 既存のベンチマークは，ノイズの多いユーザー生成動画における音声と映像の関連性を十分に評価できない。
- 圧縮された入力に対してもロバストなコンパクトなモデルを学習するための枠組みを提案する。
- 提案手法O-MARCは，Qwen2.5-Omni-3Bにおいて，4つのベンチマークの平均スコアを45.8に向上させた。
- フルトークン推論（44.1）やOmniZip（41.0）よりも高い性能を示した。
- OMACにより，推論遅延が34.6％削減，メモリ使用量が34.7％削減され，効率的な推論を実現した。
Link: https://arxiv.org/abs/2605.26584
チベット語ビジョン言語モデリングのための包括的なリソーススイート FTibSuite [cs.CV, cs.DB]目的：チベット語ビジョン言語研究のための包括的なリソース
- ビジョン言語モデルの発展は目覚ましいが，リソースの少ないチベット語への対応は遅れている。
- チベット語のビジョン言語モデル研究における，再現性のある学習・評価基盤の欠如が課題である。
- チベット語ビジョン言語研究を標準化するための基盤を確立することを目指す。
- FTibSuiteは，継続的事前学習，画像テキスト対応付け，指示チューニングデータを含むFTibDataを提供する。
- FTibBenchは，高品質なチベット語への翻訳検証プロセスを経て，主要なマルチモーダルベンチマークを適応させたものである。
- FTibVLMは，Qwen3-VL-8B-Instructを基盤とし，MMBenchやPOPE-randomの精度を大幅に向上させた。
Link: https://arxiv.org/abs/2605.26601
ポリマトロイド型サービス市場における信頼性の三重困境 [eess.SY, cs.SY, cs.GT, cs.DC, cs.NI, econ.TH]目的：ポリマトロイド型実現可能性を持つサービス市場におけるメカニズム
- サービス市場の効率的なメカニズム設計は，資源配分の最適化に不可欠である。
- 市場運営者の戦略的行動を考慮した信頼性の問題が未解決である。
- 運営者の戦略的行動下における，収益性，インセンティブ適合性，信頼性のトレードオフを解明する。
- 単一パラメータエージェントと非モジュラーポリマトロイドにおいて，収益最大化，DSIC，運営者の信頼性を同時に満たす静的密封入札メカニズムは存在しない。
- 信頼性の欠如のコスト(CoNC)を導入し，５つのトポロジークラスでタイトな$\Theta$境界を導出した。
- 結果は，ポリマトロイド型サービス市場において，市場の公平性が設計上の重要な制約であることを示唆する。
Link: https://arxiv.org/abs/2605.26604
ガウス・ボクセルデュエット：高速かつ正確な単眼表面再構成のための二重スキャフォールドハイブリッド表現 [cs.CV]目的：単眼画像からの高速かつ高精度な３次元表面再構成
- ３次元シーンの理解は，ロボティクスや拡張現実など幅広い分野で重要である。
- 既存手法では，再構成精度と最適化効率の間にトレードオフが存在する。
- ボクセルとガウスを組み合わせることで，このトレードオフを改善し，高精度かつ効率的な再構成を実現する。
- 本研究では，スキャフォールドに固定されたガウスを，最適化された疎なボクセル構造に結びつけるハイブリッド表現を提案した。
- 提案手法は，ボクセル化されたSDFによって定義された表面周辺にガウスを制約することで，表現効率を高め，再構成精度を向上させる。
- ScanNet++，ScanNetv2，DeepBlendingデータセットを用いた実験で，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.26616
MedVol-R1：報酬駆動型エビデンスグラウンディングによるボリューム推論セグメンテーション [cs.CL, cs.HC, cs.CV, cs.AI]目的：3D医用スキャンにおける臨床クエリに基づくターゲット領域のセグメンテーション
- 医療画像解析は，疾患の診断，治療計画，予後予測において不可欠な役割を果たす。
- 従来のセグメンテーション手法は，言語とマスクデコーディングの間の結合が不透明であり，汎化性能が低い。
- 言語とボリュームの関連性を明確化し，より解釈可能で汎用性の高いセグメンテーション手法を開発する。
- MedVol-R1は，強化学習を用いてエビデンスグラウンディングとボリュームの輪郭抽出を分離することで，より解釈可能なモデルを実現した。
- 2Dエビデンスアンカー（主要な軸断面と2Dバウンディングボックス）に基づき，3Dマスクを生成するMedSAM2モジュールを効果的に活用した。
- CT-ORG，AbdomenCT-1K，KiTS23のベンチマークにおいて，最先端の性能を示し，強化学習が純粋な教師あり学習よりも優れていることを実証した。
Link: https://arxiv.org/abs/2605.26621
MSCGC-KAN：多重スケール因果グラフ畳み込みとコルモゴロフ・アーノルド特徴写像による脳波感情認識 [cs.CV]目的：脳波に基づく感情認識の精度向上
- 感情認識は，人間とコンピュータ間の自然なコミュニケーションを実現する上で重要な技術である。
- 既存手法では，脳波の多重スケールな時間的変動やチャンネル間機能的接続の活用が不十分である。
- 事前学習済みモデルの表現力を維持しつつ，感情に関連する時空間パターンに敏感な分類器を構築する。
- 提案手法MSCGC-KANは，多重スケール因果グラフ畳み込みとコルモゴロフ・アーノルド特徴写像を組み合わせた構造化タスクヘッドを導入することで，感情認識性能を向上させた。
- 公開データセットFACEDにおいて，balanced accuracyが60.66%，Cohen's Kappaが0.5525，weighted F1-scoreが60.40%を達成した。
- また，SEED-VIIデータセットにおいても，CBraMod+Linearベースラインと比較して，balanced accuracyをそれぞれ5.91%と2.03%改善した。
Link: https://arxiv.org/abs/2605.26624
DelowlightSplat：低照度3Dシーン再構成のためのフィードフォワードガウススプラッティング [cs.CV]目的：低照度環境下におけるクリーンな新規視点レンダリングを実現するためのガウススプラッティングフレームワーク
- ロボティクスやAR/VRにおいて，3D再構成は重要な技術であり，現実世界の理解とインタラクションに不可欠である。
- 低照度環境下では，ノイズや色ずれにより，従来のフィードフォワードガウス再構成は信頼性の高い結果を得ることが難しい。
- 本研究は，低照度環境下でも高精度な3D再構成を可能にする新しいフレームワークを提案することで，この課題を解決する。
- DelowlightSplatは，低照度環境下において，既存のフィードフォワード法および二段階パイプラインと比較して，大幅な性能向上を達成した。
- 軽量なLowlight Adapterを用いることで，特徴点のマッチング精度を向上させ，ノイズの影響を軽減することに成功した。
- 低照度環境に特化したマルチビューコストボリューム推論により，クリーンな3Dガウスを直接予測することが可能となった。
Link: https://arxiv.org/abs/2605.26629
腹腔鏡下肝臓ランドマーク検出のための減衰に強い交互最適化 [cs.CV]目的：腹腔鏡下肝臓手術における解剖学的ガイダンスのための肝臓表面ランドマークの検出
- 腹腔鏡下肝臓手術の精度向上には，肝臓のランドマークを正確に検出することが不可欠である。
- 低照度領域の減衰やピクセル単位での局所化と連続的な曲線形状との不一致が課題である。
- 減衰の影響を軽減し，正確な曲線形状を捉えることで，より信頼性の高いランドマーク検出を実現する。
- 提案手法A2ONetは，照明場補正ブロックにより暗い領域を強調し，構造の一貫性を維持する。
- 軽量な周波数・方向選択フィルタにより，繰り返しテクスチャの干渉を抑制し，特徴的な曲線構造を保持する。
- 密なセグメンテーションと明示的な曲線モデリングを交互に最適化するASCOデコーダにより，継続性とエンドポイントの局所化を改善する。
Link: https://arxiv.org/abs/2605.26630
JetViT：ポストトレーニング注意探索による効率的な高解像度Vision Transformer [cs.CV, cs.AI]目的：高解像度画像における推論効率の向上
- 画像認識の分野では，高解像度画像の処理が重要であり，計算コストが課題となる。
- Transformerモデルは高精度だが，高解像度画像では計算負荷が大きく，実用性に課題がある。
- 既存のモデルを効率化し，高解像度画像における推論速度と精度を両立することを目指す。
- JetViTは，既存のVision Transformerモデルと同等の精度を維持しつつ，推論効率を大幅に向上させる。
- ポストトレーニング注意探索により，冗長なfull-attentionブロックを効率的なブロックに置き換える。
- NVIDIA H100 GPU上で，JetViTは最大1.79倍のスループットと最大44.81%の低レイテンシを実現した。
Link: https://arxiv.org/abs/2605.26636
OmniRetriever：融合を教師とする知識蒸留によるあらゆる種類の音声・映像・テキスト検索 [cs.CV]目的：音声・映像・テキストの検索性能向上
- 多様なメディアを統合的に扱う検索システムの重要性が増している。
- 既存手法では，複数のメディア情報を同時に活用できていない。
- 融合情報を教師として活用し，各メディアの表現能力を高める。
- 提案手法 OmniRetriever-7B は，クロスモーダル検索のベンチマークで Gemini Embedding 2 を上回る性能を示した。
- 特に，Clotho と SoundDescs において，R@1 で 13.3-18.0% の改善が見られた。
- 新たに公開したベンチマーク OmniRetriever-Bench においても，既存手法を大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2605.26641
未知のエージェント構成に対する適応不要の異種協調知覚 [cs.CV]目的：未知のエージェント構成下での協調知覚の実現
- 自動運転やロボティクスにおいて，周囲環境の正確な把握は安全な走行・作業に不可欠である。
- 既存の協調知覚手法は，協調エージェントの構成が固定されていることを前提としており，現実世界の多様な環境への対応が困難である。
- 本研究は，新たなエージェント構成が現れた場合でも，追加学習なしに協調知覚を可能とするフレームワークを提案する。
- 提案手法ALFは，軽量なボックスレベルのメッセージをエゴ車両互換の補助特徴に変換することで，未知のエージェントとの協調を可能にする。
- V2X-Realデータセットにおける実証実験で，ALFは既存の最先端手法を相対的なmAP@0.7で35.91%上回る性能を示した。
- ALFは，エージェントあたりフレーム120バイトという低帯域幅（10Hzで約9.6Kbps）で動作するため，実用的な展開に適している。
Link: https://arxiv.org/abs/2605.26642
DV-SFT：ファインチューニングによる直接視覚的監督 [cs.CV]目的：ファインチューニングのための直接視覚的監督手法
- マルチモーダル大規模言語モデルは，画像とテキストを理解する上で重要であり，その性能向上が求められている。
- 従来の視覚情報の最適化は間接的であり，詳細な視覚理解が困難であるという課題があった。
- 視覚トークンに対して直接的な監督信号を与えることで，より詳細な視覚理解を達成することを目指す。
- 本研究で提案するDV-SFTは，OCR関連タスクにおいて視覚トークンに直接的なラベルを与え，テキストと同様に学習する。
- DV-SFTは，モデルのアーキテクチャ変更や追加の計算を必要とせず，既存のモデルをブラックボックスとして活用できる。
- 実験結果から，DV-SFTは標準的なSFTよりも優れた性能を示し，詳細な視覚理解とマルチモーダルアラインメント効率の向上に貢献することが示された。
Link: https://arxiv.org/abs/2605.26656
事前学習済み視覚言語モデルを用いた，事後分布外検出における様相差の尊重 [cs.CV, cs.AI]目的：分布外検出の信頼性向上
- 機械学習モデルの信頼性確保が重要であり，未知の入力に対する検出が求められている
- 既存手法では，テキスト埋め込みをクラスのプロトタイプとして用いるが，視覚的プロトタイプとのずれが生じている
- 事前学習済みモデルの予測とテストデータを用いて，視覚特徴空間でクラスプロトタイプを学習することで，様相差を解消する
- 提案手法は，オンライン疑似教師あり学習フレームワークにより，分布外検出における最先端の性能を達成した
- 理論的保証により，オンライン最適化手続きの収束性が確認されている
- テキストをプロトタイプとする既存手法の課題である，視覚的プロトタイプとのずれを解消する
Link: https://arxiv.org/abs/2605.26661
イベントカメラからの音声生成：イベントから音声を聴くことは可能か [cs.DB, cs.DC, cs.MM, cs.SD]目的：イベントカメラを用いた表現豊かな音声生成手法
- 感情豊かな音声生成は，人間と機械の自然なコミュニケーションに不可欠である。
- 従来のRGBカメラでは，高速な構音運動の捕捉が難しく，音声の細かなニュアンスが失われやすい。
- イベントカメラの特性を活かし，従来の制約を克服することで，より自然で感情豊かな音声生成を目指す。
- 提案手法EventSpeechは，イベントカメラと多スケールオーディオエンコーダを統合し，言語情報と視覚動機を同期させる。
- EVT-SPKという大規模なデータセットを構築し，合成データと実データを用いた評価により有効性を検証した。
- EventSpeechは，既存手法と比較して，感情表現の再現性やモーションブラーへの耐性が大幅に向上することを示した。
Link: https://arxiv.org/abs/2605.26672
ノイズに強い異常検知のためのメモリ蒸留選択 [cs.NI, cs.CV]目的：データ汚染下における異常検知手法
- 産業環境での欠陥検知に不可欠であり，完璧なクリーンデータセットの作成は現実的ではない。
- 既存手法は汚染に敏感であり，ノイズ比率の上昇に伴い性能が著しく低下する。
- ノイズ比率に依存しない，ロバストな異常検知手法を確立すること。
- MeDSは，ランダムサブサンプリングにより部分的なメモリのアンサンブルを構築し，ノイズ比率に影響を受けにくい低域通過フィルタとして機能する。
- 蒸留されたメモリへの距離を再構成スコアネットワークに集約し，そのスコアでフィルタリングされたクリーンデータでファインチューニングを行う。
- MVTecADにおいて40%のノイズ比率で画像レベルAUROC 99.16%を達成し，VisAおよびReal-IADにおいても最先端の性能を示した。
Link: https://arxiv.org/abs/2605.26676
DynFrame：動的フレーム拡張を用いた適応的推論駆動型マルチモーダルフレームワーク [cs.CV, cs.AI]目的：複雑な動画理解のための，動的フレーム拡張を伴う適応的推論駆動型マルチモーダルフレームワークの開発
- 動画理解は，AI分野において重要な課題であり，多様な応用が期待されている。
- 既存の動画理解システムでは，フレームサンプリング密度が固定されており，効率的な情報取得が困難である。
- 本研究は，学習可能なフレームサンプリング密度を用いて，効率的かつ高精度な動画理解を実現することを目指す。
- 提案手法DynFrameは，動画内のどの部分をどの程度の密度でサンプリングするかを学習可能にすることで，一度の検索ステップで多粒度な証拠を獲得する。
- DynFrameは，DM-CoT-74kおよびDM-RL-45kデータセットで学習し，NExT-GQAなど6つのベンチマークで，強力な7B-8Bベースラインに匹敵する性能を示した。
- DynFrame-8Bは，多くの指標において最先端の性能を達成し，動画理解の新たな可能性を拓く。
Link: https://arxiv.org/abs/2605.26680
SteelDS：E40鋼スクラップの高解像度ビデオデータセット - 物体検出とインスタンスセグメンテーション [cs.RO, cs.CV]目的：E40鋼スクラップの物体検出とインスタンスセグメンテーションのための高解像度ビデオデータセット
- 鉄鋼リサイクルの効率化が求められる中で，異物混入の自動検出が重要である。
- 従来のスクラップ選別は人手に頼る部分が多く，効率性とコストに課題がある。
- 鋼スクラップに含まれる銅などの異物を自動で高精度に検出・除去する技術開発に貢献する。
- 本データセットは，高解像度なアノテーション付きのE40鋼スクラップのビデオシーケンスを提供する。
- これにより，機械学習モデルを用いた材料分類，物体検出，インスタンスセグメンテーションの開発を支援する。
- 現実的な産業選別条件を模倣した，オブジェクトの配置や密度変化も含まれている。
Link: https://arxiv.org/abs/2605.26682
PinPoint：情報豊かな内部点を用いたプロンプティング [cs.CV, cs.CL]目的：参照画像セグメンテーションにおけるプロンプトの質の向上
- 画像と言語を結びつける研究は，画像認識と自然言語処理の融合に不可欠である。
- 既存手法では，VLMとSAMの連携において，曖昧なプロンプトが性能低下の要因となっている。
- 曖昧さを解消する内部点の選択方法を改善し，学習不要で高性能なプロンプティングを実現する。
- 提案手法PinPointは，4つの視覚的特徴を融合し，境界付近を避け，空間的に多様な内部点を選択する。
- わずか2回のVLM呼び出しで，教師あり学習や強化学習で調整された専門家と同等の性能を達成する。
- RefCOCO/+/gデータセットにおいて，cIoUが12-18ポイント向上し，高い汎用性を示す。
Link: https://arxiv.org/abs/2605.26689
第三次SO(3)表現の結合による回転不変球面ウォーターマーキング [cs.CV, cs.AI, cs.CR, cs.LG]目的：全天球画像に対する信頼性の高いウォーターマーク埋め込み
- 全天球画像は広く利用され，その保護が重要となっている。
- 従来のウォーターマーク技術は，全天球画像の回転に対する脆弱性が課題である。
- SO(3)群の表現論に基づき，回転不変な特徴量を構築し，ウォーターマークの信頼性を高める。
- 本研究では，テンソル積を用いて高次のSO(3)既約表現を結合し，回転不変な二分光スペクトルを導出した。
- これにより，位相情報を保持しつつ，任意の3D回転に対して厳密に不変なウォーターマーク埋め込みが可能となった。
- 理論的証明と実験結果から，提案手法が連続的な回転に対して高いロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2605.26702
METATR：自動テキスト認識のための多言語進化型ベンチマーク [cs.CV]目的：自動テキスト認識モデルの評価と選択
- 現実世界の多様な文書に対応できるATR技術は，デジタル化や情報検索に不可欠である。
- 既存のベンチマークは英語の印刷物に偏っており，実用的な文書への適用範囲が限定される。
- METATRは，多様な文書を用いた多言語評価により，実用的なATRモデルの選択を支援する。
- METATRは，29言語・多様な文字種・レイアウトを含む大規模な多言語ベンチマークである。
- プロプライエタリモデルは一貫して高い性能を示すものの，文字種やレイアウトによってばらつきが見られた。
- 標準化されたプロンプトや正規化手法を定義し，再現性と拡張性を確保した評価フレームワークを構築した。
Link: https://arxiv.org/abs/2605.26712
ストリートレベル画像における2D-3Dセグメンテーションと関連付け [cs.CV]目的：ストリートレベル画像からの2D-3Dセグメンテーションと関連付けの統合的フレームワーク
- 都市マッピングやSpatial Digital Twin環境構築において，ストリートレベル画像の正確な解釈は不可欠である。
- 従来の追跡手法は時間的な連続フレームに依存するため，視点や環境変化に弱いという課題がある。
- 多視点幾何学的推論とゼロショット検出により，安定したクロスビュー対応付けを実現し，頑健な識別を可能とする。
- 提案手法は，従来の2D追跡手法と比較して，真値シーケンスのカバー率が大幅に向上し，識別保持率も高い。
- 特に困難な都市環境において，最先端技術を22%上回る性能向上を達成した。
- 2Dテクスチャとグローバルな3Dコンテキストを組み合わせることで，大規模なストリートレベル処理に適している。
Link: https://arxiv.org/abs/2605.26725
参照画像に基づくハイブリッド照明特性を用いた露出補正学習 [cs.CV]目的：参照画像に基づく露出補正のフレームワーク
- 写真や映像の品質において，適切な露出は重要な要素である。多様な環境下での自然な表現が求められる。
- 照明条件の変動により，画像間の露出にばらつきが生じ，一貫性のある処理が困難となる場合がある。
- 多様な照明環境下でもロバストに動作する，露出の一致と詳細保持を両立する手法を開発する。
- HICNetは，軽量なエンコーダを用いて画像から照明情報を抽出し，参照画像との差分を用いて露出を補正する。
- FiLMベースの調整とPhotometric Channel Rebalancingを組み合わせることで，シーンの詳細を保持しながら露出を一致させる。
- グランドトゥルースや内在的分解を必要とせず，既存のベンチマークで高い精度を達成し，未知のシーンにも汎化可能である。
Link: https://arxiv.org/abs/2605.26729
CIRCLED：ドメイン横断的多岐にわたる対話履歴を持つ画像検索データセット [cs.CV]目的：多岐にわたるドメインにおける一貫性のある対話履歴を持つ画像検索データセット
- 画像検索技術は，多様な分野で利用が拡大しており，その重要性は増している。
- 既存の多岐にわたる対話履歴を持つ画像検索データセットは，対話の一貫性が低く，ファッション分野に限定されている。
- 本研究は，ファッション分野に限定されない，より高品質で汎用的なデータセットを提供することで，この問題を解決する。
- CIRCLEDは，FashionIQ，CIRR，CIRCOを拡張し，22,608の対話セッションを収録した大規模なデータセットである。
- 各対話ターンにおいて，クエリが徐々に目的画像に近づくように設計されており，対話の一貫性が高い。
- 複数のベースライン手法による評価により，CIRCLEDの有効性が確認された。
Link: https://arxiv.org/abs/2605.26734
効率的な人体球プロキシを用いた自己交差を考慮した3D人体モーション生成 [cs.CV]目的：3D人体モーション生成における自己交差の抑制
- モーション生成技術は進歩しているが，視覚的な品質が重要課題となっている。
- 最先端の手法でも自己交差が発生し，モーションの自然さを損なう問題がある。
- 自己交差を効率的に検出し，モーション生成時にペナルティを与える手法を開発する。
- 提案手法では，人体形状を球で近似することで，自己交差損失の計算を高速化し，メモリ使用量を削減した。
- MDMやMoMaskといった既存手法に適用した結果，自己交差の発生頻度が最大49%減少した。
- 他の評価指標においても改善が見られ，生成モーションの品質向上に貢献した。
Link: https://arxiv.org/abs/2605.26744
一度だけで完了：マルチモーダル命令チューニングのための，一度学習していつでも選択可能なフレームワーク [cs.CV]目的：マルチモーダル命令チューニングにおける効率的なデータ選択
- 近年，画像とテキストを組み合わせたモデルの性能向上に，命令チューニングが不可欠となっている。
- 命令データは冗長性が高く，効果的なデータ選択が効率的な学習の鍵となるが，計算コストが高い。
- ターゲットモデルやデータセット変更時に，再計算コストを削減する汎用的なデータ選択手法を確立する。
- OFAは，一度学習したセレクターを再学習なしに異なるデータセットやモデルに適用できる。
- 15%のデータを選択するだけで，フルデータと同等の性能を10個のベンチマークで達成した。
- Vision-Flan-186Kでは，フルデータでの学習を10.6%上回り，汎用性の高さを実証した。
Link: https://arxiv.org/abs/2605.26761
経腟超音波画像における帝切開瘢痕欠損のセグメンテーション：データセットとベンチマーク [cs.CV]目的：経腟超音波画像における帝切開瘢痕欠損のセグメンテーションのためのデータセットとベンチマークの提供
- 帝切開後の合併症として頻発であり，早期発見と適切な治療が重要である。
- 欠損が小さく不整形であるため，熟練した超音波検査士でも見落としが起こりやすい。
- AI技術を活用し，帝切開瘢痕欠損の正確な診断を支援するための基盤を構築する。
- 1,111枚の画像と16本の動画を含む包括的なデータセットを構築し，501件の陽性サンプルを提供した。
- 経験豊富な超音波検査士と博士課程の学生が協力し，標準化された臨床ガイドラインに基づいて正確なアノテーションを行った。
- 本研究は，医療画像セグメンテーションアルゴリズムの発展と臨床的イノベーションを促進するための高品質なベンチマークリソースを提供する。
Link: https://arxiv.org/abs/2605.26774
カルマン進化：解釈可能なアルゴリズム探索によるカルマンフィルタのギャップ克服 [cs.RO, cs.LG, cs.AI, cs.CV]目的：カルマンフィルタの性能向上
- 制御および信号処理において状態推定は不可欠であり，カルマンフィルタは最適な解を提供する。
- 現実的なセンシング環境では線形性やガウス性などの仮定が成り立たず，性能劣化が生じる。
- カルマンフィルタの更新構造を最適化することで，性能ギャップを埋めることを目指す。
- カルマン進化は，ノイズパラメータと更新構造を同時に最適化するフレームワークである。
- 大規模言語モデルを活用し，カルマンフィルタの再帰性を維持しつつ，解釈可能な非アフィンな変更を生成する。
- ドップラーレーダーやLiDAR等の実世界ベンチマークにおいて，従来のカルマンフィルタよりも最大12％ RMSEを低減した。
Link: https://arxiv.org/abs/2605.26830
OSMa-Bench++：プロンプト生成された合成シーンを用いた操作のためのセマンティックマッピングのオープンエンドなベンチマークに向けて [cs.CV, cs.RO]目的：操作のためのセマンティックマッピングのオープンエンドなベンチマークフレームワーク
- ロボットの知能向上には，周囲環境の正確な理解が不可欠であり，セマンティックマッピングはその基盤技術となる。
- 既存のベンチマークデータセットは，操作に関連するコーナーケースの網羅性が低く，汎化性能の評価が困難である。
- プロンプトに基づいた合成シーンを生成し，セマンティックマッピングの評価を拡張することで，より現実的な環境下での性能を検証する。
- OSMa-Bench++は，プロンプト生成された合成シーンを用いて，セマンティックマッピングのベンチマークを拡張するパイプラインを開発した。
- シーン記述の自動生成，SceneSmithによる環境合成，OSMa-Bench互換のシミュレーション形式への適応を行うことで，ベンチマークの再現性と拡張性を高めた。
- プロンプト情報を活用したVQAコンポーネントを拡張し，クラッタ，小さな物体，遮蔽，照明変化などの条件に対するセマンティックマッピングの性能を評価できるようになった。
Link: https://arxiv.org/abs/2605.26831
レシートリプレイOOD：ドメインシフト下における画面リプレイ検出のための小規模ベンチマーク [cs.CV]目的：画面リプレイ検出におけるドメインシフト下での性能評価
- 本人確認書類のプレゼンテーション攻撃検出は，セキュリティ上重要な課題である。
- 現実的なドメインシフト下における，OOD（分布外）データの頑健性評価が不十分である。
- ドメインシフトが汎化性能に与える影響を評価するためのベンチマークデータセットの提供。
- レシートを対象とした新たなベンチマークデータセット「Receipt Replay OOD」を公開した。
- ドメインを跨いだ条件での評価により，ドメインシフトが検出性能に大きな影響を与えることを示した。
- レシートは本人確認書類と類似点が多い一方で，個人情報保護の制約を受けにくいという利点がある。
Link: https://arxiv.org/abs/2605.26855
REVERSE：エージェント的画像位置特定のための証拠検証と検索の強化 [cs.HC, cs.DM, cs.CV]目的：画像位置特定における証拠検索と検証の相互作用を強化するフレームワーク
- 画像位置特定は，写真が撮影された場所を特定する重要な技術であり，観光，地理情報，災害対応などに応用可能である。
- 既存手法は，検索場所の決定，クエリの作成，ノイズの多い結果のフィルタリングといった中間的な判断に対する監督が不十分である。
- 本研究は，証拠検索と検証を繰り返すことで，より正確でロバストな画像位置特定を実現することを目的とする。
- REVERSEは，どこを見るか，何をクエリするか，どの証拠を信頼するかという3つの決定を強化学習で学習する。
- 40億パラメータのモデルを用いて，Im2GPS3kおよびYFCC4kデータセットにおいて，既存のRetrieval-Augmentedモデルを上回り，より大規模なモデルに匹敵する性能を達成した。
- オフライン検索キャッシュを用いることで，ノイズの多い検索結果に対する密な監督が可能となり，学習の安定性と再利用性を向上させている。
Link: https://arxiv.org/abs/2605.26861
RoadGIE：汎用的なインタラクティブ道路抽出のためのグローバル規模航空画像ベンチマークに向けて [cs.CV]目的：汎用性の高い道路抽出のためのグローバル規模航空画像ベンチマークの確立
- 地理空間アプリケーションにおいて，正確な道路セグメンテーションは不可欠な要素である。
- 既存のデータセットは，シーンの多様性，セマンティックな粒度，構造的な連続性に課題を抱えている。
- 多様かつ複雑なシーンにおける道路抽出の精度とトポロジーの一貫性を向上させる。
- 本研究では，38カ国223都市から収集された366,947枚の高解像度画像を含む大規模で多様な道路セグメンテーションデータセットWorldRoadSeg-360Kを公開した。
- RoadGIEは，クリックやスクリブルなどのトポロジーを考慮したプロンプトをサポートする新しいインタラクティブなパラダイムを確立した。
- WorldRoadSeg-360Kおよび他のベンチマークにおいて，RoadGIEは最先端のセグメンテーション精度とトポロジーの一貫性を示し，わずか3.7Mパラメータで効率的に動作する。
Link: https://arxiv.org/abs/2605.26862
単眼動画からの高次時間的ダイナミクス整列による自然な人体動作の復元 [cs.CV]目的：単眼動画からの自然な人体動作復元
- コンピュータビジョン分野において，人体動作の理解は，ロボット工学やVR/AR等の応用において不可欠である。
- 単眼動画からの人体動作復元は，深度情報の欠如により，滑らかすぎたり，時間的に不整合が生じやすいという課題がある。
- 本研究は，速度や加速度といった高次時間的ダイナミクスを活用し，より自然で物理的に妥当な人体動作復元を目指す。
- 提案手法HTD-Refineは，既存の人体動作復元パイプラインに対し，推定された高次時間的ダイナミクスを制約として加えることで，ジッターを低減し，過剰な平滑化を抑制する。
- PVA-Netは，単眼動画から関節ごとの2D位置，3D速度，3D加速度を直接推論し，その予測ダイナミクスが世界空間軌道の最適化に役立つ。
- 実験結果から，HTD-Refineは最先端の人体動作復元手法を改善し，より正確な軌道と自然な動作ダイナミクスを実現することが示された。
Link: https://arxiv.org/abs/2605.26879
産業リサイクルにおける小物体検出：新規データセットとYOLO性能評価 [cs.CV, cs.DB]目的：産業リサイクルにおける小物体検出の性能評価
- 産業界における自動化・効率化のニーズに応えるため，画像認識技術の応用が不可欠である。
- リサイクルプロセスでは，小物体が多く密集しており，従来の画像認識技術では検出が困難である。
- 本研究は，リサイクルプロセスにおける小物体検出の精度向上を目指す。
- 新たなデータセット（10k画像以上，120kインスタンス）を用いて，複数の深層学習ベースの物体検出システムを比較評価した。
- データ拡張や合成画像が，小物体検出の性能向上に有効であることが示された。
- 画像解像度やズームレベルの変化に強い異常検知戦略が，産業用途において信頼性の高い性能を発揮することが確認された。
Link: https://arxiv.org/abs/2605.26884
SIMPC：教師なし点群ノイズ除去のための自己誘起鏡像点一致学習 [cs.CV]目的：点群ノイズ除去における自己誘起鏡像点一致の学習
- 点群データは3次元形状の表現に不可欠であり，自動運転やロボティクスなど広範な応用分野で利用されている。
- 点群データ特有のノイズは位置情報と幾何情報を同時に擾乱し，画像処理に比べて対応関係の構築が困難である。
- ノイズの影響を受けにくい安定した特徴量を学習し，点群データのノイズ除去性能を向上させることを目指す。
- SIMPCは，ノイズ点と基礎表面の間の決定的な対応関係を教師なしで学習する。
- 各ノイズ点に対し，幾何学的事前知識に基づいて基礎表面の反対側に鏡像点を生成し，一貫性を促す。
- 合成データおよび実データを用いた実験により，SIMPCが最先端の教師なし手法を大幅に上回り，強力な教師あり手法をも凌駕することが示された。
Link: https://arxiv.org/abs/2605.26894
画像駆動型点群補完：反復精緻化によるアプローチ [cs.CV]目的：単一のRGB画像からの点群補完
- 3次元物体の理解は，ロボティクスやコンピュータビジョンにおいて重要な課題である。
- 部分的に観測された点群データからの完全な形状復元は困難を伴う。
- 画像情報のみから高精度な点群を生成し，形状復元の精度向上を目指す。
- 画像から直接点群を再構成するI2Pモジュールを導入し，3次元入力の必要性をなくした。
- TransformerベースのP2Pモジュールを用いて，点と画像特徴間の自己・交差注意機構により点群を反復的に精緻化する。
- ShapeNet-ViPCデータセットにおいて，既存手法と比較して12.3%のChamfer Distance改善を達成した。
Link: https://arxiv.org/abs/2605.26914