arXiv雑要約

画像・音声 - 2026/05/29 公開

  • 時間行動認識のためのマスク拡散ビジョン言語モデル [cs.CV]目的:時間行動認識におけるイベントの認識と,未編集動画内での開始・終了時間の正確な特定
    • 動画理解の高度化は,監視,ロボティクス,コンテンツ解析など,多岐にわたる応用分野において重要である。
    • 従来の逐次的なデコーダーでは,後続の文脈情報を活用して初期予測を修正することが困難であった。
    • 双方向アテンションによる反復的なノイズ除去を通して,時間境界と意味内容を同時に改善することを目指す。
    • マスク拡散ビジョン言語モデル(MDVLM-TAL)は,既存のビジョン言語モデルと比較して,時間的推論と境界局在化の性能を向上させた。
    • 特に,厳格な時間的IoU基準下において,顕著な改善が見られた。
    • 境界を考慮したマスキングとステップ重み付き再構成により,時間トークンの遅延回復を効果的に学習した。

    Link: https://arxiv.org/abs/2605.29858

  • Ciphera:分散型生体認証アイデンティティフレームワーク [cs.RO, cs.AR, cs.CR, cs.CV, cs.DC]目的:分散型生体認証アイデンティティフレームワークの実現
    • 個人情報保護の重要性が増す中,生体認証システムの安全な運用が求められている。
    • 集中型システムは単一障害点や生体情報の漏洩リスクを抱える点が課題である。
    • 分散型技術を活用し,プライバシーを保護しつつ安全な生体認証を実現することを目指す。
    • Cipheraは,プライバシー保護型顔認識,多ノード検証,IPFS,ブロックチェーンを組み合わせた。
    • 機能テストでは81%の成功率,検証遅延は95パーセンタイルで820msであった。
    • セキュリティ分析は機密性と完全性を確認したが,ライブネス検出の不備が課題として残った。

    Link: https://arxiv.org/abs/2605.29868

  • 次世代LLMエージェントシステムの協力関係の進化ダイナミクス:クロスプロバイダー実証的拡張 [cs.MA, cs.AI, cs.GT]目的:次世代LLMエージェントにおける協力関係の進化と,プロバイダー間の均衡行動の変化
    • LLMエージェントの自律性と協調性は,複雑なタスクの効率的な遂行に不可欠である。
    • 先行研究では,LLMエージェントに協力的なバイアスが見られるものの,大規模モデルや多様なプロバイダーの影響は不明である。
    • 本研究は,次世代LLMエージェントにおける協力バイアスの有無と,プロバイダーやプロンプトの影響を検証する。
    • ChatGPT-4oとClaude 3.5 Sonnetにおいて一貫した協力バイアスが確認された先行研究を拡張し,Claude Sonnet 4.6,Gemini 2.5 Flash,Gemini 3.1 Pro,GPT-5.4 Miniの4つの最先端モデルを評価した。
    • プロバイダー間で均衡行動に大きな違いが見られ,Gemini 2.5 Flashはバイアス条件下で攻撃的な均衡に達する割合が高く,GPT-5.4 MiniはSelf-Refineプロンプト下で協力的な均衡に達する割合が高かった。
    • Self-Refineプロンプトは全モデルにおいて攻撃的な度合いを高めたが,DefaultやProseプロンプトでは顕著な差は見られなかった。ノイズに対するロバスト性は改善傾向にあるものの,統計的な有意差は認められなかった。

    Link: https://arxiv.org/abs/2605.29874

  • DGSG-Mind:長期的なシーン理解とグラウンディングのための動的3Dガウスシーングラフ [cs.CV, cs.RO]目的:動的3Dシーン表現へのオープンボキャブラリーセマンティック情報の統合
    • ロボットの自律的な行動において,周囲の環境を正確に理解することは不可欠である。
    • 既存手法では,視点間の情報が不完全なため,インスタンスの関連付けが不安定になりやすい。
    • 本研究は,オブジェクトレベルのトポロジー変化に対応し,長期的なタスク実行を可能にすることを目指す。
    • DGSG-Mindは,自己再構成マップ上で動作する手法の中で,3DVGパフォーマンスにおいて最高の結果を達成した。
    • 3Dオープンボキャブラリーセマンティックセグメンテーションとシーン再構成においても高い性能を示した。
    • 実世界のロボットを用いた実験により,目標指向の推論と動的な更新能力が実証された。

    Link: https://arxiv.org/abs/2605.29879

  • 視覚言語モデルにおけるハルシネーションの軽減:バリア制御適応閉形式操舵による手法 [cs.CV, cs.AI]目的:視覚言語モデルにおけるハルシネーションの軽減
    • 画像とテキストを理解する視覚言語モデルは,多様な応用が期待され,急速に発展している分野である。
    • モデルが入力画像に存在しない物体を幻覚 (ハルシネーション) してしまうことが課題となっている。
    • 視覚情報の基盤を強化し,幻覚を抑制するための効率的な手法を開発する。
    • 本研究では,バリア制御適応閉形式操舵 (BRACS) という学習不要な手法を提案し,モデルの注意機構を監視することで視覚情報の基盤が弱体化した場合にのみ修正を加える。
    • 実験の結果,BRACSは既存手法と比較して幻覚のベンチマークにおいて優れた性能を示し,CHAIR$_s$を9.4ポイント,POPE F1を2.7ポイント低減した。
    • また,BRACSは汎用マルチモーダルベンチマークにおいても同等またはより高い性能を維持し,効率性も高いことが示された。

    Link: https://arxiv.org/abs/2605.29881

  • DVSM:正しく実装されたデコーダのみによるビュー合成モデル [cs.CV]目的:ビュー合成の性能向上
    • リアリティのある3Dコンテンツ生成への応用が期待され,分野の発展に不可欠である。
    • 既存モデルはパラメータ数が多く,計算コストが高いという課題がある。
    • デコーダのみのアーキテクチャで効率と品質のバランスを改善すること。
    • デコーダのみのアーキテクチャが,同じ計算量でエンコーダ・デコーダ型モデルを上回る性能を示すことが示された。
    • カラー画像とカメラ位置のみで特徴を整合させることで,ビュー合成の精度が向上する。
    • DVSMは複数のベンチマークで最先端の性能を達成し,密な入力ビュー下での3DGSをも上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.29891

  • エージェントを訓練し,専門家を訓練しない:マルチターン視覚的推論のための異種専門家の活用学習 [cs.CV]目的:異種視覚専門家群の活用
    • 視覚技術の多様化が進み,検出,セグメンテーション等の専門モデルが多数存在する。
    • 各モデルは特定のタスクに最適化されており,複雑な推論や小物体認識を伴う汎用的な視覚知能には限界がある。
    • 汎用的な視覚エージェントが,専門モデルを効果的に活用する方針を学習することを目指す。
    • VisHarnessは,高レベルの知覚・推論・意思決定と,低レベルのタスク実行を分離した学習可能な視覚エージェントである。
    • 軽量な訓練で,汎用的な専門家活用ポリシーを学習し,複雑な条件下で様々な視覚タスクを解決できる。
    • 動的な視覚メモリアーカイブにより,多段階インタラクションによる視覚トークンオーバーヘッドを軽減し,効率的な強化学習を実現した。

    Link: https://arxiv.org/abs/2605.29894

  • 宇宙推進フィルム冷却解析における実験的テスト数の削減:ピクセル単位の生成画像補間 [cs.LG, cs.CV]目的:宇宙推進システムのフィルム冷却研究のための,疎な実験測定値からの画像回帰
    • 宇宙推進システムの効率向上は,宇宙開発の根幹であり,その冷却技術は不可欠である。
    • 従来のフィルム冷却解析は,広範囲な実験的テストを必要とし,時間とコストがかかるという課題がある。
    • 実験的テスト数を削減しつつ,高精度なデータを得ることで,冷却システムの最適化を効率化すること。
    • 提案手法は,実際の実験データと合成データを用いて検証され,高い画像類似性(RMSE < 8 %, SSIM > 93 %)を達成した。
    • 測定値を30 %削減しながら,精度の維持が可能であり,実験的テストの必要性を大幅に低減できることが示された。
    • 知識に基づいた拡張により,生成画像の局所適応性が向上し,航空宇宙分野以外への応用も期待できる。

    Link: https://arxiv.org/abs/2605.29911

  • 治療条件付き拡散モデルによる神経変性疾患進行予測 [cs.LG, cs.CV]目的:神経変性疾患の進行予測に関する研究
    • 神経変性疾患の長期計画や個別化治療には,正確な進行予測が不可欠である。
    • 既存手法は画像構造を無視した臨床スコアに依存,生成モデルは解像度と詳細なパターン認識で課題がある。
    • 高精度な脳状態予測と,臨床的な信頼性の向上を目指す。
    • 治療条件付き拡散モデルは,DaTscan画像とレボドパ投与量に基づき,高精度な脳状態を予測する。
    • Transformerエンコーダーで薬物動態を表現し,重要領域マスクで生成を最適化する。
    • MSE,MAEが改善,SSIMも向上し,解剖学的構造と臨床的忠実度を高めた。

    Link: https://arxiv.org/abs/2605.29932

  • CityGen:構造誘導による都市スタイル合成を用いたクロスシティ自動運転 [cs.CV, cs.AI]目的:クロスシティ自動運転における汎化性能向上
    • 自動運転システムの性能は地理的範囲に依存し,異なる都市への展開が課題である。
    • 既存手法はラベル付きデータや都市特有の注釈を必要とし,汎用性に欠ける。
    • ラベル効率の良い都市適応による,自動運転の汎化性能の確立を目指す。
    • 提案手法CityGenは,HDマップと都市レベルの視覚的プロンプトを用いて,ゼロラベルでの都市適応を可能にする。
    • CityTransfer-Benchというクロスシティ汎化を評価するための地理的に分離されたベンチマークを導入した。
    • 実験により,CityGenが複数のタスクにおいてクロスシティのロバスト性を一貫して向上させることが示された。

    Link: https://arxiv.org/abs/2605.29935

  • HoliTok:音声生成と理解のための堅牢な二重能力を備えた連続的包括的トークン化 [cs.SD, cs.AI, eess.AS]目的:音声生成と理解のための包括的トークン化空間
    • 汎用的な音声モデルの発展には,言語モデルで学習可能で,高品質な音声波形に復号可能なトークン化が不可欠である。
    • 既存の音声トークナイザーは,生成と理解の双方を同時に満たせず,複雑なアーキテクチャや学習設計が必要となる。
    • HoliTokは,生成と理解を統合的にモデル化するための,信号レベルの忠実度と意味情報を維持し,学習可能性を高めることを目指す。
    • HoliTokは48kHzの音声を128次元の潜在表現の25Hzシーケンスに効率的に変換する。
    • HoliTokに基づくAR+DiTモデルは,高品質で制御可能な音声合成と音声認識を可能にする。
    • 他の表現と比較して,HoliTokは追加の最適化なしで統合的な生成・理解アーキテクチャで堅牢に動作する。

    Link: https://arxiv.org/abs/2605.29948

  • メッシュを意識したエピポーラ対応によるバスケットボールにおけるマルチビューマルチパーソン3D姿勢推定 [cs.CV]目的:マルチビューマルチパーソン3D姿勢推定手法
    • チームスポーツの分析において,選手個々の3次元姿勢推定は不可欠である。正確な姿勢推定は,戦術理解やパフォーマンス評価に繋がる。
    • 選手間の遮蔽,ユニフォームによる外観の類似性,アノテーションデータの不足が,学習ベース手法の性能と汎化能力を制限している。
    • 学習を必要とせず,高精度な2Dキーポイント検出とロバストなクロスビュー対応に基づいて,3D姿勢推定の課題を解決する。
    • 提案手法MAEMは,既存の学習不要な対応ベースラインよりも一貫して優れた性能を示した。
    • SportCenter EPFLデータセットでMPJPE/PA-MPJPEスコアがそれぞれ59.8/40.7mm,Human-M3 Basketballデータセットで74.0/51.8mmを達成した。
    • この結果は,クロスビュー対応において,高密度なメッシュ形状が効果的であることを示している。

    Link: https://arxiv.org/abs/2605.29953

  • SwInception -- ローカル注意機構と畳み込みの融合 [cs.CV]目的:医療用ボリュームセグメンテーションにおける効率的なエンコーダの性能向上
    • 医療画像解析において,正確なセグメンテーションは診断や治療計画に不可欠である。
    • Transformerモデルはデータ数が少ない場合に過学習しやすく,汎化性能が課題となる。
    • Swin Transformerの誘導バイアスを強化し,過学習を抑制することを目指す。
    • 提案手法SwInceptionは,11種類の医療データセットで性能が向上した。
    • 特に,Medical Segmentation Decathlon等のベンチマークにおいて,最先端技術を上回る結果が得られた。
    • Swin Transformerの誘導バイアスの改善は,医療画像だけでなく自然画像セグメンテーションにも応用可能である。

    Link: https://arxiv.org/abs/2605.29954

  • EVL-ECG:多角的異質知識蒸留による効率的な心電図解釈 [cs.CV, cs.LG]目的:心電図の効率的な解釈手法
    • 心電図は不整脈の診断に不可欠であり,高精度な解釈が求められている。
    • 大規模モデルは計算資源を多く必要とし,エッジ環境での利用が困難である。
    • 異なる構造を持つモデル間の知識蒸留による軽量化と精度向上を目指す。
    • EVL-ECGは,従来の知識蒸留法の課題を克服し,心電図の微細な特徴や全体的な構造を維持する。
    • 評価実験の結果,既存手法と比較してAUCが最大2.4%,臨床精度が1.1%向上した。
    • 20億パラメータの効率的な心電図基盤モデルを構築し,リソースの限られた臨床環境での利用を可能にした。

    Link: https://arxiv.org/abs/2605.29977

  • 遺伝子情報との整合化により,血液学的診断が向上する [cs.CV, cs.AI, cs.LG]目的:血液学的診断タスクにおける患者表現の改善
    • 血液がんの診断には,細胞観察と遺伝子検査が不可欠であり,両者の統合が重要である。
    • 画像情報と遺伝子情報を効果的に組み合わせる方法論が確立されていない。
    • 遺伝子情報を考慮した患者表現を構築し,診断精度向上を目指す。
    • 遺伝子情報との整合化により,画像レベルの基礎モデルを上回る診断性能が確認された。
    • 疾患や遺伝的変化の検索機能が,オフザシェルフで利用可能となった。
    • 患者表現に遺伝子情報を組み込むことで,臨床ワークフローに合致したAI開発への道が開かれた。

    Link: https://arxiv.org/abs/2605.29980

  • 帰属の Adversarial Robustness 向上:暗黙的正則化によるアプローチ [cs.LG, cs.CV]目的:帰属の Adversarial Robustness
    • 深層学習の信頼性向上には,モデルの解釈可能性が不可欠であり,その鍵となるのが帰属の頑健性である。
    • 既存手法は計算コストが高く,実用性に課題がある。
    • 標準的な確率的勾配降下法における学習ダイナミクスから自然に帰属の頑健性が得られることを示す。
    • 標準的な確率的勾配降下法において,帰属の頑健性が暗黙的に生じることを理論的に示し,実験的に検証した。
    • Softmax正規化を用いたAttentionベースの帰属では,頑健性の向上が見られないことを証明し,実験で確認した。
    • KernelベースのAttentionに置換することで,Transformerモデルにおける頑健性が回復することを示した。

    Link: https://arxiv.org/abs/2605.29983

  • FRUC:非校正協調運転視点からの動的シーン再構築 [cs.CE, eess.SP, physics.med-ph, cs.CV]目的:非校正協調運転視点からの動的シーン再構築
    • 自動運転や拡張現実において,周囲環境の正確な3次元再構築は不可欠である。
    • 複数車両からの情報を統合する既存手法は,精密な空間校正や時間のかかる最適化が必要である。
    • 車両間校正なしに,効率的にオクルージョンを解消し,正確な3次元再構築を実現することを目指す。
    • FRUCは,複数の車両から取得した視点情報を用いて,動的なシーンを効率的に3次元再構築する新しいフレームワークである。
    • エゴ車両中心のオクルージョンフィールドを導入し,クロスエージェント間の幾何学的補完を,残差学習として定式化することで,ロバストな協調ブラインドスポット補完を実現した。
    • 実世界のV2XRealおよびUrbanIng-V2Xデータセットにおける評価で,既存手法を凌駕するレンダリング品質と効率が示された。

    Link: https://arxiv.org/abs/2605.29997

  • EarlyTom:早期トークン圧縮による高速な動画理解の実現 [cs.CV]目的:動画理解における効率性向上
    • 動画LLMは強力だが,大量のビジュアルトークン処理がボトルネックとなっている。
    • 既存手法は圧縮率向上に注力するも,ビジョンエンコーダの効率改善は不十分である。
    • ビジョンエンコーダ内での早期圧縮により,TTFTの短縮とスループット向上を目指す。
    • 提案手法EarlyTomは,ビジョンエンコーダ内での早期トークン圧縮により,大幅なTTFT削減を実現した。
    • LLaVA-OneVision-7Bモデルにおいて,TTFTを最大2.65倍,FLOPsを最大61%削減した。
    • 圧縮後の精度は,フルトークンベースラインと同等の水準を維持しており,実用性が向上した。

    Link: https://arxiv.org/abs/2605.30010

  • VisualThink-VLA:効果的かつ低遅延なビジョン-言語-行動ポリシーのための視覚的中間推論 [cs.CV, cs.AI]目的:視覚的証拠インターフェースを通じた行動予測のブートストラップ
    • ロボットの自律制御において,環境を理解し,適切な行動を決定する能力は重要である。
    • 既存のテキストベースの中間推論は,不要な情報や遅延の問題を抱えている。
    • 視覚的証拠に基づく効率的な中間推論により,行動予測の精度と速度を向上させる。
    • VISUALTHINK-VLAは,複数のベンチマークおよび実ロボット評価において,高い成功率を達成した。
    • 推論に要する時間を,既存手法と比較して大幅に短縮し,リアルタイム制御を可能にした(例:BridgeData V2で22.8倍の高速化)。
    • VisualEvidence-Kitは,視覚的証拠に関する監督と監査のためのリソースを提供し,システムの信頼性を高める。

    Link: https://arxiv.org/abs/2605.30011

  • DocRetriever:包括的なベンチマークを備えたマルチモーダル文書検索のためのプラグアンドプレイフレームワーク [cs.CV, cs.IR]目的:マルチモーダル文書検索のためのフレームワーク
    • 文書検索は情報アクセスにおいて不可欠であり,多様な要素を含む文書への対応が求められる。
    • 既存手法は,詳細な意味情報を捉えきれない粗視点な埋め込みや,ドメイン依存の再ランク付けモデルに課題がある。
    • レイアウト情報を活用した疎な埋め込みと,少ないデータでの汎化性能の高い再ランク付け手法を開発し,評価指標の改善を目指す。
    • DocRetrieverは,OCR処理のオーバーヘッドなしに,レイアウトを考慮した疎な埋め込みにより視覚的な検索を強化する。
    • 推論能力を強化したデモンストレーションと最適化されたサンプリングを用いた汎用的な再ランク付けモデルを導入し,少ないデータでも高い精度を実現する。
    • 新しいベンチマークMultiDocRを構築し,より厳密な評価を可能にする。実験結果は,DocRetrieverが最先端手法を上回ることを示す。

    Link: https://arxiv.org/abs/2605.30027

  • 大規模オーディオ言語モデルにおける音声による脱獄:分類,攻撃・防御分析,およびコストを考慮した評価 [cs.SD, cs.AI, cs.CL]目的:大規模オーディオ言語モデルの脱獄リスクとその対策
    • 音声による対話が普及し,安全性確保の重要性が増している。
    • 脱獄攻撃の評価基準が統一されておらず,対策の比較が困難である。
    • 音声空間の脆弱性を明らかにし,実用的な安全評価手法を確立する。
    • 「Acoustic Best-of-N」攻撃は,最悪のケースにおいて音声空間の脆弱性を露呈する。
    • 「Narrative Framing」攻撃は,低遅延で効果的な意味的脅威となる。
    • 現状の防御策は,堅牢性と使いやすさのバランスに課題がある。

    Link: https://arxiv.org/abs/2605.30031

  • 拡散モデルにおけるテキストと画像の整合性を高めるためのアライメント誘導スコアマッチング [cs.LG, cs.AI, cs.CV]目的:拡散モデルにおけるテキストと画像の整合性向上
    • 近年,拡散モデルは高品質な画像を生成するが,テキストと画像の正確な整合性が課題である。
    • 既存手法は報酬の質に依存し,拡散過程自体の整合性改善には至っていない。
    • スコアマッチングにアライメント誘導を組み込み,過剰な負例へのペナルティを軽減する。
    • 提案手法は,GenEvalベンチマークにおいて計数精度を35%以上向上させた。
    • SoftREPAと同等の性能を維持しつつ,その失敗例を大幅に改善した。
    • SD1.5,SDXL,SD3を含む既存の拡散モデルに容易に適用可能である。

    Link: https://arxiv.org/abs/2605.30038

  • GenEraser:テキストとマスクによるバランスの取れたガイダンスと分離されたロケータ・プリザーバによる汎化可能な動画物体除去 [cs.CV]目的:汎化性と高精度な動画物体およびその影響の除去
    • 動画処理において,動画中の不要な物体除去は重要な技術であり,現実世界の応用範囲は広い。
    • 既存手法は複雑な空間的・時間的な曖昧さから,ドメイン外の状況で物体とそれに伴う物理的効果の除去が困難である。
    • 本研究は,テキストガイダンスと新しいフレームワークによって,既存手法の課題を克服し,汎化性と高精度な除去を実現することを目指す。
    • 提案手法GenEraserは,最新技術を凌駕し,ROSE BenchmarkとVOR-Evalでそれぞれ2.16dB,1.44dBの顕著な改善を達成した。
    • Multi-Conditional Mixture-of-ExpertsとBipartite Text guidanceにより,複雑な効果の識別能力が大幅に向上した。
    • Learnable Deep ``CFG'' FusionとDecoupled Expert Architectureにより,汎化性とピクセルレベルの背景維持のトレードオフを軽減した。

    Link: https://arxiv.org/abs/2605.30045

  • 一貫性のある動画ジオメトリ推定に向けて [cs.CV]目的:動画シーケンスからの空間的に稠密で時間的に一貫性のあるジオメトリの復元
    • 動画理解において,シーンの3次元構造把握は重要な課題であり,様々な応用が期待されている。
    • 既存手法では,動画中のジオメトリ推定において,時間的な一貫性を保つことが困難であった。
    • 本研究は,時間的一貫性を向上させ,様々な動画処理タスクに対応できる汎用的なモデルを提案する。
    • 提案手法ViGeoは,タスク固有の構造変更なしに,ストリーミング,フルシーケンス,長尺動画の推論を統一的に行うことが可能である。
    • ダイナミックチャンキングアテンションを用いることで,ViGeoは学習時に双方向および因果的Temporalコンテキストを利用し,テスト時に再学習なしにアテンションパターンを適応させる。
    • 公開データセットのみで学習したViGeoは,オンライン,オフライン,長尺動画における深度推定,法線推定,点マップ推定において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.30060

  • FakeVLM-R1:CoTによる物理法則の内部化を通じた合成画像検出 [cs.CV]目的:合成画像検出におけるモデルの批判的思考能力の向上
    • 生成AIの進化により合成画像が高度にリアルになり,その識別が困難になっている。
    • 既存手法は模倣学習に依存し,真の因果推論能力や物理法則の理解が不十分である。
    • 物理法則に基づいた批判的思考を取り入れ,より正確で信頼性の高い検出を実現する。
    • FakeVLM-R1は,Supervised Fine-TuningとGroup Relative Policy Optimization,Critical Thinking Chain-of-Thoughtを統合した。
    • 推論時に「双方向弁証法的推論」を行い,偽造仮説と同時に真正性の反証を構築する。
    • FakeClue++データセットの構築により,物理法則に基づいた統一的な真正性アンカーを提供し,SOTA性能を達成した。

    Link: https://arxiv.org/abs/2605.30062

  • 2D事前学習済み知識を用いたゼロショット3Dスタイル変換の性能向上 [cs.CV]目的:ゼロショット3Dスタイル変換における性能向上
    • 3Dコンテンツの生成・編集において,スタイル変換は重要な技術である。
    • 3Dスタイル変換では,学習データ不足が課題であり,汎化性能が低い。
    • 2D事前学習済み知識を活用し,データ不足を補い,スタイル変換の質を向上させる。
    • 大規模2D画像データセットで事前学習したデコーダーを導入することで,十分なデータで学習した効果を活用する。
    • 特徴量ガウススプラッティングと遅延スタイリゼーションを組み合わせることで,高品質かつ一貫性のあるスタイリゼーションを実現する。
    • 提案手法DS-StyleGaussianは,既存のゼロショット3Dスタイル変換手法と比較して,視覚的な品質で優れている。

    Link: https://arxiv.org/abs/2605.30065

  • 生成のためのネイティブなオーディオビジュアルアライメント [cs.CV]目的:同時性と意味的な一貫性を持つ視覚・聴覚コンテンツの合成
    • 近年のマルチモーダル研究の進展により,視覚と聴覚を融合したコンテンツ生成が重要視されている。
    • 既存手法では,オーディオとビデオの微細な連動性や,意味的条件付けと低レベル同期の分離が課題となっていた。
    • オーディオビジュアル間の対応関係を専用の空間で確立し,文脈に応じて共同ノイズ除去を行うことでこの課題を解決する。
    • NAVAは,Verse-BenchおよびSeed-TTSを用いた実験において,優れたビデオ品質と正確なオーディオビジュアル同期を実現した。
    • 競合する手法と同等のオーディオ品質に加え,参照音色の制御性能も向上している。
    • NAVAは,わずか63億パラメータでこれらの成果を達成している。

    Link: https://arxiv.org/abs/2605.30073

  • 将来予測:自己回帰型ビデオ生成のための訓練不要な未来を考慮したKVキャッシュポリシー [cs.CL, cs.NI, cs.ET, cs.CL, cs.CV]目的:自己回帰型ビデオ生成におけるKVキャッシュポリシーの改善
    • ビデオ生成は長時間の高品質な動画生成を可能にする重要な技術である。
    • KVキャッシュのサイズ増加は,メモリ消費と誤差蓄積を引き起こし,長時間の生成を制限する。
    • 未来の情報を活用することで,より効率的なキャッシュ管理を実現し,長時間の動画生成を可能とする。
    • Future Forcingは,KVキャッシュのサイズを削減しつつ,長時間のビデオの一貫性を向上させる。
    • VBench-Longの60秒生成において,既存のKVキャッシュポリシーと比較して,主観的一貫性が最大1.49倍向上した。
    • 訓練を必要とせず,過去の統計情報のみを用いて未来の情報を推定することで,効率的なキャッシュ決定を実現する。

    Link: https://arxiv.org/abs/2605.30083

  • DirectorBench:パーソナライズされたマルチエージェント評価による長尺ビデオ生成の診断 [cs.CL, cs.CV]目的:長尺ビデオ生成における診断的評価基準
    • 近年,ビデオ生成技術は進化し,高品質な長尺ビデオの需要が高まっている。
    • 既存の評価基準は局所的な品質や短期的な整合性に偏っており,長尺ビデオ特有の問題点を診断しにくい。
    • ユーザーの好みを考慮した詳細な診断基準を提示し,ビデオ生成の改善に貢献すること。
    • DirectorBenchは,脚本,視覚,音声,クロスモーダル,安定性の5つの側面からビデオを評価する。
    • 評価の結果,ユニット間の遷移品質がボトルネックになっていることが示された(平均0.256)。
    • DirectorBenchの評価は人間の知覚と一致し,ワークフローやプロファイルに依存する問題点を明らかにすることができた。

    Link: https://arxiv.org/abs/2605.30090

  • 形状が重要である:意味的対応学習のための3次元基礎事前知識 [cs.CV]目的:意味的対応推定のための3次元基礎モデルからの事前知識の導入
    • 視覚認識やロボット工学において,物体の意味的理解と正確な対応付けは重要な課題である。
    • 既存の2次元画像から学習された特徴量は3次元情報を欠き,対称性や繰り返し構造の識別が難しい。
    • 3次元情報を活用し,より正確でロバストな意味的対応学習を実現することを目指す。
    • 自己教師あり学習モデルとテキスト-画像拡散モデルの特徴量に,3次元情報を組み込むことで対応推定の精度が向上した。
    • SAM3Dを用いた形状推定と,その形状に基づく特徴量を用いることで,既存手法を上回る性能を達成した。
    • 提案手法は,ポーズアノテーションを必要とせず,インスタンス固有の3次元構造を活用することで,学習を効率的に行える。

    Link: https://arxiv.org/abs/2605.30093

  • PokerSkill:LLMは学習もソルバーもなしに専門レベルのポーカーをプレイできる [cs.AI, cs.GT]目的:大規模言語モデル(LLM)を用いた,学習やソルバーに依存しないポーカープレイの実現
    • ポーカーはAI研究の重要な課題であり,高度な意思決定能力が求められる。
    • 従来のAIは,ソルバーによる膨大な計算資源を必要とする。
    • LLMと専門家定義のルールを組み合わせ,学習・ソルバーなしで高度なプレイを目指す。
    • PokerSkillフレームワークにより,LLMは専門家レベルのポーカープレイが可能になった。
    • GPT-5.5 XHigh,Claude Opus 4.6, 4.7は,従来のプロンプトと比較して損失を49-61%削減し,Slumbotを上回った。
    • ルールベースのスキルとLLMの組み合わせが,学習・ソルバーなしでの競争力を実現した。

    Link: https://arxiv.org/abs/2605.30094

  • 会話エージェントの評価:感情検出における文化,文脈,環境の理解 [cs.CV]目的:感情検出における文化,文脈,環境の影響の理解
    • 顔認証やソーシャルメディアなど,感情認識技術の応用範囲は広く,重要性が増している。
    • 既存の感情認識モデルは汎用的なものであり,地理的・文化的差異への対応が不十分である。
    • アフリカ社会における会話型AIの利用における課題を解決し,感情認識システムの信頼性を向上させる。
    • 提案モデルは,音声と画像データを用いて7つの基本感情を85~96%の精度で検出できる。
    • 新しい音声フレーム平均表現(AFME)アルゴリズムと3層の畳み込みニューラルネットワークを組み合わせた。
    • モデルの前処理と後処理の段階に焦点を当て,会話型AIにおける感情認識システムの信頼性維持に貢献する。

    Link: https://arxiv.org/abs/2605.30099

  • xModel-KD: LiDARを用いた3次元シーン認識のためのクロスモーダル知識蒸留 [cs.CL, cs.CV, cs.AI]目的:3次元点群セグメンテーションのためのクロスモーダル知識蒸留フレームワーク
    • 3次元シーン理解は,自動運転やロボット工学において不可欠であり,その精度向上が求められている。
    • 3次元点群データの詳細なアノテーション作成にはコストと時間がかかり,学習データが不足しているという課題がある。
    • 2次元画像と3次元点群の補完的な情報を活用し,少ないアノテーションでも高精度なセグメンテーションを実現することを目指す。
    • 提案手法xModel-KDは,2次元画像と3次元点群をクロスモーダルに融合することで,点群セグメンテーションの性能を向上させる。
    • コントラスト学習により,異なるモダリティ間の特徴表現の一貫性を保ち,有効な特徴量の抽出を可能にする。
    • 実験結果から,LiDAR単独のベースラインと比較してmIoUが2%絶対的に向上し,マルチモーダル情報の有効性が示された。

    Link: https://arxiv.org/abs/2605.30111

  • 疎な観測からの大規模深度補完モデル [cs.CV]目的:疎な観測からの単一視点でのメートル単位の深度推定
    • 3次元空間の理解は,ロボット工学や自動運転など,多くの分野で重要である。
    • 既存手法では,疎な観測からの高精度な深度推定が困難である。
    • 本研究は,疎な観測からより正確かつロバストな深度マップを生成することを目指す。
    • LDCMは,Transformerを用いて高精度な深度マップを生成し,多様なデータセットで既存手法を上回る性能を示す。
    • Poissonに基づく深度初期化戦略により,疎な観測から構造的な事前情報を活用し,深度推定の精度を向上させている。
    • 点マップヘッドを用いることで,3次元シーン構造を直接学習し,カメラの内部パラメータを必要としない。

    Link: https://arxiv.org/abs/2605.30115

  • SGMD:少ステップビデオ拡散蒸留のためのスコア勾配マッチング蒸留 [cs.CV, cs.LG]目的:少ステップビデオ拡散モデルの推論加速
    • ビデオ生成の分野において,効率的な推論は重要な課題である。
    • 既存の蒸留手法では,精度と速度のトレードオフが課題となっていた。
    • スコア勾配マッチング蒸留により,より高速かつ高品質なビデオ生成を目指す。
    • 本研究で提案するSGMDは,DMD2と比較して約3倍の学習速度を実現した。
    • SGMDは,4ステップの蒸留モデルにおいて,モーションダイナミクスを大幅に改善し,時間的な一貫性を維持した。
    • 人間による評価実験では,モーション品質と全体的な好ましさにおいてSGMDが優れていることが確認された。

    Link: https://arxiv.org/abs/2605.30116

  • PARCEL:プールアンカー型リサンプリングと条件付き弾力性クエリによる効率的な視覚言語理解 [cs.CV, cs.AI, cs.CL, cs.LG]目的:効率的な視覚言語理解のための視覚トークン化アーキテクチャ
    • 視覚言語モデルは多様な応用を可能にするが,計算コストが高いという課題がある。
    • 既存の圧縮手法は,圧縮率を上げると性能が低下するという問題がある。
    • 空間情報と詳細な特徴の維持を両立し,効率と性能を向上させる。
    • PARCELは,低周波レイアウトアンカーとなる空間プールトークンを確立し,弾力性クエリトークンを条件付けする。
    • これにより,クエリトークンは冗長な空間マッピングではなく,補完的な視覚特徴に焦点を当てるようになる。
    • 27のベンチマークで評価した結果,既存手法と比較して性能効率のパレート最適解を改善した。

    Link: https://arxiv.org/abs/2605.30126

  • 放射線科レポート生成のための臨床コンセンサス選択 [cs.HC, eess.SP, cs.CL, cs.CV]目的:放射線科レポート生成における臨床コンセンサス選択の枠組み
    • 医療画像診断支援において,レポートの自動生成は医師の負担軽減に不可欠である。
    • 既存手法では,生成されたレポートの品質が,推論時の選択に依存しやすい。
    • 推論時に複数の候補から最適なレポートを選択することで,臨床的品質を向上させる。
    • 臨床コンセンサス選択(CCS)は,複数の候補レポートを評価し,臨床的合意度の高いものを選択する。
    • CCSは,テキストベースの指標に加え,画像とレポートの関係を学習した埋め込みを用いて評価することで,より高度な選択を実現する。
    • 実験結果から,CCSは既存手法と比較して,臨床指標において一貫した性能向上を示すことが確認された。

    Link: https://arxiv.org/abs/2605.30131

  • 異常エージェント:ゼロ/少数ショット異常検知のための訓練不要エージェントモデル [cs.CV]目的:ゼロ/少数ショット異常検知のための訓練不要なエージェントモデル
    • 画像とテキストを組み合わせたモデルは,様々な異常検知において高い性能を示す。汎用性が重要視されている。
    • 既存手法は,大規模な補助データセットでの訓練が必要であり,文脈理解に基づいた高度な推論が困難である。
    • 多Modal大規模言語モデルの推論能力を活用し,文脈理解に基づく複雑な異常検知を可能にすることを目指す。
    • 提案手法「AnomalyAgent」は,訓練不要でありながら,既存のVLMベースの手法や汎用的なエージェント手法と比較して,大幅な性能向上を達成した。
    • 包括的な異常検知ツールセットと,少数ショットの参照例を用いた記憶モジュールにより,ゼロショット設定下での適応的な推論を実現している。
    • ロジスティクスや製造現場における論理的/文脈的な異常など,多様なタイプの異常検知において,優れた汎化能力を示すことが確認された。

    Link: https://arxiv.org/abs/2605.30140

  • なぜ遠くを見上げるのか:ビジョン言語モデルにおける空間表現の探求 [cs.CV]目的:ビジョン言語モデルにおける空間軸の組織化と分離に関する表現レベル分析
    • 視覚と言語を統合したモデルは多様な応用が期待され,AI研究における重要な課題である。
    • 既存モデルは空間推論で高い性能を示すものの,それが真の3次元理解に基づくのか,統計的ショートカットに依存しているのか不明である。
    • モデルが垂直方向の距離を混同するバイアスを特定し,より信頼性の高い空間推論を可能にする。
    • ビジョン言語モデルは,垂直方向の位置と距離を混同する傾向があり,自然画像の見通しバイアスを反映していることが示された。
    • モデルのベンチマークスコアが類似していても,内部表現は異なり,それが精度やロバスト性に影響することが確認された。
    • 合成ベンチマークSpatialTunnelにより,空間的ショートカットバイアスがモデル固有のものであることが明らかになり,分離された空間軸を持つモデルのロバスト性が高いことが示された。

    Link: https://arxiv.org/abs/2605.30161

  • マルチモーダル意味論に基づくリモートセンシング画像変化検出のための基盤フレームワーク OmniCD [cs.CV]目的:リモートセンシング画像変化検出のための基盤フレームワーク
    • 都市モニタリングや災害評価など,リモートセンシング技術は社会基盤の維持・発展に不可欠である。
    • 従来の検出手法は,多様な状況への汎化性能が課題であり,ロバスト性に欠ける場合がある。
    • マルチモーダルな意味論的ガイダンスにより,変化検出の汎化性能とロバスト性を向上させることを目指す。
    • OmniCDは,画像とテキストプロンプトを統合し,二値変化検出からゼロショットセマンティック変化理解までを可能にする。
    • 階層的なシーン検索モジュールと変化検出モジュール,そしてスタイル分離メカニズムを組み合わせることで,クロスドメインのロバスト性を高めている。
    • 大規模なマルチモーダルデータセットRSITCDを新たに導入し,ベンチマークにおいて最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.30168

  • ビジョン言語モデルにおける視覚的数え上げのボトルネックの解明 [cs.MM, cs.CV, cs.LG]目的:視覚的数え上げにおけるボトルネックの特定
    • 大規模なビジョン言語モデルの性能向上は,多様な応用を可能にする上で重要である。
    • 既存のモデルは,体系的な一般化,特に視覚的数え上げにおいて深刻な問題を抱えている。
    • モデルが数え上げに失敗する根本的な原因を解明し,改善策の方向性を示す。
    • 視覚的特徴抽出器は,外挿領域においても数量に関する頑健な表現を維持していることが示された。
    • モデルは数量比較推論は可能だが,数量を記号トークンにマッピングする際に失敗していることが判明した。
    • モデルは普遍的な数空間を獲得できておらず,モダリティ固有の統計的多様体を学習しているという仮説が支持された。

    Link: https://arxiv.org/abs/2605.30170

  • LiveSVG:ビデオ生成によるゼロショットSVGアニメーション [cs.CE, eess.SP, physics.med-ph, cs.CV]目的:SVGアニメーションの生成
    • ベクターグラフィックスは拡大縮小に強く,Webコンテンツなどで広く利用されている。
    • 複雑な動きをSVGで表現するには,高度な技術が必要であり,既存手法には課題が多い。
    • ビデオを参考にSVGを直接変形させることで,高品質なアニメーションを生成することを試みる。
    • LiveSVGは,既存のSVGアニメーション手法と比較して,AniClipartおよびChallengeSVGにおいて大幅な性能向上を達成した。
    • ターゲットビデオへの直接的な適合により,プロンプトに沿った,かつ編集可能なベクターアニメーションを生成可能となった。
    • 色による曖昧さを解消するため,新規のスフィアパッキングによる再彩色戦略を導入した。

    Link: https://arxiv.org/abs/2605.30174

  • ビデオにおけるオブジェクト中心学習におけるサイクル整合性 [cs.CV]目的:ビデオにおけるオブジェクトの発見と時間経過に伴うそれらの関連付け
    • 近年,教師なし学習が注目されており,特にビデオにおけるオブジェクト中心学習は重要な課題である。
    • オブジェクト中心学習では,曖昧なシーン分解により,厳密な整合性制約が特徴崩壊を引き起こす可能性がある。
    • 再構成多様性を維持しつつ,より柔軟なサイクル整合性制約を導入することでこの問題を解決する。
    • 提案手法であるImplicit Cycle Consistency (ICC) は,スロット空間ではなく再構成多様体に対してサイクル整合性制約を適用する。
    • これにより,ICCは特徴崩壊を回避し,明示的なサイクル整合性(ECC)と比較して優れた性能を示す。
    • 実験結果から,ICCが複雑なビデオオブジェクト中心学習のベンチマークにおいて,よりロバストな表現学習を可能にする。

    Link: https://arxiv.org/abs/2605.30211

  • 複数視点からの3D再構成のためのループ型Transformer [cs.CL, cs.CV]目的:複数視点3D再構成におけるモデル効率の向上
    • 3D再構成は,ロボティクスや自動運転など,多くの応用分野において重要な役割を担う。
    • Transformerモデルのパラメータ数は増加傾向にあるが,その効率性は必ずしも向上していない。
    • 本研究は,パラメータ数を削減しつつ,再構成精度を向上させることを目指す。
    • 提案手法D\'ej\`aViewは,単一のループ型Transformerブロックを繰り返し適用することで,効率的な再構成を実現する。
    • D\'ej\`aViewは,大規模なモデルと比較してパラメータ数を大幅に削減し,同等またはそれ以上の性能を発揮する。
    • 同一のブロック構成において,各ステップで独立したパラメータを使用するモデルよりも,D\'ej\`aViewの方が優れた性能を示す。

    Link: https://arxiv.org/abs/2605.30215

  • IP-Adapterだけで十分:ファインチューニングフリーな拡散ベースの会話顔生成に向けて [cs.CV]目的:拡散モデルを用いた会話顔生成手法
    • 拡散モデルの急速な発展により会話顔生成が目覚ましい進歩を遂げている。
    • 既存手法はタスク固有のファインチューニングと大規模なデータセットを必要とし,計算コストが高い。
    • 事前学習済みのモデルとIP-Adapterを用いて,ファインチューニング不要な会話顔生成を実現する。
    • 提案手法は,IDのずれ,同期エラー,時間的不安定性といった課題を解決するために,Structurist,Structure Controller,Noise Sensorを設計した。
    • 実験結果から,提案手法は最先端手法と比較して,リップシンク精度(PCLDで0.16以上の向上)と視覚的忠実度(FIDで0.7以上の向上)で優れていることが示された。
    • 本研究は,ファインチューニングフリーな拡散ベースの会話顔生成のための新たなフレームワークを確立した。

    Link: https://arxiv.org/abs/2605.30230

  • 3D VQAを超えて:より高度な幾何学的推論のためのビジョン・言語モデルへの3D空間事前知識の注入 [cs.CV, cs.AI]目的:3D空間に関するより堅牢な推論能力を持つビジョン・言語モデルの構築
    • 視覚と言語を組み合わせた理解は,ロボット工学や拡張現実など,様々な応用分野において不可欠である。
    • 既存のビジョン・言語モデルは,3次元空間の推論において十分な性能を発揮できていないという課題がある。
    • 3D空間の基本的な幾何学的事前知識をモデルに学習させることで,より信頼性の高い3次元空間推論を実現することを目指す。
    • 提案手法GASPは,LLMのTransformer層に幾何学的事前知識を直接注入するフレームワークである。
    • GASPは,大規模なビデオシーンからの真実の幾何学情報を活用し,2Dビュー不変性を強制するコントラスト損失と,3D幾何学的曖昧性を解消する深度整合性監督を組み合わせた二重の目的関数で学習する。
    • 実験結果から,GASPは既存手法と比較して,空間ベンチマークにおいて大幅な性能向上(All-Angles Benchで+18.2%,VSI-Benchで+29.0%)を示した。

    Link: https://arxiv.org/abs/2605.30231

  • ブリンガーDB:手書き文字認識と筆者検索のためのデータセット [cs.CV]目的:歴史文書分析のための大規模ベンチマークデータセット
    • 歴史文書のデジタル化は,文化遺産の保存と研究に不可欠である。
    • 手書き文字の認識は,文字の多様性や劣化により困難を伴う。
    • 多言語かつ時間軸に沿った筆者分析の新たな基準を確立すること。
    • ブリンガーDBは,2万ページ以上,約50万行のテキストを含む大規模データセットである。
    • テキスト認識において,TrOCRは9.1%のCERを達成した。
    • 筆者検索では,時間的情報を考慮した評価指標nDCGを導入し,一定の成果を得たが,長期的なスタイルの変化が課題として残る。

    Link: https://arxiv.org/abs/2605.30235

  • SAM3D-Phys: 実世界におけるマルチオブジェクトインタラクティブシミュレーションへ向けて [cs.CV]目的:現実世界のシーンから再構成されたオブジェクトの完全な,シミュレーション可能な幾何形状の復元
    • 現実世界の物理シミュレーションは,ロボット工学やコンピュータグラフィックスなど,多様な分野で重要性を増している。
    • マルチビュー再構成では,オクルージョンや観察の限界により,オブジェクトが不完全になりがちである。
    • 物理シミュレーションに適した完全なオブジェクト形状を復元し,現実感のあるインタラクションを可能にすること。
    • 本研究では,SAM3Dとシーン再構成を統合したSAM3D-Physを提案し,物理シミュレーション可能なオブジェクトの復元を実現した。
    • 物理拘束された空間最適化アルゴリズムと,マスク誘導された外観蒸留モジュールにより,シーンとの整合性を保ちながらオブジェクト形状を復元する。
    • SAM3D-Physは,再構成されたシーン内での複数のオブジェクトの同時かつ物理的に一貫性のあるインタラクティブシミュレーションを可能にする。

    Link: https://arxiv.org/abs/2605.30239

  • ロバストな評価基準を用いた強化学習 [cs.CL, cs.CY, cs.SI, cs.CV, cs.AI]目的:視覚言語タスクにおける多基準監督学習の効率化
    • 強化学習は複雑なタスク解決に有効だが,報酬設計が困難。
    • 従来の報酬設計では,視覚言語タスクのような部分検証可能なタスクに対応が難しい。
    • 評価基準を用いて強化学習の報酬をより正確に定義し,性能向上を目指す。
    • 提案手法$\text{RLR}^3$は,基準レベルの検証を導入し,タスクレベルの検証を超えた。
    • 15のベンチマークにおいて,$\text{RLR}^3$はRLVRを安定的に上回り,ベースモデルより4.7点向上した。
    • 決定的な検証と最小限の露出戦略により,誤検出のリスクを大幅に軽減することを確認した。

    Link: https://arxiv.org/abs/2605.30244

  • GenClaw:コード駆動型エージェントによる画像生成 [cs.CV]目的:画像生成におけるエージェントの制御性と解釈可能性の向上
    • 画像生成技術は多岐にわたる分野で活用されており,その重要性は増している。
    • 既存のエージェントは,画像生成モデルのブラックボックス性に依存し,精密な制御が困難である。
    • コードを介して生成プロセスを段階的に制御することで,より高度な画像生成を実現する。
    • GenClawは,まず概念化,次にスケッチ,最後に着色という人間のアーティストのような流れをエージェントに組み込む。
    • コード(SVG,HTML,Three.jsなど)を中間キャンバスとして活用し,言語的推論とピクセル合成をシームレスに統合する。
    • この手法により,画像生成をブラックボックスから段階的なプロセスへと変換し,制御性と解釈可能性を高める。

    Link: https://arxiv.org/abs/2605.30248