arXiv雑要約

画像・音声 - 2026/05/12 公開

Xiaomi OneVL：視覚言語説明を用いたワンステップ潜在的推論と計画 [cs.IR, cs.CV, cs.CL, cs.RO]目的：視覚言語モデルにおける潜在的推論と計画の実現
- 自動運転における安全性向上には，周囲状況を正確に予測する能力が不可欠である。
- 従来のChain-of-Thought推論は高精度だが，逐次処理のためリアルタイム性に課題がある。
- 潜在的推論では，推論を効率化するが，性能が従来のCoTに劣るという問題があった。
- OneVLは，視覚情報と世界モデルの知識を活用し，潜在的推論の性能を向上させる。
- 従来のCoT推論を上回る精度を，リアルタイムの応答速度で実現した。
- 潜在的推論において，世界モデルによる潜在空間の学習が，より汎化性能の高い表現を生み出すことを示した。
Link: https://arxiv.org/abs/2604.18486
Tstars-Tryon 1.0：多様なファッションアイテムに対する堅牢かつ現実的なバーチャル試着 [cs.CV]目的：多様なファッションアイテムに対する，堅牢かつ現実的なバーチャル試着システムの開発
- ECサイトの利便性向上に貢献するため，バーチャル試着技術の重要性が高まっている
- 既存手法では，ポーズや照明条件など現実世界の複雑な状況への対応が課題となっていた
- 様々な条件下で高品質な試着体験を提供し，実用的なバーチャル試着システムを構築すること
- Tstars-Tryon 1.0は，極端なポーズや照明変化，モーションブラーなどの課題を克服し，高い成功率を達成した。
- 衣服の質感，素材，構造を忠実に再現し，AI生成特有のアーティファクトを抑制することで，非常に写実的な結果を得た。
- 最大6枚の参照画像を用いた柔軟な画像合成が可能であり，人物の同一性や背景の制御も容易である。
Link: https://arxiv.org/abs/2604.19748
UniCon3R：単眼ビデオからの統一的な接触を意識した4D人間・シーン再構成 [cs.CV]目的：単眼ビデオからの4D人間・シーン再構成
- 人間中心のコンピュータビジョンにおいて，現実世界の正確な3D再構成は重要な課題である。
- 既存手法では，人間と環境の相互作用のモデリング不足から，浮遊や侵入といった不自然なアーティファクトが発生しやすい。
- 人間とシーン間の接触を考慮することで，物理的に妥当な再構成を実現し，精度向上を目指す。
- UniCon3Rは，人間とシーンの4D再構成を同時に行い，既存手法よりも物理的な妥当性とグローバルな人間の動き推定において優れた性能を示した。
- 人間の姿勢とシーンの形状から4D接触を推論し，姿勢生成の補正に利用することで，再構成の精度を向上させている。
- この結果は，接触が強力な事前情報として機能し，物理的に根ざした人間・シーン再構成の新たなパラダイムを確立することを示す。
Link: https://arxiv.org/abs/2604.19923
分散型リスク検知のためのメカニズム設計：厳格な適切性，ネットワーク上の連携，逆効果となる義務化 [cs.IR, cs.GT, cs.LG]目的：リスク顧客を共有する企業間の分散型リスク検知メカニズムの設計
- 金融犯罪やサイバー攻撃の脅威が増大しており，企業間での情報共有が不可欠である。
- 企業は自社の利益を優先するため，リスクに関する情報を正直に共有するインセンティブが低い。
- 真実を報告するインセンティブを促すメカニズムを設計し，情報共有の阻害要因を克服すること。
- 提案するTVAメカニズムは，割引された検証済みアウトカムに厳格な適切性スコアリングルールを適用することで，企業に真実の報告を促す。
- ネットワーク上の連携価値が，企業間の相互作用の度合いに比例することを示し，効果的な連携設計の指針を提供する。
- 義務的な情報共有が，適切なインセンティブ設計なしには，情報共有なしの場合よりも低い厚生水準をもたらす可能性があることを示す。
Link: https://arxiv.org/abs/2604.21789
SS3D：ウェブ動画からのエンドツーエンド自己教師あり3D推定 [cs.RO, cs.CV]目的：ウェブ動画を用いた自己教師あり学習による3D推定パイプライン
- 3D認識は，ロボット工学や自動運転などに応用が期待され，重要性が増している。
- 既存手法では，大規模なデータセットでの学習が難しく，汎化性能が課題であった。
- ウェブ動画という大規模かつ多様なデータを利用し，汎化性能の高い3D推定手法を開発する。
- 本研究では，ウェブ動画を対象とした自己教師あり学習パイプラインSS3Dを提案した。
- SS3Dは，奥行き，自己運動，内部パラメータを同時に予測し，エンドツーエンドで3D推定を行う。
- YouTube-8Mでの事前学習により，ゼロショット転移学習やファインチューニング性能が向上した。
Link: https://arxiv.org/abs/2604.22686
VS-DDPM：医療モダリティ変換のための効率的な低コスト拡散モデル [cs.CV, cs.AI, cs.LG]目的：医療モダリティ変換のための高速な拡散モデル
- 医療画像診断において，高品質な画像合成は，データ拡張や画像再構成に不可欠である。
- 拡散モデルは高品質だが，推論速度が遅く，実用上の制約となる場合がある。
- 推論速度を向上させつつ，生成品質を維持する効率的な拡散モデルを開発すること。
- VS-DDPMは，missing MRI合成において，Dice係数で0.80，0.83，0.88と最先端の性能を達成した。
- MRI腫瘍除去タスクでは，RMSEが0.053，PSNRが26.77，SSIMが0.918という結果が得られた。
- MRI-to-sCTおよびCBCT-to-sCTタスクでは，競争力のある性能を示したが，最先端のベンチマークには達しなかった。
Link: https://arxiv.org/abs/2604.22942
視覚的合成からインタラクティブな世界へ：実用的な3Dアセット生成に向けて [eess.SY, cs.SY, cs.CE, math.OC, cs.GR]目的：実用的な3Dアセット生成のための技術的課題と現状の把握
- ゲーム開発やAIなど，リアルタイムインタラクティブ環境構築において3Dコンテンツの重要性が増している。
- 既存の生成手法では，ゲームエンジン等の要件を満たす十分な品質と使いやすさの3Dアセットが不足している。
- 3Dアセット制作パイプライン全体を体系化し，実用的な3Dアセット生成に向けた課題を明確化する。
- 本調査では，アセットの種類（汎用オブジェクト，キャラクター，シーン）と制作段階（データ基盤，形状合成，最適化等）を軸に既存研究を分類した。
- 生成されたアセットが，幾何学的精度，外観品質，使いやすさ，物理的整合性等の観点で，既存のエンジンやシミュレーションプラットフォームで利用可能かどうかを評価した。
- データ品質，生成制御性，エンドツーエンドのアセット化，物理に基づいた生成における課題を特定し，今後の展望を示唆した。
Link: https://arxiv.org/abs/2604.23629
MuSS：マルチショット主語から動画生成のための大規模データセットと映画的ナラティブベンチマーク [cs.CV]目的：マルチショット動画および主語から動画生成のための大規模データセット
- 動画生成モデルの発展は，現実世界の映画制作における複雑なシーケンス構成に不可欠である。
- 既存データセットは，ナラティブの論理性，時空間的なテキスト-動画の整合性，主語のコピーペースト問題に対応できていない。
- 映画的ナラティブと主語中心の動画生成における課題を克服し，連続的なストーリーテリングを可能にすること。
- MuSSデータセットは，3000以上の映画から構築され，複雑なモンタージュ遷移と主語中心のナラティブをサポートする。
- 新しいパイプラインにより，局所的なショットレベルの正確性を確保し，グローバルなナラティブの一貫性を維持することで，文脈の矛盾を解消している。
- MuSSを活用したモデルは，既存モデルと比較して，ナラティブの有効性とクロスショットでのアイデンティティ保持において優れた性能を示す。
Link: https://arxiv.org/abs/2604.23789
Nemotron 3 Nano Omni：効率的でオープンなマルチモーダル知能 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル知能モデルNemotron 3 Nano Omniの開発
- AI技術は，様々な分野での応用が期待され，社会への貢献度が高い。
- 既存のマルチモーダルモデルは，計算コストが高く，推論速度が遅い場合がある。
- 低遅延かつ高スループットなマルチモーダルモデルの実現を目指す。
- Nemotron 3 Nano Omniは，テキスト，画像，音声，動画入力に対応した最新モデルである。
- 前モデル(Nemotron Nano V2 VL)と比較して，全てのモダリティにおいて精度が向上した。
- 特に，現実世界のドキュメント理解，長時間の音声・動画理解，エージェントとしてのコンピュータ利用において優れた性能を発揮する。
Link: https://arxiv.org/abs/2604.24954
RTPrune：DeepSeek-OCR効率的推論のための二段階読み取りに着想を得たトークンプルーニング [cs.CV, cs.LG]目的：DeepSeek-OCR推論における効率化
- OCR技術は，文書のデジタル化に不可欠であり，その高速化と低コスト化が求められている。
- 既存のトークンプルーニング手法では，テキストの忠実性を損なう可能性があり，OCR特有の構造的情報を考慮できていない。
- DeepSeek-OCRのデコード過程に着目し，冗長な情報を削減しつつ，テキストの精度を維持する効率的なプルーニング手法を開発する。
- RTPruneは，DeepSeek-OCRの二段階読み取りプロセスに着想を得て，高ノルムトークンを優先的に保持する。
- 残りのトークンに対しては，最適輸送理論に基づいたペアリングとマージを行い，特徴量の集約を効率化する。
- OmniDocBenchにおいて，99.47%の精度と1.23倍の高速化を達成し，最先端の性能を示すことが示された。
Link: https://arxiv.org/abs/2605.00392
ヒューリスティックを超えて：3Dガウススプラッティングのための学習可能な密度制御 [cs.CV]目的：3Dガウススプラッティングにおける密度制御の学習化
- 3Dシーンのリアルタイムレンダリングは重要であり，特に複雑な形状を持つシーンでの効率的な表現が求められている。
- 従来の密度制御はヒューリスティックに依存しており，多様なシーンへの適応性に限界があった。
- 本研究は，シーンの複雑さに応じて柔軟に密度を制御する手法を開発し，レンダリング品質と効率を向上させることを目指す。
- 提案手法LeGSは，強化学習を用いて密度制御を学習することで，既存手法よりも優れた再構成品質と効率を達成した。
- LeGSは，ガウスごとの寄与度を定量化する報酬関数と，その計算量を削減する閉形式解を導入した。
- Mip-NeRF 360，Tanks & Temples，Deep Blendingのデータセットにおいて，最先端手法と比較して有意な性能向上を示した。
Link: https://arxiv.org/abs/2605.00408
カラフルノイズ：色に基づいた条件付き画像生成のための学習不要低周波ノイズ操作 [cs.CL, cs.DC, cs.CV, cs.GR]目的：色に基づいた条件付き画像生成における低周波ノイズ操作手法
- 画像生成技術は，テキストから多様な画像を生成可能にする点で重要性が高い。
- 生成される画像の特定の特徴（色や構造）の制御が難しく，予測性が低いという課題がある。
- 低周波ノイズ操作により，画像全体の構造と色を制御し，生成の自由度を保つことを目指す。
- 拡散モデルの入力ノイズにおいて，低周波成分が画像の全体構造と色構成を主に決定することを示した。
- 低周波画像事前知識を用いた低周波ノイズの操作により，生成プロセスを効果的に条件付けできることを実証した。
- 本手法は学習不要であり，画像全体の構造と色を制御しつつ，高周波成分による詳細な変動を可能にする。
Link: https://arxiv.org/abs/2605.00548
自分自身からクリック場所を学習する：GUIグラウンディングのためのオンポリシー自己蒸留 [cs.RO, cs.AI, cs.CV]目的：GUIグラウンディングにおける自己蒸留フレームワーク
- GUIエージェントの自律性を実現する上で，自然言語指示とGUI要素の視覚的座標間のマッピングは不可欠である。
- 既存の強化学習手法は，多数のロールアウトが必要であり，難易度の高いサンプルでは学習信号が希薄になるという課題がある。
- 単一のロールアウトから密なトークンレベルの教師信号を得る自己蒸留をGUIグラウンディングに応用し，効率性と精度を向上させる。
- 提案手法GUI-SDは，代表的なGUIグラウンディングベンチマークにおいて，GRPOベースの手法や単純な自己蒸留よりも一貫して高い精度と学習効率を示す。
- GUI-SDは，ターゲットバウンディングボックスとガウスソフトマスクを用いた視覚的に豊かな特権コンテキストを構築し，正確な座標を漏洩することなく有益なガイダンスを提供する。
- エントロピーをガイドした蒸留により，重要な桁と教師の信頼度に基づいてトークンに重みを付け，最適化を最も影響力のある信頼できる位置に集中させる。
Link: https://arxiv.org/abs/2605.00642
LiteVLA-H：機載型航空機誘導と意味的知覚のためのデュアルレート視覚・言語・行動推論 [cs.CV]目的：航空機搭載環境における低遅延閉ループ誘導と意味的知覚の実現
- 航空機の自律飛行は，安全性と効率性を向上させる上で不可欠である。そのためには，高度な環境認識能力が求められる。
- 機載コンピュータの計算資源と通信帯域の制約下では，高性能な視覚・言語・行動モデルの運用が困難である。
- 本研究では，限られた計算資源でリアルタイムな誘導と意味的知覚を両立するVLAモデルを開発し，その有効性を検証する。
- LiteVLA-Hは，NVIDIA Jetson AGX Orin上でデュアルレート動作を実現し，高速な行動生成と高精度な意味的理解を両立した。
- 同モデルは，50.65ms(19.74Hz)で行動トークンを生成し，149.90～164.57ms(6.08～6.67Hz)で文レベルの意味的出力を実現した。
- 既存の最先端アーキテクチャと比較して，LiteVLA-Hは，エッジ推論レートを向上させつつ，意味的認識能力を維持することが示された。
Link: https://arxiv.org/abs/2605.00884
視覚言語モデルにおける知覚帯域幅のボトルネック：逐次実験計画による能動的視覚推論 [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおける知覚帯域幅のボトルネックとその克服
- 視覚言語モデルの性能は，画像と自然言語の理解に不可欠であり，幅広い応用が期待される。
- 高解像度画像における詳細な情報把握が難しく，複雑な推論のボトルネックとなっている。
- 限られた知覚帯域幅下で，タスクに関連する証拠を効率的に取得する手法を開発すること。
- 本研究では，逐次ベイズ最適実験計画（S-BOED）を導入し，視覚的証拠の取得を形式化することで，推論能力の向上を目指した。
- 提案手法FOVEAは，訓練を必要とせず，VLMのクロップ提案を改善し，優れた性能を示した。
- 特に，リモートセンシングの検索タスクにおいて，大幅な性能向上が確認された。
Link: https://arxiv.org/abs/2605.01345
強化学習による分布認識の多modal大規模言語モデルへの注入：深層不均衡回帰に向けて [cs.CL, cs.CV, cs.LG]目的：長尾ターゲット分布下における数値回帰の性能向上
- 多modal大規模言語モデルは，画像とテキストを理解し活用する能力が期待され，幅広い応用が考えられる。
- 既存モデルは，長尾分布のデータに対する回帰タスクにおいて，高密度領域への偏りが生じやすい。
- サンプル間の関係性を考慮した学習により，分布全体の予測精度を高めることを目指す。
- 提案手法は，グループ相対方策最適化に基づく強化学習フレームワークであり，予測分布と真の分布の相関，スケール，平均を整列させる。
- アーキテクチャの変更は不要で，既存のモデルに容易に組み込むことができる。
- 長尾回帰ベンチマークにおける実験で，特に少shotおよび中shot環境において，SFTや既存手法を上回る一貫した改善が確認された。
Link: https://arxiv.org/abs/2605.01402
プライバシー保護のための合成ドメイン適応による異種モデル融合マルチカメラ監視 [cs.CV, cs.DC, cs.LG]目的：プライバシー保護，クラス不均衡，異種アーキテクチャへの対応を目的としたマルチカメラドメイン適応オブジェクト検出フレームワーク
- 都市の安全確保や交通管理など，監視システムの重要性は増している。しかし，プライバシー保護との両立が課題。
- 既存手法では，プライバシー保護と高精度な物体検出を両立することが困難であった。特に，データ量の少ない状況下で問題が生じやすい。
- 単一のターゲットドメイン画像から視覚スタイルを学習し，特定のオブジェクトを合成することで，プライバシーを保護しつつ高精度な物体検出を実現する。
- 提案手法HeroCrystalは，既存のプライバシー保護アプローチと比較してmAPを+2.1%向上させ，33.4%という最先端の精度を達成した。
- 生成段階では，プロンプトベースの制御により，特定のオブジェクトの生成を可能にし，希少オブジェクトの生成によるクラス不均衡の緩和に貢献する。
- 連合学習段階では，動的なモデルコントラスト戦略によりドメイン固有のバイアスを抑制し，異種アーキテクチャ間のモデル融合を可能にした。
Link: https://arxiv.org/abs/2605.02169
AsymTalker: 非対称蒸留による一貫性のある長期トークングヘッド生成 [cs.LG, cs.AI, cs.SD]目的：長期動画におけるトークングヘッド生成の実現
- 動画生成技術は，エンターテインメントやコミュニケーションにおいて重要な役割を担う。
- 既存手法では，長尺動画生成時に時間軸・空間軸のずれや，人物同一性の変動が課題となる。
- 本研究では，非対称蒸留と時間的参照符号化により，これらの課題を解決し，高品質な長尺動画生成を目指す。
- 提案手法AsymTalkerは，HDTFおよびVFHQデータセットにおいて最先端の結果を達成した。
- 600秒の動画に対して，高精度かつ一貫性のある人物生成が可能となった。
- リアルタイム推論速度は66FPSに達し，実用的な応用への道を開く。
Link: https://arxiv.org/abs/2605.02948
VEBench：現実世界の動画編集のための大規模マルチモーダルモデルのベンチマーク [cs.CV]目的：現実世界の動画編集における大規模マルチモーダルモデルの評価
- 動画編集は，映画的技術と映像間の関連付けが重要であり，コンテンツ制作の根幹をなす。
- 既存のLMMは動画理解で進歩するも，複数動画の推論や編集ワークフローの能力は未開拓である。
- 現実的な動画編集シナリオにおけるモデルの編集知識理解と操作的推論能力を評価する。
- VEBENCHは，高品質な編集動画3.9K本（257時間以上）と人間が検証したQAペア3,080組を含む包括的なベンチマークである。
- 実験の結果，現在のモデル性能と人間の編集認知の間には大きな隔たりがあることが明らかになった。
- VEBENCHは，知的な動画編集システムの発展と複雑な推論に関する将来の研究を促進するための基盤となる。
Link: https://arxiv.org/abs/2605.03276
Mantis：Mambaネイティブなチューニングは3D点群基礎モデルにおいて効率的である [cs.AR, cs.CV]目的：3D点群基礎モデルに対する効率的なパラメータ効率的ファインチューニング手法
- 3D点群データの活用は，自動運転やロボット工学など幅広い分野で重要性を増している。
- 既存のファインチューニング手法は計算コストが高く，大規模なストレージを必要とするという課題がある。
- Mambaアーキテクチャに適応した，軽量かつ安定したパラメータ効率的ファインチューニング手法を開発する。
- 提案手法Mantisは，わずか5%の学習パラメータで既存手法と同等の性能を達成する。
- Mambaアーキテクチャの特性を考慮したState-Aware Adapterを導入し，状態レベルでの適応を可能にした。
- 点群データのシリアライズによる不安定性を軽減するため，Dual-Serialization Consistency Distillationを導入した。
Link: https://arxiv.org/abs/2605.03438
VL-SAM-v3：メモリ誘導によるVisual Priorを用いたOpen-World物体検出 [cs.CV]目的：Open-World物体検出における性能向上
- 物体検出技術は，自動運転やロボット工学など，幅広い分野で不可欠な要素である。
- 既存手法は，曖昧なテキスト情報に依存し，詳細な外観変化や稀なカテゴリに対応できない場合がある。
- 外部視覚メモリを活用し，より高精度な物体検出を実現する。
- VL-SAM-v3は，外部視覚メモリから関連プロトタイプを検索し，空間的なアンカリングと局所的な文脈認識のためのVisual Priorを生成する。
- このアプローチにより，Open-VocabularyおよびOpen-endedな推論の両方において，検出性能が向上する。
- 特に，稀なカテゴリにおける性能向上が顕著であり，汎用性の高さも確認された。
Link: https://arxiv.org/abs/2605.03456
低照度画像品質改善のためのバタフライ・ホタル最適化Retinexエンハンスメント [cs.CV, cs.AI]目的：低照度画像品質の改善
- コンピュータビジョンやマルチメディア分野において，低照度下で撮影された画像の可視性向上が重要である。
- 従来のRetinex法は，様々な照明条件に対応できない手動調整パラメータに依存している。
- 本研究は，多様な照明条件下で自動的にパラメータを調整する手法を提案し，低照度画像の品質改善を目指す。
- 提案手法BFOREは，LOLベンチマークデータセットにおいて，従来のエンハンスメント手法中で最高のPSNR（17.22dB）を達成した。
- BFOREは，ヒストグラム均等化やMSRCRと比較して，それぞれ20.3%，17.5%高いPSNRを示す自然な明度バランスを実現した。
- BFOREは，訓練データなしで，深層学習ベースラインであるRetinexNetよりも高いPSNRとSSIMを達成した。
Link: https://arxiv.org/abs/2605.03509
動的点群のための拡散マスク事前学習 [cs.CV]目的：動的点群の自己教師あり学習フレームワーク
- ロボット工学や自動運転において，時系列点群データの理解は不可欠である。
- 既存の事前学習手法は，位置情報の漏洩やモーションの不確実性の無視という課題がある。
- 拡散モデルを用いて，位置情報とモーション学習の課題を同時に解決することを目指す。
- 提案手法DiMPは，位置情報の漏洩を抑制しつつ，高精度なモーション予測を可能にする。
- オフライン行動セグメンテーションにおいて，ベースラインと比較して11.21%の精度向上を達成した。
- 因果的に制約されたオンライン推論においても，13.65%の精度向上を示す結果が得られた。
Link: https://arxiv.org/abs/2605.03639
AniMatrix：芸術を思考するアニメ動画生成モデル [cs.CV, cs.AI]目的：アニメ動画生成における芸術性の向上
- アニメは世界中で人気が高く，その表現技術は特異であるため，自動生成は困難な課題である。
- 既存の動画生成モデルは物理的なリアリズムを優先し，アニメ特有の表現を十分に再現できていない。
- アニメの芸術的特徴を捉え，物理法則に縛られない自然な動画生成を実現することを目指す。
- AniMatrixは，物理的な正しさよりも芸術的な正しさを重視する二重チャネル条件付けメカニズムを導入した。
- 制作知識システムとAniCaptionを用いて，アニメの制作変数を構造化し，その変数を動画生成に反映させる。
- 専門家による評価において，プロンプト理解度と芸術的な動きにおいて，既存モデルを大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2605.03652
PHALAR：学習された音楽オーディオ表現のための位相表現 [cs.CL, cs.DM, q-bio.PE, cs.SD, cs.AI, cs.LG, eess.SP]目的：音楽オーディオの部分混合に欠けているステムをマッチングするタスクに関する研究
- 音楽情報処理分野において，音楽の構造を理解することは重要な課題である。
- 既存モデルは時間情報を無視するため，ステム分離の精度向上が課題となっていた。
- 時間情報を考慮したモデルを開発し，ステム分離の精度と効率を向上させる。
- PHALARは，最先端モデルと比較して最大で約70％の精度向上を達成した。
- パラメータ数を50％以下に抑え，学習速度を7倍に向上させた。
- PHALARは，MoisesDB，Slakh，ChocoChoralesの各データセットで新たな最先端性能を確立した。
Link: https://arxiv.org/abs/2605.03929
Angle-I2P：角度一貫性を考慮した階層的注意機構によるクロスモーダル外れ値除去 [cs.CV]目的：画像と点群の登録における外れ値除去
- ロボットの操作，把持，位置推定など，様々な応用において重要な基盤技術である。
- 初期マッチングペアの外れ値比率が高い場合，従来のPnP法では正確な結果を得ることが困難である。
- 角度一貫性に基づく幾何学的制約と階層的注意機構を用いて，外れ値除去の精度向上を目指す。
- 提案手法Angle-I2Pは，角度一貫性に基づくクロスモーダル幾何学的制約を導入し，外れ値と内点を識別する。
- さらに，グローバルからローカルへの階層的注意機構により，剛体変換下で幾何学的に不整合なマッチを除去する。
- 7Scenes，RGBD Scenes V2，および自己収集データセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.04541
ウェアラブルヒューマンアクティビティ認識における効率的なテスト時適応のための時間構造の重要性 [cs.CV, cs.HC, cs.LG]目的：ウェアラブルヒューマンアクティビティ認識におけるテスト時適応の性能向上
- ウェアラブルデバイスの普及により，個人の活動認識の需要が高まっている。
- 異なるユーザー間でデータ分布が異なると，認識精度が低下しやすい。
- 時間的な構造を考慮した適応手法により，認識精度の低下を抑制する。
- 提案手法SIGHTは，既存のテスト時適応手法と比較して，高い認識精度を達成した。
- SIGHTは，軽量かつバックプロパゲーションフリーであるため，リアルタイムなエッジ展開が可能である。
- 特徴量のずれと時間的な連続性を活用することで，予測の安定化と精度向上を実現している。
Link: https://arxiv.org/abs/2605.04617
UniPCB：生成支援によるPCB欠陥検査フレームワーク [cs.CV]目的：PCB欠陥検査における生成支援による欠陥検出
- 産業用IoTにおいて，製品信頼性を確保するため，知的でリアルタイムなPCB欠陥検査が不可欠である。
- 欠陥サンプルが少なく，偏りがあるため，モデルの学習が制限され，複雑な回路背景下での特徴表現が不十分である。
- 少ないデータセットを補強し，欠陥検出の性能向上を目指す。
- 提案手法UniPCBは，欠陥検出においてmAP@0.5で98.0%，mAP@0.5:0.95で61.8%を達成し，既存手法を上回る性能を示した。
- 生成部では，FIDが129.61，SSIMが0.619であり，既存の条件付き生成アプローチよりも優れている。
- 本フレームワークは，欠陥合成と検出を統合することで，データ不足と特徴表現の課題を同時に解決する。
Link: https://arxiv.org/abs/2605.04635
関係性が崩れるとき：回転とノイズ下におけるVision-Languageモデルの関係的幻覚の分析 [cs.CV, cs.CL]目的：Vision-Languageモデルにおける関係的幻覚の分析
- 画像とテキストを組み合わせた処理は，AI研究において重要な課題であり，様々な応用が期待されている。
- Vision-Languageモデルは，物体間の関係性を正確に理解することが難しいという課題を抱えている。
- 視覚的な摂動（回転やノイズ）がモデルの性能に与える影響を調査し，よりロバストなモデルを開発すること。
- わずかな視覚的な歪みでも，モデル間の物体関係推論の精度が著しく低下することが示された。
- プロンプトによる拡張や前処理（向き補正，ノイズ除去）は部分的な改善をもたらしたが，幻覚を完全に解消するには至らなかった。
- 知覚的なロバスト性と関係的理解の間にはギャップが存在し，幾何学的に認識可能なVLMsの必要性が示唆された。
Link: https://arxiv.org/abs/2605.05045
高さ誘導投影再パラメータ化によるカメラLiDAR占用推定 [cs.CV]目的：カメラとLiDARの占用推定のための新たな手法
- 自動運転やロボティクスにおいて，周囲環境の3次元理解は不可欠である。
- 従来の2D画像から3D空間を推定する手法では，高さ方向の多様性を捉えきれていない。
- LiDARの高さ情報を活用し，より正確な3D占用推定を実現することを目指す。
- 提案手法HiPRは，LiDARの高さを考慮した投影再パラメータ化により，特徴量の集約精度を向上させた。
- 特に，高さのばらつきが大きいシーンにおいて，既存手法よりも優れた性能を発揮する。
- 学習時の段階的な高さ条件付け戦略により，LiDARのノイズの影響を軽減し，学習の安定性を高めた。
Link: https://arxiv.org/abs/2605.05072
X-Voice：ゼロショット多言語音声クローニングによる30言語への対応 [cs.SD, cs.AI, eess.AS]目的：ゼロショット多言語音声クローニングモデルの開発
- グローバル化が進む中で，言語の壁を超えたコミュニケーションの重要性が高まっている。
- 既存の音声合成システムでは，言語ごとのデータが必要であり，多様な言語への対応が困難である。
- 学習データが少ない言語でも，高品位な音声クローニングを実現し，多言語コミュニケーションを支援する。
- X-Voiceは，42万時間の多言語音声コーパスを用いて学習された0.4Bパラメータのモデルである。
- 国際音声記号（IPA）を統一的な表現として用いることで，30言語での音声クローニングを可能にした。
- 既存のflow-matchingベースの多言語システムや，数十億規模のモデルと比較して，同等以上の性能を示す。
Link: https://arxiv.org/abs/2605.05611
autoPET3チャレンジ：全身PET/CTにおける自動病変セグメンテーション – マルチトレーサー多施設汎化 [cs.CV, cs.AI]目的：全身PET/CT画像における自動病変セグメンテーションの性能評価
- PET/CT画像診断は，がんの診断，病期分類，治療効果評価に不可欠である。
- 異なる施設やトレーサー間での汎化性能が課題であり，精度の向上が求められている。
- 未知のトレーサー・施設組み合わせに対するセグメンテーション精度の改善を目指す。
- 最上位アルゴリズムは，平均DSC 0.66，FNV 3.18 mL，FPV 2.78 mLを達成し，ベースラインよりもDSCが8%向上，偽陰性容積が5 mL減少した。
- 同施設内でのマルチトレーサーPET/CTセグメンテーションは，読者間一致に近づいていることが示唆された。
- 未学習のトレーサー・施設組み合わせへの汎化は未解決の課題であり，病変容積の過大評価が主な要因である。
Link: https://arxiv.org/abs/2605.05775
科学コミュニケーションの統合：科学メディア間の詳細な対応関係 [cs.CV]目的：科学メディア間の詳細な対応関係の確立
- 科学知識の伝達は多様なメディアで行われ，理解を深める上で重要である。
- 異なる形式の資料間の繋がりが希薄で，研究内容の統合的な探索が困難である。
- 研究論文，プレゼンテーション資料などを統合的に分析するための基盤を提供する。
- Multimodal Conference Dataset (MCD)を構築し，異なる形式の資料間の対応関係を評価するベンチマークを確立した。
- Vision-languageモデルはロバストだが，詳細なアライメントに課題があることが示された。
- Embeddingベースのモデルはテキストとビジュアルの対応関係は捉えるものの，数式などの表現は分離されたクラスターを形成する。
Link: https://arxiv.org/abs/2605.05831
アバターと顔の表現が合成ジェスチャーの知覚的評価に与える影響：現実検討 [cs.GR, cs.HC]目的：合成ジェスチャーの知覚的評価におけるバイアス要因の特定
- 現実的なバーチャルヒューマンの重要性が増しており，エンタメ，教育，医療など様々な分野で活用が進んでいる。
- ジェスチャー生成の評価において，アバターや顔の表現が評価結果に影響を与える可能性が指摘されている。
- アバターと顔の表現が知覚的評価に与える影響を定量的に明らかにし，評価基準や応用方法の改善を目指す。
- アバターと顔の表現は，ジェスチャーの知覚的評価に系統的な影響を及ぼすことが確認された。
- ジェスチャー合成のベンチマーク評価において，アバターと顔の表現を考慮した評価方法が重要となる。
- 人間と対話するバーチャルヒューマンの展開において，適切なアバターと顔の表現を選択する必要がある。
Link: https://arxiv.org/abs/2605.06063
VISD：構造化自己知識蒸留による動画推論の強化 [cs.CV, cs.AI]目的：動画推論における構造化自己知識蒸留フレームワーク
- 動画理解は，現実世界の複雑な状況を理解する上で不可欠であり，その応用範囲は広い。
- 動画推論において，長期的な時間軸に沿った正確な報酬の割り当てが困難であり，学習効率が低い。
- 診断可能な情報を用いて，トークンレベルでの効率的な知識蒸留を実現し，学習の安定性と精度向上を目指す。
- VISDは，動画の内容に基づいた判断モデルを用いて，推論の質を複数の次元に分解し，構造化されたフィードバックを提供する。
- 報酬から計算される方向性と，構造化された情報から調整される更新幅を分離することで，学習の安定性を高めている。
- 多様なベンチマークにおいて，既存手法を上回り，回答精度と空間・時間的な根拠付けの質を向上させ，学習の収束を速めている。
Link: https://arxiv.org/abs/2605.06094
SwiftI2V：条件付き区分生成による高解像度画像から動画への効率的な生成 [cs.CV]目的：高解像度画像から動画を生成する際の効率性と品質の向上
- 動画生成技術は，エンターテインメント，監視，自動運転など幅広い分野で重要性が増している。
- 高解像度化に伴い，計算コストが著しく増加し，メモリやレイテンシの問題が生じている。
- 入力画像に忠実な詳細を保持しつつ，効率的な高解像度動画生成を実現することを目指す。
- SwiftI2Vは，低解像度モーション参照を生成することでトークンコストを削減し，高解像度合成を可能にする。
- 条件付き区分生成（CSG）により，セグメントごとに動画を合成し，計算量を抑えながら一貫性を高める。
- VBench-I2Vの2K解像度において，既存手法と同等の性能を202倍のGPU時間短縮で実現した。
Link: https://arxiv.org/abs/2605.06356
ベクトル値ゲームにおけるオンラインスカラー化 [cs.GT]目的：ベクトル値ゲームにおけるスカラー化選択戦略
- ゲーム理論は経済学，社会科学，計算機科学など幅広い分野で意思決定の分析に不可欠である。
- 従来のゲーム理論ではスカラー化を固定するため，状況変化への適応が難しいという課題があった。
- 本研究は，状況に応じてスカラー化を動的に選択することで，より効率的な意思決定を可能にすることを目的とする。
- 提案手法は，真の重みベクトルに対する収束率を向上させることが示された。
- 非適応的なスカラー化では約50%だった好ましい均衡への収束率が，約80%に向上した。
- バンディットオンラインミラー降下法と安定化重要度重み付けに基づく実装可能なアルゴリズムが提供された。
Link: https://arxiv.org/abs/2605.06624
赤外・可視画像融合品質評価におけるマルチモーダル大規模言語モデルの活用 [cs.CV]目的：赤外・可視画像融合画像の品質評価手法
- 画像融合は，熱情報と空間構造を統合し知覚性を向上させる重要な技術である。
- 既存の評価手法は，手動で設計された統計量や疑似グランドトゥルースに依存し，過剰最適化しやすい。
- 本研究は，マルチモーダル大規模言語モデルを活用し，より人間の知覚に近い高品質な画像融合評価を目指す。
- FuScoreは，マルチモーダル大規模言語モデルを用いて，離散的なレベル予測ではなく連続的な品質スコアを生成する。
- 画像間のコンセンサス度を反映するソフトラベルを構築し，より詳細な品質識別を実現した。
- 画像レベル，手法レベル，シーンレベルの３つの視点から損失関数を設計し，人間との相関を向上させた。
Link: https://arxiv.org/abs/2605.06969
ピクセルからプリミティブへ：3Dガウススプラッティングにおけるシーン変化検出 [cs.CV]目的：3Dガウススプラッティングにおけるシーン変化の検出
- 3Dシーン理解は，ロボティクスや拡張現実など，様々な応用分野において不可欠である。
- 従来のシーン変化検出手法は，レンダリングに依存し，計算コストが高いという課題がある。
- ガウススプラッティングのプリミティブ属性を用いて，効率的かつ正確なシーン変化検出を実現する。
- 本研究では，ガウススプラッティングのプリミティブ属性（位置，異方性共分散，色）のみでシーン変化を検出できることを示した。
- 提案手法GD-DIFFは，マルチビューの一貫性のある変化マップを構築し，幾何学的変化と外観変化を分離してスコアリングする。
- 実世界のベンチマークにおいて，既存の最先端手法と比較して，平均IoUで約17%の性能向上を達成した。
Link: https://arxiv.org/abs/2605.07203
GPO-V：グローバル確率最適化による拡散ビジョン言語モデルの脱獄 [cs.CV]目的：拡散ビジョン言語モデルに対する新たな脱獄手法の開発
- 近年，拡散モデルを用いたマルチモーダルな言語モデルが注目を集めている。
- 既存の脱獄手法は，拡散ビジョン言語モデルに対して有効でないと考えられていた。
- 拡散ビジョン言語モデル特有の脆弱性を突いた脱獄手法を開発し，安全性を検証すること。
- 拡散ビジョン言語モデルは，従来の固定接頭辞最適化（FPO）による攻撃に対して耐性があるように見えるが，実際には脆弱性を持つことが示された。
- 提案手法GPO-Vは，拡散モデルのノイズ除去軌跡を操作することで，ガードレールを回避し，隠れた攻撃対象領域を明らかにする。
- GPO-Vは，他のモデルへの高い汎化性能を持つステルス性の高い摂動を生成し，拡散ベースの生成モデル特有のリスクに対処する必要性を強調する。
Link: https://arxiv.org/abs/2605.07399
拡散フレームワークを用いたフォトリアリスティックかつ効率的なボケ表現 [cs.CV]目的：フォトリアリスティックかつ効率的なボケ表現の実現
- スマートフォン等の小型デバイスにおける自然なボケ表現は，光学設計の制約から困難である。
- 高デジタルズーム時の低解像度画像では，既存手法はボケ表現の品質が低下する。
- 低品質な入力画像からの高精度なボケ表現と超解像処理の同時最適化。
- MagicBokehは，拡散モデルを用いた統合的なフレームワークにより，高品質かつ効率的なボケ表現を実現する。
- 焦点領域を意識したマスク付き注意機構と，劣化を考慮した深度モジュールにより，ボケ表現の制御性と視覚的な忠実度を向上させている。
- 特に低解像度画像に対して，フォトリアリスティックなボケ効果を効率的に生成できることを実験的に示した。
Link: https://arxiv.org/abs/2605.07429
PolarVLM：視覚言語モデルにおける意味と物理のギャップの架け橋 [cs.CV]目的：視覚言語モデルにおける，偏光情報を活用した物理的曖昧性の解決
- 視覚言語モデルは，様々な応用において重要な役割を担うが，光学的曖昧性に弱い。
- 標準的なRGB画像では，反射や透明な物体など，光学的曖昧性を解消できないという課題がある。
- 偏光情報を活用することで，視覚言語モデルの物理的曖昧性に対する理解を深めることを目指す。
- PolarVLMは，偏光パラメータを視覚言語モデルに統合する初のマルチモーダルフレームワークである。
- PolarVLMは，5つの評価タスク全体でRGBベースラインを25.4%上回り，特に反射認識とガラス計数において顕著な改善を示した。
- 新しいベンチマークPolarVQAを構築し，物理に基づいた指示調整ペアを用いて偏光を意識したVQAを可能にした。
Link: https://arxiv.org/abs/2605.07574
応答G1：プロアクティブなストリーミング動画理解のための明示的なシーングラフモデリング [cs.CV, cs.AI]目的：ストリーミング動画の展開に応じて応答を決定する際の，動画LLMの能力向上
- 動画理解は，様々な応用において不可欠であり，その重要性は高まっている。
- 既存手法は，視覚的証拠の暗黙的なモデリングに頼っており，応答タイミングの精度に課題がある。
- シーングラフを用いることで，動画とクエリ間の関係を明示的に捉え，応答タイミングの改善を目指す。
- Response-G1は，オンラインでクエリに基づいてシーングラフを生成し，過去のシーングラフを検索する。
- これにより，動画の証拠と応答条件を共有のグラフ表現で結びつけ，解釈可能性と正確性を向上させる。
- 実験結果から，Response-G1がプロアクティブおよびリアクティブなタスクにおいて既存手法を上回ることが示された。
Link: https://arxiv.org/abs/2605.07575
運用設計ドメイン内での運用：ビジョン言語モデルによるゼロショット知覚 [cs.CV, cs.AI, cs.RO]目的：自動運転システムの安全な実装と監査に不可欠な，運用設計ドメイン要素の知覚
- 自動運転技術の実用化には安全性への配慮が不可欠であり，その鍵となるのが運用設計ドメインの定義である。
- 従来のシステムは特定のタスクに特化した学習データが必要であり，運用設計ドメインの変更に柔軟に対応できない。
- タスク固有の学習データなしに運用設計ドメインを認識できる，適応可能な知覚システムの実現を目指す。
- 定義に基づいた思考連鎖プロンプトとペルソナ分解が最も高い性能を発揮し，他の手法ではリコールが低下する可能性がある。
- 4つのビジョン言語モデルを用いた実験により，ゼロショットでの運用設計ドメインの分類と検出が可能であることが示された。
- 今回の研究成果は，安全性重視のアプリケーションにおける，透明性があり効果的な運用設計ドメインに基づく知覚の実現に貢献する。
Link: https://arxiv.org/abs/2605.07649
APEX：仮定を用いない射影ベースの埋め込み調査指標による画像品質評価 [cs.CV, cs.AI]目的：画像品質評価のための新しい指標
- 画像生成技術の進歩に伴い，生成画像の品質評価は重要性を増している。
- 従来の評価指標は，特徴量のボキャブラリの制限やパラメータ設定の偏りに課題がある。
- これらの課題を克服し，よりロバストで安定した評価指標を開発すること。
- APEXは，数学的に正当なSliced Wasserstein Distanceを利用し，仮定を用いない評価フレームワークを構築した。
- APEXは，CLIPやDINOv2といったオープンボキャブラリの基盤モデルを活用し，埋め込み表現に依存しない。
- 実験結果から，APEXは既存の指標と比較して，視覚的な劣化に対するロバスト性が高く，データセット間の安定性も優れていることが示された。
Link: https://arxiv.org/abs/2605.07786
BRIDGE：背景ルーティングと孤立した離散ゲーティングによる粗マスクを用いた局所編集 [cs.CV]目的：粗マスクを用いた局所画像編集におけるマスク形状バイアスの軽減
- 画像編集技術は，ユーザーの意図を反映した高品質な画像生成に不可欠であり，その応用範囲は広い。
- 粗マスクを用いた局所編集では，マスクが意図しない形状の事前情報となり，編集結果がマスクの形状に左右されやすいという課題がある。
- 本研究は，マスク形状バイアスを軽減し，より柔軟で指示に従順な局所編集を実現することを目指す。
- BRIDGEは，DiTバックボーン外でマスクを処理することで，マスク注入やコピーされた制御ブランチを回避し，背景と編集領域の分離を強化する。
- BridgePath生成により，背景コンテキストを保持するMain Pathと編集コンテンツを生成するSubject Pathを独立させ，それぞれの役割を明確化する。
- 学習可能な離散幾何学的ゲートを導入することで，Subject Pathが背景の座標を参照したり，独自の座標を維持したりと，柔軟な位置埋め込みルーティングを可能にする。
Link: https://arxiv.org/abs/2605.07846
ワン・ワールド，デュアルタイムライン：4D協調運転再構成のためのデカップルド空間時間ガウスシーングラフ [cs.CV]目的：車両とインフラの協調による自動運転データの動的シーン再構成
- 自動運転技術の発展において，周囲環境の正確な認識は不可欠である。
- 異なる時間軸で取得されたデータ間の同期ずれが，シーン再構成の精度を低下させる。
- 非同期データに対するロバストなシーン再構成手法の開発が求められている。
- 提案手法DUSTは，車両とインフラのデータを時間軸で分離したガウスシーングラフを用いることで，動的領域のPSNRを3.2dB改善した。
- DUSTは，異なる時間軸のデータによる干渉を解消し，ゴースト現象を抑制することに成功した。
- V2X-Seqデータセットにおいて，Fréchet Video Distanceを37.7%削減し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.07910
1フレーム1トークン：VLAポリシーのためのワールドモデルにおける視覚帯域幅の再検討 [cs.CV, cs.AI]目的：VLA（視覚-言語-行動）ポリシーのためのワールドモデルにおける視覚帯域幅の最適化
- VLAモデルは長期的な計画に不可欠だが，そのパラメータ化方法は未解決の課題である。
- 既存手法では，高視覚帯域幅が必要となり，計算資源の制約下で表現力向上が難しい。
- フレームごとの視覚情報を圧縮し，効率的なワールドモデルを構築することを目指す。
- 提案手法OneWM-VLAは，フレームごとの視覚情報を1つの意味的トークンに圧縮することで，視覚帯域幅を大幅に削減できる。
- MetaWorld MT50における成功率は47.9%から61.3%に向上し，LIBERO-Longでは95.6%という高い性能を達成した。
- 実ロボットPiperアームを用いたFold Clothタスクにおいても，成功率が20.0%から60.0%に向上した。
Link: https://arxiv.org/abs/2605.07931
FunnelNet：リアルタイム心雑音モニタリングのためのエンドツーエンド深層学習フレームワーク [eess.SP, cs.LG, cs.SD, eess.AS]目的：リアルタイム心雑音検出手法の開発
- 心雑音は心臓の異常な音であり，早期発見が重要である。医療現場での負担軽減に繋がる。
- 従来の診断法は，専門知識，費用，ノイズの影響などの課題を抱えている。
- 限られた環境下でも高精度なリアルタイム心雑音検出を可能にする軽量モデルを提案する。
- 提案手法FunnelNetは，約5.4kパラメータで，精度85%，感度85%，特異度92%を達成した。
- Raspberry Pi 4Bでは平均91%，Androidスマートフォンでは80%のリアルタイム推論精度を確認した。
- 本研究は，リソースに制約のある環境下でのアクセス可能な医療診断の可能性を示す。
Link: https://arxiv.org/abs/2405.09570
圧縮低照度画像強調のためのハイブリッド事前知識誘導ネットワーク [eess.IV, cs.CV]目的：圧縮された低照度画像の強調
- 画像処理技術の発展は，監視カメラや医療画像など，多様な分野で不可欠である。
- 圧縮画像には圧縮アーティファクトが発生し，低照度画像と重畳すると強調処理が困難になる。
- 異なる圧縮レベルの低照度画像を統一的に処理できるモデルの構築を試みる。
- 提案手法は，JPEGの品質係数とDCT量子化行列を考慮した効率的なプラグアンドプレイモジュールを採用している。
- ランダムな品質係数生成戦略を用いることで，単一のモデルが様々な圧縮レベルの画像に対応可能である。
- 実験結果から，提案手法が既存手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2504.02373