arXiv雑要約

画像・音声 - 2026/06/03 公開

  • より少ない,より良いフレーム:コヒーレンス優先の世界モデルレンダリングの概念実証,モデル誘導FSR4フレーム生成による計算正規化 [cs.CE, cs.GR]目的:コヒーレンス優先レンダリングによる世界モデルの概念実証
    • 世界モデルは,現実世界のシミュレーションにおいて重要な役割を担う。
    • 高いフレームレートは,長期的なシーンの安定性を損なう可能性がある。
    • 限られた計算資源下で,コヒーレンス優先アプローチの有効性を示す。
    • コヒーレンス優先ブランチは,経路形状,オブジェクトID,輪郭,奥行きレイヤーをより長く維持した。
    • ベースラインと比較して,明るさのドリフトや幾何学的な歪みが軽減された。
    • LPIPS評価において,コヒーレンス優先ブランチが優位性を示した。

    Link: https://arxiv.org/abs/2606.02586

  • トポロジーを意識した順序付けに基づくGraph Mamba生存率解析 [cs.LG, cs.CV]目的:全スライド画像(WSI)を用いた生存率解析における課題解決
    • 病理計算論において,WSI生存率解析は患者予後評価に不可欠であり,重要性が高い。
    • Transformerは長距離依存性を捉えるものの,計算コストが高く,大規模WSIグラフ構造への適用が困難である。
    • Mambaの入力順序依存性を克服し,WSIの空間構造を有効活用するフレームワークを開発すること。
    • トポロジーを意識した順序付け(TAO)戦略により抽出されたノードは,高い類似性を示すことが視覚化実験で確認された。
    • 双方向Mambaモジュールとグラフ畳み込みネットワーク(GCN)を統合し,局所集約とグローバル捕捉を行う階層的特徴学習アーキテクチャを実現した。
    • 5つのTCGAデータセットを用いた検証により,包括的な性能向上が確認された。

    Link: https://arxiv.org/abs/2606.02602

  • COD10K-C:自然画像劣化下におけるカモフラージュ物体検出の頑健性の評価 [cs.CV, cs.LG]目的:カモフラージュ物体検出における,自然画像劣化に対する頑健性の評価基準
    • 現実世界の画像はノイズや歪みを含むため,現実的な性能評価が不可欠である。
    • 既存のカモフラージュ物体検出ベンチマークは,清浄な画像のみで評価されており現実的ではない。
    • 自然画像劣化に対する頑健性を評価するための新たなベンチマークを確立し,モデルの改善を目指す。
    • 既存のカモフラージュ物体検出モデルは,画像劣化により性能が低下する。
    • 特にモーションブラーとガウシアンブラーの影響が大きく,SINet-v2はモーションブラー下で18.5のDiceスコアを損失した。
    • RobustCODLiteは,劣化に対する耐性が高く,清浄画像時の性能を92.3%維持し,他のモデルを上回った。

    Link: https://arxiv.org/abs/2606.02603

  • Streami:GPUを用いた磁力線計算のためのMPIデータ並列ライブラリ [cs.CE, cs.DC, cs.GR, physics.flu-dyn]目的:GPU環境における磁力線計算ライブラリの開発
    • プラズマ物理や宇宙天気予報など,流体シミュレーションは科学技術の発展に不可欠である。
    • 大規模な流体データに対する磁力線計算は計算コストが高く,ボトルネックとなりやすい。
    • GPUの並列処理能力を活用し,高速かつ拡張性の高い磁力線計算ライブラリを提供すること。
    • Streamiは,既存のMPIアプリケーションと連携可能な薄型レイヤーとして実装されている。
    • StreamiのAPI設計と設計上の決定が,高い性能と拡張性を実現している。
    • 様々な流体データ形式に対応可能であり,迅速なプロトタイピングと対話的なシード点配置をサポートする。

    Link: https://arxiv.org/abs/2606.02627

  • SegTune:楽曲生成における構造化された詳細な制御 [cs.SD, cs.AI, eess.AS]目的:楽曲生成における構造化と粒度の細かい制御
    • 近年のAI技術により楽曲生成が可能となり,音楽制作の新たな可能性が広がっている。
    • 既存システムは楽曲の時間的変化を捉えきれず,音楽構造やダイナミクスの詳細な制御が困難である。
    • セグメントごとの音楽記述による制御を可能にし,楽曲の構造とダイナミクスを細かく制御する。
    • SegTuneは,Diffusion Transformerを基盤とし,楽曲セグメントに合わせたローカルな音楽記述を可能にする。
    • LLMを用いた音節予測により,歌詞と音楽の正確なアライメントを支援する。
    • 実験の結果,既存手法と比較して,SegTuneは音楽性と制御性に優れていることが示された。

    Link: https://arxiv.org/abs/2606.02638

  • 融合前に保持すべきものを問う:文脈的マルチモーダル信号の較正 [cs.RO, cs.LG, cs.MM, cs.SD, eess.AS]目的:マルチモーダル表現の融合前の調整
    • 言語,音響,視覚情報を組み合わせるマルチモーダルシステムは,様々な分野で性能向上に貢献している。
    • ある入力に有効なモダリティが,別の入力に対しては妨げになる可能性があり,最適化が難しい。
    • 誤解を招く要素を抑制し,より信頼性の高いマルチモーダル最適化を実現すること。
    • 提案手法は,感情理解,行動認識,オーディオビジュアルイベント検出,感情分類を含む5つのベンチマークで性能を向上させた。
    • 融合前に信号を較正することで,信頼性の低いモダリティからの干渉を軽減できることが示された。
    • 学習の安定性向上や,特徴量レベルでの可視化により,文脈に応じたモダリティの重要性を明確にできた。

    Link: https://arxiv.org/abs/2606.02679

  • AVTrack:人間中心の複雑なシーンにおけるオーディオビジュアルトラッキング [cs.CV, cs.AI]目的:人間中心の複雑なシーンにおけるオーディオビジュアルインスタンスセグメンテーションのためのデータセット
    • 人間中心のシーン理解は,ビデオ編集,監視,人間とコンピュータのインタラクションなど,様々な実用的な応用において不可欠である。
    • 既存のデータセットは単純なシーンに限られており,複雑な動的なシーンにおけるロバストなモデル評価が困難である。
    • 複雑な環境下での,よりロバストなオーディオビジュアルシーン理解のためのベンチマークを提供することを目的とする。
    • 本研究で開発したAVTrackは,カメラの動き,視覚的遮蔽,位置変化を含む多様かつ困難な条件を備えたデータセットである。
    • AVTrackを用いた評価により,既存のAVIS手法の性能低下が明らかになり,困難なベンチマークとしての有用性が示された。
    • 今後の研究を促進するため,シンプルかつ効果的なベースライン手法も提供している。

    Link: https://arxiv.org/abs/2606.02724

  • EntangleCodec:意味・音響間のエンタングルメントによる統一的な離散オーディオトークナイザー [cs.SD, cs.AI, eess.AS]目的:オーディオとオーディオ言語モデル間の離散インターフェース
    • オーディオ言語モデルの性能は,オーディオをどのように離散表現で捉えるかに大きく依存する。
    • 既存のトークナイザーは,理解と生成の両方をサポートするのが難しい。
    • 意味と音響を統合し,高精度な再構成と理解・生成能力を両立させる。
    • EntangleCodecは,既存の専門的なコーデックと同等の再構成品質を達成した。
    • MMARにおいて,コーデックベースのベースラインを最大+7.4%上回るオーディオ理解性能を示した。
    • 0.6Bパラメータのモデルで,13Bパラメータを超える連続表現LLMを凌駕し,スケーラビリティの高さを示した。

    Link: https://arxiv.org/abs/2606.02739

  • 一貫しているにも関わらず誤りがある:空間視覚言語モデルにおける証拠に対する不感性 [cs.CL, cs.CY, cs.CV]目的:空間視覚言語モデルにおける計量距離に関するクエリの信頼性向上
    • ロボティクスや自律性,具現化されたAIにとって空間認識は不可欠であり,その発展が求められている。
    • 既存の視覚言語モデルは,計量距離のクエリにおいて信頼性が低いという課題を抱えている。
    • 視覚的証拠に基づかない,一貫性のある誤った予測が生じる原因を特定し,その改善を目指す。
    • 主要な視覚言語モデルは,誤った回答であっても視点に依存しない一貫した回答を生成することが明らかになった。
    • 新しい評価プロトコルViewDiagを用いて,モデルの精度,分布の集中度,内部崩壊を評価した結果,高い予測安定性と大きな誤差が同時に存在することが確認された。
    • 視点間の一貫性を幾何学的理解の指標とすることは妥当ではなく,安定した予測は証拠に基づく推論ではなく,事前知識に基づく崩壊を反映している可能性がある。

    Link: https://arxiv.org/abs/2606.02742

  • Plan2Map:計画記録に基づく地空間境界再構築のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的:計画記録からの地空間境界再構築
    • 都市計画等の情報基盤として,地理空間データの精度向上が重要である。
    • 計画記録は空間情報が間接的に記述されており,機械可読な境界線が得られない場合が多い。
    • 計画記録から正確な地空間境界線を再構築する手法の確立を目指す。
    • 本研究では,英国の計画記録を対象としたマルチモーダルベンチマークPlan2Mapを開発した。
    • 提案手法GeoPlanAgentは,Plan2Mapにおいて平均IoU 0.736,中央値IoU 0.904を達成し,既存手法を大きく上回った。
    • 誤りは主に位置特定と地図登録に集中しており,教師あり境界セグメンテーションが画素レベルの精度を向上させる。

    Link: https://arxiv.org/abs/2606.02747

  • MetaWorld: 単一視点ビデオデータからのマルチエージェントビデオワールドモデルのスケーリング [cs.CV, cs.AI]目的:マルチエージェントビデオワールドモデルのスケーリング手法
    • 具現化されたAIやメタバースの基盤技術であり,現実世界の再現が不可欠である。
    • 既存手法は単一視点に限定され,マルチエージェント環境への拡張が困難であった。
    • 単一視点ビデオデータのみから,一貫性のあるマルチエージェント環境を構築すること。
    • MetaWorldは,単眼映像からカメラの動きと対象物の軌跡を分解するMonocular World-State Unrolling(MWSU)を導入した。
    • Subject-Aware World Generatorにより,エージェントごとの画像に基づいた外観制御されたシミュレーションを実現した。
    • World-State Alignment機構により,各視点間の一貫性と物理的な整合性を確保し,高いスケーラビリティを示した。

    Link: https://arxiv.org/abs/2606.02753

  • 局所学習から大規模マッピングへ:衛星水深データ推定における機械学習と深層学習の比較評価 [cs.HC, cs.CV, physics.comp-ph]目的:衛星画像を用いた水深データの転移学習可能性の評価
    • 沿岸域の水深情報は,海洋資源管理や防災において不可欠である。
    • 従来の衛星水深データ推定は,光学的に複雑な海域で精度が低下する課題がある。
    • 深層学習モデルを活用し,異なる地域への適用性を高めることを目指す。
    • 空間的な連続性を重視した学習と,浅い水深に対する損失関数の重み付けが,精度向上に大きく貢献した。
    • 深層学習モデルは,地域間での転移学習において,ランダムフォレストよりもロバストな性能を示した。
    • 提案手法は,公開データセットMagicBathyNetにおいて,既存モデルを凌駕する精度を達成した。

    Link: https://arxiv.org/abs/2606.02764

  • GeoDrive-Bench:自動運転における地域特有のマルチモーダル推論のベンチマーク [cs.CV]目的:自動運転向けビジョン言語モデルの地域文化に根ざした運転推論能力の体系的な調査
    • 自動運転技術の普及には,多様な交通ルールへの適応が不可欠である。
    • 既存のビジョン言語モデルは,地域特有の交通ルールへの理解が不十分である。
    • 地域ごとの運転文化に対応した,よりロバストなモデル開発を支援する。
    • GeoDrive-Benchは,6ヶ国における5,053個の質問ペアで構成され,視覚情報と地域交通規則から適切な運転行動を推論する能力を評価する。
    • 9つの最先端VLMsの実験結果から,各タスクにおいて地域文化別の性能に大きなばらつきがあることが示された。
    • 提案手法による蒸留アルゴリズムは,VLMsの地域文化対応型推論能力を向上させることが確認された。

    Link: https://arxiv.org/abs/2606.02774

  • 現実世界の教育応用における人間オブジェクト相互作用検出器の診断 [cs.CV]目的:現実世界の教育環境における人間オブジェクト相互作用検出器の性能低下の原因特定と改善
    • 教育現場における生徒の行動分析は,効果的な学習支援に不可欠であるため,その自動化が重要視されている。
    • 既存のHOI検出器は,特定のドメインや複雑な視覚条件下では性能が低下するという課題がある。
    • 現実世界の教育環境に適応したHOIモデルを開発し,生徒の行動分析の精度向上を目指す。
    • 本研究では,教育用ビデオデータに対するHOIエラー分類とエラー要因分析に基づく診断駆動型フレームワークを提案した。
    • 診断結果に基づき,事前学習済みHOIモデルをターゲットドメインに適合させることで,性能が大幅に向上した。
    • CCATTデータセットにおいて,CDNモデルのmacro-F1スコアが48.6から90.2へと改善され,詳細な診断分析の有効性が示された。

    Link: https://arxiv.org/abs/2606.02789

  • コスモス3:物理AIのための全感覚的ワールドモデル [cs.CV, cs.AI, cs.LG, cs.MM, cs.RO]目的:全感覚的ワールドモデルの設計と評価
    • 物理AIの発展には,多様な感覚情報を統合的に処理できるモデルが不可欠である。
    • 既存モデルは,特定のモダリティに特化しており,汎用的な統合が課題となっていた。
    • 言語,画像,動画,音声,行動シーケンスを統合する汎用的なワールドモデルの構築を目指す。
    • コスモス3は,多様な理解・生成タスクにおいて最先端の性能を達成した。
    • 特に,テキストから画像,画像から動画への生成において,オープンソースモデルとして最高の評価を得た。
    • コード,モデル,データセットを公開し,物理AI研究の加速に貢献する。

    Link: https://arxiv.org/abs/2606.02800

  • 3D医療画像に対するビジョン言語モデルの評価のための自動レポート由来の腫瘍VQAベンチマーク [cs.CL, cs.CV]目的:ビジョン言語モデルの評価のための腫瘍VQAベンチマーク生成パイプライン
    • 医療画像診断支援の精度向上は,臨床現場における重要な課題である。
    • 既存のベンチマークは規模が小さく,手作業による注釈が必要,または事前学習データに含まれる可能性がある。
    • 臨床的に妥当で,拡張可能かつ評価の偏りを制御したベンチマークの構築を自動化すること。
    • 本パイプラインは,放射線科レポートと3D腫瘍画像から,RADS形式およびレポート由来の質問を生成する。
    • 生成されたベンチマークを用いて6つのVLMsを評価した結果,優位なモデルは存在せず,改善の余地が大きいことが示された。
    • 盲検的なアブレーション実験により,視覚への依存度はデータセットに特異的であり,画像が不要なケースも存在することが明らかになった。

    Link: https://arxiv.org/abs/2606.02809

  • 起伏の激しい地形における民主主義:最適な投票ルールの相転移 [cs.GT, cs.MA, cs.SI, physics.soc-ph]目的:多様な状況下における市民への影響を考慮した,異なる投票方法の最適化
    • 法制度は個人の結果に影響を与えるが,投票方法がどのように影響するかは不明である。
    • 複雑な状況下における最適な投票方法の選択に関する研究が不足している。
    • 地形の複雑さと個人の状況への依存度を考慮した最適な投票方法を特定すること。
    • 直接民主制において,最適な投票方法は地形の複雑さに応じて明確な相転移を示す。
    • 特に,カーディナルスコア投票,順位付きスコアリング,ボルダカウント,STAR投票がそれぞれ異なる複雑さの地形で優位性を示す。
    • 代表制においては,カーディナルスコア投票が多くのケースで優位となり,βが高い場合やp_selfが低い場合には単数投票が最も適している。

    Link: https://arxiv.org/abs/2606.02813

  • 非線形重ね合わせと特徴相互作用による原理に基づいた反射分離 [cs.CV]目的:単一画像からの反射分離
    • 画像処理において,写像と反射層の分離は重要である。現実的なシーンを再現する上で不可欠な技術。
    • 既存手法は簡略化された仮定や独立したモデルに依存し,複雑な現実世界での問題に対応しきれていない。
    • 現実世界の画像信号処理パイプラインで生じる非線形結合を捉え,より正確な分解を目指す。
    • 提案手法は,非線形重ね合わせモデルを用いて層間の相互作用をより忠実に表現し,分解精度を向上させる。
    • 双方向ストリームインタラクティブフレームワークは,伝送と反射間の双方向の依存関係を特徴交換によって明示的にモデル化する。
    • 多様なベンチマークでの実験により,高い汎化能力と優れた性能が確認された。反射分離は線形混合の取り消しではなく,非線形形成と相互作用の学習であるという知見が得られた。

    Link: https://arxiv.org/abs/2606.02831

  • 経路構造化された特権的知識蒸留による実用的な計算病理 [cs.CV]目的:転移学習による全スライド画像からの病理推論性能向上
    • がんリスクモデリングにおいて,トランスクリプトミクスと組織病理学的データの統合が重要視されている。
    • ルーチン臨床環境でのRNAプロファイリングの制限が,その実用化を妨げている。
    • 組織病理画像のみから分子情報を活用し,推論性能を向上させることを目指す。
    • MoPEは,経路情報を活用した知識蒸留により,組織病理画像のみからの推論精度を既存手法と比較して向上させた。
    • 経路の使用状況分析と専門家による視覚的検査により,モデルの挙動の解釈可能性と信頼性が確認された。
    • 本研究は,分子情報を活用したトレーニングとRNAフリー推論の両立に向けた有望なアプローチを示す。

    Link: https://arxiv.org/abs/2606.02877

  • 遮蔽に強い物体検出のための小型協調推論 [cs.CV]目的:遮蔽に対するロバスト性を持つ物体検出手法
    • IoT機器等のエッジデバイスにおける画像処理の需要が高まっている。
    • 低スペックなエッジデバイスでは,メモリや計算資源の制約が課題となる。
    • 遮蔽が発生した場合でも,物体検出の精度を維持・向上させる。
    • Weighted Boxes Fusion (WBF) が特徴量レベルの融合よりも優れていることが示された。
    • 3つの視点からの融合はさらに精度を向上させるが,通信オーバーヘッドも増加する。
    • エッジデバイス間での協調推論により,単独での運用と比較してフレームレベルの検出率が向上した。

    Link: https://arxiv.org/abs/2606.02894

  • Any2Poster:多様なソースと分野に対応するポスター自動生成 [cs.CV]目的:多様なソースからのポスター自動生成に関するベンチマークと参照エージェント
    • 情報伝達において,ポスターは簡潔かつ効果的な媒体であり,その重要性は高い。
    • 既存のポスター生成評価は,入力形式や分野が限定的で,実用的な性能評価が困難である。
    • 多様なソースと分野に対応し,情報と視覚的品質の両面を評価できるベンチマークの提供。
    • Any2Poster Benchは,PDF,URL,PPTXなど8種類の入力形式と5つの分野に対応するベンチマークである。
    • Any2Poster Agentは,多様なソースの解析,コンテンツの整理,レイアウトの計画,ポスターのレンダリングを行う参照エージェントである。
    • Any2Poster Agentは,既存のAgentと比較して,精度と密度において大幅な改善を示した。

    Link: https://arxiv.org/abs/2606.02915

  • ピクセルキューブ:現実的な照明再現による拡散ベースのポートレート動画のリライティング [cs.DC, cs.CV]目的:ポートレート動画のリライティング手法
    • 動画制作やバーチャルプロダクションにおいて,リアルな照明効果は不可欠である。
    • 従来の動画リライティングは,写実性や時間的な一貫性に課題が残っていた。
    • 多様な条件下で,リアルかつ自然なポートレート動画のリライティングを実現すること。
    • 本手法は,実撮影とレンダリングを組み合わせたデータセットと,拡散モデルを活用することで,写実性と時間的一貫性を両立したリライティングを可能にした。
    • 環境マップによる照明制御に加え,背景画像を用いた露出や色調の制御により,より自由度の高いリライティングを実現した。
    • 実験結果から,本手法が既存手法と比較して,写実性,照明の調和,時間的一貫性の点で優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2606.02919

  • ATLAS:敵対的LiDAR知覚のための大規模評価ベンチマーク [cs.CV]目的:敵対的LiDAR知覚におけるモデルの脆弱性評価
    • 自動運転の安全性確保には,現実世界でのLiDARセンサーの異常に対するロバスト性が不可欠である。
    • 既存のベンチマークでは,悪意のある攻撃によるLiDAR知覚システムの脆弱性を評価することが困難である。
    • 本研究は,LiDAR知覚モデルへの敵対的攻撃に対するロバスト性の評価基準を確立し,その脆弱性を明らかにする。
    • ATLASは,LiDAR知覚モデルに対する点挿入および点削除攻撃をシミュレーションする大規模ベンチマークである。
    • 高性能モデルは点削除攻撃には強いが,点挿入攻撃には脆弱であることが示された。
    • この脆弱性は,一般的な物体データベースサンプリングによるデータ拡張に起因すると考えられる。

    Link: https://arxiv.org/abs/2606.02924

  • SaluNet:正規化を用いない深層ネットワークにおける完全な可塑性の実現 [cs.CV]目的:深層ネットワークにおける正規化層の代替手法の開発
    • 深層学習モデルの安定した学習には正規化層が不可欠と考えられている。
    • 正規化層の導入により,学習パラメータの適応性が抑制されるという問題点がある。
    • 本研究では,正規化層を用いずに,より高い学習性能を実現することを目指す。
    • SaluNetは,CIFAR-10で97.35%,CIFAR-100で83.25%という高い精度を,正規化層なしで達成した。
    • バッチサイズ1の条件下においても,SaluNetは従来の正規化アーキテクチャが失敗する中で,高い性能を維持した。
    • ImageNet-1Kにおいては,SaluNet-C-50が78.67% (224x224) および79.23% (288x288) のTop-1精度を達成した。

    Link: https://arxiv.org/abs/2606.02927

  • 円筒物体のCADとCTの登録:楕円に基づく軸推定 [cs.CV, cs.CE]目的:円筒物体のCADモデルとCTスキャンの正確な登録
    • 体積イメージングにおいて,正確な真の形状確立は不可欠である。
    • CT値の較正がない場合,強度に基づく従来法は失敗する。
    • 理想的なCADとノイズのあるCTデータ間の特徴対応がない問題を解決する。
    • 提案手法は,傾きおよび向き誤差を0.1度以下で安定して登録を実現した。
    • 強度較正や特徴量マッチングなしに,堅牢な登録が可能である。
    • 登録されたCADモデルは,機械学習や工業CTワークフローに真の形状を提供する。

    Link: https://arxiv.org/abs/2606.02935

  • BYORn:バックドア攻撃に対する大規模視覚言語モデルを防御するための自己応答ブートストラップ [cs.LG, cs.CV]目的:大規模視覚言語モデルに対するバックドア攻撃の防御
    • 視覚言語モデルの応用範囲は広く,その安全性確保は重要である。
    • 既存のファインチューニング手法はバックドア攻撃に脆弱であり,効果的な防御策が不足している。
    • バックドア攻撃に耐性のあるファインチューニング手法を開発し,汎化性能と防御性能の両立を目指す。
    • BYORnは,画像とテキストの入力に対して意味的に不自然な悪意のある応答を検出し,モデル自身が生成した代替応答で置き換えることで,トリガーとターゲット出力の相関を断ち切る。
    • 実験結果から,BYORnはバックドア攻撃に対するロバスト性を向上させつつ,クリーンタスクの性能を維持し,汎化性能と攻撃成功率の間に新たなトレードオフの境界線を確立することが示された。
    • さらに,提案手法を回避するように設計された適応攻撃に対してもBYORnが有効であることが確認された。

    Link: https://arxiv.org/abs/2606.02947

  • リアルタイム自然言語カメラエージェント:エッジでの活用 [eess.SY, cs.SY, cs.ET, cs.RO, cs.AI, cs.CL, cs.CV, cs.HC]目的:自然言語によるPTZカメラ制御と視覚シーン理解のためのエージェント開発
    • ロボット工学において,自然言語指示に基づくタスク遂行能力は重要であり,実用的な応用を促進する。
    • 既存システムでは,低遅延性,高精度,およびエラーモード分析が十分に行われていない。
    • エッジ環境でのリアルタイムな自然言語PTZカメラ制御を実現するための課題解決を目指す。
    • SCOPEは,Blenderベースのシミュレーションと実機PTZカメラの両方で動作し,ローカル環境で知覚,計画,制御を行う。
    • 強力な言語モデルの使用により,幻覚が減少し,ツールルーティングが改善され,より信頼性の高い動作が可能となった。
    • 量子化により,精度低下を最小限に抑えつつ,追加の効率化が実現し,リアルタイムなエッジ環境でのPTZ制御に適した設計ポイントを特定した。

    Link: https://arxiv.org/abs/2606.02951

  • 自律運転の将来:KITScenesマルチモーダルデータセット [cs.CV, cs.LG, cs.RO]目的:高精度なセンサーと地図を用いたヨーロッパのデータセット
    • 自動運転技術の発展には,多様で高品質なデータセットが不可欠である。
    • 既存のデータセットは,センサーの精度,地図の完成度,地理的多様性に課題があった。
    • センサーと地図の精度向上,地理的多様性の拡大を目指す。
    • KITScenesは,高解像度カメラ,長距離LiDAR,4Dレーダー,GNSS/INSを統合したデータセットである。
    • HDマップは,交通信号を含む全ての交通要素を3次元で高精度にマッピングしている。
    • オンラインHDマップ構築,長距離深度推定,新規視点合成,エンドツーエンド運転の4つのベンチマークを公開した。

    Link: https://arxiv.org/abs/2606.02956

  • 一人称視点における自然言語クエリの groundeding のための手の軌跡の融合 [cs.CV, cs.AI, cs.HC, eess.IV]目的:一人称視点ビデオにおける自然言語クエリに対する正解となる時間間隔の特定
    • 日常生活の理解と支援に不可欠であり,ロボットやアシスタント技術の発展に貢献する。
    • 既存手法は視覚情報とクエリを融合するが,手の動きという重要な情報を無視している。
    • 手の軌跡情報を活用し,より正確なクエリの groundeding を実現することを目指す。
    • 提案手法は,手の軌跡を意味的に豊かな特徴に変換し,ビデオ・テキスト特徴と融合する。
    • Ego4D NLQ v2 の検証結果,特に「手と物体の相互作用」や「数量/状態」クエリにおいて性能が向上した。
    • 手の軌跡は,視覚情報だけでは捉えきれない groundeding の手がかりを提供することを示唆する。

    Link: https://arxiv.org/abs/2606.02962

  • バランスのとれた学習とマルチセンサーフュージョンによるコンパクトな自律運転知覚 [cs.CV, cs.AI, cs.RO]目的:自律運転知覚タスクの効率的な処理
    • 自動運転技術の発展には,周囲環境の正確な認識が不可欠である。
    • 複数の知覚タスクを個別に実行すると,計算コストが増大し,リアルタイム処理が困難となる。
    • 複数の知覚タスクを単一モデルで処理することで,計算効率と認識精度を向上させる。
    • 提案手法は,セマンティックセグメンテーション,深度推定,LiDARセグメンテーションなどを単一のモデルで同時に処理する。
    • 適応的な損失重み付けアルゴリズムにより,複数のタスク間の学習バランスを改善する。
    • RGBカメラ,DVS,LiDARなどのマルチセンサー情報を統合し,動的な環境変化に対する理解を深める。

    Link: https://arxiv.org/abs/2606.02979

  • ASVspoof 5における論理的アクセスに対するTransformerベースの効率的な反スプーフィングネットワーク [cs.SD, cs.CY]目的:ASVspoof 5のTrack 1クローズド条件下における,論理的アクセスに対する反スプーフィング性能の向上
    • 自動音声認証システムの信頼性は重要であり,合成音声や操作された音声による攻撃から保護する必要がある。
    • 従来のクロスエントロピー学習では,難しい試行に十分な注意が払われず,評価指標との整合性が低い場合がある。
    • 高い検出精度と計算コストのバランスを取り,効率的な反スプーフィングシステムの開発を目指す。
    • 提案手法TFPARNは,minDCF 0.2430,EER 12.52%を達成し,再実装されたAASISTやRawNet2を上回る性能を示した。
    • ペアワイズ損失,フォーカル損失,アテンションプーリングがそれぞれ性能向上に貢献することが,消去実験により示された。
    • TFPARNは,他のシステムと比較して最も低い推論メモリ使用量(1.4 GB)と,短い学習時間で最高性能に到達した。

    Link: https://arxiv.org/abs/2606.02980

  • MARIO:モーション拡張リアルタイム多感覚慣性測位 [cs.RO, cs.CV, cs.HC]目的:人間のモーショントラッキングの精度向上
    • ARやウェアラブルデバイスにおける軽量なモーション追跡技術の重要性が高まっている。
    • 既存の学習ベースの慣性測位は,人間特有の動きのダイナミクスを捉えきれていない。
    • 人間工学に基づいたモーション制約を組み込み,ドリフトを削減することを目指す。
    • 学習によるIMU推測ポーズ事前知識を導入することで,慣性測位の物理的整合性を向上させた。
    • 大規模なNymeriaデータセットで,位置ドリフトを最大36%削減することに成功した。
    • 磁力計やバロメーター等の追加センサーを融合することで,位置ドリフトを最大42%削減し,ロバスト性を向上させた。

    Link: https://arxiv.org/abs/2606.02996

  • MUSE:MLLMのための統一的なエージェント的ハーネス [cs.CV, cs.AI]目的:MLLMの性能向上
    • 画像とテキストを扱えるMLLMは,AI研究の重要な進展である。
    • MLLMは,人間が容易に行えるタスクで依然として失敗することがある。
    • MLLM自体の再学習ではなく,実行環境の改善で性能向上を目指す。
    • MUSEは,タスク表現,視覚処理,ツール利用など複数のモジュールでMLLMを囲む構造化実行ハーネスである。
    • 多様なベンチマークにおいて,MUSEはMLLMの性能を常に向上させ,特に難しい問題で大きな改善が見られた。
    • MLLMの失敗は,モデルの欠陥よりもハーネス側の問題に起因することが多く,検証者による修正で解決できる。

    Link: https://arxiv.org/abs/2606.03005

  • クロスアレイ非ターゲット推定を用いた後処理によるオーディオスポットフォーミング [cs.CL, cs.SD]目的:ノイズ混在環境からのターゲット音声抽出手法
    • 複数マイクアレイを用いることで,音源分離性能の向上が期待される分野である。
    • 従来の低ランク近似は,複雑な音声構造との不一致により性能劣化を招く場合がある。
    • 異なるアレイから見た非ターゲット音の空間的特性を利用し,後処理を改善する。
    • 提案手法は,従来のスポットフォーミング手法と比較して,音声抽出性能を向上させる。
    • 他のアレイから見た非ターゲット音推定を用いることで,低ランク近似に依存しない効率的な後処理を可能にする。

    Link: https://arxiv.org/abs/2606.03028

  • LLMエージェント市場におけるマッチングメカニズムの有効性 [cs.GT, econ.GN, q-fin.EC]目的:LLMエージェント市場におけるマッチングメカニズムの機能
    • 市場設計は,資源配分効率化に不可欠であり,経済学,計算機科学等の分野で重要視される。
    • 従来の市場設計は人間を前提としており,LLMエージェントのような新しい主体への適用可能性が不明である。
    • LLMエージェント市場における最適な市場メカニズムの設計と,その性能評価を明らかにすること。
    • 集中型メカニズム市場は,自由交渉市場と比較して,安定性と効率性の両面で優れていることが示された。
    • LLMエージェントは,比較可能な状況下の人間の被験者よりも高い頻度で真実な選好を報告する。
    • 戦略的合理性を持つメカニズム(TTC)であっても,必ずしもEADAよりも高い真実性をもたらすとは限らない。

    Link: https://arxiv.org/abs/2606.03030

  • FCUS-rPPG:勾配振動抑制による高速収束型リモート・フォトプレチスモグラフィ非教師ありフレームワーク [cs.RO, cs.MA, cs.CV]目的:リモート・フォトプレチスモグラフィ(rPPG)による血圧変動波形の抽出
    • 非接触で生理信号を計測可能であり,医療・ヘルスケア分野での応用が期待されている。
    • 従来の非教師ありrPPG法では,不安定な勾配による収束の遅延や汎化性能の限界が存在する。
    • 勾配振動を抑制し,効率的な最適化と汎化性能の向上を目指す。
    • FCUS-rPPGは,既存手法と比較して大幅な収束速度の向上を実現し,1エポックで学習が完了する。
    • スペクトル共有バックボーンと,勾配,損失地形,特徴表現レベルでの最適化により,汎化性能が向上する。
    • 5つのデータセットでの評価において,最先端(SOTA)の性能を達成し,クロスデータセット評価においても優れている。

    Link: https://arxiv.org/abs/2606.03050

  • ROBUST-WT:ホワイトニングと学習改善によるロバストな不確実性認識セグメンテーション変換 [cs.CV, cs.AI, cs.LG]目的:医療画像における汎化されたセグメンテーション性能の向上
    • 異なる画像装置や臨床プロトコル間での性能劣化を防ぐことは,医療画像解析において重要である。
    • 既存手法は,画像データのドメイン間の差異に弱く,汎化性能が低いという課題がある。
    • 本研究は,学習レベルの改善により,ドメイン間のロバスト性を高めることを目指す。
    • 提案手法は,fundus optic discセグメンテーションにおいて,Diceスコア0.956,ASDスコア13.31を達成した。
    • これは,ベースラインのepoch-5 Diceスコア0.939を上回る結果であり,学習改善の効果を示す。
    • 提案手法は,WT-PSEアーキテクチャを変更することなく,性能向上を実現した。

    Link: https://arxiv.org/abs/2606.03069

  • TGV-KV:テキストに基づいたKV退去によるビジョン言語モデルの効率化 [cs.CV]目的:ビジョン言語モデルにおけるKVキャッシュ退去による推論メモリ削減
    • ビジョン言語モデルは急速に発展しており,様々な応用が期待されている。
    • 文脈長が長くなるほどメモリ消費量が線形に増加し,計算資源に制約がある環境では課題となる。
    • テキスト情報を活用し,ビジョン情報の重要度を適切に評価することで,メモリ効率と性能の両立を目指す。
    • 提案手法TGV-KVは,テキストとビジョンの相互情報に基づいて各層に予算を割り当てる。
    • TGV-KVは,テキスト加重ランキングによりビジョン情報の優先度を評価し,テキストKVの保持を優先する。
    • VizWiz-VQAタスクにおいて,LLaVA-NeXTで99.2%のフルKV精度を維持しつつ,スループットを52.6%向上させた。

    Link: https://arxiv.org/abs/2606.03075

  • 動的クラスタリングと適応正則化によるロバストなインフラ検査のための階層型連合学習 [cs.CV]目的:インフラ検査におけるロバストかつ専門的な診断モデルの構築
    • 構造物の健全性監視は重要だが,データプライバシーやセキュリティ規制が課題となる
    • 連合学習はプライバシー保護に有効だが,構造物の種類やデータ分布の不均衡が問題となる
    • 構造物の劣化傾向に基づく動的クラスタリングと,局所的なデータ不均衡に対応する正則化手法を提案する
    • 提案手法は,大規模な実データを用いた評価で,二重の不均一性を効果的に抑制することを示した。
    • 動的クラスタリングにより,事前に地理情報が不要で専門的なグループ化が実現された。
    • 局所的な正則化により,クライアントのドリフトを抑制し,少数クラスの忘却を防ぐことができた。

    Link: https://arxiv.org/abs/2606.03084

  • ヒエラルキー的視点-トークン輸送によるゼロショット3D質問応答 [cs.CV, cs.LG]目的:ゼロショット3D質問応答における入力コンテキスト収集手法
    • 3Dシーン理解は,ロボット工学や拡張現実など,多くの応用分野で重要である。
    • 限られた入力予算の中で,3Dの詳細を最大限に保持することが課題となっている。
    • タスクに関連する3D情報を効率的に収集し,質問応答性能を向上させることを目指す。
    • 提案手法KeyVTは,視点レベルとトークンレベルで階層的に入力コンテキストを収集する。
    • 視点重要度は,セマンティック内容と幾何学的配置に基づいて評価され,一貫性のある視点を選択する。
    • 最適輸送フレームワークを用いて冗長性を削減し,重要なトークンを特定することで,特徴量の網羅性を高める。

    Link: https://arxiv.org/abs/2606.03100

  • ノイズ除去拡散陰的モデルの生成過程の反転:経験的評価と新しい手法 [cs.CL, cs.CV]目的:DDIM画像生成過程の反転による潜在変数の復元
    • 拡散モデルは高品質な画像生成を可能にするため,その応用範囲は広い。
    • 生成された画像から潜在変数を正確に復元することは困難である。
    • 初期潜在変数の予測精度を向上させ,より良い再構成を実現すること。
    • 提案手法は,初期潜在変数の予測において既存手法を大幅に上回る性能を示した。
    • 再構成精度も向上し,画像生成・編集への応用が期待できる。
    • 自己補間テストにより,既存手法の潜在変数予測の不正確さが明らかになった。

    Link: https://arxiv.org/abs/2606.03111

  • 周波数認識融合による不完全な多角的リモートセンシングにおける変化検出 [cs.CL, cs.CV]目的:不完全な多角的リモートセンシングにおける変化検出手法
    • 現実世界のモニタリングにおいて,リモートセンシング変化検出は不可欠である。
    • 異なるセンサーや時間差によるデータ間の不整合が変化検出の精度を低下させる。
    • 照明,季節,モダリティの変化に強く,災害マッピングにおける誤検出を減らす。
    • BRIGHT検証において,EO-SAR間の適応により,NeXt2Former-CDよりもtc-mIoU/tc-mAPが向上した。
    • LEVIR-CDとWHU-CDでそれぞれ0.924と0.955のcF1スコアを達成し,バイナリ光学変化検出でも高い性能を示した。
    • NeXt2Former-CDと比較して約24 GFLOPsの計算コストを削減しつつ,精度を維持または向上させた。

    Link: https://arxiv.org/abs/2606.03114

  • 網膜内刺激による視覚学習:モデルベース深層強化学習によるin silico研究 [cs.DL, cs.LG, cs.CV, q-bio.NC]目的:網膜内刺激を用いた視覚回復のための学習メカニズム
    • 加齢黄斑変性や網膜色素変性症は,視細胞層の変性を引き起こす。人工視覚回復への関心が高まっている。
    • 網膜内刺激装置は異方性形状の視覚刺激を生じさせ,画質劣化の原因となる。等方性化が課題である。
    • 異方性/等方性形状を活用し,より明瞭な画像を網膜上に描画する手法を強化学習で開発する。
    • 強化学習エージェントが,等方性および異方性形状を組み合わせ,画像を生成することを学習した。
    • 心理物理学的に検証された軸索マップモデルを用いて,多様な患者の知覚を模倣した画像生成を行った。
    • 本研究で開発された手法は,単純な方法と比較して,より明瞭な画像を生成可能であることが示された。

    Link: https://arxiv.org/abs/2606.03118

  • Prior Guidance: 事前ガイダンスを用いたBridgeモデルの訓練不要な改善 [cs.CV, cs.AI, cs.LG]目的:Bridgeモデルにおける事前ガイダンスの活用による性能向上
    • 拡散モデルの発展に伴い,データ生成におけるガイダンス手法の重要性が増している。
    • Bridgeモデルは事前知識を活用できるが,その活用が十分でない場合がある。
    • 事前知識の活用を促進し,Bridgeモデルの性能を訓練なしで向上させる。
    • 提案手法であるPrior Guidance (PG)は,Bridgeモデルの性能を様々な画像変換タスクで一貫して向上させる。
    • PGは,訓練データに含まれない弱い事前知識を導入することで,事前知識の活用を促し,その効果を強化する。
    • Frequency-Modulated Prior Guidance (FMPG)は,Bridgeモデルの生成ダイナミクスに合わせてガイダンスのスケールを調整し,より効果的な事前知識の活用を可能にする。

    Link: https://arxiv.org/abs/2606.03119

  • カーネル制約を用いたガウススプラッティングによる高忠実度ビュー合成 [cs.CV]目的:高忠実度なビュー合成のための手法
    • 3Dシーンの表現とレンダリングは,仮想現実や拡張現実など,様々な応用において重要である。
    • 従来の3DGSでは,高周波成分の欠落や構造的なアーティファクトが発生しやすい。
    • ウェーブレット変換に基づいた損失関数により,高周波成分の再現性を向上させる。
    • 提案手法KC-3DGSは,ウェーブレット領域での監視とカーネル集中損失を導入することで,高周波の詳細を明示的にペナルティ化する。
    • MipNeRF360やWRIVA-ULTRRAなどの様々なデータセットで,知覚的な品質の改善が確認された。
    • 特にWRIVA-ULTRRAデータセットでは,DreamSimのスコアが9.48%向上し,PSNR,SSIM,LPIPSも改善された。

    Link: https://arxiv.org/abs/2606.03120

  • LVLMにおける視覚的正確性と事実に即した正確性の解明 [cs.CV]目的:大規模ビジョン言語モデルの視覚的リテラシーにおける視覚的正確性と事実に即した正確性の分離
    • 近年,視覚情報を言語で記述するモデルが発展しているが,その能力の評価方法が課題となっている。
    • 既存の評価では,視覚的理解と事前知識が混同されており,真の視覚的推論能力が評価されていない。
    • 視覚的正確性と事実に即した正確性を分離し,モデルの視覚的推論能力をより正確に評価することを目指す。
    • 大規模言語モデルの中には,既存のテストで人間レベルの性能を示すものもあるが,それは事実の想起による可能性が高い。
    • 提案手法により,モデルを視覚重視と事実重視のグループに分類し,視覚と事実の相反する状況下でのモデルの振る舞いを分析した。
    • プロンプトによる介入はモデルの優先順位を変化させ得るが,その効果はモデルに依存し,コントロールは容易ではないことが示された。

    Link: https://arxiv.org/abs/2606.03142

  • A^2:より小さな自己教師ありViTの方が,より大きなViTよりも局所化性能が高い [cs.DB, cs.CV]目的:ViTにおける局所化性能と表現学習のトレードオフ解消
    • 画像認識において,前景オブジェクトの正確な局所化は重要であり,分類性能に大きく影響する。
    • ViTのモデルサイズが大きいほど表現力は向上するが,局所化性能が低下する傾向がある。
    • 小型ViTの局所化性能と大型ViTの表現力を組み合わせ,両者の利点を活かすことを目指す。
    • 提案手法A^2は,小型モデルの注意マップを用いて局所化を行い,大型モデルで特徴抽出を行うことで,両者の利点を活かす。
    • A^2は,事前学習済みの特徴のみを使用し,グループラベルやデータセット固有の調整を必要としない。
    • 5つのベンチマークにおいて,既存手法と同等以上の性能を示し,特に分布シフト下で優れた結果を得た。

    Link: https://arxiv.org/abs/2606.03148

  • NVIDIA OmniDreams:閉ループ自律走行車シミュレーションのためのリアルタイム生成型ワールドモデル [cs.CV, cs.AI, cs.RO]目的:自律走行車の長尾シナリオにおける安全な評価
    • 自動運転技術の発展には,現実世界の複雑な状況を再現するシミュレーション環境が不可欠である。
    • 既存のシミュレーターは,学習データに依存するため,動的な状況や未知のシーンへの対応が困難である。
    • 本研究は,高度な生成モデルを用いて,より現実的かつ多様なシミュレーション環境を構築し,自動運転システムの評価を支援する。
    • OmniDreamsは,Cosmos拡散モデルを基盤とし,21,000時間の運転シナリオで学習することにより,リアルタイムでアクションに条件付けされた動画を生成する。
    • これにより,従来のシミュレーターでは再現が難しい,極端な天候や予測不可能なエージェントの行動など,複雑な現象を合成することが可能となる。
    • NuRecデータセットにおいて,OmniDreamsから学習したWAMは,Alpamayo 1.5よりも優れた性能を示し,パラメータ数は1/5で済んだ。

    Link: https://arxiv.org/abs/2606.03159

  • SRENet:点群アクション認識のためのスペクトル再帰ネットワーク [cs.CV]目的:点群アクション認識のための新しいフレームワーク
    • 自動運転やヒューマンコンピュータインタラクションなど,3D認識技術の応用が重要である。
    • 点群の不規則な構造と時間的な不整合が,時空間表現学習の課題となっている。
    • 周波数領域での解析により,大域的コンテキストと細粒度な時間的動態を捉えることを目指す。
    • SRENetは,MSR-Action3D,NTU-RGBD,NTU-RGBD120のデータセットで最先端の性能を達成した。
    • スペクトル分解ブロック(SDeBlock)は,周波数特有の注意機構を用いて特徴を低・高周波成分に分解する。
    • スペクトル再帰ブロック(SReBlock)は,セマンティック融合によって歪んだ周波数構造を再調整する。

    Link: https://arxiv.org/abs/2606.03160

  • JAVEDIT:エージェントによるデータキュレーションを用いた音声・映像同時指示型動画編集 [cs.CV]目的:音声・映像同時指示型動画編集のための大規模データセットおよびベンチマーク
    • 動画編集技術は,コンテンツ制作や情報伝達において重要な役割を担う。
    • 音声と映像を同時に編集するための専用データセットと評価基準が不足している。
    • 高品質なデータセットとベンチマークを提供し,編集性能の向上を目指す。
    • 大規模データセット JAVEdit-100k を構築し,人間の行動を中心とした動画編集に対応。
    • 包括的なベンチマーク JAVEditBench を導入し,編集品質の標準化を促進。
    • ベースラインモデル JAVEdit を提案し,複数の評価指標において既存モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.03168