arXiv雑要約

画像・音声 - 2026/06/17 公開

  • HRDX:大規模ベクトルHDマップデータセット [cs.RO, cs.AI, cs.CV]目的:大規模ベクトルHDマップ構築のためのデータセット
    • 自動運転の信頼性向上には,高精度でセマンティック情報が豊富なHDマップが不可欠である。
    • 既存の公開HDマップデータセットは規模が小さく,セマンティック属性も限定的である。
    • 大規模かつ多様なデータを用いて,HDマップ構築技術の進展を目指す。
    • HRDXは,約40時間の走行データ(1,400km)を含む大規模なベクトルHDマップデータセットである。
    • 航空画像とのアライメントにより,幾何学的精度とセマンティック情報の両方を向上させることが示された。
    • HRDXは,HDマップ学習やマルチモーダルBEV融合に関する研究を促進するための基盤となる。

    Link: https://arxiv.org/abs/2606.17080

  • 分散推論における無秩序の代償 [cs.AR, cs.AI, cs.DC, cs.GT, cs.PF]目的:分散推論アーキテクチャにおける無秩序の代償の定量化と改善策の提案
    • 大規模言語モデルの推論需要増大に伴い,GPUリソースの効率的な利用が重要となっている。
    • 分散推論アーキテクチャでは,prefillとdecode間のリソース競合がボトルネックとなりやすい。
    • GPU飽和度に応じてルーティングパラメータを調整し,無秩序の代償を低減する手法を開発する。
    • 分散推論を3つのゲームとしてモデル化し,GPU飽和度がゲームの特性に影響を与えることを示した。
    • 適応的なルーティングコントローラーを設計し,飽和度に応じてルーティングパラメータを調整することで性能向上を実現した。
    • 70B 1P/5D構成では,飽和相における無秩序の代償を3.1倍に低減し,スループットの低下を13%に抑えた。

    Link: https://arxiv.org/abs/2606.17081

  • 歌声変換におけるビブラート表現制御:独立制御の改善 [cs.SD, cs.AI]目的:歌声変換のためのビブラート表現制御手法
    • 歌声表現において,歌い方は重要な要素であり,感情やニュアンスを伝える上で不可欠である。
    • 既存手法では,ピッチとエネルギーが混在し,歌い方の制御が困難な場合がある。
    • ピッチとエネルギーの分離,およびビブラートの独立制御を実現し,より自然な歌声変換を目指す。
    • 提案手法VibE-SVC2は,ピッチスタイルとティンバースタイルという2種類の歌い方を制御可能である。
    • エネルギー変換器とゼロショットピッチスタイル変換器により,ピッチとエネルギーの絡み合い問題を解決し,より自然な変換を実現した。
    • 副次波形補正アルゴリズムにより,サブハーモニクスを含む音声のF0推定精度を向上させ,変換品質を高めた。

    Link: https://arxiv.org/abs/2606.17126

  • 音響-言語モデルを用いた推論的ゼロショット音響分類 [cs.AR, cs.SD]目的:ゼロショット音響分類の性能向上
    • 音響分類は,様々な応用において重要な役割を担う技術である。
    • 従来のゼロショット音響分類は,個々の音響クリップを独立に処理するため,性能が限定される。
    • 本研究では,推論的アプローチを用いて,ゼロショット音響分類の精度を向上させることを目指す。
    • CLAPを用いたゼロショット音響分類に対し,推論的アプローチを適用することで,ESC-50,UrbanSound8K,VocalSoundにおいて,top-1精度が+4.6~+9.2ポイント向上した。
    • 効果は,クラスごとのテストサンプル数が2.5程度で飽和する傾向があり,エントロピーに基づくプロンプト重み付けと組み合わせることで,さらなる性能向上が期待できる。
    • ただし,不均衡なデータセットでは効果が減衰する可能性があり,TUT Urban Acoustic Scenes 2018のような低性能なデータセットでは効果が見られなかった。

    Link: https://arxiv.org/abs/2606.17160

  • 真に多言語ではない:VLM評価における文字体系の一貫性の欠如 [cs.CV, cs.CL]目的:ビジョン言語モデルの文字体系の一貫性に関する評価
    • グローバル化が進む中で,多言語対応AIの重要性が増している。
    • 既存の多言語評価は,言語と文字体系の一対一対応を前提としている。
    • 複数文字体系を用いる言語話者への公平性を確保した評価指標の提案。
    • 最新のVLMを評価した結果,文字体系によって性能に大きな差が見られた。
    • 視覚情報の入力は絶対的な性能を向上させるものの,文字体系間の格差を解消しないことが示された。
    • 文字体系間の知識転移は脆弱であり,モデルが文字体系に依存した知識表現を持つことが明らかになった。

    Link: https://arxiv.org/abs/2606.17188

  • 不完全な配信下における動的ガウススプラッティングのためのレンダリング可能な部分表現 [cs.GR, cs.NI]目的:動的ガウス表現における不完全な配信状態でのレンダリング可能性
    • 動的シーンのリアルタイムレンダリングにおいて,高画質と効率的なデータ配信が重要課題である。
    • 従来のガウス圧縮は完全なデータセットを前提とするため,部分的なデータ配信環境では性能が低下する。
    • 部分的なデータでもレンダリング可能で,画質劣化を最小限に抑える動的ガウス表現の最適化を目指す。
    • 訓練サンプルを用いて,GPUバッチで多数の反事実的な状態をレンダリングし,期待される歪み,テール歪み,時間的不整合,レート,およびプレフィックス回帰を最小限に抑える。
    • broom2データセットにおいて,レンダリングユーティリティによる並び替えは,同じバイト予算で従来の層の並び順によるPSNR回帰を解消する結果が得られた。
    • この研究は,ネットワーク配信をグラフィックスコーデックの外部ラッパーではなく,レンダリング可能なシーン状態の分布として扱うことの重要性を示唆している。

    Link: https://arxiv.org/abs/2606.17212

  • 3D CT レポート生成のためのLLM適応の再検討:スケーリングと診断的事前知識の研究 [cs.CL, cs.CV]目的:3D CT画像からのレポート生成におけるLLM適応戦略の評価と,診断的事前知識の活用
    • 医療画像診断支援は,医師の負担軽減と診断精度の向上に不可欠である。
    • 限られた医療データでのLLMのファインチューニングは過学習や誤った情報を生成しやすい。
    • 少ないパラメータで臨床的正確性を保ちつつ,LLMを医療画像に応用すること。
    • パラメータ効率的な適応戦略RAD3D-Prefixは,画像埋め込みと診断分類を統合することで,臨床的詳細を保持し,セマンティックギャップを埋める。
    • LLMのサイズが96.1Mから1.6Bまで変化した場合,小さいLLMではファインチューニングが有効だが,1B以上のLLMでは凍結し軽量な投影層のみを学習する方が優れている。
    • RAD3D-Prefixは,既存のパラメータ効率的な手法と比較して性能が向上し,汎化性能も高く,学習パラメータ数も少ない。

    Link: https://arxiv.org/abs/2606.17213

  • グラフ上における二つの利己的なエージェントの断続的な戦略的協力 [cs.MA, cs.GT, cs.RO]目的:二つの利己的なエージェント間の断続的な戦略的協力
    • 経路探索やリソース共有など,複数エージェント間の協調行動は様々な分野で重要である。
    • 利己的なエージェント間の協力は,相手の裏切りによって不安定になりやすい。
    • 利己的なエージェント間でも安定的な協力が成立するための条件を明らかにする。
    • 本研究では,2人ゲームとしてIC2PPにおける純粋ナッシュ均衡の構造を特徴付けた。
    • 安定的な協力は,高度に制約された形に従う必要があることを示した。
    • IC2PPの全てのインスタンスにおいて,少なくとも1つの純粋ナッシュ均衡が存在することを証明し,それを列挙する多項式時間アルゴリズムを提案した。

    Link: https://arxiv.org/abs/2606.17216

  • 量子エンハンスメント多スケールCNNと双方向Mambaを用いた農地分析 [cs.CV]目的:農地分析のための,多スケールCNNと双方向Mambaの組み合わせによる高精度な分類手法
    • 精密農業において,作物の状態を正確に把握するための重要な技術である。
    • 高次元のスペクトルデータ,空間的な複雑さ,クラスの不均衡,ラベル付きデータの不足が課題となっている。
    • これらの課題を克服し,より高精度な作物分類を実現することを目的とする。
    • 提案手法は,UAVHSI-Cropデータセットにおいて,全体精度84.83%を達成した。
    • CNN,アテンション機構,状態空間モデルを統合することで,ロバストな空間-スペクトル特徴学習を可能にした。
    • 作物病害検出,収量予測,土壌水分推定など,農業・リモートセンシング分野への応用が期待される。

    Link: https://arxiv.org/abs/2606.17222

  • ベンチマークを超えて:高精度路側知覚のための継続的エッジ推論 [cs.CL, cs.CV, cs.RO, cs.SY, eess.SY]目的:リソース制約のあるエッジデバイス上での継続的な路側知覚
    • 自動運転やスマートシティ実現には,リアルタイムな環境認識が不可欠である。
    • 従来のベンチマーク評価では,実際の動作環境における性能劣化が見過ごされやすい。
    • 継続的な動作環境下での性能劣化を抑制し,実用的なエッジAIシステムの構築を目指す。
    • 従来のベンチマーク評価では,実環境での推論性能が20〜30%程度低下することが確認された。
    • 提案手法Edge-TSRは,時間的推論の安定化により,フレームごとの推論と比較して最大10.16%の分類精度向上を実現した。
    • 55分間の実走行試験において,クラウドへのオフロードなしで16.18 FPSを維持し,安全な温度範囲内で動作した。

    Link: https://arxiv.org/abs/2606.17241

  • Landsat-Sentinel-2画像を用いたVision Transformerによる藻場マッピング:モデルの説明,実装,および事例 [cs.CV]目的:沿岸域における藻場のマッピング手法の開発
    • 沿岸域の藻場は生態系において重要な役割を担うため,そのモニタリングは不可欠である。
    • LandsatやSentinel-2のデータは水域での利用が難しく,調和のとれた反射率データの不足が課題となっていた。
    • 本研究は,深層学習に基づく画像分類を用いて,これらの課題を克服し,高精度な藻場マッピングを実現する。
    • Landsat-Sentinel-2画像を用いてVision Transformerを適用した藻場マッピングが初めて成功した。
    • 深層学習モデルは,藻場検出において高い性能を示し,見逃しと誤検出の割合は8-65%であった。
    • Swin Transformerは,雲や太陽光の影響下で従来のスペクトル指標アプローチよりも優れた結果を示し,誤検出を抑制した。

    Link: https://arxiv.org/abs/2606.17242

  • GeoDisaster:運用型災害地理インテリジェンスのためのオーケストレーションエージェントのベンチマーク [cs.CV, cs.MA]目的:運用型災害地理インテリジェンスのためのベンチマークと,オーケストレーションエージェントの性能評価
    • 地球観測技術は災害対応において不可欠であり,迅速かつ正確な情報が求められている。
    • 既存のRS-VLMは,空間推論や証拠に基づいた構造化された意思決定が不十分である。
    • 多様な地理空間データとツールを活用し,災害時の意思決定を支援するシステムを構築すること。
    • GeoDisasterは,森林破壊モニタリング,多重災害分析など,5つのタスクファミリーを含む2,921の検証済み事例を提供する。
    • 提案されたオーケストレーションエージェントフレームワークは,役割特化型エージェントが実行契約を通じて連携し,ツール利用と証拠の根拠付けを向上させる。
    • RCEAは,ツール使用,証拠の根拠,状態の一貫性,意思決定生成において既存のRS-VLMやエージェントシステムを上回る性能を示す。

    Link: https://arxiv.org/abs/2606.17246

  • 視覚と運動制御のためのコントラスト行動-画像事前学習 [cs.RO, cs.CV]目的:ロボットの視覚と運動制御のための画像エンコーダの事前学習
    • ロボット工学における視覚認識は,ロボットの自律性と汎用性を高める上で不可欠である。
    • ロボットの学習データは規模が小さく,大規模な事前学習が困難であるという課題がある。
    • 人間による行動データから,ロボット制御に必要な視覚と行動の対応関係を学習することを目指す。
    • CAIPは,大規模な人間による動画から手ポーズを抽出し,ロボットの行動空間と整合性の高い3次元手キーポイント表現を学習する。
    • CAIPは,32,041時間の人間による動画と88時間のロボット操作データを用いて,DINOv2などの最先端の画像エンコーダを上回る性能を示す。
    • Dexmate VegaとSharpa Waveを用いた実験で,折りたたみ,注ぎ,微細操作などのタスクにおいて30%以上の性能向上を達成した。

    Link: https://arxiv.org/abs/2606.17256

  • 表現誘導による動画拡散モデルの訓練不要な安全性調整:REINS [cs.CV, cs.AI]目的:動画拡散モデルにおける安全性確保のメカニズム
    • 動画生成AIの進化に伴い,悪用や有害コンテンツ生成のリスクが高まっている。
    • 既存の安全性対策は,性能低下や回避可能性といった課題を抱えている。
    • モデルの内部表現を操作し,訓練データなしに安全性を確保する手法の開発。
    • 提案手法REINSは,動画拡散モデルの内部表現空間において,安全な生成を誘導する。
    • 安全性に関する情報は,動画拡散Transformerの隠れ層活性化に線形的にエンコードされていることが示された。
    • 中間層における表現の誘導が最も効果的であり,安全性と情報伝播のトレードオフが明らかになった。

    Link: https://arxiv.org/abs/2606.17257

  • デジタルツイン表現を用いた強化学習による,推論集約型外科手術ビデオQAのためのLLMの訓練 [cs.CV]目的:外科手術ビデオQAにおける多段階推論能力の向上
    • 外科手術の高度化に伴い,手術映像の理解と解析が重要視されている。
    • 既存手法では,連続的な空間・時間関係が断片化され,多段階推論が制限される。
    • デジタルツイン表現と強化学習により,知覚と推論の分離を目指し,推論能力を向上させる。
    • デジタルツイン表現を用いることで,視覚的知覚と推論を分離し,より効果的な多段階推論を実現した。
    • 新たに開発したREAL-Colon-Reasonベンチマークにおいて,最先端の性能を達成した。
    • 臨床的妥当性の評価と不確実性に基づいた報酬関数が,モデルの学習を効果的に導いた。

    Link: https://arxiv.org/abs/2606.17279

  • マルチモーダルLLMにおける音声言語の識別に関する研究 [eess.SY, cs.SY, math.OC, cs.CL, cs.SD, eess.AS]目的:マルチモーダルLLMにおける音声言語の識別精度向上
    • 多言語対応はグローバルなコミュニケーションにおいて不可欠であり,音声認識技術の発展が求められている。
    • LLMベースの音声認識は多言語に対応するものの,出力言語の誤認識が頻発し,精度低下の原因となっている。
    • 音声言語の識別精度の向上と,コードスイッチング能力の維持を両立させる手法を提案する。
    • ソフトプロンプティングによって,出力言語を厳密に限定せず,潜在的な言語を示唆することで,言語識別の精度を向上させた。
    • 言語違反の度合いを定量化する新しい指標を導入し,ゼロショットプロンプティング,SFT,CoTの有効性を比較評価した。
    • 計算資源の制約下における戦略選択の指針として,各手法のトレードオフを議論した。

    Link: https://arxiv.org/abs/2606.17281

  • パレートLoRA:パレート最適勾配統合による統一マルチモーダルモデルのモダリティ不均衡の軽減 [cs.CV]目的:統一マルチモーダルモデルにおけるモダリティ不均衡の軽減
    • マルチモーダル理解と生成は重要であり,単一のモデルで両方を扱うことが求められている。
    • マルチモーダルモデルのファインチューニングにおいて,言語モダリティの勾配が支配的となりやすい。
    • パラメータ効率の良いファインチューニングにおける画像生成品質の低下を改善すること。
    • パレートLoRAは,テキストと画像の目的関数をバランスさせることで,マルチモーダル生成のバランスを改善する。
    • CoMMベンチマークを用いた実験で,バニラLoRAと比較して,画像の知覚的品質が最大44.9%向上した。
    • テキスト生成性能は同等レベルを維持しながら,画像生成品質の向上が確認された。

    Link: https://arxiv.org/abs/2606.17296

  • 手術室クリップに対する行動駆動型デジタルツインを用いた推論テキスト-ビデオ検索 [cs.CV]目的:手術室における特定のイベントの検索と検証
    • 手術室の安全性向上に不可欠であり,記録されたイベントの迅速な特定を可能にする。
    • 安全上重要なイベントは定型的な構造に従わない場合が多く,既存手法では対応が難しい。
    • 暗黙的なクエリに対する推論能力を備えた,より高度なテキスト-ビデオ検索を実現する。
    • 提案手法OR3は,クリップを行動駆動型デジタルツイン(ActDTs)に変換し,時系列的に行動要素を整理する。
    • 大規模言語モデル(LLM)を用いてクエリから仮説的なActDTsを生成し,単一のエンコーダで効率的な検索を行う。
    • 候補との差異に基づいてActDTsを修正することで,手術特有のパターンを捉え,高精度な検索を実現した。

    Link: https://arxiv.org/abs/2606.17298

  • 音楽識別をニューラルな順伝播へ [cs.SD, cs.LG]目的:音楽識別における検索手法の変革
    • 情報検索はコンピュータ科学の基盤であり,多様な応用分野で不可欠である。
    • 従来の検索は計算コストが高く,特に短時間の音声識別では課題が残る。
    • 本研究は,ニューラルネットワークによる高速かつ正確な音楽識別を目指す。
    • 音楽識別を生成的なTransformerを用いて単一のニューラル順伝播で実現した。
    • 本手法は最先端の音響フィンガープリンティングを凌駕し,特に短い音声セグメントで顕著な改善を見せた。
    • 外部ストレージを大幅に削減し,推論速度を向上させ,未知の楽曲に対する拒否機能も備えた。

    Link: https://arxiv.org/abs/2606.17301

  • シエルピンスキーCam:シエルピンスキー三角形パターンをヒントとしたカメラ制御によるビデオ再撮影 [cs.DM, math.CO, cs.RO, cs.CV]目的:単眼ビデオからのカメラ軌跡に沿った新規レンダリング生成
    • 映像制作や視覚効果において,限られた情報から高品質な映像を生成する技術は重要である。
    • 既存手法では,カメラが元の軌跡から外れると,誘導が弱まり,新たな領域が不足する問題がある。
    • シエルピンスキーパターンを利用し,視点変化に強い誘導を実現することで,この問題を解決する。
    • シエルピンスキーCamは,シエルピンスキー穹頂テクスチャのヒントを加えることで,カメラ制御,幾何学的整合性,ビデオ品質を大幅に向上させた。
    • 参照ビデオの条件付け機構により,外観のグラウンディングを可能にし,アーキテクチャの変更や個別ビデオへの適応を不要にした。
    • 多様かつ困難な再撮影シナリオにおいて,顕著な改善が確認された。

    Link: https://arxiv.org/abs/2606.17310

  • ProCUA-SFT技術報告 [cs.LG, cs.CV]目的:コンピュータ利用エージェントのファインチューニング用データセット
    • GUI操作エージェントは,自動化やアクセシビリティ向上に不可欠であり,その発展が求められている。
    • 既存の学習データセットは規模や多様性が不十分であり,汎化性能の課題があった。
    • 大規模かつ多様なデータセットを用いて,GUI操作エージェントの性能向上を目指す。
    • ProCUA-SFTは,310万ステップに及ぶファインチューニング用サンプルを含む大規模データセットである。
    • UI-TARS 7BをProCUA-SFTでファインチューニングした結果,OSWorldの成功率が45.0%に向上した。
    • 本データセットは,Nemotron 3 Nano Omniモデルのコンピュータ利用能力向上にも貢献した。

    Link: https://arxiv.org/abs/2606.17321

  • FATE:ピラーエンコーディングと周波数認識型学習によるイベントベース物体検出 [cs.CV]目的:イベントベース物体検出のための新たなフレームワーク
    • 高速・高ダイナミックレンジ環境下でのセンシングに優れるイベントカメラ技術の重要性が高まっている。
    • イベントストリームの疎性と非同期性が,深層学習アーキテクチャへの適用における課題となっている。
    • イベントデータの持つ微細な時間情報を保持し,高精度な物体検出を実現することを目指す。
    • 提案手法FATEは,ピラーエンコーディング(PE)を用いてイベントデータを空間ピラーに組織化し,時間的な進化を連続時間直交多項式基底で近似する。
    • PEは内部的な時間サブビン分割を回避することで,疎なイベント条件下の情報損失を軽減し,高密度な擬似画像表現を生成する。
    • 周波数認識型学習(FAT)は,低周波数の教師データと高周波数の推論間のミスマッチを,ソフトな平均教師アプローチで解消する。

    Link: https://arxiv.org/abs/2606.17334

  • SpeechDx:臨床音声AIのためのマルチタスクベンチマーク [cs.AI, cs.CL, cs.SD]目的:臨床音声AIの評価基準
    • 音声は神経系,運動系,呼吸系,声帯系が複合的に関わるため,健康状態の重要な指標となる。
    • 既存の研究は疾患ごとに孤立しており,結果の比較や汎化性能の評価が困難である。
    • 多様な健康状態における臨床音声AIの汎化性能を評価するための共通基盤を提供する。
    • SpeechDxは12のデータセットと27のタスクを包含する大規模ベンチマークである。
    • 大規模な音声モデルが全体として最も強力なベースラインであり,ドメイン特化型モデルは類似タスクでのみ性能が向上する。
    • 現在の表現学習は臨床音声の多様な状況において,信頼性の高い汎化性能を示さない。

    Link: https://arxiv.org/abs/2606.17339

  • 画像誘導ナビゲーションのための幾何学的整合性内視鏡表現:構造化された基盤モデル適応 [cs.CV, cs.AI]目的:単眼内視鏡画像のための幾何学的整合性,ドメインロバストな画像表現の学習
    • 内視鏡検査は低侵襲であるため,臨床現場で広く用いられている。正確なナビゲーションが重要である。
    • 単眼内視鏡では,奥行き情報が限られ,組織の質感や変形,ドメイン間での外観変化により,正確なナビゲーションが困難である。
    • 学習された表現の幾何学的整合性を高め,安定した特徴量の一致と信頼性を向上させ,ナビゲーションタスクの性能を改善すること。
    • 本研究では,幾何学的な教師データと階層認識幾何・意味適応という構造化されたLoRA代替手法を組み合わせることで,幾何学的整合性とドメインロバスト性を備えた画像表現の学習を可能にした。
    • 実験結果から,提案手法は幾何学的および意味的な表現の質を向上させ,ポーズ推定や単眼深度推定などのナビゲーションタスクにおいて優れた性能を示したことが示された。
    • また,臨床気管支鏡検査から他の内視鏡検査への良好な転移学習が可能であり,限られた教師データ下での適応にも有効であることが確認された。

    Link: https://arxiv.org/abs/2606.17340

  • 拡散を用いた視覚的テクスチャの最大エントロピーモデル学習 [cs.CV]目的:視覚的テクスチャの統計量の学習
    • 視覚的テクスチャは,材質や物体認識・分析において重要な手がかりとなる。
    • 既存のテクスチャモデルの統計量は,手動設計または別の目的で事前学習されたネットワークに基づいている。
    • 教師なし学習によって統計量を学習し,最大エントロピー確率モデルを制約することを目的とする。
    • 本研究では,拡散生成モデルの技術を用いて学習とサンプリングの手法を開発した。
    • わずか512個の統計量で,最先端モデルと同等かそれ以上の品質のテクスチャ画像を生成できる。
    • モデルの表現空間における直線的な軌跡は,滑らかなテクスチャサンプルの変化を生成することが示された。

    Link: https://arxiv.org/abs/2606.17342

  • ベイズ推論に基づく磁気共鳴画像再構成と不確かさ評価:スパース性事前モデルとマルコフ連鎖モンテカルロ法 [cs.CV, stat.AP]目的:磁気共鳴画像再構成における不確かさの定量化
    • 磁気共鳴画像は医療診断に不可欠だが,高速化と高画質の実現が課題。
    • 従来の画像再構成法では,不確かさを正確に評価することが困難。
    • ベイズ推論とモンテカルロ法を用いて,再構成画像の不確かさを定量的に評価する。
    • 提案手法は,最適化ベースの手法と比較して,より優れた画像再構成性能を示す。
    • 不確かさマップと真値画像からの誤差マップとの間に有意な相関関係が認められる。
    • 既存の深層学習ベースの手法と比較しても,有効な不確かさ評価が可能。

    Link: https://arxiv.org/abs/2606.17343

  • MM++:上位Kゲート付き特徴量融合による不変尺度多層OOD検出 [cs.LG, cs.CV]目的:分布外(OOD)検出のための不変尺度多層フレームワーク
    • 機械学習モデルの信頼性確保は重要であり,未知の入力に対する堅牢性が不可欠である。
    • 既存のOOD検出手法は,スケーラビリティと表現力のバランスが課題であった。
    • 層間の相関を捉えつつ,初期層のノイズを軽減し,信頼性の高いOOD検出を実現すること。
    • MM++は,補助的なOODデータやモデルの微調整を必要としない,完全に教師なしのアプローチである。
    • エントロピー密度低下を測定することで,識別的な中間層を特定し,層を融合させることで,潜在的な層間相関を捉える。
    • Ledoit-Wolf正則化されたタイド共分散行列によって統一された空間を安定化させ,距離推定の信頼性を高める。

    Link: https://arxiv.org/abs/2606.17352

  • 複雑なレイアウトの分類:レイアウト保持オーギュメンテーションによる低リソースアプローチ [cs.CV]目的:複雑なレイアウトの分類
    • デジタル化された資料の利用促進のため,自動文字認識の精度向上が不可欠である。
    • アノテーション不足,低品質な画像,複雑なレイアウトが自動文字認識の精度を阻害する。
    • レイアウト保持オーギュメンテーションによる汎化性能の向上を目指す。
    • 提案手法では,狭い異方性ガウスマスキングにより,テキストの詳細を抑制し,主要な区切りを保持する。
    • 非対称カテゴリにおいて,反転によるラベル変換を実装し,学習分布を豊かにする。
    • レイアウト特有のオーギュメンテーションが,アノテーション不足下でレイアウト分類精度を大幅に改善する。

    Link: https://arxiv.org/abs/2606.17355

  • DriveJudge:ビジョン言語モデルによる自動運転評価の再考 [cs.CY, cs.CV, cs.AI, cs.LG, cs.RO]目的:自動運転の評価手法
    • 自動運転技術の発展において,安全性の確保と品質の評価は不可欠である。
    • 既存の評価指標は,文脈を考慮できないか,解釈が曖昧であるという課題がある。
    • 文脈を考慮しつつ解釈可能な自動運転評価手法を確立すること。
    • DriveJudgeは,ルールに基づいた評価とビジョン言語モデルの推論を組み合わせることで,文脈に応じた評価を可能にした。
    • 大規模なデータセットを用いて学習した結果,従来の評価指標や既存のVLMベースの手法を上回る性能を示した。
    • DriveJudgeは,自動運転評価における新たな基準を確立し,より安全で信頼性の高い自動運転システムの開発に貢献する。

    Link: https://arxiv.org/abs/2606.17362

  • 異種モバイルロボットを用いた非接触呼吸モニタリング:エッジコンピューティングマルチモーダルフレームワーク [cs.RO, cs.CV]目的:非接触呼吸モニタリングのためのマルチモーダルエッジコンピューティングフレームワーク
    • 災害対応や感染症対策において,遠隔でのトリアージと被害者評価は重要である。非接触モニタリングは,救助隊員の安全確保に貢献する。
    • 照明条件,姿勢変化,ロボットの種類,危険環境でのウェアラブルセンサーの利用困難などにより,現場での非接触呼吸モニタリングは課題が多い。
    • 異種モバイルロボット上で,信頼性の高い呼吸数推定を可能にするフレームワークを開発し,遠隔トリアージへの応用を目指す。
    • RGB,熱線,近赤外線,暗視カメラを組み合わせた適応的なセンサー選択により,様々な環境下でのモニタリングを実現した。
    • ロボットの種類に依存しない汎用性があり,プラットフォーム毎のアルゴリズム調整は不要であることが確認された。
    • RGBは最大8m,NIRは6m,暗視カメラは8mの範囲で有効であり,熱線カメラは近距離でのみ信頼性が高いことが示された。

    Link: https://arxiv.org/abs/2606.17376

  • MeiBRD: 手術中肝臓の生体機械的残留変形に対するメタ学習 [cs.DC, cs.CV, cs.AI, eess.IV]目的:手術中肝臓登録における残留変形関数学習
    • 手術中の正確な臓器登録は,治療計画や手術ナビゲーションにおいて不可欠である。
    • 軟部組織の大きな変形と,手術中の計測点の少なさにより,正確な登録が困難である。
    • 生体機械モデルの予測バイアスを修正し,データ効率と物理的妥当性を高める。
    • 提案手法は,疎な手術中データを用いて生体機械モデルを適応させるハイブリッド登録フレームワークである。
    • 残留変形関数をグラフニューラル拡散関数としてモデル化し,3D肝臓メッシュ上でジオメトリを考慮したアテンションを用いる。
    • 実験結果から,提案手法は剛体,生体機械,データ駆動型ベースラインと比較して,登録精度と汎化性能が向上することが示された。

    Link: https://arxiv.org/abs/2606.17379

  • ハンド・オブジェクト相互作用検出の改善と評価 [cs.CV]目的:ハンド・オブジェクト相互作用の理解
    • 行動認識や3D再構成,ロボティクスなど,幅広い応用分野において重要な課題である。
    • 既存のハンド・オブジェクト相互作用検出は,多様なデータセットに対する汎用性に課題があった。
    • 最先端の手法を確立し,複数のデータセットにおける性能向上を目指す。
    • HOI-DETRという新たなフレームワークを提案し,最先端の性能を達成した。
    • 4つの多様なデータセットを含む包括的な評価スイートを構築し,既存のベンチマークを改善した。
    • Hands23やFineBioといったデータセットで,平均適合率(mAP)を20%以上向上させた。

    Link: https://arxiv.org/abs/2606.17384

  • TerraTransfer: 専門家のデモンストレーションなしでエンドツーエンドの運転ポリシーを学習 [cs.RO, cs.CV, cs.AI, cs.RO]目的:専門家のデモンストレーションを必要としないエンドツーエンド運転ポリシーの学習
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 従来の自動運転システムの学習には,膨大な量のラベル付きデータが必要であり,コストと時間がかかる。
    • 自己対戦による学習と,事前学習済みの視覚バックボーンとの潜在空間のアラインメントにより,この課題を克服する。
    • 自己対戦によって学習したポリシーと,事前学習済みの視覚バックボーンを組み合わせることで,効率的な学習が可能となった。
    • この手法は,既存のエンドツーエンド手法と同等またはそれ以上の性能を,フォトリアリスティックな3D Gaussian splatting環境で実現した。
    • 専門家のデモンストレーションに依存しないため,データ収集コストを大幅に削減できる。

    Link: https://arxiv.org/abs/2606.17386

  • 視覚は欺き,一貫性が語る:ビジョン言語モデルにおける空間的注意と信頼性の分離 [cs.RO, cs.CG, cs.SY, eess.SY, cs.CV, cs.AI, cs.CL, cs.LG]目的:ビジョン言語モデルにおける信頼性の予測メカニズムの解明
    • 大規模言語モデルの応用拡大に伴い,モデルの信頼性評価が重要課題となっている。
    • 視覚的注意の集中が信頼性の指標となるという通念に対し,疑問が呈されている。
    • 視覚的注意と信頼性の関係を検証し,信頼性をより正確に予測する方法を提示する。
    • モデルは初期の視覚特徴にロックインした後,注意を拡散させる「記号的分離」を示す。
    • 空間的注意と正答率はほぼ相関がなく,信頼性は生成ダイナミクスと内部状態分布に依存する。
    • 自己整合性(推論経路間の合意率)が真実性の最も有力な予測因子(R = 0.429)である。

    Link: https://arxiv.org/abs/2606.17389

  • 災害評価のための空間的・周波数的視点の統合:利点と限界 [cs.CV, cs.AI]目的:衛星画像による建物被害の多クラス分類手法の比較
    • 災害対応と復旧には,迅速な建物被害評価が不可欠である。
    • 深層学習は被害評価に活用されるが,空間領域の特徴量に偏りがちである。
    • 周波数領域の特徴量と空間領域の特徴量を統合し,より精度の高い被害評価を目指す。
    • 周波数と空間の両領域を用いたモデルが,単一領域のモデルよりも明確な性能向上を示した。
    • 空間領域のみのモデルは,マクロF1スコアで最も良い結果を示し,クラス間のバランスが取れていた。
    • 周波数領域のみのモデルは過学習を起こし,汎化性能が低いことが示唆された。

    Link: https://arxiv.org/abs/2606.17403

  • マルチ特徴集約による半教師あり画像分類のためのグラフニューラルネットワーク [cs.CV, cs.AI]目的:多様な特徴抽出器から得られる特徴とグラフ表現を統合することによる,半教師あり画像分類におけるグラフニューラルネットワークの性能向上
    • 画像認識の精度向上には,画像の特徴抽出が不可欠であり,深層学習技術が広く用いられている。
    • 既存の特徴抽出器はそれぞれ異なる特徴を捉えるため,単一の抽出器では限界がある場合がある。
    • 複数の特徴抽出器からの情報を統合することで,よりロバストで高精度な画像分類を目指す。
    • 多様な特徴とグラフ表現を統合することで,半教師あり画像分類の精度が大幅に向上することが示された。
    • 特に,多様な特徴抽出器の組み合わせと,多様体学習を用いたグラフ処理が有効であることが確認された。
    • 特徴のランキング集約を用いることで,異なる抽出器からの特徴を効果的に統合し,分類精度を向上させることができた。

    Link: https://arxiv.org/abs/2606.17406

  • 行動生成はどこから始めるべきか? 生成ロボットポリシーのための学習可能な事前分布 [cs.RO, cs.CV, cs.LG]目的:生成ロボットポリシーにおける行動生成の開始点の学習
    • ロボットの自律行動を実現するには,多様で柔軟な行動生成が不可欠である。
    • 既存手法では,行動生成の初期分布が標準ガウス分布に固定されており,柔軟性に欠ける。
    • ロボットの状態に応じた適切な事前分布を学習することで,行動生成の効率と性能を向上させる。
    • 提案手法LeaPは,ロボット自身の内部状態に基づいて行動の初期分布を学習する。
    • LeaPは15のロボット操作タスクにおいて,既存手法を6.5~25.5%上回る成功率81.6%を達成した。
    • LeaPは,フローマッチングや拡散ブリッジといった様々な生成モデルで性能向上を示し,実機でも同様の効果が確認された。

    Link: https://arxiv.org/abs/2606.17408

  • 人間とビジョン言語モデル間の注意集中位置の整合性 [cs.CV]目的:人間とビジョン言語モデルにおける視線注視点の整合性の比較
    • 視覚知覚は,トップダウンの目標とボトムアップの感覚メカニズムに依存する重要な研究分野である。
    • ビジョン言語モデルの注意機構は,人間の視線注視点と必ずしも一致せず,解釈可能性に課題がある。
    • モデルのアーキテクチャが視線注視点の整合性に与える影響を明らかにすること。
    • モデルのデコーダ構造が注意の整合性に大きく影響し,TransformerデコーダがLSTMデコーダよりも高い整合性を示した。
    • CNNエンコーダとViTエンコーダの差異は比較的小さく,CNN-LSTMモデルが全体的に最も整合性が高かった。
    • 注意集中位置の整合性と神経活動の関連性は一概には言えず,モデルによって予測される脳活動部位が異なることが示唆された。

    Link: https://arxiv.org/abs/2606.17410

  • 病理画像のクロススケール推論によるVLMsの性能向上 [cs.SI, cs.CV, cs.AI]目的:病理画像のクロススケール推論タスクにおけるVLMsの性能向上
    • 病理診断は,組織全体の構造から細胞レベルの形態まで,多様なスケールでの情報統合が不可欠である。
    • 既存の病理画像データセットは,クロススケール推論を明示的に目的としないため,十分な表現を獲得できない。
    • 本研究は,クロススケール推論を可能にする高品質なベンチマークと学習方法を確立し,病理画像の理解を深める。
    • クロススケール推論のための新しい学習・評価パラダイムを提案し,病理画像解釈をマルチマグニフィケーション推論として定式化した。
    • テキストのみの手がかりによる不正解を防ぐための,敵対的スクリーニングと制約に基づく質問設計を含む漏洩対策パイプラインを開発した。
    • 提案手法ScaleReasoner-R1は,クロススケール推論ベンチマークで最先端の性能を示し,既存のシングルスケールベンチマークでも高い性能を発揮した。

    Link: https://arxiv.org/abs/2606.17412

  • 純粋または不安定:強いスタケルバーグコミットメントの一般的な二分法 [cs.GT]目的:有限のリーダー・フォロワーゲームにおける,フォロワーの最適反応が集合値を持つ場合の強いスタケルバーグ均衡の頑健性
    • ゲーム理論におけるスタケルバーグ均衡は,リーダーとフォロワーの戦略的相互作用を分析する上で重要である。
    • フォロワーの最適反応が複数存在する場合,均衡の安定性が問題となる。
    • リーダーのコミットメント戦略の安定性を評価し,その特性を明確にすること。
    • 最適なスタケルバーグコミットメントは,ほぼ常に一意であり,純粋戦略か,混合戦略で不安定かのいずれかであることが示された。
    • リーダーとフォロワーの効用関数が一般的な条件を満たす場合,一意な最適コミットメントは純粋かつ安定,または混合かつ不安定である。
    • スタケルバーグ満足ゲームにおける既存の研究の予想を反証し,成立条件を特定した。

    Link: https://arxiv.org/abs/2606.17415

  • 多言語話者検証のための言語認識型エピソード原型学習 [cs.SD, cs.AI]目的:多言語話者検証における性能向上
    • グローバル化が進み,多言語話者識別技術の需要が高まっているから。
    • 言語に依存した音響変動が,話者特徴と混同され,汎化性能を低下させている。
    • 言語情報を考慮した学習により,話者特徴の分離と識別精度の向上を目指す。
    • 提案手法L-Protoは,言語一貫性のあるエピソードを構築することで,言語依存性を低減。
    • 実験結果から,L-Protoは従来のファインチューニングやランダムサンプリングと比較して,複数のバックボーンアーキテクチャにおいて一貫した性能向上を示した。
    • 話者埋め込みが,言語特徴ではなく話者固有の情報に集中するように学習を促進。

    Link: https://arxiv.org/abs/2606.17416

  • 大規模音声言語モデルにおける時間理解の失敗モードの詳細な分析 [cs.SD, cs.LG]目的:大規模音声言語モデルの時間理解における失敗原因のメカニズム解明
    • 聴覚認識において時間的な理解は不可欠であり,人間知覚の根幹をなす重要な能力である。
    • 既存のベンチマークは性能差を示すのみで,失敗の根本原因の特定が困難である。
    • メカニズム分析に特化したベンチマークを用いて,時間理解の失敗原因を特定し,改善策を検討する。
    • モデルは,テキスト情報が利用可能な場合,音声情報を十分に活用していない傾向が見られた。
    • 注意機構の重み付けの再分配が,音声への注意の増加よりも効果的であることが示された。
    • ボトルネック層における注意機構のスケール調整により,ファインチューニングなしで精度が向上した。

    Link: https://arxiv.org/abs/2606.17417

  • 拡張現実アプリケーションにおける手障害と遮蔽が手姿勢推定の精度に与える影響 [cs.CV, cs.HC]目的:手障害や物体による遮蔽が手姿勢推定の精度に及ぼす影響の評価
    • リハビリテーション支援など,複合現実技術の応用が期待されており,正確な手姿勢推定が不可欠である。
    • 手姿勢推定は,手の一部が隠れたり,障害がある場合,精度が低下する可能性がある。
    • 脊髄損傷を持つ者を含む,多様な対象者に対する姿勢推定の汎用性を検証し,リハビリテーションへの応用可能性を探る。
    • 脊髄損傷者と健常者の間で,3D関節位置の予測精度に差は見られず,HoloLens 2と姿勢推定アルゴリズムは手障害者にも適用可能であることが示唆された。
    • 透明な物体の方が不透明な物体よりもわずかに精度が高かった(0.1mm)。
    • WiLoRとHaMeRの予測精度はHoloLens 2よりもわずかに優れていた(2mm)。

    Link: https://arxiv.org/abs/2606.17427

  • CIAN:検索拡張生成によるイベント情報を加えた画像キャプション生成のための多段階フレームワーク [cs.CV]目的:イベント情報を加えた画像キャプション生成
    • 画像認識技術は多様な分野で活用され,その応用範囲は広がり続けている。
    • 従来の画像キャプション生成モデルは,画像内の視覚情報に限定され,背景やイベントの文脈を捉えられない。
    • 画像と関連する記事を検索し,その情報を活用することで,より状況に即した自然なキャプション生成を目指す。
    • CIANは,SigLIPを用いた関連記事の検索において高い性能(mAP 0.979)を示した。
    • キャプションの品質評価指標であるCIDErが0.030から0.094へと大幅に向上した。
    • 検索拡張による推論と言語的な洗練を組み合わせることで,文脈を考慮した人間らしいキャプション生成が可能となった。

    Link: https://arxiv.org/abs/2606.17430

  • シルエット誘導による動物アートのための視覚的検索拡張生成 [cs.CV]目的:シルエットから動物アートを生成するフレームワーク
    • 人間には曖昧な形状から意味のあるものを認識する能力があり,創造性の根幹をなす。
    • 生成AIは写実的,芸術的な画像を生成できるが,曖昧な形状の解釈に課題がある。
    • 自然なシルエットから動物アートを生成することで,計算機によるパレイドリアの再現を目指す。
    • 提案手法Visual-RAGは,構造的に類似した動物のシルエットを検索し,拡散モデルによる生成を誘導する。
    • RANSACを用いた形状コンテキストが最も正確なアライメントを提供し,シルエットの標準化を削除すると,インライヤ比が大幅に低下した。
    • ユーザ調査の結果,Visual-RAGは妥当な解釈を提供するものの,知覚的なインパクトの向上には課題が残る。

    Link: https://arxiv.org/abs/2606.17431

  • Edit3DGS:2D指示に基づく拡散と3Dガウススプラッティングによる動的ヘッド編集の統合フレームワーク [cs.GR, cs.CV]目的:動的3Dヘッド編集のための統合的フレームワーク
    • バーチャルアバター等の実現には,高品質な3D表現が不可欠である。
    • 既存手法では,フレーム毎の編集と静的3D再構成が分離されている場合が多い。
    • 画像領域での意味的制御性と時間的に一貫性のある3D表現を両立させる。
    • Edit3DGSは,2D指示に基づく拡散モデルと3Dガウススプラッティングを統合し,動的な3Dヘッド編集を実現した。
    • 本手法は,表情変化,属性修正,外観の改善といった微細な操作を可能とし,一貫性のあるアバターを生成する。
    • 実験結果から,滑らかな時間遷移と高品質な編集結果が確認され,様々な応用が期待される。

    Link: https://arxiv.org/abs/2606.17432

  • LADBench:画像における論理的欠陥検出のためのベンチマーク [cs.CV]目的:画像中の論理的欠陥検出能力の評価基準
    • 視覚情報と言語を統合するモデルの発展は,現実世界への応用を促進する上で重要である。
    • 既存の異常検出ベンチマークは,論理的推論能力を十分に評価できていない。
    • モデルの論理的欠陥検出能力の限界を明らかにし,安全性向上に貢献する。
    • LADBenchは,住宅,都市,協調,自然の4つのドメインにわたる1,000以上の合成画像を含む。
    • 最先端のモデルでも全体の正解率は70.11%にとどまり,論理的欠陥検出の課題が残る。
    • 段階的なプロンプト手法により,モデルが明示的なヒントなしに異常を検出できない場合が多いことが示された。

    Link: https://arxiv.org/abs/2606.17433

  • 大規模非教師あり学習に基づく汎用指紋ファウンデーションモデルUoU [cs.CV]目的:指紋特徴抽出のドメイン特化型ファウンデーションモデル化
    • 指紋認証は重要な生体認証技術であり,セキュリティ分野での応用が不可欠である。
    • 従来の指紋認証はタスク固有のパイプラインに依存し,汎用性に欠ける点が課題である。
    • 異なるセンサーや品質の指紋画像に対して,再利用可能な表現を獲得することを目指す。
    • UoUは,画像復元,構造的特徴,セマンティックトークンなどの多層表現階層を持つ。
    • 教師あり学習による初期化,大規模弱教師あり学習による洗練,大規模非教師あり学習による統合を組み合わせる。
    • アーキテクチャに依存せず,様々な指紋アプリケーションへの応用を可能にする。

    Link: https://arxiv.org/abs/2606.17436

  • 心エコー動画の標準ビュー分類のための時空間融合モデル [cs.CV, cs.AI]目的:心エコー動画の標準ビュー分類
    • 心エコーは非侵襲的な心臓評価として不可欠であり,迅速かつ正確な診断を支援する。
    • 心エコー動画の標準ビュー分類は,データセットの不足や類似性の高いビューの識別困難さから課題が多い。
    • 本研究は,大規模データセットと時空間融合モデルにより,心エコー動画の正確なビュー分類を可能とする。
    • 大規模心エコー動画データセットEV9Vを公開し,最新のビデオ分類アーキテクチャのベンチマークを実施した。
    • 提案する時空間融合モデルSTFMは,空間的構造と時間的動態を効率的に捉え,フレーム品質の変動に対するロバスト性を向上させた。
    • 実験結果から,STFMは様々なビデオ分類モデルにおいて競争力のある性能を示し,不確実性に基づいた時空間学習の有効性が確認された。

    Link: https://arxiv.org/abs/2606.17437

  • 反射・透明物体高分解能3次元表面測定のための接触型フリンジ投影プロファイロメトリ [cs.CV]目的:反射・透明物体の高分解能3次元表面測定手法
    • ロボットの触覚センシングにおいて,高精度な3次元表面形状把握は重要な課題である。
    • 既存のGelSightセンサは,光度立体法を用いるため,誤差が累積しやすく,高反射・透明物体への対応が困難である。
    • フリンジ投影法を導入し,高精度な3次元再構成と,広い領域での安定したキャリブレーションを実現する。
    • 提案手法は,GelSight Miniと比較して,3次元測定の精度と安定性を大幅に向上させることを実験的に確認した。
    • 球体当てはめ精度評価により,複雑な光学特性を持つ物体に対する信頼性の高い再構成が可能であることを示した。
    • 不確かさ解析により,提案手法の有効性と精度を定量的に評価した。

    Link: https://arxiv.org/abs/2606.17438