arXiv雑要約

画像・音声 - 2026/05/04 公開

  • 人間を優先して:人間の選好との整合性による効率的な大規模オーディオモデル評価 [cs.CL, cs.AI, cs.SD]目的:大規模オーディオモデル評価の効率化
    • 大規模オーディオモデルの利用拡大に伴い,効率的な評価手法が求められている。
    • 既存の包括的なベンチマークはコストがかかり,データに冗長性がある。
    • 少ないデータセットで高精度な評価を実現し,実用的な選好との整合性を高める。
    • わずか50サンプル(データ全体の0.3%)のサブセットで,フルベンチマークスコアとの相関係数が0.93を超すことが示された。
    • サブセットとフルベンチマークの人間による選好との相関は0.85にとどまることが判明した。
    • サブセットで学習した回帰モデルは,フルベンチマークやランダムサブセットで学習したモデルを上回り,相関係数0.98を達成した。

    Link: https://arxiv.org/abs/2605.00022

  • 公共の事故報告書からの物理に基づいた交通事故再構築学習 [cs.LG, cs.CV]目的:交通事故再構築の学習
    • 交通事故の分析は,交通安全の向上や自動運転技術の開発に不可欠である。
    • 詳細な現場測定や専門家による再構築は,時間とコストがかかり,大規模な分析が困難である。
    • 公開されている事故報告書を活用し,より効率的かつ検証可能な交通事故再構築を可能にすること。
    • 本研究では,6,217件の実際の交通事故事例から構成されるCISS-RECデータセットを構築した。
    • 提案手法は,事故地点の特定精度と衝突の一貫性において,既存手法を上回る再構築精度を達成した。
    • 公共の事故報告書が,定量的な検証が可能な交通事故再構築のためのスケーラブルな基盤となりうることを示した。

    Link: https://arxiv.org/abs/2605.00050

  • 見えざるものから学ぶ:幾何学的・意味的事故予測のための生成データ拡張 [cs.CV, cs.LG]目的:幾何学的・意味的事故予測のための生成データ拡張手法
    • 自動運転技術の安全性向上には,事故を予測する能力が不可欠である。
    • 多様で大規模なデータセットの不足が,事故予測のモデル化を困難にしている。
    • 既存データから多様な合成シーンを生成し,データ不足を解消することを目指す。
    • 提案手法は,構造化されたプロンプトを用いて高忠実度の合成運転シーンを生成する。
    • 意味的情報に基づいたグラフニューラルネットワークにより,関係者の空間的・意味的関係を動的に推論する。
    • 新しいベンチマークデータセットを用いた評価により,予測精度と予測リードタイムの向上が確認された。

    Link: https://arxiv.org/abs/2605.00051

  • ハイブリッドキャプチャ Gaussian Splatting の主要な訓練レバー:勾配手術が有効な場合についての分散分解の視点 [cs.CV]目的:ハイブリッドキャプチャ環境における 3D Gaussian Splatting の訓練パフォーマンス向上
    • 近年,異なる距離からの画像を組み合わせるハイブリッドキャプチャ技術が注目されており,高品質な新規視点合成が期待されている。
    • 従来の 3DGS は,ハイブリッドキャプチャデータにおいて,少数派の領域に対する学習が不十分になりやすいという課題があった。
    • 本研究は,ハイブリッドキャプチャデータにおける 3DGS の学習効率を改善し,少数派領域の再構成精度を向上させることを目指す。
    • 最適化ステップごとに2つの視点からレンダリングすることで,既存手法と比較してパフォーマンスが向上することが示された。
    • カメラ距離の二峰性において,領域間の勾配分散は領域内分散に比べて小さく,ペアリング方法の影響は限定的であることが明らかになった。
    • この改善効果は,2つの視点からの累積による分散の半減が主な要因であり,Scaffold-GS や Pixel-GS などの他のバックボーンにも適用可能であることが確認された。

    Link: https://arxiv.org/abs/2605.00052

  • Being-H0.7:一人称視点動画からの潜在的世界・行動モデル [cs.RO, cs.CV, cs.LG]目的:視覚,言語,行動を統合したモデルにおける将来予測能力の向上
    • ロボット制御において,マルチモーダルな情報と自然言語指示を直接行動に変換するVLAモデルが発展している。
    • 行動データのスパースさが,ダイナミクスや接触,タスクの進捗といった表現よりも,近道的なマッピングを促しやすい。
    • 将来予測を取り入れつつ,計算コストを抑え,効率的かつ実用的なロボット制御を実現することを目指す。
    • Being-H0.7は,将来の状態を予測するために画像生成を行わずに,潜在空間で将来を考慮した推論を行う。
    • 潜在的なクエリを導入し,現在の状況から将来の状態を推論する事前ブランチと,将来の観測からクエリを埋め込む事後ブランチを組み合わせることで,効率的な学習を実現する。
    • シミュレーションおよび実世界環境での実験により,Being-H0.7が最先端の性能,または同等の性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.00078

  • ロボット学習のためのワールドモデル:包括的な調査 [cs.RO, cs.CV]目的:ロボット学習におけるワールドモデルに関する包括的な調査
    • ロボットの自律的な学習と行動計画において,環境の予測モデルは不可欠である。
    • ワールドモデルの研究は分散しており,アーキテクチャや応用分野の整理が求められている。
    • ロボット学習におけるワールドモデルの現状を整理し,今後の課題と方向性を示す。
    • 本調査は,ワールドモデルとロボットポリシーの連携,強化学習におけるシミュレータとしての役割を体系的にレビューした。
    • ロボットの動画を扱うワールドモデルが,生成能力から制御可能な構造化されたモデルへと進化した過程を明らかにした。
    • ナビゲーションや自動運転への応用,利用可能なデータセット,ベンチマーク,評価プロトコルについてもまとめた。

    Link: https://arxiv.org/abs/2605.00080

  • AIDA-ReID:汎化性能とソースフリーな人物再識別のための適応型中間ドメイン適応 [cs.HC, cs.CV, cs.AI]目的:汎化性能とソースフリーな人物再識別
    • 監視カメラ映像の解析は,防犯や人流分析において重要であり,人物の特定技術が求められている。
    • 異なる環境でのドメインシフトにより,人物再識別モデルの性能が著しく低下する課題がある。
    • 複数のソースデータやソースデータなしで,ドメインシフトへの適応能力を高めることを目指す。
    • 提案手法AIDAは,モデルの不確実性と学習の安定性に基づき,特徴混合と正則化の強度を動的に制御する。
    • 多様な中間表現を生成し,ドメイン変化下での同一性維持のために疑似ミラー正則化戦略を採用する。
    • ドメイン汎化性能とソースフリー環境における実験により,提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2605.00111

  • GAFSV-Net:オンライン署名検証のためのビジョンフレームワーク [cs.CV, cs.CR, cs.LG]目的:オンライン署名検証における偽造署名と真筆の識別
    • セキュリティシステムの重要な要素であり,不正行為の防止に不可欠である。
    • 真筆の多様性が高く,登録サンプル数が少ないため,高精度な検証が困難である。
    • 2次元ビジョンバックボーンを活用し,より高精度な署名検証を実現すること。
    • GAFSV-Netは,署名を六チャンネルの非対称グラム角場(GAF)画像として表現することで,時系列データの制約を克服した。
    • DeepSignDBとBiosecurIDの評価において,既存の時系列ベースラインを上回り,2次元時系列エンコーディングの有効性を実証した。
    • デュアルブランチConvNeXt-Tinyエンコーダと双方向クロスアテンションにより,識別能力の向上に貢献した。

    Link: https://arxiv.org/abs/2605.00120

  • 遺伝的制約下における公平性と非無駄性の$k$-緩和 [cs.GT]目的:遺伝的制約下における二者マッチング市場の公平性と非無駄性の両立
    • 多様性確保や難民再定住など,現実の配分問題に不可欠な制約を扱う分野である。
    • 公平性と非無駄性は両立せず,一方を優先するアプローチが一般的である。
    • 公平性と非無駄性の両方を緩めることで,両立可能性を高めることを目指す。
    • 整数$k$を用いた「$k$人までの嫉妬受容」と「$k$件までの異議申し立て許容」を定義した。
    • 遺伝的制約下において,$k$が固定であれば,これらの緩和された定義は常に両立することが示された。
    • 効率的な計算アルゴリズム(カットオフアルゴリズムと遅延受諾メカニズム)が提案され,実験的に有効性が確認された。

    Link: https://arxiv.org/abs/2605.00134

  • 低ビットLLM量子化のための活性化残差ヘッセ行列量子化 (ARHQ) に関する技術報告 [cs.LG, cs.CL, cs.CV]目的:低ビット活性化・重み量子化における誤差伝播の軽減
    • 大規模言語モデルの効率的な推論は,計算資源の制約下で重要である。
    • 量子化によるモデル圧縮は精度劣化を招きやすく,特に低ビット化で顕著となる。
    • 活性化と重みの量子化誤差を分析し,高精度な量子化を実現する手法の開発。
    • ARHQは,活性化量子化残差から入力側残差ヘッセ行列を構築し,誤差感受性の高い重み方向を分離する。
    • Qwen3-4B-Thinking-2507を用いた実験で,ARHQが層ごとのSNRを大幅に向上させることが示された。
    • ZebraLogicにおける推論性能を維持し,積極的な量子化下でも高い精度を保つことが確認された。

    Link: https://arxiv.org/abs/2605.00140

  • スパイクニューラルネットワークを用いたエッジニューロモルフィックハードウェア上でのリアルタイムフレーム・イベントベース物体検出:設計,デプロイメント,ベンチマーク [cs.CL, cs.CV]目的:リアルタイム物体検出のためのスパイクニューラルネットワークの設計と評価
    • ドローンやロボットなどのモバイルデバイスにおけるリアルタイム画像処理の重要性が高まっている。
    • 従来のニューラルネットワークは消費電力が大きく,エッジデバイスへの搭載が課題となっている。
    • ニューロモルフィックハードウェア上で動作するスパイクニューラルネットワークによる低消費電力化を目指す。
    • Intel Loihi 2上でスパイクニューラルネットワークを用いたリアルタイム物体検出に成功した。
    • Loihi 2は他のプラットフォームと比較して,1回の推論あたりの消費電力が最も低いことが示された。
    • ANNからの知識蒸留により,スパイクニューラルネットワークの検出精度をANNと同等レベルに向上させることができた。

    Link: https://arxiv.org/abs/2605.00146

  • 画像からメッシュへ:非協調軌道物体の3D表面再構成パイプライン [cs.CV]目的:非協調軌道物体の3D表面再構成
    • 軌道上検査は,アクティブデブリ除去やオンサイトサービス計画に不可欠な形状情報を提供し,宇宙状況把握に貢献する。
    • 既存手法は合成データや制御された環境に限定され,実際の軌道上画像への適用が困難であった。
    • 実際の軌道上画像から非協調軌道物体の3D形状を再構成するパイプラインを確立する。
    • 単眼軌道上検査画像から3D表面を再構成するパイプラインを開発し,ISSやH-IIAロケットの公開データで有効性を示した。
    • 背景除去が正確なカメラ姿勢推定に不可欠であり,背景変動が直接処理を妨げることを明らかにした。
    • フレームごとの露出変動の補正を取り入れ,影領域における性能が入力画像の照明特性に依存することを確認した。

    Link: https://arxiv.org/abs/2605.00147

  • DPUとGPUの連携によるニューラルネットワーク推論高速化:両方を使用しない理由 [cs.AR, cs.CV]目的:CNN推論のDPUとGPUへの分割
    • エッジデバイスでのリアルタイム処理需要が高く,低遅延な推論が求められている。
    • 単一ハードウェアでの高速化に限界があり,更なる低遅延化が課題となっていた。
    • DPUとGPUの特性を活かし,CNN推論を分割することで遅延を最小化する。
    • DPUとGPUにCNN層を分割する「Split CNN Inference」を提案し,大幅な低遅延化を実現した。
    • 提案手法は,DPUのみ,GPUのみと比較して,最大2.48倍,3.37倍の高速化を達成した。
    • GNNを用いた分割インデックス予測により,CNNの自動分割を96.27%の精度で実現した。

    Link: https://arxiv.org/abs/2605.00174

  • FieryGS:物理統合ガウススプラッティングによる実環境火炎合成 [cs.GR, cs.CV]目的:実環境の3Dシーンにおけるフォトリアリスティックかつ物理的に妥当な燃焼効果の合成
    • 現実世界のシーンに物理シミュレーションを適用することは困難であり,高品質な火炎効果の生成が求められている。
    • 従来のCFDやグラフィックスパイプラインは手間がかかり,現実世界への拡張性に限界がある。
    • 3Dガウススプラッティングの物理的根拠を強化し,現実世界のシーンへの火炎合成を自動化すること。
    • FieryGSは,物理に基づいたフレームワークにより,3Dガウススプラッティングパイプラインに物理的に正確な燃焼シミュレーションとレンダリングを統合した。
    • 本手法は,シーンの形状と材質に整合したリアルで制御可能な火炎ダイナミクスを自動的に生成し,手動調整の必要性を排除する。
    • 多様な屋内および屋外のシーンにおける評価により,FieryGSは視覚的なリアリズム,物理的な忠実度,制御可能性において既存手法を上回る結果を示した。

    Link: https://arxiv.org/abs/2605.00177

  • Vulkan Computeを用いた高性能3Dガウススプラッティング学習パイプラインVkSplat [cs.CV]目的:3Dガウススプラッティング学習パイプラインの性能向上
    • 3Dガウススプラッティングは,高精度な3Dシーン表現技術として注目されている
    • 既存の学習パイプラインは,性能やGPUベンダー間の互換性に課題があった
    • Vulkan Computeによる効率的な学習パイプラインを構築し,これらの課題を解決する
    • VkSplatは,CUDA+PyTorchベースラインと比較して,学習速度が3.3倍,VRAM使用量が33%削減された
    • 品質を維持しつつ,GPUベンダー間の互換性を実現した
    • Vulkan Computeのみで構成された,最先端性能の3Dガウススプラッティング学習パイプラインである

    Link: https://arxiv.org/abs/2605.00219

  • LLMが戦略的プレイで苦戦する理由:観察,信念,行動の間の断絶 [cs.CL, cs.AI, cs.GT]目的:不完全情報下におけるLLMの戦略的意思決定における課題の解明
    • 交渉や政策立案など,不完全情報下での意思決定は重要であり,LLMの応用範囲を広げる。
    • LLMは戦略的タスクで失敗することがあり,その原因が十分に理解されていない。
    • LLMの内部メカニズムを分析し,戦略的ドメインでの脆弱性を明らかにすること。
    • LLMは内部的な信念と発言としての報告にずれがあり,信念の精度は推論ステップ数が増えるにつれて低下する。
    • LLMは内部信念を実際の行動に変換する能力が,プロンプトに表現された信念よりも弱いことが示された。
    • LLMの内部プロセス分析は,戦略的ドメインへの導入における注意喚起を促す。

    Link: https://arxiv.org/abs/2605.00226

  • 一人称視点カメラ姿勢推定のための適応測地共形予測 [cs.CL, eess.SY, cs.SY, cs.CV]目的:拡張現実や支援機器における一人称視点カメラ姿勢推定の,保証された不確実性領域
    • 拡張現実や支援機器の発展には,高精度な姿勢推定と信頼性の高い不確実性評価が不可欠である。
    • 従来の共形予測では,困難なフレームに対する保証範囲が不十分であり,性能にばらつきが生じる。
    • 困難なフレームを特定し,適応的な共形予測を行うことで,姿勢推定の信頼性を向上させる。
    • 標準的な共形予測では,全体の90%の網羅率を達成するものの,最も難しい25%のフレーム(Q4)では約60%の網羅率に留まることが示された。
    • 測地的なSE(3)非適合性スコアが,ユークリッドスコアよりも物理的に難しいフレームを識別し,Q4フレームにおける真のカメラ変位が大きいことが確認された。
    • DINOv2-Bridge適応共形予測は,Q4の網羅率を約0.75から約0.93に改善し,全体の90%の網羅率を維持することに成功した。

    Link: https://arxiv.org/abs/2605.00233

  • MAEPose: mmWaveビデオにおける人間の姿勢推定のための自己教師型時空間学習 [cs.CL, cs.HC, cs.CV, cs.AI]目的:mmWaveビデオを用いた人間の姿勢推定のための自己教師型時空間表現の学習
    • プライバシー保護が重要視される中,RGBカメラに代わる姿勢推定技術の需要が高まっている。
    • 既存手法は,中間表現に依存し,レーダービデオ本来の時空間情報を活用できていない。
    • ラベルなしレーダービデオから汎化された表現を学習し,姿勢推定の精度向上を目指す。
    • MAEPoseは,自己エンコーディングを用いてmmWaveスペクトログラムビデオから時空間表現を学習する。
    • 実験の結果,MPJPEにおいて最先端手法を最大22.1%上回り,統計的有意差が確認された。
    • 未知の人物による干渉下でも高い精度を維持し,汎化性能の高さが示された。

    Link: https://arxiv.org/abs/2605.00242

  • Lucid-XR:ロボット操作のための拡張現実データエンジン [cs.RO, cs.CV]目的:ロボットシステム訓練用マルチモーダルデータの生成
    • ロボットの知能向上には,現実世界での多様なデータが不可欠である。
    • 現実のデータ収集は時間とコストがかかり,困難な場合が多い。
    • 現実的で多様な合成データを用いて,ロボットの汎化性能を高める。
    • Lucid-XRは,XRヘッドセット上で動作する物理シミュレーション環境を搭載し,低遅延で没入感のある仮想インタラクションを実現する。
    • 自然言語による制御が可能なビデオ生成パイプラインと組み合わせ,データ収集の効率と多様性を向上させている。
    • Lucid-XRで訓練されたロボットは,見たことのない環境や複雑なタスクへのゼロショット転移が可能であることを実証した。

    Link: https://arxiv.org/abs/2605.00244

  • 集団的能動性の因果的基盤 [cs.NI, quant-ph, cs.AI, cs.GT, cs.MA]目的:集団的能動性の判断基準
    • 高度なAIシステムの安全性確保において,複数の単純なエージェントが意図せず集団的エージェントを形成する可能性が重要視される。
    • 生物学的・人工的なシステムにおける相互作用とインセンティブの分析において,いつ複数のエージェントを統一された集団とみなせるかの判断が難しい。
    • 集団の行動を合理的に予測できる場合に集団的能動性を認め,その判断基準を因果モデルを用いて明確化することを試みる。
    • 因果ゲームと因果的抽象化を用いることで,多エージェント間のインセンティブ構造を分析し,集団的能動性の程度を定量的に評価した。
    • アクター・クリティックモデルにおける多エージェント間のインセンティブに関する問題を解決し,投票メカニズムの集団的能動性を比較検討した。
    • 本研究は,多エージェントAIシステムにおける創発的な集団的エージェントの理解,予測,制御のための理論的・実証的基盤を提供する。

    Link: https://arxiv.org/abs/2605.00248

  • Alethia:音声ディープフェイクのための基盤エンコーダ [cs.SD, cs.CL, eess.AS]目的:音声ディープフェイク検出と局在化のための基盤となる音声エンコーダの開発
    • 近年の音声技術の発展に伴い,悪意のある音声偽造が社会問題となっている。
    • 既存のディープフェイク検出モデルは,性能向上の限界に達しつつある。
    • ディープフェイク特有のアーティファクトを捉え,よりロバストな検出を実現する。
    • Alethiaは,様々な音声ディープフェイク検出・局在化タスクにおいて,最先端の音声基盤モデルを大幅に上回る性能を示した。
    • 現実世界の摂動に対する頑健性,および未知のドメインへのゼロショット汎化能力に優れている。
    • マスクされたトークン予測における離散的なターゲットの限界が示され,連続埋め込み予測と生成事前学習の重要性が強調された。

    Link: https://arxiv.org/abs/2605.00251

  • リモートSAMシング:セグメンテーション全般へ [cs.CV, cs.AI]目的:大規模リモートセンシング画像におけるセグメンテーションの品質と網羅性の向上
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,高精度な画像解析が求められている。
    • 既存のセグメンテーション手法では,大規模画像への適用時に品質と網羅性の両立が困難であった。
    • 本研究は,セグメンテーションモデルSAM2の性能を最大限に引き出し,リモートセンシング画像の解析精度向上を目指す。
    • 提案手法「Remote SAMsing」により,セグメンテーションの網羅率が30~68%から91~98%に大幅に向上した。
    • 建物や自動車などの離散的な地上目標物に対して,既存手法と比較して3~8倍高精度なセグメンテーション境界を達成した。
    • タイルサイズの調整により,検出精度が向上し,SAM2のマルチスケール機能をも凌駕する性能を示した。

    Link: https://arxiv.org/abs/2605.00256

  • KL正則化による総和ゲームにおける悲観主義なしオフライン学習 [cs.RO, cs.LG, cs.GT]目的:総和ゲームにおけるオフライン学習の安定化と均衡回復
    • マルチエージェント強化学習は,複雑な協調行動を学習可能にするため,重要性が増している。
    • オフライン学習では,ログデータと目標均衡ポリシーの分布のずれが学習の課題となる。
    • KL正則化のみで学習を安定化させ,悲観主義的なペナルティなしに均衡を回復することを目指す。
    • 提案手法GANEは,加速された統計的レート$\widetilde{O}(1/n)$で正則化されたナッシュ均衡を回復する。
    • 計算効率を高めるため,Coarse Correlated Equilibriumに標準レート$\widetilde{O}(1/\sqrt{n}+1/T)$で収束するGAMDを開発した。
    • KL正則化は,総和ゲームにおける悲観主義なしオフライン学習の単独メカニズムとして有効であることが示された。

    Link: https://arxiv.org/abs/2605.00264

  • α潜在ゲームにおける正則化ミラー降下法による高速レート [cs.GT]目的:α潜在ゲームにおけるナッシュ均衡のオフライン学習
    • マルチエージェントシステムの設計において,均衡状態の効率的な特定は重要である。
    • 一般的なゲームでは均衡状態の特定が困難であり,オフライン学習における学習レートも課題である。
    • α潜在ゲームの構造を利用し,データ効率の高いオフライン学習アルゴリズムを開発すること。
    • 提案手法であるOffline Potential Mirror Descent(OPMD)は,従来のオフラインマルチエージェント学習よりも高速な統計的レートを達成する。
    • 新しいReference-Anchoredオフラインデータカバレッジフレームワークを導入することで,データ要件を検証可能な基準に固定している。
    • α潜在ゲームに対する初の高速レートオフライン学習アプローチを確立した。

    Link: https://arxiv.org/abs/2605.00268

  • REALM:RGBとイベントデータを整列させた潜在多様体によるクロスモーダル知覚 [cs.CV, cs.AI, cs.RO]目的:RGBとイベントデータの潜在多様体の整列
    • 従来のカメラでは難しい高速・低遅延な画像取得が可能であり,多様な環境下で活用が期待されている。
    • イベントカメラの学習は特定のタスクに限定され,異なる種類のデータへの汎化が困難である。
    • RGBモデルの知識を活用し,イベントデータの汎化性能を高めることを目指す。
    • REALMはイベント表現をRGBモデルの潜在空間に投影することで,クロスモーダルな学習を実現した。
    • RGBモデルの知識を転移することで,イベントデータに対する高性能なタスク(深度推定,セマンティックセグメンテーション)を実現した。
    • 学習済み画像デコーダをイベントデータに直接適用することで,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.00271

  • 拡散モデルはいつ複数のオブジェクトを生成することを学習するか [cs.CV, cs.AI]目的:複数オブジェクト生成における拡散モデルの学習状況
    • 画像生成技術は,現実世界の表現や新たなコンテンツ創造に不可欠である。
    • 拡散モデルは高品質な画像を生成するが,複数オブジェクトの生成には課題が残る。
    • 複数オブジェクト生成の限界をデータに着目して分析し,改善策の方向性を示す。
    • 拡散モデルの複数オブジェクト生成の難しさは,概念の不均衡よりもシーンの複雑さに起因することが示された。
    • 特に,オブジェクトの数え間違いは,データ量が少ない場合に顕著に問題となることが明らかになった。
    • 概念の組み合わせの一般化は,学習データからの除外が増えるにつれて低下することが確認された。

    Link: https://arxiv.org/abs/2605.00273

  • 説明可能な自動運転のための,意思決定を意識したマルチスケール注意機構に基づくエンドツーエンドモデル [cs.HC, cs.CV, cs.RO]目的:説明可能な人工知能(XAI)におけるモデルの性能評価と信頼性向上
    • 自動運転技術の発展は不可避であり,その安全性と信頼性の確保が重要課題である。
    • 深層学習モデルの意思決定プロセスが不透明であるため,システム故障の予測や実用化が困難である。
    • 複雑な自動運転モデルの理解を深め,より信頼性の高いシステム開発に貢献することを目的とする。
    • 提案モデルは,既存モデルと比較して,説明性能において優位性を示すことが確認された。
    • 新たな評価指標であるJoint F1スコアにより,モデルの正確性と信頼性が実証された。
    • BDD-OIAおよびnu-ARデータセットを用いた検証により,汎化性能とロバスト性が確認された。

    Link: https://arxiv.org/abs/2605.00291

  • Vision Transformerを用いた効率的な空間的・時間的植生ピクセル分類 [cs.CV]目的:空間的・時間的な植生ピクセル分類における効率化
    • 生態系動態の理解や気候変動への対応において,植物の季節変化のモニタリングは重要である。
    • 高解像度モニタリングにはUAV等を用いるが,時間経過に伴う植物種の識別は計算資源の制約を受ける。
    • Vision Transformerを最適化し,計算効率を高めつつ,高精度な植生ピクセル分類を実現すること。
    • 提案手法は,既存のCNNベースの手法と比較して,計算量を大幅に削減しつつ,同等の分類精度を維持した。
    • 特に,時間経過データ長に依存しないパラメータ数と,計算量の削減効果が確認された。
    • これらの結果から,Vision Transformerがリソース制約のある植物季節変化モニタリングシステムに有効であることが示唆された。

    Link: https://arxiv.org/abs/2605.00296

  • コンプライアンスロボットグリッパーのためのモデルベース視覚接触局所化および力覚センシングシステム [cs.RO, cs.CV]目的:ロボットグリッパーにおける視覚による接触局所化と力覚センシング
    • ロボットの繊細な物体への損傷を防ぎ,学習に基づいた制御を改善するため,力覚推定が重要である。
    • 従来の力覚センサは高コストで複雑,信頼性に課題があり,柔軟なグリッパーへの統合が難しい。
    • RGB-Dカメラを用いた間接的な視覚的力覚推定により,未知の物体への対応を可能にする。
    • 本研究では,反復的な接触局所化と未知物体への汎化を統合したモデルベースの視覚的力覚センシングシステムを開発した。
    • ソフトグリッパーのRGB-D画像から構造的キーポイントを抽出し,有限要素解析シミュレーションのパラメータとして活用した。
    • 実験結果から,負荷段階で平均RMSE 0.23 N,NRMSD 2.11%という高い精度を確認した。

    Link: https://arxiv.org/abs/2605.00307

  • 大規模リモートセンシング画像に対する超解像モデルのベンチマーク:下流タスク統合による評価 [cs.CV, cs.AI, cs.LG]目的:大規模リモートセンシング画像に対する超解像モデルの性能評価
    • 地球観測は,都市計画,農業,生態学,災害対応など,多岐にわたる分野で不可欠である。
    • 既存の超解像モデルの評価は,主に画質の指標に依存しており,実用的なタスクへの貢献度が不明確である。
    • 超解像モデルの性能を,実際の地球観測タスクでの性能に基づいて評価すること。
    • 従来の画質指標の改善と,下流タスクの性能向上との間には相関関係が見られない場合がある。
    • 画質指標は,下流タスクに適したモデル選択の指針としては限定的である。
    • 超解像モデルの開発・評価に,下流タスクを統合する必要性が示唆された。

    Link: https://arxiv.org/abs/2605.00310

  • 視覚言語モデルにおける幻覚に対するオンライン自己較正 [cs.CV, cs.LG]目的:視覚言語モデルの幻覚軽減
    • 大規模な視覚言語モデルの応用拡大のため,その信頼性向上が不可欠である。
    • 既存モデルは幻覚を起こしやすく,入力画像に存在しない情報を生成してしまう。
    • モデル自身の能力を活用し,外部の教師信号に依存しない自己学習手法を確立する。
    • 本研究では,モンテカルロ木探索と二重粒度報酬メカニズムを統合したOSCARを提案する。
    • OSCARは,幻覚ベンチマークにおいて最先端の性能を達成し,汎用的なマルチモーダル能力を向上させる。
    • モデル内部の生成と識別能力の差を利用することで,信頼性の高い自己教師あり学習を実現した。

    Link: https://arxiv.org/abs/2605.00323

  • プロンプト誘導によるゼロショット視覚言語安全分類のスコア変動 [cs.CL, cs.CV]目的:ゼロショット視覚言語モデルの安全分類におけるスコア変動の分析
    • 視覚言語モデルの安全性評価は,その社会実装において不可欠であり,信頼性の高い分類が求められる。
    • プロンプトのわずかな変更が,安全性評価のスコアに大きな影響を与えることが課題となっている。
    • プロンプト変動によるスコアのばらつきを軽減し,より信頼性の高い安全分類を実現することを目指す。
    • プロンプトの言い換えによって,同じサンプルに対して大きく異なる危険度確率が生じることが示された。
    • プロンプト平均化は,訓練データを用いずに,既存手法よりも高い性能を示すことが確認された。
    • プロンプト平均化は,ラベル付きデータと組み合わせることで,更なる性能向上が期待できる。

    Link: https://arxiv.org/abs/2605.00326

  • エネルギー得点と補助的文脈表現蒸留によるワンステップサンプリングを用いた高速テキスト音声生成 [cs.SD, eess.AS]目的:高速テキスト音声生成手法の開発
    • 近年,テキストからの音声合成技術は飛躍的に進歩しており,様々な応用が期待されている。
    • 従来のARモデルは高品質だが,多段階サンプリングによる遅延が課題となっていた。
    • エネルギー距離学習と表現蒸留を組み合わせることで,高品質かつ低遅延な音声合成を実現する。
    • 提案手法は,AudioCapsベンチマークにおいて,既存のワンステップベースラインモデルを客観的・主観的評価の両面で上回った。
    • 最先端のAR拡散システムと比較して,最大8.5倍高速なバッチ推論が可能であり,音声品質も遜色ない。
    • エネルギー距離学習と表現蒸留の組み合わせが,高速かつ高品質なテキスト音声合成の有効な手法であることを示した。

    Link: https://arxiv.org/abs/2605.00329

  • 姿勢を意識した拡散による3D生成 [cs.CV]目的:3Dオブジェクトの姿勢に合わせた生成
    • 3Dコンテンツ制作の自動化が求められており,多様な姿勢の3Dモデル生成技術が重要である。
    • 既存手法では,姿勢と形状を分離して扱うため,空間的なずれや曖昧性が問題となっていた。
    • 姿勢を考慮した直接的な3D生成により,空間的なずれを解消し,高精度な3Dモデル生成を目指す。
    • PADは,モノキュラー深度情報を3D点群として活用し,空間的な制約を直接的に課すことで,姿勢の曖昧性を解消する。
    • 実験結果から,PADは最先端手法と比較して,幾何学的な精度と画像と3Dモデルの対応関係において優れた性能を示すことが確認された。
    • また,PADは独立して生成されたオブジェクトを組み合わせることで,正確な空間配置を維持した3Dシーンの再構成を可能にする。

    Link: https://arxiv.org/abs/2605.00345

  • CURE-OOD:生存予測における分布外検出のベンチマーク [cs.CV]目的:がん生存予測における分布外検出の評価基準
    • がん治療後の患者の予後予測は,心理的苦痛の軽減と個別化医療の実現に不可欠である。
    • 画像取得条件の変動により分布外サンプルが生じ,モデルの信頼性を損なう可能性がある。
    • がん生存予測における分布外検出のベンチマークを確立し,その影響を評価すること。
    • 本研究で導入されたCURE-OODは,画像取得条件に起因する分布シフト下での分布外検出を体系的に評価する最初のベンチマークである。
    • 実験により,分布シフトが生存予測の性能に悪影響を及ぼすことが示された。
    • 既存の分類ベースの分布外検出器が,生存予測においては必ずしも有効ではないことが示唆された。

    Link: https://arxiv.org/abs/2605.00350

  • 機械学習の人間理解を促すインタラクティブなマルチモーダル表現に関する研究 [cs.GR, cs.HC, cs.MM]目的:機械学習に対する理解と信頼の向上
    • AI・機械学習は社会実装が進み,その理解と信頼が不可欠となっている。
    • 機械学習は専門性が高く,一般の人々には理解が難しく,誤解が生じやすい。
    • インタラクティブな可視化を通じて,機械学習への関心を高め,理解を深めることを目指す。
    • インタラクティブな可視化を用いることで,多様な層の学習意欲を引き出すことが可能となった。
    • 選定された透明性の高いデータセットを活用し,機械学習への関与要因を検討した結果,積極的な探索行動を促すことが示唆された。
    • 本研究は,機械学習に対する不安を軽減し,より積極的な学習姿勢へと変化を促す可能性を示した。

    Link: https://arxiv.org/abs/2605.00357

  • 後方伝播から前方リプレイへ:LLMパラメータ編集におけるターゲット構築の再検討 [cs.CL, cs.CV]目的:LLMパラメータ編集におけるターゲット構築のメカニズム解明と,より高精度なターゲットの生成
    • 大規模言語モデル(LLM)のパラメータ編集は,特定のタスクへの適応に有効であり,その重要性は増している。
    • 既存手法では,ターゲット層から後方へ情報を伝播させることで編集を行うが,その有効性や限界が十分に解明されていない。
    • 本研究は,前方伝播を用いた新しいターゲット構築手法を提案し,パラメータ編集の精度向上を目指す。
    • 既存のパラメータ編集手法の基礎を系統的に研究し,その能力範囲と潜在的な問題点を明らかにした。
    • 後方伝播の代わりに前方伝播を用いることで,より正確で互換性の高い層ごとのターゲット隠れ状態を生成できることを示した。
    • 提案手法は計算コストを増加させず,既存の編集パイプラインに容易に組み込むことができる。

    Link: https://arxiv.org/abs/2605.00358

  • 時系列データと複雑な運動モデリング:マルチオブジェクトトラッキングのためのロバストで計算効率の高い運動予測器 [cs.CV]目的:マルチオブジェクトトラッキングにおける運動予測の精度向上
    • 監視,自動運転,ロボット工学など,多くの現実世界アプリケーションにおいて,マルチオブジェクトトラッキングは不可欠である。
    • 既存手法は,現実世界の非線形な運動(急停止,急旋回など)の複雑さに対応できず,精度が課題となっている。
    • 複雑なモデルに頼らず,効率的な手法で高精度な運動予測を実現し,トラッキング性能を向上させる。
    • 提案手法TCMPは,HOTAが62.3%から63.4%に,IDF1が63.0%から65.0%に,AssAが47.2%から49.1%に向上し,最新技術を上回る性能を達成した。
    • TCMPは,最新技術と比較して,パラメータ数が0.014倍,計算コストが0.05倍と,非常に効率的である。
    • これらの結果は,TCMPが複雑な追跡環境において,適応性,精度,効率性を兼ね備えた,マルチオブジェクトトラッキングシステムを推進する可能性を示唆する。

    Link: https://arxiv.org/abs/2605.00362

  • センチネル2超解像のためのフローマッチング:実装,応用,および示唆 [cs.CV]目的:センチネル2衛星画像の4倍超解像を実現するためのフローマッチングモデルの開発
    • 衛星画像は,地球環境のモニタリングや資源管理において重要な役割を担う。
    • 高解像度の衛星画像は入手が困難であり,解像度を向上させる技術が求められる。
    • スペクトル特性と知覚品質のトレードオフを克服する超解像技術の確立が課題である。
    • フローマッチングモデルは,単一サンプリングステップにおいて,拡散モデルやReal-ESRGANモデルよりも高いピクセル単位の精度を示した。
    • Midpointソルバーを用いた評価では,わずか20ステップで知覚的にリアルな超解像画像を生成し,推論時に再学習なしで知覚-歪み間のトレードオフを効果的に解消した。
    • センチネル2年次合成データから生成した2.5m 4バンドのCONUS画像製品は,1.58兆ピクセルを超える規模であり,土地被覆分類タスクにおいて89.11%の全体精度を達成した。

    Link: https://arxiv.org/abs/2605.00367

  • GaMMA:大規模マルチモーダルモデルにおける音楽のグローバル・時間的理解に向けた試み [cs.SD, cs.AI]目的:音楽コンテンツの包括的な理解
    • 音楽理解は,音楽情報処理や創作用において不可欠であり,その重要性は増している。
    • 従来のモデルは,時間軸上の音楽理解とそうでない音楽理解を別個に扱っており,効率性に課題があった。
    • 時間軸上の音楽理解とそうでない音楽理解を統合し,より高度な音楽理解を目指す。
    • GaMMAは,MuchoMusicで79.1%の精度,MusicBench-Temporalで79.3%の精度,MusicBench-Globalで81.3%の精度を達成し,既存手法を上回る最先端の結果を示した。
    • 本研究で開発されたMusicBenchは,多様な音楽理解の側面を評価するための大規模なベンチマークとして貢献する。
    • 混合エキスパート方式のオーディオエンコーダにより,時間軸データと非時間軸データの両方を効果的に統合した。

    Link: https://arxiv.org/abs/2605.00371

  • RTPrune:DeepSeek-OCR効率的推論のための二段階読み取りに基づくトークンプルーニング [cs.CV, cs.LG]目的:DeepSeek-OCRの効率的な推論のためのトークンプルーニング手法
    • OCR技術は,紙媒体等の情報をデジタル化し,活用範囲を広げる上で不可欠である。
    • DeepSeek-OCRでは冗長な視覚トークンが存在し,推論速度の低下やコスト増加を引き起こしている。
    • 視覚情報の重要な特徴を維持しつつ,トークン数を削減することで推論効率を向上させる。
    • RTPruneは,DeepSeek-OCRのデコーディング過程で確認された二段階の読み取り特性に着目した手法である。
    • 最初の段階で重要なトークンを優先し,次の段階で残りのトークンを最適輸送理論に基づいて統合する。
    • OmniDocBenchにおいて,99.47%の精度と1.23倍の高速化を,84.25%のトークン保持率で達成した。

    Link: https://arxiv.org/abs/2605.00392

  • SIMON:注意度を考慮した統合的多視点オブジェクト中心ニューラルデコーディング [cs.CE, cs.IR, cs.CL, cs.CV, q-bio.NC]目的:脳波からの画像検索における性能向上
    • 脳活動と視覚情報の関係解明は,ブレイン・マシン・インターフェース等の応用において重要である。
    • 従来の脳波画像検索手法は中心視点に偏りがあり,人間の注意メカニズムとのずれが生じていた。
    • 注意度を考慮した多視点アプローチにより,脳波と視覚特徴の整合性を高め,検索精度を向上させる。
    • 提案手法SIMONは,THINGS-EEGデータセットにおいて,最新のベースラインを凌駕する最先端の性能を達成した。
    • 主観内および主観間設定において,それぞれ平均Top-1精度69.7%と19.6%を記録した。
    • サンプリングの粒度,脳波チャネル構成,視覚・脳エンコーダの変更に対するロバスト性が確認された。

    Link: https://arxiv.org/abs/2605.00401

  • BOLT:事前準備不要な異種協調知覚のためのオンライン軽量適応 [eess.SY, cs.SY, cs.CV]目的:事前準備を必要としない異種協調知覚における性能向上
    • 自動運転やロボティクスにおいて,周囲の状況を正確に把握する知覚能力は不可欠である。
    • 既存手法は,事前の学習やモデル適応が必要で,異なる開発者によるエージェント間の連携が困難である。
    • 本研究は,事前準備なしで異種エージェント間の協調知覚を実現し,その性能を向上させることを目指す。
    • BOLTは,自己教師あり蒸留を用いて隣接エージェントの特徴量をオンラインで適応させる軽量モジュールである。
    • BOLTは,自己エージェントの信頼性の高い特徴量を活用し,特徴量ドメインの整合性を高め,性能を向上させる。
    • DAIR-V2XとOPV2Vのデータセットにおいて,既存手法と比較して最大32.3ポイントのAP@50向上を達成した。

    Link: https://arxiv.org/abs/2605.00405

  • ヒューリスティクスを超えて:3Dガウススプラッティングのための学習可能な密度制御 [cs.CV]目的:3Dガウススプラッティングにおける密度制御の学習
    • リアルタイムレンダリング技術の発展は,様々な分野で高度な視覚表現を可能にする上で重要である。
    • 従来の3Dガウススプラッティングは,手動で設計されたヒューリスティクスに依存しており,複雑な形状への適応が困難である。
    • 本研究では,強化学習を用いて密度制御を学習可能にし,多様なシーンへの適応性を向上させることを目指す。
    • 提案手法LeGSは,再構成品質を正確に定量化する報酬関数に基づいて,密度制御を最適化する。
    • 計算効率を高めるため,報酬計算の複雑さをO(N^2)からO(N)に削減する閉形式解を導出した。
    • Mip-NeRF 360等のデータセットを用いた実験で,LeGSは最先端手法を凌駕する性能を示し,再構成品質と効率のバランスに優れていることが示された。

    Link: https://arxiv.org/abs/2605.00408

  • 入札における小単調福利最大化のための予算制約付きメカニズム [cs.GT]目的:入札における小単調福利の最大化
    • AIを活用した市場で重要。データ取得やクラウドソーシングなど,予算内でサービス調達の効率化が求められる。
    • 既存の予算制約付きメカニズムは,買い手の評価価値最大化に偏っており,社会厚生最大化は未解決な課題であった。
    • 予算制約を維持しつつ,小単調福利を最大化するメカニズムを開発し,実用性を高めることを目指す。
    • 本研究で提案するBFM-SWMは,入札における小単調福利最大化のための初めての予算制約付きメカニズムであり,近似保証も確立している。
    • また,BFM-VMという評価価値最大化に特化したメカニズムも開発し,既存の決定論的近似比1/64を大幅に改善する1/(12+4√3)を達成した。
    • 実験結果から,提案するメカニズムの効率性と有効性が確認された。

    Link: https://arxiv.org/abs/2605.00411

  • P2M++:点とメッシュ間距離クエリのための改良ソルバー [cs.CE, cs.GR]目的:点とメッシュ間距離クエリの高速化
    • コンピュータグラフィックスや幾何モデリングにおいて,距離計算は基本的な処理である。
    • 既存のP2M法は高速だが,前処理コストが高いという課題がある。
    • P2M++は,前処理とクエリの両方において,P2M法よりも効率的な計算を目指す。
    • P2M++は,Voronoi法を用いた局所化に補助点を追加することで,複雑な干渉の検出を効率化している。
    • 干渉検出を,BVHを用いた高速な球と三角形の衝突判定に置き換えることで,計算コストを削減している。
    • kd-tree検索を,より高速な動的計画法の実装に置き換えることで,実行時のパフォーマンスを向上させている。

    Link: https://arxiv.org/abs/2605.00429

  • MMAudioReverbs: ビデオ誘導による音響モデリング - 除響とインパルス応答推定 [cs.SD, cs.CV, cs.LG, eess.AS]目的:除響と部屋のインパルス応答推定のための音響モデリング手法
    • 視覚情報と聴覚情報の関係は,現実世界の理解に不可欠であり,音響処理への応用が期待される。
    • 既存の動画から音声へのモデルは,部屋の音響効果を明示的にモデル化していない点が課題である。
    • 事前学習済みモデルを活用し,物理的に根拠のある部屋音響処理を実現することを目指す。
    • 動画と音声のヒントは,部屋の音響特性の種類に応じてそれぞれ利点があることが示された。
    • 既存の動画から音声へのモデルを,ネットワーク構造を変更することなく,除響とインパルス応答推定に活用できることが示された。
    • 基盤となる動画から音声へのモデルは,物理的に根拠のある部屋音響解析に利用できる可能性が示唆された。

    Link: https://arxiv.org/abs/2605.00431

  • LIMSSR:学習時不完全なマルチモーダル観測下におけるLLM駆動のシーケンス to スコア推論 [cs.CV]目的:学習時不完全なマルチモーダル観測下における推論手法
    • 現実世界のマルチモーダル学習において,モダリティ欠損は頻繁に発生する。
    • 既存手法は,学習時に完全なモダリティデータを利用できるという非現実的な仮定に依存している。
    • 学習時欠損を前提とした,より現実的なマルチモーダル学習手法を確立すること。
    • LIMSSRは,マルチモーダル学習の課題を条件付きシーケンス推論タスクとして再構築する。
    • 大規模言語モデルを活用し,利用可能なコンテキストから潜在的な意味を直接再構成なしで推論する。
    • 3つの行動品質評価データセットで,既存手法を上回る性能を示し,データ効率的な学習の新たなパラダイムを確立した。

    Link: https://arxiv.org/abs/2605.00434

  • 適応的均衡:汎用的なDeepFakeモデル妨害のための動的重み付けフレームワーク [cs.LG, cs.CV]目的:汎用的なDeepFakeモデル妨害における妨害の不均衡を解消し,均一な有効性を実現する手法
    • DeepFake技術の発展は著しいが,その悪用を防ぐための妨害技術の向上が急務である。
    • 従来の妨害手法では,モデル構造の相違により妨害の成功率にばらつきが生じるという課題があった。
    • モデル間の妨害の不均衡を解消し,すべてのモデルに対して均一な妨害効果を得ることを目指す。
    • 提案手法AEFは,リアルタイムの損失フィードバックを用いて,最も耐性のあるモデルに大きな妨害重みを動的に割り当てる。
    • これにより,最適化を平均的なケースから動的な均衡を見つける問題へと転換し,均一に有効な均衡状態へと誘導する。
    • 多様なモデルアーキテクチャにおける実験により,AEFがよりバランスの取れた妨害性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2605.00443

  • コンパクトな潜在的マルチエージェント協調によるビデオ理解のスケーリング [cs.CV]目的:ビデオ理解のスケーリング
    • ビデオ理解は,AI技術の応用範囲を広げる上で重要であり,多様な分野での活用が期待されている。
    • 大規模言語モデルは,長時間のビデオ処理において,限られた知覚コンテキストがボトルネックとなり,性能が低下する。
    • 潜在的な協調通信を通じて,ビデオの複雑さに応じてエージェントの知覚予算を調整し,スケーラブルな理解を目指す。
    • 提案手法MACFは,従来の最先端手法と比較して,同一の予算制約下で,一貫して優れた性能を発揮する。
    • MACFは,エージェント固有の潜在的な通信プロトコルにより,視覚的な忠実性を維持しながら,効率的な協調を実現する。
    • カリキュラム学習戦略を用いることで,意味的整合性,証拠の要約,エージェント間の協調が徐々に強化される。

    Link: https://arxiv.org/abs/2605.00444