arXiv雑要約

画像・音声 - 2026/05/05 公開

  • 人間を優先して:人間による選好との整合性を備えた効率的なLAM評価 [cs.CL, cs.AI, cs.SD]目的:大規模オーディオモデルの効率的な評価手法
    • 大規模オーディオモデルは急速に普及しており,その性能比較が重要である。
    • 包括的な評価にはコストがかかり,データの冗長性も問題となる。
    • 少ないデータセットでも信頼性の高い評価を実現し,コストを削減すること。
    • 50件のサンプルセット(データ全体の0.3%)で,フルベンチマークスコアとのピアソンの相関係数が0.93を超えると示された。
    • 評価スコアと実際のユーザー満足度との相関係数は0.85にとどまることが判明した。
    • 厳選されたサブセットで学習した回帰モデルは,フルベンチマークやランダムなサブセットで学習したモデルを上回る相関関係(0.98)を示した。

    Link: https://arxiv.org/abs/2605.00022

  • 公的事故報告書からの物理に基づいた交通事故再構築学習 [cs.LG, cs.CV]目的:交通事故再構築の学習
    • 交通事故分析は,交通安全向上や自動運転技術開発において不可欠である。
    • 詳細な現場計測や専門家による再構築は,コストと時間がかかるため,大規模な分析が困難である。
    • 公的報告書と現場計測データを活用し,大規模な交通事故再構築を可能にすることを試みる。
    • 本研究では,NHTSAの事故調査データセットCISS-RECを用いて,報告書の内容と現場状況を関連付ける再構築フレームワークを開発した。
    • 提案手法は,事故地点の精度と衝突の一貫性において,既存手法を上回る高い再構築精度を達成した。
    • 公的事故報告書が,検証可能な交通事故再構築のための大規模な計算基盤となりうる可能性を示した。

    Link: https://arxiv.org/abs/2605.00050

  • 見えざるものから学ぶ:幾何学的・意味的事故予測のための生成データ拡張 [cs.CV, cs.LG]目的:幾何学的・意味的事故予測のための生成データ拡張手法
    • 自動運転の安全性向上は重要課題であり,事故予測はその核心をなす。
    • 事故データの収集は困難であり,多様な状況を網羅した大規模データセットが不足している。
    • 実データだけでは不足する事故シナリオを,生成データで補完し予測精度を向上させる。
    • 提案手法は,既存データから高品質な合成運転シーンを生成し,データ不足を解消する。
    • 意味的情報を活用したグラフニューラルネットワークにより,参加者間の空間的・意味的関係を動的に推論する。
    • 新たなベンチマークデータセットと評価により,既存手法を上回る精度と予測リードタイムの向上が確認された。

    Link: https://arxiv.org/abs/2605.00051

  • ハイブリッドキャプチャ Gaussian Splatting の主要な学習レバー:勾配手術が役立つ状況に関する分散分解的考察 [cs.CV]目的:ハイブリッドキャプチャ環境における 3D Gaussian Splatting の学習性能向上
    • 近年の3次元シーン再構成技術の発展に伴い,様々な視点からの画像を利用した高品質なレンダリングが求められている。
    • 異なる距離からの画像を利用するハイブリッドキャプチャにおいて,少数派の視点からの情報が十分に学習されず,性能が低下する問題がある。
    • 2つの視点を一度にレンダリングすることで,ハイブリッドキャプチャにおける学習の効率化と性能向上を目指す。
    • 2つの視点を一度にレンダリングするシンプルな変更が,他の複雑な手法と比較して最も効果的であることが示された。
    • 2つの視点を積算することによる分散の減少が,ハイブリッドキャプチャ環境における学習の主要な効果であることが明らかになった。
    • この効果は,Scaffold-GS や Pixel-GS といった他のバックボーンにも適用可能であることが確認された。

    Link: https://arxiv.org/abs/2605.00052

  • Being-H0.7:一人称視点動画からの潜在的ワールド・アクションモデル [cs.RO, cs.CV, cs.LG]目的:マルチモーダルな観察と言語指示を直接アクションにマッピングするモデルの性能向上
    • ロボット制御において,視覚情報と言語を統合したモデルが不可欠となっている。
    • 既存モデルは,行動の少ない教師データにより,ダイナミクスや接触の理解が不十分になりがちである。
    • 将来予測を考慮した効率的なアクション生成を実現し,ロボットの汎化性能を高めることを目指す。
    • Being-H0.7は,将来の状態を明示的に予測することなく,未来を意識した推論を可能にする潜在的ワールド・アクションモデルである。
    • 潜在的なクエリを導入し,現在の観測から将来の構造を推論することで,高い予測性能と効率性を両立している。
    • シミュレーションと実環境の両方で,最先端または同等の性能を達成し,実用性の高さを示した。

    Link: https://arxiv.org/abs/2605.00078

  • ロボット学習のためのワールドモデル:包括的な調査 [cs.RO, cs.CV]目的:ロボット学習におけるワールドモデルの体系的レビュー
    • ロボットの自律性を高める上で,環境の予測モデルは不可欠である。
    • ワールドモデルに関する研究は,アーキテクチャや応用分野が分断されている。
    • ロボット学習におけるワールドモデルの現状を整理し,今後の課題を明確化する。
    • 本調査は,ワールドモデルとロボットポリシーの連携,強化学習におけるシミュレータとしての役割を詳細に分析した。
    • ロボットの動画ワールドモデルが,生成から制御,構造化,そして大規模化へとどのように進展してきたかを概観した。
    • ナビゲーションや自動運転への応用,関連データセット,ベンチマーク,評価プロトコルをまとめた。

    Link: https://arxiv.org/abs/2605.00080

  • AIDA-ReID:汎化性能とソースフリーな人物再識別のための適応的な中間ドメイン適応 [cs.HC, cs.CV, cs.AI]目的:汎化性能とソースフリーな人物再識別
    • 人物再識別は,監視カメラ映像などから同一人物を特定する技術であり,セキュリティ向上に不可欠である。
    • ドメイン間の差異により性能が低下するため,未知環境への適応が課題となっている。
    • 中間ドメイン適応を動的に制御することで,多様な環境に対応できる再識別手法を開発する。
    • 本研究では,モデルの不確実性と学習の安定性に基づき,特徴混合と正則化強度を適応的に制御するAIDAを提案する。
    • 中間ドメイン生成器により多様な表現を合成し,疑似ミラー正則化戦略によりドメイン変動下での同一性維持を実現する。
    • ドメイン汎化とソースフリー設定における実験により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2605.00111

  • GAFSV-Net:オンライン署名検証のためのビジョンフレームワーク [cs.CV, cs.CR, cs.LG]目的:オンライン署名検証における偽造署名と真筆の識別
    • デジタルセキュリティにおいて,署名認証は重要な役割を果たす。信頼性の高い認証システムの構築が求められている。
    • オンライン署名データは個人差が大きく,少量の登録データでの正確な検証が課題である。
    • 2Dビジョン技術を活用し,オンライン署名の表現力を高めることで,より高精度な検証を実現する。
    • GAFSV-Netは,署名を6チャンネルのアシンメトリックGramian Angular Field画像として表現する。
    • 提案手法は,既存の1次元系列ベースの手法を上回り,一貫して高い性能を示した。
    • 2D時系列エンコーディングが,訓練手順に依存せず,表現力向上に貢献することが示された。

    Link: https://arxiv.org/abs/2605.00120

  • 遺伝的制約下における公平性と非無駄性の$k$-緩和適合性 [cs.GT]目的:遺伝的制約下における公平性と非無駄性の両立可能性
    • 多様性確保や難民再定住など,現実の配分問題において重要な制約条件を扱う必要性がある。
    • 公平性と非無駄性は両立し難く,既存研究ではどちらか一方を優先せざるを得ない状況があった。
    • 公平性と非無駄性を同時に緩和することで,両者のバランスを取る新たなアプローチを提案する。
    • 公平性の緩和指標(ER-$k$)と非無駄性の緩和指標(NW-$k$)が,遺伝的制約下において常に両立することが示された。
    • ER-$k$とNW-$k$を満たすマッチングを計算するための,効率的なアルゴリズムが2つ提案された。
    • 実験結果から,僅かな緩和でも公平性と非無駄性の良好なバランスが実現できることが確認された。

    Link: https://arxiv.org/abs/2605.00134

  • 低ビットLLM量子化のための活性化残差ヘッセ行列量子化(ARHQ)技術報告 [cs.LG, cs.CL, cs.CV]目的:低ビット活性化・重み量子化における誤差伝播の軽減
    • 大規模言語モデル(LLM)は高性能だが,計算資源が必要。量子化はモデルを軽量化し,実用性を高める重要な技術である。
    • 低ビット量子化では誤差が累積しやすく,特に活性化関数の量子化が精度低下の大きな要因となる。
    • 活性化量子化残差から入力側残差ヘッセ行列を構築し,誤差に敏感な重み方向を分離・高精度化することで,精度劣化を抑制する。
    • ARHQはQwen3-4B-Thinking-2507において,層ごとのSNRを大幅に改善することが示された。
    • ARHQはZebraLogicにおける推論性能を,積極的な量子化下でも維持することが確認された。
    • ARHQは重みを分割し,誤差に敏感な方向を高精度に保持することで,低ビット量子化の課題を克服する。

    Link: https://arxiv.org/abs/2605.00140

  • スパイクニューラルネットワークを用いたエッジニューロモーフィックハードウェアにおけるリアルタイムフレーム・イベントベース物体検出:設計,展開,ベンチマーク [cs.CL, cs.CV]目的:エネルギー制約のあるプラットフォームにおけるリアルタイム物体検出手法
    • UAV検査,自律航行,モバイルロボットなど,リアルタイム物体検出の重要性が増している。
    • 従来のANNは消費電力が高く,エッジデバイスでの利用に課題がある。
    • ニューロモーフィックハードウェア上のSNNを用いて,低消費電力なリアルタイム物体検出を実現する。
    • Loihi 2上のSNNは,他のプラットフォームと比較して,1回の推論あたりの動的エネルギー消費量が最も低く,リアルタイム検出が可能であった。
    • Loihi 2は電力消費量で他のプラットフォームを上回ったが,Jetson Orin Nano上のANNはより高い推論速度を達成した。
    • ANNからの蒸留を意識したSNNの学習により,SNNはANNと同等の検出精度を87-100%まで回復し,推論遅延も低く抑えられた。

    Link: https://arxiv.org/abs/2605.00146

  • 画像からメッシュへ:非協調宇宙物体の3D表面再構成パイプライン [cs.CV]目的:非協調宇宙物体の3D表面再構成手法
    • 宇宙空間での活動は重要であり,宇宙物体の状態把握が不可欠である。
    • 実環境の宇宙空間画像からの3D再構成は,カメラ位置や照明の制御が難しく課題が多い。
    • 宇宙空間の画像から,正確な3Dモデルを生成し,活動計画に役立てる。
    • 提案手法をISSやH-IIAロケットの上段の画像に適用し,有効性を示した。
    • 背景除去が,実環境の画像からのカメラ位置推定において非常に重要であることが分かった。
    • フレームごとの露出変動の補正が,影の部分の再構成精度に影響することが示された。

    Link: https://arxiv.org/abs/2605.00147

  • DPUとGPUの組み合わせによるニューラルネットワーク推論の高速化 -- なぜ両方を使用しないのか?CNN推論の分割 [cs.AR, cs.CV]目的:CNN推論をDPUとGPUに分割することによる低遅延化
    • エッジデバイスにおけるビデオ・画像ストリーミングは,低遅延性が求められる。
    • 従来のNN推論加速は単一のハードウェアに依存しており,更なる低遅延化が課題である。
    • DPUとGPUの組み合わせによる分割推論により,より低遅延な推論を実現することを目指す。
    • DPUとGPUにCNN推論を分割することで,DPU単独実行と比較して最大2.48倍,GPU単独実行と比較して最大3.37倍の遅延改善を達成した。
    • GNNに基づく分割インデックス予測手法により,CNNの分割を自動化し,96.27%の精度で適切なデバイスへの層の割り当てが可能となった。
    • LeNet-5,ResNet18/50/101/152,VGG16,MobileNetv2など,確立されたモデルで検証が行われた。

    Link: https://arxiv.org/abs/2605.00174

  • FieryGS:物理統合型ガウススプラッティングによるリアルタイム炎の合成 [cs.GR, cs.CV]目的:野外3Dシーンにおけるフォトリアリスティックかつ物理的に妥当な燃焼効果の合成
    • 映像制作において,リアルな炎の表現は不可欠であり,作品の質を大きく左右する。
    • 従来のシミュレーション手法は手間と専門知識が必要で,実世界の複雑なシーンへの適用が困難であった。
    • 3Dガウススプラッティングの利点と物理シミュレーションを組み合わせ,自動化されたリアルな炎の生成を目指す。
    • FieryGSは,3Dガウススプラッティングパイプラインに物理ベースの燃焼シミュレーションとレンダリングを統合することで,実シーンでのリアルな炎の合成を可能にする。
    • マルチモーダル大規模言語モデルによる物理的材質推論,効率的な体積燃焼シミュレーション,そして炎と3DGSを統合したレンダラーを組み合わせている。
    • 多様な屋内および屋外シーンにおける評価で,FieryGSは比較対象手法を凌駕する視覚的リアリズム,物理的忠実性,制御性を示した。

    Link: https://arxiv.org/abs/2605.00177

  • VkSplat: Vulkan Computeによる高性能3Dガウススプラッティング学習 [cs.CV]目的:3Dガウススプラッティング学習パイプラインの性能向上
    • 3Dコンテンツ生成において,高品質かつ高速なレンダリングが重要視されている。
    • 既存の学習パイプラインは,性能面やGPU互換性の問題点を抱えている。
    • Vulkan Computeを用いた学習パイプラインにより,これらの課題を解決する。
    • VkSplatは,CUDA+PyTorchベースラインと比較して,3.3倍の速度と33%のVRAM削減を達成した。
    • 学習品質を維持しつつ,異なるGPUベンダー間での互換性も実証された。
    • 本研究は,最先端の性能を持つVulkanベースの3Dガウススプラッティング学習パイプラインとして初めて公開された。

    Link: https://arxiv.org/abs/2605.00219

  • LLMが戦略的プレイで苦戦する理由:観測,信念,行動の間の断絶 [cs.CL, cs.AI, cs.GT]目的:不完全情報下におけるLLMの戦略的意思決定における課題の特定
    • 戦略的意思決定は,交渉や政策立案など,様々な分野で重要であり,高度な知能が求められる。
    • LLMは戦略的タスクで成功する一方で,その失敗原因が明確に理解されていないという課題がある。
    • LLMの意思決定プロセス内部のメカニズムを分析し,潜在的な脆弱性を明らかにすることを目的とする。
    • LLMは内部的に保持する信念が,言語による報告よりも正確であるにもかかわらず,その信念は脆いことが示された。
    • 多段階推論,先入観,記憶の偏り,ベイズ整合性の欠如などが,信念の精度低下を引き起こすことが明らかになった。
    • 内部信念と行動の結びつきが,プロンプトに外部化された信念よりも弱く,必ずしも高いゲーム報酬に繋がらないことが示された。

    Link: https://arxiv.org/abs/2605.00226

  • 一人称視点カメラ姿勢推定のための適応的測地共形予測 [cs.CL, eess.SY, cs.SY, cs.CV]目的:一人称視点カメラ姿勢推定における,保証された不確実性領域の提供
    • ARや支援機器において,正確な姿勢推定と信頼性の高い不確実性推定が不可欠である。
    • 従来の共形予測では,困難なフレームに対する保証カバレッジが低いという課題がある。
    • 困難なフレームを特定し,共形予測の閾値を適応的に調整することで,カバレッジギャップを解消する。
    • 測地的なSE(3)非適合性スコアは,ユークリッドスコアよりも物理的に難しいフレームを識別することが示された。
    • DINOv2-Bridge適応的共形予測は,困難なフレームに対するカバレッジを約0.75から約0.93に向上させた。
    • 提案手法は,全体カバレッジを90%の目標に維持しつつ,参加者間での転移学習を可能にした。

    Link: https://arxiv.org/abs/2605.00233

  • MAEPose: mmWaveビデオにおける人間の姿勢推定のための自己教師あり時空間学習 [cs.CL, cs.HC, cs.CV, cs.AI]目的:mmWaveビデオにおける人間の姿勢推定のための自己教師あり時空間学習手法
    • プライバシー保護の観点から,RGBカメラに代わる新しい姿勢推定技術の需要が高まっている。
    • 既存手法は,中間表現に依存しており,レーダービデオの持つ時空間情報を十分に活用できていない。
    • レーダービデオから直接,汎化性能の高い表現学習を行い,姿勢推定の精度向上を目指す。
    • MAEPoseは,自己符号化を用いた手法により,ラベルなしのレーダービデオから時空間情報を学習する。
    • 実験の結果,既存手法と比較してMPJPEで最大22.1%の性能向上を達成した(p<0.05)。
    • また,外部者の干渉下においても高い精度を維持し,汎化性能の高さを示した。

    Link: https://arxiv.org/abs/2605.00242

  • Lucid-XR:ロボット操作のための拡張現実データエンジン [cs.RO, cs.CV]目的:ロボットシステムを訓練するための多様かつ現実的なマルチモーダルデータの生成
    • ロボットの知能向上には,現実世界の複雑さを捉えた学習データが不可欠である。
    • 現実世界でのデータ収集は,時間とコストがかかり,多様性に限界がある。
    • 高品質な合成データを用いて,現実世界への汎化性能を高めることを目指す。
    • Lucid-XRは,XRヘッドセット上で直接動作する物理シミュレーション環境を構築し,低遅延で没入感のある仮想インタラクションを可能にする。
    • 自然言語による指示に基づいて動画生成パイプラインを制御し,データを多様化させる。
    • Lucid-XRで訓練されたロボットは,見たことのない環境においてもゼロショットで優れた視覚的ポリシーを示す。

    Link: https://arxiv.org/abs/2605.00244

  • 集団的能動性の因果的基盤 [cs.NI, quant-ph, cs.AI, cs.GT, cs.MA]目的:集団的能動性の判定基準
    • 高度なAIシステムの安全性確保は重要である。複数の単純なエージェントが意図せず集団エージェントを形成する可能性を考慮する必要がある。
    • 生物学的・人工システムにおける相互作用やインセンティブにおいて,エージェント集団を統一された集団的能動性として捉えるための基礎的な問いに答えられていない。
    • 集団の共同行動を合理的に予測できる場合に,集団に集団的能動性を認められるように,因果モデルを用いてこの問題を解決する。
    • 因果ゲームと因果的抽象化を用いることで,集団的能動性を形式化し,多エージェントのインセンティブに関する問題を解決した。
    • 異なる投票メカニズムにおける集団的能動性の程度を定量的に評価することが可能になった。
    • このフレームワークは,多エージェントAIシステムにおける創発的な集団エージェントの理解,予測,制御のための基盤となることを目指す。

    Link: https://arxiv.org/abs/2605.00248

  • アレティア:音声ディープフェイクのための基盤エンコーダ [cs.SD, cs.CL, eess.AS]目的:音声ディープフェイクの検出と局在化のための基盤となる音声エンコーダ
    • 音声合成技術の進展により,ディープフェイク音声による悪用のリスクが高まっている。
    • 既存の手法は,事前学習済みの音声基盤モデルに依存しており,性能向上の限界が見られている。
    • ディープフェイク音声特有のアーティファクトを捉え,よりロバストで汎化性能の高いエンコーダを開発すること。
    • 提案手法アレティアは,5つのタスクと56のベンチマークデータセットにおいて,最先端の音声基盤モデルを凌駕する性能を示した。
    • 特に,現実世界の摂動に対する頑健性や,未知のドメインへのゼロショット汎化能力において顕著な効果が確認された。
    • また,マスク化されたトークン予測における離散的なターゲットの限界を示し,連続埋め込み予測と生成事前学習の重要性を明らかにした。

    Link: https://arxiv.org/abs/2605.00251

  • リモートSAMシング:セグメント何でもからセグメント全てへ [cs.CV, cs.AI]目的:大規模リモートセンシング画像に対するセグメンテーションの精度とカバレッジの向上
    • リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,高精度な画像解析が求められる。
    • 既存のセグメンテーション手法では,大規模画像におけるカバレッジと精度を両立することが課題であった。
    • 本研究は,セグメンテーション精度を維持しつつ,リモートセンシング画像のセグメンテーションカバレッジを大幅に向上させることを目指す。
    • 提案手法「Remote SAMsing」は,SAM2の性能を最大限に引き出し,タイル分割による断片化問題を解決することで,高いカバレッジを実現した。
    • 7つのシーンにおける評価により,カバレッジが30~68%から91~98%へと大幅に向上し,建物や車両の検出精度も向上することが示された。
    • タイルサイズの調整がスケールパラメータとして機能し,SAM2のマルチスケール機構を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.00256

  • KL正則化による一般和ゲームにおける悲観主義からの解放されたオフライン学習 [cs.RO, cs.LG, cs.GT]目的:一般和ゲームにおけるオフラインマルチエージェント強化学習の安定化と均衡回復
    • 強化学習は,複雑な環境下での意思決定に有効だが,データ収集コストが高い。
    • オフライン強化学習では,ログデータと目標均衡ポリシーの間の分布のずれが課題となる。
    • KL正則化のみで学習を安定させ,均衡回復を達成することで,悲観主義的なペナルティを不要にする。
    • 提案手法GANEは,統計的に高速なレート$\widetilde{O}(1/n)$で正則化されたナッシュ均衡を回復する。
    • 計算効率を高めるため,GAMDを開発し,標準レート$\widetilde{O}(1/\sqrt{n}+1/T)$で粗い相関均衡に収束する。
    • KL正則化が,マルチプレイヤー一般和ゲームにおける悲観主義を排除したオフライン学習の有効なメカニズムであることを示す。

    Link: https://arxiv.org/abs/2605.00264

  • α-ポテンシャルゲームにおける正則化ミラー降下法による高速収束率 [cs.GT]目的:α-ポテンシャルゲームにおけるナッシュ均衡のオフライン学習
    • ゲーム理論は,経済学,コンピューター科学などに応用され,戦略的意思決定を分析する上で重要である。
    • 一般的な総和ゲームにおけるナッシュ均衡の発見は計算困難であり,効率的な手法が求められている。
    • オフライン学習によって,未知の最適解に頼らず,ナッシュ均衡を高速に学習することを目的とする。
    • 本研究では,データ要件を既知の参照ポリシーに固定する「参照アンカー型データカバレッジ」という新しいフレームワークを提案した。
    • 提案手法であるオフラインポテンシャルミラー降下法(OPMD)は,従来のオフラインマルチエージェント学習の$\widetilde{\mathcal{O}}(1/\sqrt{n})$率を上回る$\widetilde{\mathcal{O}}(1/n)$の統計的収束率を達成する。
    • α-ポテンシャルゲームにおける高速収束率を実現する初のオフライン学習アプローチを特徴づけた。

    Link: https://arxiv.org/abs/2605.00268

  • REALM:RGBとイベントを整列させた潜在多様体によるクロスモーダル知覚 [cs.CV, cs.AI, cs.RO]目的:RGBとイベントデータの潜在空間の整列
    • 多様なセンサーからの情報統合は,ロボットや自律システムの知覚能力向上に不可欠である。
    • イベントカメラ処理は特定のタスクに限定され,汎用性に欠ける点が課題である。
    • RGBモデルの知識を活用し,イベントデータに対する汎用的な処理を可能にすること。
    • REALMはイベント表現をRGBモデルの潜在空間に投影することで,クロスモーダルな学習を実現した。
    • 学習済みのRGBモデルの知識を活用し,イベントデータに対するタスクを効率的に実行できる。
    • WIDE-BASELINE特徴量マッチングにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.00271

  • 拡散モデルはいつ複数のオブジェクトを生成するようになるか [cs.CV, cs.AI]目的:複数オブジェクト生成における拡散モデルの学習メカニズムの解明
    • 画像生成AIの発展に伴い,複雑なシーンの再現が求められている。
    • 拡散モデルは高画質だが,複数オブジェクトの生成は不安定である。
    • データセットの特性と学習における難易度を特定し,改善策を提示する。
    • 拡散モデルの複数オブジェクト生成の失敗は,概念の不均衡よりもシーンの複雑さが主な原因である。
    • 特に,少数データ環境下でのオブジェクトの数え学習が困難であることが示された。
    • 概念の組み合わせを訓練データから除外するほど,合成的な一般化性能は低下する。

    Link: https://arxiv.org/abs/2605.00273

  • 説明可能な自動運転のための,終端から終端までの決定認識型マルチスケール注意機構に基づくモデル [cs.HC, cs.CV, cs.RO]目的:説明可能な人工知能における,自動運転システムの決定過程の説明
    • 自動運転技術は,交通の安全性向上や効率化に不可欠であり,社会実装が期待されている。
    • 深層学習モデルのブラックボックス性により,意思決定根拠が不明確で,システムの信頼性が課題となっている。
    • 本研究は,マルチスケール注意機構と決定情報を活用し,より正確で信頼性の高い説明を実現する。
    • 提案モデルは,従来のモデルや最新モデルと比較して,説明性能において優れていることが示された。
    • F1スコアに加え,新たに提案したJoint F1スコアにより,モデルの正確性と信頼性が定量的に評価された。
    • BDD-OIAデータセットに加え,nu-ARデータセットでの検証により,モデルの汎化性能とロバスト性が確認された。

    Link: https://arxiv.org/abs/2605.00291

  • ビジョンTransformerを用いた効率的な空間・時間的植生ピクセル分類 [cs.CV]目的:空間・時間的植生ピクセル分類における効率化
    • 生態系の動態理解や気候変動への対応において,植物の季節変化の研究は不可欠である。
    • 高解像度モニタリング技術を用いても,時間経過に伴う植物種の特定は計算コストが高いという課題がある。
    • Transformerモデルの最適化により,計算効率を向上させつつ,高精度な植生ピクセル分類を実現する。
    • 提案手法は,既存のCNNベースの手法と比較して,計算量を大幅に削減し,時間経過によるパラメータ増加を抑制する。
    • 実験結果から,本研究で提案するViTアプローチは,計算効率と分類性能の両面で優れていることが示された。
    • ViTは,リソース制約のある季節変化モニタリングシステムへの応用に適した,堅牢でスケーラブルなソリューションである。

    Link: https://arxiv.org/abs/2605.00296

  • コンプライアントロボットグリッパーのためのモデルベース視覚接触局在化および力覚センシングシステム [cs.RO, cs.CV]目的:ロボットグリッパーの視覚による力覚センシング手法
    • ロボットの繊細な物体への損傷を防ぎ,学習ベースの制御を向上させる上で,把持力の推定は重要である。
    • 従来の力覚センシングはコストや複雑さ,機械的堅牢性,性能のトレードオフが存在する。
    • 未知の物体に対する汎化性能を持つ,モデルベースの視覚力覚センシングシステムの開発。
    • 本システムは,RGB-D画像から構造的特徴点を抽出し,反復的な接触局在化により力覚を推定する。
    • 荷重段階における平均二乗誤差は0.23 N,正規化二乗偏差は2.11%であった。
    • 様々な条件下での実験により,ソフトグリッパーの実時間モデルベースの力覚センシングの可能性が示された。

    Link: https://arxiv.org/abs/2605.00307

  • 大規模リモートセンシング画像に対する超解像モデルのベンチマーク:下流タスク統合による評価 [cs.CV, cs.AI, cs.LG]目的:大規模リモートセンシング画像に対する超解像モデルの性能評価
    • 地球観測は,都市計画,農業,生態系,災害対応など,幅広い分野で不可欠である。
    • 既存の超解像評価指標は,知覚的な品質に偏っており,下流タスクにおける有用性を反映していない。
    • 下流タスクの性能向上と超解像モデル開発の連携が求められている。
    • 従来の超解像指標の改善が,必ずしも下流タスクの性能向上に繋がるとは限らないことが示された。
    • 場合によっては,指標の改善とタスク性能の低下が相関する場合も見られた。
    • 超解像モデルの開発と評価に,下流タスクを統合する必要性が明らかになった。

    Link: https://arxiv.org/abs/2605.00310

  • 視覚言語モデルにおける幻覚に対するオンライン自己較正 [cs.CV, cs.LG]目的:視覚言語モデルの幻覚軽減
    • 画像とテキストを理解するモデルは,多様な応用で重要である。
    • 既存モデルは,画像に存在しない情報を記述する幻覚を起こしやすい。
    • 自己教師あり学習で幻覚を抑制し,モデルの信頼性を向上させる。
    • OSCARは,モンテカルロ木探索と二重粒度報酬メカニズムを統合し,幻覚ベンチマークで最先端の性能を達成した。
    • 生成と識別能力のギャップを利用し,信頼性の高い自己教師あり学習を実現する。
    • 一般 multimodal 能力も向上し,より実用的なモデルとなる。

    Link: https://arxiv.org/abs/2605.00323

  • プロンプト誘導によるゼロショットバイナリ視覚言語安全性分類のスコア変動 [cs.CL, cs.CV]目的:ゼロショット視覚言語モデルの安全性分類におけるスコア変動の分析と改善
    • 視覚言語モデルの安全性評価は,社会実装において不可欠であり,その信頼性が重要となる。
    • プロンプトのわずかな変化で安全性評価が変動し,信頼性の低い結果をもたらす可能性がある。
    • プロンプト変動によるスコアのばらつきを抑え,より安定した安全性評価を実現すること。
    • プロンプトの言い換えによって,同じ入力に対する危険度確率が大きく変動することが確認された。
    • プロンプトの平均化により,14のデータセットモデル評価ペア全てでNLLとECEの改善がみられた。
    • プロンプト平均化はラベルなしで信頼性の高いベースラインとなり,ラベル付きキャリブレーションの前段階として有効である。

    Link: https://arxiv.org/abs/2605.00326

  • エネルギー評価と補助的文脈表現蒸留によるワンステップサンプリングを用いた高速テキストから音声生成 [cs.SD, eess.AS]目的:高速なテキストから音声への変換手法
    • 音声合成技術は,人間とコンピュータの自然な対話を可能にする上で重要である。
    • 従来の自己回帰モデルは,多段階サンプリングプロセスにより遅延が大きいという課題があった。
    • エネルギー距離学習と表現蒸留を組み合わせることで,遅延を低減しつつ高音質な合成を目指す。
    • 提案手法は,AudioCapsベンチマークにおいて,既存のワンステップベースラインモデルを客観評価・主観評価ともに上回る性能を示した。
    • 最先端の自己回帰拡散モデル(IMPACT)と比較して,最大8.5倍高速なバッチ推論を実現し,音声品質も遜色ないレベルであった。
    • エネルギー距離学習と表現蒸留の組み合わせが,高速かつ高品質なテキストから音声合成に有効であることが示された。

    Link: https://arxiv.org/abs/2605.00329

  • 姿勢を意識した拡散による3D生成 [cs.CV]目的:3Dオブジェクトの姿勢に適合した生成
    • 3Dコンテンツ制作において,リアルな形状と姿勢の再現は重要な課題である。
    • 従来の生成手法では,空間的なずれや姿勢の曖昧性が課題となっていた。
    • 観察空間で直接3D形状を生成することで,姿勢の曖昧性を解消し,高精度な生成を目指す。
    • PADは,単眼深度画像を部分的な点群に変換し,3D形状のアンカーとして活用する。
    • 従来のcanonical-then-rotateパラダイムに頼らず,空間的な制約を厳格に適用する。
    • 実験の結果,PADは最先端手法と比較して,幾何学的な整合性と画像から3Dへの対応において優れた性能を示した。

    Link: https://arxiv.org/abs/2605.00345

  • CURE-OOD:生存予測における分布外検出のベンチマーク [cs.CV]目的:癌生存予測における分布外検出の評価基準
    • 癌診断後の患者の予後予測は,精神的苦痛の軽減や個別化医療に不可欠である。
    • 画像取得条件の変動により分布外サンプルが発生し,モデルの信頼性を損なう可能性がある。
    • 分布外検出の体系的な評価基準を確立し,分布シフトの影響を分析することを目的とする。
    • CURE-OODは,スキャナーパラメータに基づく学習,ID,OODテスト分割を提供し,分布外検出を評価する。
    • 分布シフトが生存予測性能を低下させ,既存の分類型OOD検出器が生存予測で失敗することが示された。
    • HazardDevを生存予測に特化した基準として提示し,分布シフトが生存予測とOOD検出に与える影響を分析可能とした。

    Link: https://arxiv.org/abs/2605.00350

  • 機械学習の人間理解のためのインタラクティブなマルチモーダル表現に関する研究 [cs.GR, cs.HC, cs.MM]目的:機械学習の理解促進に向けたインタラクティブな可視化手法
    • AI/機械学習は社会実装が進む一方,その仕組みは理解されにくい。
    • 機械学習に対する誤解や不安感が広く存在し,技術の普及を阻害している。
    • インタラクティブな可視化を通じて,機械学習への興味と理解を深めることを目指す。
    • 3種類の機械学習データの可視化プロトタイプを作成し,エンゲージメントの成功要因を検証した。
    • インタラクティブな可視化は,十代の若者や多様な分野の人々の興味を引き,機械学習の世界を探求する動機付けとなることが示唆された。
    • 透明性の高いデータセットを用いることで,未知への恐れに左右されない,より情報に基づいた態度形成を促す効果が期待される。

    Link: https://arxiv.org/abs/2605.00357

  • 後方伝播から前方再生へ:LLMパラメータ編集におけるターゲット構造の再検討 [cs.CL, cs.CV]目的:LLMパラメータ編集におけるターゲット構造の最適化
    • 大規模言語モデルの性能向上は,様々な応用において不可欠である。そのため,モデルの効率的な編集手法が求められている。
    • 既存のパラメータ編集手法は,ターゲット層における隠れ状態を基に後方伝播を行うが,その理論的根拠が十分に検証されていない。
    • 本研究は,後方伝播の限界を明らかにし,より高精度なターゲット構造を実現する前方再生に基づく手法を提案する。
    • 既存の後方伝播によるパラメータ編集手法の基礎を体系的に研究し,その能力限界と潜在的な問題点を明確化した。
    • 後方伝播の代わりに前方伝播を用いる新しい手法を提案し,層ごとのターゲット隠れ状態をより正確に算出できることを示した。
    • 提案手法は計算コストを維持しつつ,既存手法よりも高い精度を実現し,幅広いパラメータ編集手法に適用可能である。

    Link: https://arxiv.org/abs/2605.00358

  • 時系列データと複雑な運動モデリング:マルチオブジェクトトラッキングのためのロバストで計算効率の高い運動予測器 [cs.CV]目的:マルチオブジェクトトラッキングにおける運動予測の精度向上
    • 監視,自動運転,ロボット工学など,現実世界の問題解決において重要である。
    • 従来の運動予測手法は,現実世界の非線形な運動に対応できず,精度が課題となっている。
    • 複雑なモデルに頼らず,効率的な手法で高精度な運動予測を実現することを目指す。
    • 提案手法TCMPは,従来の最先端手法と比較して,HOTAが62.3%から63.4%に,IDF1が63.0%から65.0%に,AssAが47.2%から49.1%に向上した。
    • TCMPは,パラメータ数,計算コストともに最先端手法のわずか数パーセントで同等以上の性能を達成した。
    • この結果は,複雑な追跡環境下での適応性,精度,効率性を確保し,MOTシステムの進歩に貢献することを示唆する。

    Link: https://arxiv.org/abs/2605.00362

  • センチネル2超解像のためのフローマッチング:実装,応用,および示唆 [cs.CV]目的:センチネル2衛星画像の4倍超解像技術の開発
    • 衛星画像は,地球環境のモニタリングや資源管理に不可欠であり,高解像度化は重要性が高い。
    • 従来の超解像技術では,スペクトル忠実度と知覚的品質のトレードオフが課題となっていた。
    • フローマッチングモデルを用いて,このトレードオフを克服し,高精度かつ自然な超解像画像を生成すること。
    • フローマッチングモデルは,単一ステップで拡散モデルやReal-ESRGANよりも高いピクセルレベルの精度を示した。
    • 2次Midpointソルバーを使用した場合,わずか20ステップで知覚的にリアルな超解像画像を生成し,推論時に再学習なしでトレードオフを克服した。
    • 生成された2.5m解像度の土地被覆分類において,全体精度89.11%という高い結果が得られた。

    Link: https://arxiv.org/abs/2605.00367

  • GaMMA:大規模マルチモーダルモデルにおける音楽のグローバル・時間的理解に向けた試み [cs.SD, cs.AI]目的:音楽コンテンツの包括的な理解
    • 音楽理解は,音楽情報検索や音楽生成など,様々な応用分野において重要である。
    • 既存のモデルは,音楽の時間的側面と非時間的側面の理解を統合的に行うことが困難であった。
    • 時間的・非時間的な音楽理解を統一的に実現可能なモデルを開発すること。
    • 提案手法GaMMAは,MuchoMusicで79.1%の正答率を達成し,既存手法を上回る性能を示した。
    • MusicBench-Temporalで79.3%,MusicBench-Globalで81.3%の正答率を達成し,時間的・グローバルな音楽理解能力の向上を実証した。
    • 大規模な音楽ベンチマークMusicBenchを新たに構築し,音楽LMMの評価に貢献した。

    Link: https://arxiv.org/abs/2605.00371

  • RTPrune:DeepSeek-OCR効率的推論のための二度読み込みに着想を得たトークン刈り込み [cs.CV, cs.LG]目的:DeepSeek-OCR推論における効率化
    • OCR技術は,文書のデジタル化に不可欠であり,その効率性は重要である。
    • 既存のトークン刈り込み手法では,テキストの意味を損ねる可能性があり,OCR特有の構造を考慮していない。
    • DeepSeek-OCRの解読プロセスに着目し,冗長な情報を削減することで,推論速度の向上を目指す。
    • RTPruneは,DeepSeek-OCRの二段階読み込み特性を活用し,高ノルムトークンを優先的に保持する。
    • 残りのトークンは,最適輸送理論に基づいてペアリングおよびマージすることで,効率的な特徴集約を実現する。
    • OmniDocBenchにおいて,99.47%の精度と1.23倍の高速化を,84.25%のトークン保持率で達成した。

    Link: https://arxiv.org/abs/2605.00392

  • SIMON:顕著性に基づいた統合的な多視点オブジェクト中心ニューラルデコーディング [cs.CE, cs.IR, cs.CL, cs.CV, q-bio.NC]目的:脳波からの画像検索における性能向上
    • 脳活動と視覚情報の関係解明は,認知科学やブレイン・マシン・インターフェースの発展に不可欠である。
    • 既存手法は中心視点に偏りがあり,人間の注意メカニズムとの乖離が生じ,精度向上の課題があった。
    • 人間の注意メカニズムを模倣し,重要な領域に焦点を当てた多視点解析により,検索精度を高める。
    • SIMONは,脳波と画像間の対応関係をより正確に捉え,最先端の性能を達成した。
    • THINGS-EEGデータセットにおいて,平均Top-1精度はそれぞれ69.7%および19.6%に達し,既存手法を上回った。
    • サンプリング粒度,脳波チャネル構成,エンコーダの選択など,様々な条件下でSIMONの頑健性が確認された。

    Link: https://arxiv.org/abs/2605.00401

  • BOLT:事前準備不要な異種協調知覚のためのオンライン軽量適応 [eess.SY, cs.SY, cs.CV]目的:異種協調知覚における,事前準備を必要としないオンライン軽量適応手法
    • 自動運転やロボティクスにおいて,周囲の状況をより正確に把握するための重要な技術である。
    • 既存手法は,事前学習やモデルの調整が必要であり,実際の運用環境での柔軟性に欠ける。
    • 異なる開発者が作成したエージェントがオンラインで協調するための,事前準備不要な手法を確立する。
    • 提案手法BOLTは,自己教師あり蒸留により近傍の特徴量をオンラインで適応させることで,異種エージェント間の協調を可能にする。
    • BOLTは,わずか0.9Mの学習可能なパラメータで,事前準備不要な環境下において,単純な特徴量融合よりもAP@50を最大32.3ポイント向上させる。
    • DAIR-V2XとOPV2Vのデータセットにおいて,様々なエンコーダペアと融合戦略に対して一貫して自己認識のみの結果を上回る性能を示す。

    Link: https://arxiv.org/abs/2605.00405

  • ヒューリスティクスを超えて:3Dガウススプラッティングのための学習可能な密度制御 [cs.CV]目的:3Dガウススプラッティングにおける密度制御の学習
    • 3Dシーンのリアルタイムレンダリング技術として3Dガウススプラッティングが注目されている。
    • 従来の密度制御はヒューリスティクスに依存しており,複雑な形状のシーンへの適応が困難であった。
    • 学習可能なポリシーを用いて,多様なシーンに対応可能な密度制御を実現することを目指す。
    • 提案手法LeGSは,強化学習を用いて密度制御を最適化するフレームワークである。
    • 感度分析に基づいた報酬関数を用いることで,ガウスごとの再構成品質への貢献度を定量化する。
    • Mip-NeRF 360等のデータセットにおいて,既存手法を上回る再構成品質と効率性を実現した。

    Link: https://arxiv.org/abs/2605.00408

  • 入札における小規模福利最大化のための予算制約付きメカニズム [cs.GT]目的:入札における小規模福利の最大化
    • AI駆動型マーケットプレイスにおいて,データ取得やクラウドソーシング等の調達が重要性を増している。
    • 既存の予算制約付きメカニズムは,社会厚生最大化を目的とせず,実用性に課題があった。
    • 予算制約を維持しつつ,社会厚生を最大化するメカニズムを開発し,理論的な近似保証を提供する。
    • 本研究で提案するBFM-SWMは,入札における小規模福利最大化のための初の予算制約付きメカニズムである。
    • BFM-VMは,一般的な小規模関数に対して決定論的近似率1/(12+4√3)を達成し,既存の最良値1/64を大幅に改善した。
    • 実験結果は,提案するメカニズムの効率性と有効性を示している。

    Link: https://arxiv.org/abs/2605.00411

  • P2M++:点とメッシュ距離クエリに対する高度なソルバー [cs.CE, cs.GR]目的:点とメッシュ距離クエリの高速化
    • コンピュータグラフィックスや幾何モデリングの基礎技術であり,様々な応用が存在する。
    • 既存手法は,事前計算コストが高く,特に回転対称形状に対して効率が悪化する。
    • 事前計算コストの削減と,回転対称形状におけるクエリ性能の向上を目指す。
    • P2M++は,Voronoi図の局所化に補助サイトを適応的に追加することで,複雑な干渉を効率的に検出する。
    • 干渉検出を,BVHを用いて高速に解決できる球と三角形の衝突判定に置き換えることで処理を改善する。
    • kd-tree検索をより高速な動的計画法の実装に置き換えることで,実行時のパフォーマンスを向上させる。

    Link: https://arxiv.org/abs/2605.00429

  • MMAudioReverbs: ビデオ誘導音響モデリングによる脱残響とインパルス応答推定 [cs.SD, cs.CV, cs.LG, eess.AS]目的:脱残響処理と部屋インパルス応答推定
    • 音響環境は,音声認識やコミュニケーションに大きな影響を与えるため,その理解と制御が重要である。
    • 既存のビデオ-音声モデルは残響などの音響効果を明示的にモデル化せず,制御性に乏しいという課題がある。
    • ビデオ-音声モデルが持つ空間音声と視覚情報の関係に関する知識を活用し,音響処理に応用する。
    • MMAudioReverbsは,ネットワーク構造を変更することなく,脱残響と部屋インパルス応答推定を統合的に扱うフレームワークである。
    • 実験結果から,音声と視覚のどちらが有効かは,部屋の音響特性の種類によって異なることが示唆された。
    • 事前学習済みのビデオ-音声モデルは,物理に基づいた音響分析に利用できる可能性が示された。

    Link: https://arxiv.org/abs/2605.00431

  • LIMSSR:学習時不完全なマルチモーダル観測下におけるLLM駆動のシーケンス-スコア推論 [cs.CV]目的:学習時における不完全なマルチモーダル観測下でのシーケンス-スコア推論手法
    • 現実世界のマルチモーダル学習において,モダリティ欠損は頻繁に発生する。
    • 既存手法は,完全なモダリティデータが存在するという非現実的な前提に依存している。
    • 学習時に不完全な観測下でも推論可能な,効率的なマルチモーダル学習手法を確立する。
    • LIMSSRは,LLMのセマンティック推論能力を活用し,直接的な再構成なしに潜在的なセマンティクスを推論する。
    • マスク認識二重経路集約により,推論の不確実性を動的に調整し,幻覚を軽減する。
    • 3つのアクション品質評価データセットにおいて,既存最先端手法を凌駕する性能を示した。

    Link: https://arxiv.org/abs/2605.00434

  • 適応的均衡:汎用ディープフェイクモデルの中断のための動的重み付けフレームワーク [cs.LG, cs.CV]目的:汎用ディープフェイクモデル中断における中断の不均衡を解消すること
    • ディープフェイク技術の発展は目覚ましいが,その悪用を防ぐ技術が急務となっている。
    • 既存手法では,モデル間の脆弱性の差により,一部のモデルに偏った中断しかできない。
    • モデルの抵抗性の差を考慮し,均一な中断性能を実現することを目指す。
    • 本研究で提案する適応的均衡フレームワーク(AEF)は,リアルタイムの損失フィードバックを用いて中断の重みを動的に調整する。
    • これにより,最適化は平均的なケースから,動的なバランスを見つけることへとシフトする。
    • 実験結果から,AEFが多様なアーキテクチャに対して,より均一で安定した中断成功率を達成することが示された。

    Link: https://arxiv.org/abs/2605.00443

  • コンパクトな潜在的マルチエージェント協調による動画理解のスケーリング [cs.CV]目的:動画理解のスケーラビリティ向上
    • 動画理解は,AIの重要な応用分野であり,様々なタスクへの応用が期待されている。
    • 既存のマルチモーダル大規模言語モデルは,長い動画における文脈の制約により,性能が制限される。
    • 潜在的なエージェント間コミュニケーションを通じて,動画の複雑さに関わらずスケーラブルな理解を目指す。
    • 提案手法MACFは,エージェントごとの認識予算をグローバルな動画複雑度から分離し,スケーラビリティと視覚的忠実性を両立する。
    • MACFは,動画をセグメントに分割し,共有埋め込み空間でコンパクトなトークンを生成することで,効率的かつ情報保持的な協調を可能にする。
    • 多様な動画理解ベンチマークにおいて,既存モデルを上回り,潜在的協調によるスケーラビリティの有効性を示す。

    Link: https://arxiv.org/abs/2605.00444