arXiv雑要約

AI - 2026/03/05 公開

  • 線形RNNが並列化しやすいのはなぜか [cs.LG, cs.CC, cs.CL, cs.FL]目的:RNNの種類と計算複雑性クラスの関連性
    • 自然言語処理において,RNNは重要なモデルであり,その性能向上が求められている。
    • Transformerに比べてRNNの並列化が難しいことが課題となっていた。
    • 線形RNNの並列化の容易さの理論的根拠を明らかにすること。
    • 線形RNNは,Transformerと同程度の深さの算術回路として表現できることが示された。
    • 非線形RNNは,並列化が困難な問題(L-完全問題)を解けることが明らかになった。
    • 線形RNNの変種間の表現力の違いと計算複雑性クラスとの関連性が示された。

    Link: https://arxiv.org/abs/2603.03612

  • ニューラル演算子の拡張:訓練データ外の関数に対するロバストな対応 [cs.LG, cs.CV, cs.NA, math.NA, math.OC, stat.ML]目的:訓練データ外の入力関数に対するニューラル演算子の拡張
    • 機械学習モデルの汎化性能向上は重要であり,未知のデータへの対応能力が求められる。
    • ニューラル演算子は訓練データ分布外の関数に対して性能が低下する問題がある。
    • 訓練データ分布外の関数に対しても信頼性の高い予測を行うための手法を確立すること。
    • カーネル近似技術を活用し,関数空間をRKHSで特徴づける厳密なフレームワークを開発した。
    • 適切なカーネル選択の条件と,予測精度の理論的保証を確立した。
    • 多様な幾何学的構造を持つ多様体上の偏微分方程式の求解を通して,手法の有効性を実験的に検証した。

    Link: https://arxiv.org/abs/2603.03621

  • LLMを活用したシステムの目標駆動型リスク評価:医療分野における事例研究 [cs.RO, cs.IR, cs.MA, eess.SY, cs.SY, math.OC, cs.CR, cs.AI]目的:LLMを活用したシステムのセキュリティリスク評価手法
    • 医療分野をはじめとする重要領域でLLM活用が進む中,セキュリティ確保は不可欠である。
    • 従来の脅威モデリングは抽象的でリスク評価に限界があり,LLM特有の攻撃に対応しにくい。
    • アタツキツリーを用いて詳細な攻撃経路を特定し,リスク評価の精度向上を目指す。
    • 提案手法を医療システムに適用し,LLMと従来の攻撃を組み合わせた具体的な攻撃経路を提示した。
    • リスク評価の構造化により,LLMベースシステムの安全設計に貢献できることを示した。
    • LLMに対する最新の攻撃手法と従来の攻撃手法を統合し,類似システムへの応用可能性を示唆した。

    Link: https://arxiv.org/abs/2603.03633

  • 画像に基づくプロンプトインジェクション:視覚的に埋め込まれた敵対的指示によるマルチモーダルLLMの乗っ取り [cs.CV, cs.AI, cs.CR]目的:画像に基づくプロンプトインジェクションの脆弱性
    • マルチモーダルLLMは応用範囲が広く,その安全性が重要である。
    • 視覚とテキストの統合により,新たな脆弱性が生じる可能性がある。
    • 敵対的指示を画像に埋め込み,モデルの挙動を制御する攻撃に対抗する。
    • 画像に敵対的指示を埋め込むことで,モデルの出力を確実に操作できることが示された。
    • 最も効果的な設定では,ステルス性を維持しながら最大64%の攻撃成功率を達成した。
    • 本研究は,ブラックボックス環境におけるマルチモーダルプロンプトインジェクションの現実的な脅威を強調する。

    Link: https://arxiv.org/abs/2603.03637

  • 教育ゲームデザインにおける人間とAIの協働のための言語マッピングインターフェース:教授法と遊びの架け橋 [cs.NI, cs.RO, cs.HC, cs.AI]目的:教育ゲームデザインにおける人間とAIの協働のための言語マッピングインターフェース
    • 教育ゲームは思考力や問題解決能力を育むが,効果的な学習成果を得るゲーム設計は困難。
    • 既存のツールはプログラミング不要だが,教育ゲーム設計の本質的な課題を解決できず,AIへの依存度が高い。
    • 教授法とゲームプレイの明確な関連付けを通じて,設計障壁を下げ,人間の意思決定を尊重すること。
    • 本研究で開発したツールは,自然言語を主要なインターフェースとし,言語を通じて教授法とゲームプレイをマッピングする。
    • このインターフェースにより,設計者は教授法の意図を明示的に編集でき,AIの提案に頼るだけでなく,自身の判断を反映できる。
    • 結果として,教育ゲームの設計における人間の主体性を保ちつつ,教授法とゲームプレイの整合性を高めることが期待される。

    Link: https://arxiv.org/abs/2603.03644

  • 機械学習のための連続物理システムの適応的センシング [cs.LG, physics.comp-ph]目的:連続物理システムからの情報抽出方法
    • 物理システムは情報処理の基盤であり,その活用が重要である。
    • 既存手法では,最適な情報抽出場所や方法が不明確である。
    • 予測性能を最大化するセンシング戦略を学習すること。
    • 適応的な空間センシングが,カオス的ベンチマークにおける予測精度を大幅に向上させた。
    • 注意機構を用いたリザバーコンピューティングは,物理システムからの情報抽出というより広範なパラダイムの一例である。
    • 本研究は,ニューラルネットワークを物理システムの測定装置として捉える視点を提供する。

    Link: https://arxiv.org/abs/2603.03650

  • 選択的経験とDDQNアルゴリズムを用いた歩行凍結予測 [cs.LG]目的:歩行凍結の予測
    • パーキンソン病患者の歩行凍結は転倒や移動能力低下の原因となり,QOLを著しく損なう。
    • 歩行凍結の予測は難しいとされており,十分な予測時間を得ることが課題である。
    • 歩行凍結発生前の最適な予測時点を特定し,予測時間を延長することで,介入を可能にする。
    • 本研究では,Prioritized Experience Replayを用いたDouble Deep Q-Networkモデルを開発した。
    • モデルは,被験者依存・非依存の評価において堅牢な性能を示し,最大8.72秒前の予測を達成した。
    • 本モデルは,ウェアラブルな支援機器への統合により,パーキンソン病患者の歩行凍結を軽減する可能性を示す。

    Link: https://arxiv.org/abs/2603.03651

  • 骨材の形態的特徴づけのためのフィールドイメージングフレームワーク:アルゴリズムと応用 [cs.CL, cs.CV, cs.AI, eess.IV]目的:骨材の形態的特徴づけのためのフィールドイメージングフレームワークの開発
    • 建設業界において,砂利や砕石などの骨材は重要な構成要素であり,その品質管理が不可欠である。
    • 従来の骨材評価は目視検査や手動測定に依存しており,効率や客観性に課題があった。
    • 本研究は,多様な環境下で骨材の形態を正確に評価できるフレームワークを構築し,その課題を解決する。
    • 個別かつ重ならない骨材に対して,フィールドイメージングシステムとセグメンテーション,体積推定アルゴリズムを開発した。
    • 骨材の堆積物の2次元画像解析には,自動化された2次元インスタンスセグメンテーションと形態解析手法を確立した。
    • 堆積物の3次元点群解析には,3D再構成・セグメンテーション・補完(RSC-3D)アプローチを統合し,見えない側面を予測する性能を実証した。

    Link: https://arxiv.org/abs/2603.03654

  • Mozi:医薬品探索LLMエージェントのための統制された自律性 [cs.AI]目的:医薬品探索におけるLLMエージェントの自律性と統制性の両立
    • 医薬品開発は複雑かつ時間とコストがかかるため,AIによる効率化が期待される。
    • 既存のLLMエージェントは,ツール利用の制御不足や長期的な信頼性の低さが課題である。
    • 再現性のある医薬品探索パイプラインを構築し,AIの信頼性を高めることを目指す。
    • Moziは,柔軟なAI推論と厳密な計算生物学を組み合わせる二層アーキテクチャを提供する。
    • PharmaBenchベンチマークにおいて,既存のベースラインよりも優れたオーケストレーション精度を示した。
    • エンドツーエンドのケーススタディでは,大規模な化学空間の探索と毒性フィルタリングが可能であることが示された。

    Link: https://arxiv.org/abs/2603.03655

  • InEdit-Bench:知的な画像編集モデルの中間論理経路のベンチマーク [cs.CV, cs.AI]目的:画像編集における中間論理経路の推論能力の評価
    • 画像編集技術は進歩しているが,複雑な動的推論が必要な場合に課題が残る。
    • 既存モデルは,一連の状態遷移を論理的に捉える能力が不足している。
    • 中間経路の推論能力を評価し,より高度な画像編集モデルの開発を促進する。
    • InEdit-Benchは,状態遷移,動的過程,時間的順序,科学的シミュレーションの4つのカテゴリを網羅する。
    • 14の画像編集モデルを評価した結果,中間経路の推論能力に広く課題があることが示された。
    • 本ベンチマークが,動的かつ論理的な画像編集モデル開発の促進に貢献することが期待される。

    Link: https://arxiv.org/abs/2603.03657

  • 適応的な異種性モデリングのためのグラフ負帰還バイアス補正フレームワーク [cs.LG, cs.AI]目的:異種性グラフにおけるGNNの性能低下問題の解決
    • グラフ構造データ処理において,GNNは強力な手法である。しかし,性能を左右する重要な課題が存在する。
    • 従来のGNNは同質性仮定に依存し,異種性グラフでは性能が低下する。この問題の根本的な解決が求められる。
    • ラベルの自己相関によるバイアスを補正し,GNNの汎化性能向上を目指す。
    • 本研究では,負帰還メカニズムを活用することで,GNNにおけるバイアスを補正する新しいフレームワークGNFBCを提案した。
    • GNFBCは,予測がラベルの自己相関に敏感になることを抑制する損失関数を導入し,グラフ非依存モデルの出力を活用する。
    • GNFBCは既存のGNNアーキテクチャに容易に組み込むことができ,計算コストの増加は軽微である。

    Link: https://arxiv.org/abs/2603.03662

  • 準古典的情報構造を持つコミュニケーション学習の原理的アプローチ [eess.SY, cs.LG, cs.MA, cs.SY, math.OC]目的:部分観測環境下におけるコミュニケーション学習の形式化と理解
    • 強化学習における多エージェント間の協調行動において,コミュニケーションは重要な役割を果たす。
    • 分散制御において,情報構造が意思決定に与える影響の理解が不十分である。
    • 情報構造の枠組みを通してコミュニケーション学習を形式化し,計算可能性を解析する。
    • 非古典的なコミュニケーション学習は一般的に計算困難であることが示された。
    • 準古典的なコミュニケーション学習において,情報共有が情報構造を維持するための条件が提案された。
    • 提案手法により,準古典的情報構造を持ついくつかの例において,計算量とサンプル複雑性が理論的に保証された。

    Link: https://arxiv.org/abs/2603.03664

  • 機械的パレイドリア:感情編集による顔画像保護 [cs.CV, cs.LG]目的:顔画像に対するプライバシー保護手法
    • 顔認識技術の普及に伴い,プライバシー侵害のリスクが高まっているため,保護技術が重要である。
    • 既存の対策は,汎用性に乏しく,特定の人種や性別に対して効果が限定的であることが課題である。
    • 感情編集を用いて顔画像を改変し,顔認識システムの誤認識を誘発することで,プライバシーを保護する。
    • 提案手法MAPは,従来のノイズ,メイクアップ,属性操作などの手法と比較して,画像品質とプライバシー保護性能で優れている。
    • MAPは,オンラインの顔認識APIに対する有効性と,特殊な撮影状況下での適応性を示すことが確認された。
    • ターゲットIDと感情表現の二つの目的を同時に最適化するスコアネットワークの微調整が,MAPの鍵となる。

    Link: https://arxiv.org/abs/2603.03665

  • ローカルシャプレイ値:モデル誘導型局所性とデータ評価における最適な再利用 [cs.LG, cs.AI, cs.DB, cs.GT]目的:データ価値評価のためのシャプレイ値計算の効率化
    • データは機械学習モデルの性能を決定する重要な要素であり,その価値を定量的に評価することは不可欠である。
    • 従来のシャプレイ値の計算は計算量が指数関数的に増加するため,大規模データセットへの適用が困難である。
    • モデルの構造に着目し,影響を与える学習データの範囲を局所化することで,計算コストを削減する。
    • モデルの計算経路から定義されるサポートセットを利用することで,シャプレイ値の計算を効率的に行うLocal Shapleyを提案した。
    • LSMR(Local Shapley via Model Reuse)は,サポートマッピングとピボットスケジューリングにより,各影響力のあるサブセットを一度だけ学習し,再学習回数を削減する。
    • 大規模なサポートセットに対しては,LSMR-Aという再利用を意識したモンテカルロ推定器を開発し,高い評価精度を維持しながら高速化を実現した。

    Link: https://arxiv.org/abs/2603.03672

  • q-ガウス分布におけるSteinの恒等式:有界サポートの場合 [cs.LG, stat.ML]目的:q-ガウス分布に対する新たなSteinの恒等式の導出
    • 機械学習において,期待値の勾配を扱う際にSteinの恒等式が重要な役割を果たす。
    • 非ガウス分布における期待値の勾配推定は,ガウス分布の場合と比較して困難である。
    • 有界サポートを持つq-ガウス分布に対して,ガウス分布と同様に扱いやすい勾配推定器を開発すること。
    • 有界サポートq-ガウス分布に対するSteinの恒等式を導出し,ガウス分布と同様の勾配推定器を実装できることを示した。
    • Bonnet-Price型定理を拡張し,q-ガウス分布の簡略化された表現を得るために,エスコート分布を用いた。
    • 実験の結果,有界サポート分布は勾配推定器の分散を低減し,ベイズ深層学習やSharpness-Aware Minimizationに役立つ可能性があることが示された。

    Link: https://arxiv.org/abs/2603.03673

  • 精神科外来における基準に基づいた臨床支援による統一的問診・診断強化学習フレームワークMIND [cs.HC, cs.CL, cs.AI]目的:精神科外来における問診と診断の最適化
    • 精神疾患は主観的曖昧さや合併症の複雑さから診断が困難であり,高度な医療水準が求められる。
    • 既存手法では,症状が非典型または不明確な場合に根拠のない臨床的断定を下すリスクがある。
    • 対話の焦点がずれることや,効果的な質問戦略の最適化が課題であり,それを解決する。
    • MINDは,基準に基づいた臨床支援を用いて問診と診断を統合的に行う強化学習フレームワークである。
    • 基準に基づいた精神病理学的推論バンク(PRB)を構築し,臨床情報を活用して適切な質問と推論を支援する。
    • 診断精度,共感的対話の質,解釈可能性,汎化性能において,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.03677

  • 戦略的探索と利用に向けた言語エージェントのためのメタ強化学習:MAGE [cs.AI]目的:言語エージェントの戦略的探索と利用能力の向上
    • 大規模言語モデルの応用範囲拡大のため,環境変化への適応能力向上が重要である。
    • 既存手法では,長期的な改善に不可欠な適応能力の内部化が困難である。
    • マルチエージェント環境における戦略的利用を考慮した学習フレームワークの構築
    • MAGEは,過去の経験に基づいた戦略の洗練を促す報酬メカニズムを採用している。
    • 集団ベースの学習とエージェント固有の利点正規化により,多様性と安定性を実現している。
    • 実験により,探索と利用の両タスクで既存手法を上回り,未知の対戦相手への汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.03680

  • EvoPrune:効率的なMLLMのための早期段階の視覚トークンプルーニング [cs.CV, cs.AI]目的:視覚トークンプルーニングによる,マルチモーダル大規模言語モデルの効率化
    • 近年,画像とテキストを扱うMLLMの性能は向上しているが,計算コストが課題となっている。
    • 既存のプルーニング手法はエンコーディング後に適用されるため,エンコーディング段階のコストを無視している。
    • エンコーディング段階でトークンをプルーニングすることで,計算コストを削減し,効率的な推論を実現する。
    • EvoPruneは,トークンの類似性,多様性,アテンションに基づき,重要なトークンを選択的に保持する。
    • VideoMMEデータセットにおいて,EvoPruneは推論速度を2倍に向上させ,性能劣化は1%未満に抑えられた。
    • 本手法は,遅延が重要なMLLMのデプロイメントに貢献する可能性がある。

    Link: https://arxiv.org/abs/2603.03681

  • CONCUR:並行コード生成のためのLLMベンチマーク [cs.SE, cs.CL, cs.LG]目的:並行コード生成におけるLLMの能力評価
    • ソフトウェア開発においてLLM活用が広がる中で,その性能評価が不可欠である。
    • 既存のベンチマークは逐次コードに偏っており,並行コード生成能力の評価には不十分である。
    • 並行コード特有のバグ(デッドロック,競合状態等)を評価できるベンチマークの提供。
    • 新たにCONCURベンチマークを設計し,並行プログラミングの課題43題と,検証済みミュータント72題を含む115題で構成した。
    • 複数のLLMを用いてCONCURでの評価を実施し,現状のモデルの限界を明らかにした。
    • 本研究は,LLMによる並行コード生成能力評価の新たな方向性を示すものである。

    Link: https://arxiv.org/abs/2603.03683

  • AI4S-SDS:疎なモンテカルロ木探索と微分可能な物理整合によるニューロシンボリック溶媒設計システム [cs.AI]目的:化学組成の探索と連続的な幾何学的制約を考慮した溶媒設計
    • 材料科学において,最適な化学組成の自動設計は重要な課題である。新材料開発の加速に不可欠である。
    • 既存のLLMエージェントは,コンテキストウィンドウの制限や,経路依存的な探索によるモード崩壊の問題を抱えている。
    • AI4S-SDSは,探索の多様性を向上させ,物理的制約を満たす有効な溶媒設計を実現することを目指す。
    • AI4S-SDSは,採用されたHSPに基づく物理的制約下で完全な有効性を達成した。
    • ベースラインエージェントと比較して,探索の多様性を大幅に向上させた。
    • 予備的なリソグラフィー実験では,市販のベンチマークと同等またはそれ以上の性能を示す新規フォトレジスト現像液を特定した。

    Link: https://arxiv.org/abs/2603.03686

  • 誤差を信号として:強性に対応した拡散サンプリングのための埋め込みルンゲクッタガイダンス [cs.HC, cs.CV, cs.AI]目的:拡散モデルにおける強性に対応したサンプリングの安定化
    • 拡散モデルは高品質な画像生成を実現するが,計算コストが高いという課題がある。
    • 強性領域では,数値解法の誤差が大きくなり,生成品質の低下を招く。
    • 数値解法による誤差をガイダンス信号として活用し,サンプリングを改善する。
    • 提案手法ERK-Guidは,強性に対応することで局所切断誤差を低減し,サンプリングを安定化させる。
    • 理論的・実験的分析により,誤差と主固有ベクトルの関係性が明らかになった。
    • 合成データセットおよびImageNetでの実験により,ERK-Guidが最先端手法を上回ることが示された。

    Link: https://arxiv.org/abs/2603.03692

  • 都市における人とロボットの協調フレームワーク:異種都市サービスの共同最適化 [cs.RO, cs.RO, cs.AI, cs.HC, cs.SI]目的:異種都市サービスの共同最適化
    • スマートシティ実現には,都市サービスの効率化が不可欠である。
    • 既存研究では,各サービスを個別に最適化する傾向があり,相互作用が考慮されていない。
    • 人とロボットの協調による,都市サービスの効率向上と資源利用の最適化を目指す。
    • UrbanHuRoは,人とロボットの協調による異種都市サービスの共同最適化フレームワークである。
    • MapReduceベースのK-submodular最大化モジュールにより,効率的な注文配分を実現している。
    • 深層サブモジュール報酬強化学習アルゴリズムにより,センシングルートの計画を最適化し,センシングカバレッジを29.7%,配達員の収入を39.2%向上させている。

    Link: https://arxiv.org/abs/2603.03701

  • 大規模言語モデルによる状態推定を用いた部分観測下タスク・モーションプランニング [cs.RO, cs.AI]目的:部分観測環境下におけるタスク・モーションプランニングのための状態推定手法
    • ロボットが不確実な状況下で行動するためには,環境の理解と推論が不可欠である。現実世界では,完全な情報が得られない場合が多い。
    • 従来のプランニング手法では,タスクに関係のない物体が観測された場合に,効率的な計画が困難となる場合がある。
    • 大規模言語モデルの常識推論能力を用いて,タスクに関連する物体の状態推定を改善し,プランニングの効率化を目指す。
    • 提案手法CoCo-TAMPは,大規模言語モデルを活用した階層的な状態推定により,タスクに関連する物体の信念を形成し,長期間のタスク・モーションプランニングを効率的に解決する。
    • シミュレーション実験の結果,CoCo-TAMPは,常識知識を組み込まないベースラインと比較して,プランニングおよび実行時間を平均で62.7%削減した。
    • 実環境でのデモンストレーションにおいても,CoCo-TAMPはベースラインと比較して,平均で72.6%の実行時間短縮を達成した。

    Link: https://arxiv.org/abs/2603.03704

  • MPFlow:ゼロショットMRI再構成のための事後分布誘導フローマッチング [cs.DB, cs.CV, cs.AI]目的:ゼロショットMRI再構成の精度向上
    • MRIは臨床診断に不可欠だが,スキャン時間の短縮や被ばく線量の低減が課題である。
    • 既存のゼロショット再構成は,単一モダリティの事前分布に依存し,重度の不適切性下で幻覚が発生しやすい。
    • 追加のMRIモダリティを活用し,解剖学的忠実性を向上させることで,信頼性の高い再構成を目指す。
    • MPFlowは,事前分布を再学習することなく,補助的なMRIモダリティを推論時に組み込むことで,解剖学的精度を改善する。
    • 自己教師あり学習戦略PAMRIにより,モダリティ間で共有される表現を学習し,クロスモーダルガイダンスを実現する。
    • HCPとBraTSの実験により,MPFlowは拡散モデルと同等の画質を,サンプリングステップの20%で達成し,腫瘍の幻覚を15%以上削減することを示した。

    Link: https://arxiv.org/abs/2603.03710

  • 順序はレイアウトではない:画像生成における順序から空間へのバイアス [cs.CL, cs.AI, cs.CV, cs.MM]目的:画像生成モデルにおける順序から空間へのバイアス
    • 画像生成技術は,創造的な表現や現実世界のシミュレーションにおいて重要な役割を担う。
    • テキストの記述順序が画像のレイアウトに影響を与え,意図しない結果を生む問題がある。
    • テキスト記述の順序に依存しない,より正確な画像生成手法を確立すること。
    • 画像生成モデルにおいて,エンティティの記述順序が空間配置や役割の結びつきに影響を与える「順序から空間へのバイアス」が広く存在することが示された。
    • OTS-Benchを用いて,エンティティの順序のみを変えたペアのプロンプトによる評価を行い,モデルの均質性と正確性を測定した。
    • ターゲティングされたファインチューニングや初期段階への介入により,OTSを大幅に軽減しつつ,生成品質を維持できることが明らかになった。

    Link: https://arxiv.org/abs/2603.03714

  • 学習困難な例が機能する理由:相互情報量の新たな視点 [eess.SY, cs.RO, cs.SY, cs.LG, cs.AI]目的:学習困難な例の機能メカニズムの解明
    • 深層学習の成功はインターネット上のデータ量に依存するが,データプライバシー保護が重要課題となっている。
    • 既存の手法は経験則に頼る傾向があり,学習困難な例を理論的に改善することが困難である。
    • 相互情報量に着目し,学習困難な例の生成メカニズムを解明し,より効果的な手法を提案すること。
    • 効果的な学習困難な例は,クリーン特徴量と汚染特徴量間の相互情報量を常に減少させることを示した。
    • ネットワークが深くなるにつれて,学習困難性と低い相互情報量の関係がより明確になることを示した。
    • 提案手法MI-UEは,既存手法と比較して高い性能を示し,防御機構下でも効果を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.03725

  • LLM生成の質問による探求から見る,子供のGenAIチャットボット利用における親の意向 [cs.HC, cs.AI]目的:子供のGenAIチャットボット利用における親の意向
    • GenAI技術の急速な普及に伴い,子供への影響が懸念されている。
    • 既存のペアレンタルコントロールは,親の多様な懸念に対応できていない。
    • 親が求めるGenAI利用の管理方法を明確化し,より適切なツール設計を目指す。
    • 親は,現在のペアレンタルコントロールではカバーされていない相互作用に懸念を抱いている。
    • 会話レベルでの詳細な透明性と調整を求めており,状況に応じた管理を希望している。
    • 親の戦略や子供の年齢に適応した,個別化されたコントロールが必要である。

    Link: https://arxiv.org/abs/2603.03727

  • PROSPECT:意味・空間融合と潜在的予測表現による統一ストリーミング視覚言語ナビゲーション [cs.DC, cs.RO, cs.RO, cs.DC, cs.DC, cs.CV, cs.AI]目的:視覚言語ナビゲーションにおける統一ストリーミングエージェントの開発
    • ロボットナビゲーションは,人間の生活空間での活動を支援する上で重要である。
    • 既存のVLNモデルは,環境の変化や長距離ナビゲーションにおいて頑健性に課題がある。
    • 環境の動的変化と空間構造の予測モデリングを組み込むことで,ナビゲーション性能の向上を目指す。
    • PROSPECTは,ストリーミングVLAポリシーと潜在的予測表現学習を組み合わせることで,最先端の性能を達成した。
    • CUT3RとSigLIPの特徴量を融合し,空間情報と意味情報を効果的に活用する。
    • 潜在空間での教師あり学習により,推論時のオーバーヘッドを抑えつつ,内部表現を改善する。

    Link: https://arxiv.org/abs/2603.03739

  • HALyPO:人間とロボットの協働のための異質エージェントLyapunov方策最適化 [cs.RO, cs.RO, cs.AI]目的:人間とロボットの協働における汎化性能とロバスト性の向上
    • 人間とロボットの協働は,産業や日常生活において重要性が増している。
    • ロボットと人間の合理性のギャップが,学習の不安定性や発散を引き起こす。
    • 方策パラメータ空間におけるLyapunov減少条件により,分散型学習の安定化を目指す。
    • 提案手法HALyPOは,分散型方策学習を安定化させるために,Lyapunov認証を利用する。
    • 最適な二次射影により,ロボットと人間の合理性のギャップを単調に縮小させる。
    • シミュレーションと実機実験により,HALyPOが協働における汎化性能とロバスト性を向上させることが示された。

    Link: https://arxiv.org/abs/2603.03741

  • RAGNav:マルチゴール視覚言語ナビゲーションのための検索拡張トポロジカル推論フレームワーク [cs.AI, cs.RO]目的:マルチゴール視覚言語ナビゲーションにおける経路探索能力の向上
    • 視覚言語ナビゲーションは,現実世界でのロボットの自律移動に不可欠な技術であり,その応用範囲は広い。
    • 従来のRAGは,マルチオブジェクト間の空間的関係のモデリングが不十分で,空間幻覚や計画のずれが生じやすい。
    • RAGNavは,トポロジカル構造とセマンティック情報を統合し,マルチゴールナビゲーションにおける空間的推論を強化する。
    • RAGNavは,低レベルのトポロジカルマップと高レベルのセマンティックフォレストを組み合わせたDual-Basis Memoryシステムを導入した。
    • アンカー誘導型条件付き検索とトポロジカル隣接スコア伝播メカニズムにより,候補ターゲットの迅速なスクリーニングとセマンティックノイズの除去を実現した。
    • 実験結果から,RAGNavは複雑なマルチゴールナビゲーションタスクにおいて最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.03745

  • JANUS:制約と分析的不確実性を保証する構造化双方向生成 [cs.LG, cs.AI]目的:高リスクな合成データ生成における,忠実度,制約制御,信頼性のある不確実性推定,計算効率の同時達成
    • 機密データ保護とデータ分析の発展のため,現実的な合成データ生成の重要性が高まっている。
    • 既存手法は,忠実度と制約制御のトレードオフに陥り,効率的な制約充足が課題である。
    • ベイズ決定木を用いたDAG構造により,制約を満たしつつ,高次元データの忠実性と不確実性推定を効率化する。
    • JANUSは,リジェクションサンプリングなしに100%の制約充足を実現し,連続範囲制約の効率性を向上させた。
    • ディリクレ事前分布に基づく分析的不確実性分解により,モンテカルロ法より128倍高速な不確実性推定を可能にした。
    • 15のデータセットと523の制約シナリオで,最先端の忠実度を達成し,不均衡データにおけるモード崩壊を解消した。

    Link: https://arxiv.org/abs/2603.03748

  • 協調的な物体運搬のための相互作用を意識した全身制御 [cs.RO, cs.AI]目的:非構造化環境下における協調的な物体運搬の実現
    • 人手不足が深刻化する中で,ヒューマノイドロボットによる作業支援への期待が高まっている。
    • 複雑な環境下では,時間変動する相互作用力が全身制御の信頼性を損ないやすい。
    • 接触時の安定性を維持しつつ,柔軟な物体運搬を可能とする制御手法の開発。
    • 本研究で提案するIO-WBCは,人工小脳のように機能し,安定した全身行動を生成する。
    • 上体での相互作用実行と下体での姿勢維持を分離することで,バランスを保ちながら力を制御する。
    • シミュレーションと実機実験により,IO-WBCが様々な条件下で安定した物体運搬を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.03751

  • コスト効率の良い推論のための,信頼度調整された小規模・大規模言語モデルの協調 [cs.CL, cs.AI]目的:大規模言語モデルと小規模言語モデルの協調による,コストと精度のバランス
    • 複雑な推論タスクにおいて,大規模言語モデルの優れた能力が求められている。
    • 大規模言語モデルは高コストであり,効率的な利用が課題となっている。
    • 小規模言語モデルと大規模言語モデルの協調により,コストを削減しつつ精度を維持すること。
    • 提案手法COREAは,小規模言語モデルで回答を試み,信頼度が低い場合にのみ大規模言語モデルへ処理を委譲する。
    • 強化学習による信頼度調整により,小規模言語モデルの推論能力と信頼度校正が向上する。
    • 実験結果から,COREAは大規模言語モデル単独利用と比較して,コストを21.5%~16.8%削減しつつ,わずかな精度低下に抑えることが示された。

    Link: https://arxiv.org/abs/2603.03752

  • エージェント型ピアツーピアネットワーク:コンテンツ配信から能力と行動の共有へ [cs.NI, cs.AI]目的:エージェント型ピアツーピアネットワークの実現に必要な基盤
    • AIモデルの分散化が進み,エッジデバイス上で動作する自律エージェントの重要性が高まっている。
    • エージェント間での能力や行動の共有は,セキュリティや信頼性の問題が課題となっている。
    • 信頼できないピアへの委任における安全性を確保し,実用的な協調を実現することを目指す。
    • 提案アーキテクチャは,接続性,セマンティックな発見,実行を分離した平面ベースである。
    • 署名付きのソフトステート能力記述子により,意図と制約を考慮した発見が可能となる。
    • 階層型検証により,ワークフローの成功率が向上し,遅延とオーバーヘッドが抑制されることが示された。

    Link: https://arxiv.org/abs/2603.03753

  • MOOSE-Star: 科学的発見のための実行可能な学習を,複雑性の壁を打ち破ることで実現する [cs.LG, cs.CE, cs.CL]目的:科学的発見における生成的な推論過程の直接的なモデル化
    • 科学的発見は人類の進歩に不可欠であり,その加速が求められている。
    • 大規模言語モデルの直接的な学習は,知識ベースの組み合わせ的複雑さゆえに困難である。
    • 複雑性の問題を解決し,実行可能な学習とスケーラブルな推論を可能にすること。
    • MOOSE-Starは,複雑さを指数関数から対数関数に削減し,学習を可能にする。
    • 発見の確率的方程式から派生した分解されたサブタスクで学習を行う。
    • トムATO-Starデータセット(108,717論文)を公開し,学習を促進する。

    Link: https://arxiv.org/abs/2603.03756

  • 協調型マルチエージェント強化学習における平均場サブサンプリングによる近似ナッシュ均衡の学習 [cs.MA, cs.AI, cs.LG, cs.SY, eess.SY, math.OC]目的:大規模エージェント群における近似ナッシュ均衡の学習
    • 大規模プラットフォームやネットワーク制御において,多数のエージェントを効率的に制御する重要性が高まっている。
    • グローバルエージェントが限られた情報しか得られない環境下では,最適な協調戦略の学習が困難である。
    • 部分的な観測情報から近似的なナッシュ均衡を効率的に学習する手法を確立することを目指す。
    • 提案手法(ALTERNATING-MARL)は,平均場Q学習と誘導されたMDPによる最適化を交互に行うことで学習を実現する。
    • この手法により,$\widetilde{O}(1/\sqrt{k})$-近似ナッシュ均衡への収束が理論的に保証される。
    • 数値実験では,マルチロボット制御および連合最適化において有効性が確認された。

    Link: https://arxiv.org/abs/2603.03759

  • 時系列予測のための調和的データセット蒸留 [cs.LG]目的:時系列予測におけるデータセット蒸留手法
    • 現代社会におけるデータ量は膨大であり,計算資源とストレージ容量の制約が課題となっている。
    • 既存のデータセット蒸留法は,時系列データに特化しておらず,過学習やスケーラビリティの問題がある。
    • 大規模な時系列データに対し,効率的な学習と汎化性能を実現するデータセット蒸留法の開発。
    • 本研究で提案するHDTは,フーリエ変換を用いて時系列を正弦波に分解し,調和的マッチングにより周期構造を整列させる。
    • HDTは周波数領域で更新を行うため,時系列データの時間依存性を損なうことなく,全体的に最適化が可能となる。
    • 実験の結果,HDTは優れた汎化性能とスケーラビリティを示し,実世界の大規模アプリケーションへの適用可能性が確認された。

    Link: https://arxiv.org/abs/2603.03760

  • AgentSelect:物語クエリからエージェントへの推奨のためのベンチマーク [cs.AI, cs.IR]目的:物語クエリに対するエージェント推奨の評価基盤
    • LLMエージェントはタスク自動化のインターフェースとして注目されているが,最適な構成選択方法が課題となっている。
    • 既存の評価は個々の要素に焦点を当て,タスク,指標,候補プールが分断されており,統一的な評価が困難である。
    • クエリに応じて最適なエージェント構成を推奨するための学習データと評価基盤を構築し,エージェント選択の研究を加速させる。
    • AgentSelectは,11万件以上のクエリ,10万件以上のエージェント,25万件のインタラクションデータを含む大規模なベンチマークである。
    • 人気ベースの手法は脆弱であり,能力に基づいたマッチングが重要であることが示された。
    • AgentSelectで学習したモデルは,公開されているエージェントマーケットプレイス(MuleRun)でも性能が向上し,汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.03761

  • 認知から制御へ - 人間とヒューマノイドの協調搬送のためのマルチエージェント学習 [cs.RO, cs.AI]目的:人間とヒューマノイドの協調搬送における認知と制御の連携
    • 人間とロボットの協調は,産業界や日常生活において重要な役割を担う
    • 従来のシステムは,即応性に偏り,持続的な計画と制御の連携が課題
    • 長期的な協調と安全性を確保し,人間との連携を円滑にする
    • 本研究では,認知から制御への階層構造(C2C)を提案し,人間とヒューマノイドの協調における計画と制御を明示的に連携させた。
    • 分散型マルチエージェント強化学習を用いて,長期的なスキル選択と順序最適化を実現した。
    • 実験の結果,提案手法は単一エージェントやエンドツーエンドのベースラインと比較して,成功率と安定性が向上し,リーダーフォロワー行動が自然に発生することが示された。

    Link: https://arxiv.org/abs/2603.03768

  • DMD増強非ペアニューラルシュレーディンガーブリッジによる超低磁場MRI画質向上 [cs.CV, cs.AI, cs.LG]目的:超低磁場MRIの画質向上
    • MRIは医療診断に不可欠だが,高価で利用が限られる場合がある。
    • 超低磁場MRIは低コストだが,画質が劣ることが課題である。
    • 非ペアデータを用いて超低磁場MRIの画質を高める方法を確立する。
    • 提案手法は,分布レベルでのリアリズムと構造的忠実度を両立している。
    • DMD2様式拡散ガイド分布マッチングと解剖学的構造保持正則化により,リアリズムと構造のトレードオフが改善された。
    • 2つの独立したコホートデータセットで,非ペアベースラインと比較して優れた結果が得られた。

    Link: https://arxiv.org/abs/2603.03769

  • 候補者には質の違いがある:レコメンダシステムにおける事前ランキングへの異質性に基づいたアプローチ [cs.IR, cs.AI, cs.LG]目的:レコメンダシステムにおける事前ランキングの改善
    • レコメンダシステムは現代のオンラインサービスにおいて重要な役割を果たし,ユーザー体験を大きく左右する。
    • 事前ランキング段階では,粗い粒度の検索結果と細かいランキング信号,そしてユーザーの行動履歴といった異質なデータが混在し,性能低下を招く。
    • 異質なサンプル間の勾配の衝突を軽減し,計算資源の効率的な配分を実現することで,事前ランキングの精度向上を目指す。
    • 提案手法HAPは,異質性を考慮したサンプリングと損失関数の設計により,勾配の衝突を緩和し,計算資源を適切に配分する。
    • 軽量なモデルで全候補を効率的にカバーし,困難な候補に対してはより強力なモデルを用いることで,精度とコストのバランスをとる。
    • 実運用データでの実験により,ユーザーのアプリ利用時間とアクティブ日数がそれぞれ最大0.4%,0.05%改善されたことを確認した。

    Link: https://arxiv.org/abs/2603.03770

  • AIとデータベースの効率的な連携に向けて [cs.DB, cs.AI]目的:AIとデータベースの連携によるデータ管理とクエリ処理の課題
    • データに基づいた意思決定において,AI分析の重要性が増している。
    • データのエクスポートはオーバーヘッドが大きく,データドリフトへの耐性が低い。
    • データベースにAIを統合する際の,性能やセキュリティの課題を解決する。
    • AIとデータベースを連携させることで,エンドツーエンドの性能最適化が可能になる。
    • トランザクション管理やアクセス制御など,データベースの既存コンポーネントの再検討が重要である。
    • AIxDBクエリの性能向上のための重要な要素を,設計と予備的な結果を通して示す。

    Link: https://arxiv.org/abs/2603.03772

  • 垂直分散学習におけるラベル枚挙攻撃 [cs.LG]目的:垂直分散学習環境下でのラベル推論攻撃の実現可能性と対策
    • データ保有者が分散した状況での機械学習は,プライバシー保護とデータ活用を両立する手段として重要である。
    • 分散学習環境では,特にラベル情報の漏洩リスクが存在し,その保護が課題となっている。
    • 既存のラベル推論攻撃の限界を克服し,実用的な攻撃手法を提示することで,プライバシー保護対策の強化を目指す。
    • 新たなラベル枚挙攻撃(LEA)を提案し,補助データなしで多様なVFLシナリオへの適用性を実証した。
    • モデル間の類似度評価に,損失勾配のコサイン類似度を用いることで,効率的かつ高精度な比較を可能にした。
    • モデル数削減のためのBinary-LEAを提案し,計算コストを大幅に削減するとともに,既存の防御機構への耐性も確認した。

    Link: https://arxiv.org/abs/2603.03777

  • 報酬なし逆文脈バンディット:サフィックス模倣による非定常学習者の学習 [cs.LG, stat.ML]目的:逆文脈バンディット問題におけるパラメータ復元
    • 強化学習の応用範囲拡大に不可欠。報酬が観測できない状況下での学習が重要。
    • 学習者の探索から利用への移行により,行動データが非定常となり,パラメータ推定が困難。
    • 行動データのみから,最適な方策を復元し,学習者と同等の性能を実現すること。
    • 提案手法Two-Phase Suffix Imitationは,初期のburn-in期間のデータを破棄することで,非定常性の影響を軽減。
    • burn-in期間の長さとバイアス・バリアンスのトレードオフを明確化する予測決定損失の上界を導出。
    • 報酬情報なしでも,$\tilde O(1/\sqrt{N})$の収束率を達成し,報酬を認識できる学習者と同等の効率を実現。

    Link: https://arxiv.org/abs/2603.03778

  • MACC:科学的探求のためのマルチエージェント協調競争 [cs.MA, cs.AI]目的:科学的探求におけるマルチエージェント協調競争の制度設計
    • 科学的発見は依然として研究者の手作業に依存しており,探求の限界や再現性の低さが課題である。
    • 参加者の変動や独立した反復の不足が,並行探求のみでは信頼性のある科学的探求に繋がらない。
    • 独立して管理されるエージェント間の制度が,集団探求に与える影響を調査する。
    • MACCは,共有科学ワークスペースとインセンティブメカニズムを統合した制度アーキテクチャである。
    • MACCは,透明性,再現性,探求効率を促進するように設計されている。
    • 本研究は,制度設計がスケーラブルで信頼性の高いマルチエージェント科学探求にどのように影響するかを検証する。

    Link: https://arxiv.org/abs/2603.03780

  • LifeBench:長期間記憶のためのマルチソースメモリベンチマーク [cs.AI]目的:長期間記憶のベンチマーク
    • 個人の経験に基づいたAIエージェント開発に不可欠であり,時間経過に伴う適応能力向上に繋がる。
    • 既存のベンチマークは明示的な情報に偏っており,習慣や手続き記憶といった非宣言的記憶を考慮していない。
    • 宣言的記憶と非宣言的記憶の両方を統合した,長期的な推論能力の評価を目指す。
    • LifeBenchは,複雑に繋がった長期的なイベントシミュレーションを通じて,AIエージェントに新たな課題を提示する。
    • データ品質を確保するため,匿名化された社会調査,地図API,カレンダーなどの現実世界の情報を活用している。
    • 最先端のメモリシステムでも精度が55.2%にとどまる結果から,長期的な検索とマルチソース統合の難しさが示唆される。

    Link: https://arxiv.org/abs/2603.03781

  • 共有アカウントにおける行動の分離と潜在的推論によるシーケンシャル推薦 [cs.IR, cs.AI]目的:共有アカウント利用における潜在的ユーザー数の推定と推薦精度の向上
    • ストリーミングやECプラットフォームでは共有アカウントが一般的であり,効果的な推薦が重要である。
    • 既存手法は潜在的ユーザー数を固定とし,多様な共有パターンに対応できず,精度が低い。
    • 行動の分離と潜在的推論を通じて,共有アカウントの多様な利用状況に適応し,推薦精度を向上させる。
    • 提案手法DisenReasonは,周波数領域からの行動分離と潜在的ユーザー推論を組み合わせることで,アカウント全体の行動表現を生成する。
    • DisenReasonは,4つのベンチマークデータセットで最先端手法を上回り,MRR@5で最大12.56%,Recall@20で6.06%の改善を達成した。
    • 本研究は,共有アカウントにおけるユーザーの行動をより正確に捉え,よりパーソナライズされた推薦を可能にする。

    Link: https://arxiv.org/abs/2603.03782

  • DEVS形式による離散事象世界モデルの仕様駆動生成と評価 [cs.AI]目的:離散事象世界モデルの仕様駆動生成と評価
    • エージェントシステムの計画立案や評価において,世界モデルは不可欠である。シミュレーションの精度と効率が重要視されている。
    • 既存手法は,手動作成のシミュレータと暗黙的ニューラルモデルの二極化が進み,それぞれ適応性や検証性に課題がある。
    • 自然言語仕様から直接合成される,信頼性と柔軟性を兼ね備えた離散事象世界モデルの実現を目指す。
    • 本研究では,DEVS形式を採用し,LLMを用いた段階的な生成パイプラインを導入することで,効率的なモデル生成を可能とした。
    • 生成されたモデルは,仕様由来の制約に対する検証を行い,再現性のある診断を可能にする構造化されたイベントトレースを出力する。
    • 長期間にわたるロールアウトにおいて整合性が保たれ,観測可能な行動から検証可能な世界モデルの合成を実現した。

    Link: https://arxiv.org/abs/2603.03784

  • T2S-Bench & Structure-of-Thought: テキストから構造への推論能力のベンチマークとプロンプティング [cs.CL, cs.AI]目的:テキストから構造への推論能力の評価と改善
    • 複雑な読解タスクにおいて,構造化が理解と応答に不可欠である。
    • 大規模言語モデルは,テキスト構造を十分に活用できていない。
    • テキスト構造を明示的に利用する手法によって,言語モデルの性能向上を目指す。
    • Structure of Thought(SoT)は,モデルに中間的なテキスト構造の構築を促すことで,多様なタスクで性能を向上させる。
    • T2S-Benchは,モデルのテキストから構造への変換能力を評価するための初のベンチマークである。
    • SoTとT2S-Benchの組み合わせにより,テキスト処理性能の更なる向上が期待される。

    Link: https://arxiv.org/abs/2603.03790

  • TAP:訓練不要な拡散モデル高速化のためのトークン適応型予測フレームワーク [cs.CV, cs.LG]目的:拡散モデルの推論高速化
    • 拡散モデルは高品質な画像を生成するが,計算コストが高いという課題がある。
    • 従来の予測手法では,精度と効率の両立が困難であった。
    • トークンごとに最適な予測器を選択することで,高速化と品質維持を目指す。
    • TAPは,モデルの第一層の評価をプローブとして利用し,各トークンに最適な予測器を割り当てる。
    • この手法は,追加の学習を必要とせず,様々な予測器設計に対応可能である。
    • 実験の結果,TAPは既存手法と比較して,精度と効率の両方を大幅に向上させることを示した。

    Link: https://arxiv.org/abs/2603.03792