arXiv雑要約

AI - 2026/03/18 公開

  • AIエージェントは間接的なプロンプトインジェクションに対してどれほど脆弱か?大規模な公開コンペティションからの考察 [cs.CR, cs.AI]目的:間接的なプロンプトインジェクション攻撃に対するAIエージェントの脆弱性評価
    • LLMベースのエージェントは,メールやコードなど外部データを利用するため,セキュリティが重要である。
    • ユーザーは最終的な応答しか確認しないため,攻撃が隠蔽されやすく,被害に気づきにくい。
    • 本研究は,AIエージェントにおける間接的なプロンプトインジェクション攻撃の脆弱性を明らかにする。
    • 大規模な公開コンペティションの結果,13の最先端モデル全てが脆弱であることが判明した。
    • 攻撃成功率は0.5%(Claude Opus 4.5)から8.5%(Gemini 2.5 Pro)とモデルによって差が見られた。
    • 21の挙動で共通の攻撃戦略が確認され,指示追従アーキテクチャの根本的な脆弱性が示唆された。

    Link: https://arxiv.org/abs/2603.15714

  • 工学設計およびシステム工学におけるデータセットのナビゲーションマップのフレームワークとプロトタイプ [cs.SE, cs.AI, cs.CE, cs.DB, cs.DL]目的:工学設計およびシステム工学におけるデータセットのナビゲーションマップの構築
    • システムライフサイクル全体でのデータ活用は,工学設計とシステム工学の発展に不可欠である。
    • 既存のデータセットは分散しておりアクセスが困難で,研究の進展を阻害している。
    • データセットの発見と利用を促進し,データ駆動型研究を加速することを目的とする。
    • 本研究では,ドメイン,ライフサイクル段階,データ型,形式に基づいてデータセットを分類する多次元分類体系を提案した。
    • 知識グラフデータモデルを用いたインタラクティブな探索ツールのアーキテクチャとプロトタイプを開発した。
    • 初期段階の設計やシステムアーキテクチャにおけるデータ不足(「データ砂漠」)を明らかにした。

    Link: https://arxiv.org/abs/2603.15722

  • 質問応答モデルにおけるコンテキスト長への頑健性:比較実証研究 [cs.AI]目的:質問応答モデルにおけるコンテキスト長への頑健性
    • 大規模言語モデルの応用範囲拡大に伴い,長文脈下での性能評価が重要になっている。
    • コンテキスト長が伸びると性能が低下するものの,その原因と課題は明確ではない。
    • 質問応答タスクにおけるコンテキスト長への頑健性を定量的に評価し,課題を特定する。
    • コンテキスト長が増加すると,モデルの精度が低下することが確認された。
    • 特に,複数段階推論を必要とするタスク(HotpotQA)では,単一の箇所抽出タスク(SQuAD)に比べて著しい精度低下が見られた。
    • この結果は,タスクによって頑健性が異なることを示唆し,長文脈におけるモデル信頼性評価の重要性を示唆する。

    Link: https://arxiv.org/abs/2603.15723

  • Meta-TTRL:統一マルチモーダルモデルにおける自己改善テスト時強化学習のためのメタ認知フレームワーク [cs.LG, cs.AI]目的:テスト時強化学習による統一マルチモーダルモデルの自己改善
    • 画像生成における統一マルチモーダルモデルの性能向上は,多様なタスクへの適応に不可欠である。
    • 既存手法は,個別事例の改善に留まり,過去の推論からの学習や知識の蓄積が不十分である。
    • モデル内部のモニタリング信号を用いたテスト時パラメータ最適化による,自己改善と能力レベルの向上を目指す。
    • Meta-TTRLは,Janus-Pro-7B,BAGEL,Qwen-Imageを含む3つの代表的な統一マルチモーダルモデルで優れた汎化性能を示した。
    • 特に,構成的推論タスクや複数の画像生成ベンチマークにおいて,限られたデータで有意な改善を達成した。
    • 本研究は,テスト時強化学習の可能性を包括的に分析し,自己改善を可能にするモニタリング信号とモデルの最適化方法の相乗効果を明らかにした。

    Link: https://arxiv.org/abs/2603.15724

  • S2Act:単純なスパイクアクター [cs.MA, cs.ET, cs.LG, cs.RO]目的:スパイクニューラルネットワークを用いた強化学習ポリシーの展開
    • モバイルロボティクスでは,電力と計算資源に制約があるため,小型で高性能なニューラルネットワークが求められる。
    • 既存のSNNアプローチは,複雑で確率的な環境下で,ハイパーパラメータへの敏感さや一貫性のない勾配信号に課題を抱える。
    • 本研究は,SNN特有のハイパーパラメータ調整を簡略化し,勾配消失問題を緩和することで,実用的なSNNベースの強化学習を実現する。
    • S2Actは,レートベースのスパイクニューロンに基づくアクタークリティックモデルを設計し,ReLU活性化関数を近似するようにLIFニューロンのパラメータを調整する。
    • 提案手法は,capture-the-flagやparkingといったマルチエージェント環境で,既存手法と比較してタスク性能とリアルタイム推論において優れた結果を示した。
    • 本研究は,SNNベースの強化学習ポリシーの迅速なプロトタイピングと効率的な実世界への展開の可能性を示す。

    Link: https://arxiv.org/abs/2603.15725

  • MiroThinker-1.7 & H1:検証を通じた重作業研究エージェントへ [cs.CL, cs.AI, cs.IR, cs.LG]目的:複雑な長期的推論タスクのための研究エージェントの開発
    • 複雑な問題解決において,情報収集と推論の自動化が不可欠である。
    • 既存エージェントは,複数ステップの推論における信頼性に課題がある。
    • 信頼性の高い多段階問題解決を実現する研究エージェントを開発する。
    • MiroThinker-1.7は,構造化された計画,文脈的推論,ツール連携を重視した中間トレーニング段階により,各インタラクションの信頼性を向上。
    • MiroThinker-H1は,推論プロセスに検証を組み込むことで,より信頼性の高い推論を実現。
    • ウェブ調査,科学的推論,金融分析のベンチマークにおいて,最先端の性能を達成。

    Link: https://arxiv.org/abs/2603.15726

  • ClawWorm:LLMエージェント生態系における自己伝播攻撃 [cs.CR, cs.AI, cs.LG, cs.MA, cs.SE]目的:LLMエージェント生態系に対する自己伝播攻撃の実現と分析
    • LLMエージェントは自律的に動作し,複雑な相互接続を持つ生態系を形成。その安全性は重要課題である。
    • 既存のLLMエージェントフレームワークのセキュリティ特性は未解明な部分が多く,脆弱性の存在が懸念される。
    • 本研究は,実運用規模のエージェントフレームワークに対する自己複製型ワーム攻撃を実証し,脆弱性の根本原因を特定する。
    • ClawWormは,単一のメッセージから起動し,エージェントの設定を乗っ取り,再起動時にペイロードを実行する自己伝播ワームである。
    • 実験の結果,高い感染成功率,多段伝播,ペイロードからの独立性が確認された。
    • 脆弱性の根本原因を分析し,各信頼境界を対象とした防御戦略を提案した。

    Link: https://arxiv.org/abs/2603.15727

  • 魔法のチケット:単一のノイズベクトルで生成ロボットポリシーを改善 [cs.RO, cs.AI]目的:事前学習済み生成ロボットポリシーの性能向上
    • ロボットの学習におけるデータ効率性が課題であり,事前学習の活用が重要視されている。
    • 事前学習済みポリシーの性能は,初期ノイズのサンプリングに依存し,最適化が難しい。
    • 特定の初期ノイズベクトルを用いることで,追加学習なしに性能向上を目指す。
    • 事前学習済み拡散モデルやフローマッチングポリシーに対し,適切な初期ノイズベクトル(「魔法のチケット」)を用いることで,タスク報酬を改善できることを示した。
    • モンテカルロポリシー評価を用いた探索手法により,ポリシーを固定したまま「魔法のチケット」を効率的に発見できる。
    • シミュレーションおよび実世界のロボット操作ベンチマークにおいて,成功率が最大58%向上し,マルチタスク環境ではパレート最適解を定義できることが示された。

    Link: https://arxiv.org/abs/2603.15757

  • シミュレーション蒸留:シミュレーションにおけるワールドモデルの事前学習と,迅速な実世界適応 [cs.RO, cs.AI, cs.LG]目的:シミュレーションにおけるワールドモデルの事前学習と実世界への迅速な適応
    • ロボット工学において,シミュレーション環境で学習した知見を現実世界で活用することは重要である。
    • シミュレーションと現実世界の差異により,ロボットの適応が困難になる場合が多い。
    • シミュレーションで得られた知識を効率的に現実世界に転移し,データ効率と安定性を向上させる。
    • 本研究では,シミュレーションから得られた構造的情報を潜在的ワールドモデルに蒸留するSimDistを提案する。
    • SimDistは,オンラインプランニングと監視付き動力学ファインチューニングにより,迅速な実世界適応を可能にする。
    • 精密な操作と四脚歩行タスクにおいて,既存手法を凌駕するデータ効率,安定性,および最終性能を示した。

    Link: https://arxiv.org/abs/2603.15759

  • 自己修正計画立案器:強化学習を用いた自動運転における自己修正計画立案器 [cs.RO, cs.AI]目的:自動運転における安全な計画立案
    • 自動運転技術の安全性向上は,社会実装において不可欠である。
    • 既存の学習ベースの計画立案器は,危険な行動に対する自己修正機能が不十分である。
    • 危険な行動を検出し,修正軌跡を生成する自己修正計画立案器の開発。
    • 提案手法CorrectionPlannerは,提唱・評価・修正のループを通して計画立案を行い,衝突リスクのある行動を自己修正する。
    • 過去の危険な行動履歴を修正トレースとして活用し,安全な行動が提案されるまで修正を繰り返す。
    • Waymax環境で衝突率を20%以上削減し,nuPlanにおいて最先端の計画立案性能を達成した。

    Link: https://arxiv.org/abs/2603.15771

  • 境界のない形態素:アラビア語トークナイザーとLLMにおける語根パターン形態論の評価 [cs.CL, cs.AI]目的:アラビア語の語根パターン形態論の表現と生成能力の評価
    • アラビア語の形態論は複雑で,言語理解や生成において重要な役割を果たす。
    • 既存のトークナイザーがアラビア語の複雑な形態構造を十分に捉えられていない可能性がある。
    • LLMが表面的な暗記に頼らず,真の形態構造を学習しているかを検証する。
    • トークナイザーの形態的整合性と,形態的生成能力との間に必ずしも相関関係は見られなかった。
    • 形態的トークナイズは,下流タスクの性能に必須ではないことが示唆された。
    • LLMとトークナイザーの評価を通じて,アラビア語形態論の処理における課題が明らかになった。

    Link: https://arxiv.org/abs/2603.15773

  • 3Dメッシュにおける並列化可能な微分可能な最短測地線 [cs.HC, cs.CV, cs.AI, cs.GR, cs.LG]目的:3Dメッシュ上の最短測地線の計算と,それを用いた機械学習パイプラインの改善
    • 機械学習の応用範囲は非ユークリッド空間へ拡大しているが,幾何学的に正確な表面学習方法は遅れている。
    • 閉形式のリーマン演算子の欠如,離散化された演算子の非微分可能性,並列化の困難さが課題である。
    • メッシュ上に離散化されたリーマン曲面上の指数写像を計算するための枠組みを確立し,学習を促進する。
    • GPUによる並列実装と,2つの微分法(外在的プロキシ関数と測地線有限差分法)を開発した。
    • 並列化性能と精度を検証し,微分可能な指数写像が一般的な幾何学における学習と最適化を改善することを示した。
    • 測地線畳み込み層,メッシュ上の学習のためのフローマッチング法,およびボロノイ分割の最適化器を提案した。

    Link: https://arxiv.org/abs/2603.15780

  • OMNIFLOW:物理に基づいた汎用科学的推論のためのマルチモーダルエージェント [cs.LG, cs.AI]目的:汎用科学的推論のためのマルチモーダルエージェントの設計
    • 科学的推論は,複雑な現象の理解と予測に不可欠であり,学術研究や技術開発の基盤となる。
    • 大規模言語モデルは,物理法則に基づく連続的な時空間ダイナミクスを扱うことが苦手で,非現実的な結果を生成することがある。
    • 物理法則に基づいた推論能力をLLMに付与することで,ドメイン汎化性能と解釈性を向上させる。
    • OMNIFLOWは,既存の深層学習ベースラインと比較して,ゼロショット汎化および少数ショット適応タスクにおいて有意に優れた性能を示す。
    • セマンティック・シンボリックアライメント機構により,モデルは生のピクセル値ではなく物理構造を認識することが可能となる。
    • 物理学に基づいた思考の連鎖(PG-CoT)により,動的な制約注入と反復的な自己検証を通じて推論が促進される。

    Link: https://arxiv.org/abs/2603.15797

  • CUBE:エージェントベンチマークを統一するための標準 [cs.AI]目的:エージェントベンチマークの統合標準
    • AI研究開発において,多様なベンチマークは不可欠だが,互換性の欠如が課題となっている。
    • 各ベンチマークが個別に統合される必要があり,開発効率を低下させている。
    • CUBEは,ベンチマーク間の互換性を高め,統合の負担を軽減することを目指す。
    • CUBEは,MCPとGymに基づいた普遍的なプロトコル標準を提案し,一度ラップすればどこでも利用可能となる。
    • タスク,ベンチマーク,パッケージ,レジストリを分離したAPI層により,プラットフォームとベンチマーク間のアクセスを容易にする。
    • CUBEの標準化を促し,ベンチマークの急速な増加による断片化を防ぐことを呼びかけている。

    Link: https://arxiv.org/abs/2603.15798

  • 自然言語アクセスポリシーを実行可能なRegoへ変換する実用的なLLMパイプライン:Prose2Policy [cs.AI]目的:自然言語アクセス制御ポリシーから実行可能なRegoコードへの変換
    • ゼロトラストやコンプライアンス遵守の重要性が増しており,アクセス制御の自動化が求められている。
    • 人間が理解しやすいポリシーと,機械が解釈可能なコードとの乖離が課題となっている。
    • 自然言語で記述されたポリシーを信頼性の高いRegoコードへ自動変換し,運用を容易にすること。
    • Prose2Policyは,自然言語のアクセス制御ポリシーをRegoコードへ変換する実用的なツールである。
    • ACREデータセットでの評価では,95.3%のコンパイル成功率を示し,高い構文上の堅牢性を立証した。
    • 自動テストでは,肯定的なテストケースで82.2%,否定的なテストケースで98.9%の合格率を達成し,整合性も確認された。

    Link: https://arxiv.org/abs/2603.15799

  • 外生変数を伴うゼロショット予測のための時間認識事前適合ネットワーク [cs.LG]目的:外生変数を含む時系列データに対するゼロショット予測手法
    • 小売,エネルギー,交通など,多くの分野で時系列予測は不可欠であり,精度の向上が求められている。
    • 既存の時系列モデルは,販売促進や気温といった重要な外生変数を無視している場合が多く,予測精度が制限される。
    • 外生変数を効果的に活用し,より高精度な時系列予測を可能にする手法を開発すること。
    • 提案手法 ApolloPFN は,外生変数をネイティブに組み込み,時間認識型アーキテクチャを採用することで,既存モデルを上回る性能を達成した。
    • M5や電力価格予測といったベンチマークテストにおいて,最先端の結果を示した。
    • 時間的文脈を考慮した合成データ生成手続きにより,外生変数と時系列データの組み合わせに対する予測精度が向上した。

    Link: https://arxiv.org/abs/2603.15802

  • マスクはDLLMに必要なもの:拡散LLMのためのマスクデータ学習パラダイム [cs.LG]目的:拡散LLMの性能向上
    • LLMは高度な推論能力が求められるが,その学習には膨大な計算資源が必要である。
    • 従来のDLLM学習では,入力データの情報密度を考慮せず,効率的な学習が難しい。
    • 入力データの情報密度に応じてノイズを制御することで,学習効率を改善する。
    • 提案手法は,コードと数学の推論ベンチマークにおいて,平均精度を約4%向上させた。
    • メカニズム解析により,確率的優先度マスキングがブロック拡散学習中の文脈崩壊を効果的に軽減することが示された。
    • 本研究は,拡散言語モデルの推論能力を最小限のアノテーションコストで効率的に引き出す新しいマスクデータ学習パラダイムを提供する。

    Link: https://arxiv.org/abs/2603.15803

  • 頑固な隣人を信用するな:エージェントネットワークのためのセキュリティフレームワーク [eess.SY, cs.SY, cs.HC, cs.MA, cs.AI]目的:LLMベースマルチエージェントシステムにおける操作と脆弱性の解析
    • LLMを活用したMASは様々なタスクで利用が増加しており,そのセキュリティ確保は重要である。
    • MASの対話的な性質上,悪意あるエージェントによる誤情報の拡散や集団行動の操作が問題となる。
    • MASの脆弱性を定量的に評価し,攻撃に対する防御メカニズムを提案することを目的とする。
    • 社会科学の意見形成モデルを応用し,MASにおける操作のメカニズムを理論的に捉えることができた。
    • 実験的に,単一の頑固なエージェントがMASの動的変化を掌握し,意見を操作できることが示された。
    • エージェント数を増やす,頑固さを高める,信頼度を下げる,そして動的な信頼調整によってセキュリティを向上させることが示された。

    Link: https://arxiv.org/abs/2603.15809

  • マンモグラフィーにおける特権的履歴蒸留を用いた縦断的リスク予測 [cs.LG, stat.AP]目的:マンモグラフィーにおける縦断的リスク予測の精度向上
    • 乳癌は依然として癌関連死亡の主要な原因であり,早期発見が重要である。
    • 過去の検査履歴が不完全である場合,縦断的リスクモデルの性能が低下する。
    • 現在の検査画像のみで,過去の履歴によるリスク予測を可能にすることを目指す。
    • 特権的履歴蒸留(PHD)法により,過去の検査履歴なしのモデルよりも長期間のリスク予測性能が大幅に向上した。
    • PHD法は,完全な履歴を用いたモデルと同等の性能を,現在の検査画像のみで達成した。
    • 時間依存的AUCの結果から,PHD法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.15814

  • 仮説クラスが説明を決定する:正確なモデルが特徴量の帰属に関して意見が異なる理由 [cs.LG, cs.AI]目的:特徴量帰属におけるモデル間の不一致
    • 説明可能なAIの発展には,モデルの予測と説明の一貫性が不可欠である。
    • 予測性能が同じモデルでも,特徴量の重要度に関する説明が異なる場合がある。
    • 仮説クラスに着目し,説明の一貫性の欠如の原因を特定する。
    • 予測性能が同じモデルでも,帰属する特徴量に大きな違いが見られた。
    • 同じ仮説クラス内のモデルは高い一致性を示すが,異なるクラスのモデル間では一致性が低いことが確認された。
    • 説明の信頼性スコアR(x)を用いることで,モデル構造に依存せずに説明の安定性を予測できることが示された。

    Link: https://arxiv.org/abs/2603.15821

  • 大規模言語モデルにおけるペルソナ条件付きリスク行動:GPT-4.1を用いたシミュレーションギャンブル研究 [cs.HC, cs.RO, cs.AI, cs.CL]目的:GPT-4.1におけるペルソナ条件付きリスク行動の再現
    • LLMは自律エージェントとして活用されつつあり,その意思決定メカニズムの理解が重要である。
    • LLMの行動原理が,認知的なパターンに基づいているのか,単なるプロンプトの模倣に過ぎないのか不明である。
    • 古典的な認知経済学におけるバイアスがLLMに暗黙的に組み込まれている可能性を検証する。
    • GPT-4.1は,指示されなくともカーネマンとトラスキーのプロスペクト理論で予測される行動特性を再現した。
    • 貧困層のペルソナは平均37.4ラウンドプレイしたが,富裕層のペルソナは1.1ラウンドに過ぎず,有意な差が見られた。
    • 感情ラベルは意思決定の要因とはなりえず,ラウンド間の信念の更新はほとんど見られなかった。

    Link: https://arxiv.org/abs/2603.15831

  • 安定性が失われた時:データ制約下における科学的意思決定のLLMの隠れた失敗モード [cs.LG, cs.AI, cs.CL, stat.ML]目的:データ制約のある科学的意思決定におけるLLMの失敗モードの分析
    • 科学的発見はデータに基づき行われるため,意思決定支援ツールの信頼性が不可欠である。
    • LLMの評価は安定性に偏りがちであり,統計的根拠との整合性は必ずしも保証されない。
    • LLMが統計的真実に乖離した意思決定を行う可能性を明らかにし,検証の重要性を示す。
    • LLMは実行ごとに高い安定性を示す一方で,統計的根拠から系統的に逸脱することが示された。
    • 有意水準の緩和やプロンプトのわずかな変更によって,LLMの出力は大きく変動することが確認された。
    • 入力データに存在しない遺伝子識別子を出力するなど,出力の妥当性にも問題が認められた。

    Link: https://arxiv.org/abs/2603.15840

  • 情報圧縮型匿名化:プライバシー保護型教師あり機械学習のためのセンシティブ入力保護 [cs.LG, cs.AI, cs.IT, math.IT]目的:プライバシー保護型機械学習のための情報圧縮型匿名化手法とVEILアーキテクチャの開発
    • 機械学習はセンシティブなデータを活用するケースが増加しており,プライバシー保護の重要性が高まっている。
    • 従来の差分プライバシーや準同型暗号化は,性能低下や計算コストの増加を伴うという課題があった。
    • アーキテクチャと数学的設計により,性能劣化なく堅牢なプライバシー保護を実現することを目的とする。
    • 情報圧縮型匿名化(ICA)は,データの信頼できる環境でのエンコードを通じて,センシティブな情報を不可逆的に匿名化する。
    • ICAは,表現学習を教師あり学習の目的に合わせて最適化することで,予測精度を維持しながら低遅延かつ高性能な機械学習を実現する。
    • VEILアーキテクチャは厳格な信頼境界を強制し,スケーラブルな多地域展開をサポートし,プライバシーバイデザイン規制に適合する。

    Link: https://arxiv.org/abs/2603.15842

  • 力強化されたエゴセントリック学習:物理的行動理解のためのデータセット [cs.CV, cs.LG, cs.RO]目的:物理的行動理解のための大規模データセット
    • ロボットの自律的な行動を可能にする上で,物理的な世界とのインタラクション理解は不可欠である。
    • 既存のデータセットは,力の情報を欠いており,物理的インタラクションの理解が限定的である。
    • 力情報を活用することで,より正確な物理的行動理解を可能にすること。
    • 本研究で開発したFEELデータセットは,約300万フレームの力とエゴセントリックビデオを同期して収録している。
    • FEELを用いた実験により,接触理解と行動表現学習において最先端の結果が得られた。
    • FEELで事前学習したモデルは,他のデータセットにおける行動理解タスクでの転移学習性能を向上させた。

    Link: https://arxiv.org/abs/2603.15847

  • アルゴリズム取引戦略の開発と最適化 [cs.AI]目的:アルゴリズム取引戦略の開発と最適化
    • 金融市場において,効率的な取引戦略は収益性向上に不可欠である。
    • 既存戦略は市場変動への適応性が低く,最適化が困難である。
    • 市場データとセンチメント分析を統合し,戦略の最適化を目指す。
    • 提案戦略は,総リターン,シャープレシオ,ドローダウンにおいてベースラインモデルを大幅に上回った。
    • テクニカル指標とセンチメント分析,計算最適化の組み合わせが有効であることが示された。
    • 歴史的S&P500データとFinBERTによる感情分析が戦略の精度向上に貢献した。

    Link: https://arxiv.org/abs/2603.15848

  • FlashSampling:高速かつメモリ効率の良い正確サンプリング [cs.LG, cs.AI, cs.CL]目的:大規模語彙デコーディングにおける正確サンプリングの高速化
    • 大規模言語モデルの性能向上には,効率的なデコーディング手法が不可欠である。
    • 従来のサンプリング手法は,メモリ転送や追加のカーネル処理のオーバーヘッドが大きい。
    • FlashSamplingは,これらのオーバーヘッドを削減し,デコーディングを高速化することを目的とする。
    • FlashSamplingは,LMヘッドの行列演算にサンプリング処理を融合することで,メモリ使用量を削減する。
    • H100,H200,B200,B300 GPUにおいて,カーネルレベルのデコード処理を高速化することを確認した。
    • vLLM実験では,出力トークンあたりの時間を最大19%削減できることが示された。

    Link: https://arxiv.org/abs/2603.15854

  • 正則化された潜在的動力学予測は,行動の基盤モデルの強力なベースラインである [cs.AI, cs.LG, cs.RO]目的:行動の基盤モデルにおける表現学習
    • 行動の基盤モデルは未知の報酬やタスクへの適応能力を持つエージェント生成に重要である。
    • 状態特徴の選択がモデルの表現力に大きく影響し,多様なタスクへの汎化が課題である。
    • 複雑な表現学習目標に頼らず,自己教師あり学習のみでゼロショット強化学習を達成する。
    • 正則化された潜在的動力学予測(RLDP)は,状態特徴の多様性を維持し,既存手法と同等以上の性能を示す。
    • RLDPは,データセットの網羅性が低い状況下でも良好な性能を発揮し,既存手法の課題を克服する。
    • 潜在空間における次の状態予測に正則化を加えることで,表現学習の目標の複雑さを軽減できる。

    Link: https://arxiv.org/abs/2603.15857

  • 3D医療形状における疾患効果と加齢の自己教師あり分離 [cs.CV, cs.LG]目的:3D医療形状における疾患効果と加齢の分離
    • 医療画像解析において,加齢変化と疾患変化の区別は,正確な診断や治療計画に不可欠である。
    • 疾患と加齢は形状変化に重なり合うため,診断ラベルが限られている場合,分離が困難である。
    • 加齢と疾患の形状変化を分離し,解釈可能なバイオマーカー開発を目指す。
    • 提案手法は,教師なしの疾患発見と自己教師ありの潜在表現の分離を組み合わせることで,優れた性能を発揮した。
    • ADNI海馬およびOAI遠位大腿骨の形状データにおいて,最先端の教師なしベースラインを上回る分解能と再構成精度を達成した。
    • 高精度な再構成,制御可能な合成,そして要因に基づいた説明可能性を実現した。

    Link: https://arxiv.org/abs/2603.15862

  • 解釈的インターフェース:AI媒介読解プラクティスと知識コモンズのデザイン [cs.HC, cs.AI]目的:AI媒介読解における解釈的関与を促すインターフェースのデザイン
    • 学術研究においてLLM利用が増加する中で,その処理過程の理解は不可欠である。
    • LLMの挙動説明だけでは十分な理解に至らず,科学者による直接的な操作手段が不足している。
    • LLMの中間表現を操作することで,ユーザーが解釈的に関与できるインターフェースを提案する。
    • 本研究では,AIの解釈可能性を技術的な課題ではなく,インタラクションデザインとして捉え直す。
    • トークンを選択し,モデルの内部層におけるその変遷を追跡するインターフェースを提案する。
    • 読者が書籍に注釈を付加するように,モデルの内部表現への読解を記録できる環境を提供する。

    Link: https://arxiv.org/abs/2603.15863

  • Wasserstein制約付きデータ摂動によるブラックボックス脆弱性の評価 [cs.LG]目的:機械学習モデルのブラックボックス脆弱性評価手法
    • 産業界での機械学習利用拡大に伴い,モデルの解釈可能性が重要課題となっている。
    • ブラックボックスモデルの内部構造が不明確なため,入力変化に対する挙動分析が困難である。
    • Wasserstein距離を用いて,モデル挙動に影響を与える最小限の入力分布変化を特定する。
    • 最適な輸送理論を応用し,入力変数の分布変化に対する機械学習モデルの応答を分析した。
    • Wasserstein距離の意味で,与えられた制約を満たす最も近い分布を見つけ,そのモデルへの影響を検証した。
    • 回帰および分類問題において,提案手法の実用性と有効性を実証した。

    Link: https://arxiv.org/abs/2603.15867

  • 反動型強化学習:効率的でスケーラブルな深層強化学習のための基本原則の再考 [cs.LG, cs.AI]目的:効率的かつスケーラブルな深層強化学習の実現
    • 強化学習は,複雑な環境下で自律的な意思決定を可能にする重要な技術である。
    • 高次元のマルコフ決定過程において,状態空間の指数関数的な増加が計算量のボトルネックとなっている。
    • 高次元環境における学習効率とスケーラビリティの向上を目指す。
    • 本研究では,反動的な行動を通じて得られる経験に基づいた新しいパラダイムを提案する。
    • 理論的分析と実験により,学習の効率化,加速化,スケーラビリティが示された。
    • アーケード学習環境における実験結果は,理論的分析を裏付け,高次元環境で顕著な性能向上とサンプル効率の改善を達成した。

    Link: https://arxiv.org/abs/2603.15871

  • ウェアラブルセンサーにおける好気性運動検出のための皮膚電気活動 [cs.LG, cs.AI]目的:好気性運動と安静時の識別
    • ウェアラブルデバイスの普及により,生理学的指標を用いた活動状態推定が重要視されている。
    • 皮膚電気活動(EDA)単独での好気性運動識別性能は十分に解明されていない。
    • EDAのみを用いた好気性運動と安静時の識別能力を評価し,その限界を明らかにする。
    • EDAの特徴量を用いて機械学習モデルを構築し,個人独立評価を行った結果,適度な識別性能が確認された。
    • 位相的な時間的ダイナミクスとイベントタイミングが,クラス分離に貢献していることが示唆された。
    • 本研究は,EDA単独での識別能力のベンチマークを提供し,マルチモーダルセンシングにおける役割を明確にする。

    Link: https://arxiv.org/abs/2603.15880

  • レジリエンスと自律性:重要インフラにおける具現化AIの統治 [cs.AI, cs.RO]目的:重要インフラにおける具現化AIの統治に関するあり方
    • 重要インフラは社会機能維持に不可欠であり,AIによる効率化・高度化が求められている。
    • 既存AIは想定外の事態への対応が弱く,大規模な障害や危機的状況に陥りやすい。
    • AIの自律性を制限し,人間との連携による堅牢な統治体制を構築することを目指す。
    • 具現化AIのレジリエンスは,限定的な自律性とハイブリッドな統治構造によって支えられる。
    • タスクの複雑性,リスクレベル,影響度に応じて,AIの監視モードを4つに分類した。
    • EU AI法やISO規格を参照し,AIの能力と人間の判断の適切な配分が重要であると論じた。

    Link: https://arxiv.org/abs/2603.15885

  • ファゾルフロー:単位円に基づく計算のためのPythonライブラリ [cs.LG, cs.AI]目的:単位円に基づく計算パラダイムを提供するPythonライブラリ
    • 機械学習の分野では,計算効率とモデルの表現力の向上が常に求められている。
    • 既存のニューラルネットワークは,パラメータ数が多く計算コストが高い場合がある。
    • 単位円計算による,軽量かつ原理に基づいた代替手法を確立すること。
    • ファゾルフローは,非線形空間分類,時系列予測,金融ボラティリティ検出などのタスクにおいて有効性が確認された。
    • 本研究により,古典的なニューラルネットワークや量子回路に代わる,決定論的で軽量な計算手法が提示された。
    • 単位円計算は,古典的なハードウェア上で量子力学の基礎を共有する。

    Link: https://arxiv.org/abs/2603.15886

  • EvoIQA - 進化型論理を用いた画像歪みの説明 [cs.CV, cs.NE]目的:画像品質評価における歪み説明
    • 視覚情報の重要性から,画像品質の客観的評価手法の確立が求められている。
    • 既存手法は,解釈可能性と性能のトレードオフを抱えており,両立が課題となっていた。
    • 解釈可能でありながら高性能な画像品質評価手法を開発し,両者の調和を目指す。
    • EvoIQAは,遺伝的プログラミングに基づき,画像品質を評価するための明示的な数式を進化させる。
    • 実験結果から,EvoIQAは人間の視覚的嗜好と高い整合性を示すことが確認された。
    • EvoIQAは既存手法を上回り,DB-CNN等の高性能な深層学習モデルと同等の性能を達成した。

    Link: https://arxiv.org/abs/2603.15887

  • AsgardBench - 最小限のフィードバック下における視覚的根拠に基づいたインタラクティブプランニングの評価 [cs.AI, cs.CV, cs.RO]目的:視覚的根拠に基づいたインタラクティブプランニングの能力評価
    • 身体化AI研究は,現実世界での知的な行動を可能にするために不可欠である。
    • 既存のベンチマークは,ナビゲーションと推論を混同しているか,詳細なフィードバックに依存している。
    • 視覚情報のみからプランを修正する能力に焦点を当て,より現実的なインタラクティブプランニングを評価する。
    • 最先端のビジョン言語モデルは,視覚入力がなければ性能が著しく低下し,視覚的根拠と状態追跡の弱点が明らかになった。
    • AsgardBenchは,モデルが予期せぬ事態に対応してプランを適応できるかを評価する狭い範囲に焦点を当てている。
    • ベンチマークは,オブジェクトの状態,配置,シーン構成を系統的に変化させることで,条件分岐を強調し,実行中のプラン修復を促す。

    Link: https://arxiv.org/abs/2603.15888

  • SemEval-2026タスク5におけるCOGNAC:難解な物語における人間レベルの語義妥当性評価のためのLLMアンサンブル [eess.SY, cs.SY, cs.IR, cs.CL, cs.CL, cs.AI]目的:難解な物語における語義の妥当性評価
    • 自然言語処理において,文脈に沿った語義曖昧性解消は重要な課題である。
    • 語義の判断には主観が伴うため,評価者間のばらつきが問題となる。
    • LLMアンサンブルを用いて,主観的な意味評価における人間との一致度を高める。
    • 比較プロンプティングがモデル系列全体で性能向上に貢献したことが明らかになった。
    • LLMアンサンブルが,平均的な人間の判断との一致度を大幅に向上させることが示された。
    • 本システムは,正確度0.92,Spearmanのρ係数0.85を達成し,高い性能を示した。

    Link: https://arxiv.org/abs/2603.15897

  • 物理AIエージェントのインターネット:相互運用性,持続可能性,そして誤りのコスト [cs.NI, cs.AI]目的:物理AIエージェントのインターネットの設計原則
    • IoTの限界から,知覚だけでなく推論と行動が可能なAIエージェントの必要性が高まっている。
    • IoTにおける断片化,セキュリティの脆弱性,長期的な持続可能性の欠如といった課題が存在する。
    • AIエージェントの進化,信頼性,相互運用性を確保し,将来のインフラへの誤った前提の固定化を防ぐ。
    • 本研究では,エージェントのアイデンティティ,セキュアな通信,セマンティックな相互運用性,ポリシーに基づいた実行環境を提案する。
    • 進化,信頼性,相互運用性を第一級の要件とすることで,インフラストラクチャの柔軟性と進化を可能にする。
    • 今日の前提を将来のインフラに固定化してしまうことによる技術的・経済的コストを回避することが重要である。

    Link: https://arxiv.org/abs/2603.15900

  • プライバシー保護のための連合学習:医療AIへの応用 [cs.LG, cs.AI, cs.CV]目的:アルツハイマー病分類のためのプライバシー保護連合学習に関する研究
    • 医療AIの発展は,患者データの活用に依存するが,プライバシー保護が重要課題となる。
    • 既存手法は,現実的でないデータ分割やプライバシー保護の不足,ベンチマークの不備を抱える。
    • 本研究は,現実的なデータ分割と高度なプライバシー保護メカニズムを確立し,実用的な医療AI展開を目指す。
    • 提案手法であるサイト対応型データ分割は,機関間の境界を維持し,データ異質性を考慮した現実的な協調学習を可能にする。
    • 適応的な局所差分プライバシー(ALDP)は,学習の進行に応じてプライバシーパラメータを調整し,プライバシーとユーティリティのバランスを向上させる。
    • 実験結果から,FedProx等の連合学習アルゴリズムが中央集権型学習と同等以上の性能を達成し,厳格なプライバシー保護を両立することが示された。

    Link: https://arxiv.org/abs/2603.15901

  • ゲーム理論支援による強化学習:国境防衛における解析解に基づく早期終了 [cs.LG, cs.SY, eess.SY]目的:国境防衛ゲームにおける強化学習訓練効率の改善
    • 敵対的状況分析においてゲーム理論は最適解を提供する。ただし,現実の状況下では仮定が成立しない場合がある。
    • 強化学習は適応性があるが,大規模で複雑な問題では学習効率が低いという課題がある。
    • ゲーム理論の知見を利用し,強化学習の学習効率を向上させ,探索戦略の学習に集中させる。
    • アポロニウスの円を用いることで,検出後の均衡を計算し,強化学習のエピソードを早期に終了させることに成功した。
    • 本手法により,報酬が10~20%向上し,収束が加速され,探索経路がより効率的になった。
    • 単一および複数防御者環境での実験により,本手法の有効性が検証された。

    Link: https://arxiv.org/abs/2603.15907

  • 生成心理測定における尺度開発のためのプロンプトエンジニアリング [cs.AI, cs.CL, cs.HC]目的:生成AIを用いた性格検査項目の品質向上策
    • AI技術の発展により,心理測定における新たな可能性が広がっている。
    • 大規模言語モデル(LLM)生成の項目は,内容の信頼性や妥当性が課題となる。
    • プロンプトエンジニアリングを通じて,LLM生成項目の質を改善し,心理測定の精度を高める。
    • AI-GENIEフレームワークを用いた評価の結果,どの条件においても構造的妥当性が改善された。
    • 適応的プロンプティングは,意味的冗長性を大幅に削減し,初期の構造的妥当性を高める上で一貫して優れた性能を示した。
    • 適応的プロンプティングの効果はモデルの能力に比例して高まり,モデルとプロンプトの相互作用に関するさらなる研究の必要性を示唆している。

    Link: https://arxiv.org/abs/2603.15909

  • エージェント研究者:数学と機械学習におけるAI支援研究の実践ガイド [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:数学と機械学習におけるAI支援研究の活用方法
    • 研究の効率化と新たな発見の促進のため,AI技術の活用が不可欠となっている。
    • AIツールを研究に組み込む方法が確立されておらず,効果的な活用が課題となっている。
    • AIを活用した自律的な研究支援システムの構築と,その実践的な活用方法を提示する。
    • AI統合の5段階分類と,CLIコーディングエージェントを自律型研究アシスタントに変えるオープンソースフレームワークを提案した。
    • 提案フレームワークは,サンドボックスコンテナ内で動作し,様々なLLMと連携可能で,容易にインストールと利用が可能である。
    • 20時間以上の自律的な実験セッションを行い,複数ノードにわたる実験を人間による介入なしに実行できることを示した。

    Link: https://arxiv.org/abs/2603.15914

  • 自動研究:ハイパーパラメータ調整ではない - 10,000件の実験の収束分析 [cs.LG, cs.AI]目的:LLMエージェントによる機械学習実験設計の性質の解明
    • 機械学習モデルの性能向上には,最適なアーキテクチャとハイパーパラメータの探索が不可欠である。
    • LLMエージェントによる実験設計が,真のアーキテクチャ探索なのか,あるいは狭い範囲でのハイパーパラメータ調整に過ぎないのか不明である。
    • LLMエージェントが示す実験設計におけるアーキテクチャの貢献度を定量的に評価すること。
    • アーキテクチャの選択が性能変動の94%を説明し,ハイパーパラメータ調整による変動はわずか6%であることが示された。
    • 異なる衝突データセットでの検証でも,同様の結果が確認され,真のアーキテクチャ探索が行われていることが裏付けられた。
    • LLMエージェントは,V-JEPA\,2ビデオ特徴とZipformer時間エンコーダの組み合わせが0.9245 APを達成することを発見し,これにより人間の提案を上回った。

    Link: https://arxiv.org/abs/2603.15916

  • VIBEPASS:バイブ・コーダーは本当にバイブ・チェックにパスできるか? [cs.MS, cs.SE, cs.AI]目的:潜在的なバグを明らかにする識別的なテストケースの作成と,それを診断条件に基づいて修復する能力の評価
    • ソフトウェア開発の自動化において,モデルが自己診断・自己修復を行う能力は不可欠である。
    • 大規模言語モデルによる「バイブ・コーディング」が進む中で,自己診断・修復能力の体系的な評価が不足している。
    • 大規模言語モデルの自己診断・修復能力におけるボトルネックを特定し,自動デバッグの課題を再定義すること。
    • 最先端のLLM12モデルを評価した結果,故障を特定するための推論能力は,一般的なコーディング能力とは比例しないことが判明した。
    • テスト入力の生成は高い精度で行える一方,識別的なテスト生成で性能が低下し,故障仮説の生成が主要なボトルネックとなっている。
    • 自己生成テストで故障を検出できた場合,外部テストで誘導された修復よりも優れた結果が得られるが,故障検出に失敗すると性能が低下する。

    Link: https://arxiv.org/abs/2603.15921

  • 対角フローマッチングによる棄権を用いた生成逆設計 [cs.HC, cs.CL, cs.LG]目的:目標性能を達成する設計パラメータの探索
    • 逆設計は,製品開発や最適化において重要な役割を果たす分野である。
    • 従来の逆設計手法は,設計空間の広さや複雑さから安定した学習が難しい場合がある。
    • 本研究は,設計パラメータの順序やスケールに依存しない安定した逆設計手法を確立する。
    • 対角フローマッチング(Diag-CFM)は,従来のフローマッチング(CFM)と比較して,10倍の精度向上を達成した。
    • ゼロ偏差と自己整合性という2つの不確実性指標を開発し,信頼性の低い予測の棄権を可能にした。
    • 航空力学,ガスタービン燃焼器,解析ベンチマークにおいて,Diag-CFMの有効性を検証した。

    Link: https://arxiv.org/abs/2603.15925

  • 医療におけるパス特異的な公平性と有用性に対する因果探索アルゴリズムの評価 [cs.LG, cs.AI]目的:医療データにおける因果探索アルゴリズムの評価基準
    • 医療データ分析において,因果関係の解明は疾患の理解と治療法開発に不可欠である。
    • 真の因果構造が不明な場合,因果探索アルゴリズムの評価が困難であるという課題がある。
    • 合成データと臨床データを用いて,アルゴリズムの性能評価と公平性の検証を行う。
    • 合成データにおいては,Peter-Clarkアルゴリズムが構造復元の点で最も優れた結果を示した。
    • 心不全データにおいては,Fast Causal Inferenceアルゴリズムが最も高い有用性を示した。
    • 射出率が間接効果に3.37パーセントポイント貢献していることが明らかになり,アルゴリズム間の公平性-有用性の比率に差が生じた。

    Link: https://arxiv.org/abs/2603.15926

  • 粒子多体系における相互作用と拡散カーネルの発見 [cs.LG, cs.NA, math.DS, math.NA]目的:多体系における相互作用カーネルの学習
    • 多剤体システムは,複雑な社会現象や自然現象のモデル化に不可欠であり,その解析は重要な課題である。
    • 既存手法では,相互作用構造に関する事前知識が必要であり,観測データからの学習が困難であった。
    • 観測データのみから相互作用と拡散のカーネルを同定し,多体系の理解を深めることを目指す。
    • 提案手法は,経路データから相互作用と拡散項の関数形を直接学習可能であり,高い精度でカーネルを再構成できる。
    • ランダムバッチサンプリングと平均場近似という2つの戦略により,部分的に観測されたデータでもロバストな結果が得られる。
    • 有界信頼性モデルや引力・斥力ダイナミクスといったベンチマークモデルでの検証により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.15927

  • Vlasov-Maxwell-Landau平衡状態の半自動形式化 [cs.AI, math.AP, math.LO]目的:Vlasov-Maxwell-Landau系の平衡状態に関する形式化
    • プラズマ物理は,核融合エネルギー開発や宇宙物理学において不可欠な研究分野である。
    • 複雑なプラズマ現象の厳密な数学的証明は困難であり,計算資源も必要となる。
    • AIを活用することで,複雑な数学的証明を効率的に形式化し,検証することを目指す。
    • AI推論モデル(Gemini DeepThink)が推論を生成し,コーディングツール(Claude Code)がLeanに翻訳した。
    • 専門のプロバー(Aristotle)が111個の補題を証明し,Leanカーネルが結果を検証した。
    • 数学者1名が10日間,200ドルの費用でプロセスを監督し,コードは一切記述しなかった。

    Link: https://arxiv.org/abs/2603.15929

  • マルチクラス多変量時系列分類のためのデータローカル自律型LLM誘導ニューラルアーキテクチャ探索 [cs.CL, cs.HC, cs.CY, cs.LG, cs.AI]目的:マルチクラス多変量時系列分類におけるニューラルアーキテクチャの探索
    • 機密性の高い時系列データへの機械学習適用は,データ保護の観点から重要である。
    • データローカル環境下での前処理とアーキテクチャ探索の反復作業がボトルネックとなっている。
    • データ漏洩リスクを回避しつつ,アーキテクチャ探索を自動化することを目的とする。
    • 提案手法は,機密データをオンプレミスに保持しながら,LLM誘導によるニューラルアーキテクチャ探索を可能にする。
    • UEA30およびSleepEDFxデータセットでの評価により,既存手法と同等以上の性能が確認された。
    • 手動介入を減らし,データ保護とモデル性能の向上の両立を実現する。

    Link: https://arxiv.org/abs/2603.15939

  • 議論に基づく人間とAIの協調的意思決定:我々とともに推論するAIエージェントへ [cs.CE, cs.NI, cs.AI]目的:議論を通じた人間とAIの協調的意思決定の基盤構築
    • AIの意思決定における透明性と信頼性の確保が重要課題となっている。
    • 従来の計算論的議論は,特定領域への依存度が高く,汎用性に欠ける。
    • LLMと計算論的議論の融合により,信頼できるAIの意思決定支援を実現する。
    • 議論枠組みのマイニング,合成,推論の相乗効果により,人間との対話的な意思決定が可能となる。
    • AIエージェントは,単に決定を正当化するだけでなく,決定の根拠を問い,修正するプロセスに参加する。
    • この融合は,高い信頼性が求められる分野において,人間中心のAIを実現するための鍵となる。

    Link: https://arxiv.org/abs/2603.15946