arXiv雑要約

AI - 2026/05/12 公開

スパークから炎へ：LLMベースのマルチエージェント協調におけるエラーカスケードのモデル化と緩和 [cs.MA, cs.AI]目的：LLMベースのマルチエージェントシステムにおけるエラーカスケードのモデル化と緩和
- 複雑な協調タスクにおいて，LLMベースのマルチエージェントシステムの実用性が高まっている。
- LLMの反復的な相互作用により，軽微な誤りがシステムレベルでの誤った合意に発展しやすい。
- LLMベースのマルチエージェントシステムにおけるエラー増幅のリスクを早期に特定し，抑制すること。
- 本研究では，協調を依存グラフとして抽象化する伝播ダイナミクスモデルを提案し，増幅リスクの評価基準を提示した。
- 実験により，カスケード増幅，トポロジカルな感受性，コンセンサス慣性の3つの脆弱性クラスを特定した。
- メッセージ層プラグインとして実装された，系統図グラフベースのガバナンス層が，エラーの増幅を抑制し，高い効果を示した。
Link: https://arxiv.org/abs/2603.04474
インタラクティブなベンチマーク [cs.AI, cs.CL, cs.LG]目的：推論能力の評価
- AIの進化において，高度な推論能力は不可欠であり，その評価手法の確立が重要である。
- 既存の評価方法は，固定されたベンチマークの飽和や，主観的な判断に依存する点が課題となっていた。
- モデルが情報を効果的に獲得・活用する能力を評価する，新たな評価パラダイムの構築を目指す。
- インタラクティブなベンチマークは，固定ベンチマークよりもモデルの推論能力をよりロバストに評価できることが示された。
- 予算制約のある複数回の対話を通じて推論能力を評価するフレームワークが提案された。
- ロジック，UI2Html，数学などのタスクにおいて，改善の余地が大きいことが明らかになった。
Link: https://arxiv.org/abs/2603.04737
文脈的慣性の打破：安定した多段階対話のための単一ターンアンカーによる強化学習 [cs.AI, cs.CL]目的：多段階対話における文脈的慣性に対処するための強化学習手法
- 大規模言語モデルの活用が広がる中で，対話型AIの性能向上が重要視されている。
- 既存の言語モデルは，多段階対話において新しい情報を取り込むことが苦手であり，性能が低下しやすい。
- この研究は，モデルが過去の誤った推論に固執する「文脈的慣性」を克服し，最新情報に基づいて自己修正する能力を獲得することを目指す。
- 提案手法RLSTAは，単一ターンでの高い能力を安定した内部アンカーとして活用し，多段階対話における報酬信号を提供する。
- RLSTAにより，モデルは文脈的慣性を打破し，最新情報に基づいて推論を調整できるようになる。
- 実験の結果，RLSTAは標準的なファインチューニングや棄権ベースの手法を大きく上回り，数学からコードへの分野横断的な汎化性能も示された。
Link: https://arxiv.org/abs/2603.04783
報酬条件付き強化学習 [cs.LG]目的：報酬パラメータ化に対するエージェントの条件付け
- 強化学習は，ロボット工学やゲームなど，様々な分野で応用が期待されており，重要な技術である。
- 従来の強化学習は，報酬関数の設定に依存しており，報酬の誤りや変化に弱いという課題がある。
- 報酬の誤りや変化に対するロバスト性向上と，変化する選好への適応を目的とする。
- 報酬条件付き強化学習(RCRL)は，既存のデータを用いて複数の報酬目標を学習することで，サンプル効率を改善する。
- RCRLは，新たな報酬パラメータへの適応を効率的に行い，展開時の行動調整を可能にする。
- RCRLは，単一タスク学習のシンプルさを維持しつつ，ロバストで制御可能なポリシー学習を可能にする。
Link: https://arxiv.org/abs/2603.05066
一様誘導空間時間クリギング [cs.AI]目的：不完全な観測データにおける誘導空間時間クリギングの精度向上
- 時空間データの解析は，環境モデリングや異常検知など幅広い分野で重要である。
- 観測データの欠損は一般的であり，欠損値補完と空間補間を連携させる必要がある。
- 欠損値補完のバイアスが空間補間の精度に与える影響を軽減することが課題である。
- 提案手法UniSTOKは，信頼度に基づいた信号調整と残差バイアス補正により，既存のクリギング手法を改善する。
- UniSTOKは，観測データの信頼性を評価し，信頼性の低いデータの影響を抑制することで，より正確な空間補間を実現する。
- 実データ実験により，UniSTOKが複数のクリギング基盤において一貫して性能を向上させることが示された。
Link: https://arxiv.org/abs/2603.05301
安価なスリル：低コストなラベルを用いた効率的な償却最適化 [cs.LG, math.OC]目的：最適化とシミュレーションの効率化
- 最適化問題は科学技術の発展に不可欠であり，計算コストの削減が重要である。
- 高品質なラベルの取得コストが高い，または最適化の地形が複雑で学習が困難な場合がある。
- 低コストなラベルを活用し，効率的な学習と最適化を実現すること。
- 提案手法は，制約付き非凸最適化，電力系統運用，強解動システムといった様々な分野で，より迅速な収束と精度向上を実現した。
- 総オフライン計算コストを最大59倍削減することに成功した。
- メリット関数に基づく終了条件と自己教師あり学習の組み合わせが，モデル学習の効率向上に寄与することが示された。
Link: https://arxiv.org/abs/2603.05495
DSAの盲点：TikTokにおける広告とマイナープロファイリングのアルゴリズム監査 [cs.CY, cs.AI, cs.IR, cs.SI]目的：TikTokにおける広告とマイナープロファイリングの実態解明
- デジタル環境における青少年の増加に伴い，商業的説得に対する脆弱性が問題となっている。
- DSAの「広告」定義が狭く，インフルエンサーとの提携やブランドプロモーションなどの広告が含まれない。
- DSAの規制の抜け穴を明らかにし，青少年の保護強化策を提言すること。
- TikTokは，形式的な広告におけるプロファイリングを抑制することでDSA Article 28(2)に形式的には準拠している。
- しかし，開示・未開示の広告ともに，ユーザーの興味関心に基づいた顕著なプロファイリングが見られた（成人広告の5～8倍）。
- 特に，未開示の商業コンテンツにおいてプロファイリングが強く，プラットフォームによる是正措置が不十分である。
Link: https://arxiv.org/abs/2603.05653
大規模言語モデルに対する決定論的微分構造化プルーニング [cs.LG, cs.CL]目的：大規模言語モデルの推論コスト削減
- 大規模言語モデルの計算コストは高く，実用上の制約となっている。
- 従来のプルーニング手法は確率的近似を用いるため，学習時と推論時の性能乖離が生じやすい。
- 決定論的アプローチにより，性能劣化を抑制しつつ，より効率的なプルーニングを実現する。
- 提案手法DDPは，確率的な近似を用いず，決定論的なソフト近似により直接離散的なl0目的関数を最適化する。
- Qwen3モデルへの適用により，ダウンストリームタスクで1%以下の性能損失で20%のスパース性を実現した。
- vLLMを用いた実環境での推論速度向上も実証された。
Link: https://arxiv.org/abs/2603.08065
強化学習における接続性がラプラシアン表現に与える影響 [cs.LG, stat.ML]目的：マルコフ決定過程におけるコンパクトな状態表現の学習
- 大規模な強化学習問題において，次元の呪いを克服するためには，効率的な状態表現が不可欠である。
- 状態グラフが不明または状態空間が広大な場合，グラフスペクトル特徴量の推定に課題が残る。
- 状態グラフの代数接続性に基づいた近似誤差の上界を導出し，表現学習パイプライン全体の誤差分解を目指す。
- 線形価値関数近似における近似誤差が，状態グラフの代数接続性とどのようにスケールするかを示した。
- 固有ベクトルの推定誤差も考慮し，エンドツーエンドでの誤差分解を実現した。
- 強化学習設定におけるラプラシアン演算子の表現を明確化し，既存研究における誤解を解消した。
Link: https://arxiv.org/abs/2603.08558
連続制御のためのバッチ型からストリーミング型への深層強化学習 [cs.LG, cs.AI]目的：連続制御における深層強化学習のバッチ処理からストリーミング処理への移行
- 深層強化学習は連続制御において目覚ましい成果を上げており，その重要性は高い。
- 既存手法は計算コストが高く，リソース制約のある環境での利用が課題となっている。
- 本研究では，既存のバッチ型深層強化学習との互換性を重視したストリーミング型アルゴリズムを提案する。
- 提案手法S2ACとSDACは，標準ベンチマークにおいて既存のストリーミング型手法と同等の性能を示した。
- 環境ごとのハイパーパラメータ調整を必要とせず，容易に利用可能である。
- 事前学習済みポリシーの性能を維持するための，バッチ型からストリーミング型への移行手法を提案した。
Link: https://arxiv.org/abs/2603.08588
音声ディープフェイク検出におけるジェンダー公平性：性能と格差分析 [cs.SD, cs.AI]目的：音声ディープフェイク検出モデルにおけるジェンダー依存の性能と公平性
- 音声認証システムにおいて，AI生成音声の検出は重要性を増しており，不正利用防止に不可欠である。
- 音声ディープフェイク検出技術は進歩しているが，ジェンダーバイアスに関する研究は十分に進んでいない。
- 従来の評価指標では見過ごされる可能性のある，ジェンダー間の誤り分布の格差を明らかにすること。
- 全体的なエラー率の差が小さくても，公平性評価を行うことで，ジェンダー間の誤り分布に格差が存在することが示された。
- 従来の評価指標のみに頼ることは信頼性が低く，公平性指標が特定の属性における失敗モードを明確にする。
- より公平で堅牢，かつ信頼性の高い音声ディープフェイク検出システムを開発するためには，公平性を考慮した評価が重要である。
Link: https://arxiv.org/abs/2603.09007
EvoDriveVLA：協調的知覚・計画蒸留による運転VLAモデルの進化 [cs.DB, cs.CV, cs.AI]目的：運転VLAモデルの進化
- 自動運転技術の発展は，安全性向上と効率化に不可欠である。
- VLAモデルは知覚性能の低下と長期計画における不安定性の蓄積に課題がある。
- 知覚と計画の協調的蒸留により，これらの課題を克服し性能向上を目指す。
- EvoDriveVLAは，自己アンカー知覚制約と未来予測に基づく軌道最適化を統合した新しいフレームワークである。
- nuScenesのオープンループ評価で最先端の性能を達成し，NAVSIMのクローズドループ評価でも大幅な性能向上を示した。
- 自己アンカー蒸留と未来予測蒸留により，VLAモデルの知覚と計画能力を効果的に向上させる。
Link: https://arxiv.org/abs/2603.09465
フローセマンティクスはどこに存在するのか？暗号化通信分類のためのプロトコルネイティブなテーブル型事前学習パラダイム [cs.IR, cs.CL, cs.NI, cs.AI, cs.CR, cs.LG]目的：暗号化通信の分類における，プロトコル定義のセマンティクスを構造的制約として組み込むこと
- 通信の暗号化が進む中，通信内容を正確に識別する技術の重要性が増している。
- 従来の暗号化通信分類は，ラベル付きデータの依存度が高く，汎化性能が低いという課題があった。
- プロトコル定義のセマンティクスを考慮した新たな事前学習パラダイムを構築し，ラベル付きデータへの依存度を低減すること。
- 提案手法FlowSem-MAEは，既存の最先端技術を様々なデータセットで凌駕する性能を示した。
- FlowSem-MAEは，ラベル付きデータ量を半分に減らしても，既存手法のフルデータ使用時と同等以上の性能を達成した。
- 本研究は，通信データの本質的なテーブル構造に着目し，プロトコルネイティブなアプローチの有効性を示唆している。
Link: https://arxiv.org/abs/2603.10051
AR-VLA：ビジョン・言語・行動モデルのための真の自己回帰行動専門家 [cs.RO, cs.AI]目的：ビジョン・言語情報に基づいた継続的な行動系列生成
- ロボットの自律的な行動を実現するには，視覚情報と言語指示を統合した高度な行動計画が不可欠である。
- 従来のVLAモデルは，各観測ごとに文脈をリセットするため，時間的な一貫性に欠ける場合がある。
- 本研究は，過去の行動履歴を維持することで，よりスムーズで一貫性のある行動生成を目指す。
- 提案手法AR-VLAは，従来のVLAモデルと比較して，優れた履歴認識能力と滑らかな行動軌跡を示す。
- AR-VLAは，専門的なロボット制御と汎用的なロボット制御の両方において，従来のchunkベースのアクションヘッドを効果的に置き換えることができる。
- AR-VLAは，視覚と言語と行動という非同期ハイブリッドモダリティを同期させるための再アンカリングメカニズムを利用している。
Link: https://arxiv.org/abs/2603.10126
OpenClaw-RL：対話によってエージェントを容易に学習する [cs.CL, cs.AI, cs.CV, cs.LG]目的：次状態信号を用いた，オンラインでのパーソナルエージェント最適化
- エージェントの性能向上は，ユーザーエクスペリエンスを大きく左右するため，継続的な改善が重要である。
- 既存の強化学習システムでは，エージェントのインタラクションから得られる次状態信号を学習に活かせていない。
- ユーザーの応答や修正といった情報を活用し，より効率的にエージェントの学習を促進すること。
- OpenClaw-RLは，サーバークライアントアーキテクチャと非同期サーバーを用いることで，次状態信号からの学習を実現した。
- 評価信号と指示信号という2種類の学習信号を組み合わせたハイブリッド強化学習目的関数を導入し，学習の安定性と効率を向上させた。
- OpenClaw-RLは，ターミナル，GUI，SWE，ツール呼び出しなど，様々な環境で実用性を示し，長期的なタスクにおいても有効であることが確認された。
Link: https://arxiv.org/abs/2603.10165
MineEvolve：蓄積された知識を用いた長期的行動のMinecraftエージェントの自己進化 [cs.AI]目的：長期的行動を必要とする環境におけるエージェントの自己進化
- 長期的な行動を伴うAI研究は，現実世界の複雑なタスクへの応用を目指し，重要性が高まっている。
- 従来のAIは静的な目標に基づいて計画を実行するため，環境の変化や予期せぬ事態に対応できない場合がある。
- 過去の実行結果を知識として活用し，将来の意思決定を改善することで，自己進化を実現する。
- MineEvolveは，実行フィードバックを具体的な行動知識に変換するフレームワークである。
- 成功した実行から再利用可能なスキルを抽出し，失敗や停滞から対処法を学習する。
- 実験により，MineEvolveが複数のプランナーにおいて性能向上を示し，特に複雑なタスクで効果を発揮することが示された。
Link: https://arxiv.org/abs/2603.13131
Visual-ERM：視覚的等価性に対する報酬モデリング [cs.CV, cs.AI]目的：視覚的入力からコードを生成するタスクにおける報酬モデル
- 視覚情報をコードに変換する技術は，データ分析や自動化において重要な役割を担う。
- 従来の報酬関数は，視覚的な微妙な差異を捉えきれず，モデルが意図しない挙動を示す可能性がある。
- 本研究は，より正確で解釈可能な視覚的報酬モデルを開発し，視覚-コード変換の性能向上を目指す。
- 提案手法Visual-ERMは，既存のモデルと比較して，グラフ，表，SVGのコード生成において一貫した性能向上を示した。
- Visual-ERMは，特に視覚的な忠実性が重要なタスクにおいて，効果的であることが示された。
- 構築した評価ベンチマークVC-RewardBenchにおいて，Visual-ERMは高性能を示し，オープンソースモデルの有効性を実証した。
Link: https://arxiv.org/abs/2603.13224
交差部分集合における説明公平性を評価するためのリスク感受性指標MESD [cs.AI, cs.CY, cs.LG]目的：交差部分集合における説明の公平性の差異の定量化
- 機械学習の公平性は重要であり，社会的な偏見を増幅する可能性を抑制する必要がある。
- 既存の公平性指標は結果の偏りに焦点を当て，モデルの推論過程の公平性は評価が困難である。
- 交差部分集合における説明の質の差異を検出し，手続き的公平性を評価することを目的とする。
- 提案手法MESDは，既存の公平性指標では捉えきれない手続き的な差異を明らかにする。
- MESDは，ラベルを考慮した集約，ベイズ収縮，CVaR重み付けの3要素を統合することで，交差部分集合間の差異を定量化する。
- MESDは，実用的な多目的最適化フレームワークUEFに組み込まれ，実証実験で有効性が確認された。
Link: https://arxiv.org/abs/2603.13452
不規則設計，多系列階層，グループ化/潜在グループ設計を持つ汎用階層型ベイズセグメンテーション [cs.NI, cs.DC, cs.OS, cs.PF, cs.LG]目的：ベイズセグメンテーションによる時系列データの変化点検出と区分
- 時系列データ分析において，不確実性を考慮した区分表現は重要である。
- 従来のベイズセグメンテーションは，計算量の制約から適用範囲が限定されていた。
- 多様な設計に対応可能で，正確な推論を行うセグメンテーション手法を開発する。
- 提案手法BayesBreakは，局所的なブロック評価とグローバルな推論を分離するモジュール型フレームワークである。
- BayesBreakは，不規則な観測，反復データ，潜在テンプレート混合モデルなどを正確に扱える。
- 理論的な安定性保証があり，実データへの適用例を通して有効性が確認された。
Link: https://arxiv.org/abs/2603.14681
クロス災害環境におけるドメイン適応を用いた堅牢な建物被害検出 [cs.CV, cs.AI, cs.LG]目的：クロス災害環境下での建物被害検出の堅牢性向上
- 災害対応において，迅速な被害状況把握は不可欠であり，リモートセンシング技術が重要な役割を果たす。
- 異なる地域や災害種別でのデータ分布の不一致（ドメインシフト）が，被害検出の精度低下を招く。
- ドメインシフトの影響を軽減し，未知の環境下でも信頼性の高い被害検出を実現することを目指す。
- ドメイン適応（SDA）を適用したアンサンブルアプローチにより，建物被害の分類性能が大幅に向上した。
- SDAを除去すると，被害検出は完全に失敗することから，その重要性が示された。
- シャープネス強調されたRGB入力とSDAを組み合わせることで，Macro-F1スコア0.5552を達成し，堅牢な性能を示した。
Link: https://arxiv.org/abs/2603.14694
LLMをグラフカーネルと捉える：テキスト豊富なグラフにおけるメッセージパッシングの再考 [cs.LG, cs.CL]目的：テキスト豊富なグラフにおけるグラフ学習手法
- 現実世界の複雑な関係性はグラフ構造で表現可能であり，テキスト情報との統合が重要となる。
- 従来のグラフ学習手法では，テキスト情報を固定表現に圧縮し，構造推論との乖離が生じやすい。
- テキスト自体を構造関係の媒介として捉え，LLMをグラフ演算子として活用する新たな手法を提案する。
- RAMPは，各ノードの生テキストを推論の起点とし，動的に最適化されたメッセージを近傍ノードから伝播させる。
- これにより，グラフ伝播と深層テキスト推論のギャップを埋め，識別および生成タスクを統一的に処理する。
- 実験結果から，RAMPがグラフ学習におけるLLMの新たな可能性を示唆することが示された。
Link: https://arxiv.org/abs/2603.14937
スコアの根拠化：信頼性の高い視覚-言語プロセス報酬モデルのための明示的な視覚的前提検証 [cs.CE, stat.ML, cs.CV, cs.AI]目的：視覚-言語プロセス報酬モデルの段階的な評価における，視覚的根拠の信頼性に基づく報酬調整
- 大規模言語モデルと視覚モデルを組み合わせた推論能力の評価は，AI研究において重要性を増している。
- 従来の視覚-言語プロセス報酬モデルは，視覚的理解の誤りによる誤った評価を行いやすい。
- 視覚的前提の信頼性を明示的に検証することで，より正確な段階評価と推論性能の向上を目指す。
- 本研究で提案するEVPVは，視覚的根拠の信頼性に基づいて報酬を調整することで，段階的な検証精度を向上させる。
- VisualProcessBenchおよび6つのマルチモーダル推論ベンチマークにおいて，EVPVは既存手法と比較してBest-of-N再ランク付けの精度を向上させる。
- 制約抽出におけるノイズ注入実験は，EVPVの性能向上が視覚的制約の忠実度と明示的な前提検証に起因することを示す。
Link: https://arxiv.org/abs/2603.16253
高速道路交通データからの行動中心シナリオ抽出とCVQ-VAEを用いたドメイン知識誘導クラスタリング [cs.CV, cs.LG]目的：自動運転システムの評価に必要な代表的な交通シナリオの抽出と分類
- 自動運転システムの承認には，実世界の交通シナリオにおける挙動評価が不可欠である。
- 既存のシナリオ抽出方法は定義が異なり，シナリオの比較が困難であるという問題がある。
- シナリオ抽出の標準化と，ドメイン知識に基づいたシナリオの分類方法を確立すること。
- 提案手法により，シナリオを信頼性高く抽出できることが示された。
- ドメイン知識をクラスタリングプロセスに効果的に統合できることが確認された。
- 本研究は，高速道路データ記録からのシナリオカテゴリ導出プロセスを標準化し，自動運転システムの効率的な検証を支援する。
Link: https://arxiv.org/abs/2603.16964
VC-Soup: 大規模言語モデルにおける価値整合性に基づく多価値アライメント [cs.LG, cs.AI]目的：大規模言語モデルにおける多価値アライメントの実現
- ウェブ上でのコンテンツ生成や意思決定においてLLMが普及する中，信頼性の高いAIのためには人間との価値観の整合性が不可欠である。
- 複数の価値観を同時にアライメントする際，価値観の対立が性能低下を引き起こし，価値観間のトレードオフを困難にしている。
- 価値整合性に着目し，データフィルタリングとパラメータマージを組み合わせることで，価値観の対立を緩和し，多価値アライメントの性能向上を目指す。
- 提案手法VC-Soupは，報酬ギャップベクトルのコサイン類似度に基づく価値整合性指標を用いて，データセットから低整合性のペアをフィルタリングする。
- フィルタリングされたデータを用いて学習することで，滑らかで価値整合性の高いポリシーモデルを獲得し，線形モード結合を維持する。
- 複数のポリシーを線形結合し，パレートフィルタリングを適用することで，バランスの取れた多価値性能を実現している。
Link: https://arxiv.org/abs/2603.18113
MolRGen：推論モデルを用いた新規分子生成のための学習・評価環境 [cs.LG, cs.AI]目的：新規分子生成のための推論モデルの学習と評価
- 創薬において，目的とするタンパク質への結合能を持つ分子の設計は重要である。
- 既存の分子生成手法では，参照分子なしで報酬を計算する学習環境が不足している。
- 報酬をリアルタイムで計算可能な環境を提供し，推論型LLMの分子生成能力を向上させる。
- MolRGenは，約4,500のタンパク質ポケットターゲットを含むベンチマークと分子検証器である。
- 汎用および化学に特化したLLMの性能を評価し，多様性を考慮した評価指標を導入した。
- 128B LLMをファインチューニングした結果，性能は向上したが，多様性と活用度の間にトレードオフが生じた。
Link: https://arxiv.org/abs/2603.18256
スペクトル誘導型拡散ノイズスケジュール [cs.CV, cs.LG]目的：ピクセル拡散におけるノイズスケジュールの設計
- 高品質な画像生成において拡散モデルが広く用いられており，その性能向上が求められている。
- 従来のノイズスケジュールは手動調整が必要であり，解像度ごとに最適化が困難であった。
- 画像のスペクトル特性に基づき，効率的なノイズスケジュールを自動的に設計する。
- 提案手法は，画像のスペクトル特性を利用して，インスタンスごとに最適なノイズスケジュールを生成する。
- 理論的な上限と下限を導出し，冗長なステップを排除した「タイト」なノイズスケジュールを実現した。
- 実験により，特に低ステップ数での生成品質が向上することが示された。
Link: https://arxiv.org/abs/2603.19222
等方性拡散サンプラーのためのLoad-Reserve Wasserstein伝播 [cs.LG]目的：拡散サンプラーの逆時間伝播制御手法
- 拡散モデルは高品質なサンプル生成に貢献するが，その安定性と効率性が重要課題である。
- 既存手法では，ドリフトの全体的な安定性のみに着目し，半径方向の形状が無視されやすい。
- 半径方向の形状を考慮した伝播コストを算出し，安定したサンプリングを実現すること。
- 学習ドリフトプロファイルに基づいて伝播インターフェースを適応させ，アフィンテール輸送コストを導出する。
- 反射結合とHardy容量を用いて，安定性を一次元的な傾斜予算に帰着させる。
- 得られたコスト，収縮率，テール傾斜を保存することで，ワッセルシュタイン距離に基づく効率的なサンプリングを可能にする。
Link: https://arxiv.org/abs/2603.19670
AgentHER：LLMエージェント軌跡のリラベリングのための後顧的経験再生 [cs.AI, cs.CL]目的：LLMエージェントの軌跡リラベリングによる性能向上
- LLMエージェントは複雑なタスク遂行において重要な役割を担うが，その学習には課題が多い。
- LLMエージェントの学習データは成功例に偏りがちで，失敗事例の有効活用が不十分である。
- 失敗事例からも学習可能な代替目標を発見し，学習データの効率的な活用を目指す。
- AgentHERは，失敗した軌跡を代替目標でリラベリングすることで，学習データの有効活用を可能にする。
- WebArenaとToolBenchにおいて，既存のSFT手法と比較して+7.6-11.4%の性能向上を達成した。
- ラベルノイズの低減とリラベリング精度の向上を実現し，より信頼性の高い学習データを提供。
Link: https://arxiv.org/abs/2603.21357
AdaRubric：タスク適応型評価基準による信頼性の高いLLMエージェント評価と報酬学習 [cs.AI, cs.CL]目的：LLMエージェントの評価と報酬学習のためのタスク適応型評価基準
- LLMエージェントの能力向上には，客観的で信頼性の高い評価が不可欠である。人間による評価はコストが高く，拡張性に課題がある。
- 既存のLLMによる評価は，タスクに依存せず固定された基準を用いるため，評価の精度が低いという問題がある。
- タスク内容に応じて評価基準を動的に生成することで，より正確な評価と効果的な報酬学習を実現することを目指す。
- AdaRubricは，タスク記述からタスク固有の評価基準をLLMを用いて生成する。
- WebArena，ToolBench，AgentBenchにおいて，AdaRubricは人間の相関関係でPearson r = 0.79を達成し，既存の最良ベースラインを0.15上回る結果を示した。
- AdaRubricを用いて学習されたDPOモデルは，タスク成功率を6.8〜8.5%向上させた。
Link: https://arxiv.org/abs/2603.21362
ROM：ストリーミング検出と介入によるリアルタイムな過剰思考の軽減 [cs.RO, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルにおける過剰思考の軽減
- 大規模言語モデルの推論能力向上は，計算資源の効率的な利用と密接に関連する。
- 大規模言語モデルは，正解に到達後も冗長な検証を続け，計算資源を浪費する傾向がある。
- 本研究は，過剰思考をリアルタイムに検出し，介入することで，計算効率と精度を両立することを目指す。
- ROMは，大規模言語モデルの隠れ状態を監視し，推論の境界で介入するモデル非依存型のフレームワークである。
- Qwen3-8BとDeepSeek-R1-Distill-Qwen-32Bにおいて，精度を向上させると同時に，応答長を大幅に短縮することに成功した。
- 正解到達後に得られる信号は，モデルの規模や学習方法に関わらず，普遍的に有効であることが示された。
Link: https://arxiv.org/abs/2603.22016
エージェント監視：実行系統によるLLMエージェントの境界設定 [cs.CR, cs.AI]目的：LLMエージェントの安全な実行範囲の学習と，その範囲外のアクションの検知
- エージェント型コンピューティングの能力は高いが，セキュリティ上の懸念が重要である。
- エージェントの実行フローが確率的であり，事前検証が困難である。
- LLMエージェントの悪意ある操作や不正な行動を検出し，安全性を高める。
- Agent Sentryは，過去の正当な実行からエージェントの安全な実行範囲を学習する。
- AgentDojoとAgentDynにおいて，94.3%の注入攻撃をブロックしつつ，95.1%の正当な実行を許可した。
- エージェント，ツール，LLM自体の変更は一切行っていない。
Link: https://arxiv.org/abs/2603.22868
意図的な不服従：エージェントの行動履歴における失敗の自動検出 [cs.SE, cs.AI]目的：エージェント行動履歴の妥当性評価
- AIエージェントが実システムに組み込まれる機会が増加しており，その検証が重要である。
- 結果のみを評価するベンチマークでは，ワークフローの誤りや安全でないツール使用を見落とす可能性がある。
- エージェントの行動履歴から問題点を抽出し，仕様違反を自動的に検出することを目指す。
- AgentPexは，エージェントのプロンプトとシステム指示から行動ルールを抽出し，その仕様への準拠を自動評価する。
- 通信，小売，航空業界の顧客サービスにおける424件の行動履歴を用いて評価した結果，モデル間の行動の違いや仕様違反を検出できた。
- ドメインや指標ごとの詳細な分析を提供することで，開発者はエージェントの強みと弱みを把握できる。
Link: https://arxiv.org/abs/2603.23806
Saccharomyces cerevisiaeにおける単細胞タンパク質生産の予測と最適化のための包括的ゲノム規模代謝モデルと機械学習フレームワーク [cs.LG]目的：Saccharomyces cerevisiaeにおける単細胞タンパク質生産量予測と最適化
- 世界的なタンパク質供給の課題解決に，単細胞タンパク質が注目されているため，生産性向上が重要である。
- 単細胞タンパク質生産における代謝経路の複雑さから，効率的な生産予測と最適化が困難である。
- 代謝モデルと機械学習を統合し，生産量予測の精度向上と最適条件の探索を目指す。
- Yeast9ゲノム規模代謝モデルと機械学習モデルを組み合わせることで，高い予測精度（R2 = 0.9999760, 0.9997702）を達成した。
- 代謝フラックスのクラスタリングにより，異なる代謝特性を持つ4つのグループを特定し，それぞれに特徴的なバイオマスフラックスを観測した。
- ベイズ最適化により，バイオマスフラックスが12.13倍に向上する条件を発見したが，GANによる新規フラックス生成には課題が残った。
Link: https://arxiv.org/abs/2603.25561
LLMにおける心の理論の行動的テストにおける自己モデル化の選択的欠陥 [cs.LG, cs.AI, cs.CL]目的：心の理論の行動的テストにおけるLLMの自己モデル化能力の評価
- 社会生活において，他者の知識や意図を理解する能力は不可欠である。
- LLMが訓練データから心の理論を模倣学習している可能性はあるが，実際の因果モデルを獲得しているかは不明である。
- LLMが戦略的に行動するための自己と他者のメンタル状態の表現形成能力を検証する。
- 2025年半ば以前にリリースされたLLMは全てのタスクで失敗する。
- 近年のLLMは他者の認知状態のモデル化において人間レベルの性能を達成する。
- 最先端LLMでさえ，思考過程の追跡を許可されない限り，自己モデル化タスクで失敗する。
Link: https://arxiv.org/abs/2603.26089
AlpsBench：リアル対話の記憶と嗜好性整合のためのLLMパーソナライズ評価ベンチマーク [cs.CL, cs.AI]目的：LLMパーソナライズ評価のためのベンチマーク
- LLMがAIアシスタントとして進化する中で，パーソナライズは重要な課題となっている。
- 既存のベンチマークは，パーソナライズに不可欠な情報管理を軽視したり，現実世界の対話との乖離がある。
- 現実の人間とLLMの対話から構築したベンチマークを用いて，記憶管理の全ライフサイクルを評価する。
- 最先端のLLMおよびメモリ中心システムに対する評価により，モデルが潜在的なユーザー特性を確実に抽出するのに苦労していることが明らかになった。
- メモリの更新は，最も高性能なモデルであってもパフォーマンスの上限に達することが示された。
- 大きな妨害要素が存在する場合，検索精度が大幅に低下することが確認された。明示的なメモリ機構はリコールを向上させるが，必ずしも嗜好性や感情に共鳴する応答を保証するものではない。
Link: https://arxiv.org/abs/2603.26680
SARL：推論トポロジーを報酬化するラベルフリー強化学習 [cs.AI]目的：推論の構造に着目した強化学習フレームワークの開発
- 大規模な推論モデルの性能向上には強化学習が不可欠だが，明確な報酬設定が課題となる。
- 従来の強化学習は，正解が曖昧なオープンエンドな問題設定には適用が難しい。
- 推論プロセス自体に着目することで，汎化性能の高い推論能力を獲得することを目指す。
- SARLは，従来のラベルベースの強化学習手法を凌駕し，教師ありデータを用いた手法と同等以上の性能を達成した。
- 特にAIME25ベンチマークにおいて，PPOとGRPOの両方で大幅な改善が見られた（PPOで+35.5%，GRPOで+44.7%）。
- オープンエンドなタスクにおいても，SARLはDPOを含む既存手法を上回り，学習の安定性も向上した。
Link: https://arxiv.org/abs/2603.27977
MuonEq：直交化前の平衡化による軽量な均衡化 [cs.LG, stat.ML]目的：行列値パラメータの訓練改善のための，Muonにおける直交化前均衡化スキーム
- 行列値パラメータの最適化は，深層学習モデルの性能に大きく影響するため重要である。
- 従来の最適化手法では，直交化後の更新を再調整するか，重い事前条件付けが必要であった。
- Muonの直交化前に軽量な均衡化を行うことで，最適化の幾何学的性質を改善する。
- 提案手法MuonEqは，C4データセットを用いたLLaMA2の事前学習において，Muonよりも収束が速く，検証パースプレキシティが低いことを示した。
- 行/列正規化は，ホワイトニングの良い近似として機能し，直交化の入力スペクトル（安定ランク，条件数）に依存する。
- MuonEq (R)は，標準的なMuonの非凸停留性保証を維持し，有限ステップNS5まで拡張する。
Link: https://arxiv.org/abs/2603.28254
ChartDiff：複数のチャート間の理解に関する大規模ベンチマーク [cs.AI]目的：複数のチャート間の比較分析要約
- データ分析においてチャートは不可欠であり，その理解は高度な推論能力を要する。
- 既存のベンチマークは単一チャートの解釈に偏っており，複数チャート間の比較分析に課題が残る。
- 複数チャート間の差異を正確に要約する能力を評価するためのベンチマークを構築し，その課題を明らかにする。
- 汎用モデルはGPTに基づく評価で高い品質を示したが，専門モデルやパイプラインモデルはROUGEスコアは高いものの，人間による評価は低かった。
- これは，語彙的な重複と実際の要約品質との間にずれがあることを示している。
- 複数の系列を含むチャートは依然として難易度が高く，プロットライブラリの違いに対する耐性は強力なエンドツーエンドモデルで比較的高かった。
Link: https://arxiv.org/abs/2603.28902
分散LLM推論のためのメモリ処理パイプラインの理解と高速化 [cs.DC, cs.AI]目的：大規模言語モデル推論におけるメモリ処理パイプラインのボトルネック特定と，異種システムによる高速化
- 大規模言語モデルの発展に伴い，長文コンテキスト処理の効率化が重要となっている。
- 既存のLLM推論処理において，メモリ処理のオーバーヘッドが大きく，性能を制限している。
- 異種システムを活用することで，メモリ処理のボトルネックを解消し，LLM推論を高速化することを目指す。
- メモリ処理パイプラインを四段階に分類し，各段階の特性を詳細にプロファイリングした。
- GPU-FPGA異種システムにおいて，メモリバウンドな処理をFPGAにオフロードすることで，最大2.2倍の高速化を達成した。
- エネルギー効率も向上し，最大4.7倍の省電力効果が確認された。
Link: https://arxiv.org/abs/2603.29002
自動研究のためのマルチエージェント協調に関する実証研究 [cs.MM, cs.MA, cs.AI]目的：自動研究におけるマルチエージェント協調の有効性評価
- AI技術の発展に伴い，複雑な課題解決への期待が高まっており，その実現にはエージェント間の協調が不可欠である。
- 自動研究におけるマルチエージェントシステムの最適な協調フレームワークは未だ十分に解明されていない。
- 本研究は，機械学習最適化における異なるマルチエージェント構造の有効性を比較検証し，最適な設計指針を提示する。
- サブエージェントアーキテクチャは，厳格な時間制約下における広範で浅い最適化において，高い堅牢性とスループットを示すことが確認された。
- 一方，エージェントチームアーキテクチャは，コード生成における不安定性はあるものの，複雑なアーキテクチャの改良に有効である可能性が示された。
- これらの結果は，タスクの複雑さに応じて協調構造を動的に変更するアーキテクチャの設計が，今後の自動研究システムの発展に貢献すると示唆している。
Link: https://arxiv.org/abs/2603.29632
空間予測のためのターゲット加重クロスバリデーション：検証とデプロイメントの整合性 [cs.LG, stat.ML]目的：空間環境モデリングにおける予測性能の信頼性ある推定
- 環境モデリングは，環境保全やリスク評価において不可欠であり，予測精度が重要である。
- 既存のクロスバリデーションは，検証データが予測環境を代表すると仮定するが，現実には偏ったサンプリングによりバイアスが生じやすい。
- 検証タスクと予測タスクの分布を整合させ，空間予測における性能評価の改善を目指す。
- 標準的なクロスバリデーションは，現実的なサンプリング設計下で大きなバイアスを示す可能性がある。
- 提案手法である加重クロスバリデーションは，検証タスクが予測タスク空間を適切にカバーする場合，このバイアスを大幅に低減する。
- ドイツにおける二酸化窒素濃度のマッピング事例では，加重クロスバリデーションが，サンプリングバイアスを考慮したより整合性の高い予測誤差の推定を可能にする。
Link: https://arxiv.org/abs/2603.29981
マルチエージェントの解釈可能性を通じた共謀検出 [cs.CC, math.CO, math.PR, cs.AI, cs.LG, cs.MA]目的：マルチエージェントにおける共謀検出
- LLMエージェントの利用拡大に伴い，人間の監視を潜脱する隠れた連携のリスクが高まっている。
- 単一エージェントにおける欺瞞検出はある程度可能だが，共謀は複数エージェント間の現象であり，内部表現を用いた共謀検出は未開拓である。
- 環境分布の変化下での共謀検出を評価するベンチマークを確立し，エージェントの欺瞞スコアを集約する手法を提案する。
- 提案手法は，4つのオープンウェイトモデルで高いAUROCスコアを示し，特にLlama-3.1-70Bでは構造的に異なるシナリオへのゼロショット転移でも0.73～0.93のAUROCを達成した。
- 共謀の種類ごとに最適なプローブ手法が異なり，異なる異常タイプには異なる検出パラダイムが必要であることが示唆された。
- モデル内部の情報は，テキストレベルの監視と相補的な関係にあり，マルチエージェントの共謀検出に有効である。
Link: https://arxiv.org/abs/2604.01151
REAP：インタラクティブな本番利用からのコーディングエージェントベンチマークの自動キュレーション [cs.SE, cs.AI, cs.LG]目的：コーディングエージェントベンチマークの自動キュレーション手法
- AIコーディングエージェントの実用化には，迅速かつ再現性のある評価が不可欠である。
- 既存の評価手法は，速度と信頼性の間でトレードオフの関係にある。
- 本研究は，本番環境のデータを活用し，高品質なベンチマークを自動的に生成する。
- REAPは，実際の開発者とエージェントのセッションから本番環境に即したベンチマークを自動的に構築する。
- LLMを用いたタスク分類，テストの関連性検証，複数回の実行による安定性チェックにより，信頼性の高い評価を実現した。
- 生成されたベンチマーク Harvest は，5つの最先端モデルで42.9%から58.2%の解読率を示し，実用的な展開判断に役立つ知見を提供した。
Link: https://arxiv.org/abs/2604.01527
PHMForge：工業プラントの予知保全におけるLLMエージェントの評価 [cs.AI]目的：工業プラントの予知保全におけるLLMエージェントの信頼性評価
- 設備の故障は，安全性と経済性に大きな影響を与えるため，予知保全は重要である。
- 既存の評価基準は，LLMの推論能力とツール利用能力を混同している場合がある。
- 本研究は，LLMエージェントの予知保全における実用性を厳密に評価することを目指す。
- PHMForgeは，99件の専門家作成シナリオと39のアルゴリズムに基づいたツールを用いて，LLMエージェントの予知保全能力を評価する環境を提供する。
- 最も優れた構成では，pass@1が80.8％に達したが，オーケストレーションとツールシーケンスの誤りが残存課題として残る。
- MCP実行をテキストベースのRAGに置き換えると，バッテリークラスのpass-all-3が著しく低下し，構造的な限界が明らかになった。
Link: https://arxiv.org/abs/2604.01532
進化する目的に対するオークションベースのオンラインポリシー適応 [cs.LG]目的：変化する目的セットに対応可能な適応的ポリシーの設計
- 強化学習は，複雑な環境下での意思決定に有用だが，目的が変化する場合，再学習が必要となる。
- 複数の目的が同時に存在し，それらが動的に変化する場合，既存の強化学習手法では対応が困難である。
- 目的の追加・削除に迅速に対応し，効率的に行動を調整できるポリシーの実現を目指す。
- 提案手法では，各目的を支援するローカルポリシーと，オークション機構による協調を実現している。
- オークション機構により，状態の緊急度を反映した入札が行われ，動的な目的間トレードオフを可能にしている。
- Atariゲームとグリッドワールド環境での評価により，PPOで学習した単一のポリシーよりも大幅に優れた性能が確認された。
Link: https://arxiv.org/abs/2604.02151
オフライン強化学習における物理モデルに基づいた深層生成モデルによるデータ不足の緩和 [cs.LG]目的：宇宙飛行アプリケーション向けオフライン強化学習におけるデータ不足の緩和
- 宇宙探査の発展には，実世界のデータが不可欠である。しかし，取得コストが高く，データが限られている。
- シミュレーションと現実の乖離が課題であり，強化学習コントローラーの実用化を阻害する要因となっている。
- 物理モデルに基づいた生成モデルを用いて，限られたデータでも有効な学習を可能にすることを目指す。
- 提案手法であるMI-VAEは，物理モデルとの差異を学習することで，物理制約を満たす合成データセットを生成する。
- 遊星探査機の着陸問題において，MI-VAEによるデータ拡張が，標準的なVAEよりも優れた性能を示すことが確認された。
- 本研究は，データ制約下にある複雑な環境における自律制御システムの堅牢性を向上させるスケーラブルな戦略を示す。
Link: https://arxiv.org/abs/2604.02438
転移学習のための時間伸縮型再帰型ニューラルネットワーク [cs.LG, stat.ML]目的：時間伸縮を用いた再帰型ニューラルネットワークの転移学習手法
- 物理システムの時間変化を記述する上で，動的システムの理解は重要である。
- 異なる環境条件における物理過程の速度差を扱うことが課題となっている。
- 時間伸縮により，転移学習の効率と精度を向上させることを目指す。
- 時間伸縮は，LSTMが特定の微分方程式を近似する精度を維持しながらモデルを修正可能にする。
- 山火事モデリングにおける燃料水分含有量(FMC)の予測に，時間伸縮型転移学習を適用した。
- 時間伸縮法は，他の転移学習手法と同等の予測精度を，少ないパラメータ変更で達成した。
Link: https://arxiv.org/abs/2604.02474
操舵可能だが解読不可能：関数ベクトルはロジットレンズの範囲を超えて機能する [cs.LG]目的：関数ベクトルの操舵性と解読性の関係性の解明
- 大規模言語モデルの内部動作の理解は，その能力向上と安全性の確保に不可欠である。
- 関数ベクトルを用いた操舵は有効だが，そのメカニズムが十分に解明されていない。
- 関数ベクトル操舵と解読性の乖離の原因を特定し，安全なモデル運用に貢献すること。
- 関数ベクトルによる操舵は，ロジットレンズによる解読が不可能な場合でもしばしば成功する。
- Mistralモデルは中間表現を書き換え，Llama/Gemmaモデルは最終出力のみを操舵する異なる挙動を示す。
- 語彙投影ツールは関数ベクトルによる介入を検知できず，安全監視の盲点となる可能性がある。
Link: https://arxiv.org/abs/2604.02608
空間キュー後悔分解によるレジームキャリブレーションされた車両配置 [cs.LG, cs.AI, cs.SY, eess.SY, stat.ML]目的：需要予測に基づく車両配置問題における，レジームキャリブレーションと空間キュー後悔分解の適用
- 配車サービスや自動運転移動手段の普及に伴い，効率的な車両配置が重要課題となっている。
- 将来の需要が不確実な状況下で，最適な車両配置は困難であるという問題が存在する。
- 過去の需要パターンを利用し，より正確な需要予測と車両配置を可能にすることを目指す。
- 学習された類似度ゲートは，需要誤差，ピックアップ位置の不一致，キューの不足リスクを考慮することで，待ち時間を削減した。
- 空間キュー後悔分解により，需要予測誤差と待ち時間との関係性が定量的に評価され，改善の方向性が示唆された。
- シミュレーション実験の結果，提案手法は既存手法と比較して待ち時間を短縮し，車両配置の効率化に貢献することが示された。
Link: https://arxiv.org/abs/2604.03883
教師あり次元削減の再検討：凍結CNN特徴量に対するLDAの再評価 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV, stat.ML]目的：凍結された事前学習済み画像表現を用いた転移学習における次元削減戦略の有効性評価
- 転移学習は，限られたデータで高性能なモデルを構築する上で重要な手法である。
- 特徴量次元が高すぎると，計算コストが増大し，過学習のリスクが高まる。
- 粗粒度な分類タスクにおいて，LDAが特徴量次元削減に有効か検証する。
- 粗粒度なデータセット(CIFAR-100, Tiny ImageNet)においては，LDAがフル特徴量よりも高い精度を示す。
- しかし，細粒度なデータセット(CUB-200-2011)では，フル特徴量の方が優れているという結果が得られた。
- 単純なLDAが，他の複雑な次元削減手法と比較して，精度とコストのバランスが良い。
Link: https://arxiv.org/abs/2604.03928