arXiv雑要約

AI - 2026/04/28 公開

オフポリシー評価における自己正規化に対する加法制御変数の優位性 [cs.RO, cs.SY, eess.SY, math.OC, cs.CC, cs.DM, math.LO, math.RA, cs.LG, cs.IR]目的：オフポリシー評価における平均二乗誤差の漸近的優位性
- ランキングや推薦システムの評価は重要であり，コストのかかるオンライン介入を避ける必要がある。
- 自己正規化逆確率重み付け(SNIPS)は分散削減に用いられるが，必ずしも最適なベースラインではない。
- 最適な加法ベースラインを持つβ^*-IPS推定器がSNIPSよりも優位性を示すことを証明する。
- β^*-IPS推定器は，平均二乗誤差においてSNIPSを漸近的に上回ることが証明された。
- SNIPSは，特定の劣最適な加法ベースラインを使用することと同等であることが分析的に示された。
- この結果は，自己正規化から最適なベースライン補正への移行を理論的に正当化する。
Link: https://arxiv.org/abs/2602.14914
測定データからの偏微分方程式の記号的復元 [cs.LG, cs.SC, math.OC]目的：偏微分方程式の記号的復元
- 自然科学における複雑な現象を記述する上で，偏微分方程式に基づくモデルは不可欠である。
- 測定データからの偏微分方程式の特定は困難であり，解釈可能な記号表現を得ることが難しい。
- 本研究は，測定データから解釈可能な物理法則を記号的に復元することを目指す。
- 有理関数に基づくニューラルネットワークを用いることで，物理法則の記号表現が可能となった。
- 無ノイズかつ完全な測定データの下で，アーキテクチャ内で表現可能な物理法則が復元されることが示された。
- L1正則化を用いることで，解釈性と疎性を高めた物理法則が得られる。
Link: https://arxiv.org/abs/2602.15603
マッチ最大化と公平性を超えて：定着最適化された両側マッチング [cs.LG]目的：両側マッチングプラットフォームにおけるユーザー定着の最大化
- オンラインデーティングや採用など，両側マッチングは多くのプラットフォームで重要な役割を果たす。
- マッチング数最大化の目標設定は不均衡を生み，ユーザーの離脱を招く可能性がある。
- ユーザーの定着率向上を直接的に最適化するマッチングアルゴリズムの開発。
- 従来のアルゴリズムがマッチング数や公平性を最適化するのに対し，本研究ではユーザーの定着率を直接最大化する。
- MRetアルゴリズムは，個々のユーザーのプロファイルと行動履歴から定着曲線（retention curve）を学習し，動的にレコメンデーションを調整する。
- 実世界のオンラインデーティングプラットフォームでの評価において，MRetは従来のメソッドよりも高いユーザー定着率を達成した。
Link: https://arxiv.org/abs/2602.15752
プロンプト安全のための軽量で説明可能なガードレール [cs.CL, cs.CL, cs.AI]目的：安全でないプロンプトの検出
- 大規模言語モデルの普及に伴い，有害なプロンプトによるリスクが増大している。
- 既存のガードレールはサイズが大きく，説明可能性に乏しい場合がある。
- 軽量かつ説明可能なガードレールを構築し，プロンプトの安全性を高める。
- LEGは，プロンプト分類と説明分類を同時に学習するマルチタスク学習アーキテクチャを用いる。
- LEGは，合成データを用いて学習することで，大規模言語モデルのバイアスに対抗している。
- LEGは，既存の最先端手法と同等またはそれ以上の性能を，より小さいモデルサイズで実現した。
Link: https://arxiv.org/abs/2602.15853
点滅する多腕バンディット [cs.IR, cs.LG, cs.AI]目的：変動する行動利用可能性環境における逐次意思決定
- 行動選択の自由度が制限される状況下での意思決定は，ロボット工学や資源配分など幅広い分野で重要である。
- 従来の多腕バンディット問題では，行動の選択肢が常に利用可能であると仮定されており，現実世界の制約を考慮していない。
- 行動の利用可能性が変化する状況下での最適な探索戦略を明らかにし，学習コストを最小限に抑えることを目指す。
- 提案アルゴリズムは，確率的に進化するグラフ構造を持つ環境において，堅牢な探索能力を発揮し，sublinearな後悔境界を達成した。
- 理論的な解析により，局所的な移動制約下での学習コストの限界が示され，情報理論的な下限との整合性が確認された。
- ロボット災害対応シミュレーションによって，提案手法の実用性と有効性が実証された。
Link: https://arxiv.org/abs/2602.17315
変分グレーボックス動力学マッチング [cs.LG]目的：複雑な分布と動力学的システムの学習
- 現実世界の複雑な現象を理解・予測するためには，物理モデルとデータ駆動型アプローチの融合が不可欠である。
- 既存の物理モデルは不完全な場合が多く，現実世界の観測を完全に説明できないという課題がある。
- 不完全な物理モデルとデータから，より正確かつ解釈可能な動力学的モデリングを実現することを目指す。
- 提案手法は，観測データのみから動力学を学習し，物理パラメータを潜在変数として扱うことで，物理モデルの解釈性を維持する。
- 従来のデータ駆動型アプローチや既存のグレーボックス手法と同等以上の性能を示し，ODE/PDE問題や気象予測において有効性が確認された。
- Neural ODEsの拡張性や安定性の問題を回避し，シミュレーションフリーな学習を可能にする。
Link: https://arxiv.org/abs/2602.17477
KLong：極めて長期的タスクのためのLLMエージェントの訓練 [cs.CL, cs.AI, cs.CL]目的：極めて長期的タスクを解決するためのLLMエージェント
- 大規模言語モデル(LLM)は多様なタスクに応用可能だが，長期的な計画や実行が課題である。
- 既存のLLMエージェントは，長期間のタスクにおいて文脈が消失し，性能が低下しやすい。
- 長期間の文脈を維持し，段階的に学習を進めることで，LLMエージェントの性能を向上させる。
- KLongは，trajectory-splitting SFTとprogressive RLという二段階の学習手法により，長期的タスクにおける性能を向上させている。
- PaperBenchにおいて，KLong(106B)はKimi K2 Thinking(1T)を11.28%上回る性能を示し，他のコーディングベンチマークでも高い汎化性能を発揮した。
- Research-Factoryという自動パイプラインにより，高品質な訓練データを生成し，大規模な長期タスクのtrajectoryを構築することが可能になった。
Link: https://arxiv.org/abs/2602.17547
測地意味検索：学習された局所リーマン多様体を用いた引用グラフの地図的ナビゲーション [cs.IR, cs.RO, cs.CL, cs.DL, cs.HC, cs.IR, cs.IR, cs.LG, cs.SI]目的：引用グラフにおける幾何学に基づいた意味検索の実現
- 学術論文間の関係性をグラフ構造で捉え，知識発見や情報検索に応用する重要性が高まっている。
- 既存手法は固定されたユークリッド距離に依存し，論文間の意味的な関連性を十分に捉えられていない。
- ノード固有のリーマン計量を用いて，引用グラフ上の測地距離を学習し，より正確な検索を実現する。
- GSSは，arXiv論文の引用予測ベンチマークにおいて，SPECTER+FAISSベースラインと比較してRecall@20が23%向上した。
- 測地距離を用いた検索が直接的な類似度検索よりも優れた結果をもたらす条件が，Bridge Recovery Guaranteeによって明らかにされた。
- 階層的な粗から細かい検索とk-meansプーリングにより，計算コストを4分の1に削減しつつ，検索品質を97%維持した。
Link: https://arxiv.org/abs/2602.23665
エージェント集合体：自己組織化マルチエージェントシステムにおける均衡，不確定性，内生サイクル [cs.MA, cs.AI, math.DS]目的：自己組織化マルチエージェントシステムの人口構造の動態と均衡
- AIシステムの複雑化に伴い，エージェントの最適な配置と動的な調整が重要課題となっている。
- 従来のマルチエージェントシステムでは，エージェントの生成・消滅・役割変化を制御する理論的基盤が存在しない。
- エージェント集団の動態を制御し，変化する状況に適応するフレームワークを提案し，その性質を分析する。
- エージェント集合体（Agentic Hive）の均衡存在が，ブルワーの不動点定理によって証明された。
- エージェント間の戦略的相補性により，複数の均衡状態が生じることが示された。
- 資源や嗜好の変化に対する集合体の構造変化を予測するモデルが構築され，パラメータ空間の分類と動態の制御が可能となった。
Link: https://arxiv.org/abs/2603.00130
KERV：運動学的修正推測デコーディングによる具現化されたVLAモデル [cs.RO, cs.LG]目的：ビジョン・言語・行動（VLA）モデルにおける推論速度の向上
- VLAモデルはロボット制御のパラダイムを構築する上で重要であり，物理世界とのインタラクションを可能にする。
- VLAモデルは推論速度が遅いという課題があり，リアルタイム制御への応用を妨げている。
- 推測デコーディングとロボットの運動学を組み合わせ，再推論コストと閾値調整の困難さを解決する。
- KERVは，運動学に基づくカルマンフィルタを用いて行動を予測し，推測デコーディングのエラーを補正することで，高コストな再推論を回避する。
- 運動学に基づく閾値調整戦略を設計し，閾値決定の難しさを軽減する。
- 多様なタスクと環境において，KERVはSuccess Rateをほぼ損なわずに27%～37%の速度向上を達成した。
Link: https://arxiv.org/abs/2603.01581
LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成 [cs.CV, cs.LG]目的：長文脈における3次元再構成
- ロボット工学や自動運転において，周囲環境の正確な3次元理解は不可欠である。
- 既存手法では，長時間の動画に対する再構成が計算量やメモリ容量の制約により困難である。
- チャンク単位での処理とハイブリッドメモリを用いて，長時間の動画でも高精度な再構成を可能にする。
- LoGeRは，最適化なしで非常に長いシーケンスに対して高密度な3次元再構成を可能にする新しいアーキテクチャである。
- KITTIベンチマークにおいて，既存の最先端手法と比較してATEを74%以上削減する顕著な性能向上を示した。
- 最長19,000フレームのシーケンスを含むデータセットで，ロバストかつグローバルに整合性の取れた再構成を実現した。
Link: https://arxiv.org/abs/2603.03269
大規模LLM集団における創発的協調のベンチマーク：MoltBookアーカイブを用いた評価フレームワーク [cs.MA, cs.AI, cs.SI]目的：大規模LLM集団における創発的協調性評価のためのフレームワーク
- LLMのマルチエージェントシステムは発展途上であり，協調性の評価が不可欠である。
- 既存の評価手法では，大規模分散型環境における自律的な情報伝達や組織化を捉えきれない。
- 大規模なLLM集団における役割分担，情報拡散，協調タスク解決を定量的に評価することを目指す。
- MoltBookアーカイブを用いた評価により，明確なコア・ペリフェリー構造が確認された(シルエット係数0.91)。
- 情報カスケード分布はべき乗則に従い，分散タスク解決における協調性のオーバーヘッドが大きかった(Cohen's d = -0.88)。
- 本フレームワークは，マルチエージェントプロトコルの比較や評価手法の研究を促進する。
Link: https://arxiv.org/abs/2603.03555
並行世界における検索エージェントの評価 [eess.SY, cs.RO, cs.SY, cs.AI]目的：検索エージェントの評価のための新規フレームワーク
- LLMの能力拡張に貢献する検索ツールの重要性が増している
- 既存の評価ベンチマークはコスト高，陳腐化，曖昧性などの課題がある
- モデルの知識範囲外の未来シナリオを用いた評価により，これらの課題を解決する
- 本研究では，モデルの知識限界を超えた未来の状況を想定する「Mind-ParaWorld」という新しい評価フレームワークを提案する。
- ParaWorld Law Modelを用いて，動的に生成された検索結果に基づいてエージェントの性能を評価する。
- 実験の結果，検索エージェントは完全な情報が与えられれば証拠の統合は得意だが，未知の環境での証拠収集や判断に課題があることが示された。
Link: https://arxiv.org/abs/2603.04751
トランスフォーマー駆動型マルチラベル学習による術中有害事象の早期警告 [cs.LG, cs.AI]目的：術中有害事象の早期警告
- 手術リスク軽減と患者安全性の向上に不可欠な分野であり，医療の質保証に貢献する。
- 有害事象間の依存関係の見落とし，異種臨床データの活用不足，データセットの不均衡性が課題である。
- 複数の有害事象を同時に予測し，臨床現場での意思決定支援を目指す。
- MuAEデータセットを構築し，術中6種類の有害事象予測を可能にした。
- TAFiLMモジュールとLCRLossを導入し，予測精度向上と事象間依存性の考慮を実現した。
- 5分，10分，15分の早期警告タスクで，既存手法を上回るF1スコアを達成した。
Link: https://arxiv.org/abs/2603.05212
反射フローサンプリングの強化 [cs.CV, cs.AI]目的：テキスト画像生成における生成品質及びテキストプロンプトとの整合性向上
- テキスト画像生成の需要増加に伴い，生成モデルの進化が加速している。
- 既存の推論時強化手法は従来の拡散モデルに特化しており，フローモデルへの適用が困難である。
- フローモデル，特にCFG蒸留モデルにおける推論品質及びプロンプト整合性を改善する。
- 提案手法であるRF-Samplingは，テキスト画像整合性スコアに対する勾配上昇を暗黙的に行うことが理論的に示された。
- RF-Samplingは，テキスト表現の線形結合とフロー反転を活用し，入力プロンプトと整合性の高いノイズ空間を探索する。
- 複数のベンチマークにおいて，RF-Samplingは生成品質とプロンプト整合性を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2603.06165
等方層：レコメンデーションの較正とバイアス除去のための統一的フレームワーク [cs.IR, cs.AI, cs.LG]目的：大規模レコメンデーションシステムにおける較正とバイアス除去
- レコメンデーションシステムの精度向上は，ビジネス上の成功に不可欠である。
- 既存手法は，較正とバイアス除去を別問題として扱い，複雑なインフラを必要とする。
- 単一の軽量なモジュールで，較正とバイアス除去を統一的に解決することを目指す。
- 提案手法である等方層は，追加のデータ前処理やバイアス推定を必要とせず，学習データから較正・バイアス除去機能を自動的に学習する。
- 埋め込み表現を変更するだけで，あらゆる高次元特徴空間において，特定のサブセグメントに合わせた較正が可能となる。
- A/Bテストの結果，予測精度，較正の忠実度，ランキングの一貫性が大幅に向上することが確認された。
Link: https://arxiv.org/abs/2603.06589
物理情報に基づいたAIによる強誘電体垂直NANDの保持特性解析加速：デイスケールTCADから秒スケールサロゲートモデルへ [cs.LG, cs.AI, physics.comp-ph]目的：強誘電体垂直NANDの保持特性予測の効率化
- 次世代メモリ技術として強誘電体NANDが注目されており，高性能化が求められている。
- 3次元強誘電体NANDの保持特性は複雑な物理現象に起因し，最適化が困難である。
- TCADシミュレーションの計算コスト問題をAIサロゲートモデルで解決し，デバイス設計を加速する。
- 物理情報を取り入れたニューラルオペレータにより，TCADの10000倍以上の高速化を実現した。
- サロゲートモデルは物理的に整合性があり，信頼性考慮SPICEシミュレーションを支援する。
- 単一の強誘電体FET構成に対する有効性が示され，今後の損失メカニズムモデリングへの道を開く。
Link: https://arxiv.org/abs/2603.06881
ARと拡散LLMにおける層ごとの表現能力の比較分析 [cs.CL, cs.LG]目的：ARモデルと拡散LLMの内部表現の比較
- 大規模言語モデルは自然言語処理の基盤であり，その性能向上は重要課題である。
- 拡散LLMがARモデルと同等の性能を示す一方，内部表現がどのように変化するか不明である。
- 拡散学習がもたらす内部表現の変化を解明し，モデルの圧縮可能性を探る。
- 拡散LLMは，ARモデルと比較して，よりグローバルで冗長性の高い表現を早期層に持つことが示された。
- ARモデルから初期化された拡散LLMは，拡散学習を経てもARモデルの動特性を維持し，初期化バイアスが確認された。
- 拡散LLMは，冗長性を利用することで，性能を維持しつつ計算量を最大18.75%削減できることが明らかになった。
Link: https://arxiv.org/abs/2603.07475
マルチエージェントシステムにおけるセキュリティに関する考察 [cs.CR, cs.AI]目的：マルチエージェントシステムの脅威状況の特性評価と，AIセキュリティフレームワークの評価
- AI技術の進展に伴い，複数の自律エージェントから構成されるシステムの利用が増加している。
- 単一のAIモデルに対するセキュリティ対策では，マルチエージェントシステム特有の脆弱性に対応できない。
- 既存のフレームワークの脆弱性を明らかにし，マルチエージェントシステムのセキュリティ向上に貢献する。
- 本研究では，マルチエージェントシステムの脅威状況を体系的に分析し，193個の脅威項目を特定した。
- 既存の16個のAIセキュリティフレームワークを評価した結果，いずれも単一のカテゴリにおいて十分な網羅性を示さなかった。
- OWASP Agentic Security Initiativeが65.3%の網羅率で最も高い評価を受け，CDAO Generative AI Responsible AI Toolkitは開発・運用段階で優位性を示した。
Link: https://arxiv.org/abs/2603.09002
LongFlow：推論モデルのための効率的なKVキャッシュ圧縮 [cs.LG, cs.CL]目的：推論モデルにおけるKVキャッシュ圧縮手法
- 複雑なタスク実行において，高性能な推論モデルの需要が高まっている。
- 推論モデルの性能向上は出力シーケンスの長さを増加させ，KVキャッシュの肥大化を招く。
- 長出力におけるKVキャッシュの効率的な圧縮と，計算コストの低減を目指す。
- LongFlowは，アテンション計算の中間結果から効率的な重要度推定指標を導出し，KVキャッシュを圧縮する。
- FlashAttention，重要度推定，トークン削除を融合したカスタムカーネルを開発し，システムレベルの効率を向上させた。
- 実験の結果，LongFlowはモデル精度を最小限に抑えつつ，スループットを最大11.8倍改善し，KVキャッシュを80%圧縮することに成功した。
Link: https://arxiv.org/abs/2603.11504
HeiSD：運動学的認識を持つ具現的視覚言語行動モデルのためのハイブリッド推測デコーディング [cs.DC, cs.RO, cs.DB, cs.LG]目的：具現的視覚言語行動モデルの推論速度向上
- ロボット制御において視覚言語行動モデルが主流であり，その性能向上が求められている。
- 従来のVLAモデルは推論速度が遅く，実用上の課題となっていた。
- 推測デコーディングのハイブリッド手法により，VLAモデルの高速化と高精度化を実現する。
- HeiSDは，シミュレーション環境において最大2.45倍，実環境で2.06～2.41倍の推論速度向上を達成した。
- 提案手法は高いタスク成功率を維持しながら，推論速度の高速化に貢献する。
- HeiSDは，ドラフトの棄却やエラー，ハイブリッド境界の決定といった課題を解決した。
Link: https://arxiv.org/abs/2603.17573
ネットワーク攻撃の分類と合成データ生成のための敵対的学習手法の統計的評価における機械学習 [cs.CR, cs.AI, stat.AP, stat.ML]目的：ネットワーク攻撃の分類と，合成データ生成のための敵対的学習手法の評価
- ネットワークセキュリティは重要であり，高度化する攻撃から個人情報を守る必要性が高まっている
- 既存のネットワーク侵入検知システムは，高度な攻撃への対応が課題となっていた
- 現実のデータと類似した合成データ生成による，侵入検知システムの改善を目指す
- 機械学習アルゴリズムを用いて，安定性と信頼性の高いネットワーク攻撃検知モデルを構築した
- 敵対的学習アルゴリズムにより生成された合成データは，現実のデータと高い忠実度と有用性を示した
- SDVフレームワーク，TRTS/TSTRテスト，非パラメトリック統計テスト，f-divergenceなどの指標を用いて，合成データの品質を評価した
Link: https://arxiv.org/abs/2603.17717
生成制御を最適化として：時間非依存フローマッチングによる適応的・堅牢なロボット制御 [cs.RO, cs.AI]目的：ロボット制御における生成制御の最適化手法
- ロボットの模倣学習は，より複雑なタスクを達成するために不可欠であり，その性能向上は重要である。
- 従来のフローマッチングは，状態の複雑さに応じて計算資源を割り当てず，効率が悪いという課題があった。
- 状態の複雑さに応じて計算量を調整し，効率的かつ安全なロボット制御を実現することを目指す。
- GeCOは，行動合成を軌跡積分から反復最適化へと変換する時間非依存フレームワークである。
- GeCOは，専門家の行動を安定なアトラクタとして学習し，テスト時の推論プロセスを適応的に行うことで，計算効率を向上させる。
- 最適化された行動における速度場のノルムが，分布外検出器として機能し，安全性を高める。
Link: https://arxiv.org/abs/2603.17834
合理的な推論を行うAIエージェントは，ゼロショットでゲーム理論的な失敗を回避できる（証明付き） [cs.AI, cs.MA, econ.TH]目的：AIエージェントにおける戦略的安定性の実現
- オンラインプラットフォーム市場におけるAIエージェントの役割が増加しており，市場の安定性が重要である。
- 既存のLLMエージェントは戦略的行動において一貫性がなく，均衡行動に収束するか不明確である。
- 現代のAIエージェントの推論・学習能力だけで戦略的安定性を実現できるか検証する。
- ベイズ学習の理論を拡張し，AIエージェントが繰り返しゲームにおいてナッシュ均衡に近づくことが証明された。
- 事前情報が不完全，または報酬が非公開の場合でも，同様の収束保証が得られた。
- 囚人のジレンマを含む５つのゲーム環境で実験を行い，理論的結果が実証された。
Link: https://arxiv.org/abs/2603.18563
胸部X線画像の局所情報を考慮した微細特徴表現学習：LoFi [cs.CV, cs.AI]目的：胸部X線画像における微細特徴表現の学習
- 胸部X線画像診断において，局所的な所見が重要であり，それを捉える表現学習が求められる。
- 既存のコントラスト学習では領域レベルの教師信号が不足し，大規模言語モデルも微細な特徴を捉えきれない。
- 局所情報を考慮した損失関数により，領域レベルの教師信号を活用し微細特徴表現を学習する。
- 提案手法LoFiは，シグモイド損失，キャプション生成損失，局所情報を考慮したキャプション生成損失を同時に最適化する。
- これにより，MIMIC-CXRおよびPadChest-GRデータセットにおいて，検索およびフレーズグラウンディングの性能が向上した。
- 本手法は，検索ベースの文脈学習に微細特徴エンコーダを統合することで，多様な設定下でのグラウンディング性能を強化する。
Link: https://arxiv.org/abs/2603.19451
等方性拡散サンプラーにおけるWasserstein伝播のための動径荷重-予備証明書 [cs.LG]目的：Wasserstein伝播における動径荷重と予備の幾何学的な関係性の定量化
- 拡散モデルの性能向上には，サンプリング誤差の構造の理解と制御が不可欠である。
- 既存の研究では，安定性と一貫性の分離が十分ではなく，厳密な誤差評価が困難である。
- 拡散モデルの安定性を保証するための理論的枠組みと，具体的な証明方法を確立すること。
- 学習されたドリフトの最悪ケースにおける動径プロファイルを分析することで，安定性を1次元比較に還元した。
- 動径荷重-予備幾何学を用いて，誤差の増幅を定量化し，Wasserstein安定性の証明書を供給する。
- 有限の荷重と予備を持つ場合に，適応されたコストを伝播させるための主要な定理を証明した。
Link: https://arxiv.org/abs/2603.19670
RoboECC：VLAモデル向けマルチ要素認識エッジクラウド協調配置 [cs.DC, cs.LG, cs.RO]目的：VLAモデルの効率的なエッジクラウド協調配置
- ロボットの自律的な行動を可能にするVLAモデルの重要性が増している
- VLAモデルは計算コストが高く，リアルタイム処理が課題となっている
- モデル構造とネットワーク状況の変化に対応できる配置方法の確立
- RoboECCは，モデルとハードウェアの特性を考慮した分割戦略により，最適な配置点を特定する。
- ネットワーク状況の変化に対応する調整手法により，最適な性能を維持する。
- 実験結果から，最大3.28倍の高速化を，わずかなオーバーヘッド(2.55%~2.62%)で実現している。
Link: https://arxiv.org/abs/2603.20711
AgentHER：LLMエージェント軌跡のリラベルに対する事後経験再生 [cs.AI, cs.CL]目的：LLMエージェントの軌跡データを用いたオフラインデータ拡張による学習信号の回復
- LLMエージェントは実世界タスクにおいて未だ課題が多く，性能向上が求められている。
- 既存の手法では，失敗した軌跡データが廃棄され，貴重な学習機会が失われている。
- 失敗した軌跡データから代替目標を設定し，有用な学習データへと再利用することを目指す。
- AgentHERは，失敗した軌跡を分析し，達成可能な代替目標をLLMを用いて特定する。
- WebArenaとToolBenchにおいて，AgentHERは成功事例のみを用いたSFTよりも7.1～11.7ppの性能向上を達成した。
- データ効率も2倍向上し，少ない成功事例で同等の性能が得られることが示された。
Link: https://arxiv.org/abs/2603.21357
AdaRubric：タスク適応型評価基準によるLLMエージェントの評価 [cs.AI, cs.CL]目的：LLMエージェント評価のためのタスク適応型評価基準の生成と活用
- LLMの能力評価は，その性能向上に不可欠であり，様々なタスクへの応用が期待されている。
- 既存の固定された評価基準では，タスク固有の重要な要素を捉えきれないという課題がある。
- タスク記述に基づいて動的に評価基準を生成し，より正確な評価とエージェントの改善を目指す。
- AdaRubricは，WebArenaとToolBenchにおいて，人間の評価との相関係数0.79を達成し，信頼性も高いことが示された。
- AdaRubricで生成されたデータを用いてDPOエージェントを学習させた結果，Prometheusと比較してタスク成功率が6.8〜8.5pp向上した。
- SWE-benchコード修正においても性能向上が認められ，PPOの収束速度も加速することが確認された。
Link: https://arxiv.org/abs/2603.21362
スペクトル融合による降水ナウキャスト予測期間の拡張：レーダー観測と基礎モデルの事前知識の活用 [cs.LG, cs.AI]目的：降水ナウキャストの予測期間延長
- 災害軽減や航空安全において，降水ナウキャストは不可欠である。
- レーダーのみのモデルでは，大規模な気象状況の把握が難しく，予測期間が長くなるほど精度が低下する。
- レーダー画像と気象データの表現の違いを克服し，予測精度を向上させる。
- 提案手法PW-FouCastは，Pangu-Weatherの予測をスペクトル事前知識として利用する周波数領域融合フレームワークである。
- PW-FouCastは，周波数変調，周波数メモリ，逆周波数アテンションの3つの要素により，予測期間を効果的に延長し，構造的忠実性を維持する。
- SEVIRおよびMeteoNetのベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.21768
偏微分方程式に対する線形・非線形融合ニューラル演算子 [cs.LG, cs.NA, math.NA]目的：偏微分方程式の解写像の学習
- 工学や科学におけるシミュレーションの高速化が求められており，数値解析の代替手段として注目されている。
- 従来の数値解析では計算コストが高く，パラメータ変化への対応が難しいという課題があった。
- ニューラル演算子を用いることで，効率的な直接推論を可能にし，計算コストを削減することを目指す。
- 線形効果と非線形効果を分離することで，学習効率が向上し，軽量かつ解釈可能な表現を実現した。
- 提案手法LNF-NOは，多様な偏微分方程式のベンチマークにおいて，既存手法と比較して学習時間が大幅に短縮された。
- 特に3次元ポアソン・ボルツマン方程式のケースでは，高い精度を維持しつつ，学習時間を大幅に削減することに成功した。
Link: https://arxiv.org/abs/2603.24143
SEVerA：自己進化型エージェントの検証合成 [cs.CL, cs.SI, cs.LG, cs.PL, cs.SE]目的：自己進化型エージェントの安全性と正確性の形式的保証
- プログラム修復や科学的発見において，自己進化型LLMエージェントの有効性が示されている。
- 既存のフレームワークには，安全性や正確性の形式的な保証がなく，信頼性とセキュリティ上の懸念がある。
- 形式的な仕様とタスクの有用性を組み合わせた制約付き学習問題としてエージェントのコード生成を定式化する。
- SEVerAは，Dafnyプログラム検証，記号的数学合成，ポリシー準拠のエージェントツール使用において，制約違反ゼロを達成した。
- 形式的な行動制約は正確性を保証するだけでなく，より高品質なエージェントの合成を導くことが示された。
- 既存のベースラインと比較して，性能が向上しており，形式的な制約が有用であることが示唆される。
Link: https://arxiv.org/abs/2603.25111
Trace2Skill：軌道局所的な教訓を転移可能なエージェントスキルに蒸留する [cs.AI]目的：複雑なタスクを遂行するためのドメイン特化型スキルの生成
- LLMエージェントの能力向上が不可欠であり，特定の分野への応用が求められている。
- 手動でのスキル作成はスケーラビリティのボトルネックとなり，自動生成は汎化性に欠ける場合がある。
- 広範な実行経験を分析し，統一的なスキルディレクトリを構築することで，この問題を解決する。
- Trace2Skillは，既存のスキルを強化するだけでなく，ゼロから新しいスキルを作成できる。
- 様々なドメインで，既存の強固なベースラインと比較して，大幅な性能向上を示した。
- 生成されたスキルはLLMの規模や未知の状況においても高い転移性と汎化性を示すことが確認された。
Link: https://arxiv.org/abs/2603.25158
オンポリシー蒸留の再検討：経験的な失敗モードと単純な修正 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルのオンポリシー蒸留における失敗モードの特定と改善策の提案
- LLMの性能向上には，教師モデルからの密な指導が重要であり，オンポリシー蒸留はその有効な手法の一つである。
- 従来のオンポリシー蒸留は，長いロールアウトにおいて教師モデルとの分布の乖離が生じやすく，学習シグナルが不安定になりやすい。
- 教師モデルがサポートするトークン集合を用いた局所的な分布一致により，学習の安定性と性能向上を目指す。
- 従来のトークンレベルのオンポリシー蒸留には，不均衡な教師信号や信頼性の低いガイダンスなど，複数の失敗モードが存在することが明らかになった。
- 提案手法である教師トップK局所サポートマッチングは，最適化の安定性を向上させ，標準的なオンポリシー蒸留と比較して19.8%の性能向上を実現した。
- この手法は，推論タスクやマルチタスクベンチマークを含む様々な設定で有効であり，安定したオンポリシー蒸留のための実践的なレシピを提供する。
Link: https://arxiv.org/abs/2603.25562
粒状ボールに基づくトポロジー構築，特徴強化，相互融合による多視点グラフ畳み込みネットワーク [cs.CL, cs.CV, cs.AI]目的：多視点データにおける一貫性の完全な活用
- 多視点学習は，多様な情報源からのデータ統合に不可欠であり，よりロバストで正確な分析を実現する。
- 既存手法では，近傍探索のパラメータ設定が性能に大きく影響したり，視点内の特徴間の一貫性が軽視されたりする。
- 本研究では，粒状ボールを用いたトポロジー構築，特徴強化，相互融合により，ノード間，特徴間，視点間の一貫性を最大限に活用する。
- 提案手法MGCN-FLCは，粒状ボールアルゴリズムによりノード間の類似性を捉え，トポロジー構造を改善する。
- 特徴強化モジュールは，視点内の特徴間の一貫性を捉え，より高品質な埋め込み表現を獲得する。
- 相互融合モジュールは，各視点が他のすべての視点と深く相互作用し，多視点間の一貫性を高める。
Link: https://arxiv.org/abs/2603.26729
ScoringBench: 適切なスコアリング規則による表形式ファウンデーションモデルの評価ベンチマーク [eess.SY, cs.SY, cs.AI]目的：表形式ファウンデーションモデルの評価基準
- 表形式データは様々な分野で広く利用され，その予測精度向上は重要である。
- 従来の評価指標は点予測に偏っており，モデルが持つ確率分布の情報が十分に活用されていない。
- 適切なスコアリング規則を用いて表形式モデルを評価し，より実用的な性能評価を可能にすること。
- ScoringBenchは，CRPSやCRLSを含む多様なスコアリング規則を用いた評価を可能にするベンチマークである。
- 従来の点予測指標とスコアリング規則によるランキングは大きく異なり，モデル選択の重要性を示す。
- 評価指標の選択は，アプリケーションにおけるエラーコストを考慮したモデリング上の決定であることが示された。
Link: https://arxiv.org/abs/2603.29928
コード生成における随時思考 [cs.SE, cs.LG]目的：コード生成時の思考メカニズム
- 近年のLLMの発展は目覚ましいが，特にコード生成においては，問題の複雑さが増すにつれて思考の限界が明らかになっている。
- 既存手法は，事前の思考に依存しており，コード実装中に問題の全容が明らかになる場合に適応できないという課題があった。
- コード生成プロセスにおける思考の必要度に応じて，動的に思考を割り当てるメカニズムを開発し，性能向上を目指す。
- 提案手法「Think-Anywhere」は，コード生成中の任意のトークン位置で思考を呼び出すことを可能にし，最先端の性能を達成した。
- 多様なLLMに対して一貫した汎化性能を示し，既存の思考手法や後学習アプローチを上回る結果が得られた。
- 分析の結果，Think-Anywhereはエントロピーの高い箇所で思考を適応的に呼び出すことができ，解釈可能性の向上に貢献している。
Link: https://arxiv.org/abs/2603.29957
時系列異常検知のためのマトリックスプロファイル：TSB-ADにおける再現可能なオープンソースベンチマーク [cs.LG]目的：時系列異常検知のためのマトリックスプロファイル手法のベンチマーク性能向上
- 時系列データは，金融，医療，産業など幅広い分野で重要であり，異常検知は不可欠である。
- 従来の異常検知手法は，計算コストが高い，解釈性が低いなどの課題がある。
- マトリックスプロファイルを用いた効率的かつ解釈可能な異常検知手法を確立すること。
- 提案手法は，TSB-ADベンチマークにおいて，前処理，最近傍探索，後処理を組み合わせることで高い性能を示した。
- 特に，繰り返し異常に対する効率的なk近傍探索が性能向上に貢献している。
- 実装およびハイパーパラメータ設定を公開することで，マトリックスプロファイルに基づいた異常検知の再現性を確保した。
Link: https://arxiv.org/abs/2604.02445
評議会モード：LLMの幻覚とバイアスを軽減するための異種マルチエージェント合意フレームワーク [cs.CL, cs.AI]目的：LLMの幻覚とバイアスの軽減
- LLMは高度な能力を持つが，誤情報や偏見といった課題があり，信頼性が求められる。
- 特にMoEアーキテクチャでは，これらの問題が顕在化しやすく，実用上のリスクとなる。
- 多様なLLMによる合意形成を通じて，LLMの信頼性と事実に基づいた応答を目指す。
- 評議会モードは，幻覚率を35.9%相対的に低減し，TruthfulQAで7.8ポイントの改善を達成した。
- MDR-500ベンチマークでは，品質スコア91.7%を記録し，単一モデルの最高スコアを10.2ポイント上回った。
- 評価プロトコルに基づき，バイアスの分散が低く，コスト効率も考慮されたフレームワークである。
Link: https://arxiv.org/abs/2604.02923
マラウイ湖流域における強化学習を用いた持続可能な土地利用配分 [cs.AI, cs.LG]目的：マラウイ湖流域における土地利用配分の最適化
- 生態学的に脆弱な地域での不持続可能な土地利用は，生物多様性，水資源，人々の生活を脅かす重要な課題である。
- 土地利用計画において，生態系サービス価値を最大化しつつ，地域特性を考慮した配分方法が確立されていない。
- 強化学習を用いて，生態系サービス価値を最大化する土地利用配分を可能にし，環境計画の支援を目指す。
- 強化学習エージェントは，生態系サービス価値の総量を効果的に増加させることを学習した。
- 空間的な報酬設計は，生態学的に健全なパターンへの土地利用配分を誘導し，均質な土地利用の集積や水域付近の森林保全に貢献した。
- 本フレームワークは，政策パラメータの変化に意味のある反応を示し，環境計画のためのシナリオ分析ツールとしての有用性が示された。
Link: https://arxiv.org/abs/2604.03768
ReFinE：研究知見を用いたUIモックアップ反復の効率化 [cs.CL, cs.HC, cs.HC, cs.AI]目的：UIモックアップ反復における研究知見の活用
- UIデザインの質向上には，HCI研究の活用が不可欠である。
- 研究論文の検索，専門用語の理解，文脈の欠如，具体性の低さなどが課題となる。
- UIデザインプロセスへの研究知見の組み込みを支援し，デザインの質を向上させる。
- ReFinEは，モックアップのデザイン文脈に関連するHCI文献からデザインへの示唆を抽出し，提示する。
- これにより，デザイナーの認知負荷を軽減し，研究に基づいたUIデザインを促進する。
- 本研究は，研究とデザインの実践を結びつけるツールを提供することで，そのギャップを埋める貢献をする。
Link: https://arxiv.org/abs/2604.04353
強化学習を用いたビジョン-言語モデルの失敗モードの発見 [cs.CV, cs.AI]目的：ビジョン-言語モデルの失敗モードの自動的な発見
- 近年，画像とテキストを同時に理解するモデルが発展している。その応用範囲は広い。
- 既存の研究では，人間が手動で弱点を見つけていたが，コストがかかり，網羅性に欠ける。
- 本研究は，人間の介入なしに，モデルの弱点を自動的に発見することを目的とする。
- 提案手法では，強化学習を用いて質問エージェントを訓練し，モデルの誤回答を引き出す。
- 質問の複雑さを徐々に上げ，微細な視覚情報や多様なスキルに焦点を当てることで，新たな失敗モードを特定する。
- 様々なモデルの組み合わせに対して，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.04733
アトミックスキルによるコーディングエージェントのスケール拡大 [cs.SE, cs.AI]目的：アトミックスキル習得を通じたコーディングエージェントのスケール拡大
- ソフトウェア開発の効率化が求められる中，AIエージェントの活用が不可欠となっている。
- 既存のコーディングエージェントは特定のタスクに特化し，汎用性に課題がある。
- アトミックスキルを向上させることで，多様なタスクへの適応能力を高めることを目指す。
- 本研究では，コードの局所化，編集，テスト生成など，5つの基本的なアトミックスキルを定義した。
- これらのスキルを共同で強化学習することで，スキル間の干渉を避けつつ，一貫して性能を向上させた。
- アトミックスキルの向上は，バグ修正やコードリファクタリングなどの複合タスクにおいても有効性が確認された。
Link: https://arxiv.org/abs/2604.05013
大規模次期バスケット購買推薦のためのケイデンス認識集合符号化 [cs.IR, cs.LG]目的：大規模小売における次期バスケット購買推薦のためのケイデンス認識集合符号化手法
- 小売業における購買行動分析は，売上向上に不可欠であり，特に頻繁に補充される商品群で重要性が高い。
- 既存モデルは，購買履歴を離散的なバスケットイベントとして扱うため，経過時間や時間経過に伴う商品ランキングの変化を捉えられない。
- 商品の購買ケイデンスを明示的にモデル化し，大規模なデータセットでも効率的に推論可能な推薦モデルを開発すること。
- 提案手法CASEは，アイテムレベルのケイデンス学習とアイテム間の相互作用を分離することで，暦時間と効率的な計算を両立。
- 複数の公開ベンチマークと実データセットで，CASEは既存手法と比較して，適合率，再現率，NDCGが向上。
- 大規模な実環境評価では，トップ5における適合率を最大8.6％，再現率を最大9.9％向上させ，実用的な効果が確認された。
Link: https://arxiv.org/abs/2604.06718
計画タスク遮蔽：計画タスクを解けないようにすることで欠陥を検出し修正する [cs.AI]目的：計画タスクにおける欠陥の検出と修正
- 計画立案はAIの重要な要素であり，現実世界の問題解決に応用される
- 計画タスクの仕様に誤りがあると，意図しない結果を引き起こす可能性がある
- 計画タスクを解けないようにすることで，潜在的な欠陥を特定し修正する
- 本研究では，計画タスク遮蔽という問題を提起し，最小限の修正でタスクを解けないようにする最適アルゴリズムallminを提案した。
- allminは，計画タスクの規模を大きくしても，システムを効果的に遮蔽できることを実験的に示した。
- これにより，計画タスクの信頼性と安全性を向上させることが期待される。
Link: https://arxiv.org/abs/2604.07042
エージェントのハーネスがどこまで貢献できるか：計画エージェントにおけるLLMの残存役割の測定 [cs.RO, cs.AI, cs.CL]目的：LLMを用いた計画エージェントにおける，ハーネスの貢献度とLLMの残存役割の定量化
- LLMエージェントの性能向上にはハーネスが不可欠であり，その効果を理解することが重要である。
- ハーネスの性能が大きく影響するため，LLM自身の能力とハーネスの貢献度を区別することが難しい。
- ハーネス各層の貢献度を測定し，LLMの役割を明確化することで，エージェント設計の効率化を目指す。
- ノイズの多い共同 Battleship 環境において，ハーネスの層ごとの貢献度を評価した結果，宣言的計画層が最も大きな性能向上をもたらした。
- 宣言的計画層の導入により，勝率が50.0%から74.1%に向上し，F1スコアも改善された。 (+0.017 F1)
- LLMによる修正ゲートは，限定的な状況でのみ有効であり，勝率への影響は軽微であった (-3.7pp)。
Link: https://arxiv.org/abs/2604.07236
RL-ASL：強化学習を用いたTSCHネットワークの動的リスニング最適化 [cs.NI, cs.AI, cs.LG]目的：TSCHネットワークにおける動的リスニング最適化
- 産業用IoTの普及に伴い，低消費電力かつ信頼性の高い無線通信プロトコルが重要である。
- 従来のTSCHスケジューラは静的なスロット割り当てのため，動的なトラフィック状況下で無駄なリスニングが発生する。
- リアルタイムなネットワーク状況に応じてリスニングスロットを動的に調整し，消費電力を削減することを目指す。
- 提案手法RL-ASLは，強化学習によりリスニングスロットのスキップを決定し，アイドルリスニングを削減する。
- FIT IoT-LABおよびCoojaシミュレータの実験結果から，RL-ASLはベースラインプロトコルと比較して最大46%の消費電力削減を達成する。
- RL-ASLは，信頼性を維持しつつ，PRIL-Mと比較して平均遅延を最大96%削減し，スケーラビリティとエネルギー効率に優れる。
Link: https://arxiv.org/abs/2604.07533
潜在異常知識の発掘：視覚言語モデルにおける疎な感受性ニューロンの解明 [cs.CV, cs.AI]目的：視覚言語モデルにおける異常検知能力の根底にあるメカニズムの解明
- 大規模視覚言語モデルは多様なタスクで高性能を示すため，その内部メカニズムの理解が重要である。
- 既存手法では，モデルをブラックボックスとみなし，異常検知のための知識獲得に外部モジュールを必要とする。
- 事前学習済みモデル内に潜在的に存在する異常知識を，追加学習なしに発掘し活用することを目指す。
- 提案手法LAKEは，正常サンプルのみを用いて異常感受性ニューロンを特定し，活性化させる。
- LAKEは，視覚構造の逸脱とクロスモーダルな意味的活性化を統合した高精度な正常性表現を構築する。
- 工業用異常検知ベンチマークにおいて，LAKEは最先端の性能を達成し，ニューロンレベルでの解釈可能性を提供する。
Link: https://arxiv.org/abs/2604.07802
AtomEval：ファクト検証における敵対的主張のアトミック評価 [cs.CL, cs.AI]目的：敵対的主張の妥当性評価
- ファクト検証は，誤情報の拡散を防ぐ上で重要であり，その信頼性向上は喫緊の課題である。
- 既存の評価指標は，意味的な歪みを捉えきれず，表面的な類似性のみに注目しがちである。
- 意味的な妥当性を考慮した評価を通じて，より信頼性の高い敵対的主張の検出を目指す。
- AtomEvalは，主張を主語・関係・目的語・修飾語（SROM）のアトムに分解し，Atomic Validity Scoring（AVS）を用いて評価する。
- FEVERデータセットを用いた実験により，AtomEvalがより信頼性の高い評価指標を提供することが示された。
- LLMベースの敵対的生成モデルの分析から，モデルの性能向上と有効な敵対的主張の生成が必ずしも一致しないことが明らかになった。
Link: https://arxiv.org/abs/2604.07967
脳MRIにおける微細構造セグメンテーションのためのコンポーネント適応および病変レベルの教師あり学習 [cs.CV, cs.LG]目的：脳MRI画像における微細構造セグメンテーションの精度向上
- 脳MRIは，脳疾患の診断・治療において重要な役割を果たす。正確な病変のセグメンテーションは，その精度を左右する。
- 特に微細な病変のセグメンテーションは難易度が高く，既存手法では十分な精度が得られない場合がある。
- 病変のサイズに応じた重み付けと病変レベルの教師あり学習を組み合わせることで，微細病変のセグメンテーション精度を向上させる。
- 提案手法CATMILは，セグメンテーション精度，病変検出，誤り制御においてバランスの取れた性能を示した。
- Dice係数を向上させ，境界誤差を低減させた。特に，微細病変の再現率が大幅に向上し，偽陽性量を最小限に抑えた。
- コンポーネントレベルと病変レベルの教師あり学習を統合した統一的な目的関数が，高度に不均衡な環境下での微細病変セグメンテーションに有効であることを実証した。
Link: https://arxiv.org/abs/2604.08015