arXiv雑要約

AI - 2026/05/08 公開

Fréchet平均を通じたモデル結合の幾何学の一般化 [cs.LG]目的：モデル結合における幾何学的構造の一般化
- 深層学習モデルの組み合わせは，効率的な知識集約と汎化性能向上に不可欠である。
- 単純なパラメータ平均は，モデルのアーキテクチャ対称性を考慮せず，不安定になりやすい。
- 対称性を考慮したモデル結合を実現するため，幾何学的構造と平均化手法の改良を目指す。
- モデル結合をFréchet平均として捉え，適切な多様体上の測地距離の総和を最小化するパラメータを選択する。
- Fréchet平均はFisher結合を包含し，低ランクアダプター(LoRA)のような対称性を持つモデルにも適用可能である。
- LoRA結合における既存手法の限界を明らかにし，より実用的なアルゴリズムを提案・評価した。
Link: https://arxiv.org/abs/2604.27155
WaferSAGE：合成データ生成と評価基準に基づく強化学習によるウェハ欠陥分析 [cs.CY, cs.CL, cs.AI]目的：ウェハ欠陥に関する視覚的質問応答
- 半導体製造において，ウェハ欠陥の迅速かつ正確な特定は品質管理と歩留まり向上に不可欠である。
- 半導体製造におけるウェハ欠陥データの収集はコストがかかり，十分な量のラベル付きデータを得ることが困難である。
- 本研究は，データ不足を克服し，ウェハ欠陥分析の精度を向上させることを目指す。
- WaferSAGEフレームワークは，小規模なビジョン言語モデルを活用し，合成データ生成と強化学習によりウェハ欠陥の視覚的質問応答を実現した。
- ルールベースの評価指標とLLM-Judgeスコアを組み合わせた二重評価フレームワークにより，信頼性の高い自動評価を可能にした。
- 40億パラメータのQwen3-VLモデルは，Gemini-3-Flashに匹敵する性能を発揮し，オンプレミスでのプライバシー保護された展開を可能にした。
Link: https://arxiv.org/abs/2604.27629
マンニホールドに固定された自己対戦による質問学習：検証可能な推論のためのANCORA [cs.LG, cs.AI, cs.PL]目的：検証可能な推論のための質問学習パラダイム
- AIの推論能力向上は，複雑な問題解決や高度な意思決定に不可欠である。
- 既存手法では，固定されたプロンプトセットに依存し，汎用性に欠ける場合がある。
- 人間によるアノテーションなしで，自己改善を通じて推論能力を獲得すること。
- ANCORAは，プロポーザーとソルバーが交互に作用し，検証可能なカリキュラムをゼロから構築する。
- Verus環境において，ANCORAはDafny2Verusのpass@1を81.5%に向上させ，既存のPSV自己対戦を上回る性能を示した。
- Dafny2Verusから学習することで，MBPPとHumanEvalにおいてそれぞれ36.2%と17.2%のpass@1を達成した。
Link: https://arxiv.org/abs/2604.27644
RSAT：構造化された属性付与により，小規模言語モデルが忠実な表の推論を行う [cs.CL, cs.AI, cs.IR, cs.LG]目的：表の質問に対する言語モデルの推論過程におけるセルレベルの引用による根拠の提示
- 表形式データは多くの分野で広く利用されており，正確な分析が不可欠である。
- 言語モデルによる表の推論過程が不透明であり，根拠の検証が困難である。
- 推論過程をセルレベルで明確化し，モデルの忠実性と解釈可能性を高める。
- RSATを用いることで，小規模言語モデル（1-8B）の忠実性が大幅に向上した（0.224→0.826）。
- 引用の妥当性はほぼ完璧であり（0.992），推論と属性付与の統合の重要性が確認された。
- 忠実性に関する報酬を除去すると，忠実度が大幅に低下（0.97→0.03）し，その重要性が示された。
Link: https://arxiv.org/abs/2605.00199
Caracal：スペクトル混合による因果構造 [cs.LG, cs.AI]目的：長系列における大規模言語モデルのスケーラビリティ向上
- 大規模言語モデルは自然言語処理の発展に不可欠だが，計算コストが課題。
- 注意機構の計算量が系列長の二乗に比例し，長系列の処理が困難。
- 高速フーリエ変換を利用し，計算効率と因果関係の両立を目指す。
- Caracalは，注意機構の代替として，パラメータ効率の良いフーリエモジュールを用いる。
- 周波数領域での因果マスキングにより，自己回帰的な生成能力を実現。
- TransformerやSSMと比較して競争力のある性能を示し，移植性も高い。
Link: https://arxiv.org/abs/2605.00292
InvEvolve：大規模言語モデルによる性能保証付きホワイトボックス在庫ポリシーの進化 [cs.LG, cs.AI]目的：大規模言語モデルを用いたオンライン・非定常環境における在庫ポリシー進化のメカニズム
- 在庫管理はサプライチェーンにおいて不可欠であり，効率的な運用は収益性に直結する。
- 従来の在庫ポリシーは，動的な需要変動への適応が難しく，最適な在庫レベルを維持できない場合がある。
- 本研究は，大規模言語モデルを活用し，変化する状況下でも安全かつ効率的な在庫ポリシーを自動進化させることを目指す。
- InvEvolveは，需要データに加え，数値・テキスト特徴量を利用した強化学習により，在庫ポリシーを生成する。
- 生成される在庫ポリシーは，統計的安全性を保証する信頼区間ベースの認証機能を持つ。
- 合成データおよび実際の小売データにおいて，従来の在庫ポリシーや深層学習ベースの手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.00369
適応的エントロピー変調によるマルチターンエージェント強化学習 [cs.AI]目的：マルチターンエージェント強化学習における，探索と活用間のトレードオフ改善
- 大規模言語モデルを用いたエージェントは環境との相互作用能力が向上している。その性能向上のためには，強化学習の活用が不可欠である。
- 従来の強化学習では，疎な報酬のみでは，長期間のインタラクションにおいて個々のステップへの貢献度を評価することが困難である。
- 本研究では，追加の教師信号を用いずに，エントロピーダイナミクスを適応的に変調することで，この課題を解決することを目指す。
- AEMは，応答レベルでのエントロピーダイナミクスを解析し，トークンレベルのノイズの影響を低減することで，強化学習の効率を高める。
- 応答の優位性と驚き度に基づいた不確実性のプロキシを導出し，それを用いて優位性を再スケーリングすることで，探索から活用への移行を自然に行う。
- ALFWorld，WebShop，SWE-bench-Verified等の実験により，AEMが既存の強化学習ベースラインを安定的に改善することが示された。
Link: https://arxiv.org/abs/2605.00425
厳密な予算制約下でのリーマン多様体を用いたモデル圧縮 [cs.LG]目的：総コスト予算下におけるN個のグループへのK個の選択肢の割り当て
- 効率的なAI実現には，計算資源の制約下での最適化が不可欠であり，モデル圧縮はその重要な手法である。
- 既存手法は，真の目的関数を直接最適化できず，近似解やハイパーパラメータ調整に依存せざるを得ない。
- 本研究は，厳密な予算制約下で真の損失関数を直接最適化する新たな手法を提案する。
- ソフトマックス近似を用いることで，予算制約がlogit空間において滑らかなリーマン多様体を定義することを示した。
- 提案手法RCOは，Adamステップに接線投影，二分探索，運動量輸送を組み込み，制約固有のハイパーパラメータを必要としない。
- 合成ベンチマークと大規模言語モデルの圧縮実験において，既存手法と同等以上の性能を，より短い時間で達成した。
Link: https://arxiv.org/abs/2605.00649
エージェントAIオーケストレーションはベイジアン整合性を持つべきである [cs.AI, cs.LG, stat.ML]目的：エージェントAIシステムのベイジアン整合性
- 不確実性下での意思決定は，ツール選択やリソース投資など，高価値な応用において重要である。
- LLM推論におけるベイジアンアプローチの有用性と実現可能性は未だ不明確である。
- エージェントAIオーケストレーション層におけるベイジアン原則の適用を明確にすること。
- エージェントAIシステムの制御層にベイジアン原則を適用することで，一貫性のある意思決定が可能となる。
- タスクに関連する潜在変数の信念を維持，更新し，行動を選択するための枠組みが提供される。
- 校正された信念と有用性を考慮したポリシーが，エージェントAIオーケストレーションを改善する。
Link: https://arxiv.org/abs/2605.00742
H-プローブ：言語モデルの潜在表現から階層構造を抽出 [cs.CL, cs.AI, cs.LG]目的：言語モデルの潜在表現における階層構造の抽出
- 推論の基本は階層構造の表現と操作であるため，そのメカニズムの解明は重要である。
- 大規模言語モデルの階層的推論能力は高いが，潜在表現における階層構造の幾何学的表現は未解明である。
- 言語モデルが階層構造をどのように表現しているかを明らかにし，そのメカニズムを理解すること。
- H-プローブは，合成された木構造のトラバーサル課題において，階層構造を含む部分空間を頑健に特定した。
- その部分空間は低次元であり，タスクパフォーマンスに因果的に重要であり，ドメイン内・外で汎化することが示された。
- 数学的推論などの現実世界の階層的な文脈においても，同様の，しかし弱い階層構造が確認された。
Link: https://arxiv.org/abs/2605.00847
発散は不確か性：フローマッチングの閉形式事後共分散 [cs.LG, cs.CV]目的：フローマッチングの生成サンプルの不確か性の定量化
- 生成モデルの分野において，生成されたデータの品質だけでなく，その信頼性を示すことが重要である。
- 既存手法は，再学習やアンサンブル，複雑な計算を必要とし，計算コストや精度に課題があった。
- 事前学習済みモデルを用いて，追加コストなく不確か性を正確に評価する手法を確立すること。
- フローマッチングの速度場における発散が，事後共分散のトレースと等価であるという「発散-不確か性恒等式」を導出した。
- この恒等式は閉形式であり，速度場のヤコビアンのみに依存し，再学習やアーキテクチャ変更は不要である。
- MNIST実験により，生成された不確か性マップが意味的であり，予測誤差を正確に追跡することが確認された。
Link: https://arxiv.org/abs/2605.00941
マルチエージェント強化学習による小型無人航空機群の分離保証 [cs.MA, cs.AI, cs.GT, cs.LG, cs.RO]目的：異種小型無人航空機群間の分離保証
- 都市空域の利用拡大に伴い，多数の無人航空機が飛行する環境が想定され，安全な運用が重要となる。
- 複数の事業者が異なる機体構成の無人航空機を運用する場合，機体間の衝突回避が複雑になる。
- 異種機体群間の分離保証を実現し，公平性を確保する手法の確立を目指す。
- 複数の機体群が，共有する強化学習ポリシーを通じて安全な分離を維持できる均衡状態に到達することが示された。
- 強化学習ポリシーは，従来のルールベース手法よりも優れた衝突回避性能を発揮し，適応性も確認された。
- 均衡状態は，機体構成に差がある場合，性能の高い機体群に有利になる傾向が見られ，公平性への配慮が必要であることが示唆された。
Link: https://arxiv.org/abs/2605.01041
ザランケビッチ数の新たな上限：強化学習LLM進化探索による [cs.AI, math.CO]目的：ザランケビッチ数の特定値の決定と，新たな下限の確立
- グラフ理論は，ネットワーク構造の解析に不可欠であり，情報科学や応用数学の基礎である。
- ザランケビッチ数は計算が難しく，特に大規模なグラフにおける正確な値は未だ不明な数が多い。
- LLMを用いた進化探索によって，既存手法では困難であったザランケビッチ数の計算を効率化する。
- ザランケビッチ数Z(11, 21, 3, 3) = 116，Z(11, 22, 3, 3) = 121，Z(12, 22, 3, 3) = 132の正確な値を初めて決定した。
- さらに41個のザランケビッチ数に対し，新たな下限を確立し，その一部は既知の上限に迫る結果を得た。
- LLMを活用した進化探索は，少ない計算コストで新たなグラフ構造を発見できる可能性を示唆している。
Link: https://arxiv.org/abs/2605.01120
GR-Ben：プロセス報酬モデルの評価のための汎用推論ベンチマーク [cs.AI, cs.CL]目的：プロセス報酬モデルの汎用推論能力の評価
- 大規模言語モデルの推論能力向上には，プロセスレベルでの誤り検出が不可欠である。
- 既存のベンチマークは数学的推論に偏っており，多様な推論シナリオにおける評価が不十分である。
- 科学と論理の分野におけるプロセス報酬モデルの誤り検出能力を包括的に評価すること。
- 数学以外の分野では，既存のプロセス報酬モデルとLLMの誤り検出能力が著しく低いことが明らかになった。
- プロセス報酬モデルは知識に基づいた誤りの特定が苦手であり，LLMは計算エラーの検出に弱い傾向がある。
- GR-Benが，汎用的な分野におけるプロセス報酬モデルの研究を促進し，LLMの推論能力向上に貢献することが期待される。
Link: https://arxiv.org/abs/2605.01203
S^3-R1：合成データを用いた段階的検索と回答の学習 [cs.LG]目的：段階的検索と回答の学習フレームワーク
- 大規模言語モデルの能力向上には，複雑な推論や情報収集能力の向上が不可欠である。
- 従来の強化学習は，疎な報酬設定と多様な難易度の質問データ不足により，効果的な検索戦略の学習が困難である。
- 合成データと安定化された報酬設計により，より効果的な検索と回答能力を獲得することを目指す。
- S^3-R1は，既存の基盤モデルを上回り，外域データセットでの汎化性能が最大10%向上した。
- 合成データ生成パイプラインにより，中間難易度の多様な多段質問を効率的に作成することが可能になった。
- 中間検索品質と最終回答の正確性を評価する報酬構造が，疎な報酬設定による信用割り当て問題を軽減した。
Link: https://arxiv.org/abs/2605.01248
スパイクニューラルネットワークにおける混雑認識動的軸索遅延 [cs.LG]目的：スパイクニューラルネットワークにおける遅延学習メカニズムの改良
- スパイクニューラルネットワークは，エネルギー効率が高く，時間的・イベント駆動型情報の処理に適している。
- 従来の遅延学習手法は，静的な遅延を各シナプスに割り当てており，パラメータ数が多く，入力依存的な活動ダイナミクスへの適応が限られている。
- 本研究は，混雑を考慮した動的軸索遅延メカニズムを提案し，時間構造化とスパイク強度に応じた状態更新レートの制御を可能にする。
- 提案手法は，シナプス信号伝送における遅延を導入することで，時間的タスクの精度向上に貢献する。
- Spiking Heidelberg Datasetで93.75%，Spiking Speech Commandsで80.69%，Google Speech Commandsで95.58%の精度を達成した。
- パラメータ数を最先端の遅延ベース手法と比較して約50%削減することに成功した。
Link: https://arxiv.org/abs/2605.01291
AI競争に陥る運命なのか？自己利益が超知能モラトリアムを促す理由 [cs.CY, cs.AI]目的：国家の自己利益における超知能（ASI）モラトリアムの可能性
- AI技術の進展は国家間の競争を激化させ，安全保障や経済に大きな影響を与える。
- ASI開発競争は制御不能のリスクを伴うため，国際的な協力体制の構築が課題である。
- 国家の自己利益という観点から，ASIモラトリアムの実現可能性を示す。
- ゲーム理論モデルの分析により，ASI制御喪失のコストが増大すれば，各国はモラトリアムを支持するインセンティブを持つことが示された。
- 世界的なASIリスクの認識が高まっていることが，安定的なモラトリアムの実現をより現実的なものにしている。
- 既存のASIに関する見解とは異なり，モラトリアムが国家の合理的な選択肢となりうることを示した。
Link: https://arxiv.org/abs/2605.01297
マルチモーダル推論のためのセグメントアラインド・ポリシー最適化 [cs.AI, cs.LG]目的：マルチモーダル推論におけるポリシー最適化手法
- 大規模言語モデルの性能向上には，効果的な学習方法が不可欠であり，特に推論能力の強化が重要である。
- 既存の強化学習はトークン単位や応答シーケンス単位での最適化が主流であり，推論のステップ構造とのずれが生じやすい。
- 推論の構造に沿った最適化により，より安定した学習と性能向上が期待される。
- 提案手法SAPOは，トークンやシーケンス単位ではなく，推論ステップ単位でポリシーを更新する。
- SAPOは，推論セグメントに基づいたマルコフ決定過程を導入し，セグメントレベルでの価値推定を行う。
- 実験の結果，SAPOは既存手法と比較して，精度向上と学習安定性の改善が確認された。
Link: https://arxiv.org/abs/2605.01327
AgriKD：クロスアーキテクチャ知識蒸留による効率的な葉病害分類 [cs.CV, cs.AI]目的：効率的な葉病害分類のための知識蒸留手法
- 農業における病害の早期発見は，食料の安定供給に不可欠であるため重要である。
- 高性能なViTは計算コストが高く，エッジデバイスへの実装が困難である。
- ViTの知識を軽量なモデルに効率的に転移し，エッジデバイスでの実用化を目指す。
- 提案手法AgriKDは，ViTからCNNへの知識蒸留により，同等の性能を維持しつつ，モデルサイズを大幅に削減した。
- パラメータ数は約172倍，計算コストは47.57倍，推論速度は18～22倍改善された。
- Jetsonなどのエッジデバイスやモバイルアプリへの実装により，リアルタイム推論の実現性を示した。
Link: https://arxiv.org/abs/2605.01355
大規模言語モデルの低ランク分解のための重要度に基づく基底選択 [cs.RO, cs.LG]目的：大規模言語モデルの低ランク分解における基底選択方法
- 大規模言語モデルの利用拡大に伴い，計算コストの削減が重要課題となっている。
- 既存の基底選択方法は経験則に頼る部分があり，タスク性能との整合性が課題である。
- 基底削除による損失増加を直接推定し，より適切な基底選択を実現することを目指す。
- 提案手法BSIは，基底削除による損失増加を直接推定することで，既存手法よりも優れた性能を示す。
- BSIは，損失関数の二階テイラー展開から重要度スコアを導出し，効率的なヘッセ行列対角成分推定器を開発した。
- 数学的推論ベンチマークにおいて，特に深い圧縮下で顕著な性能向上を確認した。
Link: https://arxiv.org/abs/2605.01627
プローブ幾何学的アライメント：偶然以下へのクロスシーケンス記憶シグネチャの消去 [cs.LG, cs.AI, cs.CR, cs.NE]目的：大規模言語モデルにおける行動的アンラーニング後の内部的痕跡の除去
- 大規模言語モデルの安全性とプライバシー保護は，その普及に伴い重要性が増している。
- 行動的アンラーニング後も，モデル内に機密情報が残り，悪意のあるプローブによって抽出される可能性がある。
- プローブ幾何学的アライメントにより，モデルの能力を損なわずに記憶シグネチャを効果的に除去することを目指す。
- クロスシーケンスプローブを用いた評価により，記憶シグネチャがモデルの規模に関わらず存在することが確認された。
- プローブ幾何学的アライメント(PGA)を適用することで，記憶シグネチャを偶然レベル以下に低減することが可能となった。
- PGAは，モデルの性能劣化を最小限に抑えつつ，再学習による攻撃に対しても堅牢であることが示された。
Link: https://arxiv.org/abs/2605.01699
小規模LLMにおけるゼロショット確信度推定：教師ありベースラインの訓練が不要な場合 [cs.AI, cs.CL, cs.ET]目的：小規模言語モデルの自己正答性評価の信頼性
- LLMの推論コストが高いため，費用対効果の高い運用が重要である。
- LLMの利用において，クエリの難易度に応じた適切なモデル選択が課題となっている。
- 教師ありデータなしで信頼性の高い確信度推定を可能にすること。
- 平均トークン対数尤度は，教師ありベースラインと同等またはそれ以上の性能を示す。
- 特に分布外データにおいては，平均トークン対数尤度が教師ありベースラインを大幅に上回る。
- 検索条件付き自己評価により，確信度推定の精度を向上させ，低遅延化を実現した。
Link: https://arxiv.org/abs/2605.02241
大規模状態空間における線形関数近似を用いたロバストマルコフゲームにおける多エージェントの呪いの克服 [cs.RO, cs.PF, cs.HC, cs.LG]目的：大規模状態空間を持つロバストマルコフゲームにおける多エージェントの呪いを克服するためのアルゴリズム開発
- 環境不確実性下での多エージェント強化学習の応用範囲拡大が期待される分野である。
- エージェント数増加に伴い，状態・行動空間が指数関数的に増大し，学習が困難となる。
- 大規模状態空間を持つロバストマルコフゲームにおけるサンプル複雑度に関する多エージェントの呪いを打破する。
- 総変動距離で定義された不確実性集合に対し，データ効率の良いアルゴリズムを開発した。
- 生成モデル設定と新たに提案するオンライン対話型設定の両方において，多エージェントの呪いを克服した。
- 大規模（無限を含む）状態空間を持つロバストマルコフゲームにおいて，サンプル複雑度の多エージェントの呪いを打破した初の成果である。
Link: https://arxiv.org/abs/2605.03125
エージェントが秘密を扱う場合：エージェントAIのための秘密計算に関する調査 [cs.CR, cs.AI]目的：エージェントAIにおける秘密計算の設計空間の統合
- AIエージェントの進化に伴い，セキュリティリスクも高度化しており，対策が急務である。
- 既存のソフトウェア防御は，特権的な攻撃者によって回避される可能性があり，根本的な解決策とはなりえない。
- ハードウェアに基づいた秘密計算を用いて，エージェントAIのセキュリティ基盤を確立することを目的とする。
- 本調査では，Intel SGX，TDX，AMD SEV-SNPなど6つのTEEプラットフォームを比較検討し，性能とデプロイメントの役割を明らかにした。
- エージェントAI特有の脅威モデルを提示し，知覚，計画，記憶，行動，連携の各レイヤーに焦点を当てたセキュリティ目標を定義した。
- 単一の推論とエージェントAIで異なる秘密計算ベースの防御策を比較し，マルチホップエージェントチェーンやGPU-TEEパフォーマンスの課題を特定した。
Link: https://arxiv.org/abs/2605.03213
活性化アラインメントを超えて：ニューラル感度の幾何学 [cs.LG, stat.ML]目的：ニューラル感度の幾何学的特性の評価
- 脳科学や機械学習において，ニューラル表現の比較は重要な課題である。
- 既存手法は，グローバルなタスクレベルでの一致に焦点を当て，局所的な刺激証拠への感度を捉えきれていない。
- 局所的な識別情報を基盤としたフレームワークを提案し，微小な摂動に対する感度を定量化する。
- 提案手法(S-RAS)は，独立に学習されたニューラルネットワーク間で対応する層を特定することを可能にした。
- S-RASは，標準的学習とロバスト学習の間の制御された差異を明らかにするとともに，クラス条件付きプローブの転移可能性を支持した。
- マウスの視覚皮質における刺激座標族の影響をAllen Brain Observatoryのデータを用いて解明した。
Link: https://arxiv.org/abs/2605.03222
LLMにおける決定論的計算のためのプロンプティングと実行ベース手法の評価 [cs.AI]目的：LLMにおける決定論的計算能力の評価
- 自然言語処理の発展に伴い，LLMの応用範囲は拡大している。
- LLMは厳密な計算能力に課題があり，誤りが生じやすい。
- LLMの決定論的計算能力を向上させる手法の検証。
- 標準的なプロンプティング手法では，シーケンスベースのタスクにおいて中程度の精度しか得られない。
- PoTは実行可能なコードを生成し，外部インタープリタに計算を委譲することで，完璧な精度を達成した。
- LLMは厳密な記号計算ではなく，推論パターンを模倣する傾向があることが示唆された。
Link: https://arxiv.org/abs/2605.03227
エージェントメモリ内部の動作：創発から診断までの回路解析 [cs.AI]目的：エージェントメモリの回路構造
- LLMエージェントの応用拡大に伴い，メモリの挙動理解が重要になっている。
- エージェントメモリの故障は検知が難しく，原因特定が困難である。
- エージェントメモリの回路構造を解明し，故障診断の精度向上を目指す。
- Qwen-3系列モデルにおいて，ルーティング回路が0.6Bで活性化し，内容回路は4Bから活性化が確認された。
- WriteとRead処理は，基盤モデルに存在するコンテキスト基盤上に機能方向性を付与することで実現される。
- 開発した教師なし診断は，最大76.2%の精度で故障箇所を特定し，教師ありモデルを上回った。
Link: https://arxiv.org/abs/2605.03354
2回の呼び出し，2つの時点，および反復LLM推論の投票精度曲線 [cs.LG, cs.CL]目的：反復LLM推論における正誤の潜在的分布
- LLMの性能評価において，単一回の推論だけでなく，複数回の推論による精度向上が重要視されている。
- 複数回の推論の利点は，個々の事例における正誤確率の分布に依存し，その評価が困難である。
- 2回の推論結果から，事例間の正誤の相関を特定し，安定したエラーとランダム性を区別する。
- 固定された多数決予算内で，2回の呼び出しによる明確な間隔が存在することが示された。
- 3回の投票における改善基準は，閉じた形で表現され，幅は最大で1/8に限定される。
- 実験結果は，QNLIとQQPにおけるLLMの呼び出しにおいて，提案された2回の呼び出し領域内に収まっていることを示した。
Link: https://arxiv.org/abs/2605.03379
MEMSAD：検索拡張エージェントにおけるメモリポイズニングのための勾配結合異常検知 [cs.CR, cs.AI, cs.LG]目的：検索拡張エージェントに対するメモリポイズニング攻撃の検知
- 大規模言語モデル(LLM)エージェントの能力向上に不可欠な外部メモリのセキュリティ確保が重要である。
- 外部メモリのセキュリティ特性は未だ十分に解明されておらず，攻撃に対する脆弱性が懸念される。
- メモリポイズニング攻撃に対する堅牢な防御機構を開発し，LLMエージェントの安全性を高める。
- MEMSADは，勾配結合定理に基づき，異常スコア勾配と検索目的勾配の同一性を保証する。
- これにより，敵対的戦略に関わらず，正確な分類を保証する認定検知半径が実現される。
- 実験の結果，複合防御はTPR=1.00，FPR=0.00を達成する一方，同義語置換による回避が確認された。
Link: https://arxiv.org/abs/2605.03482
HeadQ：KVキャッシュ量子化におけるモデル可視歪みとスコア空間補正 [cs.LG, cs.AI]目的：KVキャッシュ量子化におけるモデル可視歪みを評価し，スコア空間補正を行う手法
- Transformerモデルの効率化において，KVキャッシュの量子化はメモリ使用量削減に不可欠である。
- 従来のKVキャッシュ量子化は，ストレージ空間の再構築に重点を置き，モデルの精度への影響が不明確である。
- モデル可視の歪みを指標とし，注意機構におけるスコアと値の歪みを補正することで精度低下を防ぐ。
- HeadQは，キー側の歪みを補正する低ランク残差コードを学習し，logitに加えることで注意のKLダイバージェンスを改善する。
- 値側の歪みについては，$A^2$重み付きトークン歪みを用いることで，perplexityの改善に貢献する。
- 実験結果から，HeadQは2-bit量子化において，過剰なperplexityを大幅に削減し，モデル性能を向上させる。
Link: https://arxiv.org/abs/2605.03562
AniMatrix：芸術を思考するアニメ動画生成モデル [cs.CV, cs.AI]目的：アニメ動画生成における芸術性の表現
- アニメは世界中で人気が高く，その制作技術の自動化が求められている。
- 既存の動画生成モデルは物理法則を重視し，アニメ特有の表現を再現できない。
- 芸術性を重視した動画生成モデルを開発し，アニメ表現の幅を広げる。
- AniMatrixは，デュアルチャネル条件化機構と段階的な移行を通して，芸術性を重視したアニメ動画生成を実現した。
- 専門家による評価において，プロンプト理解度と芸術的な動きにおいて既存モデルを大幅に上回る結果が得られた。
- 再現性を確保するため，研究資源の公開を予定している。
Link: https://arxiv.org/abs/2605.03652
正しいだけでは不十分：実行者に基づいた報酬による推論プランナーの訓練 [cs.SI, cs.AI, cs.CL]目的：推論プランナーの訓練における，実行者によって検証された中間推論ステップへの報酬設計
- 大規模言語モデルにおける明示的な推論能力の向上は重要であり，検証可能な報酬を用いた強化学習が一般的である。
- 最終的な正答のみを報酬化すると，推論過程の妥当性や信頼性が評価できず，誤った根拠に基づく推論が強化される可能性がある。
- 推論の質と有用性を同時に評価し，モデルが実際に利用可能な推論を学習できるようにすることを目指す。
- TraceLiftは，推論を消費可能な中間成果物として扱うプランナー-実行者訓練フレームワークである。
- 実行者に基づいた報酬は，高品質かつ有用な推論を促進し，単なる実行結果のみの訓練よりも性能が向上した。
- TRACELIFT-GROUPSは，推論の質を直接学習可能にするための，注釈付きの理由のみのデータセットである。
Link: https://arxiv.org/abs/2605.03862
経験駆動型検索戦略オーケストレーションのためのエージェント指向型プラグ可能なExperience-RAGスキル [cs.AI]目的：異種タスクにおける検索戦略のオーケストレーション
- 多様なタスクに対応できる情報検索システムの重要性が高まっている。
- 従来の検索パイプラインはタスクによって最適な戦略が異なるため，性能が制限される。
- 検索戦略の選択を再利用可能なエージェントスキルとして実装することを目指す。
- Experience-RAGスキルは，BeIR/nq, BeIR/hotpotqa, BeIR/scifactにおいて，nDCG@10の平均で0.8924を達成した。
- 固定された単一の検索器ベースラインや，Adaptive-RAG-styleルーティングと同等以上の性能を示した。
- 検索戦略の選択は，上位ワークフローにハードコードするのではなく，再利用可能なエージェントスキルとして効果的に実装できることが示唆された。
Link: https://arxiv.org/abs/2605.03989
LLM駆動型ニューラルアーキテクチャ探索のための構造化された漸進的な知識活性化 [cs.LG, cs.AI]目的：ニューラルアーキテクチャ探索における知識統合と新規設計の効率化
- ニューラルアーキテクチャ探索は，高性能なモデル自動設計に不可欠であり，計算資源の効率的な利用が重要である。
- 既存の知識を活かしつつ探索を行う際，局所的な変更が非局所的な影響を及ぼす機能的絡み合いが課題となる。
- 機能的絡み合いを抑制し，より的確で信頼性の高いアーキテクチャ修正を実現することを目指す。
- 提案手法SPARKは，CLRS-DFSにおいて，アーキテクチャ進化速度を28.1倍に向上させた。
- SPARKは，外挿精度において22.9％の相対的な改善を実現した。
- 機能要素に着目した編集により，意図しない副作用を抑制し，効果的な知識活用を可能にした。
Link: https://arxiv.org/abs/2605.04057
LLMにおける自由エネルギー駆動型強化学習と適応的アドバンテージシェイピング [cs.CL, cs.ET, cs.LG]目的：LLMにおける教師なし推論能力の向上
- 大規模言語モデルの自己改善は，AI研究の重要な方向性であり，その性能向上に不可欠である。
- 既存の教師なし強化学習法は，モデルの推論能力の変化に適応できず，最適化が誤った方向へ進む場合がある。
- 自由エネルギー原理に基づき，報酬と学習信号を適応的に調整することで，より効果的な自己改善を目指す。
- 提案手法FREIAは，9つのデータセットと3つの推論タスクにおいて，既存の教師なし強化学習法を上回る性能を示した。
- 特に，数学的推論タスクでは，DeepSeek-R1-Distill-Qwen-1.5Bモデルを用いてPass@1で平均0.5～3.5ポイントの改善を達成した。
- 自由エネルギー駆動型報酬と適応的アドバンテージシェイピングの組み合わせが，効果的な推論能力の向上に貢献している。
Link: https://arxiv.org/abs/2605.04065
適応して繁栄する！LLMの推論能力向上に向けた適応型Power-Mean方策最適化 [cs.CL, cs.ET, cs.LG]目的：大規模言語モデルの推論能力向上
- LLMの高度な推論能力は，様々なAI応用において不可欠である。
- 既存の強化学習手法は，モデルの推論能力の変化に対応できていない。
- モデルの進化に追随する方策最適化により，推論性能の向上を目指す。
- APMPOは，Power-Mean Policy Optimization (PMPO) とFeedback-Adaptive Clipping (FAC)という二つの革新的な手法を導入している。
- PMPOは，算術平均から幾何平均への適応的な移行を可能にし，学習の安定性と性能を向上させる。
- 実験結果から，APMPOは既存のRLVRベースラインよりも優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2605.04066
リソース制約デバイス向けハードウェアを意識したニューラル特徴抽出 [cs.LG]目的：リソース制約デバイスにおけるニューラル特徴抽出手法
- 空間計算システムの主要要素であり，ロボット工学等の分野で重要性が高まっている。
- マイクロコントローラ等のハードウェアでは，メモリや帯域幅の制約から学習特徴抽出器の導入が困難である。
- ハードウェア制約下でもロバストな特徴抽出を実現するアルゴリズムを開発することを目的とする。
- Gideonは，SuperPointからの知識蒸留と制約付きニューラルアーキテクチャ探索(DNAS)を組み合わせることで，ハードウェアを意識した特徴抽出器である。
- Batch NormalizationをAffine層に置き換えるなどのアーキテクチャ選択が，INT8量子化におけるロバスト性を向上させる。
- STM32N6上で，推論時間は9.003ms(111fps)で，メモリ使用量は1.5MB以下と，組み込みハードウェアの制約下でも実用的な性能を示した。
Link: https://arxiv.org/abs/2605.04282
低S/N通信のための文脈記憶増強ソース符号化 [cs.IT, cs.LG, math.IT]目的：低S/N環境下におけるソース符号化の堅牢性向上
- 通信において，効率的な情報伝送は不可欠であり，特に低S/N環境下での信頼性が重要となる。
- 従来のソース符号化は，チャネルエラーに弱く，わずかな誤りが伝送後の復元を妨げる場合がある。
- 本研究は，チャネルエラーの影響を受けにくい，文脈記憶を活用したソース符号化方式を提案する。
- 提案手法MASCは，送信側と受信側で共有される文脈記憶を用いて，ソースモデルを強化する。
- MMERによる疎なメモリ経路選択により，関連性の高い記憶のみが活性化され，確率推定の精度が向上する。
- 実験結果から，MASCは既存手法と比較して，低S/N環境下で優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.04400
属性を考慮したシーケンシャル推薦のための畳み込みニューラルネットワークの再考 [cs.CL, cs.IR, cs.LG]目的：属性を考慮したシーケンシャル推薦における次アイテム予測
- ユーザーの行動履歴から次のアイテムを予測する推薦システムは，ECサイトなどで重要である。
- 既存手法は計算量が多く，長い行動履歴を扱えない場合がある。
- 計算効率が高く，長期的なユーザー嗜好を捉えられるモデルを提案する。
- 本研究では，階層的なダウンサンプリングによる畳み込み層を用いて効率的なシーケンス表現を獲得するConvRecを提案する。
- ConvRecは，既存の最先端シーケンシャル推薦モデルを上回る性能を示すことが，4つの実データセットでの実験により示された。
- 畳み込みベースのアーキテクチャが，推薦システムにおける効率的かつ効果的なシーケンスモデリングの可能性を示唆する。
Link: https://arxiv.org/abs/2605.04723
局所学習の再考：LLMポストトレーニングのための安価かつ迅速な手法 [cs.HC, cs.DB, cs.CL, cs.LG]目的：LLMポストトレーニングにおける効率化
- 大規模言語モデル(LLM)の性能向上には，ポストトレーニングが不可欠である。
- 従来のポストトレーニングは計算コストが高く，メモリ消費量も大きい。
- 局所的な学習範囲に制限することで，効率性と性能維持を両立する。
- 提案手法LoPTは，変換器の中間部に勾配境界を設けることで，計算コストを削減する。
- LoPTは，メモリ消費量を抑えつつ，従来のポストトレーニングと同等の性能を達成する。
- また，LoPTは事前学習済みの機能を維持し，タスク間の干渉を抑制する。
Link: https://arxiv.org/abs/2605.04913
LLMシステムにおける継続的な知識更新：多時間スケールメモリダイナミクスによる学習 [cs.CC, cs.DM, math.CO, cs.LG, cs.AI, cs.CL]目的：LLMシステムの知識更新メカニズム
- LLMは一度学習後，変化し続ける世界で利用されるため，知識の継続的な更新が不可欠である。
- 既存の外部メモリは明示的な管理が必要であり，生物の記憶のような自律的な適応性に欠ける。
- 生物の記憶メカニズムに着想を得て，外部メモリの自律的な学習と再構成を目指す。
- Meminiというシステムを構築し，知識をグラフ構造で表現することで，多時間スケールのメモリダイナミクスを実現した。
- 高速・低速の変数間の結合により，エピソード記憶の感度，漸進的な固定化，選択的な忘却が自然に生じることを示した。
- 外部メモリを単なる記憶領域ではなく，自律的に再構成される学習基盤として捉える新たな視点を提供した。
Link: https://arxiv.org/abs/2605.05097
多腕バンディットと強化学習における分布的後悔の一元化フレームワーク [cs.LG, stat.ML]目的：多腕バンディットと強化学習における後悔の分布
- 意思決定問題において，最適な行動選択は重要であり，後悔の分析は性能評価に不可欠である。
- 従来の分析では，平均的な後悔に焦点を当てていたため，最悪の場合のリスク評価が困難であった。
- 本研究は，あらゆる信頼水準において保証される分布的後悔の明確な上限を導出することを試みる。
- 提案アルゴリズムは，探索ボーナスを用いており，パラメータ調整により，期待性能とテールリスクのトレードオフを制御可能である。
- パラメータ系列に関わらず，ギャップ非依存およびギャップ依存型の分布的後悔の上限を導出した。
- 多腕バンディットにおいて，後悔の上限$\mathcal{O}(\sqrt{AT}\log(1/\delta))$は，Lattimore & Szepesv\'ari (2020)の予想を初めて裏付けた。
Link: https://arxiv.org/abs/2605.05102
平均場min-max問題に対するミラー降下・上昇法 [math.CO, cs.CG, math.OC, cs.LG, math.PR]目的：測度空間上のmin-max問題に対するミラー降下・上昇法の収束性
- ゲーム理論や機械学習において，均衡状態の探索は重要な課題である。
- 平均場ゲーム等の大規模システムでは，計算コストが課題となる。
- 非線形な凸凹問題に対する収束レートの理論的保証を目指す。
- 同時更新型ミラー降下・上昇法は，Nikaid\^{o}-Isoda誤差に関して$\mathcal{O}(N^{-1/2})$の収束レートを持つことが示された。
- 交互更新型ミラー降下・上昇法では，同時更新型よりも改善された$\mathcal{O}(N^{-2/3})$の収束レートが達成される。
- 本研究は，測度空間上の凸凹問題に対する統一的な理論的基盤を提供する。
Link: https://arxiv.org/abs/2402.08106
CatNet：SHAP特徴重要度とガウスミラーを用いたLSTMにおける偽発見率の制御 [math.CO, cs.DM, stat.ML, cs.AI, cs.LG, q-fin.ST]目的：LSTMにおける特徴選択と偽発見率の制御
- 時系列データ解析において，重要な特徴を特定し，モデルの解釈性を高めることが重要である。
- LSTM等の深層学習モデルでは，多数の特徴量が存在し，偽陽性の特徴選択が問題となる。
- SHAP値とガウスミラー法を組み合わせ，偽発見率を制御し，過学習を抑制すること。
- CatNetは，SHAP値の微分を用いて特徴重要度を定量化し，偽発見率制御に利用する。
- 新しいカーネルベースの独立性指標を提案し，非線形または時間的相関による不安定性を回避する。
- シミュレーションおよび実データを用いた評価により，CatNetの頑健性と解釈性の向上を確認した。
Link: https://arxiv.org/abs/2411.16666
高エネルギー物理解析のための事前学習済みイベント分類モデル [hep-ph, cs.LG]目的：高エネルギー物理イベントの分類
- 素粒子物理学研究において，イベント分類は未知の現象探索に不可欠である。
- イベント数の少ない新規物理プロセスの分類精度向上が課題である。
- 少ない学習データでも高精度な分類を可能とするモデル開発。
- 事前学習済みモデルのファインチューニングにより，分類性能が大幅に向上した。
- 特に，学習データが少ない状況で精度と計算効率の改善が確認された。
- ファインチューニングはエンコーダ表現を維持しつつ，グラフ処理層で特徴的な変化を生じさせている。
Link: https://arxiv.org/abs/2412.10665
分散型連合学習のための鋭いガウス近似 [stat.ML, cs.LG, math.ST, stat.TH]目的：分散型連合学習におけるローカルSGDのガウス近似とその応用
- プライバシー保護が重要視される環境下で，機械学習を分散的に行う連合学習の需要が高まっている。
- ローカルSGDの収束性は研究されているが，収束を超えた統計的保証は十分ではない。
- ローカルSGDの軌跡をより正確に把握し，ロバスト性を向上させるためのガウス近似を提案する。
- 最終的なローカルSGD反復値に対するベリー・エッセンの定理を証明し，有効な乗数ブートストラップ法を可能にする。
- ロバスト性を考慮し，ローカルSGDの全軌跡に対する時間一様ガウス近似を二種類導入した。
- 提案する近似は，敵対的攻撃の検出のためのガウスブートストラップに基づく検定をサポートする。
Link: https://arxiv.org/abs/2505.08125
逆再正規化群によるスケール不変性の創出 [cond-mat.stat-mech, cs.CV, cs.LG]目的：二次元イジング模型における最小限のニューラルネットワークによる再正規化群の粗視化手続きの逆変換
- 統計物理学において，スケール不変性は普遍的な現象を記述する上で重要である。
- 臨界現象の理解には，微視的な情報が必要とされ，計算コストが高いという課題がある。
- 粗視化された状態から微視的な配置を確率的に再構築し，効率的なモデルを構築すること。
- わずか三つの学習可能なパラメータを持つニューラルネットワークでさえ，臨界配置を生成し，磁化率などのスケーリング則を再現できる。
- 生成された配置の実空間再正規化群解析により，スケール不変性だけでなく，RG変換の非自明な固有値も再現されることが確認された。
- ネットワークの複雑性を増加させても有意な改善は見られず，単純な局所則で臨界現象の普遍性を表現できる可能性が示唆された。
Link: https://arxiv.org/abs/2506.04016
共形予測のための多変量標準化残差 [math.OC, cs.SY, eess.SY, quant-ph, cs.ET, stat.ML, cs.AI, cs.LG, stat.ME, stat.OT]目的：共形予測における条件付きカバレッジの向上
- 不確実性定量において，周辺カバレッジだけでなく条件付きカバレッジが重要である。
- 異分散性の設定下では，単純な共形スコアは条件付きカバレッジが低下する。
- 多変量データにおける残差の標準化により，出力相関を分離し，局所的な分散を標準化する。
- 提案手法は，学習された局所共分散行列によって誘導されるマハラノビス距離を非適合性スコアとして用いる。
- これにより，出力間の相関と異分散性を効率的に捉え，既存手法よりも条件付きカバレッジを改善する。
- 欠損値の処理や，出力変換に対する共形集合の構築といった，実用的な拡張も可能となる。
Link: https://arxiv.org/abs/2507.20941
周波数選択による指数関数的な混合周波数増加の緩和 [quant-ph, cs.LG]目的：古典データを量子モデルに埋め込むための特徴マップとしての角度符号化における，訓練の安定化と性能向上
- 量子機械学習は，古典的な機械学習の限界を克服する可能性を秘めており，注目を集めている。
- 角度符号化は表現力を持つが，訓練時に周波数の冗長性により学習が不安定になる場合がある。
- 対象関数の周波数のみにモデルのスペクトルを制限することで，訓練の効率性と安定性を高めることを目指す。
- 周波数選択は，2次元の対象関数において，高密度なアプローチが苦戦する状況でほぼ最適な性能（中央値 $R^2 \approx 0.95$）を達成した。
- 高周波数の対象関数においても，高密度なアプローチが失敗する中で，依然として良好な性能（中央値 $R^2 \approx 0.85$）を維持することが確認された。
- 実世界のデータセットでの検証により，このアプローチが合成設定を超えて有効であることが示された。
Link: https://arxiv.org/abs/2508.10533
よく知られた交通渋滞ネットワークにおける利用者行動からの学習 [math.OC, cs.LG]目的：交通流の分布予測
- 都市交通計画や交通管理において，交通流の予測は不可欠である。
- 従来の交通配分問題の解決には，計算コストの高い反復シミュレーションが必要である。
- 機械学習を用いて，より高速かつ高精度な交通流予測を実現すること。
- 本研究では，グラフニューラルネットワーク等の機械学習手法の活用が検討された。
- これらの手法は，従来の反復シミュレーションと比較して計算コストを削減しつつ，高い予測精度を維持する可能性を示唆している。
Link: https://arxiv.org/abs/2508.14804