arXiv雑要約

AI - 2026/05/14 公開

FORTIS：エージェントのスキルにおける過剰権限のベンチマーク [cs.AI]目的：エージェントスキルの過剰権限の評価
- 大規模言語モデルエージェントの活用が進む中で，スキルの安全性確保が重要となる。
- 現在のモデルは，必要な以上の権限を持つスキルを選択しがちである。
- エージェントのスキル層における権限昇格問題の解明を目指す。
- 大規模言語モデル10種類と3つのドメインにおいて，過剰権限行動が一般的であることが確認された。
- モデルは，タスクに必要な以上の高権限スキルやツールを選択する傾向にある。
- 不完全な指示や，スキル境界付近での操作において，過剰権限行動が特に顕著であった。
Link: https://arxiv.org/abs/2605.09163
AI格差下における戦略的コミットメントが集合的サイバーセキュリティを形成する [cs.AI]目的：AI格差がサイバーセキュリティに与える影響の分析
- AI技術のサイバーセキュリティへの統合は，攻撃者と防御者のバランスを変化させている。
- 高度なAI防御ツールへのアクセス格差は，リソースの限られた防御者を脆弱な状態にする。
- AI防御ツールへの補助金支給によるサイバーセキュリティの安定化メカニズムを解明する。
- AI防御能力の格差が，低コストな脆弱な防御行動を蔓延させ，攻撃を助長する。
- 戦略的なコミットメントと補助金支給により，高度な防御の導入が増加し，攻撃が抑制される。
- 特定の防御者への支援が，AI駆動環境下におけるサイバーセキュリティの安定化に有効である。
Link: https://arxiv.org/abs/2605.09415
SimWorld Studio：進化型コーディングエージェントによる埋め込みエージェント学習のための自動環境生成 [cs.AI]目的：埋め込みエージェント学習のための，進化するコーディングエージェントを用いた自動環境生成
- 近年，LLM/VLMベースのデジタルエージェントは急速に進歩しているが，埋め込みエージェントは学習環境が不足している。
- 既存の埋め込みシミュレータは手動作成のシーンか手続き型テンプレートに依存しており，自動生成された環境が少ない。
- SimWorld Studioは，言語・画像指示に基づき，物理的に整合性の取れた3Dワールドを構築する。
- SimWorld StudioはUnreal Engine 5上に構築されたオープンソースプラットフォームであり，環境生成と埋め込み学習の共進化を可能にする。
- 自己進化により生成の信頼性が向上し，生成された環境は，未知のベンチマークへの汎化性能を向上させる。
- 共進化により，固定環境学習と比較して成功率が18ポイント向上，未学習エージェントと比較して40ポイント向上した。
Link: https://arxiv.org/abs/2605.09423
EpiGraph：証拠に基づくてんかん推論のための汎用モデル構築 [cs.AI]目的：てんかんに関する大規模知識グラフとベンチマーク
- てんかんの診断・治療は，多岐にわたる臨床知識に基づく証拠に基づいた推論を必要とする。
- 臨床知識の統合と活用が難しく，正確な推論を妨げる要因となっている。
- 知識グラフを活用し，臨床推論の精度向上と評価フレームワークの提供を目指す。
- EpiGraphは48,166件の論文と7つの臨床リソースを統合した大規模な知識グラフである。
- EpiBenchは，臨床的意思決定，脳波レポート生成など5つの臨床タスクを定義したベンチマークである。
- 知識グラフの統合により，特に薬物ゲノム推論において性能が大幅に向上した（+30--41%）。
Link: https://arxiv.org/abs/2605.09505
MXFP4を用いた大規模言語モデルの事前学習：ネイティブFP4ハードウェアでの検証 [cs.LG, cs.AI]目的：大規模言語モデルの事前学習におけるMXFP4の利用可能性
- 大規模言語モデルの性能向上には，計算資源の効率的な活用が不可欠である。
- FP4のような低精度浮動小数点数を用いた学習は，収束が不安定になる場合がある。
- 重み勾配の量子化が収束劣化の主要な原因であることを特定し，安定化手法を検証する。
- Llama 3.1-8Bの事前学習において，重み勾配のFP4量子化が収束劣化の主な要因であることが示された。
- 順伝播と活性化勾配のみをFP4化しても，追加のトークン要件はわずかである。
- 決定論的アダマール回転が，重み勾配の量子化による不安定性を解消する有効な手段であることが示された。
Link: https://arxiv.org/abs/2605.09825
キーバリュー平均：拡張可能なブロック再帰型圧縮メモリを持つTransformer [cs.LG, cs.AI, cs.CL]目的：注意機構のためのブロック再帰
- Transformerモデルの長文処理能力向上は，自然言語処理の重要な課題である。
- 従来のTransformerは計算コストが高く，長文の処理に限界がある。
- KVMは，計算効率とメモリ使用量を改善し，長文処理を可能とする。
- KVMを搭載したTransformerは，固定長または可変長のステートに対応する効率的なRNNとして機能する。
- KVMは，従来のTransformerと同等の性能を維持しながら，サブ二次的な事前計算時間と亜線形的なステート成長を実現する。
- 標準的な演算で実装可能であり，並列化された訓練と事前計算をサポートする。
Link: https://arxiv.org/abs/2605.09877
適応KL制御とガウス分布に基づくカリキュラムサンプリングによる探索優先型方策最適化 [cs.AI]目的：大規模言語モデルの数学的推論における方策最適化
- LLMの数学的推論能力向上は，AI研究において重要な課題であり，その性能は応用範囲を大きく左右する。
- 既存のGRPOアルゴリズムは，KLペナルティ係数の固定化や，問題の難易度分布の偏りが最適化のボトルネックとなっていた。
- 本研究は，探索の促進と効率的な学習を両立させることで，LLMの数学的推論性能を向上させることを目指す。
- 提案手法EXPOは，従来のGRPOアルゴリズムと比較して，一貫して高い性能を示すことが確認された。
- AIME 2025 pass@32において，13.34%の絶対的な改善が見られ，63.33%から76.67%へと大幅に向上した。
- pass@32とpass@1の改善率の差から，EXPOが固定の推論コスト内でモデルの探索範囲を効果的に拡大することが示唆された。
Link: https://arxiv.org/abs/2605.09923
コンソリデーション-拡張演算子のメカニズム：適応学習のための統一的フレームワーク [cs.LG, math.OC, stat.ML]目的：適応学習におけるコンソリデーションと拡張の演算構造の精密化
- 適応学習は，知識の獲得と更新を繰り返すことで性能を向上させるため，様々な分野で重要視されている。
- 既存の手法では，コンソリデーションと拡張のバランスをどのように取るかが明確でなく，学習の安定性や効率性に課題があった。
- 本研究では，そのバランスを定量的に評価する指標を提示し，学習の収束を保証する停止規則を確立することを目指す。
- 提案するフレームワークは，コンソリデーションと拡張の演算子の非可換性に着目し，「オーダーギャップ」という指標を用いて学習の進行を追跡する。
- オーダーギャップは，学習軌跡から計算可能であり，学習の収束状況をリアルタイムで把握するための制御信号として機能する。
- 理論的な保証のもと，オーダーギャップに基づいた停止規則が，様々な適応学習タスクにおいて有効であることを示した。
Link: https://arxiv.org/abs/2605.09968
機械的推論とエージェント的推論の組み合わせによるMoveプログラムの仕様推論 [cs.PL, cs.AI, cs.LO, cs.SE]目的：Move Proverにおける仕様推論ツールの開発
- Moveのようなスマートコントラクト言語の安全性確保は重要である。形式検証は有効な手段の一つ。
- Moveプログラムの形式検証には，関数の事前・事後条件を人手で記述する必要があり，手間がかかる。
- 弱最弱前条件解析とAIエージェントを組み合わせることで，仕様記述の負担を軽減することを目指す。
- 本研究では，弱最弱前条件解析とAIエージェント（Claude Code）を組み合わせた仕様推論ツールを開発した。
- AIエージェントは，弱最弱前条件解析が苦手とするループ不変条件や高レベルな仕様（単調性など）の推論を担当する。
- Move Proverが生成された仕様の妥当性を検証し，AIエージェントは検証成功まで仕様を改善し続ける。
Link: https://arxiv.org/abs/2605.10005
Metis：自己進化型メタ認知ポリシー最適化によるLLMの脱獄学習 [cs.LG, cs.AI]目的：大規模言語モデル(LLM)の脱獄手法
- LLMの安全性確保は重要であり，脆弱性発見が不可欠である。
- 既存手法は静的なヒューリスティックや確率的探索に依存し，高度な安全対策には脆弱である。
- Metisは，LLMの防御ロジックを診断し，最適化を行うことで，脱獄成功率を高めることを目指す。
- Metisは，LLMの脱獄を部分観測マルコフ決定過程(POMDP)における推論時ポリシー最適化として再構成する。
- 10種類のモデルで評価した結果，Metisは平均攻撃成功率89.2%を達成し，特に強固なモデル(O1やGPT-5-chat)でも高い有効性を示した。
- Metisは，無駄な探索を削減し，トークンコストを平均8.2倍，最大11.4倍削減することに成功した。
Link: https://arxiv.org/abs/2605.10067
IndustryBench：LLMの産業知識の境界を探る [cs.AI]目的：産業分野における調達QAのベンチマーク
- 産業界では，専門知識と安全基準が厳守されることが不可欠である。
- 既存のLLMベンチマークは，安全性に関わる矛盾を十分に捉えられていない。
- 産業分野におけるLLMの信頼性を，安全性に焦点を当てて評価すること。
- IndustryBenchは，中国の国家規格に基づいて構築された2,049件のQAデータセットである。
- 評価の結果，現在の最良モデルでも，安全性考慮後のスコアには改善の余地があることが示された。
- 安全性のチェックを行うことで，リーダーボードが変動し，安全性と正確性の両面評価の重要性が明らかになった。
Link: https://arxiv.org/abs/2605.10267
CoWorld-VLA：多専門家ワールドモデルを用いた自動運転 [cs.CL, cs.CV, cs.AI]目的：自動運転のための多専門家ワールドモデルの構築と，その有効性の検証
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな変革をもたらす可能性がある。
- 既存の自動運転モデルは，計画立案に必要な中間表現の生成が難しく，連続的な時空間構造の維持が課題である。
- 本研究は，多専門家ワールドモデルを用いることで，計画立案に適した中間表現を生成し，自動運転の性能向上を目指す。
- CoWorld-VLAは，セマンティックなインタラクション，幾何学的構造，動的な進化，エゴ車両の軌跡といった専門家トークンを抽出・活用することで，より洗練された計画立案を可能にする。
- 実験の結果，CoWorld-VLAはNAVSIM v1ベンチマークにおいて，将来のシーン生成と計画立案の両方で競争力のある性能を示し，衝突回避と軌跡の精度において優れた結果を達成した。
- 専門家トークンの相補性と，計画立案における有効性を検証する消去研究により，CoWorld-VLAの有効性が確認された。
Link: https://arxiv.org/abs/2605.10426
EnergyLens：マルチモーダルLLM推論サービングのための解釈可能な閉形式エネルギーモデル [cs.CV, cs.LG]目的：LLM推論におけるエネルギー最適化手法
- LLMの規模拡大と多様なハードウェア環境下での利用拡大に伴い，推論時のエネルギー効率が重要になっている。
- 既存手法は，遅延時間をエネルギーの指標として用いるか，データ集約的なブラックボックスモデルに依存しており，並列化戦略の変化に弱い。
- プロファイリングデータを基に，解釈可能な閉形式エネルギーモデルを導き出し，エネルギー最適化を実現することを目的とする。
- EnergyLensは，プロファイリングデータからシステム特性とエネルギー消費の関係を明らかにする。
- わずか50回のプロファイリング測定で，従来のベースラインよりも高い構成選択精度(88.2%)を達成する。
- 未知のバッチサイズやハードウェア環境への外挿も信頼性が高く，実用的なエネルギー最適化ツールとなる。
Link: https://arxiv.org/abs/2605.10556
遺伝的プログラミングに基づく遺伝子編集を用いた記号回帰法GESR [cs.AI]目的：遺伝子編集を用いた記号回帰法GESRの開発
- 自然現象を記述する数学的法則の発見は，人類の長年の探求であり，科学的理解の根幹をなす。
- 従来の遺伝的プログラミングは，遺伝的変異と交叉が完全にランダムであり，効率的な進化が妨げられる。
- BERTモデルによる遺伝子編集を通して，記号回帰の効率と性能を向上させる。
- GESRは，従来の遺伝的プログラミングと比較して計算効率が大幅に向上することを示した。
- BERTモデルを活用した遺伝子変異と交叉の誘導により，より優れた結果を得ることができた。
- 複数の記号回帰タスクにおいて，GESRは高い全体的な性能を発揮した。
Link: https://arxiv.org/abs/2605.10685
安全なハードウェア設計と関連問題に対するLLM：機会と課題 [cs.CR, cs.AR, cs.LG]目的：LLMを活用したハードウェア設計における機会と課題の分析
- 半導体産業において，EDAとハードウェアセキュリティの重要性が増しており，新たな設計手法が求められている。
- LLMの導入は強力な機能をもたらす一方，新たなセキュリティ脆弱性を生み出す可能性がある。
- LLM駆動のハードウェア設計における脆弱性を特定し，安全性を確保するための対策を検討する。
- LLMはRTLコード生成やテストベンチの自動化に貢献するが，データ汚染や敵対的機械学習による攻撃に弱い。
- 動的ベンチマーキングやアグレッシブなレッドチームによるセキュリティ評価が，LLMの脆弱性に対抗するための有効な手段となる。
- LLMを活用した安全で信頼性の高い自律的な設計エコシステム構築に向けた今後の研究の方向性を示す。
Link: https://arxiv.org/abs/2605.10807
視覚言語行動モデルのための代数的に整合的な潜在的行動モデル (ALAM) [cs.RO, cs.AI, cs.CV]目的：視覚言語行動モデルにおける潜在的行動表現の学習
- ロボットの行動データ不足は，視覚言語行動モデルの性能向上を阻害する重要な課題である。
- 既存の潜在的行動モデルは，再構成タスクに最適化されているため，ロボットの行動生成に適した構造を持たない。
- ALAMは，視覚情報から代数的な整合性を学習し，ロボットの行動生成に役立つ潜在的表現を獲得することを目指す。
- ALAMは，フレーム間の関係性を利用して潜在的遷移を学習し，再構成能力と代数的な整合性を両立させた。
- ALAMによって学習された潜在的遷移は，ロボットの行動生成において，高い成功率向上に貢献した (MetaWorld MT50で47.9%から85.0%，LIBEROで94.1%から98.1%)。
- ALAMは，既存の潜在的行動モデルと比較して，加法性と可逆性のエラーを大幅に削減し，長期的な再構成性能を向上させた。
Link: https://arxiv.org/abs/2605.10819
MDPにおける確率的安全性を保証するシールド [cs.LO, cs.AI]目的：MDPにおける確率的安全性保証のためのシールド
- 自律エージェントの安全性確保は重要であり，モデルベースの手法が注目されている。
- 確率的安全性，すなわち許容可能な確率での危険許容が，古典的なシールドよりも困難である。
- 確率的安全性におけるシールドの理論的枠組みを確立し，実用的な構築法を提供する。
- 古典的なシールドの保証を確率的安全性で維持することは不可能であることが示された。
- 安全性と許容性の保証が緩和された，自然なシールドが提案された。
- 強力な安全性保証を持つオフラインおよびオンラインシールド構築法が導入された。
Link: https://arxiv.org/abs/2605.10888
V4FinBench：企業倒産予測における表形式ファウンデーションモデル，LLM，および標準手法のベンチマーク [cs.LG]目的：企業倒産予測のためのベンチマークデータセットV4FinBenchの提供と，それを用いたモデルの評価
- 企業倒産予測は，金融において重要な課題であり，高度な予測精度が求められる。
- 公開されている企業倒産予測データセットは規模が小さく，実用的な評価が困難である。
- 大規模かつ多様なデータセットを用いて，より現実的な条件下での予測モデルの性能を評価する。
- V4FinBenchは，ビスエグラードグループ4カ国の100万件を超える企業データを提供し，様々な予測期間に対応している。
- TabPFNをアンバランスデータに対応させてファインチューニングした結果，長期的な予測期間において勾配ブースティングと同等以上の性能を示した。
- Llama-3-8Bは，ROC-AUCとF1スコアにおいて勾配ブースティングに劣り，特に予測期間が長くなるにつれてその差が顕著になった。
Link: https://arxiv.org/abs/2605.10896
DataMaster：データ中心型自律AI研究 [cs.LG, cs.AI]目的：タスク条件付きの自律データエンジニアリング
- 機械学習の性能向上にはデータが不可欠であり，データエンジニアリングの重要性が増している。
- データエンジニアリングは手作業が多く，効率が悪いという課題がある。
- データ探索，選択，加工を自動化し，学習アルゴリズムの性能を向上させる。
- DataMasterは，データエンジニアリングの探索空間を効率的に探索するためのフレームワークである。
- MLE-Bench Liteにおいて，初期スコアと比較してメダル獲得率を32.27%向上させた。
- PostTrainBenchでは，GPQAタスクにおいてInstructモデルを上回る性能(31.02% vs 30.35%)を示した。
Link: https://arxiv.org/abs/2605.10906
拡散モデルのアライメントにおける多様性と効率性を実現する軌道マッチング方策最適化(TMPO) [cs.LG, cs.AI, cs.CV]目的：拡散モデルのアライメントにおける報酬ハッキングの抑制と生成多様性の向上
- 拡散モデルは様々なタスクに応用可能だが，その性能はアライメント方法に大きく左右される。
- 既存のアライメント手法は報酬ハッキングを起こしやすく，生成される画像の多様性と品質を損なう。
- 軌道レベルでの報酬分布マッチングにより，報酬と多様性のバランスを最適化する。
- 提案手法TMPOは，従来の最先端手法と比較して生成多様性を9.1%向上させる。
- TMPOは，人間の嗜好，構成的生成，テキストレンダリングなど，多様なアライメントタスクで競争力のある性能を発揮する。
- 動的確率的木サンプリングにより，大規模なフローマッチングモデルにおける計算コストを削減し，学習効率を向上させた。
Link: https://arxiv.org/abs/2605.10983
MCPShield：LLMエージェントのツール呼び出しトラフィックに対するコンテンツ認識型攻撃検知 [cs.CR, cs.AI, cs.LG]目的：LLMエージェントのツール呼び出しトラフィックにおける攻撃検知手法の開発
- LLMエージェントの利用拡大に伴い，外部ツールとの連携におけるセキュリティ確保が重要となっている。
- LLMエージェントのツール呼び出しトラフィックの監視は未だ十分ではなく，攻撃に対する脆弱性が存在する。
- コンテンツ情報を活用し，LLMエージェントへの攻撃を高い精度で検知するフレームワークを構築する。
- 提案手法MCPShieldは，ツール呼び出しをノード，その関係性をエッジとしてグラフ化し，コンテンツ埋め込み特徴を用いることで高精度な攻撃検知を実現した。
- メタデータのみでは検知性能が限界となる一方，コンテンツ埋め込みを用いることでAUROCが大幅に向上し，0.89以上を達成した。
- タスクを分離した評価により，従来の評価方法が過大評価されている可能性が示された。SBERTによるコンテンツ埋め込みが検知の主要な信号であることが判明した。
Link: https://arxiv.org/abs/2605.11053
HEPA：自己教師あり水平線条件付きイベント予測アーキテクチャ [cs.LG, cs.AI]目的：多変量時系列におけるイベント予測
- 重要インフラや医療など，様々な分野で異常検知や故障予測の需要が高い。
- 異常イベントは稀であり，ラベル付きデータの獲得が困難である。
- ラベルなしデータを用いて，効率的なイベント予測モデルの構築を目指す。
- HEPAは，Transformerエンコーダと予測器から構成され，自己教師あり学習により時系列の潜在表現を学習する。
- 予測器は，将来の表現を予測することで，エンコーダに予測可能な時間的ダイナミクスを学習させる。
- 様々なベンチマークにおいて，既存の時系列モデルを凌駕し，少ないパラメータとラベルデータで高性能を実現した。
Link: https://arxiv.org/abs/2605.11130
LiBaGS：標的合成データ選択のための軽量境界ギャップ合成 [cs.CL, cs.CL, cs.LG, cs.AI]目的：標的合成トレーニングデータの選択
- 機械学習モデルの性能は，トレーニングデータの分布に大きく依存する。
- データ分布の偏りや欠損が，モデルの汎化性能を低下させる場合がある。
- 重要な領域のデータ不足を補う，効率的な合成データ選択手法の確立。
- LiBaGSは，決定境界近接度，予測不確実性，実データ密度，サポート妥当性を組み合わせることで，有益かつ現実的な合成サンプルを選択する。
- 境界ギャップ割り当てルールにより，疎だが現実的な決定境界近傍に焦点を当て，過剰なデータ追加や不確実性の高いサンプルのみの選択を避ける。
- LiBaGSは，古典的なオーバーサンプリング，データ拡張，不確実性/密度評価と比較して，精度向上を実証した。
Link: https://arxiv.org/abs/2605.11231
原始生成と二元判断：テスト時スケーリングからの自己学習 [cs.LG, cs.CL, cs.SE]目的：コード生成における自己学習のためのフレームワーク
- コード生成はソフトウェア開発の自動化に不可欠であり，効率的な学習手法が求められている。
- 従来の学習方法は疎な実行フィードバックに依存し，学習効率が低いという課題がある。
- テスト時スケーリングで得られる比較情報を活用し，より効果的な自己学習を目指す。
- DuSTは，モデル自身の生成した候補プログラム群を比較し，実行結果の正確性に基づいてランキング学習を行う。
- これにより，判断能力と生成能力の両方を向上させることが可能となった。
- Qwen3-30B-Thinkingを用いた実験では，判断精度が+6.2 NDCG，pass@1が+3.1，Best-of-4精度が+4.1向上した。
Link: https://arxiv.org/abs/2605.11299
生成モデルにおける報酬整合のための勾配不要ノイズ最適化 [cs.LG, cs.AI, cs.CV]目的：生成モデルの報酬整合
- 生成モデルの性能向上には，人間の意図と整合した報酬関数の設計が不可欠である。
- 従来の報酬整合手法は，決定的な生成器への拡張が困難である。
- 勾配計算を必要としないノイズ空間最適化による報酬整合手法の開発。
- ZeNOは，勾配不要なフレームワークとして，ノイズ最適化をパス積分制御問題として定式化する。
- ZeNOは，報酬傾斜分布を暗黙的にターゲットとするLangevin力学と関連しており，推論時のスケーリングを可能にする。
- タンパク質構造生成などの微分不可能な設定でも良好な性能を示す。
Link: https://arxiv.org/abs/2605.11347
テスト時計算による密な検索：フローズン埋め込みモデルによるエージェント的プログラム生成 [cs.LG, cs.CL, cs.IR]目的：テスト時計算による埋め込みモデルの性能向上
- 情報検索の精度向上は，多様な応用分野において不可欠である。
- 従来の埋め込みモデルは，計算資源の制約から性能が制限される場合がある。
- フローズン埋め込みモデルでもテスト時計算を活用し，性能を向上させる方法を模索する。
- テスト時計算は，大規模な推論モデルだけでなく，小規模な埋め込みモデルにも有効であることが示された。
- エージェント的プログラム探索により，最適な推論プログラムは，クエリと上位K件のドキュメントの重心のソフトマックス重み付けであることが判明した。
- このデフォルトの推論プログラムは，パラメータなしで，複数の埋め込みモデルにおいてnDCG@10を統計的に有意に向上させた。
Link: https://arxiv.org/abs/2605.11374
20/20ビジョン言語モデル：データキュレーションのみによるより優れたVLMの処方 [cs.HC, cs.LG]目的：ビジョン言語モデル（VLM）の性能向上
- 画像とテキストを理解するVLMは，多様なタスクに応用可能であり，AI研究の重要な分野である。
- VLMの性能向上には，計算資源が大きく必要であり，データセットの品質も課題である。
- データキュレーションのみでVLM性能を向上させ，計算コストを削減することを目指す。
- データキュレーションにより，20の公開VLMベンチマークで平均+11.7ppの性能向上が確認された。
- 2Bモデルにおいて，InternVL3.5-2Bを9.9pp，Qwen3-VL-2Bに匹敵する性能を，より少ない計算量で達成した。
- データキュレーションは，VLMの信頼性，汎化性能，倫理性，効率性を高める効果があることが示された。
Link: https://arxiv.org/abs/2605.11405
計画ガイダンスによる選択的オフポリシー参照チューニング [cs.AI]目的：強化学習における報酬の検証可能性向上
- 複雑な推論タスクにおいて，強化学習の活用が期待されている。
- 既存手法では，困難なプロンプトにおいてサンプルされたロールアウトが全て失敗することがある。
- 失敗事例に対する修復更新を行い，構造を意識した学習信号を生成すること。
- SORTは，参照解から計画を導出し，計画の有無によるトークン確率を比較することで，予測可能性を高める。
- これにより，全てのロールアウトが失敗するプロンプトを，選択的な学習信号へと変換する。
- 3つのバックボーンと8つの推論ベンチマークにおいて，SORTはGRPOやガイダンスベースラインを上回る性能を示した。
Link: https://arxiv.org/abs/2605.11505
隠して見る：VLM蒸留における視覚的アンカー思考のための推論接頭辞マスキング [cs.CV, cs.AI, cs.CL]目的：視覚的証拠に基づいた推論能力の向上
- 近年，視覚言語モデル（VLM）の推論性能が重要視されており，思考と回答を組み合わせるアプローチが注目を集めている。
- 思考と回答を組み合わせるVLMは計算コストが高く，実用化が課題となっている。
- 小型のVLMに思考と回答の能力を効率的に蒸留することが本研究の目的である。
- 提案手法は，推論接頭辞をマスキングすることで，学生モデルが視覚的証拠に依存するように促す。
- マスキング戦略として，トークン単位での選択的なマスキングと，蒸留の難易度に応じたマスキングスケジュールの調整を行う。
- 実験結果から，提案手法は既存のVLM蒸留手法や自己蒸留手法を上回り，マルチモーダル推論ベンチマークで優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.11651
好意と安全性の限界を打破する：嗜好次元の拡張による説明 [cs.AI]目的：大規模言語モデルにおける多目的アライメントの安全性と有用性の限界を，嗜好次元の拡張によって説明すること。
- 大規模言語モデルの性能向上には，人間の多様な嗜好をバランス良く反映させる必要があり，その実現が重要である。
- 有用性と安全性といった異なる嗜好の間にはトレードオフが存在し，一方を最適化すると他方を犠牲にする問題がある。
- プロンプト自体が達成可能な多次元報酬を制限しているという問題に着目し，その解決を目指す。
- 提案手法MORAは，逐次アライメントにおいて，有用性，安全性，真実性といった複数の嗜好に対するアライメント後に，安全性において特に高い改善を示す。
- MORAは，同時アライメントにおいても，全体的な報酬の平均的な改善を4.6%達成する。
- MORAは，プロンプトの事前サンプリングと，多次元的な意図を組み込むための質問の書き換えによって，多目的報酬の多様性を拡大する。
Link: https://arxiv.org/abs/2605.11679
拡散大規模言語モデルにおけるブロックサイズの役割の再考：マルチドメイン強化学習に向けて [cs.LG]目的：拡散大規模言語モデルのマルチドメインにおける強化学習のためのブロックサイズ競合の定式化と解決
- 大規模言語モデルの推論能力向上には，強化学習による後学習が不可欠であり，その性能はブロックサイズに大きく左右される。
- マルチドメイン環境下では，ドメイン間のブロックサイズ最適解が異なることが，後学習の効率を阻害する要因となる。
- ドメイン間のブロックサイズ競合を定量的に評価し，それを克服する新たな後学習手法を開発することを目指す。
- 本研究では，マルチドメイン強化学習におけるドメインブロックサイズ競合を定式化し，その影響を定量的に評価するためのデータセットBlock-R1-41Kを構築した。
- 新たなベンチマークBlock-R1を構築し，単一ドメインおよびクロスドメインにおける柔軟な強化学習後学習を可能にした。
- サンプルレベルで最適なブロックサイズを用いたクロスドメイン後学習手法を提案し，その有効性を13のデータセットと7つの最新強化学習アルゴリズムで検証した。
Link: https://arxiv.org/abs/2605.11726
グラフに基づく最適化：Raoファミリーメタヒューリスティクス，古典的なOR，ナレッジグラフを用いたSLM駆動型定式化 [cs.DB, cs.NE]目的：現実世界の最適化問題の決定変数，制約，目的係数をナレッジグラフから取得する最適化パラダイム
- 最適化問題は様々な分野で不可欠であり，効率的な解決策は社会や産業に大きな影響を与える。
- 従来の最適化手法は，自然言語や表形式の入力に依存し，データの品質問題を見過ごしやすい。
- ナレッジグラフを用いることで，データの品質問題を表面化させ，より堅牢な最適化を可能にする。
- Raoファミリーのメタヒューリスティクスは，問題の性質によって最適なものが異なり，ポートフォリオアプローチの有効性が示された。
- Google OR-toolsは小規模な線形問題では優位性を示すが，非線形な目的関数を持つ現実世界の問題には適用できない場合がある。
- グラフに基づく定式化は，データの欠損や不適切な集約といった品質問題を明らかにし，テキストベースの定式化では隠蔽される可能性のある問題を検出する。
Link: https://arxiv.org/abs/2605.12204
AI説明可能性のための新しい手法：特徴関連マップ [cs.HC, cs.LG, cs.AI]目的：AI説明可能性の向上
- AIの社会実装が進む中で，その判断根拠の透明性が重要課題となっている。
- 既存のAI説明手法では，特徴量の重要度を正確に評価できない場合がある。
- 特徴間の関連性を考慮することで，より精度の高い説明を可能にすることを目指す。
- 提案手法FAMeXは，既存のXAIアルゴリズム（PFI，SHAP）と比較して優れた性能を示した。
- 8つのベンチマークアルゴリズムを用いた実験で，分類タスクにおける特徴量の重要度評価においてFAMeXがより高い精度を達成した。
- FAMeXは，AIシステムの予測を説明するための有望なアルゴリズムとなり得る。
Link: https://arxiv.org/abs/2605.12350
マルチエージェント強化学習における行動多様性のトリガーとしてのイベント [cs.MA, cs.LG]目的：マルチエージェント環境下での多様な行動の誘発メカニズム
- 複雑なタスク遂行には，エージェント間の協調と役割分担が不可欠である。
- 従来のMARLでは，エージェントの役割と行動が固定されており，状況に応じた柔軟な適応が困難である。
- イベントをトリガーとして，エージェントの行動を動的に変化させる枠組みを構築し，課題を解決する。
- 本研究では，イベントに応じて行動を切り替えるための新たなフレームワークを提案した。
- 提案手法は，ニューラル多様性多様体(NMD)とイベント駆動型ハイパーネットワークを活用し，エージェントポリシーを動的に再構成する。
- 実験結果から，提案手法は既存手法を上回り，ゼロショット汎化能力と連続的な役割再割り当てタスクの解決が可能であることが示された。
Link: https://arxiv.org/abs/2605.12388
タイムリーなCOVID-19発生検出のための症例増加の小地域推定 [stat.ML, cs.LG, physics.soc-ph]目的：COVID-19の発生再燃を効果的に検出し抑制するための症例増加率推定
- 感染症の蔓延抑制には，迅速かつ正確な感染状況の把握が不可欠である。
- 短期的なデータのみでは推定精度が低下し，迅速性と精度の両立が課題となる。
- 少ない症例数でも高精度な推定を可能にし，早期の発生検出を実現すること。
- 提案手法TLRFは，既存の推定方法と比較して優れた予測性能を示すことが確認された。
- コロラド州のデータを用いた事例研究では，TLRFがCDPHEの検出率を最大224%向上させることが示された。
- 2020年9月から2023年3月まで運用されたアウトブレイク検出ツールは，全50州の政策立案者から注目を集めた。
Link: https://arxiv.org/abs/2312.04110
Wasserstein-2損失の最小化による生成モデリング [stat.ML, cs.LG]目的：生成モデリングにおける手法
- 機械学習における生成モデルは，データ分布の学習と新たなサンプル生成に不可欠である。
- 従来の生成モデルは，モード崩壊や学習の不安定性といった問題を抱えている。
- Wasserstein距離を用いることで，これらの問題を軽減し，安定した学習を実現すること。
- 本研究では，分布依存常微分方程式を用いてWasserstein-2損失を最小化する生成モデルを提案した。
- 提案手法は，真のデータ分布への指数関数的な収束性を示す勾配フローを形成することが証明された。
- 実験結果から，提案アルゴリズムはWasserstein GANよりも高い性能を発揮することが確認された。
Link: https://arxiv.org/abs/2406.13619
粒子ベースのエネルギー型変分推論の高速化 [stat.ML, cs.LG]目的：エネルギー型変分推論の高速化手法
- ベイズ推論は，不確実性のモデリングに不可欠であり，複雑なモデルへの応用が求められている。
- 変分推論は近似推論手法だが，計算コストが高く，大規模データへの適用が困難な場合がある。
- 粒子法を用いた変分推論の計算効率を改善し，より大規模な問題への適用を目指す。
- 本研究では，エネルギー型変分推論(EVI)の計算効率を向上させる新しい粒子法変分推論(ParVI)手法を提案した。
- 提案手法は，エネルギー二次化と演算子分割技術に着想を得ており，粒子の安定性を保ちつつ，目的分布へ効率的に移動させる。
- 数値実験の結果，既存のParVI手法と同等の性能を達成し，特定の条件下では効率性とロバスト性が向上することが示された。
Link: https://arxiv.org/abs/2504.03158
カーネル埋め込みと測度分離現象 [stat.ML, cs.LG, math.ST, stat.TH]目的：離散的な確率分布の識別
- データ解析において，確率分布間の差異を捉えることは重要である。
- 高次元データにおける確率分布の識別は困難を伴う。
- カーネル埋め込みを用いて，確率分布間の識別を容易にすること。
- カーネル共分散埋め込みは，異なる連続確率分布を理論的に完全に分離することを示す。
- 確率測度の等価性検定は，カーネルヒルベルト空間上の中心化ガウス測度の特異性検定と等価である。
- この「測度分離現象」は，無限次元空間における埋め込みの利点であり，効率的な推論ツール設計に貢献する可能性がある。
Link: https://arxiv.org/abs/2505.04613
ブートストラップアンサンブル分類器の高次元解析 [stat.ML, cs.LG]目的：ブートストラップ手法を用いたLSSVMアンサンブルの性能評価
- 機械学習において，アンサンブル学習は高い汎化性能を示すため，広く利用されている。
- 高次元データにおけるブートストラップ法の理論的理解が不足しており，適切なパラメータ設定が困難である。
- 高次元設定下でのブートストラップ法の効果を解明し，最適なパラメータ選択戦略を提案する。
- ランダム行列理論を用いて，高次元データにおけるLSSVMアンサンブルの性能を理論的に解析した。
- サブセット数と正則化パラメータの選択戦略が，LSSVMの性能に大きな影響を与えることが示された。
- 合成データおよび実データを用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2505.14587
依存重みを持つ事後ベイズニューラルネットワーク [stat.ML, cs.LG, math.PR]目的：依存性を持つ可能性のある重尾分布の重みを持つニューラルネットワークにおける事後分布の解析
- ニューラルネットワークの理論的基盤確立は，機械学習の信頼性と性能向上に不可欠である。
- 標準的なガウス事前分布では表現できない複雑なデータ分布が存在する。
- 無限幅の極限における事後分布を解析し，事前分布の正定値性を保証する条件を導く。
- ニューラルネットワークの出力の事後分布は，ある条件下でガウス混合分布に収束することが示された。
- 事前分布のランダム共分散行列の正定値性を保証する緩和された十分条件が提示された。
- 活性化関数とレヴィ測度に関する十分条件により，順序に依存しない極限が得られることが示された。
Link: https://arxiv.org/abs/2507.22095
4DフローMRIにおける超解像のための敵対的生成ネットワークの可能性と課題 [math.LO, cs.FL, quant-ph, cond-mat.stat-mech, cond-mat.str-el, cs.FL, eess.IV, cs.LG]目的：4DフローMRIにおける超解像技術のGANによる改善
- 4DフローMRIは血流を非侵襲的に評価でき，臨床応用が期待されるが，空間分解能とノイズが課題である。
- 特に血管壁近傍の血流速度測定は，低分解能とノイズの影響を受けやすく，正確な評価が困難である。
- 本研究は，GANを用いて4DフローMRIの空間分解能を向上させ，壁近傍の血流速度の正確な再構成を目指す。
- 提案するGANは，従来の非敵対的法と比較して，壁近傍の血流速度の回復性能を向上させた（vNRMSE: 6.9% vs. 9.6%）。
- Wasserstein GANが最も安定した学習を示し，わずかながらも改善効果が認められた（vNRMSE: 6.9% vs. 7.2%）。
- 低SNR環境下では，Wasserstein GANが従来の生成器のみを用いた手法を上回る性能を示した（vNRMSE: 8.7% vs. 10.7%）。
Link: https://arxiv.org/abs/2508.14950
一般化凸関数の表現と勾配に関する普遍的表現 [math.OC, cs.LG]目的：一般化凸関数とその勾配の普遍的近似
- 最適化問題は広範な分野に適用され，効率的な解法が求められている。
- 双水準最適化問題は解くのが難しく，計算コストが高いという課題がある。
- 本研究では，双水準問題を単水準問題に変換し，効率的な解法を可能とする。
- 提案する微分可能層は，一般化凸関数とその勾配を普遍的に近似することを示した。
- このパラメータ化を利用することで，最適輸送写像やオークションの学習に活用できる。
- 既存の双水準/ミニマックス問題を単水準問題に変換し，一階最適化手法で効率的に解ける。
Link: https://arxiv.org/abs/2509.04477
ベイズ逆問題のための幾何学的オートエンコーダ事前分布：まず学習し，後で観測する [stat.ML, cs.LG, physics.comp-ph, physics.data-an]目的：複雑な形状を持つシステムにおける物理応答の幾何構造を考慮した生成モデルの学習
- 工学分野では推論の信頼性確保が重要であり，不確実性評価が不可欠である。
- 少ない観測データからの逆問題は非常に解が一意に定まらない難題である。
- 複雑な形状を持つシステムに対しても，効果的なベイズ不確実性定量を実現する。
- 提案手法は，様々な形状のシステムデータセットから幾何構造を考慮した事前分布を学習する。
- 学習された事前分布は，特定の観測データと組み合わせて，形状に適応した事後分布を生成する。
- 予測精度は教師あり学習と同等であり，複雑な形状の問題においても信頼性の高い不確実性評価が可能である。
Link: https://arxiv.org/abs/2509.19929
生成モデル出力における効率的な最適化 [stat.ML, cs.LG]目的：生成モデルの出力に対するタスク固有の基準を最適化するサンプルの探索
- 拡散モデル等，生成AIは多様なデータを生成可能。科学や工学では，サンプリング以上の活用が求められる。
- 生成モデルの分布内での最適化は，計算コストが高く，効率的な手法が課題であった。
- 生成モデルの出力から，効率的に高スコアなサンプルを発見することを目指す。
- 提案手法O3は，生成モデルの潜在空間を低次元に埋め込み，標準的な最適化アルゴリズムを適用する。
- 画像やタンパク質設計のタスクにおいて，O3は従来のサンプリングや最適化手法よりも高いスコアのサンプルを発見した。
- 本手法はモデルや最適化手法に依存せず，追加コストは低く，生成モデルの再学習も不要である。
Link: https://arxiv.org/abs/2509.23800
漸進的サンプリングによる等式制約付き最適化 [math.OC, cs.LG, stat.ML]目的：連続非線形等式制約付き最適化問題の解法
- 機械学習等の分野で，期待値や平均に基づく最適化が重要視されている
- 大規模データに対する計算コストが課題となっている
- 漸進的サンプリングにより，計算コストを削減し，効率的な解法を提供する
- 提案手法は，初期サンプルサイズが十分に大きい場合，既存手法よりも優れた最悪の場合のサンプル複雑度境界を示す
- 数値実験の結果，提案手法が実用上有効であることが確認された
- サンプル数を段階的に増加させることで，効率的な最適化が可能となる
Link: https://arxiv.org/abs/2510.00417
行動幾何学的教師信号がビデオ基礎モデルと人間の社会的知覚を整合させる [q-bio.NC, cs.CV, cs.LG]目的：ビデオ基礎モデルにおける人間の社会的知覚との整合
- ビデオ理解は，自動運転やロボット工学など，幅広い応用において重要である。
- 既存のビデオ基礎モデルは，人間の社会的情報の整理方法を捉えられていない。
- 行動幾何学的教師信号を用いて，ビデオモデルを人間の社会的知覚に近づけることを目指す。
- 行動幾何学的教師信号（BGS）を導入し，ビデオモデルの性能を向上させた。
- V-JEPA 2.1は，事前学習済みのベースラインと比較して性能がほぼ3倍に向上し，テキスト埋め込みベースラインを超えた。
- 微調整されたモデルは，言語埋め込みでは捉えられない人間の判断の独自の分散を捉え，解釈可能な社会的・情動的属性を獲得した。
Link: https://arxiv.org/abs/2510.01502
確率の表現における確率重み付け関数のベイズ起源 [q-bio.NC, cs.AI, econ.TH]目的：人間の確率表現における確率重み付け関数の起源の解明
- 人間は確率を合理的に判断できないことが知られており，行動経済学や意思決定研究において重要な課題である。
- 従来の理論では，確率の歪みを説明するには至っておらず，その根源的なメカニズムは不明のままだった。
- ベイズ推論の枠組みを用いて，確率表現の歪みを説明し，より現実的な意思決定モデルを構築すること。
- 人間の確率重み付け関数が，U字型の符号化精度と柔軟な事前分布，そして最適なベイズ復号の組み合わせによって生じることを示した。
- 様々な実験データ（相対頻度判断，宝くじ価格設定，リスク選択）において，提案モデルが既存モデルを上回る性能を示した。
- 二峰性刺激統計を持つ実験においても，符号化精度はU字型を維持し，事前分布が新たな分布を追跡することが確認された。
Link: https://arxiv.org/abs/2510.04698
時空間心エコー画像セグメンテーションにおける教師なしドメイン適応のための強化学習 [eess.IV, cs.AI, cs.CV]目的：時空間心エコー画像セグメンテーションにおける教師なしドメイン適応の改善
- 医療画像解析において，質の高いセグメンテーションは診断精度向上に不可欠である。
- ドメイン間のデータ分布の差異が大きく，ターゲットドメインでの信頼性が課題となる。
- 時系列データの整合性とノイズへのロバスト性を向上させ，セグメンテーション精度を高める。
- 本研究では，強化学習を用いて心エコー画像セグメンテーションのドメイン適応を行い，標準的な手法を上回る性能を達成した。
- 提案手法は，ターゲットドメインのラベルなしデータのみを用いて，セグメンテーションの精度，解剖学的妥当性，時間的一貫性を向上させる。
- また，セグメンテーション性能をさらに向上させるための不確実性推定器を同時に提供する。
Link: https://arxiv.org/abs/2510.14244
線形モデルにおける正の転移のための適応的なソース選択：いつ転移すべきか [stat.ML, cs.LG, stat.OT]目的：線形モデルにおける正の転移のための適応的なソース選択
- ビジネスシーンでは，ターゲットタスクの教師あり学習を阻害する，ラベル付きデータの不足が課題である。
- 従来の転移学習は，どのソースから情報を転移すべきかの判断が難しい。
- ターゲット予測誤差の減少に基づいて，転移の恩恵を受けるソースを動的に選択すること。
- 提案手法は，データに依存する転移利得の推定に基づき，ソースからのサンプルを取り込むか否かを決定する。
- 統計的検定により，高確率で正の転移が保証されることが理論的に示された。
- 合成データと実データを用いた実験により，従来の基盤モデルと比較して一貫した改善が確認された。
Link: https://arxiv.org/abs/2510.16986
教師なし機械学習における量子優位性の限界 [eess.SP, cs.SY, eess.SY, quant-ph, cs.LG]目的：教師なし機械学習における量子優位性の制約
- ビッグデータ分析において，機械学習は人間の介入なしにパターン認識を行う重要なツールである。
- 古典モデルはパラメータ調整に依存するが，量子モデルでは古典確率分布にない特徴の利用が鍵となる。
- 入力データや観測可能な変数に依存する量子優位性の限界を明確にすること。
- 量子モデルが古典モデルよりも優位性を示すためには，古典確率分布には存在しない密度行列の特徴を利用する必要がある。
- 量子優位性は問題に依存する程度であり，データ分析やセンシングへの応用において制約が存在する。
- 具体的な例を通して，量子優位性の可能性を制限する要因が示された。
Link: https://arxiv.org/abs/2511.10709