arXiv雑要約

AI - 2026/02/03 公開

ReasonCACHE：重み更新なしにLLMに推論を教える [cs.LG, cs.AI]目的：重み更新を行わず，文脈学習のみによって大規模言語モデル(LLM)に推論能力を習得すること
- LLMは強力だが，複雑な推論タスクには大量の学習データが必要となる。
- 単純に文脈学習のサンプル数を増やしても，計算コストが増加し，性能が飽和する。
- 文脈長を超えた推論能力を，パラメータ変更なしに効率的に学習すること。
- ReasonCACHEは，Prefix Tuningを用いてデモンストレーションを固定されたキーバリューキャッシュに蒸留する。
- これにより，標準的な文脈学習や重み更新による学習と同等またはそれ以上の性能を，GPQA-Diamond等の推論ベンチマークで達成した。
- データ効率，推論コスト，学習パラメータ数において優れており，文脈学習と重み更新学習の中間的なアプローチを提供する。
Link: https://arxiv.org/abs/2602.02366
Live-Evo：継続的なフィードバックによるエージェント的記憶のオンライン進化 [cs.AI, cs.LG]目的：エージェント的記憶のオンライン進化
- LLMエージェントの性能向上に記憶が不可欠であり，継続的な学習が重要視されている。
- 既存の進化パイプラインは，静的なデータ分割に依存し，真の分布シフトへの対応が課題である。
- 継続的なフィードバックに基づいた，よりロバストなオンライン進化システムを構築すること。
- Live-Evoは，経験バンクとメタガイドラインバンクを分離することで，動的なタスクに適応する。
- 経験の重みをフィードバックに基づいて更新し，有用な経験を強化，誤った経験を減衰させる。
- Prophet Arenaの10週間の評価で，Brierスコアを20.8%改善し，市場リターンを12.9%増加させた。
Link: https://arxiv.org/abs/2602.02369
C-kNN-LSH：順次反実仮想推論のための最近傍探索アルゴリズム [cs.LG, stat.ML]目的：順次反実仮想推論のための最近傍探索フレームワーク
- 複雑な疾患の進行や臨床的意思決定の最適化には，縦断的データからの因果効果の推定が不可欠である。
- 高次元で交絡のある状況下では，適切な比較対象を見つけることが困難である。
- 不規則なサンプリングや患者の回復プロファイルの変動を軽減し，因果効果を正確に推定すること。
- 提案手法C-kNN-LSHは，局所的な最近傍探索により，類似した患者（臨床的ツイン）を効率的に特定する。
- 理論的分析により，提案手法の整合性と頑健性が保証されている。
- Long COVID患者のコホートデータを用いた評価により，既存手法と比較して優れた性能が確認された。
Link: https://arxiv.org/abs/2602.02371
おべっかから意味理解へ：人間とAIの意思決定のための前提管理 [cs.HC, eess.SY, cs.SY, cs.CL, cs.CL, cs.AI]目的：人間とAIの意思決定における前提管理の枠組み
- AIの意思決定支援の拡大に伴い，その信頼性と安全性確保が重要となっている。
- LLMが流暢な同意を示すだけで，客観的な判断を欠くという問題がある。
- 意思決定に不可欠な前提を明確にし，人間とAIが協力して管理することで，より良い意思決定を目指す。
- LLMが単なる回答生成から，知識基盤における前提の共同管理へとシフトする必要性が示された。
- 不一致駆動の制御ループによって，前提の対立を検出し，対話コストを考慮した検証を行うことが提案されている。
- 信頼は，会話の流暢さではなく，検証可能な前提と証拠基準に置かれるべきであると主張している。
Link: https://arxiv.org/abs/2602.02378
構造的不変性からの自己教師あり学習 [cs.LG]目的：視覚データからの教師なし表現学習における，構造的不変性に基づく学習手法
- 視覚情報の理解において，大量のラベル付きデータが不要な表現学習が重要である。
- 既存の自己教師あり学習は，データペア間の条件付き不確実性を捉えきれていない。
- データペアが生成過程から生じる場合に現れる，多対一のマッピング問題を解決する。
- 提案手法AdaSSLは，ペア間の相互情報量の下限を多様化し，表現学習のロバスト性を向上させる。
- AdaSSLは，コントラスト学習と蒸留学習の両方に適用可能であり，幅広いタスクで有効性を示す。
- 因果関係表現学習，画像細部理解，ビデオにおける世界モデル構築において，優れた性能を達成した。
Link: https://arxiv.org/abs/2602.02381
SLIME：選好最適化のための安定化された尤度暗黙マージン強制 [cs.CL, cs.LG]目的：大規模言語モデルの選好に合わせた調整
- 自然言語処理の発展に伴い，人間からのフィードバックを反映したモデル調整が重要になっている。
- 既存手法では，選好の相対的なマージン最適化が絶対的な尤度を損なう場合があり，性能劣化を引き起こす。
- 選好学習と生成品質を分離し，安定したモデル調整を実現すること。
- SLIMEは，選好応答の尤度を最大化するアンカリング項，確率の崩壊を防ぐ安定化ペナルティ，精密な境界形成のための二重マージン機構を採用している。
- 実験の結果，SLIMEは最先端のベースラインと比較して優れた性能を発揮し，生成の安定性を維持することが示された。
- 本研究により，選好学習と生成品質を両立させた新たな調整手法が確立された。
Link: https://arxiv.org/abs/2602.02383
Transformerは因数分解された表現を学習する [cs.LG]目的：Transformerにおける表現の因数分解
- Transformerは自然言語処理の分野で高い性能を示し，その内部表現の理解が重要である。
- Transformerの内部表現は複雑で，どのように情報を整理しているのかが不明確である。
- Transformerが情報をどのように因数分解して表現しているかを明らかにすること。
- 事前学習されたTransformerは，残差ストリームの直交部分空間で情報を因数分解された形で表現することを学習する。
- 因子が条件付き独立である場合，因数分解された表現は情報の損失なしに可能であるが，そうでない場合は予測精度とのトレードオフが生じる。
- 実験の結果，Transformerは条件付き独立な因子を持つプロセスにおいて因数分解された表現を学習し，その傾向は学習初期にも見られた。
Link: https://arxiv.org/abs/2602.02385
設計による信頼：透明性と費用対効果を考慮したLLMルーティングのためのスキルプロファイル [cs.AI, cs.IR, cs.LG]目的：LLMの最適な選択のためのフレームワーク
- LLMの活用が拡大する中で，タスクに適したモデル選択が重要となる。
- 従来の評価指標は詳細な能力を隠蔽し，費用対効果の判断を困難にする。
- タスクに必要なスキルを特定し，予算内で最適なLLMを選択すること。
- BELLAは，批判的プロファイリングによりLLM出力から必要なスキルを抽出する。
- 抽出したスキルを構造化された能力マトリックスにクラスタリングし，性能と予算を最適化する。
- 推奨理由を自然言語で提示することで，LLMルーティングの透明性を高める。
Link: https://arxiv.org/abs/2602.02386
人間と連携したベイズ最適化によるパーソナライズ画像生成 [cs.CV, cs.LG]目的：パーソナライズ画像生成の精度向上
- 画像生成技術は，多様なニーズに応える上で重要であり，表現の可能性を広げる。
- 言語による指示だけでは，ユーザーが求める画像に近づける限界がある。
- 人間の判断を組み込み，言語の限界を超えることで，よりパーソナルな画像生成を目指す。
- 提案手法MultiBOは，複数候補画像に対するユーザーの選好フィードバックを活用する。
- フィードバックを基に拡散モデルを誘導することで，より目標画像に近い画像を生成できる。
- 30人のユーザーによる評価と定量的な比較により，有効性が示された。
Link: https://arxiv.org/abs/2602.02388
無限世界：姿勢推定を用いない階層型メモリによる1000フレームのインタラクティブ世界モデルの拡張 [cs.RO, cs.CV, cs.AI]目的：複雑な実世界環境における1000フレーム以上の視覚的記憶を維持可能な，堅牢なインタラクティブ世界モデル
- 現実世界の理解と操作を可能にするAI開発において，長期的な記憶と環境の認識は不可欠である。
- 既存の世界モデルは，ノイズの多い姿勢推定と視点再訪の稀少性により，実世界の動画に対する効果的な学習方法が課題である。
- 本研究は，姿勢推定に依存せず，長期間にわたる一貫性のある視覚的記憶を効率的に構築することを目的とする。
- 提案手法であるInfinite-Worldは，ヒエラルキー型姿勢推定を用いないメモリ圧縮器（HPMC）により，過去の状態を効率的に要約し，長期的な生成を可能にする。
- 不確実性を考慮した行動ラベリングモジュールは，連続的な動きを離散化することで，ノイズの影響を軽減し，堅牢な行動学習を実現する。
- コンパクトなデータセットを用いた再訪集中ファインチューニング戦略により，モデルの長距離ループクロージャ能力を効果的に活性化させる。
Link: https://arxiv.org/abs/2602.02393
ダビデ対ゴリアテ：強化学習による検証可能なエージェント間脱獄 [cs.LG, cs.AI, cs.CR, cs.MA]目的：エージェント間脱獄の検証
- 大規模言語モデルが自律エージェントとして進化する中で，セキュリティ評価のあり方が問われている。
- 既存の評価手法は主観的であり，客観的な制御問題として捉えられていない。
- 対話のみで禁止されたツール使用を誘発する攻撃手法の脅威を定量的に示す。
- Slingshotという強化学習フレームワークにより，攻撃ベクトルが自律的に発見された。
- Qwen2.5-32B-Instruct-AWQに対して67.0%の攻撃成功率を達成し，攻撃試行回数を大幅に削減した。
- Gemini 2.5 FlashやMeta-SecAlign-8Bを含む複数モデルへのゼロショット転移も確認された。
Link: https://arxiv.org/abs/2602.02395
PRISM：単一パス多感覚模倣学習のためのPerformer RS-IMLE [cs.RO, cs.LG]目的：ロボットの多感覚模倣学習におけるポリシーの提案
- ロボットの自律性を高める上で，人間によるデモンストレーションから学習する模倣学習は重要である。
- 従来の模倣学習手法は，リアルタイム制御や多様な感覚モダリティへの対応が課題であった。
- PRISMは，リアルタイム性と高精度を両立し，多様な感覚情報を統合した模倣学習を可能にする。
- PRISMは，RGB，深度，触覚，音声，固有受容性情報を統合する多感覚エンコーダと，Performerアーキテクチャを用いた線形注意生成器を組み合わせている。
- 実機実験において，PRISMは最先端の拡散ポリシーと比較して，成功率が10-25%向上し，30-50Hzの高頻度閉ループ制御を維持した。
- シミュレーションベンチマーク（CALVIN, MetaWorld, Robomimic）においても，拡散やフローマッチングと比較して成功率が向上し，軌道ジャークを大幅に低減した。
Link: https://arxiv.org/abs/2602.02396
ノイズデータとLLM事前学習損失発散に関する実証研究 [cs.HC, cs.LG]目的：大規模言語モデル事前学習におけるノイズデータの影響と損失発散のメカニズムの解明
- 大規模言語モデルは大量データで学習されるため，データ品質が性能に大きく影響する。
- Webデータにはノイズが多く含まれ，事前学習の不安定化や損失発散の原因となる可能性が指摘されている。
- 本研究では，ノイズデータの種類や量，モデル規模が損失発散に与える影響を定量的に評価する。
- ノイズデータがLLM事前学習において損失発散を引き起こすことが実証された。
- 損失発散の発生確率はノイズの種類，量，モデル規模に強く依存することが示された。
- ノイズによる発散パターンは，学習率が高すぎる場合に発生する発散パターンと区別可能である。
Link: https://arxiv.org/abs/2602.02400
SoMA：ロボットによるソフトボディ操作のためのリアル・トゥ・シムニューラルシミュレータ [cs.RO, cs.AI, cs.CV, physics.app-ph]目的：ロボットによるソフトボディ操作のリアル・トゥ・シムシミュレーション
- ロボットの物理的な操作は複雑であり，シミュレーションによる効率的な学習が不可欠である。
- 既存のシミュレータは，物理モデルの定義やデータ依存性が高く，汎化性能が低い。
- ロボットの行動を考慮した，より正確で安定したシミュレーションを実現すること。
- SoMAは，3Dガウススプラットを用いてソフトボディの変形，環境力，ロボット動作を統合的に学習する。
- 学習されたガウススプラットを活用することで，物理モデルなしに安定した長時間の操作と汎化が可能となる。
- 実世界のロボット操作において，再シミュレーション精度と汎化性能が20%向上し，複雑なタスクのシミュレーションを安定して実現する。
Link: https://arxiv.org/abs/2602.02402
教育的から構成的へ：専門家の解法を学習可能な推論へ [cs.LG, cs.AI]目的：大規模言語モデルの推論能力向上
- 言語モデルの推論能力は，様々なタスクの性能を左右する重要な要素である。
- 現状のモデルでは解決が困難な問題が多く，学習信号の抽出が課題となっている。
- 専門家の解法を有効活用するため，モデルに適した形式への変換を目指す。
- 提案手法DAILは，専門家の解法を詳細な推論トレースに変換することで，分布のずれを解消する。
- DAILは，Qwen2.5-InstructおよびQwen3モデルで10～25%のpass@k向上を実現した。
- 推論効率が2倍から4倍に向上し，ドメイン外への汎化能力も向上した。
Link: https://arxiv.org/abs/2602.02405
ReasonEdit：人間による推論を用いた視覚言語モデルの編集 [cs.CV, cs.AI]目的：視覚言語モデルの編集性能向上
- 大規模言語モデルの利用拡大に伴い，その誤り修正の重要性が増している。
- 既存の編集手法は，推論能力を要するタスクへの対応が不十分である。
- 人間による推論を編集過程に組み込み，汎化性能を高めることを目指す。
- ReasonEditは，人間の推論をコードブックに格納し，関連性の高い情報を効率的に検索する。
- ネットワーク科学に着想を得た新しいマルチモーダル埋め込み方法により，編集性能が向上する。
- 複数の視覚的質問応答データセットにおいて，最先端の編集性能を達成した。
Link: https://arxiv.org/abs/2602.02408
マスク化オートエンコーダによる汎用的な音声強調 [cs.SD, cs.LG]目的：音声強調の性能向上と，他の音声関連タスクへの応用可能性
- 実用的な音声処理において，ノイズや残響などの音響劣化は避けることができない。
- 教師あり学習にはクリーンな音声データが必要だが，現実には入手が困難である。
- 自己教師あり学習を用いて，クリーンなデータなしで高精度な音声強調を実現すること。
- 提案手法は，ノイズ除去と残響除去の両タスクにおいて，既存手法を上回る性能を達成した。
- 事前学習された特徴量は，少量のペアデータを用いたファインチューニングにより，高い性能を発揮する。
- データ拡張や入力特徴量の圧縮処理が，事前学習された特徴量と下流タスクの性能に影響を与えることが示された。
Link: https://arxiv.org/abs/2602.02413
学生とチューターの対話からの誤解の診断：生成，検索，再ランク付け [cs.CL, cs.LG]目的：学生の誤解の検出
- 学習成果の向上には，学生の誤解を早期に正確に特定することが不可欠である。
- 誤解の特定は教師の経験と直感に依存する傾向があり，自動化が課題である。
- 大規模言語モデルを用いて，学生とチューターの対話から誤解を効率的に特定すること。
- ファインチューニングされたLLMによる誤解の生成，検索，再ランク付けの枠組みを提案した。
- 実験の結果，提案手法はベースラインモデルよりも予測性能が向上することが示された。
- ファインチューニングは誤解の質を向上させ，大規模なクローズドソースモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2602.02414
アクティブ転移バギング：転移学習とバギングに基づくモデルによる能動学習データ獲得の高速化に向けた新しいアプローチ [cs.LG]目的：能動学習のための初期シードデータセット選択手法
- 機械学習の成功は大規模なラベル付きデータセットに依存するが，ラベル付けコストは高い。
- 能動学習では，初期シードセットがランダムに選択されるため，早期性能が制限される場合がある。
- 関連データセットを活用し，より良いシードセットを構築することで初期性能を改善する。
- 提案手法ATBaggingは，ベイズ解釈に基づくバギングアンサンブルモデルを用いて，候補データの情報量を推定する。
- 特徴空間の多様性を確保するため，決定論的点過程(DPP)を用いて冗長な選択を回避する。
- 実世界の4つのデータセットで評価した結果，ATBaggingは初期能動学習を改善し，学習曲線下の面積を増加させた。
Link: https://arxiv.org/abs/2602.02415
LLMにおけるエラー自己特定能力の構造的有効性 [cs.AI]目的：大規模言語モデルにおけるエラー自己特定能力の向上
- 言語モデルの性能向上は，AIシステムの信頼性と応用範囲拡大に不可欠である。
- 言語モデルは誤った推論を自己修正することが難しく，その原因特定が困難である。
- 離散的な思考ステップ構造化により，エラーの正確な箇所を特定し，自己修正を可能とする。
- 思考を段階的に構造化することで，モデルはエラー箇所を高い精度で特定できることが示された。
- Iterative Correction Sampling of Thoughts (Thought-ICS) という自己修正フレームワークを提案した。
- Thought-ICSは，外部検証なしでも既存の自己修正手法を上回る性能を示した。
Link: https://arxiv.org/abs/2602.02416
トラストレジオン継続学習：暗黙のメタ学習者として [cs.LG]目的：継続学習における忘却の抑制と効率的な知識獲得
- 機械学習モデルの応用範囲拡大のため，継続的な学習能力は不可欠である。
- 従来の継続学習手法では，過剰な制約や再現性の問題により性能が制限される。
- トラストレジオン継続学習は，これらの課題を克服し，よりロバストな学習を実現する。
- トラストレジオン継続学習は，生成的リプレイとFisher情報に基づくトラストレジオン制約を組み合わせる。
- その更新は，MAMLのようなメタ学習の解釈が可能であり，効率的な学習を促進する。
- 拡散モデルを用いた画像生成と制御において，既存手法よりも優れた性能と保持率を示した。
Link: https://arxiv.org/abs/2602.02417
SafeGround：GUIグラウンディングモデルの信頼性を不確実性較正により判断 [cs.AI, cs.SE]目的：GUIグラウンディングモデルの信頼性評価
- GUI自動操作は効率化に不可欠だが，誤操作は重大な損害に繋がる可能性がある。
- 既存のGUIグラウンディングモデルの信頼性評価が不十分であり，誤った操作を防止できない。
- モデルの不確実性を定量化し，安全な操作を保証する閾値を提供する。
- SafeGroundは，モデル出力の空間分散を捉えることで不確実性を定量化する。
- 較正プロセスにより，誤検出率を統計的に制御する意思決定閾値を導出する。
- ScreenSpot-Proベンチマークにおいて，既存手法よりも正確な予測が可能となり，システムレベルの精度を最大5.38%向上させた。
Link: https://arxiv.org/abs/2602.02419
ポリ注意機構：高階自己注意の汎用的な枠組み [cs.LG, cs.AI]目的：高階自己注意機構の一般的な枠組みの定義と，その計算複雑性と表現力の体系的な研究
- Transformerモデルの中核である自己注意機構は自然言語処理において不可欠であり，その能力向上は重要。
- 自己注意機構は，3つ以上のトークンの相関検出や，複数の入力を参照する複合タスクに弱いという課題があった。
- より高次の注意機構を定義し，その計算効率と表現力のトレードオフを明らかにすることで，この課題を解決する。
- 本研究で定義されたポリ注意機構は，既存の高階注意機構を包含し，多様な関係構造を組み込める。
- 特に，2次時間で正確に計算可能で，任意の固定数に対する関数合成を実行できる新しい注意機構が提案された。
- 機構の表現力とモデルの係数の大きさの間には，密接な関係があることが示された。
Link: https://arxiv.org/abs/2602.02422
潜在フローに基づく適合度最適化のためのタンパク質言語モデルの再利用 [cs.LG, q-bio.QM]目的：タンパク質適合度最適化のための新たなフレームワーク
- タンパク質設計は，創薬やバイオテクノロジーにおいて重要であり，新たな機能を持つタンパク質を効率的に設計する必要がある。
- 高適合度変異体の探索空間が広大であり，計算コストが高い手法が主流であった。
- 事前学習済みタンパク質言語モデルの知識を活用し，効率的な変異体生成と最適化を実現すること。
- CHASEは，事前学習済みタンパク質言語モデルの埋め込みをコンパクトな潜在空間に圧縮することで，勾配ベースのサンプリングなしに高適合度変異体を直接生成する。
- AAVおよびGFPタンパク質設計のベンチマークにおいて，最先端の性能を達成した。
- 合成データによるブートストラップが，データ制約のある環境下での性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2602.02425
LLMの推論における不確実性の評価：埋め込み摂動の有効性 [cs.LG]目的：LLMの推論過程における不確実性の評価手法の検討
- LLMは多様な分野で飛躍的な進歩を遂げているが，信頼性には課題が残る
- LLMの推論過程における不確実性を適切に評価する手法が不足している
- 推論過程の各段階における不確実性をより正確に捉える手法を確立すること
- 埋め込み摂動に対する感度が高いトークンは，LLMの誤った推論ステップに多く含まれることが示された。
- この感度スコアを用いることで，不確実な中間ステップを容易に特定できる。
- 従来のトークン確率やエントロピーよりも，摂動に基づく評価指標の方が高い不確実性評価性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.02427
ベイズ最適化による信頼性の最大化 [cs.RO, cs.LG, math.OC, stat.ML]目的：信頼性の最大化，または故障確率の最小化
- 製造業における設計の最適化は，製品の性能と品質を向上させる上で重要である。
- 極めて低い故障確率（10⁻⁶-10⁻⁸）を伴う場合，従来の最適化手法では効率が悪くなる。
- ベイズ最適化を用いて，低い故障確率下での信頼性最大化問題を効率的に解決すること。
- 提案手法は，Thompson samplingと知識勾配に基づくベイズ最適化手法である。
- 両手法は，極めて低い故障確率を対象とするために重要度サンプリングを組み込んでいる。
- 実験結果から，提案手法は極端な場合とそうでない場合の両方で既存手法を上回ることが示された。
Link: https://arxiv.org/abs/2602.02432
UniReason 1.0: 世界知識に整合した画像生成・編集のための統一的な推論フレームワーク [cs.CV, cs.AI]目的：世界知識に整合した画像生成と編集の統合
- マルチモーダルモデルの発展は，画像生成と編集の質の向上に不可欠である。
- 複雑なタスクにおいて，既存モデルは深層的な推論能力に課題を抱えている。
- 画像生成と編集を統合し，推論能力を高めることによって，より高品質な画像生成を目指す。
- UniReasonは，世界知識を活用した計画立案と，自己修正による微調整という二つの推論パラダイムを統合する。
- 大規模な推論データセットを構築し，計画立案と視覚的な自己修正のための学習を可能にした。
- WISE，KrisBench，UniREditBenchなどのベンチマークにおいて，高い性能を達成した。
Link: https://arxiv.org/abs/2602.02437
エッジAIのためのエネルギー効率型ニューロモルフィックコンピューティング：適応型スパイクニューラルネットワークとハードウェアを意識した最適化フレームワーク [cs.DC, cs.NE, cs.ET, cs.LG]目的：エッジAIにおける超低消費電力，低遅延推論の実現
- エッジAIの普及には，デバイスの制約下での効率的な処理が不可欠である。
- スパイクニューラルネットワークは可能性を秘めるが，学習難易度やハードウェアへのマッピングが課題となる。
- ハードウェア特性を考慮した最適化により，エッジデバイスでの実用的なニューロモルフィックコンピューティングを実現する。
- NeuEdgeフレームワークは，レートコードとタイミングコードを組み合わせ，スパイク活動を抑制しつつ精度を維持する。
- ハードウェアを意識した学習により，ネットワーク構造とオンチップ配置を共同最適化し，ニューロモルフィックプロセッサの利用効率を向上させる。
- 標準的なビジョンおよびオーディオベンチマークにおいて，NeuEdgeは最大2.3msの推論遅延と847 GOp/s/Wのエネルギー効率を達成した。
Link: https://arxiv.org/abs/2602.02439
特定のヘッド，不確かなテール：ファインチューニングされたMoEにおけるテスト時スケーリングのためのエキスパート・サンプル [cs.CL, cs.LG]目的：テスト時スケーリングにおける性能向上
- 大規模言語モデルの性能向上は，その応用範囲を広げる上で不可欠である。
- トークンレベルサンプリングにおける温度調整は，多様性と安定性のトレードオフを引き起こす。
- MoEのルーティング空間を活用し，多様性を維持しつつ安定性を高めることを目指す。
- ファインチューニングされたMoEのルーティング特性から，高確信度のエキスパート群と低確信度の候補群が存在することが示された。
- 提案手法Expert-Sampleは，高確信度の選択を維持しつつ，不確かなテールに制御された確率性を注入することで，多様な生成を可能にする。
- 数学，知識推論，コードタスクにおいて，Expert-Sampleはpass@nと検証ベースの精度を安定的に向上させた。
Link: https://arxiv.org/abs/2602.02443
有限サンプルにおけるWasserstein誤差界および非線形確率的近似の集中不等式 [cs.LG, math.ST, stat.TH]目的：非線形確率的近似アルゴリズムのWasserstein距離における非漸近的誤差界
- 確率的近似は，計算コストが高い問題を効率的に解くための重要な手法である。
- 有限サンプルにおける誤差評価が難しく，理論的な保証が不足している。
- Wasserstein距離を用いた誤差界を導出し，集中不等式を確立することにより，この問題を解決する。
- アルゴリズムの最終解は，あるOrnstein-Uhlenbeck過程と比較することで，有限サンプルにおける誤差界が導出された。
- 正規化された最終解は，ステップサイズ$\gamma_n$を用いてWasserstein距離において$\gamma_n^{1/6}$のレートでガウス分布に収束することが示された。
- Polyak-Ruppert平均も同様に，Wasserstein距離において$n^{-1/6}$のレートで収束し，既存の集中不等式よりも改善された結果が得られた。
Link: https://arxiv.org/abs/2602.02445
能動的因果実験家 (ACE): 直接的な選好最適化による介入戦略の学習 [cs.LG, cs.AI]目的：介入戦略の学習
- 因果関係の発見は重要であり，その過程では実験計画が鍵となる。
- 既存手法は，経験からの学習が難しく，適応的な戦略が不足している。
- 経験から最適な介入戦略を自律的に学習し，実験効率を向上させる。
- ACEは，介入候補間の相対的な比較を利用し，安定した学習を実現した。
- 実験の結果，既存手法と比較して，介入予算を同じにした場合に70-71%の改善が確認された。
- ACEは，経験的にコライダーメカニズムに対する介入戦略を発見し，理論的根拠と一致した。
Link: https://arxiv.org/abs/2602.02451
漫画で考える：構造化された視覚的物語を通じたマルチモーダル推論の強化 [eess.SY, cs.SY, cs.AI]目的：マルチモーダル推論の強化
- 画像や動画を用いたAI研究が発展している。より高度な推論能力が求められている。
- 静止画では時間構造の表現が難しく，動画は冗長性が高く計算コストが高いという課題がある。
- 漫画という高情報密度の媒体を利用し，時間構造とテキスト情報を効率的に活用する。
- 漫画を用いた推論が，画像のみを用いた推論よりも，多段階の時系列・因果推論において優れた性能を示した。
- 漫画を用いた推論は，動画を用いた推論と比較して，大幅に効率的であることが確認された。
- 漫画の物語構造やスタイルがタスクの性能に影響を与えることが示され，効果的な中間表現としての有用性が示唆された。
Link: https://arxiv.org/abs/2602.02453
ワールド・ジムナスト：強化学習を用いたワールドモデルでのロボット訓練 [cs.RO, cs.AI]目的：ロボットのワールドモデルにおける強化学習によるポリシー訓練
- ロボットの学習において，物理世界とのインタラクションコストが課題である。
- 専門家データの不足やシミュレーションから実世界への転移のギャップが存在する。
- ワールドモデルを利用し，実世界のロボット性能向上を目指す。
- ワールド・ジムナストは，専門家データによるファインチューニングを最大18倍，シミュレーターを最大2倍上回る性能を示した。
- 多様な言語指示や新規シーンへの適応，テスト時の訓練，ワールドモデルとポリシーの反復改善が可能となった。
- クラウドでワールドモデルを学習し，ロボットポリシーを訓練することが，実用的なロボット開発の鍵となることが示唆された。
Link: https://arxiv.org/abs/2602.02454
Drift-Bench: 入力エラー下におけるLLMエージェントの協調的失敗の診断 [cs.AI, cs.CL, cs.SE]目的：入力エラー下におけるLLMエージェントの協調的失敗の診断
- LLMが自律エージェントへと移行する中で，安全性と信頼性の確保が重要となっている。
- 従来の評価方法は，明確な指示を前提としているか，単一ターンでの明確化に限定されており，実行リスク下での多段階の曖昧性解消を評価できていない。
- 本研究は，実行リスクを伴う状況下での，エージェントの実用的なコミュニケーション能力を評価する指標を確立することを目指す。
- Drift-Benchは，状態指向型およびサービス指向型環境において，入力エラー下でのエージェントのプラグマティクスを評価する初の診断ベンチマークである。
- 実験の結果，入力エラーによって性能が大幅に低下し，明確化の有効性はユーザーのペルソナやエラーの種類によって異なることが示された。
- 本研究は，明確化研究とエージェントの安全性評価を結びつけ，安全でない実行につながる可能性のある失敗の体系的な診断を可能にする。
Link: https://arxiv.org/abs/2602.02455
マルチサーバー連合学習における競合を考慮したクライアント選択 [cs.RO, cs.CY, cs.LG, cs.NI]目的：マルチサーバー連合学習システムにおけるクライアント選択の最適化
- プライバシー保護と通信コスト削減を実現する分散機械学習手法として，連合学習の重要性が高まっている。
- マルチサーバー環境では，クライアントの重複利用と非調整な選択により，帯域幅の競合や学習の失敗が発生しやすい。
- クライアント選択時の競合リスクを予測し，公平性を考慮することで，学習遅延とリソース競合を最小化する。
- 提案手法であるRL-CRPは，サーバー間の競合を効果的に削減し，学習効率を大幅に改善する。
- 具体的には，収束速度と通信コストの両面において，その効果が確認された。
- 各サーバーは，過去のクライアント選択履歴に基づき，競合リスクを予測する隠れマルコフモデルを使用する。
Link: https://arxiv.org/abs/2602.02458
大規模言語モデルにおける内容非依存型推論のための活性化空間 [cs.RO, cs.CL, cs.AI]目的：内容効果の軽減と形式的妥当性に基づいた推論能力の向上
- 大規模言語モデルの推論能力は，様々な応用において重要であり，その信頼性向上は不可欠である。
- 大規模言語モデルは，内容の妥当性と形式的な妥当性を混同し，内容効果と呼ばれる問題が発生しやすい。
- 活性化空間を操作することで，内容に依存しない形式的な推論を可能にし，モデルの頑健性を高める。
- 抽象化ガイド付き推論フレームワークを導入し，構造的推論と語彙的意味論を分離することで，内容干渉を抑制することを示した。
- 抽象的な入力における活性化を用いて抽象的推論空間を定義し，軽量な抽象化器を学習することで，内容に依存したエラーを削減した。
- 異言語間転移実験により，活性化レベルの抽象化が形式的推論の堅牢性を向上させることを実証した。
Link: https://arxiv.org/abs/2602.02462
メンティスオクリ: メンタルイメージによる推論の限界の解明 [cs.CL, cs.AI, cs.CV, cs.LG]目的：モデルの推論能力におけるメンタルイメージの有効性の評価
- 近年，画像情報を処理するモデルから，視覚とテキストを統合的に生成するモデルへの移行が進んでいる。
- 生成モデルはテキストによる推論能力を持つものの，視覚情報の活用が不十分であるという課題がある。
- 本研究は，モデルが視覚情報を効果的に利用できない原因を特定し，その改善に資することを目的とする。
- 最先端モデルに対し，視覚的な解決策を必要とする多段階の推論問題を提示するMentisOculiを開発した。
- 潜在的なトークンから明示的な生成画像まで，様々な視覚戦略を評価した結果，性能向上は限定的であった。
- UMMは，タスクを解決するテキスト推論能力と正しい画像を生成できるものの，生成エラーの蓄積により，視覚情報を活用できていないことが判明した。
Link: https://arxiv.org/abs/2602.02465
Avenir-Web: グラウンディング専門家混合による人間体験模倣型マルチモーダルWebエージェント [cs.CL, cs.AI, cs.CL]目的：複雑なWebインターフェースにおける長期的タスクの実行可能性向上
- Web自動化の需要増加に伴い，より高度なWebエージェントが求められている。
- 既存エージェントは，要素の正確なグラウンディング，サイト固有の知識，長期タスク追跡が課題。
- 多様なUIに対応し，安定したWeb操作を実現するエージェントの開発。
- Avenir-Webは，オンラインのWebタスクベンチマークであるOnline-Mind2Webで，新たなオープンソースの最先端性能を達成した。
- グラウンディング専門家の混合，経験模倣計画，タスク追跡チェックリストと適応メモリを活用することで，堅牢かつシームレスな対話を実現している。
- Avenir-Webは既存のオープンソースエージェントを大幅に上回り，トップレベルのプロプライエタリモデルと同等の性能を示した。
Link: https://arxiv.org/abs/2602.02468
年齢を考慮した無線環境におけるエッジブラインド連合学習 [cs.IT, cs.LG, eess.SP, math.IT]目的：年齢を考慮したエッジブラインド連合学習手法
- 無線通信におけるデバイスの増加に伴い，分散型機械学習の効率化が重要である。
- 無線チャネルの変動により，連合学習のモデル更新における通信遅延と精度低下が課題である。
- チャネル状態情報なしで遅延を削減し，無線環境での連合学習の精度向上を目指す。
- パラメータサーバが複数のアンテナを用いて最大比率合成を行うことで，正確なモデル更新を検出可能である。
- AgeTop-kアルゴリズムにより，更新頻度の低いパラメータを優先的に選択し，単一のOFDMシンボルに収まるように圧縮する。
- 実験結果から，パラメータサーバのアンテナ数増加，およびkの値の調整が，精度と収束速度の向上に寄与することが示された。
Link: https://arxiv.org/abs/2602.02469
自己回帰型言語モデルにおける反転の呪いをアイデンティティブリッジで打破 [cs.AI]目的：自己回帰型言語モデルにおける反転推論の改善
- 大規模言語モデルは高度なタスクで成功を収めているが，論理的推論には課題が残る。
- 自己回帰モデルは，知識の暗記に偏り，高次のルールを捉えにくいという問題がある。
- 本研究は，データに「アイデンティティブリッジ」を加えることで反転推論の精度向上を目指す。
- アイデンティティブリッジを学習データに加えることで，モデルは反転推論能力を獲得できる。
- 理論的には，1層のTransformerでも勾配降下法のバイアスにより反転の呪いを打破できることを証明した。
- 実験的に，提案手法は反転タスクにおいて40%の成功率を達成し，従来のほぼ0%と比較された。
Link: https://arxiv.org/abs/2602.02470
文脈層ニューラルネットワークに検出ヘッドを組み込んだ多ヘッド自動セグメンテーション [cs.CV, cs.AI, physics.med-ph]目的：放射線療法における自動セグメンテーションの精度向上
- 放射線療法では正確な臓器輪郭が重要であり，自動セグメンテーションはその効率化に貢献する。
- 従来のモデルでは，対象構造が存在しないスライスで解剖学的に不自然な誤検出が生じやすい。
- 誤検出を抑制し，解剖学的に妥当なセグメンテーションを実現することを目的とする。
- 検出ヘッドによるゲーティングにより，誤検出が大幅に抑制され，解剖学的な妥当性が向上した。
- 提案手法は，Dice損失においてベースラインモデルを大幅に上回り，優れた性能を示した。
- 検出確率と実際の解剖学的存在との間に強い相関が認められ，誤ったセグメンテーションが効果的に排除された。
Link: https://arxiv.org/abs/2602.02471
SPARKLING：幅漸進的学習における信号保持と対称性の破れのバランス [cs.LG, cs.CL]目的：幅漸進的学習における，信号保持と対称性の破れのバランス
- 深層学習モデルの規模拡大は計算資源を多く必要とするため，効率的な事前学習手法が求められている。
- モデルの幅を拡大する漸進的学習は未だ研究が少なく，特に学習中期段階での幅拡大は不安定になりやすい。
- 学習中期段階における幅拡大の不安定性を解消し，計算コストを削減することを目指す。
- SPARKLINGはRMSスケールの一貫性により信号保持を実現し，活性化統計量の安定化に貢献する。
- 非対称なオプティマイザ状態のリセットと学習率の再ウォームアップにより対称性を破り，特徴量の多様性を促進する。
- MoEモデルの実験により，SPARKLINGが既存手法を上回り，最大で35%の学習コスト削減を達成した。
Link: https://arxiv.org/abs/2602.02472
HumanX：人間動画からの俊敏かつ汎用的なヒューマノイドインタラクション能力の実現に向けて [cs.RO, cs.LG]目的：人間動画から汎用的な現実世界におけるヒューマノイドのインタラクション能力
- ヒューマノイドロボットの応用範囲拡大には，人間との自然なインタラクション能力が不可欠である。
- 既存手法は，現実的なインタラクションデータの不足や，タスク固有の報酬設計の煩雑さが課題である。
- 本研究は，タスク固有の報酬設計なしに，人間動画から汎用的なインタラクション能力を獲得することを目指す。
- HumanXは，データ生成パイプラインXGenと模倣学習フレームワークXMimicを統合したフルスタックフレームワークである。
- 5つの異なるドメイン（バスケットボール，サッカー，バドミントン，貨物ピックアップ，反応型格闘）において，10種類のスキルを獲得し，Unitree G1へのゼロショット転移に成功した。
- HumanXは，従来の技術と比較して8倍以上の汎化成功率を示し，多様で現実世界のロボットインタラクション能力学習へのスケーラブルな経路を示す。
Link: https://arxiv.org/abs/2602.02473
MemSkill：自己進化型エージェントのための記憶スキルの学習と進化 [cs.CL, cs.AI, cs.LG]目的：自己進化型エージェントにおける記憶スキルの学習と進化
- LLMエージェントの性能は，その記憶システムに大きく依存する。
- 既存の記憶システムは固定的な操作に頼るため，多様な状況への適応が困難である。
- 柔軟かつ効率的な記憶管理を実現し，エージェントの自己進化能力を高める。
- MemSkillは，記憶操作を学習可能なスキルとして捉え，再利用可能なルーチンを構築する。
- コントローラーが適切なスキルを選択し，LLMベースの実行者がスキルに基づいた記憶を生成する。
- 設計者が困難な事例を分析し，スキルセットを改良・拡張することで，継続的な改善を実現する。
Link: https://arxiv.org/abs/2602.02474
AgentRx：実行軌跡からのAIエージェントの失敗診断 [cs.AI]目的：AIエージェントの失敗原因の特定
- AIエージェントの応用拡大に伴い，その信頼性確保が重要になっている。
- 確率的，長期的，多重な要素が絡み合い，原因特定が困難である。
- 失敗軌跡の分析と自動診断フレームワークの開発による解決を目指す。
- 失敗エージェント実行軌跡のベンチマークを構築し，手動アノテーションを実施した。
- AGENTRXという自動診断フレームワークを提案し，制約評価と検証ログを活用した。
- 既存手法と比較して，ステップの局所化と失敗原因の特定精度を向上させた。
Link: https://arxiv.org/abs/2602.02475
ロボット制御のためのフロー方策勾配 [cs.CL, cs.CY, cs.ET, cs.RO, cs.AI]目的：ロボット制御方策の報酬からの学習
- ロボットの自律的な動作を実現するため，強化学習による制御技術の重要性が増している。
- 従来の強化学習手法は，単純な分布に制限される場合があり，複雑な動作の学習が困難である。
- より表現力豊かな方策を学習し，ロボット制御における課題を解決すること。
- フローマッチング方策勾配は，従来の尤度計算を回避し，複雑なロボット制御タスクにおいて有効であることが示された。
- 本研究で提案する改良された目的関数は，二足歩行，ヒューマノイドのモーショントラッキング，操作タスクにおいて成功を収めた。
- シミュレーションから実機へのロバストな転移も二つのヒューマノイドロボットで実証された。
Link: https://arxiv.org/abs/2602.02481
テキストフィードバックによる強化学習の能力拡張 [cs.LG]目的：大規模なテキストフィードバックを用いた強化学習手法の開発
- 大規模言語モデルの性能向上には，効率的な学習方法が不可欠である。人間からのフィードバックは学習の重要な要素となる。
- 従来の強化学習は報酬が希薄であるか，デモンストレーションのコストが高いという課題があった。
- テキストフィードバックを活用することで，より安価かつ豊富な教師信号を用いた学習を目指す。
- 提案手法は，既存の強化学習手法と比較して，推論タスクにおいて一貫して高い性能を示した。
- Self DistillationとFeedback Modelingの二つの手法が，様々なベンチマークで優れた結果を出した。
- テキストフィードバックは，強化学習において豊富な教師信号源として有効であることが示された。
Link: https://arxiv.org/abs/2602.02482
RE-TRAC：深層探索エージェントのための再帰的軌跡圧縮 [cs.CL, cs.AI]目的：深層探索エージェントにおける探索効率の向上
- LLMを活用した深層探索は，複雑な問題解決において重要である。
- ReActフレームワークの線形的な設計が，効率的な探索の妨げとなる。
- 軌跡間の情報共有により，より効率的な探索と計画を実現する。
- Re-TRACは，最新のLLMを用いたBrowseCompにおいて，ReActを15-20%上回る性能を示した。
- 小規模モデルに対しては，Re-TRACを意識した教師ありファインチューニングにより，最先端の性能を達成した。
- Re-TRACは，ラウンドを重ねるごとにツール呼び出しとトークン使用量を一貫して削減し，無駄な探索を抑制した。
Link: https://arxiv.org/abs/2602.02486
RLAnything：完全動的な強化学習システムにおける環境，ポリシー，報酬モデルの生成 [cs.LG, cs.CL]目的：強化学習フレームワークによる環境，ポリシー，報酬モデルの動的な生成
- 大規模言語モデル(LLM)の性能向上は，AI分野における重要な課題である。
- 従来の強化学習では，環境や報酬関数の設計が困難であり，汎用性に課題があった。
- LLMやエージェント型シナリオに対応可能な，学習信号を増幅するシステムの開発。
- RLAnythingは，環境，ポリシー，報酬モデルを閉ループで最適化することにより学習信号を増幅し，強化学習システムの全体的な性能を向上させる。
- ステップごとのフィードバックと結果からの統合的なフィードバックを用いたポリシー学習，および一貫性フィードバックを用いた報酬モデルの同時最適化により，学習が促進される。
- 実験結果から，RLAnythingはQwen3-VL-8B-ThinkingのOSWorld，Qwen2.5-7B-InstructのAlfWorldとLiveBenchでそれぞれ9.1%，18.7%，11.9%の性能向上を実現した。
Link: https://arxiv.org/abs/2602.02488
PixelGen：知覚損失を用いたピクセル拡散が潜在拡散を上回る [cs.CV, cs.AI]目的：高次元ピクセル多様体上の最適化における課題解決と，より意味のある知覚多様体の学習
- 画像生成技術は，コンピュータビジョン分野において重要な役割を果たし，その発展が求められている。
- 従来のピクセル拡散モデルは，高次元ピクセル多様体の最適化が難しく，潜在拡散モデルに劣るという問題点があった。
- PixelGenは，知覚的損失を用いて，より効率的にピクセル多様体を学習し，潜在拡散モデルを超える性能を目指す。
- PixelGenは，VAEを用いないシンプルなピクセル拡散フレームワークであり，知覚的損失によってより意味のある多様体を学習する。
- ImageNet-256において，分類器フリーガイダンスなしでFIDスコア5.11を達成し，わずか80エポックで強力な潜在拡散モデルを上回った。
- 大規模テキスト画像生成においてGenEvalスコア0.79を示し，優れたスケーリング性能を実証した。
Link: https://arxiv.org/abs/2602.02493