arXiv雑要約

AI - 2026/05/08 公開

制御可能な要素の発見：強化学習のための介入境界探索 [cs.LG, cs.AI]目的：強化学習における制御可能な観測次元の識別
- 強化学習の性能は，状態の観測精度に大きく依存する。
- 観測データだけでは，状態と交絡因子が混在する場合，制御可能な次元を特定できない。
- 介入を用いて観測次元を識別し，強化学習エージェントの学習を改善すること。
- 提案手法であるIBDは，エージェントの行動をランダム化し，観測次元ごとの二標本検定を行うことで，制御可能な次元を特定する。
- 12の連続制御環境において，IBDは11環境で理論上の性能に匹敵し，既存の観測ベースラインを上回った。
- IBDは，SACに全ての観測データを入力するよりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2603.18257
スケーラブルなシステムソフトウェア検証のためのニューロシンボリック証明生成 [cs.AI]目的：システムレベル検証プロジェクトにおける証明探索の自動化
- 重要システムにおける正しさを保証する上で，形式検証は不可欠である。
- 大規模な証明スクリプト作成が手動であり，スケーラビリティが課題となっている。
- 大規模言語モデルを活用し，検証プロセスを自動化することでスケーラビリティ問題を解決する。
- 本手法は，seL4ベンチマークにおいて，以前のLLMベース手法やSledgehammerを大幅に上回る性能を示した。
- 定理の77.6%まで証明に成功し，多段階証明問題も解決可能であることを示した。
- 他のIsabelleベンチマークにおいても強い汎化能力を示し，スケーラブルな自動ソフトウェア検証への道を開いた。
Link: https://arxiv.org/abs/2603.19715
前方・後方表現におけるスペクトルアラインメント：時間的抽象化による手法 [cs.LG, cs.AI, cs.RO]目的：連続空間における後継表現学習のためのスペクトルミスマッチ軽減
- 強化学習において，状態空間が連続である場合，効率的な表現学習が重要である。
- 前方・後方表現は低ランク近似を用いるが，環境の遷移ダイナミクスとのスペクトルミスマッチが課題である。
- 時間的抽象化によりスペクトルアラインメントを実現し，安定した学習と長期的な表現を可能とする。
- 時間的抽象化は，遷移オペレータのスペクトル特性を変化させ，高周波成分を抑制する低域通過フィルタとして機能する。
- この抑制により，誘導される後継表現の有効ランクが低下し，値関数誤差の上限が維持される。
- 実験結果から，このアラインメントが，特に高い割引率における前方・後方表現の安定学習に不可欠であることが示された。
Link: https://arxiv.org/abs/2603.20103
長編ビデオ理解のための適応的貪欲フレーム選択 [cs.CV, cs.AI, cs.CL]目的：長編ビデオの質疑応答におけるフレーム選択手法
- 長編ビデオの理解は，監視，教育，エンターテイメントなど，多様な分野で重要性が増している。
- 大規模言語モデルの推論速度が，入力フレーム数とそれに対応する視覚トークンの数に制限される。
- クエリへの関連性と意味的代表性の両方を最適化するフレーム選択により，効率的な推論を実現する。
- 提案手法は，関連性と意味的類似性を考慮し，固定されたフレーム予算内で最適なフレームを選択する。
- MLVUベンチマークにおいて，一様サンプリングや既存手法と比較して，特に厳しいフレーム予算下で精度向上が確認された。
- 質問タイプに応じた戦略を用いることで，関連性とカバレッジのバランスを最適化できる。
Link: https://arxiv.org/abs/2603.20180
言語モデルにおける認識的観察可能性 [cs.DC, cs.AI, cs.CL, cs.LG]目的：言語モデルにおける認識的観察可能性
- 大規模言語モデルの信頼性は重要であり，誤情報の拡散を防ぐ上で不可欠である。
- 言語モデルは虚偽の内容を生成する際，高い確信度を示す傾向があるという問題が存在する。
- テキストのみの観察では，正直な応答と虚偽の応答を区別することが不可能であることを示す。
- 言語モデルの自己報告による確信度は，正確性と逆相関しており，AUC値は0.28から0.36の範囲であった。
- トークンごとのエントロピーを用いることで，AUC値0.757を達成し，テキストベースラインを上回る検出精度を示した。
- 検証予算と検出精度の関係を示すマップを作成し，システム構築者が検証リソースを効率的に割り当てるための指針を提供した。
Link: https://arxiv.org/abs/2603.20531
圧縮Transformerにおける構造的感受性：相対誤差の伝播と層の削除 [cs.LG, cs.AI, cs.CL, cs.LO]目的：Transformerの圧縮における誤差伝播と層削除の影響の分析
- 大規模言語モデルの利用拡大のため，計算コストの削減が重要課題となっている。
- Transformerの圧縮はモデルの精度低下を招く可能性があり，その誤差の蓄積が課題である。
- 誤差伝播の構造を理解することで，効率的なモデル圧縮手法を開発する。
- 各層における誤差の増減比 (rho) を計測し，誤差が下流層にどのように伝播するかを定量化した。
- rhoの値が層削除の順位付けに有効であり，既存手法よりも高い性能を達成した。
- 層内および層間の圧縮において，構造的感受性を考慮した手法が重要であることが示された。
Link: https://arxiv.org/abs/2603.20991
P^2O：方策とプロンプトの共同最適化 [cs.LG, cs.AI]目的：大規模言語モデルの推論能力向上における検証可能な報酬付き強化学習の課題克服
- 大規模言語モデルの推論能力向上は，自然言語処理の発展に不可欠である。
- 強化学習において，困難な事例では報酬の分散が失われ，学習シグナルが減衰する問題がある。
- 報酬分散の減少を克服し，強化学習による言語モデルの性能向上を目指す。
- 方策とプロンプトを交互に最適化するP$^2$Oにより，重要な報酬シグナルが回復した。
- 標準的なGRPOや，ロールアウト予算を増やす手法と比較して，顕著な性能向上が確認された。
- P$^2$Oは，分布外データに対する汎化性能も向上し，最大9.5%の性能改善を実現した。
Link: https://arxiv.org/abs/2603.21877
RAMPAGE：バイアス除去勾配外挿のためのランダム中間点法 [cs.LG, math.OC]目的：非線形ベクトル場における外挿勾配法の離散化バイアス軽減
- 変分不等式は機械学習や最適化問題に応用され，効率的な解法が求められている。
- 既存の外挿勾配法は離散化バイアスの影響を受けやすく，精度が低下する可能性がある。
- 本研究では，バイアスを低減する新たな手法としてRAMPAGEを提案し，その性能を検証する。
- 本研究で提案するRAMPAGEは，外挿勾配法と比較してバイアスがないことが示された。
- RAMPAGE+は，反向サンプリングを活用することで，さらに分散を低減し，より高い精度を実現する。
- 共強制，共単調，一般化リプシッツ条件といった様々な条件下で，1/kの収束率が理論的に保証された。
Link: https://arxiv.org/abs/2603.22155
ラルフ・ウィグムの監督：工学設計のためのメタ認知的な共同制御エージェントAIループの探求 [cs.AI]目的：工学設計におけるエージェントAIの性能改善
- 工学設計の自動化は，設計プロセスの効率化と革新に不可欠である。
- 既存のエージェントAIは，人間と同様の認知バイアスに陥りやすい。
- 設計固定化を抑制し，より多様な設計案を探索すること。
- 提案する自己制御ループ（SRL）と共同制御ループ（CRDAL）は，既存のシステムよりも性能の高い設計を生成した。
- 特にCRDALはSRLと比較して顕著な性能向上を示し，設計空間の探索においても優れていた。
- 本研究は，工学設計のためのエージェントAI開発において，メタ認知的な制御の重要性を示唆する。
Link: https://arxiv.org/abs/2603.24768
SwarmCoDe：動的種分化による異種ロボットスワームの拡張性のある共同設計フレームワーク [cs.RO, cs.MA, cs.NE]目的：異種ロボットスワームの拡張性のある共同設計
- ロボットスワームは単一エージェントでは達成できない複雑な協調タスクを可能にする。
- 従来のフレームワークでは，スワーム規模の拡大により設計空間が膨大になり，共同設計が困難である。
- タスクの複雑さに応じてスワームの異質性を自動的に拡張する手法を確立すること。
- SwarmCoDeは，動的種分化を利用した協調進化アルゴリズム(CCEA)である。
- 遺伝的タグと選択遺伝子により，事前に定義された種境界なしに相乗効果のあるパートナーを識別する。
- 支配遺伝子によりスワーム構成を制御し，進化集団サイズと物理的スワームサイズを分離することで，最大200エージェントのスワームを最適化できる。
Link: https://arxiv.org/abs/2603.26240
強化学習における非マルコフ観測の検出のための予測に基づくマルコフ違反スコア [eess.SY, cs.SY, cs.LG, cs.AI, stat.ML]目的：強化学習における観測系列の非マルコフ性を定量化するマルコフ違反スコア（MVS）の提案
- 強化学習は現実世界への応用が期待されているが，センサの特性が性能に大きく影響する。
- 現実世界のセンサはノイズや遅延を含むことが多く，マルコフ性を満たさない場合がある。
- 観測の非マルコフ性が強化学習の性能低下を引き起こす問題を特定し，解決すること。
- 提案手法であるMVSは，観測系列の非マルコフ性を[0,1]の範囲で定量的に評価できる。
- 実験結果から，高次元の運動制御タスクにおいて，ノイズ強度とMVSの間に有意な相関関係が認められた。
- MVSは部分観測性を正確に特定し，アーキテクチャ選択を支援することで，非マルコフ観測による性能損失を回復できることが示された。
Link: https://arxiv.org/abs/2603.27389
スペクトルエッジダイナミクス：ニューラルネットワーク学習における相転移の解析的研究 [cs.RO, cs.LG, cs.AI]目的：ニューラルネットワーク学習における相転移の制御機構
- 深層学習の性能向上には，学習プロセスに対する理解が不可欠である。
- 従来の相転移検出手法は，大規模モデルでは有効性を失う場合がある。
- パラメータ更新のグラム行列のスペクトルギャップに着目し，学習過程を解明する。
- スペクトルギャップのダイナミクスが，grokking，能力獲得，損失停滞といった相転移を制御することを示した。
- スペクトルギャップの位置はオプティマイザに依存し，Muonではk*=1，AdamWではk*=2となることを確認した。
- 提案フレームワークは，安定性の限界，テンソルプログラム，ディソンブラウン運動，宝くじチケット仮説などと整合性がある。
Link: https://arxiv.org/abs/2603.28964
バイリンガルBabyLMの育成：小規模モデルを用いた多言語獲得の探求 [cs.CL, cs.AI, cs.LG]目的：多言語獲得のメカニズム解明
- 世界的に多言語使用が一般的であり，言語獲得に関する理論的・実践的な疑問が多い。
- 自然な実験設定が難しく，言語間でのデータ比較が困難である。
- 制御された条件下での学習シミュレーションを通じて，多言語獲得の課題を検証する。
- バイリンガルモデルは，単一言語モデルと同等の性能を示し，第二言語においても高い性能を発揮した。
- 様々なバイリンガル学習方法に，顕著な差は見られなかった。
- 統計的学習者にとって，多言語入力は原理的に困難ではない可能性が示唆された。
Link: https://arxiv.org/abs/2603.29552
スクリーニングで十分 [cs.LG, cs.AI, cs.CL]目的：クエリとキーの関連性の絶対的な評価
- 言語モデルの性能向上には，効率的な注意機構が不可欠である。
- 標準的なsoftmax注意機構では，不要なキーへの注意を完全に排除できない。
- 絶対的な関連性を評価し，不要なキーを排除することで効率化を目指す。
- Multiscreenは，Transformerベースラインと同程度の検証損失を，約30％少ないパラメータで達成する。
- 学習率を大幅に大きくしても安定性を保ち，学習コンテキストを超える長文でも安定したperplexityを維持する。
- コンテキスト長が長くなっても検索性能の低下が少なく，長いコンテキストにおける前方パスのレイテンシが低い。
Link: https://arxiv.org/abs/2604.01178
自己学習：驚きを通して学び，証明によって定着 [cs.LG]目的：言語モデルによる文書からの自己学習メカニズム
- 大規模言語モデルの知識獲得は，その応用範囲を広げる上で重要である。
- 既存手法では，単純な暗記と真の理解の区別が困難である。
- 文書中の異常値を検出し，検証を通して理解を深めることで，暗記を抑制する。
- Autolearnフレームワークは，文書中の異常値を検出し，Q&A形式で検証することで学習効率を高める。
- 摂動ギャップという指標を用いて，暗記と理解を区別し，Autolearnが暗記を抑制することを示す。
- 実験の結果，Autolearnは新規事実の生成確率を大幅に向上させ，自己消火機能も確認された。
Link: https://arxiv.org/abs/2604.01951
StableTTA：学習不要なテスト時適応手法によるビジョンモデル性能の向上 [cs.CL, cs.CV, cs.AI]目的：テスト時適応手法によるビジョンモデル性能向上
- 画像認識の精度向上は，様々な応用分野において重要な課題である。
- アンサンブル学習は計算コストやメモリ消費が課題となる。
- 非線形変換や投票操作による予測の一貫性の不安定性を解消する。
- StableTTA-Iは，一貫性のあるバッチ推論において，予測の一貫性と精度を大幅に向上させる。
- StableTTA-IIは，単一のモデルで軽量かつアーキテクチャに依存しない精度向上を実現する。
- テスト時の意味的 coherence と集約の安定性が，実用的なテスト時適応システムを改善する上で有用であることが示唆される。
Link: https://arxiv.org/abs/2604.04552
部分KVデコーディングにおける残余質量会計 [cs.LG, cs.CL]目的：部分KVデコーディングにおける残余質量会計手法
- 大規模言語モデルの長文処理能力向上が求められており，計算コスト削減が重要課題である。
- 従来のKVキャッシュの全てを保持する方式では，計算コストが増大し，長文処理が困難となる。
- 正確なKV情報を一部のみ保持し，残りを推定することで計算コストを削減し，性能を維持する。
- 提案手法は，既存の言語モデルやKVテンソルを変更することなく，残余質量会計ルールを導入する。
- 1%の正確なサポート予算で，RULERやBABILongにおいて，Top-Kベースラインよりも性能が向上した。
- LongBenchの要約タスクでは良好な結果が得られたが，マルチドキュメントQAでは結果が混在した。
Link: https://arxiv.org/abs/2604.05438
乗算的相互作用に隠された脆弱性：多Modal Contrastive Learningにおける脆弱性の解明 [cs.LG]目的：多Modal Contrastive Learningにおける脆弱性の特定と，それに対するゲート機構の提案
- 画像とテキストのマッチングでCLIPが示すように，Contrastive Learningはペアデータからの教師なし学習の標準手法である。
- ２つ以上のModalを含むデータセットでは，ペアごとのAlignmentを超えた高次の依存関係を捉える必要があり，課題となっている。
- 信頼性の低いModalの影響を抑制し，ノイズや欠損に強い多Modal Contrastive Learningを実現すること。
- 提案手法Gated Symileは，合成ベンチマークと3つの実世界のtrimodalデータセットにおいて，最先端のベースラインよりも高いtop-1検索精度を達成した。
- ゲート機構は，信頼性の低い入力を抑制することで，クロスModal検索スコアの歪みを軽減する効果が確認された。
- 本研究は，ノイズ，Alignmentのずれ，入力欠損がある状況下で，多Modal Contrastive Learningのロバスト性を向上させるためのゲート機構の重要性を示唆する。
Link: https://arxiv.org/abs/2604.05834
Claw-Eval：自律エージェントの信頼性評価に向けて [cs.AI]目的：自律エージェントの信頼性評価のための包括的な評価スイート
- LLMをエージェントとして活用が進む中で，その性能を正確に評価することは不可欠である。
- 既存の評価指標は，評価の透明性や安全性，多様な環境への対応という点で課題があった。
- より信頼性の高い評価フレームワークを構築し，実用的な自律エージェント開発を支援すること。
- Claw-Evalは，実行トレース，監査ログ，環境スナップショットといった多様な証拠チャンネルを用いることで，評価の透明性を高めた。
- 従来の評価方法では見過ごされていた安全性に関する違反や堅牢性の問題を44%及び13%検出できた。
- 能力と一貫性の間に乖離があり，エラー注入による評価ではPass@3は安定する一方，Pass^3は最大24%低下した。
Link: https://arxiv.org/abs/2604.06132
確率的多目的バンディットは単目的バンディットよりも難しいか？ [cs.LG, stat.ML]目的：確率的多目的バンディット問題におけるパレート後悔の分析
- 多目的最適化は現実世界の様々な意思決定問題に応用可能であり，重要性が増している。
- 多目的バンディット問題では，パレート最適解の探索が困難であり，効率的なアルゴリズムが求められている。
- 本研究は，多目的バンディット問題が単目的バンディット問題と比べて本質的に難しいかどうかを検証する。
- パレート後悔は，各目的における最適解との差の最大値に反比例し，単目的バンディット問題と同程度の難易度であることが示された。
- 提案手法は，各アーム・目的ペアに対する上限・下限信頼区間推定量を用いており，パレート後悔が$O(\nicefrac{\log T}{g^\dagger})$で達成されることが証明された。
- 実データ実験の結果，提案手法は既存手法と比較してパレート後悔を大幅に削減し，パレート最適解に収束することが確認された。
Link: https://arxiv.org/abs/2604.07096
周波数強調拡散モデル：ゼロショット骨格アクション認識のためのカリキュラムガイド型意味的アラインメント [cs.CV, cs.AI]目的：ゼロショット骨格アクション認識における意味的アラインメント
- 人間行動認識は，監視からヒューマン・ロボットインタラクションまで，コンピュータビジョンの重要な分野である。
- 教師あり学習は注釈に依存し，未知のアクションへの汎化が課題である。
- 拡散モデルの高周波ダイナミクスの過剰平滑化問題を解決し，詳細な動作を復元する。
- 提案手法FDSMは，意味的ガイド型スペクトル残差モジュールと時間ステップ適応型スペクトル損失を統合する。
- カリキュラムベースの意味的抽象化により，微細な動きの詳細を効果的に回復する。
- NTU RGB+D，PKU-MMD，Kinetics-skeletonデータセットで最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.09063
大規模な問題還元：計算困難な問題の能動的統合 [cs.AI]目的：計算困難な問題間の還元手法の構築と，それを利用した問題解決システムの開発
- NP困難な最適化問題の効率的な解決は，科学技術の発展に不可欠である。
- 既存の問題還元ライブラリは規模が小さく，汎用性に欠けるという課題があった。
- AIコーディングエージェントを活用し，大規模で検証可能な問題還元ライブラリを構築すること。
- AIコーディングエージェントを制御するハarness（制約，検証システム，フィードバックループ）を設計した。
- 約3ヶ月で，100種類以上の問題タイプと200種類以上の還元ルールを含むRust製のコマンドラインツールを構築した。
- 還元グラフの推移性により，新たなsolverの登録が他の問題への適用を容易にする。
Link: https://arxiv.org/abs/2604.11535
初期化時における正規化不要Transformerの亜臨界信号伝播 [cs.CL, cs.LG, stat.ML]目的：Transformerの初期化時における信号伝播の分析
- Transformerは自然言語処理や画像認識で広く用いられ，その性能向上は重要な課題である。
- Transformerの深層化に伴い，勾配消失や発散といった学習の不安定性が問題となる。
- 初期化時の信号伝播を分析し，安定した学習が可能なTransformerの構造を明らかにすること。
- 平均偏ヤコビアンノルム（APJN）を用いることで，Transformerの層間における勾配増幅を定量的に評価した。
- LayerNormを使用しないTransformerは，APJNがべき乗則に従って成長し，亜臨界的であることが示された。
- Dynamic TanhやDynamic erfのようなアーキテクチャが初期化や最適化に敏感である理由を理論的に説明した。
Link: https://arxiv.org/abs/2604.11890
DeEscalWild：SLMを用いた自動的脱エスカレーション訓練のための現実世界ベンチマーク [cs.CL, cs.AI]目的：法執行機関における効果的な脱エスカレーション訓練のための高品質なデータセット
- 法執行機関の安全確保と地域社会との信頼構築において，脱エスカレーション能力は不可欠である。
- 従来の訓練方法は拡張性や現実性に欠け，大規模な訓練の実施が困難である。
- 軽量なハードウェアでも利用可能なSLMを用いて，現実的な脱エスカレーション訓練を可能にする。
- DeEscalWildデータセットは，公開されている動画から抽出した警察官と市民のやり取りから構築された。
- このデータセットを用いてファインチューニングされたSLMは，ルーグ，BLEU，METEORなどの評価指標で高い性能を示した。
- 30億パラメータのQwen 2.5は，Gemini 2.5 Flashよりも優れた性能を発揮し，ドメイン最適化されたSLMの有効性を示した。
Link: https://arxiv.org/abs/2604.13075
自己生成：自己進化型エージェントプロトコル [cs.AI]目的：自己進化型エージェントプロトコルの開発
- LLMベースのエージェントシステムは複雑なタスク解決に有効だが，課題も多い。
- 既存プロトコルは，エージェントのライフサイクル管理やバージョン管理が不十分である。
- 進化の仕組みと内容を分離し，自己進化を安全に行うプロトコルを構築する。
- 自己進化プロトコル(AGP)を提案し，リソース管理とクローズドループによる自己進化を実現した。
- AGPを基盤とする自己進化型マルチエージェントシステム(AGS)を開発し，複数のベンチマークで性能を検証した。
- AGSは，既存手法と比較して一貫した改善を示し，エージェントリソース管理と自己進化の有効性を裏付けた。
Link: https://arxiv.org/abs/2604.15034
SSMamba：病理画像分類のための自己教師ありハイブリッド状態空間モデル [cs.CV, cs.AI]目的：病理画像の分類における，より効果的な特徴学習
- 病理診断は画像解析に大きく依存しており，精度の高い画像解析が重要である。
- 既存のモデルは，倍率変化への適応や，局所・大域的関係性のモデリングが不十分である。
- 本研究は，これらの課題を解決し，微細な診断的特徴を捉えることを目指す。
- SSMambaは，ターゲットROIデータセットを用いた自己教師あり事前学習と，教師ありファインチューニングの二段階パイプラインを採用している。
- SSMambaは，10の公開ROIデータセットにおいて，11の最先端病理Foundation Modelを上回り，性能を実証した。
- また，6つの公開WSIデータセットでは，8つの最先端手法を凌駕し，タスク固有のアーキテクチャ設計の優位性を示した。
Link: https://arxiv.org/abs/2604.15711
BOIL：学習環境における個別化情報 [cs.LG, cs.RO]目的：複雑な環境下における多エージェントシステムの効率的な情報抽出
- 環境認識は，自律的な行動を可能にする上で不可欠であり，その重要性は増している。
- 限られた情報から有用な情報を効率的に抽出することが困難である。
- 環境構造から価値ある情報を抽出し，長期的なエージェント行動を導くこと。
- BOILは，PageRankアルゴリズムと共通情報最大化を利用し，環境構造から情報を抽出するスケーラブルな手法である。
- 実験の結果，BOILは，複雑な環境において，ヒューリスティックな手法よりも優れた性能を示す戦略分布を生成することが示された。
- BOILは，カバレッジ，パトロール，確率的到達可能性といった問題に応用可能である。
Link: https://arxiv.org/abs/2604.17137
報酬スコアマッチング：フローモデルと拡散モデルに対する報酬ベースのファインチューニングの統合 [cs.LG, cs.AI, cs.CV]目的：報酬に基づく生成モデルの調整手法の統合
- 生成モデルの性能向上は，画像生成などの分野で重要な課題である。
- 既存の報酬ベースファインチューニングは手法が多様で，理論的な整理が求められていた。
- 報酬スコアマッチングという共通の枠組みを通して，既存手法の理解と効率化を目指す。
- 多くの報酬ベースファインチューニング手法を「報酬スコアマッチング」という共通の枠組みで説明できることが示された。
- この枠組みにより，既存手法のトレードオフが明確になり，最適化の主要な要素と付加的なメカニズムの区別が可能になった。
- その洞察に基づき，よりシンプルで効率的な再設計が，代表的なタスクで実現された。
Link: https://arxiv.org/abs/2604.17415
静的なスナップショットを超えて：エージェント化の最前線における言語モデルの評価フレームワーク [cs.AI]目的：言語モデルの評価における構造的な不備の克服
- 大規模言語モデルは急速に進化しており，その性能評価は不可欠である。
- 既存の評価フレームワークは，実用的なエージェントシステムに不向きな問題点を抱えている。
- 検証可能な報酬領域において，報酬ハッキングを回避し，評価の再現性を高めることを目指す。
- 提案するGCEフレームワークとISOProの実装により，既存手法よりも大きな能力向上を達成した。
- ISOProは，特に小規模モデルにおいて，計算資源の制約下でも顕著な性能改善を示した。
- 学習カリキュラムの偏りによる能力低下の可能性を指摘し，その対策を提示した。
Link: https://arxiv.org/abs/2604.17573
自由な80億パラメータ言語モデルによる完全シミュレーション環境を用いたツール学習の民主化 [cs.LG, cs.CL]目的：ツール呼び出しエージェントの学習
- ツール利用エージェントは多様なタスクを自動化可能であり，実用的な応用が期待される。
- 従来の環境構築は，教師データや大規模な言語モデルに依存し，コストと手間がかかる。
- 低コストで，小規模言語モデルを用いた動的な環境シミュレーションによる学習を実現する。
- TRUSTEEは，80億パラメータのオープンソース言語モデルを用いて，タスク生成から評価までを包括的にシミュレーションする。
- 本手法は，追加リソースを必要とするベースライン手法を多くの場合で上回る性能を示した。
- 小規模言語モデルでも，適切な設計によりツール学習の強力な基盤となりうることを確認した。
Link: https://arxiv.org/abs/2604.17739
検索拡張生成のための潜在的抽象化 [cs.CL, cs.AI]目的：検索拡張生成における知識獲得と事実性の向上
- 大規模言語モデルの知識不足を補い，より正確な応答を生成する上で重要である。
- 既存手法では，検索と生成の分離や自然言語クエリ生成の限界がある。
- 言語モデル内部で検索と生成を統合し，効率性と性能を向上させる。
- 提案手法LAnRは，言語モデルの潜在空間内で検索と生成を統一的に行う。
- LAnRは，テキストクエリ生成を回避し，効率的な情報検索を実現する。
- 様々なQAベンチマークで既存手法を上回り，推論効率も改善された。
Link: https://arxiv.org/abs/2604.17866
患者臨床経路における欠損モダリティの処理と解釈：自己回帰系列モデリングによるアプローチ [cs.CL, cs.LG, cs.AI]目的：患者臨床経路における欠損モダリティの処理と解釈
- 医療分野における多岐にわたるデータは，患者ケアの質向上に不可欠である。
- 臨床データは時間的制約とモダリティの欠損が頻繁に発生し，モデルの性能低下を招く。
- 欠損モダリティの影響を軽減し，説明可能な予測モデルを構築することを目指す。
- 欠損を考慮したコントラスト学習事前学習により，複数のモダリティを共有潜在空間に統合した。
- 自己回帰系列モデリングは，MIMIC-IVとeICUのベンチマークにおいて，既存手法を上回る性能を示した。
- モダリティの削除が患者の行動に変化をもたらす傾向があり，コントラスト学習がこれを緩和することが示された。
Link: https://arxiv.org/abs/2604.18753
MedMNISTに対するPNWモデルの100%精度ベンチマーク [cs.AI]目的：人工特別知能による機械学習モデルの完全誤り回避
- 医療画像解析は，診断精度向上に不可欠であり，医療現場での活用が期待されている。
- 既存の機械学習モデルは，誤分類を繰り返す可能性があり，信頼性に課題がある。
- 本研究は，誤りがない機械学習モデルを構築し，医療画像解析の信頼性を高めることを目指す。
- 人工特別知能の概念を導入し，MedMNISTの18データセットを訓練した。
- 二重ラベリングの問題がある3データセットを除く全てで，完全な精度を達成した。
- これにより，機械学習モデルが繰り返し同じ間違いをしない能力を獲得できることが示唆された。
Link: https://arxiv.org/abs/2604.18916
オフポリシー強化学習におけるクリティック学習のための低ランク適応 [cs.LG, cs.AI]目的：オフポリシー強化学習におけるクリティック学習の構造的正則化
- 強化学習は，複雑な意思決定問題を解決する上で重要な役割を果たす。
- オフポリシー強化学習では，クリティックの容量拡大が過学習や不安定性を招く可能性がある。
- クリティックの更新を低次元部分空間に制約することで，過学習と不安定性を抑制することを目指す。
- 提案手法であるLoRAは，クリティック学習における構造的正則化として機能する。
- LoRAは，訓練中のクリティック損失を効率的に低減し，全体的なポリシーの性能を向上させる。
- SACやFastTD3などのオフポリシー強化学習アルゴリズムで最良または競争力のある結果を達成した。
Link: https://arxiv.org/abs/2604.18978
教師なし視覚的軌跡からの挙動モデル学習 [cs.AI]目的：挙動モデルの学習
- 現実世界へのAIプランニング応用には，行動の前提条件と効果を捉えたモデル構築が不可欠である。
- 従来の学習方法は，状態や行動シーケンスの高レベルな記述に依存しており，行動観測なしでの学習は困難であった。
- 視覚的軌跡のみから挙動モデルを学習し，行動観測なしでのモデル構築の課題を解決することを目指す。
- 提案手法は，状態予測，行動予測，挙動モデルを同時に学習する深層学習フレームワークである。
- 予測の崩壊や自己強化的な誤りを防ぐため，混合整数線形計画法（MILP）を導入する。
- MILPによる修正統合により，モデルは局所最適解から脱出し，整合性の高い解に収束することが示された。
Link: https://arxiv.org/abs/2604.19043
事前学習テキストにおける基準に基づいた自己対戦による，オープンエンドタスクのためのポストトレーニング信号のブートストラップ [cs.CL, cs.LG]目的：オープンエンドタスクにおけるポストトレーニング信号の獲得
- 大規模言語モデルの性能向上には，継続的な学習が不可欠である。
- 従来の強化学習は，高品質な教師データが必要であり，コストが高い。
- 自己対戦フレームワークを用いて，教師データなしで学習を進めることを目指す。
- 提案手法POPは，大規模言語モデル自身に評価基準を生成させることで，オープンエンドタスクへの適用を可能にした。
- 事前学習コーパスを活用することで，報酬ハッキングを抑制し，モード崩壊を防ぐことに成功した。
- Qwen-2.5-7Bを用いた実験で，長文医療QAからクリエイティブライティングまで，様々なタスクで性能向上が確認された。
Link: https://arxiv.org/abs/2604.20051
囁き声を用いた話者認証の性能向上：後処理によるアプローチ [cs.SD, cs.AI]目的：囁き声に対するロバストな表現学習
- 話者認証は，セキュリティシステムや音声インターフェース等，多様な分野で重要な役割を担う技術である。
- 囁き声は，通常の音声とは異なる音響特性を持つため，話者認証システムの性能を低下させる問題がある。
- 囁き声環境下でも高い認証精度を実現するためのモデル開発を目指す。
- 提案手法は，話者認証のバックボーンをファインチューニングしたエンコーダー・デコーダー構造を採用し，コサイン類似度に基づく分類とトリプレット損失を組み合わせて最適化された。
- 通常の音声と囁き声の検証において，ベースラインと比較して相対的な性能向上率が22.26％ (ベースライン6.77％に対し，提案手法は5.27％) を達成し，AUCは98.16％となった。
- 囁き声同士の検証では，EERが1.88％，AUCが99.73％となり，既存のReDimNet-B2と比較して15％の相対的な性能向上が確認された。
Link: https://arxiv.org/abs/2604.20229
高容量カーネル関連記憶における疎関数密な表現からの量子化頑健性 [cs.NE]目的：カーネルロジスティック回帰に基づく高容量連想記憶の表現の幾何学的原理の解明
- 連想記憶は，記憶と想起という認知機能の基盤であり，神経科学やAI分野で重要視されている。
- 高容量連想記憶は計算資源を多く必要とし，ハードウェア実装の効率化が課題となっていた。
- 量子化やプルーニングによる圧縮実験を通して，連想記憶の頑健性の背後にある原理を明らかにすること。
- ネットワークは低精度量子化に対しては頑健であるが，プルーニングに対しては強い感受性を示すことが明らかになった。
- この挙動は「疎関数，密な表現」という原理で説明できる。すなわち，疎な入力写像が，密な二値パラメータ化によって実現されている。
- これらの知見は，ハードウェア効率の良いカーネル連想記憶の実現に向けた道筋を示唆する。
Link: https://arxiv.org/abs/2604.20333
高次元密度と情報量の推定のための償却済みツリーコプラ [cs.LG, cs.IT, math.IT, stat.ME]目的：高次元データの依存構造モデリング
- 複雑なデータ間の依存関係を捉えることは，機械学習や統計モデリングにおいて重要である。
- 高次元データにおける依存構造のモデル化は計算コストが高く，現実的な問題への適用が困難である。
- 計算効率を向上させつつ，高次元データの依存構造を正確に推定することを目指す。
- 提案手法VDCは，二変量ノイズ除去モデルを再利用することで，ツリーコプラの学習コストを削減する。
- VDCは，合成データと実データにおける密度推定，相互情報量/総相関の推定において高い性能を示す。
- VDCにより，反復的なツリーコプラの適合が困難だったタスクでの明示的な情報量推定と依存性分解が可能になる。
Link: https://arxiv.org/abs/2604.20568
1回の再帰の価値はどの程度か？ループ型言語モデルにおける等深スケーリング則 [cs.HC, cs.LG, cs.CL]目的：ループ型Transformerにおける1回の再帰の価値を，等価な一意パラメータ数で評価すること
- 言語モデルの性能向上には，モデル規模の拡大が有効だが，計算コストも増大する。
- 再帰構造はモデル規模を効率的に拡大する可能性を秘めているが，その効果は明確に評価されていない。
- 再帰構造がモデル性能に与える影響を定量的に評価し，有効な再帰構造の設計に貢献すること。
- 再帰回数 $r$ と検証損失の関係をスケーリング則としてモデル化し，再帰回数に対する等価指数の$\varphi$を0.46と推定した。
- 再帰構造は一意のブロックを持つモデルと比較して，同等の性能を得るために大きな計算コストを要することが示された。
- 切断バックプロパゲーションやハイパーコネクションなどの手法が，再帰構造の有効性に影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2604.21106
科学教室の談話分析の高度化：推論構成要素分類のための同時マルチタスク学習 [cs.CL, cs.AI]目的：科学教室における生徒の推論パターンの分析
- 教育効果を最大化するため，生徒の知識構成メカニズムを理解することは重要である。
- 大規模な教室談話の手動コーディングは，労力と時間がかかるため困難である。
- 教室談話の自動分析システムの開発による，効率的な分析手法の確立を目指す。
- 提案システムは，教師と生徒の発話をUtterance TypeとReasoning Componentの二つの側面から分類する。
- 少数クラスのラベル不均衡に対処するため，LLMを活用したデータ拡張を適用した。
- 教師の質問を含むフィードバックが，生徒の推論的思考の先行要因として最も一貫性があることが示された。
Link: https://arxiv.org/abs/2604.21137
Mochi：メタ学習による効率的なグラフ基盤モデルの事前学習と推論の整合性向上 [cs.CY, cs.LG, cs.AI]目的：グラフ基盤モデルにおけるタスク統合と学習効率の向上
- グラフ構造データは，ソーシャルネットワークや生物学など，様々な分野で広く存在する。
- 既存のグラフ基盤モデルは，事前学習と推論の間にずれが生じやすく，性能が制限される。
- メタ学習を用いて事前学習と推論を整合させ，学習効率と性能を改善することを目指す。
- Mochiは，既存のグラフ基盤モデルと比較して，25の現実世界のグラフデータセットで競争力のある性能を達成した。
- Mochiおよびその改良版Mochi++は，最先端のベースラインと比較して，8〜27倍少ない学習時間で同等または優れた性能を示した。
- Mochiは，推論プロトコルを反映した少数のエピソードで事前学習を行うことで，事前学習と推論の整合性を高めている。
Link: https://arxiv.org/abs/2604.22031
建物の地図からのカバレッジと電力最適化トランシーバー配置学習：直接的および間接的ニューラルアプローチの比較研究 [cs.LG, cs.NI, eess.SP]目的：無線トランシーバーの最適な配置
- 無線ネットワーク計画において，トランシーバー配置は重要な課題である。効率的な配置は，ネットワーク性能に大きく影響する。
- 大規模な環境では，最適な配置を網羅的に探索することは計算コストが高く，現実的ではない。
- 学習済みの伝搬モデルを用いて，建物の地図から最適な配置を効率的に学習することを目指す。
- カバレッジ最適化配置は受信電力の13.86%を犠牲にする一方，電力最適化配置はカバレッジの5.50%を犠牲にするという非対称なトレードオフが示された。
- バランスの取れた配置は，理想点（100%, 100%）から平均距離 $\bar{d}=2.60$ の位置に存在することが明らかになった。
- 直接的なスコアマップ戦略は，網羅的な最適解に匹敵し，候補予算が小さい場合でも近い性能を維持し，14～22倍の高速化を実現した。
Link: https://arxiv.org/abs/2604.22056
地球循環モデル降水バイアス補正のための微分可能なフレームワーク [cs.LG]目的：地球循環モデル降水バイアスの補正手法
- 気候変動予測において，地域計画への直接利用を妨げるバイアスが存在するため，その補正は重要である。
- 降水は分布が非ガウス的であり，極端値の補正が困難である。既存手法は汎化性能に課題がある。
- 大規模データから系統的なパターンを学習し，多様な地域やモデルに適用可能な補正手法を開発する。
- 提案手法dCLIMBAは，CMIP6モデルと観測データLivneh間のバイアスを効果的に補正し，極端降水の分布を改善した。
- 米国の多様な都市において降水量の分布がよく再現され，LOCA2などの既存手法と比較して良好な空間パターンを示した。
- 将来のトレンドを部分的に保持し，未知の地域における周辺バイアスを軽減する可能性が示された。
Link: https://arxiv.org/abs/2604.23045
線形文脈バンディットにおける方向性に基づいたオフライン-オンライン学習 [cs.LG]目的：線形文脈バンディット問題におけるオフラインデータとオンライン学習の効率的な組み合わせ
- バンディット問題は，推薦システムや広告配信など，様々な分野で活用されており，最適な行動選択が重要である。
- オフラインデータは有用だが，オンライン環境との乖離により，誤った学習結果を招く可能性がある。
- 方向性に基づいたバイアス評価により，オフラインデータの活用範囲を適切に制限し，学習効率を向上させる。
- 提案手法Ellipsoidal-MINUCBは，オフラインデータを安全に活用することで，標準的なSupLinUCBと同等の性能を発揮する。
- オフラインデータが低バイアス方向と一致する場合，提案手法はより高い性能向上を示す。
- バイアス証明が未知の場合でも，オンラインデータから適応的に推定し，後悔の上限を保証する。
Link: https://arxiv.org/abs/2604.24016
材料透過電子顕微鏡のための画像・メタデータ対照事前学習 [cs.LG, cs.CE]目的：材料透過電子顕微鏡画像と取得メタデータの表現学習
- 透過電子顕微鏡は高分解能画像を提供するが，標本損傷を防ぐ低線量下でのノイズ問題が課題である。
- 従来の画像認識と異なり，透過電子顕微鏡画像には正解データが存在せず，自動実験における表現獲得が難しい。
- 画像取得時の情報を活用し，ノイズ除去やパラメータ制御に役立つ表現を学習することで，上記問題を解決する。
- 画像とメタデータを対照的に学習するCIMPモデルを開発し，交差モーダル検索で高い性能（84.4% Top-1精度）を達成した。
- 学習された画像埋め込みから，7次元の取得パラメータを線形プローブによって個別に復元できることを示した。
- CIMP埋め込みを用いてメタデータ条件付きスタイル変換モデルを構築し，低線量画像の画質を向上させ，専門家による評価で既存手法を上回った。
Link: https://arxiv.org/abs/2604.24909
asRoBallet：摩擦を考慮した強化学習による，アンダーアクチュエート球面ダイナミクスのSim2Realギャップの解消 [cs.RO, cs.AI]目的：摩擦を考慮した強化学習による，ヒューマノイドボールボットのロコモーションポリシーの確立
- ボールボットはアンダーアクチュエート・非ホロノミック制御の標準的なベンチマークであり，その研究はロボット工学の発展に貢献する。
- 現実世界とシミュレーションの間の摩擦モデルのずれが大きく，強化学習によるボールボットの制御実現を困難にしている。
- 高精度なシミュレーションと摩擦を考慮した強化学習により，現実世界へのスムーズな転移を実現し，その課題を克服する。
- ETH型全方向車輪の離散的なローラーメカニズムを明示的にモデル化した高忠実度なMuJoCoシミュレーションを開発した。
- 車輪-ボール間およびボール-床間の結合されたローリング，横滑り，およびねじれ摩擦チャネルを習得する摩擦を考慮した強化学習フレームワークを実現した。
- 過拘束四脚ロボットの主要コンポーネントを再利用し，低コストで堅牢な研究プラットフォームを構築した。
Link: https://arxiv.org/abs/2604.24916
モデルが監督にどれだけ早くコミットすべきか：Tsallis損失連続体における推論モデルの訓練 [cs.LG, cs.AI]目的：推論モデル訓練における損失関数Tsallis $q$-対数の活用
- 高度な推論能力は，AIシステムの信頼性と性能向上に不可欠である。
- 従来のSFT-RLVRパイプラインでは，コールドスタートの問題やラベルノイズへの脆弱性が課題であった。
- Tsallis損失連続体を通じて，推論モデルの訓練戦略を最適化し，コールドスタートやノイズへの耐性を向上させる。
- Tsallis損失関数を用いることで，RLVRと対数周辺尤度の間を連続的に変化させることが可能になった。
- SFT（$q{=}1$）がコールドスタートから脱却し，その後にRLVR（$q{=}0$）がノイズ耐性を高めるというSFT-RLVRパラダイムの有効性が理論的に説明された。
- 新しいモンテカルロ推定器であるGARLとPAFTを提案し，FinQA，HotPotQA，MuSiQueにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.25907
ビデオ事前知識と非同期ノイズ除去による統一的な4D世界行動モデリング [cs.RO, cs.AI, cs.CV]目的：ロボット行動の実行と高精度な4D世界合成の統合
- ロボット工学における環境理解と行動計画の重要性が増しており，現実世界での応用が期待される。
- 従来の統一的世界モデルは2Dピクセル空間に限定され，行動効率と世界モデルの品質のバランスが課題であった。
- 本研究は，行動効率と高精度な世界モデルの両立を目指し，4D世界モデルの性能向上を図る。
- X-WAMは，5,800時間以上のロボットデータで事前学習された結果，RoboCasaで79.2%，RoboTwin 2.0で90.7%の平均成功率を達成した。
- X-WAMは，既存手法と比較して，視覚的・幾何学的指標の両方において，より高精度な4D再構成と生成を実現した。
- 非同期ノイズサンプリングにより，効率的なリアルタイム実行と高精度なビデオ生成を両立した。
Link: https://arxiv.org/abs/2604.26694
未来世界：現実世界の結果報酬を持つ予測エージェントのためのライブ強化学習環境 [cs.AI, cs.LG]目的：予測エージェントの強化学習環境
- 現実世界のイベント予測は，継続的に学習するエージェント構築に不可欠である。
- 従来の強化学習は即時報酬に依存し，未来予測タスクへの適用が難しい。
- 現実世界の結果フィードバックを強化学習信号として活用し，予測精度を向上させる。
- FutureWorld環境は，予測，結果実現，パラメータ更新の学習ループを閉じる。
- verl-tool-futureフレームワークにより，予測時のロールアウトを保存し，結果に基づいて報酬を付与する。
- 3つのオープンソースエージェントにおいて，予測精度，確率的スコアリング，キャリブレーションが改善された。
Link: https://arxiv.org/abs/2604.26733