arXiv雑要約

AI - 2026/05/19 公開

反復的な報酬誘導型ポストトレーニングによるテーブル言語モデルの自己改善 [cs.LG, cs.AI]目的：テーブル言語モデルの性能向上
- テーブルデータは様々な分析において重要であり，その生成技術の向上は不可欠である。
- 従来のテーブル言語モデルは一度学習させた後，静的な合成器として機能するため，性能向上の限界がある。
- 生成されたテーブルデータの分布，有用性，識別不能性の向上を目指し，自己改善型のポストトレーニング手法を開発する。
- 提案手法TabGRAAは，既存の教師ありファインチューニングや，DPO，KTO，NPOといったベースライン手法を上回る性能を示した。
- 報酬ランキングの重要性と，グループレベルでの安定した更新が性能向上に寄与することが示された。
- 分類器ベースおよび分類器フリーの報酬，そして適切なスコアラー分離が，忠実度，有用性，プライバシーのトレードオフを維持する上で重要であることが確認された。
Link: https://arxiv.org/abs/2604.18966
シャーパ.aiによるノイズの多い識別子を用いたプライバシー保護型マルチパーティエンティティアラインメント（交差開示なし） [cs.CR, cs.AI, cs.DC, cs.LG]目的：プライバシー保護型エンティティアラインメントの実現
- 分散学習は，データ集中を避けて共同モデル学習を可能にする重要な技術である。
- 従来のPSIは交差メンバーシップを漏洩し，データセット間の機密関係を露呈する可能性がある。
- 交差メンバーシップを隠蔽し，正確かつノイズ耐性のあるマッチングを可能にするアラインメント手法の提供。
- シャーパ.aiのマルチパーティPSUプロトコルは，複数の参加者に対して低い通信オーバーヘッドで機能する。
- 正確なアラインメントと，タイプミスや書式違いに強いアラインメントの両方のバリアントを提供する。
- このプロトコルは，実際の分散学習環境におけるプライバシー保護型エンティティアラインメントをスケーラブルに実現する。
Link: https://arxiv.org/abs/2604.19219
MolClaw：医薬品分子評価，スクリーニング，最適化のための階層型スキルを持つ自律エージェント [cs.RO, cs.AI, cs.MA]目的：医薬品分子の評価，スクリーニング，および最適化
- 創薬は時間とコストがかかるため，効率化が強く求められている。
- 既存のAIエージェントは，複雑な創薬ワークフローで十分な性能を発揮できていない。
- 複雑なワークフローを効率的に実行し，AI創薬のボトルネックを解消すること。
- MolClawは，30以上の専門ツールを統合した階層型スキルアーキテクチャを用いて，高い性能を発揮する。
- MolBenchというベンチマークにおいて，分子スクリーニング，最適化，エンドツーエンド創薬の全課題で最先端の性能を達成した。
- 性能向上は，構造化されたワークフローを必要とするタスクに集中しており，AI創薬におけるワークフローオーケストレーションの重要性が示された。
Link: https://arxiv.org/abs/2604.21937
Lean 4自動形式化における言い換えによる失敗の特性評価 [cs.CL, cs.CL, cs.LG]目的：Lean 4自動形式化における言い換えに起因する失敗の構造
- 形式化支援システムは数学の厳密性を高め，エラーの発見を助ける点で重要である。
- 自動形式化は入力の表現に敏感であり，意味的に等価な言い換えでも異なる結果を生む場合がある。
- 言い換えによる失敗パターンを分類し，自動形式化の改善に繋げる。
- 大規模言語モデルおよびオープンウェイト自動形式化器において，言い換えに対する脆弱性はコード生成層での失敗に起因することが示された。
- 失敗の種類はデータセットによって異なり，パターンが一般化されることが確認された。
- この研究は，自動形式化の失敗モード分類を提供し，特定のコンパイルエラーへの対策を促す。
Link: https://arxiv.org/abs/2604.23135
大規模言語モデルにおけるファインチューニングと文脈学習：形式言語学習の視点 [cs.CL, cs.LG]目的：大規模言語モデルの言語習熟度と帰納的バイアスの比較
- 大規模言語モデルの能力向上は，自然言語処理の発展に不可欠である。
- ファインチューニングと文脈学習のどちらが優れているか，明確な結論が得られていない。
- 形式言語学習タスクを用いて，大規模言語モデルの評価基準を確立すること。
- ファインチューニングは分布内汎化において文脈学習よりも高い言語習熟度を示す。
- 分布外汎化においては，両者の性能に差は見られない。
- 文脈学習の性能は，モデルのサイズや語彙に大きく依存する。
Link: https://arxiv.org/abs/2604.23267
LEGO：LLMスキルベースのフロントエンド設計生成プラットフォーム [cs.AI]目的：LLMを活用したフロントエンド設計の自動化
- デジタル回路設計の自動化は，設計効率と品質を向上させる上で重要である。
- 既存のLLMベースのEDAエージェントは，特定のタスクに特化し，再利用性が低いという課題がある。
- LEGOは，モジュール化されたスキルを活用することで，柔軟かつ効率的なRTL設計を可能にする。
- LEGOは，フロントエンド設計フローを6つのステップに分解し，各エージェントの機能を標準化された回路スキルとして表現する。
- 42の実行可能な回路スキルを抽出し，VerilogEval v2の難易度の高い問題に対して，Pass@1を0.000から0.805へと大幅に向上させた。
- LEGOのスキル構成は，他のVerilogコード生成ツールと比較して，より高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.23355
金融機関横断型不正検知のためのスケーラブルで検証可能な連合学習 [cs.CR, cs.LG]目的：金融機関横断型不正検知のための連合学習フレームワーク
- 金融不正は機関を越えて巧妙化しており，単一機関での検知は困難であるため，連携が不可欠である。
- 連合学習はデータ共有なしに協調学習を可能にするが，計算コストや通信量，検証の脆弱性が課題である。
- 本研究は，効率的な集約と整合性検証により，連合学習の実用的な展開を目指す。
- 提案手法DSFLは，動的シャーディングにより通信量を削減し，スケーラビリティを向上させる。
- 線形整合性タグを用いることで，暗号化なしで更新の整合性を検証し，一貫性攻撃への耐性を高める。
- ULBクレジットカード不正検知データセットにおいて，DSFLは従来の方式と比較して集約遅延を大幅に削減し，高い不正検知率を達成した。
Link: https://arxiv.org/abs/2604.23437
Kolmogorov-Arnoldネットワークの普遍性の必要十分条件 [cs.LG, cs.NE, math.FA]目的：Kolmogorov-Arnoldネットワークの辺関数における普遍近似性
- 機械学習における関数近似は，複雑な現象のモデル化や予測に不可欠である。
- ネットワークの構造や活性化関数の選択が，近似能力に大きな影響を与える。
- 普遍近似性を満たすための最小限の条件を明らかにすること。
- 辺関数に一つでも非アフィン関数があれば，深層Kolmogorov-Arnoldネットワークは関数空間上で密となる。
- 二層のネットワークの場合，普遍性は活性化関数が非多項式であることと同値である。
- 非多項式関数の場合，固定された5つのアフィン関数の族で十分な普遍近似性が得られる。
Link: https://arxiv.org/abs/2604.23765
Transformerにおける文脈内学習能力の調査 [cs.LG, cs.AI]目的：Transformerの文脈内学習における性能の系統的分析
- Transformerは自然言語処理の基盤技術であり，その性能向上は様々な応用への発展に不可欠である。
- 文脈内学習の成功条件は理論的に示されているものの，実証的なスケーリング則は十分に解明されていない。
- 文脈内学習における入力次元，例数，事前学習タスク数の影響を分析し，成功・失敗の条件を明確化すること。
- Gaussian混合二値分類タスクにおいて，文脈内学習のテスト精度が入力次元，例数，事前学習タスク数に依存することを確認した。
- モデルが文脈からタスク構造を推論する上で，データの幾何学的条件が重要であることが示唆された。
- ノイズを含む文脈内ラベルを記憶しつつ，クリーンなテストデータで高い汎化性能を示す良性オーバーフィッティングの発生条件を特定した。
Link: https://arxiv.org/abs/2604.25858
MedSynapse-V：潜在的記憶の進化による視覚的知覚と臨床的直感の架け橋 [cs.CV, cs.AI]目的：医療画像診断における潜在的診断記憶の進化
- 高精度な医療診断は，画像特徴だけでなく，専門家が瞬時に活用する暗黙的な診断記憶に依存する。
- 既存の医療画像VLMsは，離散的なトークン化により，量子化損失や長距離情報の消失，症例適応型専門知識の欠如といった認知的な不整合を抱える。
- モデル内に動的に潜在的診断記憶を合成し，臨床家の経験的な想起をシミュレーションすることで，この不整合を解消することを目指す。
- 提案手法は，外部の専門知識を内在パラメーターに転送することで，診断精度を大幅に向上させる。
- 特に，Chain-of-Thoughtパラダイムと比較して，顕著な性能向上を示す。
- Meta Query，CCR，IMTといった機構により，臨床的忠実性と効率的な記憶進化を実現している。
Link: https://arxiv.org/abs/2604.26283
ハンケル構造センシングと分解による超解像多信号到来方向推定 [cs.LG, eess.SP]目的：超解像多信号到来方向推定の新しい枠組み
- 自動運転システム等における空間サンプリングの重要性が増している
- 大規模アレイにおけるコヒーレンス時間の制約が課題となっている
- 限られた条件下の高精度な到来方向推定を実現する
- 提案手法は，ホワイトガウスノイズ下で最尤推定に最適であることが示された。
- ラプラスノイズ下では，インパルス性干渉や破損した計測に対してロバストな性能を示す。
- シミュレーションにより，提案手法の優れた超解像能力が確認された。
Link: https://arxiv.org/abs/2604.26793
ClawGym: 効果的なクローエージェント構築のためのスケーラブルなフレームワーク [cs.CL, cs.AI, cs.LG]目的：クローエージェント開発ライフサイクルをサポートするスケーラブルなフレームワーク
- ローカルファイルやツールを活用するエージェント開発は，自動化の可能性を秘めている。
- 検証可能な訓練データ生成と，エージェント訓練・診断評価の統合が課題となっていた。
- 訓練データ生成，モデル訓練，評価を効率化し，クローエージェント開発を加速させる。
- 13.5Kタスクから構成される多様なデータセットClawGym-SynDataを構築した。
- 教師ありファインチューニングで高性能なクローエージェントClawGym-Agentsを訓練した。
- 自動フィルタリングと人間・LLMレビューによるベンチマークClawGym-Benchを構築し，信頼性の高い評価を可能にした。
Link: https://arxiv.org/abs/2604.26904
動的敵対的ファインチューニングによる拒否幾何形状の再編成 [cs.LG, cs.CL, cs.CR]目的：言語モデルにおける拒否メカニズムの内部構造変化
- 安全性と有用性のバランスが重要であり，過剰な拒否を抑制する手法が求められている。
- 有害な要求に対する拒否性能と，通常の質問への応答性能のトレードオフが課題である。
- 動的敵対的ファインチューニングが拒否メカニズムに及ぼす影響を幾何学的に分析し，最適化を目指す。
- R2D2は初期段階でHarmBenchに対する攻撃成功率をゼロにするが，同時にXSTestでの過剰な拒否と有用性の低下を引き起こす。
- ファインチューニングの進行に伴い，有用性が部分的に回復する一方で，攻撃に対する脆弱性が再出現する。
- R2D2は拒否メカニズムを層構造内で再編成し，初期層への移動が確認された。これは，ロバスト性と有用性のバランスを示す。
Link: https://arxiv.org/abs/2604.27019
カーネル化されたアドバンテージ推定：ノンパラメトリック統計からLLMの推論へ [cs.LG, stat.ML]目的：LLMの推論能力向上のためのアドバンテージ推定手法
- LLMの性能向上には強化学習が不可欠であり，推論能力の改善に貢献している。
- 既存手法は，計算コストやサンプル効率に課題があり，リソース制約下での利用が難しい。
- 少ないサンプル数で高精度な勾配推定を実現し，リソース制約下でのLLMの学習を可能にする。
- 本研究では，古典的なノンパラメトリック統計手法であるカーネル平滑化をLLMの推論に適用した。
- 提案手法は，正確な価値関数と勾配の推定を可能にし，ポリシー最適化の改善に貢献する。
- 数値実験と理論的分析により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2604.28005
意見の相違から学ぶ：価値に基づいた医療における臨床AIに対する臨床医のオーバーライドは，暗黙の優先シグナルである [cs.LG, cs.AI]目的：臨床AIに対する臨床医のオーバーライドの活用
- 医療現場でのAI活用は，医療の質向上や効率化に貢献する重要な要素である。
- AIの推奨を臨床医がオーバーライドする理由の分析が不十分であり，AIの改善に繋がっていない。
- 臨床医のオーバーライドを，AIの学習に有効なデータとして活用し，より適切なAIを開発すること。
- 臨床医のオーバーライドは，AIに対する暗黙の優先シグナルとして捉えることができる。
- オーバーライドの種類を分類し，それに応じたモデルの更新ターゲットを定めるフレームワークを提案した。
- 患者の状態や組織の状況，臨床医の能力を考慮した報酬モデルと能力モデルの同時学習アーキテクチャを開発し，抑制バイアスを防止した。
Link: https://arxiv.org/abs/2604.28010
強化学習における人間のフィードバックからの学習に対するWasserstein分布ロバスト後悔最適化 [cs.LG, cs.CL, math.OC, stat.ML]目的：人間のフィードバックからの強化学習における過剰最適化の緩和
- 大規模言語モデルの性能向上には，人間の価値観との整合が不可欠であり，そのための手法としてRLHFが重要視されている。
- RLHFで使用される報酬は人間の真の選好の近似に過ぎず，報酬の過剰最適化（Goodharting）が問題となる。
- 報酬の不確実性を考慮したロバスト最適化により，過剰最適化を抑制し，真の性能を向上させることを目指す。
- 本研究では，Wasserstein分布ロバスト後悔最適化（DRRO）を提案し，従来のDROよりも過剰な悲観性を軽減できることを示した。
- シンプレックス配分モデルを用いた理論的解析により，DRROにおける最適解がwater-filling構造を持つことを明らかにした。
- DRROは，GRPOスタイルのRLHFトレーニングへの変更を最小限に抑え，実用的なポリシー勾配アルゴリズムとして実装可能である。
Link: https://arxiv.org/abs/2605.00155
一般和ゲームにおけるKL正則化による悲観主義回避オフライン学習 [cs.LG, cs.GT]目的：一般和ゲームにおけるオフライン学習の安定化と均衡回復
- マルチエージェント強化学習は，複雑な協調・競争環境の自動化に不可欠である。
- オフライン学習では，データセットと最適戦略の乖離が学習の不安定化を引き起こす。
- KL正則化のみで安定学習を達成し，悲観的ペナルティなしのオフライン学習を実現する。
- 提案手法GANEは，正則化されたナッシュ均衡を統計的に高速なレートで回復する。
- 計算効率を高めるため，Coarse Correlated Equilibriumへ収束するGAMDを開発した。
- KL正則化が，マルチプレイヤー一般和ゲームにおいて，同等または高速なレートで悲観主義回避オフライン学習を可能にすることを示した。
Link: https://arxiv.org/abs/2605.00264
LLM指向型情報検索：ノイズ除去優先のアプローチ [cs.IR, cs.AI, cs.CL]目的：LLMによる情報検索におけるノイズ除去と，文脈窓内での有用な証拠の密度および検証可能性の最大化
- 情報検索は人間だけでなくLLMの利用が増加しており，LLMの性能向上に不可欠な分野である。
- LLMは注意資源に限りがあり，ノイズに弱いため，誤った情報が幻覚や推論誤りの原因となる。
- 情報アクセスパイプライン全体におけるボトルネックであるノイズ除去を改善し，LLMの信頼性を高める。
- 現代の情報検索は人間からLLM中心へと移行しており，ノイズ除去が重要な課題となっている。
- 研究は，情報検索の課題を「アクセス困難」「発見困難」「不整合」「検証不能」の４段階で捉えている。
- インデックス作成からエージェントワークフローまで，ノイズ最適化技術の分類が提案されている。
Link: https://arxiv.org/abs/2605.00505
MindMelody：閉ループEEG駆動による個別化音楽介入システム [cs.SD, cs.AI]目的：個別化音楽介入のための，閉ループEEG駆動システム
- 精神疾患の増加に伴い，非侵襲的で費用対効果の高い介入法として音楽が注目されている。
- 既存の音楽サービスは静的な好みに依存しており，利用者の即時的な心理状態に適応できない。
- EEGと音楽生成の直接的な対応は，データ不足と解釈の難しさから困難であった。
- MindMelodyは，リアルタイムEEG信号から感情状態を推定し，音楽生成に反映するシステムである。
- 感情を媒介したセマンティックブリッジにより，音楽生成の精度と制御性を向上させている。
- 実験により，MindMelodyは利用者の感情に沿った音楽を提供し，有用性が高いことが示された。
Link: https://arxiv.org/abs/2605.01235
未知の遅延と悪意のある破損に対するロバストな線形二者択一バンディット [cs.CY, cs.LG]目的：変動する環境下における線形二者択一バンディット問題の解決
- オンライン学習は，ユーザーのリアルタイムなフィードバックに基づいて迅速に学習する必要があるため重要である。
- 遅延フィードバックや悪意のあるデータ破損は，バンディットアルゴリズムの性能を著しく低下させる。
- 遅延と破損の影響を軽減し，ロバストな学習を可能にするアルゴリズムの開発が求められる。
- 提案手法は，事後情報から事前情報を予測する学習近似器を統合し，遅延と破損の影響を軽減する適応的な重み付け戦略を用いる。
- 本アルゴリズムは，遅延の影響を受けにくく，後悔の上界は $\widetilde{\mathcal{O}}(d(\sqrt{T} + \mathcal{C} + \mathcal{D}))$ であることが示された。
- 破損と遅延のコスト構造が加法的であり，従来の乗算的な劣化を回避している点が重要である。
Link: https://arxiv.org/abs/2605.01752
多様体アラインメントされた誘導型積分勾配による信頼性の高い特徴量帰属 [cs.CL, cs.NI, cs.LG, cs.AI, cs.CV]目的：深層ニューラルネットワークの特徴量帰属手法
- 深層学習モデルの解釈性は，モデルの信頼性と診断に不可欠であるため重要。
- 積分勾配はノイズの影響を受けやすく，信頼性の低い説明を生む可能性がある。
- データ多様体上に経路を構築し，ノイズを低減することで説明の信頼性を向上させる。
- 提案手法MA-GIGは，変分オートエンコーダの潜在空間で経路を構築することで，データ多様体への偏りを導入する。
- これにより，ありえない入力領域への露出を減らし，より忠実な説明を提供する。
- 実験の結果，MA-GIGは既存手法と比較して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.02167
異常選好画像生成 [cs.CV, cs.LG]目的：異常画像の生成における現実感と多様性の両立
- モデルの汎化性能向上には，現実的で多様な異常サンプルが不可欠である。
- 既存手法は，分布のずれや過学習により，現実感と多様性の両立が困難である。
- 異常選好最適化により，高コストなアノテーションなしに，現実感と多様性を向上させる。
- 本研究では，異常生成を選好学習問題として再構築する「異常選好最適化」を提案した。
- リアルな異常画像を正例として活用し，ノイズ除去軌道のずれから最適化信号を導出する。
- 拡散過程のタイムラインに応じてモデルの容量を動的に配分する「時間認識容量配分モジュール」を導入した。
Link: https://arxiv.org/abs/2605.02439
DataClawBench：現実世界の金融データ探索分析のためのエージェントベンチマーク [cs.AI]目的：現実世界の金融データ探索分析におけるエージェントの性能評価
- 金融分析は複雑であり，関連証拠が事前に特定されない場合が多い。高度な分析能力が求められる。
- 既存のベンチマークは，探索の負担を過小評価している。限定的な情報提供やデータクリーニングが行われている。
- 限定的な事前ガイダンスの下での探索的データ分析におけるエージェントの信頼性向上を目指す。
- DataClawBenchは，企業，業界，政策分野にわたる約206万件の現実世界の記録を含む。
- 492のクロスドメインタスクが用意されており，探索と推論の失敗を診断するための注釈が加えられている。
- OpenClawエージェントを用いた8つの高度なLLMの評価により，探索的データ分析がエージェントの信頼性を損なうことが示された。
Link: https://arxiv.org/abs/2605.02503
HAAS：人間とAIシステム間の適応的タスク割当のためのポリシーを意識したフレームワーク [cs.AI, cs.HC, cs.SE]目的：人間とAI間の適応的タスク割当に関するポリシーの比較と検証
- 組織設計において，人間とAIの役割分担は重要であり，効率性と人間の能力維持のバランスが求められる。
- 従来のタスク割当は二者択一が中心で，文脈や疲労度，リスクなどの影響を考慮した柔軟性に欠ける。
- HAASフレームワークを用いて，タスクとエージェントの適合性を評価し，最適な割当ポリシーを探索する。
- HAASフレームワークは，ルールベースの専門家システムとコンテキストバンディット学習器を組み合わせることで，柔軟なタスク割当を実現する。
- 製造業においては，強いガバナンスが運用パフォーマンスの向上と疲労の軽減に同時に貢献する効果が確認された。
- 最適なガバナンス設定は文脈に依存し，学習が進むにつれて中程度のガバナンスが競争力を増すことが示された。
Link: https://arxiv.org/abs/2605.02832
深層学習ノイズ除去技術を用いたAIベースECG輪郭抽出の高度化 [cs.LG, eess.SP]目的：犬の心電図におけるノイズ除去
- 心臓疾患の診断において，正確な心電図解釈は不可欠である。
- 心電図に混入するノイズが，診断精度を低下させる可能性がある。
- 多様なノイズパターンを抑制しつつ，ECGの形態的特徴を維持すること。
- 提案手法は，ノイズの多い心電図とクリーンな心電図の両方で高い性能を示した。
- 信号の状態に左右されず，後続の輪郭抽出タスクへの適合性を示唆している。
- 本研究は，犬の心電図解析における前処理ステップとして有用である。
Link: https://arxiv.org/abs/2605.03183
堅牢なエージェント補償 (RAC)：AIエージェントに補償を教える [cs.AI]目的：AIエージェントの信頼性向上
- AIエージェントの応用範囲拡大には，信頼性と安全性の確保が不可欠である。
- 既存のAIエージェントは，予期せぬ副作用やパフォーマンス低下を起こしやすい。
- RACは，そのような問題を解決し，より安定したエージェント実行を可能とする。
- RACは，既存のエージェントフレームワークに容易に組み込むことができる。
- $\tau$-benchとREALM-Benchを用いた評価で，RACは最先端のLLMベースの回復手法と比較して，待ち時間とトークン消費量が1.5〜8倍以上改善された。
- 複雑な問題解決において，RACは高い有効性を示す。
Link: https://arxiv.org/abs/2605.03409
筋電位バーストから運動意図へ：自己教師あり学習による不均一筋電図のトークンモデリング [cs.LG, cs.AI]目的：多様な筋電図ソースからの再利用可能な神経筋表象の抽出
- ウェアラブルな筋電図は，人間の運動意図を推測する有用な手段であり，幅広い応用が期待される。
- 従来のモデルは，取得条件の変化に弱く，異なるユーザー，セッション，電極配置，ジェスチャープロトコルに汎化できない。
- 本研究は，筋電図のイベントレベルにおけるトークンモデリングを通じて，適応性とデータ効率の高い運動意図理解を目指す。
- 自己教師あり学習により，異なる筋電図データセットからロバストな神経筋表象を学習することを可能にした。
- 提案手法は，未知のユーザーに対する汎化性能を向上させ，ジェスチャー認識に必要な較正データを削減した。
- イベントレベルのトークンモデリングが，スケーラブルな運動意図理解への道を開くことが示唆された。
Link: https://arxiv.org/abs/2605.03462
潜在分布一致による自己教師あり学習の理解 [cs.LG, stat.ML]目的：自己教師あり学習における潜在表現の学習原理
- 複雑なデータから汎用的な潜在表現を獲得する手法であり，様々な応用が期待される。
- 既存手法の理論的な統一的な枠組みがなく，新しい手法設計の指針が不足している。
- 潜在分布一致という視点から自己教師あり学習を統一的に理解し，新たな手法開発を支援する。
- 自己教師あり学習を潜在分布一致と捉えることで，多様な既存手法を統合的に説明可能となった。
- 非線形ベイズフィルタモデルを導出し，高次元時系列データへの適用を示した。
- 予測型潜在分布一致が，穏やかな仮定の下で識別可能な潜在表現を生み出すことを証明した。
Link: https://arxiv.org/abs/2605.03517
実験即コード・ラボ：AI駆動科学的発見のための宣言的スタック [eess.SY, cs.AI, cs.SY]目的：AIによる科学的発見の可能性を最大限に引き出すための宣言的スタック
- 科学的発見は依然として物理実験に依拠しており，AIによる実験自動化が重要である。
- AIエージェントと自動化された実験装置間の連携には，システム的な革新が必要である。
- 実験を宣言的な設定として記述し，AIエージェントが実験を容易に実行できる環境を提供する。
- 実験即コード（EaC）ラボという新たなパラダイムを提案し，実験を宣言的な設定として記述することで，AIエージェントによる実験を可能にする。
- システム層でプログラム解析，安全性チェック，リソース割り当て，ジョブオーケストレーションを行い，デバイスAPIを操作してプログラムによる実験を実現する。
- このスタックは科学分野，ラボ，および実験装置に依存しない汎用的なものであり，AIによる科学的発見の新たなブレークスルーを促進する。
Link: https://arxiv.org/abs/2605.04375
大規模言語モデルによる判断と閉ループ強化学習フィードバックを用いた，エージェント型株式予測システムの多次元行動評価 [cs.IR, cs.LG, cs.AI, cs.CL, q-fin.CP]目的：エージェント型株式予測システムの行動評価手法
- 株式市場の予測は，投資戦略の最適化やリスク管理において重要な役割を果たす。
- 既存の評価方法は最終的な出力のみに着目し，意思決定プロセスを詳細に分析できない。
- エージェントの意思決定プロセスを多角的に評価し，改善に繋げること。
- 大規模言語モデルを用いて，意思決定プロセスの６つの側面を評価する手法を開発した。
- 開発した行動スコアは，実現されたシャープレシオと高い相関関係(Spearman rho = 0.72)を示した。
- 評価結果を報酬に反映する閉ループ強化学習により，予測精度が向上し，MAPEは0.61%から0.54%に減少した。
Link: https://arxiv.org/abs/2605.05739
QuadraSHAP：ガウス・ルジャンドル求積法による積ゲームの安定かつスケーラブルなシャプレイ値 [cs.LG]目的：積ゲームにおけるシャプレイ値の効率的な計算
- 機械学習の解釈可能性において，モデルの構造が乗法的である場合に積ゲームが頻出する。
- 従来のシャプレイ値の計算は，特徴量の数が増加すると計算量が指数関数的に増大する。
- ガウス・ルジャンドル求積法を用いて，シャプレイ値を効率的かつ正確に計算することを目指す。
- シャプレイ値は，$(d-1)$次の多項式の積分として表せる。
- ガウス・ルジャンドル求積法を用いることで，正確または近似的な計算が可能となる。
- 実装は数値的に安定しており，並列化により高速な計算を実現している。
Link: https://arxiv.org/abs/2605.05870
自己回帰系列に対する行列デカップルド集中：疎な長文脈報酬に対する次元フリーな保証 [cs.LG, math.PR]目的：自己回帰型大規模言語モデルにおける系列レベル評価の集中化に関する理論的保証
- 大規模言語モデルの性能評価において，系列生成の依存関係を適切に扱うことは重要である。
- 既存の集中化不等式は依存構造と感度を分離するため，疎な報酬に対する分散の推定が不正確になる。
- 因果的依存構造を正確に捉え，次元フリーな分散推定を可能にすることで，長文脈推論の安定性を数学的に保証する。
- 本研究で提案する行列デカップルド集中(MDC)フレームワークは，マルコフ連鎖に対して最適な定数を回復し，因果木に対してオーダー最適な境界を与える。
- MDCは，報酬の座標ごとの疎性を厳密な因果的枠組み内で保持することで，スカラー崩壊を防ぎ，次元フリーな分散推定を可能にする。
- これにより，長文脈推論の安定性に対する厳密な数学的根拠を提供する。
Link: https://arxiv.org/abs/2605.06017
NavOne：トップダウンマップを用いた視覚言語ナビゲーションのためのワンステップグローバルプランニング [cs.CV, cs.AI]目的：視覚言語ナビゲーションにおけるグローバルパスプランニング
- ロボットナビゲーションの分野では，環境理解と効率的な経路計画が重要課題である。
- 従来のVLN手法は逐次的な経路探索であり，誤差の蓄積や効率の限界が課題となっていた。
- 本研究は，トップダウンマップを活用し，ワンステップで効率的なグローバルプランニングを実現することを目指す。
- NavOneは，マルチモーダルマップ上で密な経路確率を直接予測する統合フレームワークである。
- R2R-TopDownデータセットを用いた実験により，既存のマップベースVLN手法を上回る性能を達成した。
- 計画段階の速度は，既存のマップベース手法の8倍，自己中心的アプローチの80倍に向上し，効率的なナビゲーションを実現した。
Link: https://arxiv.org/abs/2605.06317
LLMに長期的推論を教えることは可能か？表現力が鍵となる [cs.CL, cs.AI, cs.CL]目的：大規模言語モデルの推論能力向上における強化学習の有効性に関する研究
- 大規模言語モデルの推論能力は，様々なタスクにおいて重要であり，その向上はAI研究の核心課題である。
- 既存の研究では，タスクの難易度と訓練量の関係が明確にされておらず，長期的推論におけるLLMの限界が指摘されている。
- 本研究は，論理的推論の難易度と表現力を制御可能な環境を構築し，LLMの長期的推論能力の向上可能性を検証する。
- 訓練に必要な計算量は，推論の深さに対してべき乗則に従い，論理の表現力が高まるにつれて指数が増加することを示した。
- より表現力豊かな訓練設定は，数学や一般推論ベンチマークにおいて，性能向上と計算効率の向上が確認された。
- LLMの長期的推論における限界は，アーキテクチャ固有のものではなく，訓練方法やデータの改善によって克服可能であると結論付けられた。
Link: https://arxiv.org/abs/2605.06638
MAGIQ：検証可能なセキュリティを備えたポスト量子マルチエージェントAIガバナンスシステム [cs.LG, cs.CR, cs.MA]目的：マルチエージェントAIシステムのポリシー定義と施行のためのフレームワーク
- AIエージェントの普及と量子コンピュータの進展により，新たなセキュリティ課題が生じている。
- エージェントAIのガバナンス体制が確立されておらず，エージェントの行動に対する責任追及が困難である。
- 量子コンピュータへの耐性を持つ，安全で信頼性の高いAIガバナンスシステムの実現を目指す。
- MAGIQは，エージェント間の通信とアクセス制御ポリシーを定義・施行する機能を提供する。
- ポスト量子暗号技術を使用し，長期的なセキュリティと量子耐性を確保している。
- ユニバーサルコンポゼービリティフレームワークを用いて，システムの正当性とセキュリティを形式的に証明した。
Link: https://arxiv.org/abs/2605.06933
分布シフト下での学習における粗粒度モデルと微粒度モデルの同値性 [cs.DS, cs.LG]目的：分布シフト下での学習における粗粒度モデルと微粒度モデルの同値性
- 機械学習の応用範囲拡大に伴い，未知の分布への汎化性能が重要課題となっている。
- 分布シフトへのロバストな学習アルゴリズム開発が困難であり，理論的な保証も乏しい。
- TDS学習とPQ学習の同値性を示すことで，分布シフト下での学習困難度を評価する。
- TDS学習からPQ学習への効率的な還元が可能であり，両モデルは分布自由な設定で同等である。
- この同値性は，基本的な概念クラス（半空間など）に対する分布自由なTDS学習の困難性を示す最初の結果となる。
- メンバーシップクエリへのアクセスは，これらの困難性を回避し，半空間の効率的な分布自由なPQ学習を可能にする。
Link: https://arxiv.org/abs/2605.07005
自己運転データセット：2000万件の論文から大規模なニュアンス豊かな生物医学知識へ [cs.LG]目的：生物医学知識の構造化データセットの構築
- 生物医学研究は，膨大な文献から必要な情報を効率的に抽出することが重要である。
- 既存の生物医学データベースは維持コストが高く，最新情報が反映されにくい。
- PubMedを自律的に活用し，より大規模で正確なデータセットを構築することを目指す。
- 大規模言語モデルを用いたエンティティタグ付けパイプラインを構築し，2250万件の論文から45億個のエンティティをタグ付けした。
- エンティティフィルタリングに対応したハイブリッド検索システムを開発し，効率的な情報検索を可能にした。
- Starlingというマルチエージェントシステムを開発し，自然言語によるタスク記述から構造化されたレコードを生成した。生成されたデータセットは既存のデータベースよりも大きく，精度も高い。
Link: https://arxiv.org/abs/2605.07022
CarCrashNet：大規模データセットとデータ駆動型構造クラッシュシミュレーションのための階層型ニューラルソルバー [cs.LG, physics.comp-ph]目的：データ駆動型構造クラッシュシミュレーションのための大規模データセットと階層型ニューラルソルバー
- 自動車開発において不可欠であり，物理プロトタイプのコスト削減，安全設計の迅速な反復，仮想テストを支援する。
- 非線形接触，大変形，材料の塑性，破壊，複雑な多体間相互作用など，構造クラッシュ力学のモデリングは極めて困難である。
- 構造シミュレーション，クラッシュワースネスモデリング，AI駆動型仮想クラッシュテストにおける再現可能な研究の基盤を確立すること。
- CarCrashNetは，14,000件以上のバンパービームのポール衝突シミュレーションと825件のフルビークルクラッシュシミュレーションを含む，高忠実度でオープンソースのベンチマークデータセットである。
- OpenRadiossによる有限要素ワークフローの妥当性は，実験データとAnsys LS-DYNAとの比較検証により確認された。
- CrashSolverは，高解像度有限要素クラッシュデータからフルビークルクラッシュを予測するための機械学習モデルであり，最先端の幾何学的深層学習モデルと同等以上の性能を示した。
Link: https://arxiv.org/abs/2605.07098
LoRA対全ファインチューニングを超えて：勾配誘導型オプティマイザルーティングによるLLM適応 [cs.CL, cs.AI]目的：大規模言語モデルの適応
- 近年のLLM研究において，性能向上は重要な課題である。
- LoRAと全ファインチューニングのどちらが優れているか，明確な結論が得られていない。
- 両者の利点を組み合わせ，最適な学習方法を動的に選択すること。
- 提案手法MoLFは，全ファインチューニングとLoRAの間を動的に切り替え，勾配情報を最適化する。
- MoLFは，様々なタスクとモデルで，既存手法と同等以上の性能を発揮した。
- メモリ制約がある環境向けにMoLF-Efficientを開発し，さらなる性能向上を達成した。
Link: https://arxiv.org/abs/2605.07111
線形注意を超えて：ソフトマックスTransformerは文脈内強化学習を実装する [cs.RO, cs.LG]目的：文脈内強化学習におけるTransformerの理論的理解
- 強化学習は，複雑な意思決定問題を解決するための重要な手法である。
- 従来の強化学習は，環境との相互作用を通じて学習するが，文脈への適応が難しい。
- ソフトマックス注意を用いたTransformerの理論的性質を解明し，文脈内強化学習の可能性を探る。
- ソフトマックス注意を用いたTransformer層は，重み付きソフトマックス時間差学習アルゴリズムの反復更新と同等であることが示された。
- 重み付きソフトマックス時間差学習は，カーネル空間での方策評価を行い，線形時間差学習とテーブル型時間差学習を包含する新しい強化学習アルゴリズムである。
- 特定の縮約条件の下で，方策評価誤差は層の数が増加するにつれて減衰し，事前学習損失の最小化パラメータがその出現を説明する。
Link: https://arxiv.org/abs/2605.07333
FlightSense：回転チェーン伝播特徴とエージェント型対話AIを用いたリアルタイムフライト遅延予測のためのエンドツーエンドMLOpsプラットフォーム [cs.LG]目的：リアルタイムフライト遅延予測のためのMLOpsプラットフォームの開発
- 航空ネットワークにおける遅延は経済的損失を招くため，正確な予測が重要である。
- 既存手法では，遅延の連鎖的な伝播を考慮せず，静的な入力変数として扱っている。
- 航空機の回転チェーンにおける遅延伝播をモデル化し，対話型AIインターフェースを提供すること。
- 本研究では，3段階の段階的な特徴エンジニアリングにより，リアルタイムフライト遅延予測プラットフォームFlightSenseを構築した。
- 回転チェーンから抽出した遅延伝播特徴の導入により，予測性能が大幅に向上（AUC 0.732から0.875へ）した。
- 気象データの統合により，最終的なテストセットAUCは0.879を達成し，AWS MLOpsパイプラインとして実運用されている。
Link: https://arxiv.org/abs/2605.07364
経験に基づく思考圧縮：適応的な思考連鎖圧縮のための経験ガイド付き強化学習 [cs.LG, cs.CL]目的：大規模言語モデルにおける思考連鎖圧縮の効率化と精度向上
- 大規模言語モデルの性能向上には思考連鎖が不可欠だが，計算コストが高い。
- 既存の圧縮手法は，問題の難易度やモデル能力の変化に対応できていない。
- 問題の難易度とモデルの学習状況に応じて，報酬と勾配を適応的に調整する。
- 提案手法ExpThinkは，正解の最短解を追跡し，報酬を調整することで，簡潔かつ正確な回答を促進する。
- 問題の難易度に応じて勾配を調整することで，難しい問題での学習を強化し，容易な問題では簡潔性を促す。
- 数学的問題のベンチマーク実験で，ExpThinkは応答長を最大77%削減し，精度を向上させ，既存手法を上回った。
Link: https://arxiv.org/abs/2605.07501
ピクセルからプロンプトへ：視覚と言語モデル [cs.AI]目的：視覚と言語モデルの明確な理解
- 画像認識と自然言語処理は，人工知能の重要な要素技術である。
- 視覚と言語モデルの分野は発展が速く，最新動向の把握が困難である。
- 新たな論文を理解し，システム設計を自信を持って行える基盤を提供する。
- 視覚と言語モデルは，かつてはSFの世界であったが，現在では急速に実用化されている。
- 本書は，単なるモデルのカタログではなく，視覚と言語モデルの構造を理解するための地図を提供する。
- この地図により，読者は新しい論文に自信を持って取り組み，直感的にシステムを設計できるようになる。
Link: https://arxiv.org/abs/2605.07544
ヘッセ行列手術：ヘッセ尖端摂動によるクラスターゲット事後再調整 [cs.LG, cs.CV]目的：深層学習モデルのクラス別精度再調整
- 深層学習モデルの汎化性能向上は重要な課題であり，学習済みモデルの性質解明が求められる。
- 学習済みモデルのヘッセ行列の構造が十分には活用されておらず，精度改善の余地がある。
- ヘッセ尖端の情報を利用し，再学習なしでクラス別精度の不均衡を改善することを目指す。
- 提案手法であるヘッセ行列手術は，モデルの重みをヘッセ尖端固有ベクトル方向に摂動させることで，クラス別精度を再調整する。
- スパイククラス感度行列を用いて，各クラスの精度が尖端固有ベクトル方向にどのように変化するかを定量化し，弱いクラスをターゲットとした最適化を行う。
- CIFAR-10およびISIC-2019データセットにおいて，バランスのとれた精度と標準偏差の両方の改善が確認された。
Link: https://arxiv.org/abs/2605.07790
CoCoReviewBench：AIレビューアーのための完全性と正確性に焦点を当てたベンチマーク [cs.CL, cs.AI]目的：AIレビューアーの評価のためのベンチマーク
- AIレビューアーの開発は進んでいるが，その評価は依然として困難である。
- 既存の評価指標は，人間によるレビューとの重複を重視し，正確性を十分に考慮していない。
- 人間によるレビューの限界を克服し，AIレビューアーの信頼できる評価を可能にする。
- CoCoReviewBenchは，ICLRとNeurIPSの3,900本の論文を用いて構築された。
- AIレビューアーは，正確性に課題を残し，幻覚を起こしやすい傾向があることが示された。
- 推論モデルが，より効果的なレビューアーである可能性が示唆され，今後の改善の方向性を示唆する。
Link: https://arxiv.org/abs/2605.07905
画像内テキスト編集におけるクロスリンガル劣化のベンチマーク：MULTITEXTEDIT [cs.CV, cs.AI, cs.CL]目的：画像内テキスト編集におけるクロスリンガル劣化の評価
- 画像生成技術の発展に伴い，画像内テキスト編集の重要性が増している。
- 既存の評価基準は英語中心であり，言語による性能差の評価が不十分である。
- 多様な言語におけるテキスト編集性能の劣化を定量的に評価する。
- MULTITEXTEDITは，12言語，5つの視覚ドメイン，7つの編集操作を含む3,600インスタンスからなるベンチマークである。
- 言語忠実度(LSF)という新たな評価指標を導入し，文字の欠落や書字方向の間違いなど，より詳細なエラーを検出した。
- 多くのモデルでクロスリンガル劣化が認められ，特にヘブライ語とアラビア語で顕著であった。
Link: https://arxiv.org/abs/2605.08163
Transformerは文脈内ガウスカーネル回帰のための事前条件付きリチャードソン反復を実装できる [cs.CL, cs.LG, cs.AI, cs.NA, math.NA, math.OC]目的：文脈内ガウスカーネル回帰における事前条件付きリチャードソン反復の実装
- 機械学習における文脈内学習のメカニズム解明は，モデルの汎化性能向上に不可欠である。
- 非線形文脈内学習において，Transformerが収束性のあるソルバーを実装できるか不明であった。
- Transformerによる非線形文脈内ガウスカーネル回帰のメカニズムを特定し，理論と実験で検証する。
- 標準的なsoftmaxアテンションTransformerが，関連するカーネル線形システム上で事前条件付きリチャードソン反復を実装することで，ガウスカーネル回帰予測子を近似できることが示された。
- 特定の条件の下，$\epsilon$-精度の予測を達成するために，$O(\log(1/\epsilon))$ブロックと$O(\sqrt{N/\epsilon})$のMLP幅を持つTransformerを構築できる。
- 実験的に，Transformerの層ごとの予測と古典的なKRRソルバーのステップごとの出力が一致し，事前条件付きリチャードソン反復と整合することを確認した。
Link: https://arxiv.org/abs/2605.08475
ラグランジュ作用への提唱：時間的スナップショットからの集団力学の学習 [cs.LG, stat.ML]目的：集団力学の学習
- 分子，細胞，生物の集団動態は，様々な分野で重要な現象であり，理解が不可欠である。
- 従来の Wasserstein 勾配フローは自由エネルギーを最小化するため，周期性などの重要な動的特性を捉えられない。
- 集団レベルの作用を最小化する Wasserstein Lagrangian Mechanics を導入し，動的特性の表現を目指す。
- Wasserstein Lagrangian Mechanics は，古典力学，量子力学，勾配フローを含む，構造化された二階動的システムとして定式化された。
- WLMアルゴリズムは，ラグランジアンを指定せずに，観測された周辺分布からこれらの二階動的システムを学習する最初の試みである。
- WLMは，渦力学，胚発生，群集行動など，幅広い動的現象において，既存の方法よりも優れた予測と補間性能を示した。
Link: https://arxiv.org/abs/2605.08550
SlimQwen：大規模MoEモデルの事前学習におけるプルーニングと知識蒸留の探求 [cs.DB, cs.CE, q-bio.BM, cs.LG, cs.AI, cs.CL]目的：大規模MoEモデルの事前学習におけるプルーニングと知識蒸留の圧縮手法に関する研究
- 大規模言語モデルは自然言語処理の多様なタスクで高い性能を示すが，その巨大さから計算コストが大きい。
- MoEモデルの圧縮は有効だが，事前学習段階での適用方法が不明確であり，最適化が難しい。
- 事前学習段階でのMoEモデル圧縮における効果的な手法を確立し，効率的なモデル構築を目指す。
- 事前学習済みのMoEモデルのプルーニングは，同じ計算資源下でゼロから学習するよりも優れた性能を示す。
- 異なる専門家圧縮手法は，大規模な継続事前学習後に同様の最終性能に収束する。
- 知識蒸留を言語モデリング損失と組み合わせることで，知識集約的なタスクでより高い性能が得られる。
Link: https://arxiv.org/abs/2605.08738
確率的生成ダイナミクスの決定論的分解 [cs.LG, cs.AI]目的：確率的生成ダイナミクスの決定論的分解
- 生成モデルは，機械学習における重要な研究分野であり，データの生成能力が注目されている。
- 従来の生成モデルでは，確率的な変動と決定論的な進化が混在しており，その役割が明確でない。
- 確率的生成過程の決定論的場を，輸送と浸透圧効果に分解することで，制御可能な生成を可能にすること。
- 確率的生成過程の決定論的場は，輸送と浸透圧効果に自然に分解できることが示された。
- 提案手法であるBridge Matchingは，周辺および条件付き定式化を通じて分解された生成ダイナミクスを学習する。
- 学習された成分を再結合することで，浸透圧効果の寄与を調整し，解釈可能かつ制御可能なサンプリングを実現した。
Link: https://arxiv.org/abs/2605.08794