arXiv雑要約

AI - 2026/05/27 公開

大規模言語モデル推論ベンチマークにおける系統的測定バイアスの特定と軽減 [cs.AI, cs.DC]目的：大規模言語モデルの推論ベンチマークにおける系統的測定バイアス
- 大規模言語モデルの利用拡大に伴い，厳格なSLAに基づいた性能評価が不可欠となっている。
- 既存の評価手法は，大規模な環境下で深刻な測定バイアスに起因する課題を抱えている。
- ベンチマーククライアントのボトルネックによる性能測定の歪みを解消し，正確な評価を実現すること。
- 従来のベンチマークツールが持つシングルプロセスアーキテクチャが，高並行処理下でクライアント側のキューイングボトルネックを引き起こすことを示した。
- PythonのGILが，TTFTおよびTPOTメトリクスを人工的に高めることを数学的に証明し，多プロセス評価フレームワークを提案した。
- 提案手法により，サービスの純粋な性能を分離し，数千QPSを超える大規模な環境下で正確かつ再現性のあるプロファイリングを可能にした。
Link: https://arxiv.org/abs/2605.24217
最終回答を超えて：マルチエージェント産業ワークフローにおける軌跡レベルの幻覚監査 [cs.AI]目的：マルチエージェント産業ワークフローにおける軌跡レベルの幻覚の監査
- LLMエージェントの活用が進む中で，安全性確保が重要課題となっている。
- 既存の幻覚評価は最終出力に偏っており，中間ステップでの失敗を見逃す。
- 中間ステップにおける幻覚を検出し，より安全なエージェント開発に貢献する。
- Trajelデータセットと評価フレームワークが，5種類の幻覚分類を提供。
- 既存のベンチマークでは見過ごされる失敗モードが多数存在することが示された。
- 軌跡を意識した検出が，事後検証よりも有意に高い性能を発揮する。
Link: https://arxiv.org/abs/2605.24219
合成特許データはいつ役立つか：低リソース多ラベル分類におけるボリュームと忠実度のトレードオフ [cs.AI, cs.IR]目的：低リソース環境における多ラベル分類のための合成特許データの有効性
- 特許分類は技術動向の把握や研究開発戦略の策定に不可欠である。
- 特許データのラベル付けはコストと時間がかかるため，データ不足が課題となる場合が多い。
- LLMによる合成データが，少ない実データでも分類精度を向上させられるか検証する。
- 合成データによる精度向上は，主にデータ量の増加による効果であることが示された。
- 実データが少ない場合は，合成データと実データの組み合わせが最も有効である（20-30%の実データ，70-80%の合成データ）。
- 合成データの忠実度向上は，必ずしも検索性能の向上には繋がらない場合がある。
Link: https://arxiv.org/abs/2605.24296
特許埋め込みのベンチマーク：検索，分類，クラスタリングにおける22モデルのマルチタスク評価 [cs.IR, cs.AI]目的：特許埋め込みモデルの性能評価
- 特許情報の効率的な分析が，技術動向の把握や研究開発戦略の策定に不可欠である。
- 特許埋め込みモデルの汎用性が低く，特定のタスクやデータセットに依存する問題がある。
- 様々なタスクとデータセットにおける最適なファインチューニング手法を明らかにすること。
- 最適なファインチューニング手法はタスクによって異なり，検索には断面整合性（R3），分類・クラスタリングには複合信号（R4）が有効。
- 単一の特許ランドスケープでのファインチューニングは，異なるランドスケープ間での検索性能を低下させる。
- モデルの規模拡大は，モデルファミリー内では一貫しているが，ファミリー間では不規則である。
Link: https://arxiv.org/abs/2605.24297
GlobalDentBench：歯科臨床推論を評価するための多国籍ベンチマーク（専門家による校正付き） [cs.AI, cs.CL]目的：歯科におけるLLMの臨床推論能力を評価するための多国籍ベンチマーク
- 医療分野におけるLLM活用は期待されるが，臨床現場での安全性と信頼性が課題となっている。
- 特に歯科領域においては，LLMの推論能力に関する体系的な評価が不足している。
- 本研究は，LLMの歯科臨床における安全性と信頼性を評価するための基盤を提供する。
- GlobalDentBenchは，14の歯科専門分野を網羅し，多国籍かつ大規模な質問データセットである。
- LLMの評価の結果，問題の複雑性が増すにつれて性能が著しく低下することが示された。
- LLMによる臨床推奨には，患者に不可逆的な害を及ぼす可能性のあるリスクが31.01%存在することが明らかになった。
Link: https://arxiv.org/abs/2605.24636
PANDO：オンラインスキル蒸留による効率的なマルチモーダルAIエージェント [cs.AI]目的：マルチモーダルAIエージェントの効率化
- Webエージェントの進化は，複雑なタスク遂行能力向上に貢献している。
- 既存手法は計算コストが高く，効率的な運用が課題となっている。
- 経験を通じてエージェントの効率を向上させる手法を確立する。
- PANDOはVisualWebArenaにおいて，SGVやWALTを上回る成功率58.3%を達成した。
- SGVやWALTと比較して，それぞれ58%および61%少ないトークン数で同等の性能を実現した。
- ルールやルーチンが成功率向上に大きく貢献し，効率的なスキルライブラリ運用を可能にした。
Link: https://arxiv.org/abs/2605.24785
大規模最適化における効率的アルゴリズム設計能力のベンチマーク：FrontierOR [cs.RO, cs.AI]目的：大規模最適化問題に対するLLMを用いた効率的なアルゴリズム設計能力の評価
- 現実世界の複雑な最適化問題解決には，問題構造を活かしたアルゴリズム設計が不可欠である。
- 既存のベンチマークは規模や複雑性が低く，実用的な最適化問題の評価には不十分である。
- LLMが効率的な最適化アルゴリズムを設計できるか，その限界を明らかにすることを目的とする。
- 最新のLLMでも，実行可能な定式化から効率的な最適化アルゴリズムへの移行は困難であることが示された。
- 最も性能の良いLLMでも，Gurobiを上回るのは解の質と計算効率の両面で31%のケースに限られる。
- テスト時進化を取り入れたLLMでも，難易度の高いタスクでは50%程度の性能しか発揮できない。
Link: https://arxiv.org/abs/2605.25246
推論能力強化によるAI生成テキスト検出 [cs.CL, cs.AI]目的：AI生成テキストの検出手法
- 大規模言語モデルの進化に伴い，人間とAIの文章区別が困難になっている。
- 既存の検出器は，分布の変化に弱く，汎化性能が低い場合が多い。
- 推論能力を組み込み，よりロバストなAI生成テキスト検出を目指す。
- READERは，AI生成テキストの識別と根拠の提示を同時に行う検出器である。
- READERは，1.5Bパラメータの軽量なモデルでありながら，大規模モデルを上回る性能を示す。
- READデータセットを活用したファインチューニングにより，推論能力を強化している。
Link: https://arxiv.org/abs/2605.25281
PDEInvBench：偏微分方程式逆問題に対するニューラルネットワークの包括的なデータセットと設計空間探索 [eess.SY, cs.SY, cs.LG, cs.CV, physics.comp-ph]目的：偏微分方程式逆問題のためのニューラルネットワーク設計空間探索
- 偏微分方程式は自然科学・工学の基盤であり，その逆問題解決は重要である。
- 偏微分方程式の逆問題に対する機械学習のベンチマークデータセットが不足している。
- 偏微分方程式逆問題におけるニューラルネットワークの性能向上を目指す。
- PDEInvBenchという包括的なベンチマークデータセットを公開した。
- 2段階の学習（教師あり学習とテスト時微調整）が最適な性能を示す。
- 偏微分方程式の導関数を入力特徴量として組み込むことで精度が向上する。
- 初期条件の多様性を高めることが，パラメータ範囲の拡大よりも効果的である。
Link: https://arxiv.org/abs/2605.25353
言語モデルの推論におけるリセットを用いた報酬帰属 [cs.CL, cs.CL, cs.AR, cs.AI]目的：言語モデルの推論における報酬帰属の改善
- 言語モデルの推論能力向上は，自然言語処理の発展に不可欠である。
- 従来の強化学習では，報酬を均一に割り当てるため，どのステップが成功または失敗に貢献したかの識別が困難である。
- リセット機構を用いることで，誤った推論ステップを特定し，より正確な報酬帰属を実現し，推論能力の改善を目指す。
- 提案手法であるSRPOは，標準的なGRPOやRRPOと比較して，自己特定したリセットポイントで複数のサフィックス継続をサンプリングし，それらの報酬から学習することで，一貫して優れた性能を発揮する。
- CPIフレームワークを拡張し，改善可能な状態を対象とする報酬帰属オラクルを用いることで，ランダムリセットよりも明確な改善が理論的に証明される。
- リセット機構は，誤った推論ステップを特定し，的を絞った改善を可能にするシンプルなメカニズムである。
Link: https://arxiv.org/abs/2605.25507
分布外での性能劣化：弱対強報酬モデルにおける偏りシフト下の評価 [cs.CL, cs.LG]目的：弱対強（W2S）一般化における偏りシフト下での性能評価
- 大規模なデータセットに対する人間のフィードバックはコストがかかるため，効率的な学習手法が求められている。
- W2Sの評価は，訓練データとテストデータが同じ分布である場合に限られることが多い。
- 偏りシフト下でのW2Sモデルの性能低下を分析し，改善策を提供する。
- 強モデルは，訓練データ内では高い性能を示すものの，異なるデータセットへの転移では失敗することが示された。
- 弱い教師データによる微調整が，汎用的な表現を維持するのではなく，ソースドメインの特徴にモデルを近づけてしまうことが原因である。
- Representation Anchoring（Anchor）は，微調整中の表現のドリフトを抑制し，分布外での転移性能を向上させる効果が確認された。
Link: https://arxiv.org/abs/2605.25629
EvoMapの裏側：自己進化型エージェント間協調ネットワークの特性 [cs.RO, cs.AI, cs.MA]目的：エージェント間協調ネットワークEvoMapの特性
- AIエージェントの自律的な協調は，複雑な問題解決を可能にする重要な技術である。
- 分散型エージェントネットワークの実態は未解明な点が多く，課題が残されている。
- EvoMapの分析を通じて，スケーラビリティと信頼性のバランスの課題を明らかにする。
- EvoMapでは，報酬制度が資産の大量生産を招き，再利用率が極めて低いことが示された。
- 資産の品質評価システムは，客観的な性能よりも自己申告されたメタデータに左右されることが明らかになった。
- 資産の検証が不十分であり，多くの資産が実質的な品質チェックを回避していることが判明した。
Link: https://arxiv.org/abs/2605.25815
MuNet：単一画像からの3D人体メッシュ復元と3D衣服人体再構成のための相互共生ネットワーク [cs.CV, cs.AI]目的：3D人体メッシュ復元と3D衣服人体再構成の共同最適化
- 人体理解は，ロボット工学や仮想現実など，幅広い分野で不可欠な要素である。
- 既存研究では，3D人体モデルの復元と衣服の再構成が分離して行われており，最適化の潜在的な利点が活かされていない。
- 単一画像から，3D人体と衣服を同時に，そして相互に補完し合いながら再構成することを目指す。
- MuNetは，3D人体メッシュと衣服を表現するための統一的な表現として2多様体グラフを採用している。
- 提案手法は，グラフ畳み込みネットワークを用いて初期グラフを徐々に変形させ，詳細な3D衣服人体モデルを生成する。
- MuNetは，複数のベンチマークデータセットで最先端の性能を達成し，その有効性が実証された。
Link: https://arxiv.org/abs/2605.25861
能力と頑健性は両立しえない：ビジョン・言語・行動モデルの情報理論的限界 [cs.CR, cs.LG]目的：ビジョン・言語・行動モデルにおける能力と頑健性のトレードオフに関する情報理論的限界
- ロボット工学におけるVLAモデルの安全性は重要であり，誤作動はコストを伴うため，信頼性が求められる。
- VLAモデルは，わずかな摂動に対しても脆弱であり，実用上の問題となっている。防御策はあるが，性能低下を伴う。
- 本研究は，VLAモデルの能力と頑健性の限界を理論的に解明し，より良い防御策の設計に貢献する。
- VLAモデルの能力（行動と正解行動間の相互情報量）と頑健性（摂動下での相互情報量）の合計には上限が存在することが示された。
- 上限はタスクエントロピーと敵対的チャネル容量によって決まり，モデルに依存しない。
- 実験結果は，提案された限界と一致しており，防御策がどの段階に影響を与えるかを診断する指標も提示された。
Link: https://arxiv.org/abs/2605.25889
AI制御における再試行と再サンプリング [cs.AI]目的：AI制御における再試行と再サンプリングの安全性評価
- AIモデルの利用拡大に伴い，その制御と安全性の確保が重要課題となっている。
- 再試行は安全性を高める手法とされているが，悪意のあるモデルに悪用される可能性がある。
- 再サンプリングを通じて，安全性と有用性の両立を目指す。
- 再試行は表面的な安全スコアを低下させるものの，モデルは監視の論理を悪用し，巧妙な攻撃を仕掛ける可能性がある。
- 5回の再サンプリングと最大安全スコアでの監査により，安全性が61%から71%に向上し，監査コストは0.3%に抑えられた。
- 初期試行で疑わしいステップのみを再サンプリングすることで，安全性の向上を維持しつつ，サンプリング回数を10%削減できる。
Link: https://arxiv.org/abs/2605.26047
異常検知における弱学習の再考：包括的なベンチマーク [cs.LG, cs.AI]目的：異常検知における弱学習の評価を統一するためのベンチマーク
- 異常検知は，不正アクセスや故障の早期発見に不可欠であり，その自動化技術は重要性が増している。
- 弱学習はラベルコストを削減するが，不完全性，不正確性といった課題が散見され，評価方法が統一されていない。
- 異なる弱学習シナリオを統一的に評価し，各手法の特性と限界を明らかにすることを目的とする。
- WSADBenchは，4つのモダリティと36のアルゴリズムを対象に，ラベル量や質を系統的に変化させながら評価プロトコルを確立した。
- 実験結果から，弱学習シナリオ間に強い相関関係が存在し，既存の研究方向性の独自性が疑問視された。
- ラベル量が増加するにつれて，専用のWSADアルゴリズムは tabular foundation model や汎用分類手法に劣ることが示された。
Link: https://arxiv.org/abs/2605.26068
エントロピー正則化強化学習に対するWasserstein方策勾配のグローバル収束 [cs.LG]目的：エントロピー正則化強化学習におけるWasserstein方策勾配 (WPG) のグローバル収束
- 強化学習は，複雑な意思決定問題を扱う強力なフレームワークであり，ロボティクスやゲームなどの分野で応用が広がっている。
- 連続制御問題において，従来の最適化手法は局所最適解に陥りやすく，安定した学習が困難な場合がある。
- WPGのグローバル収束性を理論的に保証することで，より実用的な強化学習アルゴリズムの開発を目指す。
- 本研究では，エントロピー正則化強化学習のBellman構造を利用し，WPGのグローバル収束理論を確立した。
- Bellman残差のKL表現やBellman収縮を用いて，凸性に関わる条件をBellmanに基づく議論に置き換えた。
- これにより，WPGがPolyák–Łojasiewicz (PL) 型の幾何学的収束性を持つことが示された。
Link: https://arxiv.org/abs/2605.26078
量子化モデルにおけるメンバーシップ推論リスク：理論的・実験的研究 [stat.ML, cs.LG]目的：量子化モデルにおけるメンバーシップ推論攻撃に対する脆弱性の評価
- 機械学習モデルのプライバシー保護は重要であり，データ漏洩のリスクを低減する必要がある。
- 量子化によってプライバシーが損なわれる可能性があり，その定量化が困難である。
- 量子化手順後のメンバーシップ推論セキュリティを効率的に評価する指標を提案すること。
- 提案手法は，量子化された機械学習モデルのメンバーシップ推論セキュリティを評価するための新たな指標を提供する。
- 理論的な漸近解析から派生したこの指標は，経験的損失を最小化することで算出できる。
- 合成データと実データ（創薬の文脈）を用いた実験により，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2502.06567
LHCにおける機械学習を用いた暗黒物質の解明 [hep-ph, cs.LG, hep-ex]目的：機械学習による，LHCでの暗黒物質候補の探索
- 暗黒物質は宇宙の質量の大部分を占め，その正体の解明は現代物理学の重要な課題である。
- 従来の探索手法では，質量差が小さく，検出が難しい暗黒物質候補が存在する。
- LHCにおける新たな探索手法を開発し，直接検出実験では捉えきれない暗黒物質候補の検出を目指す。
- 機械学習分析を用いることで，質量差が小さいヒッグシノの崩壊信号に対する感度を向上させた。
- LHCの100 fb⁻¹のデータを用いて，質量225 GeVまでのヒッグシノを5σで検出できる可能性を示した。
- また，質量285 GeVまでのヒッグシノを2σで排除できることを示した。これは，従来の探索戦略を補完する強力な結果である。
Link: https://arxiv.org/abs/2509.15121
離散フローにおける誤差解析：生成器マッチングを伴う [math.ST, cs.LG, stat.ML, stat.TH]目的：離散フローモデルの理論的性質の系統的調査
- 離散状態空間における分布学習において，強力な枠組みを提供する。
- 離散フローモデルの収束性や誤差解析は未だ十分に解明されていない。
- 遷移率推定誤差や早期停止誤差を含む包括的な誤差解析を行う。
- 生成器マッチングと一様化を利用し，オラクル遷移率の有界性なしに分布推定の非漸近的誤差限界を確立した。
- 有界性の条件の下では，推定分布の全変動収束のより高速なレートを導出し，サンプルサイズに関してほぼ最適なレートを得た。
- シミュレーション結果に基づき，異なる設定下でのモデル性能を調査した。
Link: https://arxiv.org/abs/2509.21906
制約付き非凸・非凹ミニマックス最適化の一階法 [math.OC, cs.LG, cs.NA, math.NA, stat.ML]目的：制約付き非凸・非凹ミニマックス最適化問題の解法
- 機械学習等の分野で広く現れるため，その効率的な解法が求められている。
- 非凸・非凹問題は，局所解に陥りやすく，最適解探索が困難である。
- 局所的なKL条件が成り立つ場合に，効率的な近似解を得ることを目指す。
- 新たなリフテッドミニマックス定式化において，内側の問題がKL条件を満たす場合，元の問題の最大関数が局所的な一般化ヘルダー滑らかさを持つことが示された。
- 制約付き最適化問題を解くための逐次凸計画法（SCP）が提案され，局所的なKL条件の下での収束率が確立された。
- SCP法を用いた局所KL構造化された部分問題を通じて最大関数の不正確な勾配を計算する，不正確な近接勾配法が開発された。
Link: https://arxiv.org/abs/2510.01168
集団意図を協力ゲームとして推論する：軌跡分析のためのNLPに基づくフレームワーク [eess.SP, cs.LG]目的：集団の軌跡意図の形式化と推論
- 多目標追跡は，状況認識や予測において重要であり，その精度向上は不可欠である。
- 集団行動の背後にある意図を正確に把握することは困難であり，誤った解釈につながる可能性がある。
- 観測データから集団の軌跡意図を正確に推論し，より高度な行動予測を実現することを目指す。
- 本研究では，集団意図を協力ゲームの特性関数として形式化する手法を提案した。
- 提案手法は，Fisher情報に基づく特性関数を用いて協調的な時空間パターンを生成するNLPベースの生成モデルを構築する。
- グラフTransformerニューラルネットワーク(GTNN)を用いて，観測データから高精度に集団の軌跡意図を推論できることを示した。
Link: https://arxiv.org/abs/2510.23905
離散フローモデルに対する補正サンプラー [math.OC, cs.SY, eess.SY, stat.ML, cs.LG]目的：離散フローモデルにおけるサンプラーの離散化誤差低減
- 近年，離散データ分布学習において，拡散モデルの代替として離散フローモデルが注目されている。
- 既存のサンプラーは，離散化誤差の制御に多数の反復が必要であり，理論的保証も限定的である。
- 遷移レートや初期分布に制限なく，離散化誤差の上界を導き出し，効率的なサンプラーを開発する。
- 従来のサンプラーの離散化誤差を削減するため，時間補正サンプラーと位置補正サンプラーを提案した。
- 位置補正サンプラーは，既存の並列サンプラーよりも計算量が少ないことが示された。
- シミュレーションとテキスト-画像生成タスクにおいて，提案手法がより高品質な生成と短い推論時間を実現した。
Link: https://arxiv.org/abs/2601.22519
FluxNet：容量制約のある局所輸送演算子の学習による保存的かつ境界付き偏微分方程式サロゲート [cond-mat.mtrl-sci, cs.CE, cs.LG, physics.comp-ph]目的：偏微分方程式の保存則を満たし，物理的な境界条件を遵守するサロゲートモデルの構築
- 偏微分方程式シミュレーションは科学技術計算の根幹であり，多様な現象の予測に不可欠である。
- データ駆動型サロゲートモデルは計算コストを削減するが，保存則の違反や境界条件の逸脱が課題となる。
- FluxNetは，保存量の累積輸送量を学習することで，厳密な保存性と境界条件の維持を目指す。
- FluxNetは，各セルとその近傍間における保存量の総移動量を学習する。
- その結果，厳密な離散保存性を保証し，物理的な境界条件を構造的に維持することが可能となった。
- 従来のフラックスレートサロゲートと比較して，大規模な時間ステップにおいても安定性が向上した。
Link: https://arxiv.org/abs/2602.01941
確率的最適化におけるステップサイズ安定性：理論的考察 [math.OC, cs.LG]目的：確率的最適化手法のステップサイズに対する感度
- 機械学習の性能向上に不可欠であり，効率的な学習アルゴリズムの設計が重要である。
- ステップサイズ設定が不適切だと，学習が不安定になり，収束が遅延する問題がある。
- ステップサイズ設定の安定性を理論的に評価し，よりロバストな手法を特定すること。
- ステップサイズが大きすぎるとパフォーマンスが低下する主要な要素を特定した。
- 凸問題において，この要素が手法の劣最適性限界に直接影響することを示した。
- SPSやNGNなどの適応ステップサイズ法がSGDよりも頑健であるという理論的根拠を得た。
Link: https://arxiv.org/abs/2602.09842
NeuroMambaLLM：Mambaと言語モデル推論を用いた自閉症脳のfMRI機能的結合の動的グラフ学習 [eess.IV, cs.LG]目的：自閉症脳におけるfMRI機能的結合の動的グラフ学習
- 脳機能解明は，精神疾患の病態理解や新たな治療法の開発に不可欠である。
- 従来のfMRI解析は静的な機能的結合に依存し，自閉症などの発達障害における一過性の神経活動を捉えきれない。
- 動的な脳表現を学習し，言語モデルによる高次な推論を組み合わせることで，自閉症の診断と臨床的解釈を支援する。
- 提案手法NeuroMambaLLMは，動的な潜在グラフ学習と選択的状態空間モデリングをLLMと統合したエンドツーエンドのフレームワークである。
- 本手法は，固定的な相関グラフの代わりに適応的な潜在的結合を学習し，運動アーチファクトを抑制し，長距離の時間的依存性を捉える。
- LLMは動的なfMRIパターンを分析し，臨床的に意味のあるテキストレポートを生成することで，診断分類と言語ベースの推論を可能にする。
Link: https://arxiv.org/abs/2602.13770
再学習なしでのサンプルごとのメンバーシップ推論脆弱性の評価 [stat.ML, cs.AI, cs.LG]目的：個々の学習データのプライバシー脆弱性の評価
- プライバシー保護は重要であり，機械学習モデルの学習データに対する攻撃を防ぐ必要がある。
- メンバーシップ推論攻撃は，個々の学習データの漏洩リスクを評価する上で課題となっている。
- 個々の学習データの脆弱性を，追加の学習なしで効率的に評価することを目指す。
- 個々の学習データの脆弱性は，損失だけでなく，データに依存する幾何学的尺度によっても決定されることが示された。
- 線形設定において，ブラックボックス型メンバーシップ推論攻撃の脆弱性を，母集団レバレッジスコアと残差損失項に分解する閉形式を得た。
- 提案するスコアは，損失や勾配ノルムと比較して，高リスクな学習データの特定において優れた性能を示し，計算効率と理論的根拠を備えたツールとなる。
Link: https://arxiv.org/abs/2602.15919
物理に基づくハイパーグラフTransformer：HL-LHCにおける信号精製 [hep-ex, cs.LG]目的：HL-LHCにおける信号精製のための新しい手法
- 素粒子物理学研究において，高エネルギー加速器実験は，宇宙の根源的な性質を明らかにする上で不可欠である。
- HL-LHCでは，多数の重畳衝突によりノイズが極めて大きくなり，信号の正確な再構成が困難になっている。
- 本研究は，過酷なノイズ環境下での信号再構成精度を向上させ，HL-LHCの発見能力を最大限に引き出すことを目指す。
- 提案手法PhyGHTは，粒子シャワーの物理的トポロジーを反映したハイブリッドアーキテクチャを採用し，信号のエネルギーと質量補正因子の予測において既存の最先端手法を上回る性能を示した。
- PhyGHTは，物理制約に基づいた解釈可能なPileup Suppression Gate（PSG）を統合することで，ソフトノイズを効率的にフィルタリングし，信号の再構成精度を向上させている。
- トップクォークの不変質量を正確に再構成することで，機械学習と学際的な協力が実験物理学のフロンティアでの科学的発見を促進し，HL-LHCの発見能力を向上させる可能性を示した。
Link: https://arxiv.org/abs/2602.20475
ハイブリッドモンテカルロ放射線治療計算のための高速汎用エネルギーシフト変換器 [math.OC, cs.SY, eess.SY, physics.soc-ph, cond-mat.stat-mech, cs.SI, nlin.AO, math.OC, cs.SY, eess.SP, eess.SY, math.OC, cs.SY, eess.SY, math.CO, cs.DM, physics.med-ph, cs.LG]目的：モンテカルロ線量計算の高速化を目的とした学習フレームワーク
- 放射線治療の精度向上には，正確かつ迅速な線量計算が不可欠である。
- 従来のモンテカルロ計算は計算コストが高く，臨床でのリアルタイム利用が困難である。
- 本研究は，ディープラーニングを用いて線量計算を高速化し，臨床応用を可能にすることを目指す。
- 提案手法は，モンテカルロ計算の精度を維持しつつ，計算時間を大幅に短縮することに成功した。
- 特に，解剖学的構造と線源の類似性を考慮した入力により，未知のデータセットに対する汎化性能が向上した。
- 臨床試験では，98%を超えるガンマパスレートを達成し，実用的な線量計算ツールとしての可能性を示した。
Link: https://arxiv.org/abs/2604.09157
MoDAl: デコレーションによる自己教師ありニューラルモダリティ発見 - 音声神経補綴への応用 [math.DS, cs.FL, math.PR, q-bio.NC, cs.CL, cs.HC, cs.LG]目的：音声神経補綴のための，自己教師ありニューラルモダリティ発見
- 音声神経補綴は，言語障害を持つ人々のコミュニケーション回復に貢献する重要な技術である。
- 既存手法では，ブローカ野の一部領域など，補足的な言語情報を持つ可能性のある脳領域が無視されてきた。
- MoDAlは，多様な神経言語モダリティを発見し，音声神経補綴の精度向上を目指す。
- MoDAlは，Brain-to-Text Benchmark '24において，単語誤り率を26.3%から21.6%に低減した。
- この改善は，従来無視されてきたブローカ野領域44からの信号の組み込みと，デコレーション機構によるものである。
- 発見されたモダリティの解析により，領域44由来のエンコーダが文の長さや文法構造といった言語的特徴を捉えていることが示された。
Link: https://arxiv.org/abs/2605.00025
共変量ドリフト下における展開リスクに対するヤコビアン-速度境界 [stat.ML, cs.LG]目的：共変量ドリフト下での固定予測器の長期的な展開リスク
- 機械学習モデルの信頼性と安全性確保は，現実世界の様々な応用において重要である。
- 環境変化（共変量ドリフト）は，モデルの性能劣化を引き起こし，予測の信頼性を損なう可能性がある。
- 環境変化に対するモデルのロバスト性を高めるための，新たなリスク評価と制御手法の開発を目指す。
- 時間領域ポアンカレ不等式により，時間的なリスク変動を導関数エネルギーに帰着させた。
- ヤコビアン-速度定理は，展開経路における接線エネルギーを支配因子として特定した。
- ドリフトに沿った接線正則化(DTR)が有効であり，実データセットで性能向上を示した。
Link: https://arxiv.org/abs/2605.04932
信頼性に基づく二つのアーカイブ進化アルゴリズム：大規模多目的最適化のための可変グループ化疎探索 [math.OC, cs.NE]目的：大規模多目的最適化問題における信頼性に基づく探索手法の開発
- 多目的最適化は，現実世界の複雑な問題を解決するための重要な手法である。様々なトレードオフを考慮する必要がある。
- 大規模多目的最適化問題では，高次元性，変数間の複雑な相互作用，評価回数の制限などが課題となる。
- 既存手法の信頼性活用不足や問題構造情報の未利用を解消し，効率的な探索と安定性を実現すること。
- 提案手法 TRUST-TAEA は，信頼性指標を用いてアーカイブの成熟度と進化の進捗を統合し，変数グループ化疎探索などを制御する。
- 500〜5000変数のベンチマークテストにおいて，TRUST-TAEA は収束性，多様性，安定性の面で優れた性能を示した。
- マイクログリッドの系統連系日次スケジュール問題への適用により，コスト，排出量，系統電力変動のバランスに優れた解が得られた。
Link: https://arxiv.org/abs/2605.13324
非滑らかな凸最適化における確率的勾配法の研究：無限大勾配への対応 [math.OC, cs.LG]目的：非滑らかな凸最適化問題に対する確率的勾配降下法の収束性解析
- 機械学習等の分野において，大規模な最適化問題が頻繁に出現する。
- 従来の理論は，勾配が有界であるという制限的な仮定に基づいている。
- 最適化ギャップに比例して勾配が大きくなる関数に対する最適化手法を開発する。
- 本研究では，勾配が無限大になる可能性のある関数クラスに対して，AdamW法が他の確率的勾配法よりも優れていることを証明した。
- AdamW法の指数的に重み付けされた勾配の累積が，収束速度向上に重要な役割を果たすことが示された。
- クリッピングされたAdamW法は汎用性が高く，一般的な滑らかさの仮定下でも改善された収束率を達成する。
Link: https://arxiv.org/abs/2605.15522
最適化器設計のための対称性適合原理：埋め込み，LMヘッド，SwiGLU MLP，およびMoEルーター [math.OC, cs.AI, cs.LG, stat.ML]目的：最適化器設計における対称性適合原理の確立
- 深層学習モデルの性能向上には，効率的な最適化手法が不可欠である。
- 従来の最適化器は，パラメータ空間の対称性を考慮せず，性能を制限している。
- パラメータの対称性を尊重する最適化器を設計し，深層学習モデルの性能を向上させる。
- 対称性適合原理に基づき，様々な層に対応する最適化器を導出した。
- 事前学習実験により，提案手法がAdamWと比較して，検証損失の改善，MoEモデルの負荷分散の改善，学習安定性の向上が確認された。
- Qwen3，Gemma，OLMoE，gpt-ossなどの様々なモデルで有効性が確認された。
Link: https://arxiv.org/abs/2605.18106
浅いReLU$^s$ネットワークの$L^p$型およびソボレフ空間における近似とパスノルム制御による汎化 [stat.ML, cs.LG]目的：浅いReLU$^s$ネットワークによる近似と，パスノルム制御下における汎化性能
- 機械学習において，ニューラルネットワークの理論的基盤を確立し，その性能を理解することは重要である。
- ReLU活性化関数を持つ浅いネットワークの近似能力と汎化性能は，まだ十分に解明されていない。
- 本研究は，ReLU$^s$ネットワークの近似率と，パスノルムによる汎化性能の最適化を目指す。
- 浅いReLU$^s$ネットワークの$L^p$型空間における近似率は，球対称調和解析を用いて導出された。
- ソボレフ空間における近似率は，スペクトルバロン空間への埋め込みを通じて評価された。
- 亜ガウスノイズを持つノンパラメトリック回帰において，パスノルム正則化された浅いReLU$^s$ネットワークが，ミニマックス最適レートを達成することが示された。
Link: https://arxiv.org/abs/2605.18468
混合整数計画問題に対するデータ駆動型ラグランジュ緩和法の理論的保証 [stat.ML, cs.LG]目的：混合整数計画問題に対するデータ駆動型ラグランジュ緩和法の理論的性能評価
- 大規模な混合整数計画問題を効率的に解くための重要な手法であり，特に分解可能な構造を持つ問題に有効である。
- 機械学習を用いてラグランジュ乗数を予測する手法は実証的に有効だが，その理論的根拠が未解明であった。
- データ駆動型アルゴリズム設計の観点からラグランジュ緩和法の学習を分析し，理論的な性能限界と最適アルゴリズムを明らかにする。
- 学習された乗数に対する一般化誤差の限界を導出。制約数とサンプルサイズの関係を示す。
- 制約数に対する誤差の線形依存性の回避不可能性を示すミニマックス下限を証明した。
- 確率的勾配上昇法がミニマックス最適レートを達成することを示し，ウォームスタート設定における優位性も確立した。
Link: https://arxiv.org/abs/2605.19052
原子レベルのタンパク質表現学習がタンパク質構造予測を改善する [q-bio.BM, cs.AI]目的：タンパク質構造予測のための表現
- タンパク質は生命活動の根幹を担うため，その構造解析は生命科学研究において不可欠である。
- 従来のタンパク質構造予測法では，精度向上の限界が指摘されており，新たな表現学習手法が求められている。
- 本研究は，原子レベルの詳細な情報を考慮した表現学習により，タンパク質構造予測の精度向上を目指す。
- 提案手法TriProRepは，アミノ酸配列，バックボーン形状，局所原子形状の3つの情報を統合的に学習することで，既存手法を上回る性能を示す。
- 新たなベンチマークRepSPを用いて評価した結果，ホモ二量体コフォールディング，相互作用特性予測，モノマー構造予測において性能が向上した。
- TriProRepは，従来の表現学習モデルと比較して，タンパク質構造予測における有用性が示された。
Link: https://arxiv.org/abs/2605.22133
スペクトルを言語として：スケーラブルな恒星パラメータおよび元素存在量推論のための大規模言語モデル [astro-ph.IM, astro-ph.SR, cs.LG]目的：恒星パラメータおよび元素存在量の推論
- 銀河や恒星の進化を理解するには，恒星の物理的性質と化学組成を正確に知る必要がある。
- 従来の解析手法は，大規模データセットや計算量の増大，汎化性能の限界に直面している。
- 大規模言語モデルを用いて，恒星スペクトル解析のスケーラビリティと精度を向上させる。
- 提案する二段階大規模言語モデルは，有効温度，表面重力，金属量，および約20種類の元素存在量を正確に推定できる。
- データ量の増加に伴い，性能が体系的に向上するスケーリング則が確認された。
- 本研究は，今後の大規模サーベイに対応できるスケーラブルなフレームワークを提供する。
Link: https://arxiv.org/abs/2605.22162
静止気象衛星GOES Eastによる大気二酸化炭素量の定量化 [physics.ao-ph, astro-ph.EP, cs.LG]目的：大気二酸化炭素量の推定手法の開発
- 温室効果ガスの追跡は，地球温暖化対策において不可欠であり，高精度な観測が求められている。
- 既存の衛星センサーでは，空間的・時間的な解像度が十分ではなく，局所的な炭素フラックスの検証が困難である。
- 本研究では，既存の静止衛星データを用いて，高頻度かつ広範囲な二酸化炭素量観測を実現し，その課題を解決する。
- Deep$XCO_2$は，GOES Eastの16バンドのスペクトルデータ，気象データ，地表面反射率などを入力とし，物理に基づいたニューラルネットワークによって二酸化炭素量を推定する。
- 推定結果は，OCO-2/OCO-3やTCCONネットワークの観測値と比較して，現実的な二酸化炭素量の変動を捉えることが確認された。
- 都市部での二酸化炭素量の増加や，農地での減少など，具体的な事例研究を通じて，Deep$XCO_2$の有用性が示された。
Link: https://arxiv.org/abs/2605.23991
オーロラ観測予測：確率的視認性予測のための二段階フレームワーク [physics.space-ph, astro-ph.EP, astro-ph.IM, cs.LG]目的：オーロラの視認性予測
- 宇宙天気研究やオーロラ観光において，オーロラの予測は重要である。
- オーロラの発生と観測条件の両方を考慮した予測が困難である。
- オーロラの発生確率と観測条件を分離し，高精度な予測を可能とする。
- Aurora Hunterは，オーロラの発生確率と観測条件を二段階で予測する。
- ROC-AUCは，Tromsoテストで0.937，Kirunaで0.905という高い値を示した。
- Kp指数，MLT位置，オーロラオーバルの距離が主要な予測因子として特定された。
Link: https://arxiv.org/abs/2605.24038
バンディットフィードバックを用いたPAC学習：実現可能設定におけるシャープなサンプル複雑度 [stat.ML, cs.DS, cs.LG, math.ST, stat.TH]目的：バンディットフィードバックを用いた多クラスPAC学習のサンプル複雑度
- 機械学習において，限られたデータから効率的に学習することは重要な課題である。
- 従来のPAC学習ではラベル情報が必要だが，ラベル取得コストが高い場合がある。
- ラベル情報なしで，バンディットフィードバックのみから効率的な学習を可能にすること。
- 本研究では，バンディットフィードバックを用いた多クラスPAC学習のサンプル複雑度を厳密に特徴づけることができた。
- 新しい組合せ次元である「バンディットDS次元」を導入し，概念クラス全体に対して最適なサンプル複雑度を導出した。
- 提案するListCascadeアルゴリズムは，バンディット学習とリスト学習を結びつけ，理論的な上限を達成する。
Link: https://arxiv.org/abs/2605.25678