arXiv雑要約

AI - 2026/03/17 公開

  • LLM能力評価ベンチマークにおける構成概念妥当性の確立には,名義的ネットワークが不可欠である [cs.LG, stat.ML]目的:LLM能力評価ベンチマークにおける構成概念妥当性の確立
    • AI技術の発展に伴い,LLMの人間のような能力への期待が高まっている。
    • LLMの能力評価はベンチマークに依存するが,その妥当性評価が十分ではない。
    • LLMの能力評価における構成概念妥当性の確立を目指す。
    • 本研究では,構成概念妥当性の評価枠組みとして,クロンバックとメールの名義的ネットワークが最も適切であると論じる。
    • 因果的枠組みと比較して,存在論的コミットメントが弱く,推論的枠組みよりも構成概念の意味を明確にできる。
    • LLMにおける推論能力評価を事例として,名義的ネットワークの応用可能性を示す。

    Link: https://arxiv.org/abs/2603.15121

  • 安全なフローQ学習:到達可能性に基づくフローポリシーを用いたオフライン安全強化学習 [cs.RO, cs.LG, cs.AI]目的:オフライン安全強化学習における報酬最大化ポリシーの学習
    • ロボット制御など,安全性と性能が求められる実世界への強化学習応用に不可欠な研究分野である。
    • 既存手法は,安全性確保の困難さや,リアルタイム制御への応用における計算コストが課題となっている。
    • 安全性と効率性を両立し,リアルタイム制御に適した安全なオフライン強化学習手法を確立すること。
    • SafeFQLは,到達可能性に基づく安全価値関数と効率的なワンステップフローポリシーを組み合わせることで,安全性と性能を向上させている。
    • 学習済みの安全境界の近似誤差に対応するため,適合予測によるキャリブレーションステップを導入し,有限サンプルにおける安全性の確率的保証を提供する。
    • 実証実験の結果,SafeFQLは既存手法と同等以上の性能を発揮しつつ,制約違反を大幅に削減している。

    Link: https://arxiv.org/abs/2603.15136

  • 二重運動量と分散削減による圧縮通信を用いた,ビザンチン耐性分散学習の高速化 [cs.LG]目的:ビザンチン耐性分散学習アルゴリズムの効率化
    • 分散学習は,大規模データセットに対する学習を可能にする重要な技術である。
    • 分散環境では,悪意のあるノードによる攻撃(ビザンチン障害)が問題となる。
    • 通信コストを削減しつつ,ビザンチン障害に対する耐性を確保することが課題である。
    • 提案手法Byz-DM21は,二重運動量メカニズムに基づく新しい勾配推定器を用いることで,ビザンチン耐性を持ちながら通信効率を高める。
    • Byz-DM21は,少ない反復回数(ε⁻⁴オーダー)でε-定常点に収束し,大きなバッチサイズを必要としない。
    • 分散型Byz-VR-DM21は,局所的な分散削減を導入することで,さらに効率化を実現し,ε⁻³オーダーで収束する。

    Link: https://arxiv.org/abs/2603.15144

  • 潜在的シフトと不完全なプロキシ下におけるロバストな予測子の点識別 [cs.SC, cs.LG]目的:潜在的交絡因子によるドメイン間の分布シフト下でのロバストな予測子の点識別
    • ドメイン適応は,データ分布の変化に対応するための重要な課題であり,機械学習の汎化性能向上に不可欠である。
    • 既存手法は完全性という強い仮定に依存しており,不完全なプロキシの場合,予測子が複数存在し,一意な識別が困難である。
    • 潜在的等価クラスを導入し,ドメイン多様性条件を用いることで,完全性よりも弱い仮定下での点識別を可能にする。
    • 潜在的等価クラスを定義し,ドメイン間の混合割合のランク条件を満たすことで,ロバストな予測子の点識別が可能となる。
    • Proximal Quasi-Bayesian Active learning (PQAL)フレームワークは,このランク条件を満たす最小限の多様なドメインを効率的に特定する。
    • PQALは,シフトの程度が異なる状況下でもロバストであり,合成データとdSpritesデータセットにおいて既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2603.15158

  • 見ることと習得することは異なる:プライベートライブラリを用いたコード生成をLLMに学習させる [cs.SE, cs.AI, cs.CL]目的:プライベートライブラリを用いたコード生成のためのLLMの学習
    • 大規模言語モデルのコード生成能力は高いが,特定のライブラリに依存する生成は課題である。
    • 既存手法では,ライブラリ情報をLLMに与えても,APIの有効な利用が難しい。
    • 自動合成データによる学習で,LLMのプライベートライブラリAPI利用能力を向上させる。
    • 提案手法PriCoderは,グラフ構造を用いたデータ合成により,多様性と品質を向上させる。
    • 新しいベンチマークを用いた評価で,PriCoderは主要なLLMで20%以上の性能向上を示した。
    • 一般的なコード生成能力への影響は軽微であり,プライベートライブラリ特化の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.15159

  • HindSight: 将来的な影響による研究アイデア生成の評価 [eess.SY, cs.SY, math.DS, cs.HC, cs.CL, cs.AI, cs.LG]目的:研究アイデアの質評価手法
    • AI技術の発展は研究の加速に不可欠であり,優れたアイデアの創出が重要である。
    • 既存の評価方法は主観的で,実際の研究への影響を反映していないという課題がある。
    • 将来の論文との関連性に基づいてアイデアの質を客観的に評価することを目指す。
    • 提案手法HindSightは,生成されたアイデアと将来の論文を照合し,引用回数と掲載誌のレベルでスコアリングする。
    • 実験の結果,Retrieval-Augmented生成は,通常の生成よりも2.5倍高いスコアを獲得することが示された。
    • LLMによる主観的評価とHindSightのスコアは負の相関を示し,LLMは実現可能性の低い斬新なアイデアを過大評価する傾向がある。

    Link: https://arxiv.org/abs/2603.15164

  • グラフ学習によるクロスアテンションを用いた自閉スペクトラム症分類のためのマルチモーダルコネクトーム融合 [cs.CV, cs.AI]目的:自閉スペクトラム症の分類
    • 脳機能と構造の理解は,神経発達障害の診断と治療において不可欠である。
    • 機能的MRIと構造的MRIは情報が異なり,統合的な解析が難しい。
    • 機能的接続性を重視しつつ,構造的情報も統合することで分類精度向上を目指す。
    • 提案手法は,ABIDE-Iデータセットを用いた10分割交差検証でAUC 87.3%,精度84.4%を達成した。
    • Leave-one-site-out交差検証では平均交差サイト精度82.0%を達成し,既存手法を上回った。
    • マルチサイトデータセットにおける異種データ統合により,自閉スペクトラム症の自動分類性能を向上させた。

    Link: https://arxiv.org/abs/2603.15168

  • バッチプロセス制御のための反復学習制御に基づく強化学習 [cs.FL, cs.RO, eess.SY, cs.AI, cs.SY]目的:バッチプロセス制御における強化学習コントローラの学習方法
    • 産業プロセス制御は,生産効率と品質向上の鍵であり,高度な制御技術が求められる。
    • 深層強化学習は不確実性が高く,安全性が課題であり,実用化が遅れている。
    • 反復学習制御の利点を活かし,強化学習の安全性を高め,安定性を保証する。
    • 提案手法は,バッチ間およびバッチ内制御構造において,強化学習コントローラの学習を可能にする。
    • カルマンフィルタを用いた状態推定により,強化学習エージェントを安全かつ安定的な制御方策へと導く。
    • 複数の外乱条件下でも,バッチプロセスを系統的に制御可能なコントローラの設計を実現する。

    Link: https://arxiv.org/abs/2603.15180

  • トークンコヒーレンス:マルチエージェントLLMシステムにおける同期オーバーヘッドを最小化するためのMESIキャッシュプロトコルの適応 [cs.DC, cs.AI, cs.LG, cs.MA]目的:マルチエージェントLLMシステムにおける同期コストの削減
    • LLMエージェントの連携は複雑さを増しており,効率的な同期メカニズムが不可欠である。
    • 単純なブロードキャスト方式では,エージェント数,ステップ数,データサイズが増加するにつれて同期コストが指数関数的に増加する。
    • MESIキャッシュプロトコルを応用し,同期コストを削減することで,よりスケーラブルなマルチエージェントシステムを実現する。
    • 提案手法Artifact Coherence System (ACS)は,MESIプロトコルの無効化メカニズムをLLMにおけるアーティファクト同期に応用している。
    • Token Coherence Theoremにより,ACSがO(n x S x |D|)のコストをO((n + W) x |D|)に削減できることが理論的に証明された。
    • シミュレーションの結果,様々なワークロード構成において,トークン使用量を95.0%まで削減できることが確認された。

    Link: https://arxiv.org/abs/2603.15183

  • CATFormer:継続学習と動的閾値を持つスパイク変換器の融合 [cs.LG, cs.AI, cs.NE, eess.IV]目的:継続学習における性能低下の克服
    • 深層学習は実環境でのデータ変化に弱く,逐次的な学習が課題となっている。
    • 従来の継続学習手法では,過去の知識が失われる「破滅的忘却」が起こりやすい。
    • スパイクニューラルネットワークの性能低下を抑制し,エネルギー効率の良い継続学習を実現する。
    • 提案手法CATFormerは,文脈適応閾値を持つDTLIFニューロンモデルとG-DHSメカニズムを組み合わせる。
    • 静的およびニューロモルフィックデータセットにおいて,既存手法と比較して優れた性能を示した。
    • CATFormerは,真のクラスインクリメンタル学習のための理想的なアーキテクチャとして確立された。

    Link: https://arxiv.org/abs/2603.15184

  • スケーラブルかつロバストなエンドツーエンド運転プランナーにおける重要な要素 [cs.RO, cs.AI, cs.CV]目的:エンドツーエンド運転プランナーの学習におけるスケーラビリティとロバスト性の向上
    • 自動運転技術は,安全性向上や交通渋滞緩和に貢献する重要な技術分野である。
    • オープンループデータセットで優位性を示すアーキテクチャが,クローズドループ環境で性能を発揮できない場合がある。
    • クローズドループ環境におけるスケーラビリティとロバスト性を高めるためのアーキテクチャ設計を明らかにすること。
    • 本研究では,高解像度知覚表現,解きほぐされた軌跡表現,生成的プランニングがクローズドループ性能に与える影響を体系的に分析した。
    • その結果,これらの要素の組み合わせにおける予期せぬ制限と,未開拓の相乗効果が明らかになった。
    • BevADという軽量かつスケーラブルな新しいエンドツーエンド運転アーキテクチャを提案し,Bench2Driveベンチマークで72.7%の成功率を達成した。

    Link: https://arxiv.org/abs/2603.15185

  • 帯域幅制約下マルチホップ無線ネットワークにおける分散型連合学習のための共同ルーティングとモデル剪定 [cs.RO, cs.CL, cs.LG, cs.NI]目的:帯域幅制約下マルチホップ無線ネットワークにおける分散型連合学習のルーティングとモデル剪定の最適化
    • プライバシー保護と分散学習の重要性が増しており,中央サーバを必要としない分散型連合学習が注目されている
    • マルチホップでのモデル交換や集約において,通信リソースの制約がボトルネックとなり,学習効率を低下させている
    • 通信遅延を許容範囲内に抑えつつ,モデルの精度劣化を最小限に抑えるためのルーティングと剪定の最適化を目指す
    • 提案手法は,平均送信遅延を27.8%削減し,テスト精度を約12%向上させることをシミュレーションで示した。
    • 標準的なベンチマークルーティングアルゴリズムと比較して,提案ルーティング手法は精度を約8%改善する。
    • モデルの偏りの総和がD-FLの収束限界に影響すること,およびモデル保持率が偏りを最小限に抑える上で重要であることを分析した。

    Link: https://arxiv.org/abs/2603.15188

  • PiGRAND:物理知識を組み込んだグラフニューラル拡散による知能型積層造形 [cs.LG]目的:積層造形における熱伝達予測の精度向上
    • 機械工学や工学応用において,熱伝達の理解は最適化に不可欠である。
    • データ収集コストが高く,測定が困難な場合,十分なデータが得られない。
    • 物理モデルを組み込むことで,データ不足を補い,予測精度を向上させる。
    • PiGRANDは,従来のグラフニューラル拡散(GRAND)や物理情報ニューラルネットワーク(PINNs)と比較して,予測精度と計算性能を大幅に向上させた。
    • 効率的なグラフ構築手順と,偏微分方程式(PDE)に基づく物理原理の組み込みが,その性能向上に貢献している。
    • 本研究で開発したPiGRANDのコードはGitHubで公開されており,広く利用可能である。

    Link: https://arxiv.org/abs/2603.15194

  • 勾配伝播における大規模な冗長性が,疎なオンライン学習を可能にする [cs.LG]目的:勾配伝播における冗長性の程度と,それを利用した疎なオンライン学習の実現
    • 再帰型ニューラルネットワークの学習は重要だが,計算コストが高いという課題がある。
    • 従来のオンライン学習手法は,計算量が多く,大規模ネットワークへの適用が困難である。
    • 勾配伝播の冗長性を利用することで,計算コストを削減し,効率的なオンライン学習を実現する。
    • 連続的な誤差信号下では,ランダムに選択された6%の経路で,RTRLの適応能力の84%以上を回復できることが示された。
    • ネットワーク規模が大きくなるにつれて,疎RTRLの計算コストは相対的に低下する。
    • この冗長性は,LSTMやTransformerにも拡張され,また,現実の神経データに対しても有効であることが確認された。

    Link: https://arxiv.org/abs/2603.15195

  • 試合を言語としてモデル化:サッカーにおける反実仮想的選手評価のための生成Transformerアプローチ [cs.AI, cs.LG]目的:サッカー選手の移籍評価における反実仮想的シミュレーションの実現
    • サッカー選手の移籍は,戦術,チームメイト,試合状況に左右され,その評価は重要である。
    • 既存の評価方法は,静的な統計や主観的な判断に頼り,文脈要素を十分に考慮していない。
    • 仮説的な状況下での試合展開を予測し,移籍が生み出す影響を定量的に評価することを目指す。
    • ScoutGPTは,サッカーの試合イベントを言語モデルとして扱い,イベント系列を生成する。
    • シミュレーションにより,選手の移籍が攻撃の進展や得点確率に与える影響を測定できた。
    • 従来の静的指標では捉えられない,選手固有の影響を捉えることが示された。

    Link: https://arxiv.org/abs/2603.15212

  • コンセンサスランク集約のための基盤モデル [cs.LG, cs.AI, cs.NE]目的:コンセンサスランク集約
    • 推薦システム,検索エンジン等で重要。多様な意見を統合し,より良い結果を得るため。
    • Kemeny距離最小化は計算困難。大規模データへの適用が制限されている。
    • Kemeny最適解を効率的に近似する手法を提案し,実用的な集約を実現する。
    • 提案手法Kemeny Transformerは,強化学習によりKemeny距離を近似する。
    • 従来のヒューリスティックやマルコフ連鎖モデルを凌駕する性能を示した。
    • 整数計画法ソルバーより高速に推論が可能であり,大規模データへの適用が見込める。

    Link: https://arxiv.org/abs/2603.15218

  • InterPol:補間された嗜好学習によるLMアリーナの匿名性解除 [cs.AI]目的:モデル応答の匿名性解除
    • 大規模言語モデルの評価において,公平性が重要視されるため,リーダーボードの信頼性が不可欠である。
    • 既存の手法では,スタイルの類似性が高いモデルの識別が難しく,匿名性が脅かされる可能性がある。
    • モデル間の微妙なスタイルの違いを捉え,匿名性を効果的に解除することを目指す。
    • 提案手法InterPolは,既存手法と比較して識別精度において大幅な性能向上を示した。
    • モデル補間とアダプティブカリキュラム学習により,表面的な統計的特徴では捉えられない深層的なスタイルのパターンを学習する。
    • アリーナのバトルデータを用いたランキング操作シミュレーションにより,現実世界における脅威を定量的に評価した。

    Link: https://arxiv.org/abs/2603.15220

  • 自動運転における長尾分布へのロバスト性向上のための閉ループMin-Max敵対的学習 [cs.LG, cs.AI]目的:自動運転システムの長尾分布に対するロバスト性の向上
    • 自動運転の安全性確保は重要であり,その実現には稀な危険シナリオへの対応が不可欠である。
    • 既存の敵対的学習法は,シナリオ生成とポリシー最適化が分離しており,目的関数の不一致が生じやすい。
    • ポリシー進化に伴う失敗モードの変化に対応し,最適な敵対的分布を明らかにすること。
    • ADV-0は,運転ポリシーと敵対的エージェント間の相互作用をゼロサムマルコフゲームとして扱う閉ループMin-Max最適化フレームワークである。
    • 敵対的エージェントの有用性を運転ポリシーの目的に直接一致させることで,多様な安全上の欠陥を効率的に特定できる。
    • 実験により,ADV-0が未知の長尾分布リスクに対するポリシーとモーションプランナーの汎化性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.15221

  • SCAN:生涯学習における知識編集のための疎な回路アンカー解釈可能なニューロン [cs.RO, cs.AI]目的:逐次的な知識編集における破滅的忘却とモデル崩壊の軽減
    • 大規模言語モデルの性能向上は重要だが,知識編集時の安定性が課題となっている。
    • 従来の密な編集方法では,既存知識を損ないやすく,モデルが徐々に劣化する。
    • 疎な回路アンカーニューロンを用いた編集により,モデルの整合性を維持し,長期的な知識編集を可能にする。
    • SCANは,Gemma2,Qwen3,Llama3.1を用いた実験で,CounterFact,ZsRE,WikiFactDiffにおいて優れた性能を示した。
    • 3,000回の逐次編集後も,MMLUやGSM8Kなどのベンチマークで高い性能を維持し,既存手法の劣化傾向を克服した。
    • SCANはモデルの内部メカニズムを考慮した編集を実現し,知識編集の安定性を大きく改善する。

    Link: https://arxiv.org/abs/2603.15226

  • 確率的スコアの分解:信頼性,情報損失,および不確実性 [cs.LG, math.ST, stat.ML, stat.TH]目的:確率的スコアの分解に関する恒等式
    • 予測モデルの性能評価において,信頼性は重要な指標である。
    • 予測子の持つ情報量と信頼性の関係性が明確でなかった。
    • 情報量を考慮した信頼性の評価方法を確立すること。
    • 任意の適切な損失関数に対し,予測子の持つ情報量に応じた信頼性,情報損失,不確実性の分解を可能にする恒等式が導出された。
    • 特徴量$\boldsymbol{X}$からスコア$S$への情報損失を定量化する「グルーピング項」が導入された。
    • このフレームワークを用いて,事後再調整,キャリブレーションされたモデルの集約,段階的/ブースティング構築などを分析した。

    Link: https://arxiv.org/abs/2603.15232

  • LLMの価値ある能力は,まさに説明不可能なものにある [cs.AI]目的:LLMの真に価値のある能力の所在
    • LLMはAI技術の進歩を牽引しており,その能力の理解は重要である。
    • LLMの能力がどのように発揮されているのか,明確な説明が困難である。
    • LLMの優位性を説明できない原因を究明し,その能力の理解を深める。
    • LLMの能力は,人間が理解可能な規則で完全に記述できない部分にこそ存在する。
    • 規則で記述可能な能力は,過去の専門家システムと同等であり,LLMよりも劣る。
    • LLMが専門家システムを上回る能力は,規則化できない部分から生じていると考えられる。

    Link: https://arxiv.org/abs/2603.15238

  • 目標指向制御のメカニズム的基盤 [cs.NI, cs.CL, cs.HC, cs.LG, cs.SY, eess.SY]目的:目標指向制御のメカニズム的解明
    • 人工知能の安全性と信頼性向上には,モデルの内部動作の理解が不可欠である。
    • 具現化された制御システムにおけるメカニズム的な解釈は,シーケンス予測アーキテクチャに限定されていた。
    • 乳児の運動学習をモデルとして,メカニズム的解釈の枠組みを拡張し,制御回路の形成過程を明らかにする。
    • 基礎的な誘導的バイアスが,因果的制御回路を生み出し,学習されたゲーティング機構が理論的に導き出される不確実性閾値に収束することが示された。
    • 仲裁ゲートにおける明確な相転移が観察され,そのコミットメント行動は指数移動平均のサーロゲートによって記述された。
    • 文脈窓のサイズkが回路形成の重要なパラメータであり,kが小さいと仲裁メカニズムは形成されず,大きいとゲートの確信度が対数的に増加することが明らかになった。

    Link: https://arxiv.org/abs/2603.15248

  • ロバスト性向上のための文脈内記号回帰:コルモゴロフ・アーノルドネットワークへの応用 [cs.LG, cs.AI]目的:コルモゴロフ・アーノルドネットワークにおける演算子抽出のための文脈内記号回帰
    • 科学的機械学習において,ブラックボックスモデルを解釈可能な数式で表現することの重要性が高まっている。
    • 従来のKANから記号への変換は,初期値や非凸最適化の影響を受けやすく,ネットワーク全体の相互作用を無視していた。
    • 本研究は,ネットワーク全体の性能向上を考慮した文脈内記号回帰による演算子抽出を目指す。
    • 貪欲な文脈内記号回帰(GSR)は,エンドツーエンドの損失改善に基づいてエッジ置換を貪欲に選択する。
    • ゲート付きマッチングパーシュート(GMP)は,各エッジに疎なゲートを配置した演算子ライブラリを学習することで,文脈内選択を効率化する。
    • 実験の結果,貪欲な文脈内記号回帰は,OFATハイパーパラメータスイープにおいて,中央値のテストMSEを最大99.8%削減した。

    Link: https://arxiv.org/abs/2603.15250

  • SAGE:LLMの推論のためのマルチエージェント自己進化 [cs.RO, cs.AI, cs.MA]目的:LLMの推論能力向上
    • 大規模言語モデルの性能向上が,様々な応用分野で不可欠となっている。
    • 既存手法は,大規模な人手ラベリングデータに依存している場合が多い。
    • 自己対戦による学習の安定性と,より複雑な推論能力の獲得を目指す。
    • SAGEは,挑戦者,プランナー,ソルバー,批評家の4つのエージェントが協調し,少ない初期データセットから自己進化する。
    • 挑戦者は難易度を上げて課題を生成し,プランナーが構造化された計画に変換,ソルバーが解答を導き出す。
    • 批評家が課題と計画を評価・フィルタリングすることで学習の安定性を維持し,Qwen-2.5-7Bモデルの性能を向上させた。

    Link: https://arxiv.org/abs/2603.15255

  • 視覚言語モデルの堅牢性を高める方向性埋め込み平滑化 [cs.RO, cs.LG, cs.AI, cs.CL, cs.CR]目的:視覚言語モデルの安全性と信頼性向上
    • 自律型AIシステムの信頼性を担保する上で,視覚言語モデルの安全性は不可欠である。
    • 視覚言語モデルは,安全性調整を回避し有害な出力を生成する脱獄攻撃に対して脆弱である。
    • 多様な脱獄攻撃に対する防御効果を高め,視覚言語モデルの安全性を確保すること。
    • 提案手法であるRESTAが,多岐にわたる脱獄攻撃の成功率を効果的に低減することを示した。
    • 特に,元のトークン埋め込みベクトルに沿った方向性を持つ埋め込みノイズを用いることで,より高い効果が得られた。
    • RESTAは,自律型システムにおける視覚言語モデルのセキュリティフレームワークの軽量な防御層として貢献しうる。

    Link: https://arxiv.org/abs/2603.15259

  • エージェント誘導クロスモーダルデコーディングによる天気予報 [cs.AI, cs.CV]目的:天気予報の精度向上
    • 精度の高い天気予報は,人々の生活や経済活動に不可欠であるため,気象予測技術の進歩が重要である。
    • 既存の物理事前知識の導入方法は,状態適応性やサンプル特異的な制御性に乏しいという課題がある。
    • 本研究は,状態に依存した物理事前知識をデコーディング時に注入することで,この課題を解決することを目指す。
    • 提案手法AGCDは,マルチエージェント気象ナレーションパイプラインを用いて,現在の気象状態に基づいて物理事前知識を生成する。
    • AGCDは,領域認識型マルチスケールトークン化と効率的な物理事前知識注入により,視覚的特徴を洗練させる。
    • WeatherBenchにおける実験により,AGCDは様々な解像度やバックボーンで,6時間予報の精度を向上させることが示された。

    Link: https://arxiv.org/abs/2603.15260

  • 環境認識型プランニング:産業用ECサイト検索のための探査とプランニング [cs.AI]目的:産業用ECサイト検索における環境認識型プランニング手法
    • ECサイト検索は複雑化する顧客意図への対応が求められ,大規模言語モデル(LLM)の活用が進んでいる。
    • 既存手法は検索能力や在庫状況を考慮せず,無効なプランを生成するか,遅延が大きすぎるという課題がある。
    • 環境の現実に基づいた動的な推論プロセスにより,これらの課題を解決し,効率的な検索プランニングを実現する。
    • 本研究では,検索環境の情報を探査し,その結果に基づいてプランを生成する「Probe-then-Plan」メカニズムを提案した。
    • オフライン評価とオンラインA/Bテストの結果,EASPは検索適合率を向上させ,UCVRとGMVの大幅な改善に貢献した。
    • EASPはJD.comのAI検索システムに導入され,実運用での効果が確認された。

    Link: https://arxiv.org/abs/2603.15262

  • IConE:自己教師あり表現学習におけるバッチ非依存の崩壊防止 [cs.CV, cs.LG]目的:自己教師あり表現学習における崩壊防止機構の確立
    • 表現学習は機械学習の基礎であり,特にラベルなしデータからの学習は重要性を増している。
    • 既存手法はバッチサイズに依存するため,高次元データや不均衡データにおける学習が困難である。
    • 本研究は,バッチサイズに依存しない崩壊防止機構を開発し,より安定した学習を実現する。
    • IConEは,バッチサイズが小さい場合でも,既存のコントラスト学習や非コントラスト学習手法を上回る性能を示す。
    • IConEは,クラスの不均衡に対して頑健であり,データセット全体での表現の多様性を維持する。
    • 幾何学的分析により,IConEがバッチサイズ減少時に表現の崩壊を防ぎ,高次元性を維持することが示された。

    Link: https://arxiv.org/abs/2603.15263

  • 文書からスパンへ:LLMベースのICDコーディングのためのコード中心学習 [cs.CL, cs.AI]目的:LLMベースのICDコーディングのためのコード中心学習フレームワーク
    • 医療分野におけるICDコーディングは重要であり,効率化と精度向上が求められている。
    • 既存のデータセットではICDコードの網羅性が低く,未知のコードへの汎化が課題である。
    • 短文の証拠スパンへの学習を通して,LLMのICDコーディング性能を向上させる。
    • 提案手法は,従来の強固なベースラインと比較して大幅に性能を向上させる。
    • 小規模なLLMでも,大規模なプロプライエタリモデルに匹敵する性能を達成可能である。
    • トレーニングコストを削減し,未知のICDコードに対する精度を向上させ,解釈可能性を維持する。

    Link: https://arxiv.org/abs/2603.15270

  • フローベース生成モデルの高速推論:改善されたデータ-ノイズ結合による [eess.SY, cs.RO, cs.SY, cs.LG, cs.CV]目的:フローベース生成モデルの推論速度向上
    • 画像や動画生成など,生成AIの発展は重要であり,効率的な学習手法が求められている。
    • 既存手法では,大規模データセットにおいてデータとノイズの結合最適化が不十分であった。
    • ミニバッチ間のデータ-ノイズ結合を最適化し,推論速度と生成品質のバランスを改善する。
    • 提案手法LOOM-CFMは,ミニバッチOTの適用範囲を拡大し,学習を通してデータ-ノイズの割り当てを最適化する。
    • 複数のデータセットにおいて,サンプリング速度と品質のトレードオフが改善されることが確認された。
    • 蒸留初期化の強化や潜在空間での高解像度合成のサポートも実現している。

    Link: https://arxiv.org/abs/2603.15279

  • 長期ニューロシンボリックメモリによるマルチモーダルエージェント推論の高度化 [cs.AI]目的:マルチモーダルエージェントの長期的な推論能力の向上
    • 現実世界での意思決定には,直感的推論だけでなく,論理的推論も不可欠である。
    • 既存のマルチモーダルエージェントメモリは,主にニューラル表現に依存しており,論理的推論に限界がある。
    • ニューラルメモリとシンボリック構造を統合し,論理的推論を強化するメモリフレームワークを提案する。
    • 提案手法NS-Memは,ニューラルメモリとシンボリック構造を組み合わせた長期メモリフレームワークである。
    • NS-Memは,既存のニューラルメモリシステムと比較して,全体的な推論精度が平均4.35%向上した。
    • 特に制約付き推論クエリにおいては,最大12.5%の精度向上を確認し,NS-Memの有効性を検証した。

    Link: https://arxiv.org/abs/2603.15280

  • 完全観測非決定性問題における状態の安全性を判定するアルゴリズム:技術報告 [cs.RO, cs.AI]目的:行動方策の安全性判定
    • 強化学習の安全性確保は,実世界での応用において不可欠である。
    • 既存の安全性判定アルゴリズムは,最悪の場合指数時間計算量を要する。
    • 効率的な安全性判定アルゴリズムの開発により,実用性を向上させる。
    • 本研究では,TarjanSafeと同等の最良の場合の実行時間を持ちながら,多項式時間で最悪の場合の実行時間を保証する新しいアルゴリズムiPIを提案した。
    • 実験の結果,iPIはTarjanSafeに適した問題では同等の性能を示し,適さない問題ではより優れたスケーラビリティを発揮することが確認された。
    • iPIは,安全性判定の効率性と実用性の両立を実現する。

    Link: https://arxiv.org/abs/2603.15282

  • 強化学習に基づく適応信号制御の頑健性の評価 [cs.LG]目的:強化学習を用いた適応信号制御アルゴリズムの性能評価
    • 交通渋滞の緩和は都市機能の維持に不可欠であり,信号制御はその重要な要素である。
    • 従来の信号制御は固定パターンに依存し,変化する交通状況への適応が困難である。
    • 本研究は,多様な交通状況下での頑健性を備えた強化学習ベースの信号制御手法を確立する。
    • 提案する強化学習ベースの信号制御は,最適化された既存の信号制御と比較して,平均遅延を11~32%削減した。
    • 単一の交通パターンで学習したモデルは,類似した未知のパターンに対しては良好に汎化するが,大きく異なる状況下では性能が低下する。
    • 多様な交通パターンで学習したモデルは,未知の状況下でも既存手法を上回る高い頑健性を示す。

    Link: https://arxiv.org/abs/2603.15283

  • ドラゴンチェスのための進化型転移学習 [eess.SY, cs.SY, cs.CL, cs.DB, cs.CE, cs.AI]目的:ドラゴンチェスにおけるAIヒューリスティックのドメイン間転移
    • AI研究において,複雑なゲームは知能のテストベッドとして重要である。
    • 既存のチェスAIは,次元やルールが異なるゲームに直接適用できない。
    • 進化型最適化により,未知のゲームドメインに適応可能とする。
    • ドラゴンチェスを新たなAI研究のテストベッドとして確立した。
    • Stockfishからのヒューリスティックの直接転移は不十分であった。
    • CMA-ESによる進化型最適化がAIエージェントの性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2603.15297

  • 混沌を利用した分類精度の向上 [cs.LG]目的:分類精度の向上
    • 機械学習は様々な分野で活用され,その重要性は増している。
    • 従来の分類手法では,高次元データや複雑なデータ構造への対応が課題となる。
    • 混沌理論を応用し,分類性能の向上と学習速度の高速化を目指す。
    • 本研究では,データを混沌力学系で進化させることで分類精度が向上することを示した。
    • 標準的なsoftmax分類器や,高次元空間への写像のみを行った分類器と比較して,学習速度と精度が改善された。
    • 混沌を利用することで,データの表現力を高め,分類器の学習を促進できると考えられる。

    Link: https://arxiv.org/abs/2603.15299

  • xplainfi: Rにおける機械学習のフィーチャー重要度と統計的推論 [cs.LG]目的:機械学習モデルにおけるグローバルかつ損失に基づくフィーチャー重要度を算出するためのRパッケージ
    • 機械学習モデルの解釈可能性向上は,モデルの信頼性向上に不可欠である。
    • 条件付き重要度やそれに伴う統計的推論手続きの点で,既存のRパッケージには課題があった。
    • 条件付き重要度分析と統計的推論を可能にする,包括的なツールキットを提供すること。
    • xplainfiは,既存の実装との一貫性を確認したシミュレーションにおいて,正確な重要度スコアを生成することが示された。
    • 本パッケージは,多様な学習アルゴリズムに対して,高い処理性能を維持している。
    • xplainfiは,フィーチャー重要度分析とモデル解釈のための,包括的なツールキットとして利用可能である。

    Link: https://arxiv.org/abs/2603.15306

  • 化学平衡に対するコルモゴロフ・アーノルド代理モデル:固溶体への応用 [cs.LG, physics.chem-ph]目的:化学平衡計算の効率化
    • 地化学モデリングは,資源探査や環境評価において不可欠である。
    • 反応輸送シミュレーションでは計算コストが課題となり,時間短縮が求められる。
    • 機械学習を用いた代理モデルにより,計算時間を大幅に削減することを目指す。
    • コルモゴロフ・アーノルドネットワークは,セメントシステムのベンチマークにおいて,多層パーセプトロンを誤差で上回った。
    • 二元・三元ラジウム固溶体モデルにおいても,予測誤差を$1\times10^{-3}$程度に維持することに成功した。
    • この研究は,反応輸送シミュレーションの高速化と深層地層処分場の安全評価最適化に向けた第一歩となる。

    Link: https://arxiv.org/abs/2603.15307

  • 複雑な制約下におけるツール使用のためのベンチマークCCTU [cs.CL, cs.AI]目的:複雑な制約下でのツール使用に関するLLMの評価
    • LLMの応用範囲拡大には,関数呼び出しや指示理解といった能力が不可欠である。
    • 制約を伴うツール使用の評価基準が確立されておらず,LLM研究の進展を阻害している。
    • 複雑な制約下でのツール使用におけるLLMの性能評価と課題の特定を目指す。
    • CCTUベンチマークを開発し,12種類の制約カテゴリを網羅した200件のテストケースを構築した。
    • 最先端のLLM9モデルを評価した結果,全ての制約を厳守したタスク完了率は20%未満であった。
    • LLMは制約違反を50%以上で示し,特に資源と応答の次元で顕著であり,自己修正能力も限定的であった。

    Link: https://arxiv.org/abs/2603.15309

  • CASHomon集合:複数モデルクラスとハイパーパラメータにわたる効率的なラショモン集合 [cs.LG]目的:複数モデルクラスとハイパーパラメータ探索における効率的なラショモン集合の構築
    • 機械学習モデルの解釈可能性向上は,信頼性向上や意思決定支援に不可欠である。
    • 既存手法では,特定のモデルクラスにしかラショモン集合を効率的に構築できない。
    • アルゴリズム選択とハイパーパラメータ最適化を同時に行い,多様な高性能モデルを探索する。
    • 提案手法TruVaRImpは,暗黙的な閾値を持つレベル集合推定のためのモデルベースアクティブラーニングアルゴリズムである。
    • 合成データおよび実データにおいて,TruVaRImpは他の手法と比較して同等以上の性能を示した。
    • モデルクラス間の予測の多様性と特徴量の重要度の変動性は,単一モデルによる解釈の妥当性を疑問視させる。

    Link: https://arxiv.org/abs/2603.15321

  • Tagarela - ポッドキャストから作成されたポルトガル語音声データセット [cs.CL, cs.AI]目的:ポルトガル語の自動音声認識(ASR)およびテキスト読み上げ(TTS)モデルの学習用データセット
    • 音声処理技術は進歩したが,ポルトガル語は公開された大規模高品質なデータセットが不足しており,発展が遅れていた。
    • ポルトガル語の音声データセットは規模が小さく,質の面でも十分でなく,高性能な音声技術の開発を阻害していた。
    • 本研究は,ポルトガル語音声認識とテキスト読み上げ技術の性能向上に貢献できる大規模データセットを構築し,提供することを目的とする。
    • 約8,972時間のポッドキャスト音声から構成される大規模なデータセットTAGARELAを公開した。
    • TAGARELAを用いて学習したASRおよびTTSモデルは,良好な性能を示し,有効性が確認された。
    • 本データセットは,ポルトガル語の音声技術開発を促進し,より自然で堅牢なシステム構築に貢献すると期待される。

    Link: https://arxiv.org/abs/2603.15326

  • スケーリングされたTW-PINN:一般係数を持つ反応拡散方程式のトラベル波解のための物理情報ニューラルネットワーク [math.NA, cs.LG, cs.NA]目的:反応拡散方程式のトラベル波解の計算
    • 物理現象のモデリングにおいて,反応拡散方程式は様々な分野で重要な役割を果たす。
    • 従来の数値解法では,高次元や複雑な係数の場合に計算コストが増大する。
    • スケーリング変換により,計算効率と汎用性を向上させ,多様な問題に対応する。
    • 提案手法(スケーリングされたTW-PINN)は,異なる係数や次元に対して,同一のPINNソルバーを再利用可能である。
    • 数値実験により,提案手法の精度,柔軟性,および既存手法(wave-PINN)に対する優位性が確認された。
    • Fisher方程式への拡張も検討され,一般初期条件に対する適用可能性が示された。

    Link: https://arxiv.org/abs/2603.15331

  • 因果的残差ブートストラップによるデータ拡張 [cs.LG]目的:データ拡張による予測モデルの精度向上
    • データ分析において,より多くのデータはモデルの汎化性能を高める重要な要素である。
    • 既存のデータだけではモデルの性能が十分とは限らず,データ不足が課題となる場合が多い。
    • 因果関係に基づき,データに摂動を加えることで,よりロバストなモデル構築を目指す。
    • 提案手法は,周辺確率分布に基づくモデルの残差を置換することで,データ拡張を実現する。
    • 線形ガウスモデルにおいて,理論的な根拠に基づいた精度向上が確認された。
    • このアプローチは,マルコフ同値類を超える情報を取り込むことが可能である。

    Link: https://arxiv.org/abs/2603.15335

  • インテリジェントな共同設計:マルチモーダルエージェントによる室内空間設計のためのインタラクティブLLMフレームワーク [cs.CL, stat.ML, cs.AI, cs.HC, cs.MA]目的:室内空間設計における,自然言語と画像を用いた3次元デザイン生成
    • 建築・室内設計は,人々の生活空間を創造する重要な分野であり,快適性や機能性が求められる。
    • クライアントと設計者の間におけるコミュニケーション不足が,設計の遅延やコスト増加の原因となる。
    • 自然言語と画像を理解し,インタラクティブに空間を改良するフレームワークを構築し,設計プロセスを改善する。
    • 本研究で提案するLLMベースのフレームワークは,クライアントの意図を正確に解釈し,最適化された3D室内デザインを生成する。
    • ユーザー参加型のレイアウトは,独立したLLM評価者によって,意図の整合性,美的統一性,機能性,動線において高い評価を得た。
    • アンケート調査の結果,77%の満足度と,従来の設計ソフトウェアに対する明確な優位性が示された。

    Link: https://arxiv.org/abs/2603.15341

  • PMAx: AI駆動型プロセスマイニングのためのエージェント的フレームワーク [cs.AI, cs.MA]目的:AI駆動型プロセスマイニングにおける新たなフレームワークの提案
    • 業務プロセスの可視化は,業務効率化や改善に不可欠であり,組織の課題発見に貢献する。
    • 従来のプロセスマイニングは専門知識が必要であり,利用者の裾野が狭いという課題がある。
    • LLMの課題を克服し,データプライバシーを保護しながら,自然言語によるプロセス分析を実現する。
    • PMAxは,LLMの直接的な分析エンジンとしての利用を避け,プライバシーを重視したマルチエージェントアーキテクチャを採用している。
    • Engineerエージェントがイベントログのメタデータを分析し,正確な指標計算と成果物生成のためのスクリプトを自動生成する。
    • Analystエージェントがこれらの結果を解釈し,包括的なレポートを生成することで,非技術者でも信頼性の高いプロセスインサイトを得られる。

    Link: https://arxiv.org/abs/2603.15351

  • NV-Bench:表現豊かな音声合成のための非言語性音声合成ベンチマーク [cs.SD, cs.AI, eess.AS]目的:非言語性音声合成の評価基準
    • 音声合成技術は,より自然で人間らしいコミュニケーションを可能にする上で重要である。
    • 既存の評価方法は標準化されておらず,客観的な評価が困難である。
    • 非言語性音声合成の評価を標準化し,客観性と信頼性を高める。
    • NV-Benchは,14種類の非言語性音声カテゴリを含む1,651件の多言語データセットである。
    • 提案されたparalinguistic character error rate (PCER)を用いて制御可能性を評価する。
    • 客観的指標と人間の知覚との間に強い相関関係が認められた。

    Link: https://arxiv.org/abs/2603.15352

  • 条件付き修正フローに基づくエンドツーエンド高速地震波インバージョン法 [cs.LG, cs.AI]目的:地震波インバージョンの高速化と高精度化
    • 地質探査において,地下構造を把握する上で不可欠な技術である。
    • 従来のインバージョン法は計算コストが高く,初期モデル依存性が課題である。
    • サンプリング効率と精度を両立した新たなインバージョン法の開発。
    • 提案手法は,OpenFWIベンチマークデータセットにおいて高いインバージョン精度を達成した。
    • 拡散法と比較してサンプリング速度が向上し,InversionNetと比較して生成精度が高い。
    • マルマウス実データを用いた実験により,ゼロショット汎化性能が実証された。

    Link: https://arxiv.org/abs/2603.15354

  • FuXiWeather2:運用グローバル天気予報のための高精度な大気状態推定学習 [cs.IR, cs.LG, cs.AI, physics.ao-ph]目的:大気状態推定と天気予報を行う統一的なニューラルフレームワーク
    • 数値天気予報は,データ同化と数値モデリングの計算上のボトルネックによって制約されてきた。高性能計算が不可欠。
    • 既存の機械学習モデルは再解析製品の模倣に留まり,系統的なバイアスや運用遅延が残存する点が課題である。
    • 再解析製品のエラーを修正し,より正確で迅速な天気予報を可能にすることを目指している。
    • FuXiWeather2は,実世界の観測と再解析データを直接組み合わせた学習目標により,再解析製品内の固有のエラーを効果的に修正する。
    • 生成された高解像度(0.25°)の解析場は,多くの変数においてNCEP-GFSを上回り,ERA5やECMWF-HRESよりも下層大気や地表面変数の精度が高い。
    • この解析場に基づく10日予報は,評価された指標の91%においてHRESシステムを上回るスキルを示す。台風進路予測においても高い性能を発揮する。

    Link: https://arxiv.org/abs/2603.15358

  • 深層学習とフローによる近似の速度 [cs.RO, cs.LG, math.DS]目的:深層残差ネットワークの近似能力の深さ依存性
    • 深層学習の理論的基盤確立が不可欠であり,近似能力の定量化が重要である。
    • 深層学習における近似速度の評価が難しく,線形近似理論との違いが不明である。
    • 深層学習の効率的な学習メカニズムを,幾何学的な視点から解明することを目指す。
    • 最小時間(近似に必要な時間)は,微分同相写像上の測地距離として定義できることが示された。
    • この測地距離は,ベクトル場のファミリーに基づく変分原理によって特徴付けられる。
    • 学習効率は,学習アーキテクチャの選択と対象となる関係性の適合性に依存することが示唆された。

    Link: https://arxiv.org/abs/2603.15363

  • 自動運転における安全上の危険を認識する認知推論エージェントCRASH [cs.AI, cs.CL]目的:自動運転車両の事故原因分析
    • 自動運転技術の発展に伴い,安全性確保が重要課題となっている。
    • 事故原因の特定が複雑であり,体系的な安全分析が困難である。
    • 事故報告書から原因を自動で推論し,安全研究に貢献すること。
    • CRASHは,事故報告書から原因を64%の精度で特定し,知覚または計画の失敗が主な原因であることを示した。
    • 報告された事故の約50%は追突事故であり,自動運転における未解決の課題を浮き彫りにした。
    • 専門家による検証で,CRASHは86%の精度で自動運転システム障害の原因を特定できた。

    Link: https://arxiv.org/abs/2603.15364

  • LLMの推論のための脳に触発されたグラフ多エージェントシステム [cs.AI, cs.NI]目的:LLMの推論能力向上
    • 大規模言語モデルの応用範囲は広いが,複雑な推論は課題である。
    • モデル規模を拡大しても,複雑なタスクでの精度低下が起こる。
    • 多エージェントシステムにより,推論性能の限界を克服すること。
    • BIGMASは,標準LLMと大規模推論モデルの両方で,推論性能を向上させる。
    • 既存のマルチエージェントベースライン(ReAct,Tree of Thoughtsなど)を上回る結果が得られた。
    • マルチエージェントアーキテクチャ設計は,モデルレベルの推論強化と相補的な効果をもたらす。

    Link: https://arxiv.org/abs/2603.15371