arXiv雑要約

AI - 2026/05/19 公開

CodeScaler：報酬モデルによるコードLLMの学習と推論のスケール拡大 [cs.LG, cs.AI]目的：コード生成における大規模言語モデルの学習と推論のスケーラビリティ向上
- ソフトウェア開発において，コード生成の自動化は生産性向上に不可欠であり，その精度が求められる。
- 従来の強化学習は高品質なテストケースの可用性に依存し，スケーラビリティが課題となっていた。
- 検証可能な報酬を用いた強化学習のスケーラビリティ問題を，報酬モデルによって解決することを目指す。
- CodeScalerは，Qwen3-8B-Baseで+1.55点，Qwen3-14B-Baseで+4.23点の性能向上を，4つのコーディングベンチマークで一貫して達成した。
- 44Kの問題を用いた拡張実験では，テストケースなしでベースモデルに対して+14.64点の改善が確認された。
- 推論時においても，CodeScalerはユニットテストと同等の性能を，10分の1の低遅延で実現した。
Link: https://arxiv.org/abs/2602.17684
トークンゲーム：言語モデルの推論能力をパズル対決で評価 [cs.AI]目的：言語モデルの推論能力評価のためのフレームワーク
- 言語モデルの能力向上に伴い，高度な推論能力の評価が重要になっている。
- 既存の評価方法では，高度な専門知識が必要でコストが高く，学習データに含まれる問題の可能性が懸念される。
- モデル同士が自らパズルを作成し対決することで，客観的かつ低コストな評価を目指す。
- 提案手法「トークンゲーム」は，既存のベンチマークと同程度のランキングを，200ドル以下の低コストで実現した。
- モデルが優れたパズルを作成することは，現在の言語モデルにとって依然として難しい課題である。
- 飽和を回避し，問題解決能力に加えて創造性やタスク作成能力の評価も可能にする新たな評価パラダイムを示唆している。
Link: https://arxiv.org/abs/2602.17831
物理情報に基づく自己注意機構を用いたグラフニューラルネットワークのパラメータ効率的なドメイン適応：AC潮流予測への応用 [cs.CL, cs.LG]目的：AC潮流予測におけるドメインシフトへの対応
- 電力系統の安定運用には正確な潮流予測が不可欠であり，大規模化・複雑化に伴い，その重要性は増している。
- MV系統で訓練されたモデルをHV系統に適用する際，ドメインシフトにより予測精度が低下する問題が存在する。
- パラメータ効率的なドメイン適応により，計算コストを抑えつつHV系統への適応とMV系統の知識保持を両立する。
- 提案手法（LoRA+PHead）は，フルファインチューニングに匹敵する精度を，学習パラメータ数の85.46%削減で実現した。
- 物理制約を満たす残差誤差はフルファインチューニングと同程度であり，物理整合性を維持している。
- ドメインシフト下ではMV系統の知識保持率はフルファインチューニングより4.7%低下するが，パラメータ効率と物理整合性を両立している。
Link: https://arxiv.org/abs/2602.18227
命令チューニングのための結合最適化幾何学による標的データ選択：GIST [cs.IR, cs.LG, cs.AI, cs.CV]目的：命令チューニングにおける標的タスクに対する効率的な訓練データサブセットの特定
- 大規模言語モデルの性能向上には，タスク固有のデータセットを用いたチューニングが不可欠である。
- 全訓練データを使用するチューニングは計算コストが高いため，効率的なデータ選択手法が求められている。
- パラメータ効率的なファインチューニングにおける最適化幾何学の課題を解決し，より効果的なデータ選択を実現する。
- GISTは，検証勾配からのタスク固有の低次元部分空間を復元し，訓練勾配をこの空間に投影することで，データ選択を行う。
- 既存の最先端手法と同等またはそれ以上の性能を，必要なストレージ容量と計算時間のわずかな割合で達成する。
- 特にパラメータ効率的なファインチューニングにおいて，パラメータ間の結合を考慮した最適化幾何学が重要となる。
Link: https://arxiv.org/abs/2602.18584
汎用的な視覚言語行動ポリシーのための汎用ポーズ事前学習 [cs.CV, cs.LG, cs.RO]目的：視覚言語行動モデルの汎化性能向上
- ロボット工学において，視覚情報と自然言語指示に基づいた行動計画は重要な課題である。
- 既存モデルは，視覚的理解と行動決定を同時に学習するため，効率が悪く，汎化性能が低い。
- 3D空間情報の事前学習により，ロボットの行動能力を向上させ，少ないデータでの学習を可能とする。
- Pose-VLAは，3D空間情報を事前に学習し，その後にロボット固有の行動空間に適合させることで，効率的な学習を実現した。
- RoboTwin 2.0において，平均成功率79.5%という最先端の結果を達成し，LIBEROにおいても96.0%の競争力のある性能を示した。
- 実世界実験では，タスクあたり100件のデモンストレーションのみで，多様な物体に対して頑健な汎化性能が確認された。
Link: https://arxiv.org/abs/2602.19710
グローバル事前知識と局所的一貫性：効率的なロボット操作のためのデュアルメモリ拡張ビジョン・言語・行動モデル [cs.HC, cs.CL, cs.RO, cs.AI, cs.CV]目的：ロボット操作における効率的な行動生成のためのフレームワーク
- ロボット操作は，自動化や複雑なタスク実行において不可欠であり，その性能向上は重要な課題である。
- 既存の行動生成モデルは，推論効率の低さや，過去の行動履歴を考慮しないことによるロバスト性の不足が課題である。
- タスクレベルの事前知識と行動履歴の一貫性モデリングにより，これらの課題を克服し，ロボット操作の性能向上を目指す。
- OptimusVLAは，LIBEROベンチマークで平均98.6%の成功率を達成し，CALVINではpi_0よりも13.5%改善された。
- RoboTwin 2.0 Hardベンチマークでは平均成功率38%を達成し，実環境評価ではGeneralizationとLong-horizonの両スイートでpi_0をそれぞれ42.9%と52.4%上回った。
- また，推論速度を2.9倍向上させ，効率的なロボット操作を実現した。
Link: https://arxiv.org/abs/2602.20200
不確実なガイダンスによるオンラインアルゴリズム [cs.AI, cs.DS]目的：機械学習によるオンライン意思決定のモデル
- オンラインアルゴリズムは，データが逐次的に到着する状況で最適な決定を下すために重要である。
- 従来の機械学習支援アルゴリズムは，予測器の選択に依存し，汎用性に欠ける場合がある。
- 予測器に依存しない汎用的な機械学習支援アルゴリズムの分析フレームワークを確立すること。
- 本研究では，予測とアルゴリズムを分離する「不確実なガイダンスによるオンラインアルゴリズム」モデルを提案した。
- 提案モデルに基づき，既存のオンラインアルゴリズムを機械学習支援型に変換する汎用的なコンパイラ「DTB」を開発した。
- DTBコンパイラを用いて，二部マッチング，キャッシュ，一様計量タスクシステムにおいて良好な性能が確認された。
Link: https://arxiv.org/abs/2602.20706
拡散の二重性：第2章 Ψ-サンプラー [cs.LG]目的：離散拡散モデルにおけるサンプリング手法の開発
- 拡散モデルは，生成AIにおける重要な技術であり，近年急速に発展している。
- 離散拡散モデルでは，ステップ数が増えるにつれてサンプリング品質が低下するという課題があった。
- 本研究では，この品質低下を改善し，より高精度なサンプリングを可能にすることを目指す。
- 提案手法であるPredictor-Corrector (PC)サンプラーは，言語モデルと画像モデルの両方で，既存のancestral samplingよりも優れた性能を示した。
- OpenWebTextにおける生成パープレキシティの低減，CIFAR10におけるFID/ISスコアの改善が確認された。
- PCサンプラーは，ステップ数を増やすほど性能が向上するという特徴を持ち，Masked diffusionの優位性に対する新たな知見を提供する。
Link: https://arxiv.org/abs/2602.21185
ToolMATH：系統的なツールカタログ制約下における長期的ツール利用の診断ベンチマーク [cs.CL, cs.LG, cs.SE]目的：長期的ツール利用の診断
- 大規模言語モデルのツール利用能力は，現実世界での応用において不可欠である。
- ツールカタログの変動に対するモデルの適応性やロバスト性の評価が困難であった。
- ツールカタログの制約下でのモデルのツール利用能力を診断し，改善に資すること。
- ToolMATHは，段階的な数学問題の解法を再利用可能なPythonツールに変換し，ツールカタログ条件を制御する。
- 適応性，ロバスト性，ツール接続性の3軸でモデルを評価し，詳細な失敗分析を行った。
- その結果，モデルの信頼性，ツール回避，適応的置換といった異なるプロファイルが明らかになった。
Link: https://arxiv.org/abs/2602.21265
近接IMH：近似演算子を用いた独立Metropolis-Hastings法における近接事後提案 [cs.LG, stat.CO]目的：ベイズ逆問題における事後分布からのサンプリング
- 科学，工学，画像処理などの分野で重要なベイズ推論の効率化が求められている。
- 既存のIMH法は，近似事後分布のバイアスが課題となっている。
- 近似事後分布のバイアスを補正し，より正確な事後分布からのサンプリングを可能にすること。
- Proximal-IMHは，近似事後分布からのサンプルを補助的な最適化問題で補正することでバイアスを軽減する。
- 理想的な設定において，近接補正により近似事後分布と正確な事後分布の一致度が向上し，受容率と混合が改善されることが示された。
- 線形および非線形入力-出力演算子に適用でき，特に正確な事後分布サンプリングが困難な逆問題に有効である。
Link: https://arxiv.org/abs/2602.21426
エンドツーエンド自律運転のための拡散モデルの可能性の解放 [cs.RO, cs.AI, cs.LG]目的：エンドツーエンド自律運転のための拡散モデルのプランナーとしての可能性の解明
- 自動運転は，安全性向上や移動の効率化に不可欠であり，社会実装への期待が高い。
- 拡散モデルの自動運転への応用は始まったばかりであり，実世界での大規模な評価が不足している。
- 実車データと実走行テストに基づき，複雑な実環境における拡散モデルの性能向上を目指す。
- 拡散モデルの損失空間，軌跡表現，データスケーリングが性能に大きく影響することを明らかにした。
- 強化学習による後処理戦略により，安全性とロバスト性をさらに向上させることができた。
- 実車検証の結果，提案手法（HDP）はベースモデルと比較して10倍の性能向上を達成した。
Link: https://arxiv.org/abs/2602.22801
Flowette：グラフ構造の事前知識を用いたフローマッチングによるグラフ生成 [cs.LG, cs.AI]目的：繰り返し出現するサブグラフモチーフを持つグラフの生成モデリング
- グラフ構造は，社会ネットワークや分子構造など，多様な分野で重要な役割を果たす。
- 複雑なグラフ構造を効率的に生成し，その構造的特徴を制御することは課題である。
- グラフ構造に関する事前知識を活用し，より高品質なグラフ生成を目指す。
- Flowetteは，グラフ表現上での速度場を学習するフローマッチングフレームワークである。
- グラフニューラルネットワークベースのTransformerと，最適輸送に基づく結合を用いることで，トポロジーを考慮したアラインメントを促進する。
- 合成データおよび分子データセットでの評価で，最先端の結果を達成した。
Link: https://arxiv.org/abs/2602.23566
交通予測における強固なベースラインとしての時系列基盤モデル：大規模ベンチマーク分析 [cs.LG]目的：交通予測における時系列基盤モデルの有効性評価
- 都市の移動やインフラ計画において，正確な交通状況の予測は不可欠である。
- 既存の深層学習モデルは，データセット固有の学習やアーキテクチャ設計が必要である。
- データセット固有の調整なしに，汎用的な時系列基盤モデルが有効なベースラインとなりうるか検証する。
- 最新の時系列基盤モデルChronos-2は，10の実際の交通データセットで，特定の調整なしに最先端の精度を達成した。
- 特に予測期間が長い場合において，古典的な統計モデルや専門的な深層学習アーキテクチャを凌駕する結果が得られた。
- Chronos-2は，データセット固有の学習なしに，有用な不確実性定量化を提供することも示した。
Link: https://arxiv.org/abs/2602.24238
IdGlow：複数人物生成のための動的アイデンティティ変調 [cs.CV, cs.AI]目的：複数人物の画像生成における，一貫性のあるシーン内での複数参照アイデンティティの調和
- 人物画像生成技術は，エンターテイメントやセキュリティなど，多様な分野で応用が期待されている。
- 既存手法は，構造的な変形に対応できず，「安定性と可塑性」のジレンマに陥りやすい。
- IdGlowは，このジレンマを克服し，高品質な複数人物画像生成を実現することを目指す。
- IdGlowは，マスクフリーかつ段階的な2段階フレームワークであり，Flow Matching拡散モデルに基づいている。
- タスク適応型タイムステップスケジューリングと，時間的ゲーティング機構により，顔のセマンティクスを維持しながら自然なグループ構成を可能にする。
- VLMを用いたプロンプト合成と，DPOによるグループレベルの最適化により，アーティファクトの除去，テクスチャの調和，アイデンティティの忠実度向上を実現した。
Link: https://arxiv.org/abs/2603.00607
LiTS：LLM木探索のためのモジュールフレームワーク [cs.AI]目的：LLMによる推論のための木探索フレームワーク
- LLMの能力を最大限に引き出すには，複雑な推論能力が不可欠である。
- 既存のLLMの推論方法は，汎用性に欠け，特定タスクに依存しやすい。
- LLMの推論能力を向上させるための，柔軟かつ拡張可能なフレームワークの構築。
- LiTSは，Policy，Transition，RewardModelという再利用可能なコンポーネントで木探索を構成する。
- MATH500，Crosswords，MapEvalの各タスクで，コンポーネントとアルゴリズムの独立性を示す結果が得られた。
- 無限の行動空間においては，LLMの方策多様性が木探索のボトルネックとなることが示された。
Link: https://arxiv.org/abs/2603.00631
BioProAgent：制約付き科学的計画のためのニューロシンボリックな接地 [cs.AI, cs.MA]目的：制約付き科学的計画のためのニューロシンボリックなフレームワーク
- 科学的発見においてLLMの活用が期待される中で，物理的な実験環境への適用が課題となっている。
- LLMの確率的なハルシネーションは，物理環境では実験の失敗や機器の損傷に繋がるリスクがある。
- 決定論的な有限状態機械と組み合わせることで，LLMの計画を物理的な制約に適合させることを目指す。
- BioProAgentは，厳格な設計・検証・修正のワークフローを強制することで，ハードウェア適合性を確保する。
- セマンティックシンボル接地により，複雑なデバイススキーマにおけるコンテキストのボトルネックを解消し，トークン消費量を削減する。
- BioProBenchベンチマークにおいて，95.6%の物理的適合率を達成し，ReActと比較して著しい改善を示した。
Link: https://arxiv.org/abs/2603.00876
忘却は競争：拡散モデルにおけるアンラーニングの再考 [cs.LG, cs.AI]目的：拡散モデルにおけるアンラーニングのメカニズムの解明
- 生成AIの発展に伴い，著作権や安全性への配慮が重要になっている。
- 既存のアンラーニング手法では，目的概念の除去と性能維持のバランスが難しい。
- アンラーニングを「競争」として捉え，概念の干渉を利用することで，この問題を解決する。
- SurgUnは，拡散モデルにおけるアンラーニングを，概念の直接削除ではなく制御された競争として捉える。
- 多様なdistractorを用いた勾配競合により，目的概念の除去と無関係な概念の保持を両立する。
- Stable Diffusion等の複数モデルで，既存手法よりも優れたerase-retainバランスを達成した。
Link: https://arxiv.org/abs/2603.00975
科学の異質な空間：一貫性はあるが認知的にアクセスできない研究方向のサンプリング [cs.AI, cs.LG]目的：既存知識構造下で可能性はあるが，既存の研究コミュニティでは考えにくい研究方向の探索
- 科学的発見は真実だけでなく，研究者の認知能力によって制約される。未開拓の可能性を追求する必要がある。
- 既存の研究コミュニティの概念，方法，直感の組み合わせによって，有望な研究方向が提案されない場合がある。
- AIによるアイデア創出において，人間の科学者を補完し，コミュニティが見落としがちな方向性を探ることを目指す。
- 提案手法は，既存のLLM論文コーパスにおいて，既存のアイデア創出手法よりも3.5〜7倍広い概念語彙を探索できる。
- 生成されたアイデアは，LLM，人間，実験による評価において，既存手法と同等またはそれ以上の性能を示した。
- 科学的妥当性とコミュニティの可用性を分離することで，AIによるアイデア創出の新たな可能性を示唆する。
Link: https://arxiv.org/abs/2603.01092
大規模言語モデルの格子表現仮説 [cs.AI]目的：大規模言語モデルにおける概念階層と論理演算の基礎となる記号的基盤
- 言語モデルの能力向上には，知識表現と推論機構の理解が不可欠である。
- 既存の線形表現仮説では，複雑な概念構造の表現と推論が困難である。
- 概念格子を用いて，言語モデルの埋め込み空間における記号的推論を可能にすること。
- 本研究では，大規模言語モデルの埋め込み空間が概念格子を符号化していることを示した。
- 線形属性方向と閾値を用いることで，半空間交差を通じて概念格子が誘導されることを実証した。
- これにより，幾何学的な演算を通じて記号的な推論が可能となり，連続幾何学と記号的抽象化の間の橋渡しとなる。
Link: https://arxiv.org/abs/2603.01227
術後トレーニング：知識保持のための近接オンポリシー蒸留 [cs.CL, cs.AI]目的：大規模言語モデルへの新たな推論知識注入に伴う知識の破棄抑制
- 大規模言語モデルの性能向上には，新たな知識の注入が不可欠である。
- 新たな知識注入は，既存知識の忘却を引き起こすことが課題である。
- 知識の忘却を抑制しつつ，推論能力を効率的に向上させる手法の確立。
- 提案手法「SPOT」は，わずか4000組の修正済み数学問題ペアを用いて，Qwen3-8Bの精度を平均6.2%向上させた。
- SPOTは，8枚のH800 GPU上で16分という短い学習時間で，高い性能改善を実現した。
- SPOTは，その後の強化学習のための優れた初期化を提供し，性能上限を大幅に引き上げた。
Link: https://arxiv.org/abs/2603.01683
自己合成パイプラインによる学習可能な情報利得の確保が，自己対戦型進化を促進する [cs.LG, cs.AI, cs.CL, cs.IT, math.IT]目的：自己対戦型進化における持続的な学習のメカニズム
- 大規模言語モデルの発展により，自己改善ループの実現可能性が高まっている。
- 従来の自己対戦型システムは，学習可能な情報の増加なくデータ量が増加し，停滞しやすい。
- 自己合成データパイプラインを通じて，学習可能な情報の利得を最大化する。
- 自己進化を維持するためには，反復ごとに学習可能な情報を増加させる自己合成データパイプラインが不可欠である。
- 提案者，解者，検証者の三役構造を特定し，この視点から学習可能な情報利得を改善するシステム設計を3つ提示した。
- 非対称的共同進化，能力拡張，積極的な情報探索が，脆弱な自己対戦から持続的な自己進化への道筋を提供する。
Link: https://arxiv.org/abs/2603.02218
AI時代の人間認証モジュールリポジトリ [cs.ET, cs.AI, cs.SE]目的：AI支援開発における信頼性の高いソフトウェア構築のための新たなアーキテクチャモデル
- AI技術の進化に伴い，ソフトウェアの複雑化が進み，信頼性の確保が重要課題となっている。
- 現在のソフトウェアサプライチェーンには，出所の不明確なコンポーネントや脆弱性が存在するリスクがある。
- AIが安全かつ予測可能なソフトウェアを構築するための，人間によるレビューと自動分析を組み合わせたモジュールリポジトリの確立を目指す。
- 人間認証モジュールリポジトリ（HCMR）というフレームワークを提案し，モジュールの認証と安全な組み立てを支援する。
- HCMRの参照アーキテクチャ，認証ワークフロー，およびモジュールエコシステムの脅威を分析した。
- ガバナンス，スケーラビリティ，AIの説明責任に関する考察を通して，信頼性と監査可能性の高いAI構築ソフトウェアシステムの基盤としてのHCMRの可能性を示した。
Link: https://arxiv.org/abs/2603.02512
現代ホップフィールド力学による拡散モデルに対する幾何学的注意誘導 [cs.LG, cs.AI]目的：拡散モデルにおける注意誘導の幾何学的性質の解明と，それに基づく効率的なサンプル生成手法の提案
- 拡散モデルは高品質な画像生成を可能にするが，計算コストが高い点が課題である。
- 従来の注意誘導法は，その動作原理が不明確であり，効果が限定的である場合がある。
- 現代ホップフィールド力学を用いて注意機構の挙動を解析し，より安定で効率的な注意誘導法を開発すること。
- 提案手法Geometry-Aware Attention Guidance (GAG) は，並行成分と直交成分に不一致を分解することで，収束を促進しノイズを抑制する。
- GAGは，アーキテクチャやサンプリング方法に依存せず，様々なモデル（FLUX.1, FLUX.2, Qwen-Image等）で生成品質を向上させる。
- 本研究は，注意機構における外挿を第一階Anderson加速と解釈することで，既存手法の統一的な視点を提供する。
Link: https://arxiv.org/abs/2603.02531
視覚理解とテキストから画像生成のための対照的および生成目的の統合 [cs.RO, cs.DC, cs.SY, eess.SY, cs.CV, cs.LG]目的：視覚理解とテキストから画像生成の統合
- 画像とテキストの関連性を理解することは，AIにおける重要な課題である。
- 対照学習と生成モデルは，それぞれ異なるマスク戦略を必要とし，統合が困難である。
- マスクの段階的な変化を通して，両者の目的を同時に達成するフレームワークを提案する。
- 提案手法DREAMは，マスクの段階的な変化により，対照学習と生成モデルを統合する。
- DREAMは，ImageNet，ADE20K，NYUなどのデータセットで，既存手法CLIPやFLUIDを上回る性能を示した。
- 対照学習と生成目的は，適切に統合することで相乗効果を生み出すことが示された。
Link: https://arxiv.org/abs/2603.02667
期待と音響ニューラルネットワーク表現が脳活動からの音楽識別を向上させる [cs.AI, q-bio.NC]目的：脳活動からの音楽識別の改善
- 音楽認知研究の進展には，脳活動と音楽的特徴の対応関係の解明が不可欠である。
- 脳波（EEG）からの音楽識別の精度は，表現学習の質に大きく依存する。
- 音響と期待という2種類の表現を教師信号として活用し，音楽識別の精度向上を目指す。
- 音響および期待関連のANN表現を教師ターゲットとして用いることで，脳波に基づく音楽識別の精度が向上した。
- 事前に学習されたモデルは，学習なしのベースラインを上回り，両者を組み合わせることで相乗効果が得られた。
- 教師表現の種類が下流の性能を左右し，ニューラルエンコーディングに基づく表現学習の指針となることが示された。
Link: https://arxiv.org/abs/2603.03190
古い習慣はなかなか変わらない：会話履歴がLLMを幾何学的に閉じ込める仕組み [cs.CL, cs.AI]目的：大規模言語モデルにおける会話履歴のバイアス
- 自然言語処理の発展に伴い，LLMの応答の信頼性確保が重要課題となっている。
- LLMは過去の会話履歴に影響を受け，誤った情報を繰り返し生成する可能性がある。
- 会話履歴がLLMの潜在空間におけるモデルの軌跡をどのように制限するかを解明する。
- 会話履歴はマルコフ連鎖としてモデル化でき，状態の一貫性が定量化可能である。
- 隠れ表現の一貫性を幾何学的に測定することで，行動の持続性が幾何学的なトラップとして現れることが示された。
- 確率的な視点と幾何学的な視点の間に強い相関関係があることが，複数のモデルとデータセットで確認された。
Link: https://arxiv.org/abs/2603.03308
StructLens：最大支承木による言語モデルの構造的レンズ [cs.CL, cs.AI]目的：言語モデルにおける表現の構造的分析
- 言語には固有の構造が存在し，言語獲得や変化を説明する上で重要である。
- 既存研究ではモデルの計算メカニズムは分析されるが，生成された表現の組織化は軽視されている。
- 表現空間におけるトークンの関係性を構造的に理解し，モデルの組織化様式を解明すること。
- StructLensは残差ストリーム内の意味表現に基づいて最大支承木を構築し，トークン間の関係性を要約する。
- 中間層において最も強い局所的な範囲の組織化が確認された。
- 事前学習の初期段階では小さな単位が，後期段階では大きな単位が検出可能になることが示された。
Link: https://arxiv.org/abs/2603.03328
思考連鎖検証器のオンライン学習可能性：健全性と完全性のトレードオフ [cs.LG]目的：思考連鎖を用いた検証器の学習による，複雑な推論・計画タスクにおける信頼性向上
- 大規模言語モデルの能力向上に伴い，推論・計画タスクへの応用が期待されているため。
- 現在のLLMの出力は必ずしも信頼性が高く，検証が不可欠であるという課題がある。
- 生成器と検証器間のフィードバックループによる分布シフトに対処し，検証器の学習を可能にすること。
- 健全性エラーと完全性エラーの非対称性を考慮したLittlestone次元の拡張を提案し，検証器学習の限界を理論的に解析した。
- 健全性エラーの予算内で，総誤り数を最小化するアルゴリズムや，非対称コストを最適化するアルゴリズムを開発した。
- 学習された検証器を用いて，弱い生成器群の精度向上や，初期学習範囲を超える証明の生成を可能にした。
Link: https://arxiv.org/abs/2603.03538
RoboMME：ロボット汎用ポリシーのためのメモリのベンチマークと理解 [cs.CL, cs.RO, cs.AI]目的：ロボット汎用ポリシーにおけるメモリの評価と理解
- ロボットによる長期的な操作や履歴依存のタスクにおいて，メモリは不可欠である。
- 既存のVLAモデルの評価は狭い範囲に限られており，体系的な理解や進捗測定が困難である。
- 長期・履歴依存シナリオにおけるVLAモデルの評価と発展のための標準化されたベンチマークを提供する。
- RoboMMEは，時間的，空間的，物体，手続き的メモリを評価する16種類の操作タスクから構成される。
- 14種類のメモリ拡張VLAモデルを用いて，異なるメモリ表現の統合戦略を体系的に調査した。
- メモリ表現の有効性はタスクに強く依存し，各設計には異なるタスクにおいて独自の利点と限界があることが示された。
Link: https://arxiv.org/abs/2603.04639
マルチモーダルLLMは監視に適しているか？現実世界におけるゼロショット異常検知に関する現実点検 [cs.CV, cs.AI]目的：ビデオ異常検知におけるマルチモーダルLLMの性能評価
- 監視システムの高度化に伴い，ビデオデータの効率的な解析が重要になっている。
- 従来の異常検知手法は，再構成誤差や姿勢推定に依存し，複雑な状況への対応が課題。
- 言語による誘導を可能にするLLMの異常検知への応用可能性を探求する。
- ゼロショット設定では，モデルは高い精度を示すものの，異常クラスの検出率が著しく低いことが判明した。
- クラス固有の指示を用いることで，F1スコアは大幅に改善したが，検出率は依然として課題のままである。
- 本研究は，マルチモーダルLLMを監視システムに適用する際の性能ギャップを明らかにし，今後の研究の方向性を示唆する。
Link: https://arxiv.org/abs/2603.04727
インタラクティブなベンチマーク [cs.AI, cs.CL, cs.LG]目的：推論能力の評価
- AIの進化において，高度な推論能力の評価は不可欠である。
- 既存のベンチマークは飽和状態であり，不正行為のリスクがある。
- モデルが情報を獲得し，効果的に活用する能力を評価する。
- インタラクティブなベンチマークは，既存の方法よりもモデルの知性をより頑健に評価できることが示された。
- 予算制約のある複数回の対話を通じて推論能力を評価する新しいパラダイムが提案された。
- インタラクティブなシナリオにおいて，モデルの改善の余地が大きく残されていることが明らかになった。
Link: https://arxiv.org/abs/2603.04737
Med-V1：ゼロショットおよびスケーラブルな生物医学的証拠帰属のための小規模言語モデル [cs.CL, cs.AI]目的：生物医学的証拠の帰属に関する研究
- 医療分野における正確な情報抽出と検証は，臨床判断や研究の質に不可欠である。
- 大規模言語モデルは強力だが，計算コストが高く，実用的な展開が困難であるという課題がある。
- 小規模言語モデルによる，効率的かつ正確な生物医学的証拠帰属の実現を目指す。
- Med-V1は，わずか30億パラメータの小規模言語モデルでありながら，既存モデルを大幅に上回る性能を示す。
- Med-V1は，最先端の大規模言語モデル（GPT-5など）と同等の性能を持ち，予測の根拠となる説明も提供する。
- 臨床診療ガイドラインにおける証拠の誤帰属を自動的に特定し，公衆衛生への潜在的な悪影響を明らかにすることが可能である。
Link: https://arxiv.org/abs/2603.05308
反実的介入の誤りの大きさはどこまでか？統制群なしの連続的治療における交絡バイアスの定量化 [cs.RO, cs.AI]目的：連続的な治療を受けたパネルデータにおける因果的ストレステストの偏りを定量化すること
- 金融ポートフォリオの信用リスク評価において，マクロ経済変動が与える影響を正確に把握することは重要である。
- 従来のストレステスト手法は予測に依存しており，見過ごされた変数の影響を受けやすいという問題がある。
- 統制群がない状況下でも，交絡バイアスを考慮した因果的ストレステストの枠組みを提供し，より信頼性の高いリスク評価を目指す。
- 提案手法は，解釈可能な感度パラメータによって特徴付けられた交絡エンベロープを導き出すことに成功した。
- 再帰的ロールアウトと直接的な多期間予測という2つの実用的な推定器について，非漸近的な誤差限界を導出し，再帰的複合化が直接推定を優先させる条件を明らかにした。
- 重要度重み付きコンフォーマル予測と識別エンベロープを組み合わせることで，共変量シフト下での推定不確実性と識別不確実性を分離した有限サンプル区間が得られた。
Link: https://arxiv.org/abs/2603.07438
EveryQuery：タスク条件付き事前学習によるゼロショット臨床予測 [cs.AI]目的：電子健康記録に対するゼロショット臨床予測機能
- 医療現場での意思決定支援の重要性が増しており，予測モデルの精度向上が求められている。
- 既存の自己回帰的な予測手法は計算コストが高く，統計的なノイズの影響を受けやすい。
- 特定の臨床質問に直接対応できる，効率的かつ高精度な予測モデルの実現を目指す。
- EveryQueryは，タスク条件付き事前学習により，ゼロショット推論を実現した。
- MIMIC-IVにおける評価で，自己回帰的なベースラインモデルを82%の予測タスクで上回り，平均AUCを0.16改善した。
- 特に稀な臨床イベントの予測において顕著な改善が見られ，自己回帰的推論の限界を克服した。
Link: https://arxiv.org/abs/2603.07900
DARC：リスク制約付きデコーディングによる不一致を考慮したアラインメント [cs.LG, cs.AI]目的：不一致を考慮したアラインメント手法
- 人間の多様な好みを反映したモデルの性能向上は，AI開発において重要である。
- アノテーターやユーザーグループ間での意見の不一致が，アラインメントの安定性を損なう。
- 不一致を考慮し，リスクを抑制することで，よりロバストなアラインメントを実現する。
- DARCは，再学習なしで推論時に応答候補をランク付けし直すことで，不一致とテールリスクを低減する。
- KLダイバージェンスを用いた目的関数により，リスクを明示的に制御し，平均的な品質を維持する。
- 理論的考察により，このデコーディングルールが原理的な悲観主義と分布ロバスト最適化に関連することが示されている。
Link: https://arxiv.org/abs/2603.08145
まず小，次に大：シャープネスアウェア最小化における深さ誘起の暗黙的バイアス [cs.LG, cs.AI]目的：線形分離可能な二値分類問題における，$L$層線形対角ネットワークの学習におけるシャープネスアウェア最小化（SAM）の暗黙的バイアス
- 機械学習モデルの汎化性能向上は重要であり，学習アルゴリズムの暗黙的バイアス理解が不可欠である。
- SAMのような最適化手法の深さに対する影響は十分に理解されておらず，特に初期値依存性が問題となる。
- 本研究では，深層ネットワークにおけるSAMの振る舞いを明らかにし，初期値の影響と学習過程における特徴量の増幅を解明する。
- 線形モデル($L=1$)では，SAMは勾配降下法（GD）と同様に$\ell_2$最大マージン分類器を再現する。
- 深さ$L=2$では，$\ell_\infty$-SAMの極限方向は初期値に大きく依存し，GDとは異なる振る舞いを示す。
- $\ell_2$-SAMでは，学習初期にマイナーな特徴量に依存し，徐々にメジャーな特徴量へと移行する「逐次特徴増幅」現象が確認された。
Link: https://arxiv.org/abs/2603.08290
推論を圧縮として：条件付き情報ボトルネックによる予算制約の統一 [cs.LG]目的：大規模言語モデルにおける効率的な推論の実現
- 複雑なタスクにおいて，大規模言語モデルの精度向上は重要である。しかし，計算コストも増加する。
- 既存の予算制約手法は，推論に必要な情報と冗長な情報を区別できず，精度を低下させる可能性がある。
- 推論過程を情報圧縮の問題として捉え，コストを抑えつつ精度を維持することを目的とする。
- 提案手法は，推論における冗長性を削減し，流暢さと論理性を維持することで，中程度の圧縮率で精度を向上させた。
- さらに，積極的な圧縮を行うことで，精度の低下を最小限に抑えながら，大幅なコスト削減を実現した。
- この成果は，様々なモデルやタスクで一般化され，ドメインに依存しない推論圧縮フレームワークとしての有効性が確認された。
Link: https://arxiv.org/abs/2603.08462
クラスターを意識した実行可能領域を持つ球面VAE：事後崩壊の確実な防止 [cs.LG, cs.AI, cs.CV]目的：事後崩壊の防止
- 潜在変数モデルは表現学習において重要な役割を担う。VAEはその代表的な手法である。
- VAEでは，事後分布が事前分布に退化し，潜在変数が無情報となる「事後崩壊」が頻繁に発生する。
- 球面幾何学とクラスターを意識した制約により，数学的に崩壊を排除するフレームワークを提案する。
- 提案手法は，データを有実行可能領域に制約することで，数学的に事後崩壊を回避することを保証する。
- 従来のVAEが完全に失敗する条件下でも，100％の崩壊防止を実現し，再構成品質は最先端手法と同等かそれ以上である。
- 明示的な安定条件を必要とせず，任意のニューラルアーキテクチャで使用可能である。
Link: https://arxiv.org/abs/2603.10935
VeriHGN：チップレイアウト検証のための異種グラフベースの混雑予測 [cs.AR, cs.AI]目的：チップレイアウト検証における混雑予測の精度向上
- VLSI設計の規模拡大に伴い，レイアウト検証がEDAワークフローにおいて重要な課題となっている。
- 従来の検証は詳細な配線後に混雑を特定するため，時間とコストがかかるという問題点がある。
- 本研究は，論理設計と物理レイアウトの相互作用をより忠実にモデル化することで，早期の混雑予測を可能とする。
- 提案手法VeriHGNは，回路要素と空間グリッドを統合した異種グラフを用いることで，従来の数値的な混雑予測の精度を向上させている。
- ISPD2015，CircuitNet-N14，CircuitNet-N28などの産業用ベンチマークを用いた実験により，予測精度と相関指標において最先端手法を上回る結果が得られた。
- VeriHGNは，論理的な意図と物理的な実現の間の関係性をより正確に捉えることで，効率的なレイアウト検証を実現する。
Link: https://arxiv.org/abs/2603.11075
ARROW：堅牢なワールドモデルのための拡張リプレイ [cs.LG, cs.AI]目的：継続的強化学習における，過去のスキル維持と将来のタスクにおける性能向上
- 強化学習は，様々な環境に適応可能な知能の開発に不可欠であり，その応用範囲は広い。
- 継続学習では，過去の知識を忘却せず，新しいスキルを効率的に習得することが課題である。
- 大規模なメモリ消費を抑制しつつ，継続学習における忘却を軽減することを目的とする。
- ARROWは，既存のモデルフリーおよびモデルベースの手法と比較して，共有構造を持たないタスクにおいて著しく忘却を抑制した。
- 特に，分散を考慮したリプレイバッファによる効率的なサンプリングが，性能維持に貢献している。
- 本研究は，継続強化学習におけるモデルベースRLと神経科学的アプローチの有効性を示唆している。
Link: https://arxiv.org/abs/2603.11395
ゼロショットタスクにおけるMLLMの検証と強化のための明示的論理チャネル [cs.AI]目的：MLLMの検証，選択，および性能向上
- 視覚と言語の理解は，AIの発展において重要な課題であり，多様な応用が期待されている。
- MLLMはブラックボックスとして利用されることが多く，その挙動の検証や理解が困難である。
- 明示的な論理チャネルを導入することで，MLLMの判断根拠を明確化し，信頼性を高める。
- 提案する明示的論理チャネルは，視覚的証拠に基づいた推論を行い，事実，反事実，関係性の推論を可能にする。
- チャネル間の一貫性評価指標（CR）を用いることで，正解ラベルなしでもモデルの検証と選択が可能となる。
- チャネル間の統合により，ゼロショットタスクにおけるMLLMの性能向上が確認された。
Link: https://arxiv.org/abs/2603.11689
高性能強化学習環境の自動生成 [cs.LG, cs.AI, cs.SE]目的：高性能強化学習環境の生成手法
- 強化学習は，ロボット制御やゲームAIなど，様々な分野で応用が期待されている重要な技術である。
- 複雑な強化学習環境を高性能に実装するには，専門的な知識と膨大な工数がかかるという課題がある。
- 本研究は，計算コストを最小限に抑えつつ，高性能な強化学習環境を自動的に生成することを目的とする。
- 提案手法では，プロンプトテンプレート，階層的な検証，反復的な修正，そして異なるバックエンド間でのポリシー転送を用いることで，シミュレーション環境間のギャップをなくす。
- Game BoyエミュレータPyBoyからEmuRustへ，Pokemon ShowdownからPokeJAXへの翻訳，既存実装とのスループット検証，そして新たな環境TCGJaxの生成に成功した。
- 生成された環境のオーバーヘッドは，200Mパラメータモデルにおいて，学習時間の4%以下に抑えられた。
Link: https://arxiv.org/abs/2603.12145
公共交通路線の早期枝刈り [cs.RO, cs.DS, cs.AI, cs.RO]目的：公共交通路線の経路探索における性能向上
- 都市の交通渋滞緩和や，環境負荷低減のため，公共交通利用促進が重要である。
- 大規模な公共交通ネットワークでは，最適な経路探索に時間がかかり，実用性が課題となる。
- 経路探索の効率化により，より迅速な経路提示と利用者の利便性向上を目指す。
- 提案手法である早期枝刈りを導入することで，既存の経路探索アルゴリズムの計算時間を短縮できる。
- スイスとロンドンの交通ネットワークにおいて，最速57%のクエリ時間短縮を達成した。
- 本手法は，様々なRAPTORベースの経路探索アルゴリズムに容易に組み込むことができる。
Link: https://arxiv.org/abs/2603.12592
パラメータ化された偏微分方程式を解くための，分離された潜在的ダイナミクス多様体融合 [cs.LG]目的：パラメータ化された偏微分方程式の解法
- 偏微分方程式は自然科学や工学の様々な分野で現れるため，その効率的な解法は重要である。
- PDEパラメータの変化に対応し，学習の安定性を保つことが難しい。
- パラメータの一般化と時間外挿を同時に実現する。
- DLDMFは，空間，時間，パラメータを明示的に分離する物理情報に基づいたフレームワークである。
- パラメータを直接連続的な潜在的埋め込みにマッピングすることで，不安定な自動デコードを回避する。
- 実験の結果，DLDMFは精度，パラメータの一般化，外挿の堅牢性において最先端のベースラインを上回った。
Link: https://arxiv.org/abs/2603.12676
OxyGen：マルチタスク並列処理におけるVLA推論のための統一KVキャッシュ管理 [cs.RO, cs.AI]目的：VLA推論におけるKVキャッシュの統一管理
- 具現化されたAIエージェントの複雑なタスク処理能力向上が求められているため。
- 既存の推論システムでは，リソース競合により効率的な並列処理が困難である。
- KVキャッシュ管理のボトルネックを解消し，効率的なマルチタスク処理を実現する。
- 提案手法OxyGenは，GeForce RTX 4090およびJetson AGX Thorで最大3.7倍の高速化を達成した。
- 言語処理のスループットは200トークン/秒以上，行動頻度は70Hzを同時に実現し，行動品質は低下しない。
- さらに，オンボードJetson AGX Thorを搭載したヒューマノイドロボット上での有効性も確認された。
Link: https://arxiv.org/abs/2603.14371
STAG-CN：蜂群センサーネットワークにおける疾病発生予測のための時空間養蜂場グラフ畳み込みネットワーク [cs.LG, cs.AI]目的：蜂群における疾病発生の予測
- 世界的な受粉サービスが蜂の減少により脅かされているため，蜂群の健康維持が重要である。
- 従来のモニタリングシステムは各巣箱を独立して扱うため，疾病が養蜂場内で拡散する経路を考慮していない。
- 巣箱間の関係性を考慮することで，より正確な疾病発生予測を目指す。
- 提案手法STAG-CNは，韓国AI Hubデータセットを用いて3日先の疾病発生を予測し，F1スコア0.607を達成した。
- 気候センサーの相関関係のみを用いた場合でも，フルモデルと同等の性能が得られた一方，物理的な近接性のみでは性能が低かった。
- この結果は，単一の巣箱の情報よりも，巣箱間の環境応答パターンが疾病発生予測において重要であることを示唆している。
Link: https://arxiv.org/abs/2603.14462
質問応答における推論時の知識修正のための回答条件付き反証検索：CounterRefine [eess.SY, cs.SY, stat.ME, eess.SY, cs.RO, cs.SY, cs.CL, cs.AI]目的：事実に基づく質問応答における，推論時の知識修正
- 質問応答システムは，知識のアクセスだけでなく，正しい答えへのコミットメントが重要である。
- 既存システムは，関連証拠を取得できても，誤った答えを導き出す場合がある。
- システムの初期回答を仮説とみなし，反証を検索して回答を修正することを目指す。
- CounterRefineは，RAGシステムの性能を最大5.8ポイント向上させた。
- Claudeの検証において，出力のわずか5.6%を変更し，そのうち180件は有益な修正であった。
- 知識を持つ基盤モデルは，証拠をアクセスするだけでなく，それを用いて回答を再検討・修正する必要がある。
Link: https://arxiv.org/abs/2603.16091
LightZeroNav：軽量VLMsを用いた連続環境におけるゼロショット視覚言語ナビゲーション [cs.CV, cs.AI]目的：軽量VLMsを用いたゼロショット視覚言語ナビゲーションにおける性能向上
- 視覚言語ナビゲーションは，ロボット工学や拡張現実などの分野で重要な役割を担う。
- 軽量VLMsでは推論能力が限られており，長距離ナビゲーションの信頼性が課題。
- マルチソース入力の冗長性，ノイズの多いテキストメモリ，タスクの複雑性を解消する。
- LightZeroNavは，RGB画像とQwen3-VL-8Bを用いて，タスク固有の学習なしにGPT-4oと同等の性能を実現。
- グラフ探索やウェイポイント予測などの手法を用いずに，ゼロショットVLN-CEで高い有効性を示す。
- 入力情報の冗長性，進捗推定の不正確さ，タスクの複雑さが軽減され，ナビゲーションの改善に貢献。
Link: https://arxiv.org/abs/2603.16947
オフラインデータからのデモンストレーター多様性による潜在的行動とダイナミクスの特定 [cs.LG, cs.AI, stat.ML]目的：潜在的行動と環境ダイナミクスの復元
- 強化学習において，環境のモデル化は効率的な学習に不可欠である。
- オフラインデータからは行動が観測できないため，環境ダイナミクスの学習が困難である。
- デモンストレーターの多様性を利用し，潜在的行動とダイナミクスを特定する手法を確立する。
- デモンストレーターの識別可能な混合重みを持つ潜在的行動条件付き遷移カーネルを導出した。
- 十分な多様性とランク条件のもとで，潜在的遷移とデモンストレーターのポリシーが識別可能であることを証明した。
- 連続観測空間において，文法決定式最小体積基準を適用し，局所的な置換曖昧性をグローバルな置換に変換した。
Link: https://arxiv.org/abs/2603.17577
VLM-AutoDrive：安全重視の自動運転イベントに対するポストトレーニングのビジョン言語モデル [cs.RO, cs.SY, eess.SY, cs.SI, cs.CY, econ.GN, q-fin.EC, stat.ML, cs.CV, cs.AI]目的：安全重視の自動運転イベント検出のためのビジョン言語モデルの適応
- 自動運転技術の安全性向上は不可欠であり，異常検知はその重要な要素である。
- 既存のビジョンモデルは，稀少で短い安全関連イベントの検出が困難である。
- 汎用的なビジョン言語モデルを，自動運転における異常検知に特化させる。
- VLM-AutoDriveは，既存のビジョン言語モデルを効率的に適応させるポストトレーニングフレームワークである。
- 衝突検出のF1スコアを0.00から0.69に，全体精度を35.35%から77.27%に向上させた。
- 実世界のダッシュカム映像において，衝突およびニアミス検出性能の大幅な向上と解釈可能な推論過程の提示を実現した。
Link: https://arxiv.org/abs/2603.18178