arXiv雑要約

AI - 2026/05/14 公開

  • 汎化的な推論に向けて:LLM推論のためのグループ因果対向的方策最適化 [cs.LG]目的:LLMの汎化可能な推論パターンの学習
    • LLMは複雑なタスクで高い能力を示すが,推論の汎化が課題である。
    • 既存の報酬メカニズムは最終的な正誤に偏り,推論プロセスへの評価が不十分である。
    • 推論過程の妥当性と反事実的な頑健性を重視する報酬メカニズムを構築し,汎化性能を高める。
    • 本研究では,多候補推論を因果的な対向実験として捉え,グループ因果対向的方策最適化を提案する。
    • 提案手法は,推論ステップの安定性と多様性を同時に捉え,プロセス妥当性と反事実的な頑健性を促進する。
    • 多様なベンチマーク実験により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2602.06475

  • SupChain-Bench:現実世界のサプライチェーン管理のための大規模言語モデルのベンチマーク [cs.AI]目的:現実世界のサプライチェーン管理における大規模言語モデルの性能評価
    • サプライチェーンは経済活動の基盤であり,その最適化は効率化と競争力強化に不可欠である。
    • 既存モデルでは,専門的な手順に基づいた,長期的かつ多段階のサプライチェーン業務の信頼性確保が課題である。
    • 本研究は,大規模言語モデルの信頼性の高い長期的な業務遂行能力を評価・改善することを目指す。
    • SupChain-Benchは,サプライチェーンの専門知識とツールを活用した長期的業務遂行能力を評価する統一的なベンチマークである。
    • 実験の結果,既存モデルには実行の信頼性の点で大きな課題が残ることが明らかになった。
    • SupChain-ReActは,実行可能な手順を自動合成することで,最も強力かつ一貫したツール呼び出し性能を達成した。

    Link: https://arxiv.org/abs/2602.07342

  • 拡散から着想を得たTransformerの再構成による不確実性較正 [cs.LG]目的:事前学習済みTransformerにおける不確実性較正のメカニズム
    • リスクが重要な応用において,事前学習済みTransformerの信頼性は不可欠である。
    • 既存のTransformerは,特徴変換スタックを通じて不確実性を伝播させる原理的なメカニズムを持たない。
    • Transformerのアーキテクチャ全体に表現の不確実性を適切に伝播させること。
    • 提案手法は,各特徴変換ブロックを確率的写像としてモデル化することで,拡散過程を模倣する確率経路を明らかにする。
    • この確率経路を再コンパイルすることで,予測性能を維持しつつ,表現の不確実性の伝播を可能にする。
    • 様々なベンチマークにおいて,既存の不確実性を考慮したTransformerと比較して,優れた較正と予測精度を達成する。

    Link: https://arxiv.org/abs/2602.08920

  • 不確実性定量化とガイダンスによるフローマッチング [cs.CV, cs.LG]目的:フローマッチングにおける不確実性の定量化と,それを用いた生成のガイダンス
    • 生成モデルは,画像などの高品質なデータ生成に不可欠であり,その重要性は増している。
    • 既存のフローマッチングは,生成されるサンプルの品質にばらつきがあり,信頼性が課題となっていた。
    • 生成サンプルの信頼性を評価し,より高品質な出力を得るための手法を確立すること。
    • 提案手法 UA-Flow は,フローマッチングに軽量な拡張を加えることで,速度場と共に不確実性を予測する。
    • UA-Flow は,サンプルごとの不確実性を推定し,その不確実性推定値がサンプル品質と高い相関性を示すことが確認された。
    • 不確実性に基づいたガイダンスによって,生成品質がさらに向上することが示された。

    Link: https://arxiv.org/abs/2602.10326

  • interwhen: 推論モデルのテスト時検証のための汎用的なフレームワーク [cs.LO, cs.AI]目的:推論モデルのテスト時検証による正確性確保
    • 複雑な推論プロセスを持つモデルの信頼性評価が重要視されている。
    • 従来の検証手法では,初期段階のエラーを見逃したり,計算コストが高くなる問題があった。
    • 中間推論段階での検証により,効率的かつ正確なエラー検出を目指す。
    • 本研究では,推論過程を監視し,必要に応じてモデルの動作を修正するフレームワークinterwhenを提案した。
    • 自然言語で記述されたポリシー文書から自動的に検証器を生成する手法を開発し,検証器の不足という課題を克服した。
    • 数学的・論理的制約を含むタスクにおいて,既存手法を上回る高い精度を実現し,特にSLMの性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2602.11202

  • 大規模化学言語モデルは下流タスクにどの程度転移するか [cs.LG, q-bio.QM]目的:大規模化学データで事前学習された化学言語モデルの転移性能評価
    • 化学物質の特性予測は,創薬や材料科学において重要な役割を担う。
    • モデルサイズやデータ量を増やしても,下流タスクの性能向上に繋がるとは限らない。
    • 事前学習の評価と下流タスクの性能の乖離を明らかにし,適切なモデル選択の必要性を示す。
    • 事前学習損失は計算資源の増加に伴い一貫して減少するものの,下流タスクの性能向上は限定的である。
    • ヘッシャンや損失地形に基づく代替指標も,化学言語モデルにおける下流タスクの性能を予測できないことが判明した。
    • 事前学習指標の改善が進んでも,下流タスクの性能が飽和または低下する条件と,その根本的な原因を特定した。

    Link: https://arxiv.org/abs/2602.11618

  • クロスレイヤー・トランスコーダーによるタンパク質回路の追跡 [cs.LG, q-bio.QM]目的:タンパク質言語モデルにおける計算回路の解明
    • タンパク質構造や機能予測において,タンパク質言語モデルの重要性が増している。
    • 既存の研究では各層を独立して扱うため,モデル全体の計算過程を捉えきれていない。
    • クロスレイヤー・トランスコーダーを用いて,モデル全体の回路を捉え,解明することを試みる。
    • ProtoMechにより,ESM2においてタンパク質ファミリー分類や機能予測の性能の82-89%を再現できた。
    • 潜在空間の1%未満の圧縮回路が,モデル精度の最大79%を維持し,構造的・機能的モチーフとの対応が示された。
    • これらの回路に沿った操作により,ベースライン手法を70%以上のケースで上回る高適応度タンパク質設計が可能となった。

    Link: https://arxiv.org/abs/2602.12026

  • グラフニューラルネットワークによる一様施設配置近似学習 [cs.LG, cs.DS, cs.NE, stat.ML]目的:一様施設配置問題における近似解法の開発
    • 組合せ最適化問題へのニューラルネットワーク応用は重要である。特に,現実的なデータ分布に適応できる解法が求められている。
    • 既存手法は,計算コストが高い,学習が不安定,性能保証がないといった課題を抱えている。
    • 近似アルゴリズムの原理を取り入れた微分可能なニューラルネットワークにより,性能と保証の両立を目指す。
    • 提案手法は,従来の近似アルゴリズムを改善し,整数計画法との性能差を縮小することを示した。
    • このモデルは,ソルバーの教師信号や離散緩和を用いない,証明可能な近似保証を持つ。
    • クラスタリング,要約,ロジスティクスなど,幅広い分野への応用が期待される。

    Link: https://arxiv.org/abs/2602.13155

  • いつ素早く,いつゆっくり考えるか?AMOR:ハイブリッドモデルのための適応的エントロピーゲート [cs.AI]目的:予測的不確実性に基づく注意の選択的起動機構
    • 再帰型モデルと注意機構の組み合わせは,効率と表現力の両立を目指す重要な研究分野である。
    • 既存手法では,予測に十分な再帰状態にもかかわらず,注意機構が全ての箇所に一様に適用されているという課題がある。
    • 予測的不確実性に応じて注意を適用することで,計算効率と頑健性を向上させることを目指す。
    • AMORは,Mamba2やGated DeltaNet等のバックボーンで,純粋な再帰型モデルや固定スケジュールハイブリッドモデルと同等以上の性能を発揮する。
    • 注意機構の起動頻度を約22%に抑えながら,常識推論ベンチマークで高い性能を達成し,LongBenchにおける分布シフトに対しても安定した性能を維持する。
    • 注意をいつ適用するかが,適用量と同じくらい重要であり,予測的不確実性に基づく選択的注意配分が有効であることを示唆する。

    Link: https://arxiv.org/abs/2602.13215

  • TS-Haystack: 長時間時系列推論のためのマルチタスク検索ベンチマーク [cs.LG]目的:長時間時系列データの検索と推論能力の評価
    • 時系列データは現実世界の様々な現象を捉え,分析・予測に不可欠である。
    • 既存の時系列モデルは,長い時系列データに対する性能劣化が課題となっている。
    • 長時間時系列データにおける検索と推論の限界を明らかにし,改善策を探る。
    • TS-Haystackは,100秒から24時間までのコンテキストを持つ10種類のイベントに基づいた質問応答タスクで構成される。
    • 既存の時系列言語モデルは,コンテキスト長が長くなるにつれて精度が低下し,特に時間区間に基づいたタスクで顕著な性能劣化が見られた。
    • 専門的な時系列分類ツールを用いたエージェント的検索フレームワークが,多くのタスクで最先端の時系列言語モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2602.14200

  • スケーラブルな検証可能な報酬に向けて:マルチターンツール呼び出しLLMエージェントのためのプロキシ状態ベース評価 [cs.AI]目的:マルチターンツール呼び出しLLMエージェントの評価手法
    • LLMエージェントは実用化が進んでおり,信頼性の高い比較と学習データが必要とされている。
    • 既存の評価手法は,決定論的なバックエンドに依存し,構築と反復にコストがかかるという課題がある。
    • 決定論的なデータベースを必要とせず,スケーラブルな評価フレームワークを提供することを目的とする。
    • 本研究で提案するプロキシ状態ベース評価は,最終状態に基づく評価を維持しつつ,安定したモデルランキングを可能にする。
    • シミュレータのハルシネーション率はほぼゼロであり,ユーザーペルソナに対する感度分析もサポートしている。
    • 人間とLLMの判断者の合意率は90%を超え,信頼性の高い自動評価を提供することで,実用的な代替手段となる。

    Link: https://arxiv.org/abs/2602.16246

  • 事前順序問題における部分最適性 [cs.DM, cs.DS, cs.LG]目的:事前順序問題における部分最適条件の確立
    • 生物情報学やソーシャルネットワーク分析などに応用があり,データ間の関係性を構造化する上で重要である。
    • NP困難な問題であり,大規模データへの適用には計算コストが課題となっていた。
    • 効率的な部分最適条件を新たに提示し,計算時間の短縮を目指す。
    • 本研究で提案する部分最適条件は,既存手法と比較して,最適事前順序において「$a \not\lesssim b$」と効率的に判定できるペアの割合を増加させる。
    • 実データおよび合成データを用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2602.17346

  • KVバインディングを用いたテスト時学習は,実は線形Attentionである [cs.LG, cs.AI, cs.CV]目的:テスト時学習におけるKVバインディングのメカニズム解明
    • 大規模言語モデルの性能向上には,効率的な学習方法が不可欠である。
    • テスト時学習は有望だが,その動作原理が十分理解されていない。
    • テスト時学習のメカニズムを線形Attentionとして捉え直すことで,理解と改善を目指す。
    • 既存のテスト時学習モデルは,線形Attention演算子として表現できることが示された。
    • この新たな視点により,モデル構造の簡略化や効率化が可能となる。
    • テスト時学習を,単なるテスト時の暗記ではなく,学習された線形Attentionと捉え直した。

    Link: https://arxiv.org/abs/2602.21204

  • Zatom-1:3D分子と材料のためのマルチモーダル基盤モデルへ [cs.LG, cond-mat.mtrl-sci, cs.AI]目的:3D分子と材料の生成および予測能力を統合した汎用モデルの構築
    • 化学における3Dモデリングは,分子と材料の両方を対象とし,物質科学の発展に不可欠である。
    • 既存のAI手法は,特定のドメインやタスクに特化しており,表現の共有や転移が限定的である。
    • Zatom-1は,分子と材料を横断的に学習し,汎用的な3Dモデリングを可能にすることで,この課題を解決する。
    • Zatom-1は,分子と材料の生成・予測において,既存の専門モデルと同等以上の性能を示すことが確認された。
    • 生成推論の速度が大幅に向上し,従来のモデルと比較して1桁以上の高速化が実現した。
    • 材料モデリングによる事前学習は,分子の特性予測精度を向上させるなど,ドメイン間の正の予測転移が示された。

    Link: https://arxiv.org/abs/2602.22251

  • 行動,質問,学習のタイミング:不確実性を考慮したポリシー操舵 [cs.RO, cs.LG]目的:ロボットの行動適応のためのポリシー操舵における不確実性への対処
    • ロボットは多様な環境で自律的に行動する必要があり,そのために学習に基づく行動適応が重要である。
    • 既存のポリシー操舵フレームワークは,Vision-Language Modelsの過信に起因する性能低下に課題がある。
    • タスクの曖昧さや,事前学習済みポリシーの能力不足といった不確実性を解消し,効率的な行動選択を目指す。
    • 提案手法UPSは,タスクの曖昧さと低レベルアクションの実行可能性を同時に考慮し,適切な戦略を選択する。
    • Conformal predictionを活用することで,選択された戦略の正当性を統計的に保証する。
    • シミュレーションと実機実験により,UPSが介入回数を削減し,継続学習能力も示すことが確認された。

    Link: https://arxiv.org/abs/2602.22474

  • ゴシップによる分散型ランキング集約:収束性とロバスト性 [cs.LG, cs.AI, stat.ML]目的:分散環境におけるランキング合意形成
    • 個々の選好を統合し,集団の意見を反映するランキング集約は,様々な分野で重要である。
    • 従来のランキング集約は中央集権的な環境を前提としており,分散環境での適用が困難であった。
    • ゴシップ通信を用いることで,分散環境でも信頼性の高いランキング合意形成を目指す。
    • ゴシップ通信によって,中央管理なしに,分散されたエージェント間でランキングの合意形成が可能となる。
    • 提案手法は,ノイズを含む環境下でもロバストなランキング集約を実現する。
    • ゴシップ通信の効率性により,通信コストを削減し,スケーラビリティを向上させることができる。

    Link: https://arxiv.org/abs/2602.22847

  • 部分空間AD:部分空間モデリングによる学習不要な少数ショット異常検知 [cs.CV, cs.LG]目的:少数ショット異常検知における性能向上
    • 産業検査において,異常検知は品質管理の自動化に不可欠であり,効率化が求められている。
    • 既存の少数ショット異常検知法は,大規模なメモリや追加データセットに依存する傾向がある。
    • 学習やプロンプト調整,メモリバンクを用いずに,基礎モデルの表現能力のみで異常検知を実現する。
    • 提案手法SubspaceADは,学習なしで最先端の性能を達成し,メモリや追加データセットを必要としない。
    • MVTec-ADデータセットにおいて,画像レベルおよびピクセルレベルのAUROCがそれぞれ97.1%と97.5%という高い精度を示した。
    • VisAデータセットでも,画像レベルとピクセルレベルで93.2%と98.2%のAUROCを達成し,既存手法を上回る結果を得た。

    Link: https://arxiv.org/abs/2602.23013

  • ベイズ更新ステップのための物理情報ニューラル粒子フロー [cs.LG]目的:高次元非線形推定におけるベイズ更新ステップの計算効率向上
    • 高次元・非線形なシステムの状態推定は,多くの科学技術分野で重要である。
    • 従来のベイズ更新は計算コストが高く,現実的な時間で解くことが困難である。
    • 物理情報ニューラル粒子フローを用いて,計算効率と精度を両立したベイズ更新を実現する。
    • 提案手法は,物理法則を損失関数に組み込むことで,ニューラルネットワークによる輸送速度場の近似を可能にする。
    • このアプローチにより,教師データなしでの学習が可能となり,数値的な硬直性を緩和し,オンライン計算量を削減できる。
    • 多峰性ベンチマークや非線形シナリオでの実験により,最先端の手法と比較して,より優れたモードカバレッジとロバスト性が確認された。

    Link: https://arxiv.org/abs/2602.23089

  • PATRA:時系列質疑応答のためのパターン認識に基づくアラインメントとバランスの取れた推論 [cs.AI]目的:時系列質疑応答におけるパターン認識と推論能力の向上
    • 時系列データは,経済や科学など幅広い分野で重要であり,その分析は意思決定に不可欠である。
    • 既存の手法では,時系列データの持つトレンドや季節性といったパターンを捉えきれていない場合がある。
    • 複雑なタスクが単純なタスクに埋没し,高度な推論能力の開発を妨げているという課題を解決する。
    • 提案手法PATRAは,時系列データからトレンドと季節性を抽出するパターン認識メカニズムを導入することで,深層的なアラインメントを実現した。
    • タスクの難易度に応じたバランスの取れた報酬関数を設計し,一貫性のある思考連鎖(Chain of Thought)生成を促進した。
    • 多様な時系列質疑応答タスクにおいて,既存の強化学習ベースラインを上回り,優れたクロスモーダル理解と推論能力を示した。

    Link: https://arxiv.org/abs/2602.23161

  • Kiwi-Edit:指示と参照ガイダンスによる多用途な動画編集 [cs.CV, cs.AI]目的:指示と参照を用いた動画編集手法の開発
    • 動画編集はコンテンツ制作において不可欠であり,その効率化と高品質化が求められている。
    • 自然言語による指示だけでは,複雑な視覚的ニュアンスを正確に伝えることが難しいという課題がある。
    • 参照画像を用いた編集の可能性を引き出し,高品質な学習データを効率的に生成することを目指す。
    • 既存の動画編集ペアを,画像生成モデルを用いて高精度な学習データに変換するパイプラインを開発した。
    • 大規模なデータセットRefVIEと評価ベンチマークRefVIE-Benchを構築し,動画編集タスクの評価を標準化した。
    • Kiwi-Editという新しい編集アーキテクチャを提案し,参照画像のセマンティックガイダンスによる編集性能を向上させた。

    Link: https://arxiv.org/abs/2603.02175

  • 事前条件付きフローマッチング [cs.LG, cs.AI, cs.CV]目的:フローマッチングにおける最適化ボトルネックの解消
    • 生成モデルの学習において,効率的な学習が重要である。特に,高次元データにおける学習は困難を伴う。
    • フローマッチングでは,中間分布の共分散行列の条件数が悪化すると,学習が不安定になる問題がある。
    • 共分散行列を等方的に変換することで,学習の安定化と効率化を図る。
    • 提案手法である事前条件付きフローマッチングは,中間分布を等方的な表現に変換し,変換空間で学習を行う。
    • 理論的に,事前条件付けが中間的なフローマッチング経路を再構築し,条件数を改善することが示された。
    • 実験結果から,事前条件付けにより,FID,MMD,精度,再現率などの評価指標が改善されることが確認された。

    Link: https://arxiv.org/abs/2603.02337

  • 自己指示学習タスクにおける言語モデルの目標選択は人間と異なる [cs.CL, cs.AI, cs.CY]目的:自己指示学習タスクにおける言語モデルと人間の目標選択の差異
    • AIエージェントの普及に伴い,目標設定をAIに委ねる場面が増加している。
    • 言語モデルが人間の目標設定を正確に反映しているかの検証が不足している。
    • 人間の目標選択と現在の言語モデルの目標選択の違いを明らかにすること。
    • 言語モデルは,単一の解決策を繰り返し利用するか,低いパフォーマンスを示す傾向がある。
    • 人間は多様な目標を探索・学習するのに対し,言語モデルの行動はモデル間で異なり,同一モデル内ではばらつきが少ない。
    • 思考連鎖やペルソナ設定は改善効果が限定的であり,人間の目標選択の独自性が示唆される。

    Link: https://arxiv.org/abs/2603.03295

  • インタラクティブなベンチマーク [cs.AI, cs.CL, cs.LG]目的:推論能力の評価
    • AIの進化において,高度な推論能力は不可欠であり,その評価手法の確立が急務である。
    • 既存のベンチマークは飽和状態にあり,データ汚染のリスクも高い。
    • モデルが情報を獲得し,効果的に活用する能力を評価する新たな手法を確立すること。
    • インタラクティブなベンチマークは,固定されたベンチマークよりも,モデルの推論能力をより頑健に評価できることが示された。
    • 予算制約下での複数ターン対話を通じて,モデルの戦略的な推論能力を測定するフレームワークを提案した。
    • ロジック,UI2Html,数学などのタスクにおいて,既存モデルには改善の余地があることが明らかになった。

    Link: https://arxiv.org/abs/2603.04737

  • ベースラインから輸送測地線へ:最適生成フローによる公理的帰属 [cs.LG, cs.AI, cs.CV]目的:特徴量帰属における経路選択の理論的枠組みと,その実装手法
    • 機械学習モデルの予測根拠を説明する上で,特徴量帰属は重要である。モデルの解釈可能性を高め,信頼性を向上させる。
    • 従来の帰属方法は,基準点からの経路に依存し,経路の選択が説明に大きな影響を与えるという問題があった。
    • データ生成プロセスに基づいた経路選択により,より安定した,構造化された説明を生成することを目指す。
    • 固定された経路に対して,Aumann-Shapley線積分が固定経路公理を満たす唯一の帰属規則であることを証明した。
    • 参考分布からデータ分布への輸送コストを最小化する輸送測地線に基づく帰属原理を提案し,Rectified FlowとReflowで近似した。
    • 実験の結果,輸送に一貫性のある経路は,より安定した説明を生み出し,削除忠実度を維持することが示された。

    Link: https://arxiv.org/abs/2603.05093

  • バイアス入り,バイアス抜き? バニラモデルにおける公平なサブネットワークの発見 [cs.LG, cs.CV]目的:バニラモデル内に存在するバイアスに依存しないサブネットワークの抽出
    • 深層学習モデルのバイアス問題は,社会的な公平性の観点から重要であり,その軽減策が求められている。
    • 既存のバイアス軽減手法は,多くの場合,複雑な学習やデータセット操作を必要とし,計算コストが高い。
    • 本研究は,追加データや再学習を用いずに,既存のモデルから公平なサブネットワークを抽出することで,効率的なバイアス軽減を目指す。
    • 提案手法BISEは,従来の学習済みモデルから「バイアスフリー」なサブネットワークを抽出可能である。
    • 抽出されたサブネットワークは,パラメータの変更なしに,バイアスのかかった特徴への依存を減らしつつ,高い性能を維持する。
    • 本研究は,モデル全体の再学習やデータセットの変更に頼らず,パラメータ削除による構造的適応によってバイアスを軽減する効率的な手法を提供する。

    Link: https://arxiv.org/abs/2603.05582

  • データエージェント:エンドツーエンド動的最適化によるデータ選択の学習 [cs.LG, cs.CV]目的:オンライン学習における情報量の多いサンプルを優先することで,学習を加速するデータ選択手法
    • 機械学習の効率化は,計算資源の制約や大規模データセットの処理において不可欠である。
    • 既存手法はタスク固有の指標や静的な基準に依存し,学習パラダイムへの適応性やデータ有用性の時間変化への対応が課題である。
    • 学習と同時にデータ選択ポリシーを学習し,損失と不確実性に基づく報酬を統合することで,これらの課題を解決する。
    • データエージェントは,ImageNet-1kおよびMMLUにおいて,性能を損なうことなく学習コストを50%以上削減することを示した。
    • 本手法は,データセットに依存しない汎用性と,様々なタスクやシナリオへの適用可能性を示す。
    • ノイズの多いデータセットに対するロバスト性も確認されており,実世界への応用が期待される。

    Link: https://arxiv.org/abs/2603.07433

  • 解釈可能な非局所演算子学習のためのデータ駆動型積分カーネル [cs.DC, cs.CL, cs.LG, physics.ao-ph]目的:非局所演算子学習における構造化
    • 気候変動予測の精度向上には,空間・高度・時間的に非局所的な関係性のモデル化が不可欠である。
    • 既存モデルは非線形性が高く解釈が難しく,過学習のリスクが高いという課題がある。
    • 解釈可能な構造化を通じて,非局所的な情報の効率的な学習を目指す。
    • データ駆動型積分カーネルは,非局所的な情報集約と局所的な非線形予測を分離することで,モデルの解釈性を高める。
    • 学習可能なカーネルを用いることで,空間,高度,時間における重要な要素を特定し,予測への寄与度を可視化する。
    • 南アジアモンスーン降水量の予測実験において,カーネルモデルは少ないパラメータで基盤モデルと同等の性能を達成した。

    Link: https://arxiv.org/abs/2603.10305

  • 現実の交渉データに基づく多者間交渉ゲームのベンチマーク [cs.MA, cs.AI, cs.LG]目的:多者間交渉ゲームのベンチマークおよび評価フレームワーク
    • 現実世界では,複雑な交渉が頻繁に発生し,その分析とモデル化は重要である。
    • 既存のベンチマークは,交渉の逐次的な側面を十分に考慮していない。
    • 部分的な合意を評価するロバストな交渉手法の開発を促進する。
    • このベンチマークは,設定可能な交渉ゲーム生成器と,気候交渉演習に基づく実データインスタンスを組み合わせている。
    • 小規模ゲームでの厳密な評価と,大規模ゲームでの比較評価の結果,どのソルバーも常に優位性を示さなかった。
    • ゲームの構造的特性に応じてパフォーマンスが変化するため,多様な戦略下で部分的な合意を重視する新しい交渉手法が求められる。

    Link: https://arxiv.org/abs/2603.14066

  • FlashSampling:高速かつメモリ効率の良い正確なサンプリング [cs.LG, cs.AI, cs.CL]目的:大規模語彙デコーディングにおける正確なサンプリング手法
    • 言語モデルの性能向上には,効率的なサンプリングが不可欠である。
    • 従来のサンプリングは,メモリトラフィックやカーネルの増加を引き起こし,計算効率を低下させる。
    • HBMへのロジットテンソルの書き出しを回避し,高速かつメモリ効率の良いサンプリングを実現する。
    • FlashSamplingは,ロジット行列計算とサンプリングを融合することで,カーネルレベルでの高速化を実現した。
    • テンソル並列デコーディングにおいて,GPU間通信のオーバーヘッドを削減し,スケーラビリティを向上させた。
    • vLLMを用いた実験では,出力トークンあたりの時間を最大10%削減することに成功した。

    Link: https://arxiv.org/abs/2603.15854

  • MIDSTチャレンジ:拡散モデルに基づく合成テーブルデータに対するメンバーシップ推論 [cs.LG]目的:拡散モデル生成の合成テーブルデータのプライバシー保護性能評価
    • データ利活用とプライバシー保護の両立が重要視される中で,合成データの需要が高まっている。
    • 拡散モデルのプライバシー保護性能は,特にテーブル形式データにおいて十分な検証がなされていない。
    • 拡散モデル生成の合成テーブルデータに対するメンバーシップ推論攻撃への耐性を定量的に評価する。
    • MIDSTチャレンジは,拡散モデルによる合成テーブルデータのプライバシー保護性能を評価するための場を提供した。
    • 多様なテーブルデータと攻撃モデルを用いて,プライバシー保護性能の評価を行った。
    • 本チャレンジは,拡散モデルに特化した新たなメンバーシップ推論攻撃の開発を促進した。

    Link: https://arxiv.org/abs/2603.19185

  • LLM駆動アルゴリズムデバッグによる手続き的洗練:ARC-AGI-2への応用 [eess.SY, cs.SY, cs.SE, cs.AI]目的:抽象的推論における潜在的規則の推論と,未知の事例への適用
    • 複雑な抽象的推論は,汎用人工知能(AGI)実現への鍵であり,その性能向上が求められている。
    • LLMによる規則表現は,結果の誤りしか指摘できず,誤りの根拠となった推論過程の検証が困難である。
    • LLMとPrologメタインタプリタを組み合わせ,推論過程を再検証することで,より正確な規則洗練を目指す。
    • 提案手法(ABPR)は,ARC-AGI-2において,Gemini-3-Flashで56.67%,GPT-5.5 xHighで98.33%のPass@2を達成した。
    • ABPRは,ARC-AGI-2に特化したタスクだけでなく,RAVENスタイルの推論問題にも適用可能であることが示された。
    • トレースガイド型探索の並列化により,探索幅と深さが増加しても確率的な変動を抑制できることが確認された。

    Link: https://arxiv.org/abs/2603.20334

  • 快活な分散型方策勾配 [cs.LG, cs.AI, math.OC, stat.ML]目的:分散型強化学習における,驚き度の高いデータの悪影響軽減
    • 強化学習は,複雑な課題の自動学習に有効だが,分散環境下では課題が生じやすい。
    • 分散環境では,学習者の方策と異なる行動をするアクターからのデータが混入し,学習が不安定になる。
    • 驚き度と利得を用いて更新をゲートすることで,不安定な学習を抑制し,効率を高める。
    • 提案手法DGは,驚き度の高い失敗例を抑制し,成功例を保持することで,学習の安定性を向上させる。
    • シミュレーション実験では,DGは重要度重み付きPGよりも高い性能を示し,特にデータにノイズやバグを含む場合に効果を発揮する。
    • 複数の課題が同時に発生する場合,DGはサンプルの効率性を大幅に向上させ,その効果は課題の複雑さとともに大きくなる。

    Link: https://arxiv.org/abs/2603.20521

  • RMNP:スケーラブルな行列ベース最適化のための行モーメンタム正規化事前条件付け [cs.LG]目的:スケーラブルな行列ベース最適化のための事前条件付け手法
    • 深層学習の効率的な学習には,損失関数の曲率情報を捉えた事前条件付けが重要である。
    • 既存の事前条件付け手法は,効果と計算効率のバランスが課題となっていた。
    • Transformer層のヘッセ行列の構造に着目し,計算効率の高い事前条件付け手法を開発する。
    • RMNPは,Newton-Schulz反復を簡潔な行方向の正規化演算に置き換えることで,計算量を削減した。
    • RMNPは,Muonと同等の最適化性能を維持しつつ,事前条件付けの壁時計時間を大幅に短縮した。
    • RMNPは非凸設定下で収束性の保証を持ち,Muonと同等の最適な複雑さを達成する。

    Link: https://arxiv.org/abs/2603.20527

  • 時間制御可能な音声対話モデルTiCo [cs.CL, cs.AI, eess.AS]目的:時間制約のある指示への追従と,制御可能な長さの音声応答の生成
    • 音声アシスタント等において,応答時間の制御は対話の質を向上させる上で重要である。
    • 既存のモデルは自然な応答生成能力を持つものの,時間的制約を考慮できないという課題がある。
    • 音声対話モデルが生成中に経過時間を推定し,時間制約を満たすことを目指す。
    • TiCoは,基盤モデルと比較して応答時間の誤差を2.7倍削減することに成功した。
    • また,最も性能の良いベースラインモデルと比較しても,1.6倍の誤差削減を実現した。
    • 応答の品質を維持しつつ,時間制御の精度を向上させた。

    Link: https://arxiv.org/abs/2603.22267

  • 探索と方策最適化の分離:困難な探索のための不確実性に基づく木探索 [cs.LG]目的:困難な探索における探索効率の向上
    • 自律的な探索は,ロボット工学やAIにおける重要な課題であり,未知の環境での行動を可能にする。
    • 従来の強化学習ベースの探索は,計算コストが高く,効率が低いという課題があった。
    • 方策最適化のオーバーヘッドを取り除き,より効率的な探索手法を開発すること。
    • 提案手法は,Go-With-The-Winnerアルゴリズムに着想を得た木探索と不確実性の指標を用いることで,既存手法の10倍の効率で探索を行う。
    • 探索中に得られた軌跡を,教師あり逆強化学習を用いて方策に変換することで,Montezuma's Revenge等で最先端の結果を達成した。
    • 高次元の連続行動空間においても,画像観測のみを用いて,AdroitやAntMazeといったタスクを効率的に解決できることを示した。

    Link: https://arxiv.org/abs/2603.22273

  • MCLR:クラス間尤度比最大化による条件付きモデリングの改善と,Alignment ObjectivesとのClassifier-Free Guidanceの統合 [cs.LG, cs.AI, cs.CV]目的:拡散モデルにおける条件付き生成の性能向上
    • 拡散モデルは生成モデリングで高い性能を示すが,その成功は推論時のヒューリスティックに依存する
    • 標準的なDSMではクラス間の分離が不十分であり,推論時のガイダンスが必要となる
    • クラス間尤度比の最大化により,推論時のガイダンスなしでも性能向上を目指す
    • MCLRを用いたファインチューニングにより,標準サンプリング下でCFGのような改善が見られた
    • ガイダンスなしの条件付き生成が大幅に向上し,推論時のCFGとの差が縮小した
    • CFGによるスコアは,サンプル適応型MCLR目的関数の最適解と理論的に示された

    Link: https://arxiv.org/abs/2603.22364

  • LLMの最終表現を層間幾何学で改善する [cs.CL, cs.LG]目的:LLMの最終層表現の改善
    • LLMは自然言語処理の重要な基盤技術であり,その性能向上は様々な応用分野に貢献する。
    • LLMの中間層には有用な情報が含まれるにも関わらず,最終層のみが利用されることが一般的である。
    • 層間情報を効率的に集約し,LLMの予測性能を向上させる手法を提案する。
    • 提案手法であるCayley-Encoderは,既存手法と比較して高い予測性能を示す。
    • Cayley-Encoderは,13のタスクと9のLLMにおいて,最大40%の精度向上を達成した。
    • Cayley-Encoderは,LoRAファインチューニングよりも優れた性能を発揮し,LLMのパラメータを固定したまま利用できる。

    Link: https://arxiv.org/abs/2603.22665

  • 高次元・高次のPINNsに対する確率的次元自由ゼロ次推定器 [cs.LG]目的:高次元・高次の偏微分方程式に対する物理情報ニューラルネットワークの効率的な学習手法
    • 物理現象のシミュレーションにおいて,高次元かつ高次の偏微分方程式を解く必要性が高まっている。
    • 従来のPINNsは,空間微分計算量やバックプロパゲーションのメモリ消費量が課題となっていた。
    • 確率的最適化とゼロ次最適化を組み合わせ,計算量とメモリ消費量を削減する手法を開発する。
    • 提案手法SDZEは,空間およびメモリの複雑さを次元に依存しない形で実現した。
    • CRNSを用いて分散の増加を抑制し,大規模なPINNsの学習を安定化させた。
    • SDZEを用いることで,単一のNVIDIA A100 GPUで1000万次元のPINNsを学習することが可能になった。

    Link: https://arxiv.org/abs/2603.24002

  • ピクセルからBFSへ:高い迷路の精度は視覚的計画を意味しない [cs.FL, cs.LG, cs.CV]目的:マルチモーダルモデルにおける視覚空間タスクの解決メカニズムの解明
    • 視覚と言語を統合したAIモデルの能力評価は,高度な知能の実現に不可欠である。
    • 既存の評価指標では,モデルの表面的な精度のみが測られ,真の計画能力は見過ごされがちである。
    • 視覚的計画タスクにおけるモデルの行動を詳細に分析し,その限界を明らかにする。
    • GPT-5.4やGemini 3.1 Proといった高性能モデルも,迷路問題を解決する際にトークンを大量に消費する傾向が見られた。
    • モデルは画像からテキストグリッドへの変換後,幅優先探索(BFS)のようなトークンレベルの探索戦略を用いていることが判明した。
    • 視覚抽出能力が向上しても,モデルは依然として探索戦略に依存するため,人間のような空間理解とは異なることが示された。

    Link: https://arxiv.org/abs/2603.26839

  • 潜在空間における構成的汎化を媒介するファクター化後悔 [cs.LG]目的:構成的汎化におけるファクター化後悔の媒介作用
    • 汎化性能向上は,人工知能研究の重要な課題であり,特に複雑なタスクにおける適応能力が求められる。
    • 潜在変数の相互作用が考慮されていない場合,汎化性能が阻害される可能性がある。
    • 潜在変数の相互作用が構成的汎化に与える影響を定量化し,解決策を提案する。
    • 本研究では,ファクター化後悔という情報理論的指標を用いて,RNNの性能差を説明することに成功した。
    • また,変数間の相互作用を学習するRCCsアーキテクチャが,構成的汎化を促進することを示した。
    • これらの結果は,目標指向型汎化エージェントの研究開発評価のための理論的基盤を提供する。

    Link: https://arxiv.org/abs/2603.27134

  • GAAMA:エージェントのためのグラフ拡張型アソシアティブメモリー [cs.AI, cs.IR, cs.MA]目的:マルチセッションにわたるユーザーとのインタラクションを維持するための,一貫性のある個別化された行動を可能にする永続的な長期記憶
    • AIエージェントが自然な対話を可能にするには,過去の経験を記憶し活用する能力が不可欠である。
    • 従来の記憶システムは,記憶間の構造的な関係性を捉えきれない,または知識グラフにおいて情報が集中する問題がある。
    • 記憶間の関係性を構造的に捉え,知識グラフにおける情報の偏りを解消することで,より高度な記憶システムを構築する。
    • GAAMAは,エピソード,事実,考察,概念のノードと,それらを繋ぐ5種類の構造的なエッジで構成される知識グラフを構築する。
    • LoCoMo-10データセットにおいて,GAAMAは調整済みのRAGベースラインと比較して,平均報酬で4.2%ポイントの改善を達成した。
    • MemoryArenaにおいて,GAAMAはグループ旅行,ウェブショッピング,プログレッシブ検索の3つのタスクで,文脈全体を使用するベースラインを上回った。

    Link: https://arxiv.org/abs/2603.27910

  • 生存コンテキスト:事前学習済みネットワークによる償却型ベイズ生存分析 [cs.LG]目的:生存分析における事前学習済みモデルの有効性
    • 医療分野等において生存時間分析は重要であり,より正確な予測が求められている。
    • 限られたデータ,検閲,および表層的特徴量の不均一性により,機械学習での生存分析は課題が多い。
    • 合成データによる事前学習を活用し,少ないデータでも高精度な生存予測を可能にすること。
    • 提案手法であるSurvival In-Context (SIC)は,合成データのみで事前学習を行うことで,タスク固有の学習やハイパーパラメータ調整を不要にする。
    • 実世界の生存データを用いた評価において,SICは古典的な手法や深層学習モデルと比較して,競争力のある性能を示した。
    • 特に,データ量が少ない環境において,SICの有効性が確認された。

    Link: https://arxiv.org/abs/2603.29475

  • フィルタリングと重み付け:LLMファインチューニングのためのオンラインデータ選択と重み付け [cs.LG, cs.AI, cs.CL]目的:LLMファインチューニングにおけるオンラインデータ選択と重み付けのフレームワーク
    • 大規模言語モデルの性能向上には,学習データの質が重要であり,効率的なデータ選択手法が求められている。
    • 既存のデータ選択手法はオフライン設定向けであり,オンラインでの逐次的なデータ利用や最適化手法への対応が不十分である。
    • 現在の最適化状態に基づき,ターゲット指向の更新を形成することで,オンラインデータ選択の効率を高める。
    • 提案手法は,幾何学的に有用な候補をフィルタリングし,その係数を最適化する二段階の「フィルタリングと重み付け」アルゴリズムを開発した。
    • ファクター化された外積勾配表現と最適化された行列計算により,長文脈データへの適用を可能にした。
    • 実験の結果,既存のオンラインデータ選択手法と比較して,収束性と下流タスクの性能において一貫した改善が見られた。

    Link: https://arxiv.org/abs/2604.00001

  • 優先順位より規模:AI生成コンテンツがオンラインコンテンツ生態系に与える影響 [cs.AI]目的:AI生成コンテンツと人間生成コンテンツの作成・消費行動の差異
    • オンラインコンテンツは情報伝達や文化形成において重要な役割を担っており,その健全な発展が不可欠である。
    • AI生成コンテンツの急増により,コンテンツの質や多様性の維持,クリエイターのインセンティブが課題となっている。
    • AI生成コンテンツの特性を理解し,オンラインプラットフォームの健全な発展に資する運用方法を模索する。
    • AI生成コンテンツは,人間生成コンテンツと比較して,大量生産による総露出量の増加によって,同程度のエンゲージメントを獲得している。
    • 消費者は人間生成コンテンツを好む傾向にあるものの,AI生成コンテンツの規模がその影響を相殺している実態が明らかになった。
    • アルゴリズムによるコンテンツ配信メカニズムが,AI生成コンテンツと人間生成コンテンツ間の競合を調整する能力が確認された。

    Link: https://arxiv.org/abs/2604.01690

  • ATBench:安全評価と診断のための多様かつ現実的なエージェント軌跡ベンチマーク [cs.AI]目的:LLMベースエージェントの安全性の評価と診断
    • LLMの利用拡大に伴い,現実世界での多段階インタラクションにおけるリスク評価が重要になっている。
    • 既存のベンチマークは,多様性,安全性失敗の可視化,長期的な現実性が不足している。
    • 現実的なリスク発生を捉えた,構造化された安全評価ベンチマークの構築。
    • ATBenchは,リスク源,失敗モード,現実世界への影響の3次元でエージェントのリスクを整理している。
    • 1,000件の軌跡(安全503件,危険497件)を含み,平均9.01ターン,3.95kトークン,2,084のツールから選択された1,954のツール使用事例がある。
    • 最先端LLMやガードシステムに対する評価実験により,ATBenchの難易度と,長期的な失敗パターンの診断能力が示された。

    Link: https://arxiv.org/abs/2604.02022

  • AgenticFlict:GitHubにおけるAIコーディングエージェントのプルリクエストにおけるマージコンフリクトの大規模データセット [cs.SE, cs.AI, cs.HC]目的:AIコーディングエージェントによるプルリクエストにおけるマージコンフリクトのデータセット
    • ソフトウェア開発におけるAIの活用が拡大しており,その影響を評価する必要がある。
    • AIエージェントが生成したコードの統合における課題は未だ十分に解明されていない。
    • AIエージェントによるコード統合の課題を理解し,管理するための基礎を提供する。
    • 本研究では,14万件以上のAIエージェントによるプルリクエストからなる大規模データセットAgenticFlictを構築した。
    • マージコンフリクトの発生率は27.67%であり,AI生成コードにおけるマージコンフリクトの頻度と大きさが示された。
    • エージェントによってコンフリクトの発生率にばらつきが見られ,AI支援開発における統合課題への対応が重要であることが示唆された。

    Link: https://arxiv.org/abs/2604.03551

  • ZeD-MAP:バンドル調整誘導によるゼロショット深度マップを用いたリアルタイム航空画像処理 [cs.CL, cs.CV, cs.LG, cs.RO]目的:リアルタイム航空画像からの高精度な深度再構成
    • 災害対応など時間的制約のある地理空間タスクには,リアルタイムな深度再構成が不可欠である。
    • 広いベースライン,巨大な画像サイズ,テクスチャの少なさなどが深度再構成の課題となる。
    • 拡散モデルの確率的推論による精度と時間的一貫性の問題を解決する。
    • 提案手法ZeD-MAPは,バンドル調整を用いて拡散モデルの深度推定にメトリックガイダンスを与える。
    • 約50mの高度で実施した実測データを用いて評価した結果,水平方向で0.87m,垂直方向で0.12mの精度を達成した。
    • 本手法は,従来の測量手法と同等の精度を維持しつつ,処理速度を大幅に向上させ,リアルタイム3Dマップ生成を可能にする。

    Link: https://arxiv.org/abs/2604.04667

  • 画像は千の言葉に値するか? 視覚的証拠の必要性に応じた適応型マルチモーダルファクトチェック [cs.CL, cs.AI, cs.CV]目的:視覚的証拠の必要性に応じた適応型マルチモーダルファクトチェックフレームワーク
    • 情報環境の健全性を支える重要な課題であり,誤情報の拡散を防ぐ上で不可欠である。
    • マルチモーダルファクトチェックは進歩しているが,視覚的証拠の無条件な利用が必ずしも性能向上に繋がらない点が問題である。
    • 視覚的証拠の必要性を判断し,それに応じて証拠を活用することで,ファクトチェックの精度を向上させる。
    • 提案手法AMuFCは,視覚的証拠の必要性を分析するAnalyzerと,その分析結果に基づいて検証を行うVerifierの2つのモデルを連携させる。
    • Analyzerの評価をVerifierの予測に組み込むことで,3つのデータセットにおいて検証性能が大幅に向上した。
    • 視覚的証拠の選択的な利用が,マルチモーダルファクトチェックの精度向上に有効であることが示された。

    Link: https://arxiv.org/abs/2604.04692

  • 視覚モデルに対するLLMベースの反復ニューロン説明 [cs.CL, cs.CV, cs.AI, cs.LG]目的:深層ニューラルネットワークにおける個々のニューロンの解釈
    • AIの安全性確保には,複雑な意思決定プロセスを理解することが不可欠である。
    • 既存手法では,概念語彙が限定的であったり,高次の概念を捉えきれなかったりする問題がある。
    • 事前定義された語彙に縛られず,より包括的な概念の特定を目指す。
    • LINEは,ImageNetでAUCを最大0.11,Places365で0.05改善し,最先端の性能を達成した。
    • LINEは,事前定義された語彙で見落とされていた平均27%の新しい概念を発見した。
    • LINEは,多義性の評価や,勾配依存型活性化最大化法に匹敵する視覚的説明を可能にする。

    Link: https://arxiv.org/abs/2604.08039

  • 価値を意識した逐次的なコミュニケーションによる意思決定重視型マルチエージェント学習 [cs.LG, cs.MA]目的:部分観測下におけるマルチエージェントの協調
    • 複雑な環境下での協調行動を可能にする技術の重要性が高まっている。
    • 既存手法は,意思決定の質よりも中間目標(再構成精度など)に最適化されている。
    • 意思決定の質を最大化するコミュニケーション戦略を学習すること。
    • 提案手法SeqComm-DFLは,逐次的なコミュニケーションと意思決定重視型学習を統合した。
    • メッセージは受信側の意思決定の質を最大化し,優先順位に従って生成される。
    • 医療協調タスクやStarCraft Multi-Agent Challenge (SMAC)で高い性能を示した。

    Link: https://arxiv.org/abs/2604.08944