arXiv雑要約

AI - 2026/05/27 公開

トーナメント-GRPO：オープンエンドな長文生成のための強化学習におけるグループごとのトーナメント報酬 [cs.CL, cs.AI]目的：オープンエンドな長文生成における強化学習のための報酬フレームワーク
- 長文生成は，多様な表現が求められるため，評価が難しい分野である。
- 従来の評価指標では，複雑な応答の微妙な差異を捉えきれない場合がある。
- ルーブリックに基づいたLLM判断を相対報酬に変換し，より効果的な学習を目指す。
- トーナメント-GRPOは，既存の報酬設計と比較して，全体スコアで4.52ポイントの改善を達成した。
- トーナメント報酬は，効果と効率のバランスに優れていることが示された。
- トーナメントの設計が学習のダイナミクスに影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2605.26958
Recon：再構成ガイダンスによる推論合成を用いたユーザーモデリング [cs.CL, cs.AI]目的：ユーザーの行動を模倣するための推論合成手法
- ユーザーモデリングは，行動科学，人間とAIの協調，市場調査など，多様な分野で応用が期待されている。
- 既存手法は，文脈と行動に基づいて推論を生成するため，事後的な正当化に留まり，真の意思決定経路を捉えきれない場合がある。
- Reconは，行動の再構成を通して推論の質を評価することで，より自然で解釈可能な推論合成を目指す。
- Reconは，標準的な事後的な正当化手法であるBackward Synthesisに対し，54.7%の勝率を達成した。
- Reconから得られた報酬を用いて推論合成モデルを訓練することで，ユーザーモデリングの性能が最大70.0%向上した。
- Reconで合成された推論は，モデル間で汎用性が高く，再構成モデルを超えたユーザーモデリングの改善に貢献する。
Link: https://arxiv.org/abs/2605.26969
RLVRデータセットとその入手先：より良い学習データのためのデータ系統の追跡 [eess.SY, cs.SY, cs.LG]目的：RLVRデータセットのデータ系統の追跡
- 強化学習の発展には，高品質なデータセットが不可欠であり，その信頼性が重要である。
- 既存のRLVRデータセット間の系統が不明確で，データの出所が追跡困難な状況が存在する。
- データ系統を明確化し，データ汚染のリスクを低減することで，より信頼性の高い学習データを提供すること。
- 提案手法ATLASにより，145万件のインスタンスの99.7%以上を20の原子ソースに帰属させることができた。
- 多くのRLVRデータセットが限られた数の共通ソースに基づいていることが明らかになった。
- 新規データセットDAPO++を構築し，ソースレベルの対向的帰属（SCA）に基づくデータ品質スコアQが，下流のRLVR性能と強い相関関係にあることを示した。
Link: https://arxiv.org/abs/2605.26971
非滑らかな最適化におけるスペクトル降下の収束性 [cs.RO, cs.DC, cs.LG, math.OC]目的：非滑らかな凸最適化問題におけるスペクトル降下法とTruncated Spectral Descent法の収束性
- 大規模言語モデルの訓練において，最適化手法の重要性が増しており，理論的根拠に基づいた手法開発が求められている。
- 既存のMuon最適化手法の理論的保証は滑らかさの仮定に依存しており，非滑らかな問題への適用が課題となっていた。
- 本研究は，非滑らかな凸最適化問題におけるスペクトル降下法の収束性を解析し，理論的保証を与えることを目指す。
- 凸性，Lipschitz連続性，sharpness条件の下で，スペクトル降下法とTruncated Spectral Descent法のグローバル線形収束が証明された。
- 正則化された変形では，Frank-Wolfe法との関連性から，劣線形収束の保証が得られた。
- 混合スパース・密なノイズ下でのロバスト低ランク行列復元問題において，理論的な復元保証が提供された。
Link: https://arxiv.org/abs/2605.26977
異種グラフにおける関係者取引を誘導した脱税検出 [cs.LG]目的：脱税検出の性能向上
- 税収の減少を防ぎ，公正な競争環境を維持する上で重要である。
- 既存手法は統計的特徴に偏重し，関係者間の複雑な相互作用を活用できていない。
- 異種グラフモデルを用いて，関係者取引における隠れた構造と意味情報を捉える。
- 本研究では，税務状況を異種グラフとしてモデル化し，グラフニューラルネットワークを提案した。
- 関係者取引グループを用いて低レベルなノイズを除去し，階層的注意メカニズムで深い構造情報を抽出する。
- 実際の税務データを用いた評価で，最先端の手法を大幅に上回る性能を実証した。
Link: https://arxiv.org/abs/2605.26984
確率的再帰的意図切り替えモデル [cs.LG, q-bio.NC]目的：行動観測から報酬関数を復元する逆強化学習における，エピソード内での目標切り替えのモデリング
- 人間の行動理解やロボットの自律学習において，行動の背後にある意図を推定することは重要である。
- 従来の逆強化学習は単一の報酬関数を仮定し，エピソード途中の目標切り替えを捉えられないという課題があった。
- 観測履歴から意図分布を推定する軽量な再帰型ネットワークを導入し，目標切り替えをより柔軟にモデル化することを目的とする。
- 提案手法PRISMは，意図ごとの報酬問題を独立に解くことを可能にするEM目的関数を導出した。
- PRISMは，変分近似なしで$\mathcal{O}(nK)$のEステップを実現し，計算効率が高い。
- 実験により，PRISMは名前付け可能で時間的に一貫性のある意図を高精度で復元し，生物と人工エージェントの両方において離散的な目標切り替えが存在することを示唆した。
Link: https://arxiv.org/abs/2605.26998
より広範な探索：コード推論のための協調Pass@Kポリシー最適化 [cs.CL, cs.AI]目的：Pass@Kにおけるポリシー最適化手法
- コード生成におけるテスト時間の計算資源配分は重要であり，Pass@Kが主要な評価指標である。
- 既存手法では，同一の答えから独立したサンプルを複数回取得するため，冗長な推論経路に陥りやすい。
- 多様な戦略を探索し，Pass@Kの成功率を向上させること。
- CPPOは，複数の高レベル手法を同時に生成し，それらを共有ソルバーで実行することで，多様な探索を可能にする。
- 実験結果から，CPPOはAPPS，CodeContests，LiveCodeBench-v6において，既存手法を上回るPass@4の改善を示した。
- 特にQwen3.5-9B LiveCodeBench-v6では，最強のベースライン（PKPO）に対して0.16の改善が見られた。
Link: https://arxiv.org/abs/2605.27000
W4A4量子化のためのタイムステップ認識SVDQuant-GPTQ (Wan2.2-I2V) [cs.CV, cs.AI]目的：大規模ビデオ拡散TransformerのW4A4量子化におけるメモリ削減と性能維持
- ビデオ生成AIの発展に伴い，モデルサイズの効率的な削減が不可欠となっている。
- W4A4量子化では，外れ値アクティベーションやタイムステップ依存性が課題となっていた。
- MoE構造を持つWan2.2-I2Vモデルにおける量子化性能の劣化を抑制すること。
- 提案手法により，ピークGPUメモリ使用量をBF16ベースライン比で59.3％削減した。
- VBench平均スコアは0.9％，画像品質は2.3％の低下にとどめ，高精度な推論を達成した。
- 専門家とタイムステップに配慮したキャリブレーションが，MoEビデオDiTのW4A4推論において重要であることが示された。
Link: https://arxiv.org/abs/2605.27003
前方・後方拡散ステップの連鎖によるデータサンプリング [cs.LG, cond-mat.dis-nn, stat.ML]目的：高次元分布からのサンプリング手法
- 機械学習モデルの学習において，高次元データの分布からの効率的なサンプリングは不可欠である。
- 拡散モデルにおけるサンプリングは計算コストが高く，効率的なサンプリング手法が求められている。
- 拡散モデルのサンプリング効率を向上させ，より高速な生成を可能にすること。
- Uターン連鎖を用いることで，学習されたデータ多様体上を移動するマルコフ連鎖を効率的に構築できる。
- 合成言語実験では，Uターン連鎖がエルゴード性を失う相転移が確認されたが，Uターン幅を大きくすることで回復した。
- 自然言語と自然画像の両方において，低レベル特徴が高速に緩和され，高レベル特徴の緩和が遅い傾向が確認された。
Link: https://arxiv.org/abs/2605.27006
嗅覚知覚のための質量スペクトルと分子構造の整合：SCENT [cs.LG]目的：質量スペクトルと分子構造の整合
- 嗅覚知覚の予測は，食品，香水，環境モニタリングなど，幅広い分野で重要である。
- 従来の予測モデルは分子構造が必要だが，実際のセンシング環境では利用できない場合が多い。
- 質量スペクトルのみから嗅覚知覚を予測する手法を開発し，そのギャップを埋める。
- SCENTは，質量スペクトルと分子構造の埋め込み表現を整合させるマルチモーダルなコントラスト学習フレームワークである。
- SCENTは，構造に基づいたモデルと同等の性能を達成し，テスト時には明示的な分子構造を必要としない。
- 学習された表現は，連続的な人間の知覚評価をより良く近似し，実世界の測定スペクトルにも一般化する。
Link: https://arxiv.org/abs/2605.27009
大規模言語モデルを用いた最適化モデルの堅牢なポートフォリオ生成 [cs.CE, cs.AI]目的：最適化モデルのポートフォリオ生成
- 資源配分や計画など，構造化された意思決定に不可欠な最適化モデリングの重要性が高まっている。
- 現実を忠実に反映した最適化モデルの構築には専門知識が必要であり，その構築がボトルネックとなっている。
- 大規模言語モデルの限界に耐性のある，信頼性の高い最適化モデル群を生成することで，この課題を解決する。
- 提案手法は，大規模言語モデルを確率的生成器と推論評価者の両方の役割で活用する統合的なフレームワークである。
- 生成器または評価者のいずれかが人間の意図に沿っていれば，ポートフォリオには高品質な候補が含まれることが理論的に保証される。
- 様々な最適化モデリングタスクにおいて，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2605.27013
ReasonOps：信頼性の高い検証済みLLM推論のための統一的な運用パラダイム [cs.LO, cs.AI]目的：信頼性の高い検証済みLLM推論のための統一的な運用パラダイム
- LLMの推論能力向上により，AIは生成だけでなく，論理的思考を行うシステムへと進化している。
- 既存の推論システムは，論理的不整合や誤った推論，根拠のない定理適用，信頼性の低さといった問題を抱えている。
- 形式検証，実行時保証，ニューロシンボリック推論などの分野を統合し，信頼性の高いAIシステムの基盤を構築すること。
- 本研究では，ReasonOpsという統一的な運用パラダイムを提案し，推論プロセスを継続的に監視・検証可能にする。
- ReasonOpsは，意味解釈，自動形式化，記号推論，定理証明，実行時保証などを統合した推論ライフサイクルを提供する。
- 自動ブレーキシステムの分析例を通じて，ReasonOpsアーキテクチャの有効性を示し，安全性が重要な自律型AIシステムへの応用可能性を議論した。
Link: https://arxiv.org/abs/2605.27014
LLMの幻覚に対する不確実性推定の妥当性評価 [cs.CL, cs.CL, cs.AI, cs.LG, stat.ML]目的：LLMの幻覚と不確実性推定の関連性
- LLMの利用拡大に伴い，その信頼性が重要視されている。
- LLMは幻覚を起こしやすく，信頼性を損なう原因となっている。
- 不確実性推定と幻覚の関係を明確にし，信頼性の向上に貢献する。
- 不確実性推定が幻覚の直接的な指標とはならず，その関連性は変動的であることが示された。
- 幻覚の種類や評価するLLMによって，不確実性推定の有効性が大きく異なることが明らかになった。
- 不確実性推定が有益な情報を提供する場面を特定し，その活用方法の指針を示した。
Link: https://arxiv.org/abs/2605.27016
画像生成モデルの事前学習データに対するブラックボックスメンバーシップ推論攻撃 [eess.SY, cs.SY, cs.CV, cs.AI]目的：画像生成モデルの事前学習データへの不正利用の検出
- 拡散モデルの急速な進歩に伴い，著作権やプライバシー侵害の懸念が生じている。
- 既存のメンバーシップ推論攻撃は，モデルの記憶力に依存し，事前学習データのような露出の少ないデータでは性能が低下する。
- モデルの内部特徴にアクセスできない状況下で，事前学習データの検出性能を向上させる。
- 本研究では，拡散モデルがターゲット画像と摂動されたテキスト指示をどのように処理するかを分析することで，メンバーシップに関するより明確な手がかりが得られることを示した。
- 提案手法SD-MIAは，クロスモーダルなデータ摂動メカニズムを用いて拡散モデルにおける事前学習データの検出を行う。
- 公開ベンチマークデータセットおよび新規データセットを用いた実験の結果，SD-MIAは既存手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2605.27020
ORCA：最適化された根本原因分析のためのエンドツーエンド対話型コパイロット [eess.SY, cs.SY, cs.AI]目的：因果分析の効率化と専門家へのアクセス容易性向上
- 製造，社会科学，医学など，多くの分野で因果分析は不可欠なタスクである。
- 因果分析は概念と方法論が複雑で，専門家が最新の進歩を活用しにくい状況がある。
- 専門家が因果分析を容易に実施し，研究者が実世界データで検証できる環境を提供する。
- ORCAは，ユーザーの目標を理解し，最適な因果分析ワークフローを自動または対話的に導くコパイロットである。
- 因果関係の発見，因果効果の推定，説明可能性，根本原因分析機能を備えている。
- 性能評価，主要指標の生成，構造化されたレポートによる洞察の提供を通じて，実用的な有効性が示された。
Link: https://arxiv.org/abs/2605.27022
知識グラフファウンデーションモデルの強化：高度な負例サンプリングによるアプローチ [cs.AI]目的：知識グラフファウンデーションモデルの性能向上
- 知識グラフは質問応答や推薦システム等の様々なタスクの基盤技術であり，その重要性は高い。
- 既存の知識グラフは不完全であることが多く，新たな知識グラフへの適応が課題である。
- 低品質な負例サンプリングによる学習の質の低下を解決し，モデルの汎化性能を高める。
- 提案手法KMASは，既存の知識グラフファウンデーションモデルの関係エンコーダから生成される更新された関係埋め込みを用いて，困難な負例トリプルを構築する。
- KMASは，学習プロセスの進行に合わせて困難な負例トリプルの比率を動的に調整することで，モデルの能力への適応を促進する。
- 44のデータセットを用いた実験により，提案手法が計算コストを抑えつつ，多くの最先端知識グラフファウンデーションモデルの性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.27023
分散型量子アーキテクチャにおける回路割り当てのためのサイズ非依存型強化学習アプローチ：SQARL [cs.CL, cs.MM, cs.LG]目的：分散型量子アーキテクチャにおける回路割り当てコストの最小化
- 量子プロセッサのスケーリングは，デコヒーレンスやクロストーク等の技術的課題によって制限されている。
- 量子ビット数増加に伴い，コア間通信の遅延やエラーが問題となり，割り当て最適化が重要である。
- ハードウェア構成の変化に柔軟に対応可能な，学習に基づく回路割り当て手法を開発する。
- 提案手法は，従来の強化学習の最高水準を安定的に上回り，ヒューリスティック手法との性能差を縮小した。
- Cuccaro Adder回路においては，HQAと比較して割り当てコストを33%削減し，ランダム回路群では平均25%削減を実現した。
- 学習に基づくアプローチが，熟練したヒューリスティック手法と同等の性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.27027
より少ない方が良い：オンポリシー蒸留のための早期停止ロールアウト [cs.LG, cs.AI]目的：オンポリシー蒸留における性能向上と効率化
- 模倣学習は，教師なし学習で得られた知識を応用する有効な手法であり，ロボット制御など様々な分野で重要である。
- 従来のシーケンスレベルの模倣学習は，教師モデルへの依存度が高く，学習の安定性や効率性に課題がある。
- 教師モデルの評価能力が低下する「オフポリシー教師減衰」問題を解決し，より安定した学習を実現することを目指す。
- 早期停止ロールアウト（ESR）は，ロールアウト生成を応答トークンの先頭部分に制限することで，従来のオンポリシー蒸留を上回る性能を示す。
- ESRは，モデルサイズ，系列，タスク，学習体制に関わらず，GPU効率と学習安定性を大幅に向上させ，特に異なるモデル間での学習において効果を発揮する。
- ESRの性能向上は，「カスケードアライメント」と「サブモードコミットメント」というメカニズムによって説明可能であり，場合によっては教師モデルの性能を超える。
Link: https://arxiv.org/abs/2605.27028
LLMにおける計算密度の追跡 [cs.CL, cs.AI, cs.LG]目的：LLMにおける計算密度
- 大規模言語モデルは自然言語処理の発展に不可欠であり，その効率的な利用が重要である。
- LLMの全パラメータが全ての入力に対して有効に活用されているかは不明である。
- LLMの計算構造を理解し，効率的な計算方法を明らかにすること。
- LLMの計算は，初期層の小さなサブグラフによる出力分布の粗い再構築と，後続層の追加による段階的な改良の二段階構造を持つことが示された。
- 入力に対する必要計算量はモデルの不確実性と相関があり，疎なサブグラフは単語頻度などの浅い統計を符号化することがわかった。
- 効果的なLLM計算は，疎な初期層コアによる粗予測と，後続層の密な計算による改良という一貫したモジュール構造を持つことが示唆された。
Link: https://arxiv.org/abs/2605.27033
大規模エージェントシステムに対するペネトレーションテストからの教訓 [cs.RO, cs.CR, cs.AI]目的：大規模エージェントシステムにおけるセキュリティ脆弱性の現状把握
- AIシステムの自律性と実行能力が向上するにつれ，セキュリティの重要性が増している。
- 既存のコンピューティングシステムで長年見られる脆弱性がAIエージェントにも存在する。
- プロプライエタリなエージェントシステムのセキュリティ体制が改善されているか検証する。
- 2025年に実施された2つのペネトレーションテストの結果，プロプライエタリなエージェントシステムにも脆弱性が存在することが判明した。
- セキュリティ体制の改善は限定的であり，従来の脆弱性が依然として見られる。
- AIエージェントのセキュリティ対策には，クロスレイヤーな複雑な振る舞いへの対応が不可欠である。
Link: https://arxiv.org/abs/2605.27042
バッテリーMFormer：バッテリー劣化軌跡予測のための多層学習 [cs.AI]目的：バッテリー劣化軌跡予測の性能向上
- バッテリーの最適化，製造，および実用化において，劣化予測は不可欠である。
- 既存手法では，バッテリー劣化データの多層構造や，特定のSOC間での変動を捉えきれない。
- バッテリー劣化データの特性を考慮し，より信頼性の高い劣化予測を実現すること。
- 本研究では，バッテリー劣化予測のための多層TransformerモデルBatteryMFormerを提案した。
- BatteryMFormerは，劣化条件に基づいたデコーダー，メタ劣化パターンメモリ，二重視点エンコーダーを統合している。
- ４つのバッテリードメインにおける実験で，最先端手法と比較して優れた性能を示した。
Link: https://arxiv.org/abs/2605.27044
BhashaSetu：低リソース機械翻訳におけるデータ中心のアプローチ [cs.CL, cs.RO, cs.CL, cs.LG]目的：低リソース機械翻訳のための，言語学的に強化された英・マラティ語の並列データセット
- 機械翻訳は，グローバルコミュニケーションにおいて不可欠であり，言語間の障壁を取り除く上で重要である。
- 低リソース言語においては，高品質な並列コーパスの不足が，機械翻訳の性能向上を阻害する要因となっている。
- 本研究は，データ不足に悩む低リソース言語，特にマラティ語の機械翻訳の質を向上させることを目指す。
- 本研究で構築したBhashaSetuは，ニュース，政治，医療など多様な分野から278万組の英・マラティ語の文ペアを含む。
- 実験の結果，コーパスレベルの重複除去が，下流タスクの品質向上に最も大きな影響を与えることが示された。
- 構築したデータセットは公開されており，低リソース機械翻訳の研究促進に貢献する。
Link: https://arxiv.org/abs/2605.27050
コントラクトとループ不変量の合成によるスケーラブルな形式検証 [cs.SE, cs.AI]目的：大規模Cプログラムの形式検証
- ソフトウェアの信頼性確保は重要であり，形式検証はそのための強力な手法である。
- 状態空間爆発問題により，大規模プログラムの形式検証は困難である。
- 大規模なプログラムも効率的に検証可能な手法を提案する。
- ConVerは，LLMを用いて関数コントラクトを合成し，トップダウン型の検証を行うことで，状態空間爆発問題を軽減する。
- Frama-Cベンチマークにおいて，ConVerは82-96%の検証成功率を達成し，多くの場合，単一のCEGAR-CEGIS反復で収束した。
- LF VerifierベンチマークをCに変換して検証した結果，67%のベンチマークで成功した。
Link: https://arxiv.org/abs/2605.27051
FalAR：ヨーロッパポルトガル語議会セッションにおける大規模な話者アノテーション音声コーパス [cs.CL, cs.LG]目的：ヨーロッパポルトガル語議会セッションの音声データから構成される大規模な話者アノテーションコーパス
- 自動音声認識の性能向上には大規模な学習データが不可欠であり，特に少数言語のデータ整備が課題である。
- ヨーロッパポルトガル語はブラジルポルトガル語に比べて話者数が少ないため，音声データ資源が不足し，システム性能が低い。
- ヨーロッパポルトガル語の音声認識性能を向上させるための学習データとして，大規模なコーパスの構築を目指す。
- 本研究で構築したFalARコーパスは，約5,800時間の音声データを含み，1,180人の話者情報（年齢，性別，所属など）を付与している。
- コーパスの利用により，自動音声認識の単語誤り率を最大14％相対的に改善できることが実験で示された。
- データ量とアライメント精度のトレードオフを評価し，FalARを事前学習データとして組み込むことの有効性を検証した。
Link: https://arxiv.org/abs/2605.27062
時系列区間対比による動的グラフ表現の学習 [cs.LG]目的：動的グラフ表現の学習手法
- グラフ構造は様々なデータに内在しており，その表現学習は重要である。
- 既存研究では，静的なグラフ構造に依存し，エッジのタイムスタンプ等の時間的要素が無視されている。
- 動的グラフの時間的変化を考慮し，表現学習の性能向上を目指す。
- 本研究では，時間的並進不変性という新たな帰納的バイアスを導入し，時系列区間対比によるコントラスト学習フレームワークCLDGを開発した。
- CLDG++は，グラフ拡散を用いてノード間のグローバルな文脈相関を捉え，多スケールコントラスト学習により表現能力を向上させている。
- CLDGおよびCLDG++は，ノード分類や動的グラフ異常検知タスクで良好な性能を示し，時間的情報を活用することで計算量を削減している。
Link: https://arxiv.org/abs/2605.27063
QUACK：マルチモーダル社会的推理エージェントにおけるコミュニケーションされた知識の質疑，理解，監査 [cs.CL, cs.AI, cs.MA]目的：マルチモーダル社会的推理エージェントにおける言語の根拠付けを監査するための環境および評価フレームワーク
- LLMエージェントの推論，欺瞞，協調，信念モデルを評価する上で，ソーシャルディダクションゲームは重要な役割を担う。
- 既存の環境はゲームの勝率のみで評価され，テキストのみのインタラクションが多く，言語が知覚や行動に基づいているか判断が困難である。
- エージェントの言語が知覚と行動に基づいているか検証し，その失敗モードを特定することで，言語の根拠付けを明確にすること。
- QUACKは，ゲーム結果，行動軌跡，発話レベルの一貫性という3つのレベルでエージェントを評価する。
- 最先端のVLMを評価した結果，最も強力なエージェントでも検証可能な空間的主張の15.1%を幻覚し，半数以上の告発に根拠がないことがわかった。
- QUACKのエンジン，評価フレームワーク，ツールキット，ログは公開されており，研究の再現性と発展に貢献する。
Link: https://arxiv.org/abs/2605.27068
トレーサブルな知識グラフ推論によるLLM支援型意思決定：鉄鋼業における工業用VOCs [cs.AI]目的：鉄鋼業における工業用VOCsに関する知識グラフの構築と，それを用いたLLM支援型意思決定システムの開発
- 鉄鋼業におけるVOCs管理は，環境保全と生産効率の両立に不可欠である。
- 関連知識が非構造化文献に分散しており，統合的な情報収集と正確な回答が困難である。
- 断片的な情報を統合し，信頼性の高いLLMによる意思決定支援を実現すること。
- 専門知識を持つ専門家によるブラインド評価において，高い事実に基づいた信頼性が確認された。
- 知識グラフのトポロジー最適化により，孤立ノードが大幅に削減され，知識間の繋がりが強化された。
- 構築されたChat-ISVは，信頼性の高いLLM展開とインテリジェントな汚染制御意思決定を可能にする。
Link: https://arxiv.org/abs/2605.27071
E3：論文批判の課題レベルバックテスト [cs.CL, cs.AI]目的：研究論文における技術的な懸念事項の特定
- 研究の質保証は科学的進歩の基盤であり，信頼性の高い査読が不可欠である。
- 査読者の負担が大きく，見落としや主観的な判断が生じやすいという課題がある。
- 自動化ツールを用いて，査読プロセスを支援し，より質の高い論文批判を実現する。
- E3は，論文中の懸念事項（根拠の薄弱な主張，実験不足など）を特定し，その解決策を提示する。
- 100件のICLR 2026論文と4598件の評価データを用いて，人間の査読者や他のLLMと比較した結果，E3は最も高い再現率を示した。
- 特に，人間の査読者が見落としていた懸念事項を1635件追加で発見し，査読の質向上に貢献する。
Link: https://arxiv.org/abs/2605.27072
不確実性下におけるエージェントのオーケストレーション学習 [cs.LG]目的：不確実性と変化するエージェントの行動下における，異種エージェントの適応的なオーケストレーション
- 多様なAIモデルの連携は重要であり，信頼性やコスト，応答品質のばらつきを考慮する必要がある。
- 従来のオーケストレーション研究では，エージェントの信頼性や出力分布の不確実性が明示的にモデル化されていない。
- エージェントの信頼性，コスト，不確実性を考慮した適応的なオーケストレーション手法を開発すること。
- 提案手法BOT-Orchは，エージェント間のOT距離とタスク固有の分布を参照することで，オーケストレーションをバンディット問題として定式化する。
- 標準的な仮定の下，BOT-Orchは$\mathcal{O}(\sqrt{T})$のリグレットを有し，同じ平均報酬でも分布の整合性が異なるエージェント間の優先順位付けを可能にする。
- 実験的に，BOT-Orchは異種かつ非i.i.d.なエージェント行動を持つ，合成された敵対的なタスク割り当て設定において，標準的なバンディットやヒューリスティック手法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2605.27073
検閲されたフィードバック下における構造学習のコスト：閾値バンディットアプローチ [cs.MA, cs.LG]目的：検閲されたフィードバック下での構造学習コスト
- マルチエージェントシステムにおいて，協調行動は重要な課題であり，その効率的な学習が求められている。
- 報酬が閾値に達した場合にしか得られない状況下では，失敗と不十分な協調の区別が困難である。
- 閾値に基づいた協調的な多腕バンディット問題において，効率的な学習と協調コストの削減を目指す。
- 集中型アルゴリズムC-TACは，累積リグレットO(log T)を達成し，構造探索コストと価値推定コストを分離した。
- 分散型プロトコルD-TACは，集中型ベースラインと比較して通信量を23分の1に削減しつつ，実行可能性を維持した。
- 検閲されたフィードバック下での学習における協調コストを特徴づけ，継続的な同期なしにほぼ集中型の通信効率が達成可能であることを示した。
Link: https://arxiv.org/abs/2605.27076
学習の二速度：Grokkingとダブルディセントの表現学習・読み出し分解 [cs.LG, cs.AI]目的：深層ニューラルネットワークにおける学習動態の解明
- 深層学習の汎化性能評価は重要であり，学習過程の理解が不可欠である。
- Grokkingやダブルディセントといった異常な汎化現象に対する統一的な説明が不足している。
- 表現学習と読み出しの速度変化が，これらの現象を生み出すメカニズムを明らかにする。
- 表現学習と読み出しの分解により，Grokkingにおいて，読み出しが学習データに偏り，表現学習が徐々に進むことを示した。
- 遅延または非単調な汎化は，非標準的な学習レシピによる表現の劣化と読み出しのずれが原因であることが示された。
- 表現学習・読み出し分解は，学習動態を理解し，解釈可能性研究のためのアルゴリズムを明らかにするためのフレームワークとして有効である。
Link: https://arxiv.org/abs/2605.27078
トラストリージョンQ-随伴マッチング [cs.LG, cs.AI, cs.RO]目的：事前学習済みフローポリシーのオフポリシー強化学習の安定化
- 強化学習は，複雑な制御タスクを自動化する上で重要な役割を果たす。
- オフポリシー強化学習では，サンプル効率と安定性の両立が課題である。
- 事前学習済みポリシーからの微調整を安定させることで，サンプル効率を向上させる。
- 本研究では，パス空間のKLダイバージェンスを適応的に制御するTRQAMを提案した。
- TRQAMは，SOCダイナミクスにおけるトラストリージョンパラメータを最適化することで，事前学習済みフローポリシーからの逸脱を正確に制御する。
- OGBenchタスク50件の実験で，オフラインRLおよびオフラインtoオンラインRLの両方で既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.27079
ReMoE：メモリ制約下MoE LLM推論におけるルーターのファインチューニングによるエキスパート再利用の促進 [cs.LG, cs.AI, cs.DC]目的：メモリ制約下における大規模言語モデル（LLM）の推論におけるエキスパート再利用率の向上
- モデルの規模拡大に伴い，計算資源の効率的な利用が重要課題となっている。
- メモリ容量の制約下では，エキスパートのキャッシュミスが頻発し，I/Oオーバーヘッドが増大する。
- ルーターのファインチューニングにより，短期的なエキスパート再利用を促進し，キャッシュ効率を改善する。
- ReMoEは，DeepSeekおよびQwenモデルにおいて，エキスパートの再利用率を26%向上させることを示した。
- vLLM環境下でのGPU-CPUオフローディングにおいて，出力スループットが8.4%改善された。
- Jetson Orin NX上のllama.cpp環境では，TPOTが43.6-49.8%削減され，デコード速度が1.77-1.99倍に向上した。
Link: https://arxiv.org/abs/2605.27081
広範な生物医学知識をシナリオに基づいた命題に文脈化できるか [cs.AI]目的：生物医学知識のシナリオに基づく文脈化
- 生物医学研究では，広範な知識と具体的なデータを結び付けることが重要である。
- 背景知識は汎用的すぎてデータに直接適用しにくく，データ駆動型パターンは解釈が困難である。
- 広範な知識を検証可能な命題へと変換し，解釈可能性を高めることを目指す。
- SCENEは，知識の文脈化を反復的な探索として捉える二層構造のマルチエージェントフレームワークである。
- 臨床試験データでは，SCENEは既存手法よりも明確な患者サブグループを発見した。
- L1000データでは，SCENEは標的応答の一致率の高い文脈を特定した。
Link: https://arxiv.org/abs/2605.27082
LLMはすでに優秀な家庭教師である：教育用数学個別指導のための訓練不要なプロンプト最適化 [cs.CL, cs.LG]目的：教育用数学個別指導におけるLLMのプロンプト最適化手法
- LLMの教育利用は，個別最適化された学習体験を提供し，教育の質向上に貢献する可能性を秘めている。
- 従来のLLMの教育利用には，多大な計算資源と訓練が必要であり，手軽に導入することが困難であった。
- 本研究は，訓練を必要としないプロンプト最適化によって，効率的に教育用LLMを開発することを目指している。
- 訓練不要なプロンプト最適化は，既存の強化学習ベースのモデルを上回る性能を示すことが明らかになった。
- 提案手法ParetoGradは，問題解決率，情報漏洩抑制，有用性のバランスにおいて優れた結果を得た。
- 訓練不要な手法は，強化学習ベースの手法と比較して，教育知識パターンをより多く活用していることが示された。
Link: https://arxiv.org/abs/2605.27088
MiRD：未網羅リスク分解によるオープンエンド質問応答のための信頼性のある集合値予測 [cs.CL, cs.AI]目的：オープンエンド質問応答における幻覚の軽減
- 質問応答システムにおいて，正確かつ信頼性の高い回答は不可欠である。
- 既存手法では，十分な候補回答が得られない場合にキャリブレーションが困難となる。
- サンプリング失敗と条件付き選択失敗を分解し，より堅牢な予測を可能にする。
- MiRDは，サンプリングリスク，条件付き選択リスク，および全体的な未網羅リスクを制御する。
- 既存のPACスタイルの手法よりもタイトな第一段階の境界を達成する。
- 成功のみに基づくキャリブレーションよりも適応的な予測集合を提供する。
Link: https://arxiv.org/abs/2605.27091
表現力豊かなフローベースの教師からの敵対的二重オンポリシー蒸留 [eess.SY, cs.SY, cs.LG]目的：模倣学習における効率的な知識伝達手法の開発
- ロボット制御において，人間のデモンストレーションから学習することは，効率的な行動獲得に不可欠である。
- 従来の模倣学習は，教師データの状態に限定され，エージェントが実際に訪れる状態での改善が難しい。
- デモンストレーションのみから強固な教師を学習し，オンポリシー蒸留を可能にすること。
- 提案手法FA-OPDは，フローマッチングを用いた教師と軽量なMLP学生を同時学習することで，効率的な知識伝達を実現した。
- 報酬チャネルと行動チャネルの二重蒸留により，汎化性能と探索の安定化を両立し，ロボットの様々なタスクで優れた性能を発揮した。
- ノイズや限られたデモンストレーション下においても，既存手法を上回り，頑健性を示した。
Link: https://arxiv.org/abs/2605.27095
直交データにおける穏やかに過剰パラメータ化されたReLUネットワーク：増分学習と暗黙のバイアス [cs.LG, stat.ML]目的：穏やかに過剰パラメータ化されたReLUネットワークにおける勾配流のダイナミクス
- ニューラルネットワークの学習は第一級最適化手法に依存するが，その理論的特徴付けは未だ不完全である。
- 穏やかな過剰パラメータ化設定では，理論的理解が特に不足している。
- ReLUネットワークにおける増分学習現象を明らかにし，暗黙のバイアスを分析すること。
- 初期化スケールがゼロに近づくにつれて，勾配流がサドル点からサドル点へのジャンプ過程に収束することが証明された。
- ネットワークは$m \gtrsim \log(n)$で学習データを高い確率で補間することが再確認された。
- 学習された補間器の二乗$\ell_2$ノルムは$\sqrt{n}$としてスケーリングし，最小$\ell_2$ノルム補間器に近いことが示された。
Link: https://arxiv.org/abs/2605.27097
JLT：潜在拡散Transformerにおけるクリーンな潜在予測 [cs.CV, cs.LG]目的：潜在拡散モデルにおけるクリーンな潜在予測の効果検証
- 画像生成AIの性能向上には，潜在空間における効率的な表現学習が不可欠である。
- 潜在空間においてもノイズ予測が主流だが，その有効性には疑問が残されていた。
- クリーンな潜在予測が，潜在空間における表現力向上に寄与するかどうかを検証する。
- JLTは，FLUX.2 VAEの潜在コード上で優れた性能を示し，FID-50Kスコア2.50を達成した。
- 速度予測と比較して，JLTは目標のずれが少なく，より高品質な画像を生成することが示された。
- 潜在拡散モデルにおける予測ターゲットは，代数的なパラメータ化ではなく，表現に依存した幾何学的な選択であることが示唆された。
Link: https://arxiv.org/abs/2605.27102
GAN-拡散フレームワークによる高品質な合成金融時系列データ [cs.LG, cs.AI]目的：合成金融時系列データの生成
- 金融分野では，データ不足や市場シミュレーションの必要性から，合成データ利用が拡大している。
- 既存の汎用的な生成モデルでは，金融時系列データ特有の統計的性質を完全に再現することが困難である。
- 本研究は，金融市場の相関構造をより忠実に再現する合成データ生成を目指す。
- 提案手法は，GANと拡散モデルを組み合わせることで，生成データの品質と現実性を向上させている。
- CoMeTS-GANにより，関連する株式の価格と出来高の時系列データを同時に生成し，相関構造を学習する。
- GANのDiscriminatorを拡散モデルの品質評価モジュールとして活用し，生成される時系列データに学習された相関構造を反映させている。
Link: https://arxiv.org/abs/2605.27113
ドメイン維持による汎用能力回復のための，反作用を考慮した多教師オンポリシー蒸留 [cs.RO, cs.AI]目的：大規模言語モデルの汎用能力回復
- 大規模言語モデルは専門分野に特化することで性能向上するが，元のモデルが持っていた汎用能力を失う場合がある。
- 従来の多教師オンポリシー蒸留は，教師の学習データ分布と一致するプロンプトを必要とするため，汎用教師への適用が困難である。
- CaMOPDは，汎用的なプロンプトを用いて汎用能力を回復し，ドメイン知識の維持を両立させることを目指す。
- CaMOPDは，デカップリングされた交互学習とギャップベースのサンプル選択により，汎用能力回復とドメイン維持における反作用を抑制する。
- ロールプレイ対話や医学的推論QAのシナリオにおいて，CaMOPDはベースラインと比較して汎用能力回復において最も優れた性能を発揮し，ドメイン固有の振る舞いを維持する。
- 勾配コヒーレンス分析は，CaMOPDがより一貫性のある修正信号を生成するという意図された効果を裏付けている。
Link: https://arxiv.org/abs/2605.27115
AI安全確保には効果的な制御可能性が不可欠 [cs.AI]目的：AIシステムの信頼できる中断，上書き，方向転換，および制約可能性
- AI技術の発展は社会に大きな利益をもたらすが，予期せぬ挙動によるリスクも存在する。
- AIの安全性は「アライメント」が中心だが，実運用環境での制御可能性が不十分である。
- 本研究は，アライメントに加えて制御可能性をAI安全性の主要な目標とする。
- 本研究では，制御可能性の評価ベンチマーク「ControlBench」を新たに提案した。
- OpenClawベースのエージェント実験により，既存の安全機構ではランタイム制御が確立されていないことが示された。
- 制御プレーン，介入経路，制御状態，監査インターフェースを重視する制御中心型アーキテクチャを提案する。
Link: https://arxiv.org/abs/2605.27117
境界情報に基づくリアルタイムセマンティックセグメンテーションのためのデータフリー継続学習アプローチ：PILOT [cs.CV, cs.LG]目的：リアルタイムセマンティックセグメンテーションにおける継続学習の実現
- 自動運転やロボティクスなど，動的な環境下でのリアルタイムな画像認識の重要性が増している。
- 深層学習モデルは，新しいクラスを学習する際に過去の知識を忘却し，性能が低下する「破滅的忘却」が課題である。
- 本研究は，データ再利用なしに，新しいクラスを効率的に学習し，破滅的忘却を軽減することを目指す。
- 提案手法PILOTは，新しいクラスの境界情報を捉えるD-branchを導入することで，既存のセグメンテーションネットワークのパラメータを固定したまま適応学習を可能にした。
- 新しいクラスのデータのみを使用することで，学習コストを大幅に削減し，リアルタイム性能を維持しながら高いmIoUを達成した。
- 既存の継続学習アプローチと比較して，PILOTは破滅的忘却を効果的に軽減し，優れた性能を示した。
Link: https://arxiv.org/abs/2605.27128
DEI：進化推論における多様性 - 品質多様性探索のための [cs.LG, cs.AI]目的：品質多様性探索における多様性の活用
- 複雑な問題解決において，多様な探索戦略が有効である可能性が示唆されている。
- 大規模言語モデルの並列探索では，単一モデルのバイアスが複製されるため，多様性が失われる。
- 異なる言語モデルの創造性を活用し，探索の多様性を高めることで，ロバスト性を向上させる。
- DEIは，異なる大規模言語モデルを突然変異オペレーターとして割り当てる分散型品質多様性探索フレームワークである。
- Core Warドメインにおいて，4つのモデルからなる異種アンサンブルは，QD-Scoreとカバレッジにおいて単一モデルのベースラインを大幅に上回った。
- 本研究は，分散型LLMベースの品質多様性探索において，並列性よりもモデルの多様性が重要であることを実証した。
Link: https://arxiv.org/abs/2605.27130
データメッシュの幻想を超えて：現代のAI拡張レイクハウスによる理論と実践のギャップ解消 [cs.ET, cs.AI, cs.DB]目的：エンタープライズデータプラットフォームにおけるドメイン主導の自己完結性と全体的なガバナンスの間のギャップを解消するためのアーキテクチャ
- データ活用は企業の競争力を高める上で不可欠であり，データプラットフォームはその基盤となる。
- データメッシュは理想的な解決策とされたが，実装にはプラットフォームの成熟度や連携の欠如といった課題がある。
- AIを活用し，データガバナンスを自動化することで，ドメインチームの負担を軽減し，データの活用を促進する。
- AI拡張レイクハウスアーキテクチャは，柔軟性と制御のバランスを改善し，ドメイン主導の自己完結性をサポートする。
- LLMを活用した自動化により，データ製品の標準化，品質ルールの生成，データ契約の作成が可能となる。
- 段階的な所有権移行フレームワークは，集中型ボトルネックと非調整分散の両方を回避し，ビジネス価値に結び付けたプラットフォームの成功を測定する。
Link: https://arxiv.org/abs/2605.27131
基本前方後方分割法誘導型ネットワークの深層限界と安定性解析(II): 学習問題 [cs.LG, cs.AI]目的：基本前方後方分割法誘導型ネットワークの学習問題における深層限界への収束性
- データサイエンスにおいて，反復最適化スキームや微分方程式に基づく深層学習ネットワークが注目を集めている。
- 既存研究では，深層ネットワークの学習における理論的保証が十分でない場合がある。
- 基本前方後方分割法誘導型ネットワークの学習問題について，深層限界システムへの収束性を理論的に示す。
- 学習問題の最適解のクラスター点は，深層限界システムの学習問題の解となることが示された。
- この結果は，Γ-収束の議論に基づいている。
- 学習問題の摂動安定性に関する定性的分析も提示され，数値実験で検証された。
Link: https://arxiv.org/abs/2605.27133
モバイルGUIナビゲーションのためのビジョン言語エージェントのスケール，ベンチマーク，推論 [cs.AI]目的：モバイルGUIナビゲーションにおけるビジョン言語モデルベースのエージェントに関するデータスケール，ベンチマーク，推論の分析
- モバイルGUIナビゲーションは，視覚情報と自然言語理解を組み合わせる必要があり，AI研究の重要な課題である。
- 既存のデータセットが限られており，多様なモバイルアプリケーションに対応した汎化性能の評価が困難である。
- 大規模データセットと評価ツールキットを提供し，よりロバストで汎用性の高いエージェントの開発を促進する。
- 本研究では，16000以上のタスクを含む大規模データセットHyperTrackと，ベンチマークツールGUIEvalKitを公開した。
- 強化学習によるファインチューニングが，教師あり学習と比較して，特に未知の環境において優れた性能を示すことが示された。
- GUIEvalKitを用いた評価により，インタラクション履歴と推論能力がタスク完了に重要な影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2605.27134
ICCU：パターン誘導拒否規則による文脈内継続的アンラーニング [cs.AI]目的：訓練済み言語モデルからの特定データの影響除去
- 機械学習モデルのプライバシー保護やデータ管理の重要性が高まっているため
- 逐次的なアンラーニング要求に対応する効率的な手法が課題である
- モデルパラメータの更新を伴わない，継続的なアンラーニング手法を確立する
- ICCUは，アンラーニングデータから可読な拒否規則を誘導し，推論時に適用する
- 拒否規則を累積することで，要求間の干渉を回避し，ユーティリティの損失を抑制する
- 実験の結果，ICCUは標的知識を効果的に抑制し，パラフレーズや多言語クエリにも頑健であることが示された
Link: https://arxiv.org/abs/2605.27138
StepOPSD：ステップ認識型オンライン行動蒸留によるエージェント強化学習 [cs.AI]目的：マルチターンエージェントの行動蒸留による性能向上
- 強化学習は複雑なタスクを自動化する上で重要だが，報酬の希薄さが課題となる。
- 従来の強化学習では，報酬が軌跡全体に対して与えられ，局所的な意思決定の貢献度を特定しにくい。
- ステップ単位で報酬を再分配することで，局所的な因果関係に焦点を当て，学習効率を高める。
- StepOPSDは，ALFWorldやSearch-QAにおいて，特に局所的な因果関係の誤りに敏感なサブセットで最上位またはそれに近い結果を達成した。
- ALFWorld Heat（79.1%），PickTwo（95.0%），Search-QA TriviaQA（61.6%）で1位，HotpotQA（40.4%）で同率1位を記録した。
- α_clipは局所的な安定化に，λ_mixはタスクに応じた最適なグローバルな混合強度として機能することが示された。
Link: https://arxiv.org/abs/2605.27140
VitaBench 2.0：長期的なユーザーインタラクションにおけるパーソナライズされた能動的エージェントの評価 [cs.AI]目的：パーソナライズと能動的インタラクションを伴う長期的なユーザーインタラクションにおけるエージェントの評価
- LLMを活用したエージェントが現実世界のタスクでユーザーと協働する機会が増加している。
- 既存のベンチマークは推論やツール利用に偏っており，現実的なシナリオにおけるユーザーの意図解釈が不十分である。
- ユーザーの断片的な日常的なインタラクションから意図を推論し，パーソナライズと能動性を実現するエージェントを評価する。
- VitaBench 2.0は，個々のユーザーの時系列的なインタラクションに基づき，ユーザーの嗜好を抽出・利用・更新する能力を評価するベンチマークである。
- 最先端のLLMに対する評価の結果，現実世界のパーソナライズは依然として困難であり，現在の能力と実用的な要件との間に大きな隔たりがあることが示された。
- 現在のエージェントにおけるパーソナライズされた意思決定の失敗パターンとボトルネックを分析し，今後のモデル改善の方向性を示唆している。
Link: https://arxiv.org/abs/2605.27141