arXiv雑要約

AI - 2026/05/14 公開

一階述語論理における推移のサイズ複雑性と決定可能性 [cs.RO, cs.AI]目的：知識ベースを作用効果を反映するように更新する推移に関するサイズ複雑性と決定可能性
- 行動の推論において，知識ベースを更新する推移は重要な課題である。
- 通常，推移には二階述語論理が必要であり，一階述語論理で扱える範囲が限定される。
- 局所効果，正規作用，非巡回作用などの特定の場合における一階述語論理による推移のサイズを分析する。
- 局所効果，正規作用，非巡回作用に対して，一階述語論理による推移は多項式的に成長することが示された。
- 知識ベースが決定可能な断片（二変数一階述語論理や普遍理論など）に属する場合，推移も同じ断片内に留まり，決定可能性が維持される。
- これにより，推移の実用的な適用可能性が確保される。
Link: https://arxiv.org/abs/2605.12691
遅延フィードバック下における意思決定重視学習のための暗黙的勾配輸送 (IGT-OMD) [cs.LG]目的：遅延フィードバック環境下での意思決定重視学習における回帰量の削減
- 意思決定重視学習は，予測モデルと意思決定を統合し，性能向上に貢献する重要な分野である。
- オンライン設定では，フィードバックの遅延により，勾配の鮮度が問題となり，回帰量が増大する。
- 遅延環境下での二重最適化における勾配の鮮度による誤差を修正し，回帰量を削減することを目指す。
- 提案手法IGT-OMDは，勾配輸送を暗黙的に行うことで，輸送誤差を二次から線形に低減することに成功した。
- 理論的分析と実験により，IGT-OMDが遅延二重最適化において初めて亜線形回帰量を達成することが示された。
- 線形二次レギュレータ，Warcraft最短経路，シンコーン最適輸送といったタスクで，ベースラインと比較して意思決定損失を17～55％削減した。
Link: https://arxiv.org/abs/2605.12693
エージェント的解釈：LLMベースのプログラム解析のための格子構造化された証拠 [cs.SE, cs.AI, cs.PL]目的：LLMベースのプログラム解析における証拠に基づく判断の構造化
- プログラム解析はソフトウェアの品質と安全性を確保する上で不可欠である。
- 従来の静的解析ツールは，ドキュメントや最新のセキュリティ情報など外部情報にアクセスできない。
- LLMの能力を活用し，証拠に基づいた判断を可視化することで，より堅牢な解析を実現する。
- エージェント的解釈は，分析目標を局所的な主張に分解し，各主張に対するLLMの判断を格子構造で追跡する。
- これにより，LLMの判断根拠を明確化し，証拠に基づいた分析を可能にする。
- 本研究では，エージェント的解釈の形式モデルを提示し，その設計空間を探求した。
Link: https://arxiv.org/abs/2605.12694
多重グラフにおける異質性モデリング：ノード分類のための適応的アプローチ [cs.LG, cs.AI]目的：多重グラフにおけるノード分類
- 複雑な関係性を表現するため，多重グラフの分析が重要である。
- 既存モデルは同質性を前提としており，異質性の高いグラフでは性能が低下する。
- 多重グラフの各次元における同質性・異質性に適応する分類手法を開発する。
- 本手法は，次元ごとの適合性行列を用いて，多重グラフの複雑な相互作用を捉える。
- 学習可能な低域通過フィルタと高域通過フィルタを組み合わせ，グラフ信号の滑らかな変化と急激な変化をモデル化する。
- 実験の結果，既存手法と比較して，ノード分類性能が向上することが示された。
Link: https://arxiv.org/abs/2605.12699
汎用オペレータ学習のためのドメイン統合フリーなオペレータフレームワークUFO [cs.LG, cs.NA, math.NA]目的：汎用オペレータ学習のためのドメイン統合フリーなフレームワーク
- 機械学習において，関数空間間の写像学習は重要な課題である。
- 既存のニューラルオペレータは，単一の表現ドメインに限定され，柔軟性に欠ける。
- 異なるドメイン間の適応的相互作用による，ドメイン非依存なオペレータの実現を目指す。
- UFOは，不連続入力，不規則サンプリング，非線形力学，確率的高周波場を含む4つのベンチマークで高い予測精度を示した。
- UFOは，学習時の解像度と異なる観測解像度や出力解像度にも対応可能である。
- ドメイン間，位相変調された表現が，離散化分離型ニューラルオペレータ学習において有効であることが示された。
Link: https://arxiv.org/abs/2605.12700
公正なモデルは公正に推論するか？信用決定における手続き的公平性のための反事実説明の一貫性 [cs.LG, cs.AI, cs.CE, cs.CY]目的：信用決定における手続き的公平性のための反事実説明の一貫性
- 社会的に重要な分野（例：信用決定）において，機械学習の公平性は重要である。
- 予測結果の平等化だけでは，モデルが異なるグループに対して同じ推論を使用しているとは限らない。
- 異なる推論を検出し，軽減することで，隠れた手続き的バイアスを解消することを目指す。
- 既存の公平モデルは，個人に対して根本的に異なる推論を適用する「隠れた手続き的バイアス」を持つことが示された。
- 反事実説明の一貫性（CEC）フレームワークにより，特徴量の帰属を個人とその反事実の対応物間で整合させることで，このバイアスを検出し軽減する。
- 実験の結果，CECは隠れたバイアスを大幅に軽減し，わずかな有用性の低下で済んだ。
Link: https://arxiv.org/abs/2605.12701
DisaBench：言語モデルにおける障害関連の有害性評価のための参加型フレームワーク [cs.AI, cs.HC]目的：言語モデルにおける障害関連の有害性評価フレームワーク
- 言語モデルの安全性評価は，社会的な影響を考慮した包括的なアプローチが不可欠である。
- 既存の安全性評価ベンチマークでは，障害に関連する有害性を十分に評価できていない。
- 障害を持つ人々との協働により，言語モデルの障害関連の有害性をより正確に評価すること。
- DisaBenchは，12種類の障害関連の有害性カテゴリー分類，評価方法論，および175個のプロンプトを含むデータセットを提供する。
- 障害を持つ経験を持つ評価者によるアノテーションの結果，有害性の発生率は障害の種類によって大きく異なり，テキスト以外のモダリティでも悪化することが示された。
- 一般的な安全性評価では，顕著な失敗は見つけることができるが，専門知識を持つ人だけが見抜ける微妙な有害性を見逃している。
Link: https://arxiv.org/abs/2605.12702
MMCL-Bench: 視覚的ルール，手順，証拠からのマルチモーダル文脈学習 [cs.CV, cs.AI]目的：視覚的または混合モーダルの教育文脈からタスク固有のルール，手順，経験的パターンを学習し，新たな視覚的インスタンスに適用すること。
- 画像認識技術は，人間のように状況を理解し，推論するために不可欠であり，その精度向上が求められている。
- 既存のモデルは，画像から関連証拠を効果的に抽出・特定し，文脈に基づいて推論する能力に課題がある。
- マルチモーダルモデルが文脈学習を行う際のボトルネックを特定し，その能力向上を目指す。
- MMCL-Benchは，ルール適用，手順実行，経験的発見という3つのカテゴリに分類される102のタスクを含む。
- 最先端のマルチモーダルモデルの評価を行った結果，厳格な評価下ではタスクの3分の1未満しか解決できず，頑健な文脈学習には至っていないことが示された。
- エラー分析の結果，文脈の固定，視覚的証拠の抽出，文脈推論，応答構築など，文脈から回答を得るパイプライン全体で失敗が発生することが明らかになった。
Link: https://arxiv.org/abs/2605.12703
FePySR：効率的かつスケーラブルな記号回帰のためのニューラル特徴抽出フレームワーク [cs.SC, cs.AI, cs.LG]目的：記号回帰における効率的な数学的表現の復元
- 観測データから数式を発見する記号回帰は，科学的発見に不可欠なツールである。
- 従来の記号回帰は計算コストが高く，複雑な数式の探索が困難である。
- ニューラルネットワークを用いて特徴量を事前に抽出することで，探索空間を削減し，効率的な記号回帰を実現する。
- FePySRは，5つの標準的なベンチマークにおいて，最先端の手法を上回る数式復元率を達成した。
- 75個の複雑な合成方程式に対して，FePySRは36個の方程式を復元し，PySRと比較して計算時間を短縮した。
- 常微分方程式の解析において，PySRでは復元できなかった100回のテスト中24回で支配方程式を特定した。
Link: https://arxiv.org/abs/2605.12704
早期データ曝露が，その後のファインチューニングに対する頑健性を向上させる [cs.LG]目的：ファインチューニング後のモデル能力の保持
- 大規模言語モデルの性能向上は重要だが，ファインチューニングによる性能劣化が課題である。
- 事前学習で獲得した能力が，ファインチューニングによって失われる「忘却」が問題となっている。
- 事前学習段階での工夫により，ファインチューニング時の忘却を抑制することを目指す。
- 早期データ曝露，すなわち事前学習時にファインチューニング用データの一部を混ぜることで，事前学習能力の保持率とファインチューニング後の性能のバランスが向上する。
- 即時的なファインチューニング性能は，その後の性能保持を必ずしも予測しない。最適なデータ配分は，事前学習とファインチューニングの中間にある。
- ファインチューニング中の忘却を軽減するリプレイやドロップアウトは，早期データ曝露と相乗効果をもたらす。
Link: https://arxiv.org/abs/2605.12705
高次元データにおけるネットワーク構造学習のためのリサンプリングに基づくフレームワーク [cs.LG, q-bio.GN]目的：高次元データにおけるロバストかつ解釈可能なネットワーク推論
- 高次元データ解析は，生物学，社会科学など幅広い分野で重要性が増している。
- サンプルサイズが限られている場合，信頼性の高いネットワーク構造の推定が困難である。
- 限られたサンプルサイズでも，安定したネットワーク推論を可能とする手法の開発。
- RSNetは，ブートストラップ，サブサンプリング，クラスタベースアプローチなど，多様なリサンプリング戦略を組み込む。
- 疎なネットワークにおいて，グラフレットに基づくトポロジー分析による高次の接続性やエッジ符号情報の解釈を可能にする。
- RSNetは，符号付きグラフレット次数ベクトル行列（GDVM）を効率的に構築する初のRパッケージである。
Link: https://arxiv.org/abs/2605.12706
スペクトルエネルギー重心：暗黙的ニューラル表現の性能向上とスペクトルバイアスの分析のための指標 [cs.LG]目的：暗黙的ニューラル表現における性能向上とスペクトルバイアスの分析
- データ表現のコンパクトさや微分可能性が求められ，多様な分野で活用が広がっている。
- 多層パーセプトロンの低周波バイアスにより，微細な詳細の学習が阻害される課題がある。
- モデルの深さに応じた適切な周波数調整方法を確立し，性能向上を目指す。
- スペクトルエネルギー重心（SEC）は，ターゲット画像の周波数と暗黙的ニューラル表現のスペクトルバイアスを定量化する有用な指標であることが示された。
- SECを用いたデータ駆動型戦略（SEC-Conf）は，既存の手法を凌駕し，モデルの深さにロバストなハイパーパラメータ選択を実現する。
- SECは信号の複雑さの信頼できるプロキシとして機能し，多様な暗黙的ニューラル表現アーキテクチャ間のスペクトルバイアスの整合性を高める。
Link: https://arxiv.org/abs/2605.12709
層ごとの表現ダイナミクス：埋め込みモデルと基盤LLMにおける経験的研究 [cs.RO, cs.LG, cs.CL]目的：層ごとの表現変化の測定とその応用
- 言語モデルの性能向上には，内部表現の理解が不可欠である。層ごとの表現変化を分析することで，そのメカニズム解明に貢献できる。
- 既存研究では，層ごとの表現変化の一側面のみに焦点を当てることが多く，全体像の把握が困難である。
- 層ごとの表現ダイナミクスを包括的に評価し，モデル選択や効率化に役立つ指標を開発することを目指す。
- 提案手法LRDは，埋め込みモデルと基盤LLMにおいて，層ごとの表現の変化を定量的に評価できることを示した。
- LRDの指標は，下流タスクの性能と正の相関があり，特に終端層との距離(d_{0,L})が最も有効であることが明らかになった。
- GFMIは，推論時の層プルーニングにおいて，ランダムな手法よりも優れており，モデルの解釈と実用化の両面で有用であることが示された。
Link: https://arxiv.org/abs/2605.12714
データ制約下における混合事前学習のスケーリング則 [cs.LG, cs.CL]目的：データ制約下での混合事前学習におけるスケーリング則の解明
- 言語モデルの性能向上には大量のデータが必要だが，リソースが限られた言語や専門分野ではデータ収集が困難である。
- 貴重なターゲットデータを汎用データと混合する際，ターゲットデータの割合が少なすぎると学習不足になり，多すぎると過学習のリスクがある。
- ターゲットデータの再利用回数を最適化し，データ制約下での効果的な混合事前学習を実現すること。
- 実験の結果，ターゲットドメインの性能はデータの繰り返しに大きく依存し，混合学習は単一ソース学習よりも高い繰り返しに耐性があることが示された。
- ターゲットデータは15〜20回再利用可能であり，最適な繰り返し回数はターゲットデータサイズ，計算資源，モデル規模に依存することが明らかになった。
- ターゲットトークンの繰り返し価値の減少と汎用データの正則化効果を考慮した混合スケーリング則を提案し，効果的な混合構成の計算方法を示した。
Link: https://arxiv.org/abs/2605.12715
結果が手段を正当化する：比例型逐次決定のための線形ランキングルール [cs.GT, cs.AI]目的：比例型逐次決定における線形ランキングルールの選択
- AIアラインメントや参加型設計において，集団的な意思決定ルール選択の重要性が高まっている。
- 既存の平均化ルールは多数派偏重であり，多様な意見をバランスさせるのが困難である。
- 多数の投票者の意見を公平に反映する線形ランキングルールを確立することを目指す。
- 長期的には，角度平均を用いることで，各投票者の意見の比例性が確保されることが示された。
- バッチサイズが大きくなるにつれて，バッチごとの比例性と長期的比例性の間のギャップが縮小する。
- 実データを用いた実験では，意見が対立する場合に角度平均が比例性を大きく改善することが示された。
Link: https://arxiv.org/abs/2605.12717
CHAL：階層的エージェント言語評議会 [cs.AI, cs.LG, cs.MA]目的：議論による信念最適化のための枠組み
- LLMの推論能力向上において，多エージェント間での議論が有効なアプローチとして注目されている。
- 既存手法では，信念軌跡の鞅性，多数決による偏り，自信過剰といった問題が生じやすい。
- 反駁可能な領域における信念最適化を，議論の真価として実現する。
- CHALは，ベイジアン的な信念表現と微分可能な目的関数を用いて，信念修正を促進する。
- 評議会の多様性が全ての参加者の信念を洗練し，隠れ信念空間における議論の軌跡は，裁定者の価値観によって決定される。
- この枠組みは，反駁可能な議論の評価スイートの基盤となり，透明性，整合性，人間による監視が可能なAIシステムの構築に貢献する。
Link: https://arxiv.org/abs/2605.12718
コネクテッド自動運転のための5層MLOpsアーキテクチャ [cs.RO, cs.LG]目的：自動運転システムの継続的な安全性と性能保証
- 自動運転技術は社会実装が期待されるが，安全性確保が重要課題である。
- 自動運転は未知の状況下で性能劣化を起こしやすく，継続的な学習と改善が不可欠である。
- 車両データを集合的に活用し，安全性と性能を継続的に向上させるアーキテクチャの提案。
- 本研究では，確立されたMLOps原則に基づき，自動運転システムの集合学習を可能にする5層アーキテクチャを提示する。
- このアーキテクチャは，フリート運用者などがMLOpsプロセスを設計・実装するための概念的な青写真を提供する。
- 各層の役割と相互作用，そして多層的な自己評価によるエッジケースの検出・低減の可能性を示す。
Link: https://arxiv.org/abs/2605.12719
画像編集におけるインライン批評家 [cs.CV, cs.AI]目的：画像編集における困難さの地域差に対応するための修正方法
- 画像編集技術は，創造性や表現の幅を広げる上で重要である。
- 既存の画像編集モデルは，画像全体の一貫性や局所的な詳細の修正に課題がある。
- モデルの生成過程に介入し，リアルタイムに修正を加えることで，より高品質な編集を実現すること。
- 提案手法「インライン批評家」は，モデルの中間層で予測を評価し，隠れ状態を調整することで生成を誘導する。
- GEdit-Bench，RISEBench，KRIS-Benchといったベンチマークテストで，最先端の結果を達成した。
- 分析の結果，批評家がモデルの注意と予測を後続の層で適切に更新していることが確認された。
Link: https://arxiv.org/abs/2605.12724
最終トークン以前：最終トークン安全性プローブの失敗診断 [cs.LG]目的：最終トークン安全性プローブの失敗原因の特定
- 大規模言語モデルの安全性確保は，社会実装において不可欠であり，悪意のあるプロンプトへの対策が重要である。
- 既存の安全性プローブは，プロンプト全体ではなく最終トークンのみを評価するため，初期段階に隠された危険を見逃す可能性がある。
- 本研究は，プロンプト初期段階に存在する危険な情報を検出し，プローブの精度向上を目指す。
- 最終トークン安全性プローブは，クリーンな有害プロンプトに対して高い再現率を示す一方で，巧妙な脱獄プロンプトを見逃す傾向がある。
- 脱獄プロンプトは，プローブが捉えきれない表現空間の方向に存在し，プローブのボトルネック幅を広げても改善しない。
- PCA-HMMモデルを用いることで，プロンプト初期段階の情報を活用し，最終トークンプローブの誤りを改善できる可能性が示唆された。
Link: https://arxiv.org/abs/2605.12726
Grid-Orch：LLMを活用した配電系統シミュレーションと分析のオーケストレーター [eess.SY, cs.AI, cs.SE, cs.SY]目的：配電系統シミュレーションと分析のためのLLMを活用したフレームワーク
- 配電系統のエンジニア不足が深刻化しており，迅速な分析ツールが求められている。
- 配電系統分析には専門知識と高度なスクリプト作成スキルが必要である。
- 自然言語による指示で，複雑な配電系統分析を容易に実行することを目指す。
- Grid-Orchは，LLMと配電系統シミュレーションをModel Context Protocol (MCP)で接続する。
- 36種類のツール（電力潮流計算，電圧解析，QSTSシミュレーション，最適化など）を搭載し，クラウドとローカル両方のLLMに対応。
- DER連系検討のような従来数時間かかっていた作業が，自然言語で2分以内に完了し，OpenDSSの直接スクリプトと同等の結果が得られる。
Link: https://arxiv.org/abs/2605.12728
エージェント型NetOpsおよびAIOpsのための大規模言語モデル：アーキテクチャ，評価，安全性 [cs.NI, cs.AI, cs.CR]目的：エージェント型NetOpsおよびAIOpsにおける大規模言語モデルの利用に関する現状分析
- ネットワーク運用やIT運用において，AIによる自動化の重要性が高まっている。
- 大規模言語モデルの運用における信頼性，安全性，監査可能性が課題となっている。
- 自律性を制御可能な運用制御問題として捉え，信頼性と安全性を確保することを目指す。
- 大規模言語モデルの性能だけでなく，それを支える運用基盤の重要性が示された。
- 従来の質問応答による評価に加え，ワークフロー全体の評価が必要であることが強調された。
- セキュリティ，プライバシー，ガバナンスリスクへの対策が，運用制御において不可欠である。
Link: https://arxiv.org/abs/2605.12729
BEHAVE：集団的人間ダイナミクスのリアルタイムモデリングのためのハイブリッドAIフレームワーク [cs.AI, cs.GR, cs.MA, physics.soc-ph]目的：集団的人間ダイナミクスのモデリング
- 社会現象の予測や集団行動の理解は，安全管理や教育など様々な分野で重要である。
- 従来のAIは個人の行動や事後的なイベント検出に偏り，集団全体のダイナミクスを捉えきれていない。
- 集団を力学系として捉え，集団状態を記述する場の概念を導入することで，集団行動を予測すること。
- BEHAVEは，観測可能な身体信号から相互作用空間を導出し，連続的な行動場として集団ダイナミクスをモデル化する。
- 運動学的微小信号を構造化し，集団状態の非冗長な軸を捉える行動場の基底を構築する。
- BEHAVEは，交渉シーンにおいて集団ダイナミクスの学習，表現，予測を行うための計算システムとして機能する。
Link: https://arxiv.org/abs/2605.12730
汎用モデルから専門家モデルへの表現 [cs.LG, cs.AI, stat.ML]目的：タスクに関連する専門家表現の学習
- 汎用モデルを特定のタスクに応用するには，専門的な表現が不可欠である。
- 表現の識別可能性が保証されない場合，モデルの性能限界が不明確となる。
- 非パラメトリックな設定で表現の識別可能性を確立し，汎用モデルから専門家モデルへの移行を理論的に保証する。
- 時間ステップとタスク間の構造は，完全に教師なし学習で識別可能であることが示された。
- スパース正則化を用いることで，各時間ステップ内でタスクに関連する潜在表現を分離できる。
- タスク構造の識別可能性と，タスクに関連する潜在表現の識別可能性が確立された。
Link: https://arxiv.org/abs/2605.12733
ConRetroBert：テンプレートに基づく逆合成のためのEMA安定化デュアルエンコーダ [cs.DC, cs.RO, cs.LG]目的：テンプレートに基づく単段階逆合成における反応物予測の精度向上
- 有機合成化学における効率的な合成経路設計の重要性が高まっている
- テンプレートベースの手法は，テンプレート予測がルールライブラリ全体での分類となるため，性能が劣ると見なされている
- テンプレートベース手法の潜在能力を引き出し，性能を向上させることを目指す
- ConRetroBertは，製品と反応テンプレートの共有埋め込み空間を学習するコントラスト学習を用いたデュアルエンコーダフレームワークである
- 候補セットのリストワイズランキングにより，USPTO-50kベンチマークでトップ1の反応精度を50.5%から62.4%に向上させた
- EMA安定化テンプレート適応により，希少テンプレートにおいても高い予測性能を示した
Link: https://arxiv.org/abs/2605.12736
反省による自己知識蒸留による，稀な成功事例と豊富なフィードバックを用いた学習 [cs.HC, cs.LG]目的：稀な成功事例下における継続的学習の改善
- 大規模言語モデルの環境との相互作用を通じた継続的改善は重要な課題である。
- 既存手法は成功事例に依存し，成功事例が少ない環境下での学習が困難である。
- 失敗事例からの反省を通して，効果的な教師信号を生成し，学習効率を向上させる。
- 提案手法RESDは，失敗事例を能動的な教師信号に変換するフレームワークである。
- RESDは，反省的考察により局所的なエラーを診断し，グローバルなプレイブックを維持する。
- 実験結果から，RESDは標準的な自己知識蒸留手法よりも大幅に優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.12741
相手が何を考えているか：二次の心の理論を用いた人間の信念の考慮 [cs.HC, cs.AI]目的：人間の信念を考慮することの重要性
- 人間との円滑なコミュニケーションには，相互理解が不可欠である。
- 相手の知識と自分が認識する相手の知識のずれが，コミュニケーションを阻害することがある。
- 相手の誤った信念を検出し，それに対応したフィードバックを提供すること。
- 二次の心の理論（ToM-2）をフレームワークとして用いることで，エージェントは相手の誤った信念の進化をモデル化可能となった。
- 認知バイアスやヒューリスティクス（CBH）を考慮し，それらが生じている可能性を検知することで，適切なフィードバックを生成できる。
- 対面ユーザー実験により，ToM-2学習者が教師のCBHの影響を考慮し，教師の行動の有益性を著しく向上させることが示された。
Link: https://arxiv.org/abs/2605.12745
CoT-Guard：強力な監視のための小型モデル [cs.CR, cs.AI]目的：推論モデルの思考過程（CoT）の監視による，コード生成タスクにおける隠れた目的の検出
- コード生成AIの普及に伴い，悪意のある目的が隠されたコード生成を検知する重要性が高まっている。
- 既存の小型モデルでは，思考過程にアクセスしても隠れた目的を正確に検出することが困難であった。
- 本研究は，SFTとRLを組み合わせた後学習パイプラインにより，小型モデルの汎化性能を向上させることを目指す。
- 提案手法CoT-Guardは，プロンプトやコード操作による攻撃に対して，GPT-5.4やQwen3-32Bを上回る性能を示す。
- CoT-Guardは4Bパラメータでありながら，G-mean^2で75%を達成し，Gemini-3-Flashに迫る性能を実現した。
- これにより，CoT-Guardは，大規模モデルの導入コストを回避しつつ，隠れた目的の検出性能を大幅に向上させる実用的な防御策となる。
Link: https://arxiv.org/abs/2605.12746
学生のシミュレーションか，迎合的な問題解決か：LLMシミュレーターの誤概念の忠実性について [cs.CL, cs.AI, cs.CY, cs.LG]目的：LLMシミュレーターの誤概念の忠実性の評価
- AIチューターや教育者の訓練・評価において，学生の応答をシミュレートするLLMの活用が期待されている。
- 既存の評価方法は出力の類似性に着目しており，シミュレーターが学習者の誤概念を首尾一貫して保持しているかどうかの評価が不足している。
- LLMシミュレーターが，誤概念に基づいて信念状態を維持し，適切なフィードバックに応じて選択的に更新するかどうかを検証する。
- LLMシミュレーターは，フィードバックの関連性に関わらず同様の高い確率で回答を修正し，誤概念に基づいた行動を示さないことが明らかになった。
- この現象は，モデルが誤概念を持つ学生ではなく，修正シグナルを内部知識に基づく問題解決のきっかけと捉える「迎合的な失敗」によるものと考えられる。
- SFTとSFSに合致した報酬を用いたRLによる後学習パイプラインによって，誤概念の忠実性を向上させることが示された。
Link: https://arxiv.org/abs/2605.12748
継続学習のための勾配手術による低ランクアダプターの初期化 [cs.LG]目的：継続学習における低ランクアダプター初期化手法
- 大規模言語モデルの継続学習は，知識の蓄積と忘却の抑制が重要である。
- 既存手法では，タスク間の勾配の衝突が忘却を引き起こす課題がある。
- 勾配手術と特異値分解により，忘却を抑制し，学習の安定性を高める。
- 提案手法SLICEは，TRACEベンチマークおよびSuper-NIタスクで既存手法を上回る性能を示した。
- SLICEは，平均性能，最終性能，忘却の抑制において，安定性と可塑性のバランスを改善した。
- 特に，対立的な勾配を持つタスクシーケンスにおいても，優れた性能を維持した。
Link: https://arxiv.org/abs/2605.12752
制約を意識したフローマッチング：制約付きサンプリングのための決定境界に合わせたエンドツーエンド学習 [cs.LG]目的：制約付きサンプリングのためのエンドツーエンド学習フレームワーク
- 深層生成モデルは科学技術分野で活用が広がり，物理法則などの制約を組み込む研究が進んでいる。
- 既存手法では，厳密な制約を満たしつつ高品質なサンプルを生成することが困難である。
- 制約プロジェクションを学習目標に組み込み，学習とサンプリングの不整合を解消し，高品質な制約付き生成を目指す。
- 提案手法は，制約プロジェクションを学習に組み込むことで，分布シフトを軽減し，高品質な制約付き生成を可能にする。
- 3つの現実世界のベンチマークで評価した結果，提案手法の汎用性と有効性が確認された。
- 制約を意識した学習により，既存手法の性能低下を防ぎ，より実用的な制約付き生成を実現する。
Link: https://arxiv.org/abs/2605.12754
状態中心意思決定過程 [cs.AI]目的：言語環境における状態構築と意思決定のフレームワーク
- 自然言語環境でのAI応用は重要だが，状態空間の定義が困難である。
- 従来のMDPでは，状態，観測，遷移，終了条件が言語環境に存在しない。
- エージェントが述語を構築し，状態を定義することで問題を解決する。
- SDPは，計画，科学的探索，ウェブ推論など5つのベンチマークで優れたゼロショット性能を示した。
- 特に，地平線が長くなるほど，その優位性は拡大する。
- 認定された軌跡により，述語ごとの貢献度分析，障害局所化，進捗測定が可能となる。
Link: https://arxiv.org/abs/2605.12755
機械学習によるライトニングネットワークのチャネル閉鎖予測 [cs.LG, cs.SI]目的：ライトニングネットワークにおけるチャネル閉鎖タイプの予測
- ビットコインのスケーラビリティ問題解決に貢献するライトニングネットワークの信頼性向上は重要である。
- チャネル閉鎖は，資金が固定され，ネットワークの信頼性を損なうという問題がある。
- 公開データからチャネル閉鎖タイプを予測し，ネットワーク信頼性の改善に寄与する。
- チャネル閉鎖予測において，ネットワークトポロジーよりも，過去の閉鎖履歴や活動頻度などの時間的・行動的特徴が重要であることが示された。
- エッジレベルの特徴量，ノードレベルのイベント数，時間パターンに基づいて動作するシンプルなMLPが，グラフベースの手法よりも優れた性能を発揮した。
- ライトニングネットワークのプライバシー制約により，ゴシップデータのみでは閉鎖の予測可能性に限界があることが示唆された。
Link: https://arxiv.org/abs/2605.12759
極端降水量を対象とした多分位回帰 [cs.LG, cs.AI]目的：降水量の空間解像度を高めるための多分位回帰モデルの開発
- 洪水リスク管理において，極端な降水イベントの正確な予測は不可欠である。
- 既存の降水量予測モデルは，豪雨などの極端な降水イベントの予測精度が低い。
- 極端な降水イベントの予測精度を向上させるため，多分位回帰に基づく新しいモデルを提案する。
- 提案モデル（Q-SRDRN）は，既存モデルと比較して極端な降水イベントの検出率を大幅に向上させた。
- 特に，フロリダ州において，200mm/日の降水量を検出する際に，18倍の検出率向上を達成した。
- データ拡張（cVAE）を用いることで，中央値予測の精度も向上し，地域間での汎化性能も確認された。
Link: https://arxiv.org/abs/2605.12762
分岐近傍における状態空間NTKの崩壊 [cs.LG, math.DS, math.OC, q-bio.NC]目的：時間発展するタスクにおけるリッチな特徴学習
- 時間発展型タスクでは，モデルが分岐を通過することが重要である。モデルのダイナミクスに定性的な変化をもたらすため。
- 分岐近傍の学習ダイナミクスは複雑であり，解析が困難である。
- 状態空間ニューラル接線カーネル(sNTK)を用いて，分岐近傍の学習を簡素化し，解析的に記述すること。
- 分岐は学習ダイナミクスを支配し，簡略化する。分岐近傍では，sNTKを古典的な正規形システムに対応するランク1演算子に還元できる。
- sNTKを分岐に関連するチャネルと残差チャネルに分解することで，分岐近傍でのsNTKの増幅と支配性を示す。
- 学習の不安定性を解消するために，低ランク自然勾配法が有効であることが示された。
Link: https://arxiv.org/abs/2605.12763
推論時機械アンラーニングのためのゲート付き活性化リダイレクト [cs.LG]目的：推論時の活性化リダイレクトによる機械アンラーニング
- 大規模言語モデルの普及に伴い，プライバシー，著作権侵害，安全性への懸念が高まっている。
- 従来のパラメータ更新によるアンラーニングは計算コストが高く，モデルの性能を低下させる。
- 推論時に活性化を操作することで，モデルの重みを変更せずに忘却を実現することを目指す。
- GUARD-ITは，TOFUとMUSEの実験で，3つのモデルサイズにおいて12の勾配ベース手法と同等かそれ以上の性能を示した。
- GUARD-ITは，ユーティリティの維持，記憶の抑制，カタストロフィックな崩壊の回避を同時に実現する唯一の手法である。
- GUARD-ITは継続的なアンラーニングをサポートし，量子化下でも有効である。
Link: https://arxiv.org/abs/2605.12765
WriteSAE：再帰的状態のための疎なオートエンコーダ [cs.NI, cs.LG, cs.AI, cs.CL]目的：状態空間およびハイブリッド再帰型言語モデルにおける行列キャッシュ書き込みの分解と編集
- 言語モデルの性能向上は，大規模な計算資源を効率的に活用する鍵となる。
- 既存の疎なオートエンコーダはキャッシュの読み込みに特化しており，書き込み処理への応用が困難であった。
- 行列キャッシュの書き込みを効率的に処理し，言語モデルの性能と効率を向上させる。
- WriteSAEは，行列キャッシュ書き込みを分解・編集する初の疎なオートエンコーダである。
- Qwen3.5-0.8B L9 H4において，アトムの置換が一致ノルムアブレーションを92.4%の確率で上回った。
- Mamba-2-370Mにおいても，2,500回の試行で88.1%の置換成功率を示し，継続的なタスクにおける性能が3倍に向上した。
Link: https://arxiv.org/abs/2605.12770
多目的ポリシー最適化のための適応型滑らかなチェビシェフ注意機構 [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY, math.OC]目的：ロボット工学における多目的強化学習のための，非凸パレートフロント領域における解の探索
- ロボット制御において，複数の目的を同時に最適化することは重要であり，複雑なトレードオフを伴う。
- 線形スカラー化は安定しているが，非凸パレートフロント領域へのアクセスが理論的に不可能である。
- 勾配の分散と最適化の不安定性を抑制しつつ，非凸領域にアクセス可能な手法を開発する。
- 提案手法は，最適化状況に応じて滑らかさを動的に調整することで，安定性と非凸領域へのアクセス性を両立した。
- 衝突駆動型コントローラにより，勾配の干渉をリアルタイムで検出し，最適化の滑らかさを調整する。
- ロボットによるステルス探索タスクにおいて，線形ベースラインや静的非線形手法では到達不能なパレート最適解を発見した。
Link: https://arxiv.org/abs/2605.12771
リスクスコアの較正と構造的正則化を用いたグラフベースの金融不正検知 [eess.SY, cs.SY, cs.LG]目的：金融取引における不正の検知とリスク評価
- 金融取引の不正防止は，経済的損失の抑制や金融システムの安定に不可欠である。
- 従来のモデルでは，取引間の複雑な関係性や集団による不正行為の特定が困難である。
- グラフ構造を利用し，取引間の関係性を明示的にモデル化することで，不正検知の精度向上を目指す。
- 提案手法は，リスクランキングと確率較正の品質において既存手法を上回る性能を示した。
- グラフ構造のモデリングと表現学習の連携が，金融不正検知に有効であることが確認された。
- 重み付き監督目的関数と構造的整合性正則化により，モデルの安定性と信頼性を高めている。
Link: https://arxiv.org/abs/2605.12782
ToolMol：多目的薬物探索のための進化エージェントフレームワーク [cs.LG, cs.NE, q-bio.QM]目的：多目的薬物設計のための進化エージェントフレームワーク
- 創薬は，疾患治療において不可欠であり，その効率化が重要視されている。
- 既存のLLMベースの分子生成手法では，無効または低品質な候補化合物が多数生成される。
- LLMのツール利用能力を活用し，高品質な化合物を効率的に生成すること。
- ToolMolは，多目的特性最適化タスクにおいて最先端の性能を達成した。
- 既存手法と比較して，予測結合親和性が10％以上高い薬物様化合物を発見した。
- 絶対結合自由エネルギーのスコアにおいても，既存手法を35％以上上回る結果を得た。
Link: https://arxiv.org/abs/2605.12784
ポート・ハミルトニアンニューラルネットワークによる非線形弦ダイナミクスの特定 [cs.LG, cs.SY, eess.SY, math.DS]目的：非線形弦ダイナミクスの特定
- 物理知識とデータ駆動モデルの融合は，解釈性と性能向上に不可欠である。
- ポート・ハミルトニアンニューラルネットワークは，ハミルトニアン偏微分方程式系の学習には未だ応用例が少ない。
- 物理的に整合性のある枠組みで弦の非線形ダイナミクスをデータから学習する。
- 提案するPHNNモデルは，弦を支配するハミルトニアンと減衰を復元できる。
- 従来の物理情報を利用しない手法と比較して，精度と解釈性の両面で優れている。
- 数値実験により，提案モデルがシステムの非線形ダイナミクスを特定し模倣できることが示された。
Link: https://arxiv.org/abs/2605.12785
ヒューリスティックから分析へ：オンライン学習における努力と進捗の予測 [cs.RO, cs.HC, cs.DC, cs.CC, cs.LG, cs.CY]目的：オンライン学習における学習者の週ごとの練習時間と習得スキル数の予測
- インテリジェント・チュータリング・システム（ITS）の効果を最大化するには，学習者の継続的な努力が不可欠である。
- 多くの学習者は，ITSを十分に活用できず，学習意欲を維持できないという課題がある。
- ITSログに基づき，学習者の努力と進捗を予測するモデルを構築し，学習支援の精度向上を目指す。
- 回帰，決定木，ニューラルネットワークなどの予測モデルは，既存のヒューリスティックな手法と比較して，平均絶対誤差を22-33%削減した。
- ヒューリスティックな手法は予測値が過大になりがちである一方，特徴量ベースのモデルは学習者の進捗をより正確に追跡できた。
- 努力の予測には直近の活動の特徴量が，進捗の予測には学習者の状態とコンテンツの難易度が重要であることが示された。
Link: https://arxiv.org/abs/2605.12788
ニューラル接線汎化攻撃の現状に関する包括的分析と研究の方向性 [cs.RO, cs.RO, cs.LG]目的：ニューラル接線汎化攻撃（NTGA）に関する現状分析と，今後の研究方向性の提示
- 深層学習モデルの利用拡大に伴い，学習データの信頼性確保が重要課題となっている。
- 深層学習モデルは，不正なデータによる影響を受けやすく，その対策が求められている。
- 本研究は，NTGAの脆弱性を明らかにし，より強固なデータ保護手法の確立を目指す。
- 本研究では，既存の攻撃手法を分類し，NTGAがブラックボックス環境下における初のクリーンラベル汎化攻撃であることを明確にした。
- 実験により，NTGAは敵対的学習や画像変換に対して脆弱であり，線形分離可能性を高めることでその脆弱性が増大することが示された。
- NTGAの利点と欠点を分析し，その堅牢性を向上させるための方向性を示唆するとともに，最近提案された攻撃手法がNTGAを上回る性能を示すことを明らかにした。
Link: https://arxiv.org/abs/2605.12792
データ媒介転移の観点から見た創発的および潜在的な誤調整 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの誤調整メカニズムの解明
- 言語モデルの安全性確保は，社会への応用拡大に不可欠である。
- 有害なデータでの微調整が，予期せぬ誤調整を引き起こす可能性がある。
- 誤調整の発生メカニズムを特定し，対策を講じることを目指す。
- 微調整データと評価プロンプトの機能構造が類似している場合に，誤調整がより顕著に現れることが示された。
- 有害な教師モデルが生成した一見無害なデータでも，誤調整が伝播される「潜在的学習」が確認された。
- 誤調整は，単独の有害な事例ではなく，データ構造，事前学習分布，学習チャネル間の相互作用によって生じることが示唆された。
Link: https://arxiv.org/abs/2605.12798
ストリーミング決定木アンサンブルにおけるラベルなし不一致に基づくドリフト検出の落とし穴 [cs.LG]目的：高速データストリームにおける概念ドリフトの検出
- データストリーム分析は，リアルタイムでの適応的学習を可能にするため重要である。
- ラベルのないデータでのドリフト検出は，誤検知を避けることが困難である。
- 決定木の構造的な硬直性を克服し，ドリフト検出の精度を向上させる。
- 不一致に基づく手法は，多層パーセプトロンアンサンブルでは有効であるが，決定木アンサンブルでは損失ベースの手法に劣る。
- 決定木は構造拡張を通じて学習するため，モデルの可塑性が制限され，不一致が学習潜在性を反映しにくい。
- 決定木の再構築による適応性の向上は，今後の有望な方向性である。
Link: https://arxiv.org/abs/2605.12803
離散平均フロー：条件付き遷移カーネルによる1ステップ生成 [cs.RO, cs.LG, cs.AI]目的：有限状態空間における確率質量輸送
- 近年，連続空間での生成モデルが注目を集めている。効率的な生成手法の開発が求められている。
- 連続的な平均フローの考え方は，離散状態空間では滑らかな軌跡や空間微分が存在しないため適用が困難である。
- 連続時間マルコフ連鎖の遷移カーネルを直接パラメータ化し，確率分布としての生成を可能にすること。
- 離散平均フローの恒等式を導出し，有限区間での変化率とマルコフ連鎖の生成器を結びつけた。
- 境界条件を厳密に満たす構造を持つ遷移カーネルのパラメータ化手法を提案した。
- 反復的なノイズ除去やODE積分を必要とせず，単一のフォワードパスとカテゴリカルサンプリングで生成が可能であることを示した。
Link: https://arxiv.org/abs/2605.12805
退屈のない神経データ：データ再利用のための自律型AIのベンチマーク [cs.LG]目的：神経科学データの再利用可能性向上
- 神経科学研究は発展途上であり，データの共有と再利用が重要である。
- データの形式が多様で，解読に手間がかかることが課題である。
- 自律型AIを用いてデータ解読と再利用を自動化する。
- 汎用コーディングAIは部分タスクでは良好な性能を示したが，完全なエラーフリーのソリューションは稀であった。
- AIが犯す誤りの種類と，誤りを引き起こすデータセットの特性を特定した。
- AIを裁判官として用いることの信頼性は低く，人間による確認が不可欠である。
Link: https://arxiv.org/abs/2605.12808
影響の修正：直交潜在空間を用いたLLM出力の解釈 [cs.LG, cs.AI]目的：LLMの予測に対する訓練データの寄与度分析
- 医療分野におけるLLMの信頼性向上は重要であり，予測根拠の明確化が不可欠である。
- 既存手法はトークン間の独立性を仮定しており，正確な影響度特定が困難である。
- 潜在的媒介アプローチにより，トークンレベルでの影響度を正確に特定し，解釈性を高める。
- 提案手法は，事前学習済みLLMにスパースオートエンコーダを接続し，独立な潜在的特徴を学習する。
- 潜在的特徴空間での影響度計算により，トークン間の非分解的な影響を考慮する。
- 医療ベンチマーク実験により，予測に影響を与える疎なトークン集合が特定され，モデルの透明性と説明責任が向上する。
Link: https://arxiv.org/abs/2605.12809
REALISTA：LLMの幻覚を引き出す現実的な潜在的敵対的攻撃 [cs.CL, cs.AI, cs.CR, cs.LG]目的：LLMの幻覚を引き出す敵対的プロンプトの生成
- LLMは高性能だが，幻覚に弱く，その対策が重要である。
- 既存手法は，意味的同等性と自然さを両立できない。
- 潜在空間で現実的な敵対的プロンプトを生成し，幻覚を誘発する。
- REALISTAは，有効な編集方向の辞書を用いて潜在空間で最適化を行う。
- これにより，既存の現実的な攻撃手法よりも優れた性能を発揮する。
- 大規模な推論モデルに対する攻撃に成功し，幻覚の誘発に貢献する。
Link: https://arxiv.org/abs/2605.12813
説明としてのAGOP：画像分類器における特徴学習からサンプルごとの帰属度へのアプローチ [cs.SI, cs.CL, cs.LG]目的：画像分類器における個々の予測の説明
- 深層学習モデルの解釈性は重要であり，モデルの意思決定プロセスを理解する上で不可欠である。
- 既存の帰属度手法はノイズに弱く，重要なピクセルを正確に特定できない場合がある。
- AGOPを用いて，より正確で効率的な帰属度手法を開発し，モデルの解釈性を向上させる。
- AGOP-Weightedは，IGと比較して線形タスクで44％高いmIoUを達成した。
- AGOP-Globalは，IGがランダムを下回る乗算タスクにおいて7倍高いmIoUを，推論コストなしで達成した。
- GradCAMは低解像度画像では空間分解能の低下により失敗し，diag(M)の質は学習を通して単調に向上することが示された。
Link: https://arxiv.org/abs/2605.12816
臨床イベント予測のための大規模言語モデルの訓練 [cs.LG, cs.AI, cs.CL]目的：臨床イベント予測のための大規模言語モデル訓練手法
- 患者の経過を理解し，より良い医療を提供するために，臨床データの活用が重要である。
- 既存手法では，診療記録から予測に必要な教師データを効率的に生成することが困難である。
- 診療記録から自動的に予測のための教師データを生成し，モデルの性能向上を目指す。
- 時間順に並んだMIMIC-IIIの診療記録を用いて，過去の患者情報と将来のイベントに関する質問のペアを生成した。
- 生成されたデータセットでLoRAアダプターを訓練することで，モデルのキャリブレーション誤差とBrierスコアが大幅に改善された。
- 本手法は，手動による特徴量エンジニアリングや特定のイベントに特化した分類器を必要とせず，汎用的な臨床予測を可能にする。
Link: https://arxiv.org/abs/2605.12817