arXiv雑要約

AI - 2026/05/29 公開

ポアソンリセットからのリッジ回帰：スペクトル正則化に関する更新視点 [cs.CL, cs.LG, cond-mat.stat-mech, stat.ML]目的：統計学習におけるリッジ正則化と，非平衡統計物理学からの確率的リセットとの関係性
- 機械学習において，過学習を防ぎ汎化性能を高める正則化手法は不可欠である。
- リッジ回帰は広く用いられているが，その理論的基盤を統計物理学の視点から解明する余地がある。
- ポアソンリセットという概念を用いて，リッジ回帰のスペクトル正則化を新たな角度から理解すること。
- 確率的リセットのレートがリッジ回帰の正則化パラメータに相当することが示された。
- 指数分布以外の更新則もスペクトルフィルタを生成可能であり，リッジ回帰とは異なる予測性能を示す場合がある。
- 定常平均および誘導されるスペクトルフィルタは，等方的なリセットを持つ2次目的関数における連続時間勾配流において検証された。
Link: https://arxiv.org/abs/2605.30059
ワールドからのフィードバックに基づくオンポリシー自己蒸留の予測法則 [cs.LG, cs.AI]目的：オンポリシー自己蒸留における予測可能性の解明
- 強化学習の拡張可能性向上には，単純な報酬を超えたより豊かな世界からのフィードバックが不可欠である。
- オンポリシー自己蒸留は有望な手法だが，GRPOのような確立された手法と比較して信頼性が不明確である。
- 自己蒸留の構成における最終的な性能改善を，学習前に予測するための法則を確立すること。
- 自己蒸留において，初期の生徒と教師の性能差と最終的な性能向上との間に一貫した線形相関が認められた。
- この関係性は，様々なコンテキストやモデルファミリーにおいて成立し，自己蒸留構成の結果を予測する強力な法則を提供する。
- モデル規模が大きくなっても予測可能性が維持されることから，より大規模モデルにおける新たな経験的スケーリング則の基礎となりうる。
Link: https://arxiv.org/abs/2605.30070
Q-ANCHOR：ゼロノイズ外挿誘導補正を用いた連合量子学習 [cs.LG, cs.DC]目的：連合量子学習における収束性向上
- 量子技術の発展に伴い，分散環境での量子モデル訓練の需要が高まっている。
- 非IIDデータや量子ハードウェアのノイズによるドリフトが，連合量子学習の性能を著しく低下させる。
- ハードウェアバイアスとクライアントドリフトを抑制し，安定した学習を可能にすること。
- Q-ANCHORは，ゼロノイズ外挿とクライアント状態補正を組み合わせることで，従来のFLベースラインよりも安定した学習を実現した。
- 理論的解析により，Q-ANCHORがクライアントドリフトを抑制し，ハードウェアバイアスによる誤差床を低減することが示された。
- 量子ハードウェアバイアスが，標準的な平均化では解消できない永続的な誤差床を生み出すことを数学的に証明した。
Link: https://arxiv.org/abs/2605.30075
推論トレース接頭辞の確証的保証 [cs.AI, cs.CL, cs.LG, stat.ML]目的：推論トレースの安全な接頭辞部分の長さの保証
- 大規模言語モデルの推論過程の信頼性評価は重要であり，誤りの早期検出が求められている。
- 既存手法では，推論過程全体または最終結果のみが評価対象であり，部分的な安全性の保証は困難であった。
- 推論トレースの接頭辞部分について，統計的な保証を提供し，安全な部分を特定することを目的とする。
- CROPは，リスク指標を用いて接頭辞部分の長さを決定し，誤りを含む可能性のある末尾部分を特定する。
- 従来の評価指標AUROCは，接頭辞部分の有用性を十分に捉えられていないことが示された。
- CROPは，有効な推論過程を保持しつつ誤解を招く部分を排除することで，後続の修復精度を向上させる。
Link: https://arxiv.org/abs/2605.30085
相反する複数ソースの個人的記憶に対する選択的QA：診断テストベッドと手法比較 [cs.AI]目的：相反する複数ソースの個人的記憶に対する選択的質問応答
- 個人AIエージェントの進化に伴い，永続的な多源記憶の重要性が増している。
- 既存のベンチマークでは，エラーの原因が証拠由来か，競合解決段階由来かの区別が困難である。
- 証拠の競合や不完全性に対処し，十分な証拠がない場合は回答を控えるQAシステムの評価を目指す。
- 開発されたベンチマークは，18種類の質問テンプレートと8種類の推論タイプを含み，大規模なデータセットを構築した。
- 訓練された融合型リゾルバーは80.3%の精度を達成し，プロンプトのみのLLMベースライン(70.0%)を上回った。
- アブステインション(Abstention)を用いることで，リゾルバーは78.3%のカバレッジで85.3%の選択的精度を達成した。
Link: https://arxiv.org/abs/2605.30087
推論時要素破損に対する分布ロバスト集合表現学習 [cs.LG]目的：推論時の要素破損に対するロバスト性を高める集合表現学習手法
- 集合データは様々な分野で現れ，その表現学習は重要性を増している。
- 既存手法は，学習データに最適化され，推論時の要素破損への対応が課題である。
- 推論時に発生しうる要素レベルの劣化に対するロバスト性を向上させる。
- 提案手法SW-DRSOは，最悪の場合の期待損失を最適化することで，ロバスト性を高める。
- 本手法では，破損した集合の探索を微分可能な訓練時最適化で近似するバリセントリック敵対者を用いる。
- ４つのタスクにおける実験により，SW-DRSOが腐敗に対するロバスト性と全体的な性能を両立することが示された。
Link: https://arxiv.org/abs/2605.30089
PokerSkill：LLMは学習もソルバーもなしに専門レベルのポーカーをプレイできる [cs.AI, cs.GT]目的：大規模言語モデル（LLM）を用いた，学習やソルバーに依存しないポーカープレイの実現
- ポーカーはAI研究の重要な課題であり，高度な意思決定能力が求められる。
- 従来のAIは，ソルバーによる膨大な計算資源を必要とする。
- LLMと専門家定義のルールを組み合わせ，学習・ソルバーなしで高度なプレイを目指す。
- PokerSkillフレームワークにより，LLMは専門家レベルのポーカープレイが可能になった。
- GPT-5.5 XHigh，Claude Opus 4.6, 4.7は，従来のプロンプトと比較して損失を49-61%削減し，Slumbotを上回った。
- ルールベースのスキルとLLMの組み合わせが，学習・ソルバーなしでの競争力を実現した。
Link: https://arxiv.org/abs/2605.30094
AI攻撃者の信頼性：固定された脆弱な標的に対する400回の実験的LLMペネトレーションテストの一貫性 [cs.CR, cs.AI]目的：LLMを用いたサイバー攻撃の一貫性に関する大規模な実証的測定
- サイバー攻撃は巧妙化しており，防御側の対策が追いつかない状況である。
- LLMによる攻撃の再現性や安定性が不明であり，実用上の信頼性に懸念がある。
- LLM攻撃の一貫性と信頼性を定量的に評価し，セキュリティ対策に役立てること。
- 複数のLLMを対象とした実験の結果，攻撃成功率にはモデル間で統計的に有意な差が見られた。
- Claude Sonnet 4はAPIの制限により攻撃が中断される事例が見られたが，それでも高い攻撃成功率を示した。
- 攻撃戦略の多様性や，資格情報の再利用といった攻撃パターンにもモデルごとの特徴が認められた。
Link: https://arxiv.org/abs/2605.30096
チェス・ワールドモデル：チェス手の並びからの正確な状態追跡のための1000万ゲームベンチマーク [cs.LG]目的：チェス手の並びから正確な盤面状態を予測する状態追跡ベンチマーク
- 現実世界の複雑な状態変化をモデル化する上で，状態追跡能力は不可欠である。
- 既存のベンチマークは人工的，あるいは言語ベースであり，現実的なドメインでの構造化された状態更新のテストには不十分である。
- 大規模なチェスの実戦データを用いて，モデルのスケーラビリティと状態追跡能力の限界を明らかにする。
- 提案されたチェス・ワールドモデルは，1000万ゲームの実戦データに基づき，状態追跡のベンチマークとして機能する。
- リカレントモデル（SLiCE，Mamba-3，Gated DeltaNet）は，Transformerよりも優れた性能を示し，特にパラメータ数が多い場合でその差が顕著になる。
- ランダムな合法手からのデータセットは，モデルが遷移規則を学習しているか，単なる人間の定型的な動きを模倣しているかを検証するのに有効である。
Link: https://arxiv.org/abs/2605.30100
クラウドエージェントとデバイスエージェントの連携：ハイブリッドマルチエージェントシステムからの教訓 [cs.MA, cs.AI]目的：ハイブリッドマルチエージェントシステムの設計空間に関する理解
- AI推論はクラウドLLMとデバイスSLMの二極化が進んでいるため，両者の利点を組み合わせる方法が重要である。
- ハイブリッドシステムの設計原則が確立されておらず，特定のドメインに合わせた場当たり的な選択がされている。
- パワー，コスト，パフォーマンスのトレードオフを考慮した，最適なハイブリッドシステムの設計指針を提示する。
- SLMはLLMの支援により効果を発揮する可能性がある。
- 最適なアーキテクチャはタスクに依存する。
- 計算資源の増加が必ずしもパフォーマンス向上に繋がるとは限らない。
Link: https://arxiv.org/abs/2605.30102
反復型LLMベースのニューラルアーキテクチャ探索に関する収束理論：閉形式のプロキシ信頼性を持つパラメトリッククロスエントロピーフレームワーク [cs.LG]目的：反復型LLM-NASにおける収束性
- ニューラルネットワークの自動設計は，高性能なモデル開発の効率化に不可欠である。
- LLMをNASに活用するアプローチは有望だが，理論的な保証が不足している。
- LLM-NASの収束性を数学的に証明し，信頼性の高いアーキテクチャ探索を実現する。
- 反復型LLM-NASは，LLMパラメトリックファミリーに制限されたCE更新と同等であることが示された。
- エリートセットの確率が幾何学的速度で固定点に収束することが証明された。
- プロキシ信頼性の閉形式表現が得られ，信頼性の高いランキングのための条件が明らかになった。
Link: https://arxiv.org/abs/2605.30103
xModel-KD: LiDARを用いた3次元シーン認識のためのクロスモーダル知識蒸留 [cs.CL, cs.CV, cs.AI]目的：3次元点群セグメンテーションのためのクロスモーダル知識蒸留フレームワーク
- 3次元シーン理解は，自動運転やロボット工学において不可欠であり，その精度向上が求められている。
- 3次元点群データの詳細なアノテーション作成にはコストと時間がかかり，学習データが不足しているという課題がある。
- 2次元画像と3次元点群の補完的な情報を活用し，少ないアノテーションでも高精度なセグメンテーションを実現することを目指す。
- 提案手法xModel-KDは，2次元画像と3次元点群をクロスモーダルに融合することで，点群セグメンテーションの性能を向上させる。
- コントラスト学習により，異なるモダリティ間の特徴表現の一貫性を保ち，有効な特徴量の抽出を可能にする。
- 実験結果から，LiDAR単独のベースラインと比較してmIoUが2%絶対的に向上し，マルチモーダル情報の有効性が示された。
Link: https://arxiv.org/abs/2605.30111
レイノルズ数を跨いで：ニューラル偏微分方程式汎化における表現幾何学 [cs.LG]目的：ニューラル偏微分方程式ソルバーにおけるレイノルズ数一般化の表現幾何学的性質の解明
- 偏微分方程式は自然現象の記述に不可欠であり，その数値解法の精度向上は科学技術の発展に寄与する。
- ニューラルネットワークを用いた偏微分方程式ソルバーは，従来の数値解法に比べて柔軟性が高い一方，未知の条件下での汎化性能が課題である。
- 本研究では，表現幾何学の観点からニューラルネットワークのレイノルズ数一般化性能を向上させる手法を提案する。
- ConvAE-Relayを用いることで，ターゲット領域での学習なしに，ソース領域のデータベースのみを用いて38.34+/-0.07%という誤差率を達成した。
- 状態のマッチング品質が，更新ルールよりも重要であることが示された。
- U-Netを用いた予測においても，34.72+/-0.60%という良好な結果が得られ，多スケールな表現がレイノルズ数一般化に有効であることが裏付けられた。
Link: https://arxiv.org/abs/2605.30112
SGMD：少ステップビデオ拡散蒸留のためのスコア勾配マッチング蒸留 [cs.CV, cs.LG]目的：少ステップビデオ拡散モデルの推論加速
- ビデオ生成の分野において，効率的な推論は重要な課題である。
- 既存の蒸留手法では，精度と速度のトレードオフが課題となっていた。
- スコア勾配マッチング蒸留により，より高速かつ高品質なビデオ生成を目指す。
- 本研究で提案するSGMDは，DMD2と比較して約3倍の学習速度を実現した。
- SGMDは，4ステップの蒸留モデルにおいて，モーションダイナミクスを大幅に改善し，時間的な一貫性を維持した。
- 人間による評価実験では，モーション品質と全体的な好ましさにおいてSGMDが優れていることが確認された。
Link: https://arxiv.org/abs/2605.30116
VLA-Trace：視覚-言語-行動モデルの表現と行動追跡による診断 [cs.AI]目的：視覚-言語-行動モデルのマルチモーダル知識から具現化された制御への変換の理解
- 視覚と言語と行動を統合するモデルは，ロボット工学や人間とロボットのインタラクションにおいて重要である。
- モデルの内部動作が不透明であり，なぜ特定の行動が選択されるのか説明が困難である。
- モデルの表現の変化，制御経路，行動の根拠を追跡することで，モデルの理解を深めることを目指す。
- VLA-Traceは，表現のダイナミクスから因果的制御の帰属，そして行動の現れまでを追跡する包括的な診断フレームワークである。
- $\pi_{0.5}$とOpenVLAでは，VLAのファインチューニング中に異なるモダリティ特有の適応ダイナミクスが確認された。
- VLAポリシーは視覚的に基づいた軌道生成には優れているが，詳細な意味的指示の追跡には限界があることが示された。
Link: https://arxiv.org/abs/2605.30117
生存時間分析のための解釈可能な遺伝的プログラミングによる特徴進化と木構造進化 [cs.LG, cs.AI, cs.NE]目的：生存時間分析における予測精度と解釈性の向上
- 医療分野等で重要な生存時間分析は，患者の予後予測に不可欠である。
- 従来の生存木は複雑になりやすく，解釈性が損なわれる可能性がある。
- 遺伝的プログラミングを用いて，特徴と木構造を同時に最適化し，解釈性を維持しつつ予測精度を高める。
- 遺伝的プログラミングによる特徴進化は，異なる木誘導戦略において予測性能を向上させる。
- 木構造と非線形分割ロジックの同時進化は，高性能な浅い生存木の提案に繋がる可能性を示す。
- 実世界のデータセットで，提案手法が有効であることを確認した。
Link: https://arxiv.org/abs/2605.30119
K-means 不要: 効率的なマルチベクトル検索のためのシングルステージスパースコーディング [cs.IR, cs.AI, cs.LG]目的：効率的なマルチベクトル検索のための手法
- 情報検索の精度向上は，大量のデータから関連情報を迅速に見つける上で重要である。
- 従来のマルチベクトル検索モデルは，メモリ消費量が大きく，検索効率が低いという課題がある。
- 本研究は，クラスタリングを省略し，スパースコーディングを用いることで，上記課題を解決する。
- 提案手法SSRは，ColBERTv2と比較してインデックス作成時間を15倍削減する。
- 検索遅延時間を半分に短縮し，同時に主要なベースラインよりも検索性能を向上させる。
- BEIRベンチマークでの実験により，SSRが精度，速度，効率性の全てにおいて優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.30120
MSEを超えて：多重分位回帰による降水予測の改善 [cs.LG, cs.AI]目的：降水予測の性能向上
- 気象災害の軽減には，高精度な降水予測が不可欠である。
- 従来の予測モデルでは，強降雨の予測精度が十分でない場合が多い。
- 多重分位回帰を用いることで，予測の滑らかさを抑え，強降雨の予測精度を高める。
- 多重分位回帰による学習は，MSEを用いた学習と比較して，テストセットのMSEを8.6\%減少させた。
- 中央値の予測精度が向上しただけでなく，豪雨のリスク評価に役立つ上分位の出力も得られた。
- 新たなアーキテクチャや生成サンプリング手順を必要とせず，損失関数の変更のみで性能改善が可能である。
Link: https://arxiv.org/abs/2605.30122
無線チャネルにおけるxMK-CKKSを用いたプライバシー強化ゼロ次連邦学習 [cs.CR, cs.LG]目的：無線チャネルを通じたプライバシー保護連邦学習の実現
- プライバシー保護は重要であり，特に機密性の高いデータを取り扱う連邦学習においては不可欠である。
- 既存手法はシングルキー暗号に依存し，ワイヤレスフェージングへの対策が必要であり，セキュリティ上の脆弱性も存在する。
- マルチキー暗号方式を用いて，チャネル推定なしで安全な集約を可能にし，セキュリティレベルの向上を目指す。
- 提案プロトコルは，xMK-CKKSを用いて，無線チャネル上での安全な集約を実現し，公钥と暗号文の再送達により，暗号化項の代数的な打ち消しを実現する。
- 本プロトコルは，遅変するLOS優勢チャネル上でのゼロ次連邦学習と統合され，デバイスあたりの通信/暗号化オーバーヘッドをモデル次元に依存させない。
- 復号化された暗号化ノイズは$O(1/\sqrt{K})$の収束率を維持し，サーバーとN-1個のクライアントの共謀に対するセキュリティを保証する。
Link: https://arxiv.org/abs/2605.30123
PARCEL：プールアンカー型リサンプリングと条件付き弾力性クエリによる効率的な視覚言語理解 [cs.CV, cs.AI, cs.CL, cs.LG]目的：効率的な視覚言語理解のための視覚トークン化アーキテクチャ
- 視覚言語モデルは多様な応用を可能にするが，計算コストが高いという課題がある。
- 既存の圧縮手法は，圧縮率を上げると性能が低下するという問題がある。
- 空間情報と詳細な特徴の維持を両立し，効率と性能を向上させる。
- PARCELは，低周波レイアウトアンカーとなる空間プールトークンを確立し，弾力性クエリトークンを条件付けする。
- これにより，クエリトークンは冗長な空間マッピングではなく，補完的な視覚特徴に焦点を当てるようになる。
- 27のベンチマークで評価した結果，既存手法と比較して性能効率のパレート最適解を改善した。
Link: https://arxiv.org/abs/2605.30126
新たなタスクへの外挿学習：タスク外挿への関係的アプローチ [cs.LG, stat.ML]目的：タスク外挿における体系的な外挿能力の獲得
- 既存の学習システムは補間には優れるものの，訓練分布外の未見タスクへの汎化が困難である。
- 訓練範囲外のタスクパラメータへの対応や，ファウンデーションモデルの進歩にも関わらず，外挿の失敗は依然として存在する。
- タスク間の変換関係を学習することで，未知のタスクへの体系的な外挿を可能にすることを試みる。
- 提案手法RTEは，各ターゲットタスクを既知のアンカータスクと，そのアンカータスクとターゲットタスクを結ぶ変換に分解する。
- アンカー-変換ペアをターゲットタスクの予測にマッピングする関係演算子を学習することで，様々な外挿設定で既存手法を大幅に上回る性能を示す。
- 関数予測，系列予測など，複数のタスク外挿レジームにおいて有効性が確認された。
Link: https://arxiv.org/abs/2605.30132
クラス不均衡学習のための二軸多専門家学習：DAMEL [cs.CL, cs.LG, cs.AI]目的：クラス不均衡学習における予測バイアスと分散の低減
- 実世界のデータは長尾分布を持つことが多く，機械学習の性能低下を招くため，対処が重要である。
- 既存手法は予測バイアスを減らす反面，予測分散が増加し，性能の安定性が課題となっている。
- 表現軸と時間軸の両方で複数の専門家を活用し，バイアスと分散を同時に低減することを目指す。
- DAMELは，複数の専門家の表現を連結し，平衡化された補助分類器を同時に学習することでバイアスを低減する。
- 学習エポックにわたってネットワークの重みを集約し，テスト時にそれらを集約重みとして使用することで分散を低減する。
- 実験結果から，DAMELが予測のバイアスと分散を低減し，クラス不均衡学習において有効であることが示された。
Link: https://arxiv.org/abs/2605.30135
文脈関連性による注意誘導を用いたマルチエージェントコミュニケーションの強化 [cs.AI]目的：マルチエージェントコミュニケーションにおける性能向上
- 複雑なタスクにおいて，協調的な推論によるLLMベースのマルチエージェントシステムの有効性が示されている。
- 会話が長くなるにつれて，関連情報が希釈され，性能が低下するという課題がある。
- 会話履歴の増加に伴う情報希釈の問題を解決し，より効果的なコミュニケーションを実現する。
- Agent-Radarは，5つのベンチマークにおいて最先端手法を凌駕し，最大7.64ポイントの性能向上を実現した。
- Agent-Radarは，エージェント数や対話ラウンド数の増加にも効果的かつ堅牢であることが示された。
- Agent-Radarの主要コンポーネントは，性能に不可欠であり，様々な設定で汎用性が高いことが示された。
Link: https://arxiv.org/abs/2605.30136
AgentSchool：教育のためのLLMを活用したマルチエージェントシミュレーション [cs.AI, cs.MA]目的：教育AIの検証
- 教育現場へのLLM導入が進む中，教育AIの有効性評価は不可欠である。
- 現実の教育現場での検証は倫理的制約や時間的制約が大きい。
- LLMシミュレーションを通じて，教育改革に資する新規性を検証する。
- AgentSchoolは，学習を状態遷移としてモデル化するマルチエージェントシミュレーションである。
- 構造化された生徒エージェントは，ベースラインシミュレーターよりも明確な学習軌跡を示した。
- 教員エージェントの比較から，ZPDに基づいた適応パターンが確認された。
Link: https://arxiv.org/abs/2605.30144
進化戦略によるLLMファインチューニングにおける忘却の克服 [cs.LG, cs.AI]目的：LLMファインチューニングにおける忘却現象とその抑制策
- LLMの性能向上にはファインチューニングが不可欠であり，継続的な学習が求められる。
- 新しいタスクへの適応時に，以前学習したタスクの性能が低下する忘却問題が存在する。
- 進化戦略を用いたファインチューニングにおける忘却を抑制し，継続学習能力を高める。
- 進化戦略によるファインチューニングにおいて，以前のタスク性能の低下は不可逆的な忘却ではなく，訓練中に回復する性能変動として捉えられる。
- この性能変動は進化戦略特有の問題ではなく，強化学習を用いたファインチューニングでも同様に発生することが示された。
- 提案手法Anchored Weight Decay (AWD) は，パラメータ空間の正則化により，以前のタスク性能を安定化させながら，新しいタスクの性能を維持する。
Link: https://arxiv.org/abs/2605.30148
超高速マルチメディア信号処理のための深層二値化フォトニック貯留計算 [cs.NE, physics.optics]目的：超高速マルチメディア信号処理を実現する深層フォトニック貯留計算システム
- データ量の増大により，高速で効率的な信号処理技術が求められている。
- 従来の計算手法では，速度や消費電力の面で限界がある。
- フォトニック貯留計算を用いて，高速かつ低消費電力な信号処理を実現する。
- デジタルマイクロミラーデバイスとCMOSセンサーを用いたシステムがギガビット/秒の処理速度を実現した。
- 層間のパラメータ最適化により，時間的・空間的特徴の抽出能力が向上した。
- スケーラブルな階層型フォトニック貯留計算システムの開発への道が開かれた。
Link: https://arxiv.org/abs/2605.30149
並列LLM発想のためのアンカーレス多様化 [cs.AI]目的：創造的タスクにおけるアイデア候補プールの多様性
- 創造的タスクにおいて，LLMはアイデア創出に有用であり，多様なアイデア探索が重要である。
- アイデアプールの多様性を高める手法は存在するが，コスト効率と品質維持が課題である。
- アンカーレスな方法で，既存のアンカーベース手法と同等の多様性を実現すること。
- 並列推論による多様化は，コスト効率と品質を維持しつつ，アイデアプールを広げる可能性がある。
- セマンティック方向層別化は，多様性，品質，計算コストのバランスに優れた手法である。
- アンカー再生は最終的な多様性には寄与するが，全体のトークン数を考慮すると優位性は縮小する。
Link: https://arxiv.org/abs/2605.30150
数学タスク評価における時間的安定性と少数ショットプロンプティング [cs.AI]目的：数学タスクの認知負荷分類におけるAIモデルの時間的安定性とプロンプティングによる性能変化
- 教育現場でのAI活用が進む中で，その性能評価と安定性の確保が重要である。
- AIモデルのバージョン更新が必ずしも性能向上に繋がらない場合がある。
- 少数ショットプロンプティングがAIモデルの数学タスク評価における性能改善に貢献するかどうかを検証する。
- Geminiの精度は58%で安定したが，Coteachの精度は75%から50%に低下した。
- 少数ショットプロンプティングにより，Geminiは67%へ，Coteachは75%へと精度が向上した。
- プロンプティング技術がモデルの改良よりも効果的であり，バージョン更新は必ずしも性能向上に繋がらないことが示唆された。
Link: https://arxiv.org/abs/2605.30151
プロアクティブなエージェントは，起動時期とアンカーを決定するのに本当にLLMが必要なのか [cs.CL, cs.AI, cs.HC]目的：ユーザーアクティビティに基づくプロアクティブエージェントの起動判断とアンカー選択の効率化
- ユーザーインタラクションの向上は，パーソナルアシスタントや自動化システムの重要な課題である。
- 既存手法では，構造化されたイベントストリームをテキストに変換しLLMに処理させるため非効率である。
- イベントストリームを直接処理し，LLMの利用を最小限にすることで，効率性と応答性を向上させる。
- 提案手法では，イベントストリームをグラフ更新として扱い，軽量なTemporal-Graph-Learning (TGL)モデルを使用する。
- TGLモデルは，14のバックボーンでF1スコアを平均16.7%向上させ，最大で46.0%の改善を示した。
- TGLは，LLMをトリガーとして使用する既存手法と比較して，4～83倍高速に処理を実行し，デバイス上での展開も可能である。
Link: https://arxiv.org/abs/2605.30152
強化学習から最尤法への有限ロールアウト代替目的関数：RL2ML [cs.LG]目的：言語モデルの学習における代替目的関数の開発
- 言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 強化学習における期待値最適化と確率的更新の幾何学的な関係性が曖昧である。
- ロールアウト予算を固定した状況下での，推定器と目的関数の整合性を保つこと。
- 本研究では，RL2MLと呼ばれる有限ロールアウト代替目的関数のファミリーを提案した。
- このファミリーは，標準的な強化学習，最尤法類似の学習，そして最尤法を超える目的関数を繋ぐ。
- 更新スケールの遷移を明らかにし，評価指標，局所的な感度，推定器の分散が最適な目的関数選択に重要であると示した。
Link: https://arxiv.org/abs/2605.30154
ニューラルネットワーク検証における部分多ニューロン緩和 [cs.LO, cs.AI]目的：ニューラルネットワークの安全性特性の形式的保証
- 深層学習の重要システムへの組み込みが進み，安全性確保の理論的・実践的関心が高まっている。
- 既存手法は，厳密性と計算コストのバランスが課題であり，検証完了に必要な精度が得られない場合がある。
- 部分多ニューロン緩和により，検証の効率と精度を向上させることを目指す。
- 提案手法をMarabou検証器に組み込み，既存のバウンディング強化手法と比較して良好な結果が得られた。
- 部分多ニューロン緩和は，検証に必要な精度と計算コストのバランスを取る有効な手段である可能性が示された。
- 選択されたニューロン部分集合に対してのみ多ニューロンバウンドを生成することで，計算効率を向上させている。
Link: https://arxiv.org/abs/2605.30155
長視野LLMエージェントのためのメタ認知記憶ポリシー最適化 [cs.DB, cs.AI]目的：長視野タスクにおけるLLMエージェントの記憶ポリシー最適化
- 複雑なタスク解決において，LLMエージェントの性能向上は不可欠である。
- 既存手法では記憶の質低下箇所を特定できず，情報損失やノイズ増加が課題である。
- 中間要約の明確性に着目し，記憶特化的な最適化による性能改善を目指す。
- 本研究では，潜在状態の不確実性を測る指標「信念エントロピー」を導入した。
- 提案手法MMPOは，信念エントロピーに基づいて記憶ポリシーを最適化し，明確な信念を誘導する。
- 多様な長視野タスクで既存手法を上回り，175万トークン規模でも高い性能を維持した。
Link: https://arxiv.org/abs/2605.30159
カオス的力学系における分布強化学習 [cs.LG, cs.AI]目的：カオス的力学系における強化学習の学習条件改善
- 科学技術の多岐にわたる分野でカオス的ダイナミクスが現れ，信頼性の高い学習が求められている。
- 初期条件に対する指数関数的な感度により，従来の強化学習は高い分散と不安定な勾配更新に悩まされる。
- 分布ベルマン最適化によって学習を安定化させ，カオス的システムでの強化学習を可能にすること。
- カオス的システムにおいて，リターン分布は個々の軌跡よりも安定して進化することが示された。
- 1-Wasserstein距離を用いることで，より滑らかな分布ベルマン目的関数が実現される。
- 分布強化学習がカオス的システムにおいて優位性を示す理由を理論的に説明した。
Link: https://arxiv.org/abs/2605.30160
BioRefusalAudit：スパースオートエンコーダを用いたバイオセキュリティ拒否深さの監査 [cs.AI, cs.CR, cs.LG]目的：言語モデルのバイオセキュリティ拒否の深さの評価
- 言語モデルの発展に伴い，バイオセキュリティリスクの評価が重要になっている。
- 言語モデルの拒否応答は必ずしも一貫しておらず，些細な変更で容易に回避される場合がある。
- モデルの拒否応答の信頼性を内部表現（スパースオートエンコーダ）を用いて評価する。
- 5種類のモデルにおいて，有害な内容と無害な内容を明確に区別できないことが示された。
- Gemma 4 E2B-ITでは，チャットテンプレート形式で拒否応答が65/75件，形式がないと0/75件であった。
- モデルの拒否応答は，CBRNハザードよりも合法性や文化的影響に左右される可能性があることが示唆された。
Link: https://arxiv.org/abs/2605.30162
SAHG：ソーシャルボット検出のためのセクター異方性双曲グラフモデル [cs.SI, cs.LG]目的：ソーシャルボット検出の精度向上
- ソーシャルメディアにおけるボットの活動は，情報操作や世論誘導につながるため，検出が重要である。
- 既存のグラフベースの検出手法は，ソーシャルグラフの構造的特徴を捉えきれていないという課題がある。
- 異方性双曲グラフモデルを用いて，ソーシャルグラフの構造をより正確に表現し，ボット検出の精度向上を目指す。
- 提案手法SAHGは，方向依存の曲率場を学習することで，構造方向ごとの幾何学的解像度を適応的に調整する。
- SAHGは，アカウントレベルの特徴とグラフ近傍の表現を独立したチャンネルでエンコードし，分類器でのみ統合することで，汚染された集約の影響を抑制する。
- Fox8-23，BotSim-24，MGTABの3つのベンチマークにおいて，SAHGは他の手法と比較して最高の精度とF1スコアを達成した。
Link: https://arxiv.org/abs/2605.30166
解離的アイデンティティ：言語モデルエージェントは評判メカニズムのための基盤を欠く [cs.CY, cs.AI, cs.MA]目的：言語モデルエージェントにおける評判メカニズムの適用可能性に関する考察
- 自律エージェントの普及に伴い，信頼性の担保が重要課題となっている。
- 既存の評判システムは，継続的なアイデンティティと制裁への感受性を前提としている。
- 言語モデルエージェントの特性が，評判メカニズムの適用を困難にする点を指摘する。
- 言語モデルエージェントは，構成要素の変更や攻撃に脆弱な解離的アイデンティティを持つ。
- この解離性により，識別性，予測可能性，信頼性，更生可能性といった評判メカニズムの基盤が失われる。
- 評判に基づく規制ではなく，観察可能性に基づく事前的な行動制御メカニズムへのシフトを提唱する。
Link: https://arxiv.org/abs/2605.30169
ビジョン言語モデルにおける視覚的数え上げのボトルネックの解明 [cs.MM, cs.CV, cs.LG]目的：視覚的数え上げにおけるボトルネックの特定
- 大規模なビジョン言語モデルの性能向上は，多様な応用を可能にする上で重要である。
- 既存のモデルは，体系的な一般化，特に視覚的数え上げにおいて深刻な問題を抱えている。
- モデルが数え上げに失敗する根本的な原因を解明し，改善策の方向性を示す。
- 視覚的特徴抽出器は，外挿領域においても数量に関する頑健な表現を維持していることが示された。
- モデルは数量比較推論は可能だが，数量を記号トークンにマッピングする際に失敗していることが判明した。
- モデルは普遍的な数空間を獲得できておらず，モダリティ固有の統計的多様体を学習しているという仮説が支持された。
Link: https://arxiv.org/abs/2605.30170
iLoRA：潜在的相互作用グラフを用いたベイズ低ランク適応によるマイクロバイオーム診断 [cs.LG, cs.AI]目的：マイクロバイオーム診断における潜在的相互作用グラフの推論と，それに基づく低ランク適応
- マイクロバイオームは疾患との関連が示唆され，その解析は医療における重要な課題である。
- 従来のLoRAは静的な低ランク更新に依存し，微生物間の相互作用といった潜在的な構造を捉えにくい。
- 入力データから潜在的相互作用グラフを推論し，それに基づいた適応を行うことで，診断精度と解釈性を向上させる。
- iLoRAは，従来のLoRAやベイズ適応と比較して，性能が向上した。
- 推論されたグラフは，人間の注釈やコホートレベルの微生物間関連と一致した。
- グラフ分岐のオーバーヘッドは適度でありながら，不確実性の推定精度も高かった。
Link: https://arxiv.org/abs/2605.30179
AI気象モデルは2週間を超える予測が可能か：定量的なベンチマークと長期ロールアウトの分析 [eess.SY, cs.SY, cs.LG, physics.ao-ph]目的：AI気象モデルの長期予測性能の評価と，その不安定性の分類
- 気象予測は，社会経済活動や人々の生活に不可欠であり，その精度向上は重要な課題である。
- AI気象モデルは短期・中期予測に優れる一方，2週間を超える長期予測では不安定性が顕著となる。
- AI気象モデルの長期予測における不安定性の原因を特定し，安定性を向上させる方法を探る。
- AI気象モデルの長期ロールアウトにおける不安定性は，爆発，ドリフト，季節性の喪失という3つのパターンに分類された。
- 安定したモデルは，高周波エネルギーの増幅を抑制し，ノイズ除去フィルターとして機能することが示された。
- 安定したモデルは，初期状態に基づいて独自な気象軌跡を生成する能力を持つことが確認された。
Link: https://arxiv.org/abs/2605.30184
教育用LLMエージェントのモジュール化：責任ある学習支援の促進 [cs.AI, cs.CY]目的：教育における責任あるAI利用に貢献するための，演習問題解決を支援するエージェントAIチャットボットのアーキテクチャ
- 教育現場におけるAIチャットボットの普及は学習に変革をもたらすが，責任ある導入が不可欠である。
- LLMは教育科学の知見にアクセスできるものの，教育原則を必ずしも遵守せず，学習能力低下のリスクがある。
- 本研究は，LLMベースの教育システムにおける構造的欠点を克服し，より制御可能で透明性の高い学習支援を目指す。
- 本研究では，演習問題解決の各段階に対応するモジュールを提案し，教育的助言を組み込むことで，より責任あるAI利用を促進する。
- モジュール化されたアーキテクチャにより，学習プロセスを制御しやすく，透明性と管理可能性を高めることが可能となる。
- 教育現場におけるAIの負の影響を軽減し，学習者の批判的思考力や創造性を育むことを目指す。
Link: https://arxiv.org/abs/2605.30187
CalArena：大規模事後キャリブレーションベンチマーク [cs.LG, cs.AI, stat.ML]目的：事後キャリブレーション手法の有効性評価
- 機械学習の信頼性向上に不可欠であり，確率推定の精度が重要視される。
- 既存手法の比較が難しく，どの手法が効果的か判断が困難である。
- 大規模なベンチマークを提供し，効果的なキャリブレーション手法を特定する。
- 滑らかなキャリブレーション関数が，ビン分割に基づく手法よりも優れていることが示された。
- 高次元設定では，多クラス分類に特化した手法が不可欠であることが明らかになった。
- 汎用的な機械学習モデルは，キャリブレーション設計なしには競争力がないことが示唆された。
Link: https://arxiv.org/abs/2605.30188
LoRAアダプターのバックドア：攻撃の特性評価と行動検出 [cs.CR, cs.AI, cs.CL, cs.LG]目的：LoRAアダプターにおけるトークンレベルでの汎化性を持つバックドア攻撃の特性評価と，その行動検出手法の開発
- 大規模言語モデルの利用拡大に伴い，そのセキュリティ確保が重要課題となっている。
- ファインチューニングされたLLMの流通形式であるLoRAアダプターへの攻撃に対する脆弱性が懸念されている。
- LoRAアダプターに潜むバックドア攻撃を検出し，安全なLLM利用環境を構築すること。
- LoRAアダプターは，訓練データ汚染によって信頼性高くバックドア攻撃を受けやすく，ベースライン性能を維持したまま攻撃が成功する。
- このバックドアは，構造的なパターンではなくトークンレベルで汎化し，攻撃者は防御側の検出を回避しやすい。
- 提案手法は，2つの統計量に基づき，バックドア攻撃を受けたアダプターを高精度に検出可能であり，アダプターのサプライチェーンスキャンに有効である。
Link: https://arxiv.org/abs/2605.30189
平均場拡散器：オフラインMARLを数千エージェントに拡張 [cs.LG]目的：多数エージェントシステムにおけるオフライン強化学習のスケールアップ
- マルチエージェント強化学習は，複雑な協調行動を学習する上で重要である。
- 多数エージェント環境では，状態空間の次元の呪いが計算困難となる。
- 平均場近似により，計算コストを削減し，大規模なエージェント数に対応する。
- MF-Diffuserは，軌道分布のWasserstein空間に計画を拡張するフレームワークである。
- 価値重み付きカオスエントロピー目的関数により，生成精度と報酬の最大化を両立している。
- 実験結果から，MF-Diffuserは，特に劣悪なオフラインデータや大規模なエージェント数において，高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.30190
メタプラスチック二値ベイジアンニューラルネットワークを用いた活性継続学習 [cs.LG]目的：変化する条件下における継続学習と信頼性の低い予測の検出
- 常時稼働の組み込みシステムにおいて，限られた計算資源下での継続的な学習が重要である
- 既存のベイジアン二値ニューラルネットワークは，長期間にわたる非定常的なデータストリームにおいて性能が飽和しやすい
- 安定性，可塑性，忘却のバランスをとり，飽和を防ぐことで継続学習を可能にする
- 提案手法BiMUは，安定性と不確実性の維持を両立し，オンラインでの能動クエリを可能にする。
- Permuted-MNISTの1000タスクにおいて，継続的な学習と外れ値検出性能が確認された。
- OpenLORIS-Objectでは，クラス不均衡や特徴圧縮下で最大32倍のラベル/更新削減を実現した。
Link: https://arxiv.org/abs/2605.30198
両刃の剣か，鋭利な道具か：大規模K-12ライティング教育のためのLLM-教師連携の設計と評価 [cs.AI]目的：大規模K-12ライティング教育におけるLLM，教師，生徒の三者連携メカニズムの有効性
- 教育現場におけるLLM活用は，学習効果の向上や教師の負担軽減に貢献する可能性を秘めている。
- LLMの導入は，質の低いフィードバックや教師の専門性低下といった課題を引き起こす可能性がある。
- 本研究は，LLMと教師の連携による効果的なライティング指導方法を確立し，教育現場への導入を促進することを目指す。
- LLMを生成エンジンとして活用することで，教師の負担を軽減し，ライティング教育の質を向上させることが確認された。
- 教師は，フィードバックの質を保証する上で重要な役割を果たしており，LLMと教師の連携が不可欠であることが示された。
- 学生の習熟度に応じてLLMの活用レベルを動的に調整することで，さらなる学習効果が期待できることが示唆された。
Link: https://arxiv.org/abs/2605.30200
ヒステリシス最適化：スパース報酬下での安定かつ効率的な学習 [cs.LG, cs.AI]目的：スパース報酬環境下における強化学習の安定性と効率性の向上
- 強化学習は，様々な課題において自律的な意思決定を可能にする重要な技術である。
- スパース報酬環境下では，探索が困難であり，学習が停滞しやすいという課題がある。
- 負の利点を持つ更新の影響を軽減し，報酬の少ない初期段階での学習を改善する。
- 提案手法であるHPOは，GRPO形式の強化学習における負の利点を持つ更新の重みを軽減することで，学習の安定性を向上させる。
- 適応型HPO(A-HPO)は，バッチレベルの利点符号統計に基づいてヒステリシス重みを調整し，チューニングの必要性を減らす。
- 実験の結果，A-HPOはGRPOと比較して，特にスパース報酬の初期段階で報酬あたりの更新回数を改善し，SAPOやGSPOを上回る性能を示した。
Link: https://arxiv.org/abs/2605.30201
商用チャットにおける検索拡張型ブランド推奨へのペルソナ条件付け：知名度層別クロスプロバイダー監査 [cs.IR, cs.AI]目的：AIアシスタントによるブランド推奨における，購入者のペルソナが推奨結果に与える影響の評価
- AIを活用した商用チャットは，顧客への推奨を通じてビジネスを促進する上で重要な役割を担う。
- AIによるブランド推奨は，購入者の属性や状況によって大きく変動する可能性があるが，その影響は十分に解明されていない。
- 本研究は，購入者のペルソナがブランド推奨に与える影響を定量的に評価し，そのメカニズムを解明することを目的とする。
- ペルソナ情報を付加することで，推奨されるブランドの類似性は平均で0.12～0.20低下した。
- 知名度の高いブランドはペルソナの影響を受けにくい一方，中小規模のブランドは推奨されるブランドが大きく変動する傾向が見られた。
- AnthropicモデルはOpenAIモデルと比較して，ペルソナの影響を受けやすい傾向が示された。
Link: https://arxiv.org/abs/2605.30207
Metaにおける低リスクなコードレビューの自動化：RADAR，リスク調整，レビュー効率 [cs.SE, cs.AI]目的：AI支援によるコードレビュー自動化システムの導入と評価
- ソフトウェア開発におけるAIの活用が進み，コード生成量が急増している。
- コードレビューのボトルネックが深刻化し，レビューの遅延や品質低下が懸念されている。
- AI生成コードのレビューを自動化することで，レビューの効率化と安全性の確保を目指す。
- RADARは535,000件以上のdiffをレビューし，そのうち331,000件以上を自動承認した。
- Diff Risk Scoreの閾値を緩和することで，承認率は60.31%に向上した。
- RADARでレビューされたdiffのリバート率は非RADARdiffの1/3，本番環境でのインシデント発生率は1/50に減少した。
Link: https://arxiv.org/abs/2605.30208
不規則かつ非同期データのオンラインLog-NCDEsのための忠実な埋め込み [cs.LG]目的：不規則かつ非同期データの埋め込み手法
- 不規則・非同期データは現実世界に多く存在し，そのモデリングは重要である。
- 従来の埋め込み手法は再構成に依存し，その選択がモデル性能に影響する。
- 再構成を不要とし，連続的かつ単射な埋め込みによりデータ空間での普遍性を実現する。
- 提案手法は観測値を増分として記録し，任意の区間に対して直接ログ署名を構成する。
- この手法は変数の補間を先に行わずに区間レベルの要約を提供し，オンライン計算を可能にする。
- 実験結果から，提案手法は不規則，非同期，疎な観測に対して正確，効率的，かつロバストであることが示された。
Link: https://arxiv.org/abs/2605.30213
MarginGate: スパースなマージンによるトリガー検証 – バッチ不変なLLM推論 [cs.LG, cs.PF]目的：バッチ処理におけるLLM推論の決定性を確保するための検証手法
- 大規模言語モデル(LLM)の推論再現性は，信頼性と公平性を担保する上で重要である。
- LLM推論は，バッチ処理によって結果が変動する問題があり，再現性が低い。
- マージンに基づいて検証対象を絞ることで，効率的な決定性確保を目指す。
- MarginGateは，低マージンステップのみを検証することで，既存手法よりも効率的に決定性を回復する。
- Llama-3.1-8BやQwen2.5-14Bにおいて，18.56%/15.05%のトリガー率で100%の決定性を達成した。
- LLM-42と比較して，推論遅延の増加を2.23倍/1.99倍削減することに成功した。
Link: https://arxiv.org/abs/2605.30218