arXiv雑要約

AI - 2026/02/02 公開

  • シャープネス誘導による確率形状化を用いたグループ相対方策最適化 [cs.LG]目的:大規模言語モデルの推論能力向上を目指す検証可能な報酬付き強化学習における,グループ相対方策最適化の汎化性能の改善
    • 大規模言語モデルの推論能力は,様々なタスクにおいて重要な役割を担うため,その向上は喫緊の課題である。
    • 検証可能な報酬付き強化学習では,汎化性能の制御が難しく,過学習による性能低下が懸念される。
    • 勾配のシャープネスに着目し,急激な更新を抑制することで,汎化性能を向上させることを目指す。
    • 提案手法GRPO-SGは,GRPOと比較して,数学的推論,論理パズル,ツールを活用した質問応答タスクにおいて一貫した性能向上を示した。
    • GRPO-SGは,勾配ノルムの変動を抑制し,最適化の安定化に貢献することが確認された。
    • GRPO-SGは,RLVRにおけるGRPOの汎化性能を向上させるための,シンプルかつ効果的な改良法である。

    Link: https://arxiv.org/abs/2511.00066

  • 視覚言語モデルのための潜在的ドメインプロンプト学習 [cs.LG, cs.AI]目的:ドメイン汎化
    • 実世界への応用には,モデルのドメインシフトへの頑健性が不可欠である。
    • 既存手法はドメインラベルに依存しており,ラベルの利用可能性や曖昧さが課題となる。
    • ドメインラベルなしで,潜在的ドメインの組み合わせによる知識転移を実現する。
    • 潜在的ドメインクラスタリングとドメイン固有のテキスト特徴の融合により,性能が向上した。
    • 既存の視覚言語モデルと比較して,一貫した改善が見られた。
    • ドメインシフト下での頑健性向上に関する新たな知見が得られた。

    Link: https://arxiv.org/abs/2511.00067

  • 陳腐化した更新の活性化:非同期連合学習のためのデータフリー知識蒸留 [cs.LG]目的:非同期連合学習における陳腐化した更新の知識蒸留による活性化
    • 連合学習はデータ共有なしにモデルを学習可能だが,大規模な環境では同期コストが課題である。
    • 非同期学習は効率化するが,古いモデルに基づく更新が最適化を不安定化させる。
    • 本研究は,データフリー知識蒸留により陳腐化した更新を有効活用し,学習の安定化と高速化を目指す。
    • 提案手法FedReviveは,データアクセスなしに知識蒸留を用いて,古いクライアント更新から現在のグローバルモデルへ知識を伝達する。
    • メタ学習により生成された疑似サンプルを用いることで,複数教師からの知識蒸留を効率的に行う。
    • 実験結果から,FedReviveは既存手法と比較して,最大38.4%高速化,最大16.5%の精度向上を達成した。

    Link: https://arxiv.org/abs/2511.00655

  • ランク2部分空間分解による多段階知識相互作用分析 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける知識相互作用の多段階分析
    • 言語モデルの説明可能性を高める上で,外部知識と内部知識の相互作用理解は不可欠である。
    • 従来の分析では,知識の相互作用を単純な二値選択として捉え,複雑な相互関係を捉えきれていない。
    • より高精度な知識分解により,多段階にわたる知識相互作用を詳細に分析することを目的とする。
    • ランク2部分空間を用いることで,従来のランク1部分空間では捉えきれなかった多様な知識相互作用を効果的に表現することができた。
    • 支持的な相互作用では内部知識との整合性が高く,矛盾する相互作用では外部知識との整合性が高いことが示された。
    • 幻覚的な生成は内部知識方向に強く整合し,文脈に忠実な生成は内部知識と外部知識のバランスが取れていることが明らかになった。

    Link: https://arxiv.org/abs/2511.01706

  • KVキャッシュTTLによる効率的かつ堅牢なマルチターンLLMエージェントスケジューリング [cs.OS, cs.AI, cs.NI]目的:マルチターンエージェントワークロードにおけるジョブ完了時間の最適化
    • LLMの推論効率化において,KVキャッシュの管理は不可欠である。高性能なLLM活用には,効率的なキャッシュ管理が求められる。
    • エージェントワークロードでは,ツールとの連携によりLLM呼び出しに一時停止が生じ,KVキャッシュの再利用が阻害されるという課題がある。
    • ツールの実行時間変動に対応しつつ,KVキャッシュのTTLを最適化することで,ジョブ完了時間の短縮と安定化を目指す。
    • Continuumは,KVキャッシュにTTLを設定し,GPUメモリにピン留めすることで,マルチターンにおけるKVキャッシュの再利用を促進する。
    • TTLは,再計算コストとKVキャッシュ保持によるメリットを考慮して決定され,期限切れ時には自動的にキャッシュが削除される。
    • SWE-BenchとBFCLを用いた評価により,Continuumがジョブ完了時間を大幅に改善し,ターン数増加に伴い改善幅が拡大することが示された。

    Link: https://arxiv.org/abs/2511.02230

  • フローマッチングによるマルチエージェント協調 [cs.LG, cs.AI, cs.RO]目的:マルチエージェント協調のためのフレームワーク
    • 複雑な環境下での協調行動は,ロボット工学や社会システムの効率化に不可欠である。
    • 既存手法は,協調性の表現力と計算効率のトレードオフに陥りやすい。
    • オフラインデータから協調行動を学習し,高速な意思決定を可能にすること。
    • 本研究で提案するMAC-Flowは,フローベースの表現を用いてこのトレードオフを解消する。
    • 実験の結果,拡散モデルベースの手法と比較して約14.5倍の高速な推論が可能であることが示された。
    • ガウス方策ベースの手法と同程度の推論速度を維持しつつ,良好な性能を達成した。

    Link: https://arxiv.org/abs/2511.05005

  • パス・近傍集約によるグラフニューラルネットワークの論理表現力の向上 [cs.CL, cs.AI]目的:グラフニューラルネットワークにおける論理表現力の向上
    • 知識グラフ推論において,グラフ構造のモデリングは重要であり,GNNはその有効性が示されている。
    • 既存研究は単純なグラフに焦点を当てており,知識グラフ内の論理規則表現におけるGNNの能力は未解明である。
    • 推論経路上のノード・近傍埋め込みを集約することで,GNNの論理表現力を強化し,その限界を克服すること。
    • 提案手法PN-GNNは,既存手法C-GNNよりも厳密に強い表現力を持つことが理論的に示された。
    • PN-GNNの(k+1)ホップ論理表現力は,kホップよりも厳密に優れていることが証明された。
    • 合成データセットと実データセットでの実験により,PN-GNNが汎化性能を損なうことなく論理規則表現力を向上させることが確認された。

    Link: https://arxiv.org/abs/2511.07994

  • SiDGen:タンパク質リガンド生成のための構造情報を活用した拡散モデル [cs.LG]目的:タンパク質リガンドの生成
    • 構造ベースの薬物設計は,創薬において重要な役割を担う。
    • タンパク質の長さが長くなるほど計算コストが大きくなる点が課題。
    • 計算効率と精度を両立するリガンド生成手法を開発する。
    • SiDGenは,トポロジカル情報ボトルネックを用いて,計算コストを削減しつつ高精度なリガンド生成を実現した。
    • CrossDocked2020およびDUD-Eのベンチマークにおいて,最先端の性能を達成した。
    • メモリ使用量と計算コストの大幅な削減に成功し,スケーラブルな創薬パスを提示した。

    Link: https://arxiv.org/abs/2511.09529

  • 問題提起の学習:大規模推論モデルのための推論駆動型・ソルバー適応型データ合成 [cs.AI, cs.CV]目的:大規模推論モデルの訓練のためのデータ合成手法
    • 推論モデルの性能向上には大量の学習データが必要であり,データ収集の効率化が課題である。
    • 既存手法では,ソルバーの能力を考慮しない問題生成や,問題の難易度調整の複雑さが問題となっている。
    • ソルバーの能力に適応し,推論に基づいた問題生成により,より効果的な学習データを提供する。
    • 提案手法は,問題設計における中間的な思考過程(CoT)を組み込むことで,問題生成の質を向上させている。
    • ソルバーからのフィードバックを報酬信号として活用し,問題の難易度を調整し,ソルバーの能力限界付近の問題を生成する。
    • 10の数学および汎用推論ベンチマークにおいて,平均で3.4%の性能向上を達成し,言語モデルと視覚言語モデルの両方で汎化性能を示した。

    Link: https://arxiv.org/abs/2511.09907

  • 良質なものから動的な敵対的状況まで:大規模言語モデルのためのスクイッドゲーム [cs.CL, cs.AI]目的:大規模言語モデルの評価フレームワークにおける信頼性確保のための検討
    • 大規模言語モデルの性能評価は,その実用性と安全性を保証する上で不可欠である。
    • 既存の評価ベンチマークは,データ汚染や静的な設定に依存する問題がある。
    • 動的な敵対的環境下での言語モデルの挙動を評価し,よりロバストな評価手法を確立すること。
    • スクイッドゲームは,リソース制約と非対称な情報を持つ環境下で,LLM同士が対戦するインタラクティブな評価環境である。
    • 50以上のLLMを評価した結果,同じモデル系統内での性能に明確な世代交代が見られた。
    • 一部のモデルがゲームに勝つために推測的なショートカットを使用することが示唆され,静的ベンチマークにおける評価パラダイム汚染の可能性が示された。

    Link: https://arxiv.org/abs/2511.10691

  • 悪意のあるウェブベースLLMエージェントのためのAIキルスイッチ [cs.CR, cs.AI]目的:悪意のあるウェブベースLLMエージェントの即時停止
    • ウェブベースLLMの利用拡大に伴い,利便性向上と同時に悪用リスクも増大している。
    • 個人情報窃取,有害コンテンツ生成,ウェブハッキングなど,悪意ある利用事例への対策が急務である。
    • LLMエージェントの安全機構をトリガーする防御プロンプト生成により,悪意ある動作を阻止する。
    • AutoGuardは,ウェブサイトのDOMに防御プロンプトを埋め込み,悪意あるエージェントのクローリングをトリガーすることで動作を停止させる。
    • GPT-4o,Claude-4.5-Sonnetなど多様なエージェントに対し,80%を超える防御成功率(DSR)を達成した。
    • GPT-5.1やGemini-3-proといった高度なモデルにも有効であり,実環境下での性能劣化も少ない。

    Link: https://arxiv.org/abs/2511.13725

  • 局所的差分プライバシー下での最適な公平性 [cs.LG, cs.CR, stat.ML]目的:データ不公平性を軽減し,下流の分類における公平性を向上させる局所的差分プライバシー(LDP)メカニズムの最適設計
    • 個人情報保護とデータ活用は相反する課題であり,プライバシー保護を維持しつつデータ分析を行う重要性が高まっている。
    • 既存のLDPメカニズムでは,データ不公平性の軽減と分類精度の両立が難しいという課題があった。
    • バイナリおよび多値の機密属性に対し,データ不公平性を最適化するLDPメカニズムを開発し,公平性と精度のトレードオフを改善する。
    • 提案手法は,様々なデータセットと公平性指標において,既存のLDPメカニズムよりもデータ不公平性の軽減において一貫して優れた性能を示すことが実証された。
    • 公平性・精度トレードオフの観点から,既存の公平性介入手法と比較して,より有利な結果が得られ,機密属性のプライバシーも同時に保護される。
    • 差別・精度最適化分類器において,データ不公平性の軽減は分類不公平性の低下に繋がり,プライバシー保護と公平性の両立が可能となることが理論的に示された。

    Link: https://arxiv.org/abs/2511.16377

  • 幾何的 disentanglement によるアンラーニング [cs.LG, cs.AI, cs.CL]目的:LLMにおける忘却と保持のトレードオフ軽減
    • LLMはプライベートデータや有害な情報を記憶し得るため,情報削除が重要である。
    • 従来のアンラーニング手法はヒューリスティックであり,理論的アプローチは更新時の影響を捉えにくい。
    • 保持知識の劣化を抑えつつ,忘却を効率的に行うアンラーニング手法の開発。
    • 提案手法GUは,パラメータ更新時の局所的な保持不変性を保証し,忘却と保持のトレードオフを軽減する。
    • GUは既存の勾配ベースアンラーニング手法に容易に組み込むことができ,忘却効果を強化し,保持知識の劣化を抑制する。
    • TOFU, MUSE, WMDP-cyberにおける実験で,GUはSimNPOと組み合わせることで,最大62%の忘却強度向上,31%の保持強度向上を達成した。

    Link: https://arxiv.org/abs/2511.17100

  • 残差ハイブリッド量子古典モデルにおける読み出し側バイパス [cs.RO, cs.CL, cs.CL, cs.RO, cs.CR, cs.DC, cs.LG]目的:量子機械学習モデルの性能向上とプライバシー保護
    • 量子機械学習は,コンパクトかつ表現力豊かな表現が可能だが,量子から古典への読み出しのボトルネックが課題である。
    • 読み出しのボトルネックは,性能を制限し,プライバシーリスクを増大させる。
    • 読み出し側のボトルネックを回避し,量子モデルをプライバシー保護とリソース制約のある環境に統合すること。
    • 提案手法は,集約型および連合学習設定の両方において,純粋な量子モデルや既存のハイブリッドモデルを凌駕する性能を示す。
    • 量子ベースラインと比較して,最大55%の精度向上を達成しつつ,低い通信コストとプライバシー保護の堅牢性を維持する。
    • 残差接続が量子古典インターフェースにおいて有効であることが,消去研究によって確認された。

    Link: https://arxiv.org/abs/2511.20922

  • 食事制限における遺伝子優先度決定のための高速mRMR特徴選択技術 [cs.LG]目的:食事制限に関連する遺伝子の優先度決定
    • ゲノムデータ解析の進展により,生物学的プロセスに関わる遺伝子の特定が重要になっている。
    • バイオメディカルデータの高次元性や不完全なラベル付けが,既存手法の課題となっている。
    • 関連性の高い特徴量のみを選択し,遺伝子優先度決定の精度と効率を向上させる。
    • 高速mRMR特徴選択を用いることで,ノイズの蓄積を抑制し,異種生物学的特徴量の統合が可能となった。
    • 食事制限に関連する遺伝子の優先度決定において,既存手法と比較して有意な改善が認められた。
    • 本パイプラインは,高次元オミクスデータにおける信頼性の高い遺伝子優先度決定に不可欠である。

    Link: https://arxiv.org/abs/2511.21211

  • LLM生成物語における文化的表象の分類と分析:TALES [cs.HC, cs.AI, cs.CL, cs.CY]目的:LLM生成物語におけるインドの多様な文化的アイデンティティの文化的誤表現の評価
    • AIチャットボットの利用拡大に伴い,多様な文化の表象を理解する重要性が高まっている。
    • オープンエンドなタスクにおける文化的表象の評価は難しく,研究が十分に進んでいない。
    • LLM生成物語における文化的誤表現の類型化と,その実態の定量的な把握を目指す。
    • LLM生成物語の88%に文化的誤表現が含まれていることが判明した。
    • 誤表現は,資源の少ない言語やインドの都市近郊を舞台とした物語でより多く見られた。
    • 文化的知識評価用の質問集「TALES-QA」を構築し,モデルの知識評価に活用できることを示した。

    Link: https://arxiv.org/abs/2511.21322

  • ChartAnchor:構造的・意味的忠実性に基づいたグラフの接地 [cs.CL, cs.AI]目的:グラフの視覚的特徴と構造化された意味論との間の双方向アライメントの評価基準
    • マルチモーダル大規模言語モデルの発展に伴い,グラフの構造理解を厳密に評価する基準が求められている。
    • 既存の評価基準は,グラフの種類が限られていたり,評価が不十分であったりするため,包括的な評価が困難である。
    • 多様なグラフに対応し,視覚的・数値的な忠実性を検証する包括的な評価基準を構築すること。
    • ChartAnchorは,30種類のグラフを含む8,000以上のグラフ・表・コードのトリプルからなる包括的な評価基準である。
    • グラフからコードの生成と,制御されたグラフから表への再構成という2つの補完的なタスクを導入し,視覚的・数値的な忠実性を相互検証する。
    • 実験の結果,既存のマルチモーダル大規模言語モデルは数値精度やコード合成に限界があることが明らかになった。

    Link: https://arxiv.org/abs/2512.01017

  • 周波数適応型マルチモーダル推薦のための構造化スペクトル推論 [cs.IR, cs.AI]目的:周波数適応型マルチモーダル推薦のための構造化スペクトル推論手法
    • 推薦システムの精度向上は,ユーザーエクスペリエンスとビジネス価値の向上に不可欠である。
    • マルチモーダル推薦では,ノイズ,セマンティックな不整合,グラフ上の不安定な伝播が課題となる。
    • 周波数領域におけるスペクトル構造の推論により,ロバストで適応的な推薦を目指す。
    • 提案手法は,グラフ誘導変換によりマルチモーダル信号をスペクトルバンドに分解し,セマンティックな粒度を分離する。
    • スペクトルバンドマスクを用いたバンドレベルの信頼性調整により,不安定な周波数成分を抑制する。
    • 低ランクのクロスバンド相互作用によるハイパースペクトル推論で,補完的な周波数情報を融合し,コントラスト正則化によりモダリティ固有のスペクトル特徴を整列させる。

    Link: https://arxiv.org/abs/2512.01372

  • Transformerの平均場ダイナミクス [cs.LG, math-ph, math.DS, math.MP, math.PR]目的:Transformerの注意機構の平均場ダイナミクス
    • 深層学習モデルの解釈可能性向上は,AI技術の信頼性と発展に不可欠である。
    • Transformerの内部動作は複雑であり,表現崩壊や学習の不安定性が課題となっている。
    • Transformerにおける表現崩壊のメカニズム解明と,安定的な学習条件の特定。
    • Transformerの注意機構を相互作用粒子系として解釈する数学的枠組みを開発した。
    • 長文脈において,トークンが複数のクラスターに漸近的に集まるグローバルクラスタリング現象が確認された。
    • 正規化方式が収縮速度に影響を与え,長文脈注意における相転移が特定された。

    Link: https://arxiv.org/abs/2512.01868

  • 暗黙的正則化を用いた多重測定ベクトルに対するチューニングフリーな構造的疎回復 [cs.LG, stat.ML]目的:多重測定ベクトル設定における共同疎信号の回復
    • 機械学習において,信号処理やデータ解析の基礎となる重要な課題である。
    • 従来の回復手法は,パラメータ調整や信号・ノイズの疎性の事前知識を必要とする。
    • 事前知識なしに,過パラメータ化による暗黙的正則化でこの問題を解決する。
    • 提案手法は,最適なパラメータ調整を必要とせず,既存手法と同等の性能を達成する。
    • 特に,事前知識が利用できない状況において,既存手法を大きく上回る性能を示す。
    • 初期化と勾配降下法により,真のサポートが著しく高速に成長する「モーメンタム様効果」が確認された。

    Link: https://arxiv.org/abs/2512.03393

  • 知性の設計図:知覚と表現のための機能的トポロジー的基盤 [cs.CL, cs.LG, math.OC]目的:実世界の現象における知覚と表現の機能的トポロジー的基盤の形式化
    • 知能研究は,人間や動物の知的な能力を理解し,人工知能を開発する上で不可欠である。
    • 従来のAIモデルは,大量のデータが必要であり,人間の学習効率には及ばない点が課題である。
    • 実世界の知覚的多様性のコンパクト性に着目し,少ないデータでの汎化能力を数学的に説明する。
    • 実世界の現象は,機能空間のコンパクトな部分集合に信号が集中しており,少ない事例から迅速に一般化できる。
    • この幾何学的性質は,知識の限界,識別可能性の条件,および疎な証拠からの汎化の保証を提供する。
    • 電気機械,電気化学,生理学的ドメインにおいて,実世界のプロセスは一貫して同じ幾何学的特性を持つコンパクトな知覚多様体を生成する。

    Link: https://arxiv.org/abs/2512.05089

  • 説明可能な強化学習のためのSHAP誘導カーネルActor-Critic [cs.LG]目的:説明可能な強化学習のためのアルゴリズムの提案
    • 強化学習は,自律的な意思決定を行うシステムの構築に不可欠な技術である。
    • 従来の強化学習手法は解釈可能性に乏しく,学習過程の理解が困難である。
    • 状態の特徴量の重要度を考慮し,学習を支援することで解釈性と効率性を向上させる。
    • 提案手法RSA2Cは,状態の重要度を考慮したカーネル化されたActor-Criticアルゴリズムである。
    • RSA2Cは,RKHS-SHAPを用いて状態の重要度を計算し,Actorの勾配とAdvantage Criticの目標値を調整する。
    • シミュレーション実験により,RSA2Cは効率性,安定性,および解釈可能性において良好な結果を示した。

    Link: https://arxiv.org/abs/2512.05291

  • AlignGemini:タスクとモデルのアライメントによる汎用的なAI生成画像検出 [cs.CY, cs.HC, cs.CL, cs.CV, cs.AI]目的:AI生成画像検出の汎用性向上
    • AI生成画像の増加に伴い,その検出技術の重要性が増している。
    • 既存の画像検出モデルは,幻覚や汎化性能の低さといった課題を抱えている。
    • タスクとモデルのアライメントにより,AI生成画像検出の精度と汎用性を高める。
    • 視覚言語モデル(VLM)と従来の画像モデルは,それぞれ異なる特性を持つことが示された。
    • AI生成画像検出を,意味的一貫性のチェックとピクセルアーティファクト検出の2つのサブタスクに分割するアプローチが有効である。
    • AlignGeminiは,それぞれのサブタスクに特化したモデルを組み合わせることで,平均精度を9.5%向上させた。

    Link: https://arxiv.org/abs/2512.06746

  • 次トークンから次ブロックへ:拡散LLMのための原理的な適応経路 [cs.CL, cs.AI]目的:拡散言語モデルへの自己回帰モデルの重み適応方法
    • 大規模言語モデルは様々なタスクで高い性能を示すが,学習には膨大な計算資源が必要となる。
    • 拡散言語モデルは高速な生成が可能だが,ゼロから学習するにはコストがかかる。
    • 既存の適応方法では,適応の最終目標や,より良い適応方法が明確でなかった点を解決する。
    • 自己回帰モデルから拡散言語モデルへの適応をブロック拡散パラダイムに基づき,段階的にブロックサイズを増加させることで実現した。
    • 文脈因果パスの維持,効率的な並列適応手続き,ブロックサイズの漸進的な増加により,スムーズな移行を実現した。
    • 提案手法NBDiff-7Bは,7Bクラスの拡散言語モデルの中で最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.06776

  • 経験進化型多段階ツール使用エージェント:ハイブリッドエピソード・プロシージャルメモリ [cs.LG, cs.AI]目的:多段階ツール使用におけるポリシーの経験に基づく自己進化
    • 複雑な環境でのタスク遂行には,過去の経験の活用が不可欠である。
    • 既存手法では,経験の汎化が難しく,状況に応じた適切な活用が課題である。
    • 文脈と環境を考慮した効率的な経験の再利用による,長期的な学習の改善を目指す。
    • 提案手法は,エピソード記憶とプロシージャル記憶を組み合わせることで,状況に応じた推論とルーチン実行を両立した。
    • 推論時には,過去の成功事例に基づいてツール間の依存関係を考慮し,効率的な行動選択を実現した。
    • 強化学習においても,記憶に基づいて探索を誘導することで,汎化性能の高いポリシーを獲得した。

    Link: https://arxiv.org/abs/2512.07287

  • オフライン決定における予測制御のためのモデルに基づく拡散サンプリング [cs.RO, cs.AI, cs.SY, eess.SY]目的:オフライン決定における拡散モデルを用いた予測制御手法
    • ロボット制御において,データ駆動型のアプローチが注目されており,特にオフライン学習は重要である。
    • 拡散モデルは強力だが,生成される軌道がシステムのダイナミクスと一致せず,制御の信頼性が低いという課題がある。
    • 拡散モデルの計画とダイナミクスモデルを組み合わせることで,タスクに沿った実行可能な軌道生成を目指す。
    • 提案手法MPDiffuserは,計画とダイナミクスの更新を繰り返すことで,実行可能性を向上させつつ,タスクの意図を維持する。
    • 軽量なランキングモジュールにより,タスク目標に最適な軌道を選択することで,サンプル効率と適応性を向上させている。
    • D4RL,DSRLベンチマーク及び実ロボット実験において,既存手法よりも一貫して性能が向上することを示した。

    Link: https://arxiv.org/abs/2512.08280

  • 大規模言語モデルにおけるエージェントループの幾何学的動力学 [cs.LG, cs.AI]目的:大規模言語モデルにおけるエージェントループの動力学的特性
    • 自己改善や思考の連鎖など,反復型LLMシステム利用が拡大しており,その挙動理解が不可欠である。
    • 既存研究は収束時の性能評価に偏り,反復過程における意味内容の進化を無視している。
    • エージェントループの安定性予測や体系的なアーキテクチャ設計を可能にする,動力学的特性の解明を目指す。
    • エージェントループを意味空間における離散的動力学系として定式化し,軌道,アトラクタ,動力学的状態を定義した。
    • 実験により,エージェントループが収縮的,振動的,探求的といった分類可能な動力学を示すことを確認した。
    • プロンプト設計が動力学的状態を直接制御することを示し,安定性分析やループ設計への応用可能性を示唆した。

    Link: https://arxiv.org/abs/2512.10350

  • Null空間制約付き方策最適化による安全アライメント税の緩和 [cs.LG]目的:大規模言語モデルの安全アライメント
    • 現実世界での利用拡大に伴い,倫理的原則との整合性が重要視されている。
    • 強化学習による安全アライメントは,汎用能力の低下を引き起こしやすい。
    • 安全性を確保しつつ,汎用能力の低下を抑制することを目的とする。
    • 提案手法NSPOは,安全性と汎用性の両立を実現し,既存手法を大幅に上回る性能を示した。
    • NSPOは,PKU-SafeRLHFデータを用いて高い安全性能を実現し,汎用タスクの精度を維持する。
    • データ効率にも優れ,既存手法と比較して少ないデータ量で安全アライメントが可能である。

    Link: https://arxiv.org/abs/2512.11391

  • 幻覚の抑制:Merlin-ArthurプロトコルによるRAGシステムの情報理論的保証 [cs.CL, cs.AI, cs.LG]目的:RAGシステムの幻覚抑制のための情報理論的保証
    • 大規模言語モデルの精度向上には,外部知識の活用が不可欠である。
    • RAGシステムは,検索された情報源の信頼性を検証できていない場合がある。
    • 提示された証拠に基づいて応答を生成,拒否,または根拠を示す能力の向上。
    • Merlin-Arthurプロトコルを用いた訓練により,LLMは証拠に基づいた応答を行うようになり,幻覚が減少した。
    • 情報理論的指標(健全性,完全性)が向上し,回答不能なサンプルなしに拒否行動が増加した。
    • 自動生成されたM/Aハードポジティブ/ネガティブにより,検索器の再現率とMRRも向上した。

    Link: https://arxiv.org/abs/2512.11614

  • 重み考慮ロールバックと再構成による二相連合学習の深層アンラーニング [cs.LG]目的:連合学習における標的クライアントデータの削除
    • プライバシー保護の重要性が高まる中で,分散データを用いた機械学習への関心が増している。
    • 既存手法では,サーバー側の知識蒸留に頼り,他のクライアントの貢献に埋め込まれたプライバシーを無視する問題がある。
    • 本研究は,影響力のあるすべての重みを深くアンラーニングすることで,プライバシー漏洩を防ぐことを目指す。
    • DPULは,高重みパラメータの特定とロールバック,低重みパラメータの再構成・除去,射影によるモデル復元を行う。
    • 実験結果から,DPULは既存の最先端手法を上回り,精度が1-5%向上し,時間コストが最大12倍削減されることが示された。

    Link: https://arxiv.org/abs/2512.13381

  • 生成モデルのための確率的輸送としてのランダムブリッジ [cs.LG, math.PR]目的:生成モデリングにおける確率的輸送
    • 生成モデルは,現実的なデータ生成に不可欠であり,様々な応用分野で重要性を増している。
    • 従来の生成モデルは,サンプル生成に多くの計算資源を必要とする場合がある。
    • ランダムブリッジを用いることで,効率的かつ高品質なサンプル生成を目指す。
    • ランダムブリッジは,適切な初期化により2つの確率分布間の確率的輸送として機能する。
    • ガウスランダムブリッジを用いた実験では,従来の方式と比較して,大幅に少ないステップ数で高品質なサンプルを生成できた。
    • 提案手法は計算コストが低く,高速な生成タスクに適していることが示された。

    Link: https://arxiv.org/abs/2512.14190

  • 文脈内半教師あり学習 [cs.LG]目的:文脈内学習におけるTransformerの表現学習能力の向上
    • Transformerは自然言語処理の様々なタスクで高い性能を示すため,そのメカニズムの理解が重要である。
    • 文脈内学習ではラベル付きデータが不足しがちであり,性能向上が課題となっている。
    • ラベルなしデータも活用し,少ないラベルでも高い性能を発揮できる表現学習を目指す。
    • 文脈内半教師あり学習(IC-SSL)において,Transformerがラベルなしの文脈を活用してロバストな表現を学習できることを示した。
    • この表現は精度の高い予測を可能にし,ラベル数が少ない状況での性能を大幅に向上させる。
    • Transformerが文脈内学習の枠組みの中で,ラベルなしの文脈をどのように表現学習に利用しているのか,その基礎的な知見を提供する。

    Link: https://arxiv.org/abs/2512.15934

  • 事前学習済みバッテリーTransformer (PBT):バッテリー寿命予測の基盤モデル [cs.LG, cs.AI]目的:バッテリー寿命予測のための基盤モデルの開発
    • バッテリー研究,製造,実用化を加速するには,早期の寿命予測が不可欠である。
    • 多様な経年劣化条件によるデータ不足と異質性が,機械学習の進展を妨げている。
    • 多様なデータセットから汎用的な知識を獲得し,バッテリー寿命予測の精度向上を目指す。
    • PBTは,13種類のLIBデータセットから転移学習可能な表現を学習し,既存モデルを平均19.8%上回った。
    • 転移学習により,LIB,ナトリウムイオン電池,亜鉛イオン電池を含む15の多様なデータセットで最先端の性能を実現した。
    • 本研究は,バッテリー寿命予測のための基盤モデルの確立を示し,汎用的な予測システムの実現に道を開く。

    Link: https://arxiv.org/abs/2512.16334

  • LLMの高速学習のためのPrimal AveragingによるDiLoCoの平滑化 [cs.LG, cs.AI, stat.ML]目的:LLMの学習加速
    • 大規模言語モデルの学習は計算資源を大量に消費するため,効率的な学習手法が求められている。
    • 既存の分散学習手法は,メモリ消費量が大きく,実装が複雑であるという課題がある。
    • 本研究は,メモリ効率が高く,実装が容易な学習手法を提案し,学習速度の向上を目指す。
    • 提案手法Generalized Primal Averaging (GPA)は,既存のDiLoCoやSchedule-Freeといった手法を一般化し,より効率的な学習を実現する。
    • Llamaモデルを用いた実験では,GPAはAdamWと比較して,目標とする検証損失に到達するまでのステップ数を最大で10.13%削減することに成功した。
    • ImageNet ViT workloadにおいても,GPAは小規模バッチ設定で7%,大規模バッチ設定で25.5%の高速化を達成した。

    Link: https://arxiv.org/abs/2512.17131

  • Helios:スマートエネルギー知識推論と応用のための基盤言語モデル [cs.AI]目的:スマートエネルギー分野における知識推論と応用を目的とした基盤言語モデル
    • 脱炭素化に向けた世界的な動きの中で,スマートエネルギーシステムの高度な連携が産業変革の鍵となる。
    • スマートエネルギー分野は学際的で断片化されており,知識が急速に変化するため,汎用LLMでは正確な推論が困難である。
    • この研究は,スマートエネルギー分野に特化したLLMを開発し,その性能向上を目指す。
    • Heliosは,スマートエネルギー分野に特化した大規模言語モデルであり,その開発に不可欠なリソース群を公開した。
    • Enersysというマルチエージェント協調フレームワークを用いて,知識ベース,命令チューニングデータセット,RLHFデータセットを構築した。
    • EnerBenchという評価ベンチマークを用いて,Heliosがドメイン知識の習得,タスク実行の正確性,および人間の嗜好との整合性において大幅な改善を示すことを実証した。

    Link: https://arxiv.org/abs/2512.19299

  • RFベースのドローン検知器に対する現実世界での敵対的攻撃 [cs.CR, cs.LG]目的:RFベースのドローン検知器に対する物理的な敵対的攻撃
    • ドローン利用の増加に伴い,その検知技術の重要性が増している。
    • 既存の攻撃はデジタル特徴量の変更に依存し,無線環境での実現が困難である。
    • 現実的な無線環境で,ドローン検知を妨害する物理的な攻撃手法を開発する。
    • 本研究では,特定のドローンに対して効果的なI/Q摂動波形を生成し,無線通信と同時に送信する手法を提案した。
    • 実験結果から,提案手法はRFチェインとの互換性を保ちつつ,ドローンの検知率を低下させることが示された。
    • また,合法的なドローンの検知性能は維持された。

    Link: https://arxiv.org/abs/2512.20712

  • RefineBridge:基盤モデルによる金融予測を改善する生成ブリッジモデル [cs.LG, eess.SP]目的:金融予測における基盤モデルの性能向上
    • 金融市場の予測は経済活動の安定に不可欠であり,高度な予測モデルの需要が高い。
    • 既存の時系列基盤モデルは,金融データの非定常性やノイズに弱く,予測精度が低い。
    • 本研究は,生成ブリッジモデルを用いて基盤モデルの予測を改善し,金融予測の精度向上を目指す。
    • RefineBridgeは,シュレディンガーブリッジに基づく生成フレームワークを用いて,基盤モデルの予測を段階的に改善する。
    • 実験の結果,RefineBridgeは様々な金融ベンチマークにおいて,最先端の基盤モデルの性能を安定的に向上させる。
    • この手法は,低品質な初期予測からでも,実測値に近づくように学習することで予測精度を高める。

    Link: https://arxiv.org/abs/2512.21572

  • マルチエージェント適応メカニズム設計 [cs.GT, cs.AI, cs.LG, cs.MA, econ.TH]目的:複数エージェントからの真実な報告の引き出し
    • 社会的な資源配分において,エージェントのインセンティブ設計は効率性と公平性を高める上で重要である。
    • エージェントの信念が未知である場合,真実性を保ちつつ最適なメカニズムを設計することは困難である。
    • エージェントの信念を学習しながら,真実性を維持し,累積後悔を最小化する適応メカニズムを開発する。
    • 提案手法であるDRAMは,真実性を高い確率で保証し,累積後悔が$\tilde{O}(\sqrt{T})$で収束することを示した。
    • この後悔の限界は最適であり,真実性を維持する適応メカニズムの性能限界を示している。
    • DRAMは,構造化された事前情報や遅延フィードバックにも対応可能であり,汎用性が高い。

    Link: https://arxiv.org/abs/2512.21794

  • SB-TRPO:厳格な制約条件下の安全な強化学習に向けて [cs.LG, cs.AI]目的:厳格な制約条件下の強化学習における,安全性と報酬のバランス
    • 安全性が重要な分野では,制約条件を満たしながらタスクを達成する必要がある。
    • 既存手法は,安全性の確保と高いパフォーマンスの両立が難しい。
    • 安全性の維持と報酬の向上を両立するアルゴリズムを開発する。
    • SB-TRPOは,報酬とコストの勾配を動的に組み合わせることで,安全性の向上と報酬の改善を両立する。
    • 安全性に関する形式的な保証を持ちながら,勾配の方向が一致する場合に報酬を改善する。
    • Safety Gymnasiumのタスクにおいて,SB-TRPOは安全性とタスク性能の最適なバランスを実現した。

    Link: https://arxiv.org/abs/2512.23770

  • 深層デルタ学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:深層残差ネットワークにおけるショートカット接続の一般化
    • 深層学習は,画像認識や自然言語処理など,様々な分野で目覚ましい成果を上げている。
    • 既存の残差ネットワークは,特徴変換に制約があり,複雑な状態遷移のモデリングが困難である。
    • データ依存的なショートカットを学習することで,より柔軟な特徴表現を獲得し,性能向上を目指す。
    • 深層デルタ学習(DDL)は,固定された恒等写像から学習可能な状態依存線形演算子へのショートカットの一般化を提案する。
    • DDLは,Transformerの残差加算を置き換えることで,検証損失とパープレキシティを改善し,言語モデリングタスクにおける評価精度を向上させる。
    • 特に,拡張状態設定において大きな改善が見られ,ショートカットスペクトルの明示的な制御が可能となる。

    Link: https://arxiv.org/abs/2601.00417

  • IRPM:ポイントワイズ生成報酬モデルのためのグループ間相対選好モデリング [cs.LG, cs.AI]目的:生成報酬モデルにおける選好データの活用効率向上
    • 強化学習による報酬モデルの改良が重要視されている。特に,人間のフィードバックを活用した強化学習において重要。
    • 従来のペアワイズ報酬モデルは,候補数が増加すると計算コストが二乗で増加するという課題がある。
    • グループ間比較を利用した新しいアプローチにより,計算コストを線形に抑えつつ,高精度な報酬モデルを構築する。
    • IRPMは,RM-Bench,JudgeBench,RewardBenchにおいて,ポイントワイズ生成報酬モデルとして最高水準の性能を達成した。
    • IRPMは,最先端のペアワイズ生成報酬モデルの性能に匹敵する結果を示した。
    • 事後評価においても大幅な改善が見られ,IRPMの有効性が確認された。

    Link: https://arxiv.org/abs/2601.00677

  • DanQing:最新の大規模中国語ビジョン言語事前学習データセット [cs.CV, cs.AI]目的:大規模な中国語ビジョン言語データセット
    • 画像とテキストを組み合わせたAI研究は,多様な応用が期待され重要性が高まっている。
    • 中国語のVLPモデル開発は,高品質で大規模なオープンソースデータの不足が課題となっていた。
    • ウェブデータから収集したノイズを軽減し,最新のセマンティック情報を反映したデータセットを構築する。
    • DanQingは,既存の中国語データセットと比較して,多様な下流タスクで優れた性能を示すことが確認された。
    • DanQingは,セマンティック分布のバランスが良く,スケーラビリティに優れているという特徴がある。
    • データセットはCC-BY 4.0ライセンスでオープンソースとして公開され,さらなる研究を促進する。

    Link: https://arxiv.org/abs/2601.10305

  • デコーディング時安全性認識プロービングによる大規模言語モデルの脱獄攻撃からの防御 [cs.AI, cs.CL]目的:大規模言語モデルに対する脱獄攻撃の防御
    • 大規模言語モデルは自然言語処理において高い性能を示し,実世界での応用が拡大している。
    • 安全対策が十分に行われても,脱獄攻撃に対して脆弱性が残ることが課題となっている。
    • デコーディング過程で潜在する安全性信号を活用し,早期に危険な出力を検出することを目指す。
    • 提案手法は,多様な脱獄攻撃に対して安全性を大幅に向上させることを実証した。
    • 無害な入力に対する過剰な拒否率を低く抑えつつ,応答品質を維持することに成功した。
    • デコーディング時の内在的な安全性認識の活性化は,脱獄攻撃に対する有望な防御策となり得る。

    Link: https://arxiv.org/abs/2601.10543

  • ATOD:エージェント型タスク指向型対話システムの評価フレームワークとベンチマーク [cs.CL, cs.AI, cs.MA]目的:エージェント型タスク指向型対話システムの評価
    • 大規模言語モデルの進化により,複雑なタスク実行能力を持つ対話システムが求められている。
    • 既存のベンチマークは,このような高度なエージェント機能の評価に対応できていない。
    • 長期的な推論や多目標協調など,高度な対話機能を評価可能なベンチマークを構築する。
    • ATODは,長期的な推論を必要とする豊富な注釈付き会話を生成するベンチマーク及び合成対話生成パイプラインである。
    • ATOD-Evalは,タスク遂行率,エージェント能力,応答品質を包括的に評価するフレームワークである。
    • 提案する評価器は,既存のメモリベースやLLMベースのアプローチと比較して,精度と効率性のバランスに優れる。

    Link: https://arxiv.org/abs/2601.11854

  • 少ないほど良し:ラベル誘導による手順型・教育的ビデオの要約 [cs.CV, cs.AI]目的:手順型・教育的ビデオの要約手法
    • ビデオの分析・理解を効率化し,教育やドキュメント作成の負担軽減に貢献する分野。
    • 既存手法では,内容の正確性や文脈の一貫性を保ちつつ,要約の長さを短くすることが課題。
    • 意味に基づいた要約により,内容を維持しつつビデオの長さを大幅に削減すること。
    • 本研究で提案するPRISMは,わずか5%以下のフレーム数で,元のビデオの84%のsemantic contentを維持できる。
    • ラベル誘導によるキーフレームの固定化とLLMによる文脈検証により,無意味なフレームの排除を実現。
    • 手順型・教育的ビデオの両方において,既存手法と比較して最大33%の性能向上を達成。

    Link: https://arxiv.org/abs/2601.12243

  • 拡散駆動型合成表形式データ生成によるDoS/DDoS攻撃分類の向上 [cs.CR, cs.AI, cs.LG]目的:DoS/DDoS攻撃分類の性能向上に向けた合成表形式データ生成
    • ネットワークセキュリティにおいて,異常検知は不可欠であり,その精度向上が重要視される。
    • データセット内のクラス不均衡は,モデルの性能を著しく低下させる主要な課題である。
    • 本研究は,クラス不均衡に対処し,ネットワーク攻撃検知の精度を向上させることを目指す。
    • 少数クラスの合成データ生成に,TabDDPM(表形式データに対する拡散モデル)を用いることで,高精度なデータ拡張を実現した。
    • 合成データと元のデータを組み合わせた学習データを用いてANN分類器を訓練し,これまで表現の難しかった攻撃クラスに対する再現率を大幅に向上させた。
    • 拡散モデルが,セキュリティ分野における表形式データのクラス不均衡問題に対する有効な解決策となり得ることを示した。

    Link: https://arxiv.org/abs/2601.13197

  • AgenticRed:自動Red-teamingのためのエージェントシステムの最適化 [cs.AI, cs.NE]目的:自動Red-teamingシステムのデザインと改良
    • 大規模言語モデルの脆弱性を発見し,AIの安全性評価を向上させることは重要である。
    • 既存手法は人間の手動設計に依存しており,偏りや探索コストが高いという課題がある。
    • 人間の介入なしにRed-teamingシステムを自動的に設計・改良し,脆弱性評価の効率化を目指す。
    • AgenticRedは,LLMのインコンテキスト学習を活用し,エージェントシステムの進化形選択によりRed-teamingシステムを自動設計する。
    • Llama-2-7Bでは攻撃成功率96%(36%改善),Llama-3-8Bでは98%を達成し,最先端の手法を上回る性能を示す。
    • GPT-3.5-TurboやGPT-4oでは100%,Claude-Sonnet-3.5では60%(24%改善)の攻撃成功率を記録し,高い汎化性能を示す。

    Link: https://arxiv.org/abs/2601.13518

  • 不規則観測データからの連続時間系列生成のための拡散パラメータ化MoE-NCDE (Diff-MN) [cs.LG, cs.AI]目的:不規則観測データを持つ連続時間系列生成の新しいフレームワーク
    • 時間系列データは多様な分野で利用され,その生成技術は重要性が増している。
    • 既存手法は等間隔サンプリングを前提とする場合が多く,不規則・疎な観測データへの対応が課題。
    • NCDEの汎化性能を高め,不規則データからの連続時間系列生成を可能にすること。
    • Diff-MNは,NCDEにMoE構造と分離設計を導入し,時間変化するダイナミクスをより柔軟に学習する。
    • 拡散モデルを用いてNCDEのパラメータを生成することで,生成されたサンプルへの適応能力を向上。
    • 公開データセットおよび合成データセットで,既存手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2601.13534

  • LLMの信念体系の脆弱性か?戦略的な説得会話介入によるLLMの信念抵抗性の検証 [cs.CL, cs.AI]目的:LLMにおける信念の脆弱性
    • LLMは多様な質問応答タスクで活用が拡大しており,その信頼性が重要視されている。
    • LLMは説得に弱く,誤った信念を受け入れてしまう可能性があるという課題がある。
    • LLMの信念の安定性を評価し,説得に対する抵抗性を高める方法を模索する。
    • LLMの規模が小さいほど,最初の説得ターンで信念が変化しやすいことが示された。
    • メタ認知プロンプティングは,信念の安定性を高めるのではなく,むしろ侵食を加速させる可能性があることが明らかになった。
    • 敵対的ファインチューニングはGPT-4o-miniに対して有効であったが,Llamaモデルは依然として脆弱なままであった。

    Link: https://arxiv.org/abs/2601.13590

  • 科学文献における誤引用検出のためのエージェント的フレームワークBibAgent [cs.DL, cs.AI]目的:科学文献における誤引用の検出
    • 学術的権威の根幹である引用の信頼性確保は重要である。
    • 手作業での検証は困難であり,既存の自動化ツールには限界がある。
    • 全文へのアクセス障壁を克服し,大規模な誤引用検出を可能にする。
    • BibAgentは,検索,推論,証拠集積を統合したスケーラブルなフレームワークである。
    • 特に,アクセス制限のある文献に対しては,ダウンストリーム引用の合意に基づく新規なEvidence Committeeメカニズムを活用する。
    • 大規模なベンチマークMisciteBenchを用いて評価した結果,最先端のLLMよりも高い精度と解釈性を示した。

    Link: https://arxiv.org/abs/2601.16993