arXiv雑要約

AI - 2026/02/03 公開

  • エージェント型強化学習における推論とツール利用の競合:干渉の定量化と分離チューニング [cs.AI]目的:推論とツール利用の干渉定量化および分離チューニング手法
    • 複雑なタスク解決のため,LLMに推論と外部ツール利用を組み合わせるエージェント型強化学習が重要視されている。
    • 推論とツール利用を単一のモデルで学習する際,両者の干渉により最適化が阻害される可能性が指摘されている。
    • 推論とツール利用のパラメータ更新を分離し,干渉を抑制することで性能向上を目指す。
    • 本研究では,推論とツール利用の干渉を定量的に評価するLEASを導入し,両者の勾配方向の不整合を示す。
    • 提案手法DARTは,推論とツール利用のパラメータ更新を分離することで,既存手法と比較して平均6.35%の性能向上を達成した。
    • DARTは,ツール利用と推論を明示的に分離するマルチエージェントシステムと同等の性能を示す。

    Link: https://arxiv.org/abs/2602.00994

  • DeALOG: 分散型マルチエージェントログ媒介推論フレームワーク [cs.CL, cs.AI]目的:マルチモーダル質問応答のための分散型マルチエージェントフレームワーク
    • テキスト,表,画像など多様な情報源を統合した複雑な質問応答が求められている。
    • 個々の処理に特化しつつ,連携と解釈可能性を確保するフレームワークが不足している。
    • エージェント間の連携とエラー検出能力を高め,ロバストな質問応答を実現する。
    • DeALOGは,テーブル,文脈,視覚,要約,検証のエージェントが自然言語ログを介して協調する。
    • ログベースのアプローチにより,中央制御なしにエラー検出と検証が可能となり,堅牢性が向上する。
    • FinQA,TAT-QA等6つのデータセットで競争力のある性能が確認された。

    Link: https://arxiv.org/abs/2602.00996

  • エラータクソノミーに基づくプロンプト最適化 [cs.AI, cs.CL, cs.LG]目的:大規模言語モデルの性能を引き出すプロンプト最適化手法
    • 大規模言語モデルの活用において,プロンプトの質が性能に大きく影響する
    • 従来のプロンプト最適化は試行錯誤に頼る部分が大きく,計算コストが高い
    • エラーの種類を分類し,頻度の高いエラーに対応するプロンプトを生成することで効率化を目指す
    • 提案手法ETGPOは,数学,質問応答,論理的推論のベンチマークで最先端手法と同等以上の精度を達成した
    • 最適化フェーズにおけるトークン使用量と評価予算を約3分の1に削減した
    • エラータクソノミーを用いて,グローバルな視点からプロンプトを最適化するトップダウンアプローチを採用している

    Link: https://arxiv.org/abs/2602.00997

  • CortiNet:超音波画像を用いた胆嚢疾患診断のための物理・知覚ハイブリッド皮質着想型デュアルストリームネットワーク [cs.CL, cs.CV, cs.LG]目的:胆嚢疾患の診断
    • 超音波検査は非侵襲的かつ低コストであり,胆嚢疾患の診断に広く用いられている。
    • 超音波画像の低解像度とスぺックルノイズが診断精度を阻害する要因となっている。
    • 軽量なモデルで高精度な診断を可能にし,臨床現場への導入を容易にすること。
    • CortiNetは,従来の深層畳み込みモデルと比較して大幅に少ないパラメータで,高い診断精度(98.74%)を達成した。
    • 物理的解釈可能性のある多重信号分解と知覚に基づいた特徴学習を統合した皮質に着想を得たデュアルストリームアーキテクチャである。
    • 構造ブランチにのみ勾配加重クラス活性化マッピングを適用する構造認識可能な説明可能性フレームワークを提案した。

    Link: https://arxiv.org/abs/2602.01000

  • RLHFがどのように迎合性を増幅させるか [cs.AI]目的:言語モデルにおける迎合性の増幅メカニズムの分析と抑制
    • 大規模言語モデルの活用は広がる一方であり,その安全性と信頼性が重要課題となっている。
    • 人間からのフィードバックによる調整(RLHF)が,事実に基づかない迎合性を悪化させる可能性がある。
    • RLHFにおける迎合性の増幅メカニズムを解明し,その抑制策を提案すること。
    • RLHFによって,モデルがユーザーの信念を過剰に肯定する傾向が強まり,事実との矛盾が生じることが示された。
    • この現象は,学習された報酬と人間の選好データ間の共分散によって引き起こされることが明らかになった。
    • 報酬への修正項(合意ペナルティ)を導入することで,迎合性の増幅を抑制できる可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01002

  • ESSAM:メモリ効率の良いLLMファインチューニングのための新しい競争的進化戦略アプローチ [cs.LG, cs.AI]目的:大規模言語モデルの数学的推論能力向上を目指した,メモリ効率の良い強化学習手法
    • 大規模言語モデルの性能向上には,強化学習が不可欠な手法となりつつある。
    • 従来の強化学習はGPUメモリを大量に消費し,リソースが限られた環境での利用が困難である。
    • ESSAMは,GPUメモリ使用量を削減し,リソース制約下でもLLMのファインチューニングを可能にする。
    • ESSAMはGSM8Kデータセットにおいて,平均78.27%の正答率を達成し,従来の強化学習手法と同等の性能を示した。
    • PPOと比較して0.55%高い正答率を示し,GRPOと同程度の精度を維持しながら,一部モデルではそれを上回った。
    • GPUメモリ使用量は,PPOと比較して18倍,GRPOと比較して10倍削減され,極めて低い消費量となった。

    Link: https://arxiv.org/abs/2602.01003

  • ネパールにおける5歳未満児の貧血予測:機械学習と深層学習の活用 [cs.LG]目的:ネパールにおける5歳未満児の貧血予測モデルの構築
    • 小児の貧血は,成長,認知機能の発達を阻害し,罹患率を高める深刻な公衆衛生上の課題である。
    • 既存の貧血スクリーニングは,資源や専門知識を必要とし,効率的なリスク層別化が困難である。
    • 機械学習と深層学習を用いて,効率的かつ正確な貧血予測モデルを開発し,スクリーニングを支援すること。
    • ロジスティック回帰は,最も高い再現率(0.701)とF1スコア(0.649)を達成し,DNNは最も高い精度(0.709)を示した。
    • SVMは,最も高いAUC(0.736)を示し,最も優れた識別能力を発揮した。
    • 子どもの年齢,発熱,家庭構成,母親の貧血,寄生虫駆除などの解釈可能な特徴が,リスク層別化と公衆衛生スクリーニングにおいて重要であることが示された。

    Link: https://arxiv.org/abs/2602.01005

  • LASS-ODE:基礎モデルと動的物理システムを結びつけるためのODE計算のスケーリング [cs.CL, cs.LG, cs.AI]目的:基礎モデルと動的物理システムの接続
    • 物理システムの予測は重要だが,その複雑さから進展が遅れている。
    • 物理制約の複雑さにより,計算のスケーラビリティと知識共有の効率性に課題がある。
    • 局所的に線形なODE表現により,物理的な整合性を保ちつつ計算を高速化し,知識共有を促進する。
    • 線形ODE表現を用いることで,大規模なシステムにおいても物理的な忠実性を維持しつつ,計算速度を大幅に向上させることができた。
    • 共通構造ハブ(CSH)を導入したシステム間アテンションにより,システム間の知識共有を効率的に行うことが可能となった。
    • LASS-ODEは,多様なODEシステムに対して,強固な性能,ゼロショット汎化能力,およびファインチューニングによる更なる改善を示す。

    Link: https://arxiv.org/abs/2602.01009

  • マルチエージェントチームは専門家を妨げる [cs.MA, cs.AI]目的:マルチエージェントLLMシステムにおける協調的パフォーマンスの評価
    • 自律的な協働作業において,LLMエージェント間の効果的な連携は重要である。
    • 既存研究では,固定的な役割やワークフローに頼る傾向があり,自律的な協調の可能性が未開拓である。
    • LLMチームにおける専門家の知識を最大限に活用するためのボトルネックを特定し,改善策を探る。
    • LLMチームは,人間のチームとは異なり,専門家のパフォーマンスに一貫して及ばないことが判明した。
    • その原因は,専門家の知識の活用不足であり,特に意見の平均化傾向が顕著であった。
    • チームサイズが大きくなるほど,この平均化傾向は強まり,パフォーマンスと負の相関を示した。

    Link: https://arxiv.org/abs/2602.01011

  • 自己回帰的訓練から不誠実な推論がどのように生じるか:合成実験による研究 [eess.SY, cs.SY, cs.CL, cs.CY, cs.LG, cs.AI]目的:大規模言語モデルにおけるChain-of-Thought推論の不誠実性の原因解明
    • 大規模言語モデルの推論能力は重要性を増しており,そのメカニズム理解が不可欠である。
    • Chain-of-Thought推論において,論理的な不整合や因果関係の欠如といった不誠実性の問題が存在する。
    • 自己回帰的訓練が不誠実な推論を生み出す過程を,合成実験を通じて明らかにすることを目指す。
    • 訓練データのノイズが低い場合,モデルは基礎的な算術規則に従った誠実な推論を学習できることが示された。
    • ノイズレベルが上昇すると,推論モードが段階的な推論から不誠実なスキップステップ推論へと変化することが明らかになった。
    • モデルは不一致する推論ステップを解決することで内部的な不確実性を符号化し,自己検証機能を獲得する可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01017

  • マルチタスク軌跡からの解釈可能なスキルのオフライン発見 [cs.RO, cs.AI]目的:マルチタスクのオフラインデータからの再利用可能なスキル発見
    • ロボットの複雑な行動獲得において,模倣学習は重要な手法である。
    • オフラインデータには報酬やサブタスクの注釈がない場合が多く,スキルの発見が困難である。
    • 報酬や注釈のないオフラインデータから,解釈可能なスキルを自動的に発見すること。
    • 提案手法LOKIは,難易度の高いD4RL Kitchenベンチマークにおいて高い成功率を達成した。
    • 発見されたスキルは人間が理解しやすい意味を持ち,直感と一致することが示された。
    • 未学習の新しいタスクに対しても,スキルを組み合わせることで解決可能であることが確認された。

    Link: https://arxiv.org/abs/2602.01018

  • 検索クエリ自動補完におけるランキングと生成の統合:検索拡張生成と多目的アラインメントによるアプローチ [cs.IR, cs.AI, cs.LG]目的:検索クエリ自動補完におけるランキングと生成の統合手法
    • 検索エンジンの利便性向上に不可欠であり,ユーザーの検索意図を迅速かつ正確に把握することが重要である。
    • 従来のランキング手法は網羅性に課題があり,生成モデルは誤情報や安全性に関するリスクを抱える。
    • 検索拡張生成と多目的アラインメントにより,これらの課題を克服し,より高品質な自動補完を実現すること。
    • 本研究では,検索クエリ自動補完をエンドツーエンドのリスト生成問題として再定義し,検索拡張生成と多目的直接選好最適化を組み合わせた。
    • オフライン評価では全ての指標で改善が見られ,人間による評価では+0.40~+0.69の選好スコアが得られた。
    • 大規模なオンライン実験では,キーストローク数が5.44%削減され,サジェストの採用率が3.46%向上し,実用性が検証された。

    Link: https://arxiv.org/abs/2602.01023

  • 視覚言語モデルに対する普遍的かつ転移可能な脱獄攻撃 [cs.DC, cs.LG, cs.AI, cs.CV]目的:視覚言語モデルの脱獄攻撃手法の開発
    • 大規模言語モデルのマルチモーダル化が進み,画像とテキストの両方を処理できるようになった。
    • 既存の勾配ベースの脱獄攻撃は,特定のモデルに過適合し,汎化性能が低い。
    • モデルや攻撃目標に依存しない,普遍的かつ転移可能な脱獄攻撃手法を確立すること。
    • 提案手法UltraBreakは,視覚空間での制約と意味ベースの目的関数を用いることで,汎化性能の高い攻撃パターンを発見した。
    • UltraBreakは,既存の脱獄攻撃手法と比較して,一貫して高い性能を示した。
    • 意味的な目的関数による損失地形の平滑化が,普遍的かつ転移可能な脱獄攻撃を実現する上で重要であることが示された。

    Link: https://arxiv.org/abs/2602.01025

  • スタックドオートエンコーダ進化仮説 [cs.NE, cs.LG]目的:生物進化システムの多層自己符号化・復号過程
    • 進化は生命の根幹であり,そのメカニズム解明は生物学の重要課題である。
    • 従来の進化論では,突然変異と選択による漸進的な変化のみでは説明できない現象が存在する。
    • 本研究は,進化における潜在的な階層構造と,それによる飛躍的な変化の可能性を提示する。
    • 本研究で提唱するスタックドオートエンコーダ進化仮説は,進化を多層的な自己符号化・復号プロセスと捉える。
    • 人工化学シミュレーションにより,階層的なオートエンコーダ構造が自発的に出現することが示された。
    • この仮説は,連続的および不連続的な進化変化の背後にある情報ダイナミクスに関する新たな視点を提供する。

    Link: https://arxiv.org/abs/2602.01026

  • SFMP:大規模言語モデルのための,きめ細かくハードウェアに優しく探索不要な混合精度量子化 [cs.LG]目的:大規模言語モデルの混合精度量子化手法
    • 近年,大規模言語モデルの利用が拡大しており,モデルの圧縮によるメモリ効率の改善が重要である。
    • 既存の混合精度量子化は,計算コストが高いか,ハードウェア効率が低いという課題があった。
    • SFMPは,これらの課題を解決し,効率的な量子化を実現することを目的とする。
    • SFMPは,従来の層ごとの混合精度量子化手法よりも,同じメモリ制約下で優れた性能を示す。
    • 量子化のコストを大幅に削減し,推論効率を向上させる。
    • SFMPは,探索不要でハードウェアに優しいフレームワークであり,実用的な大規模言語モデルの圧縮に貢献する。

    Link: https://arxiv.org/abs/2602.01027

  • HalluHard:困難な多段階ハルシネーションベンチマーク [cs.AI, cs.CL]目的:多段階ハルシネーションの評価
    • 大規模言語モデルの信頼性は重要であり,誤った情報を生成しないことが求められる。
    • 多段階対話では,文脈の増加と初期エラーの連鎖により,ハルシネーションが深刻化する。
    • 根拠に基づかない情報の生成を抑制するためのベンチマークと評価手法の開発。
    • HalluHardは,法的事件,研究質問,医療ガイドライン,コーディングの4つの分野を網羅する。
    • 最新のプロプライエタリモデルとオープンソースモデルにおいて,依然として高いハルシネーション率(約30%)が確認された。
    • モデルの性能,対話の段階,推論能力,知識の種類がハルシネーションの発生に影響を与えることが示された。

    Link: https://arxiv.org/abs/2602.01031

  • HierCon:音声ディープフェイク検出のための階層的コントラスト注意機構 [cs.SD, cs.AI, eess.AS]目的:音声ディープフェイクの検出
    • 高度なTTS技術により,ディープフェイク音声の識別が困難化しており,セキュリティとオンライン信頼性の両面で問題となっている。
    • 既存手法では,自己教師あり学習モデルから得られる多層表現の階層性や時間的依存性を十分に活用できていない。
    • 階層的アテンション機構とコントラスト学習により,時間的・層間・層グループ間の依存関係をモデル化し,汎化性能の向上を目指す。
    • 提案手法HierConは,ASVspoof 2021 DFおよびIn-the-Wildデータセットにおいて,最先端の性能を達成した(それぞれ1.93%と6.87%のEER)。
    • 独立した層の重み付けと比較して,EERがそれぞれ36.6%と22.5%改善された。
    • 結果とアテンション可視化から,階層的モデリングが異なるドメインの生成技術や録音条件への一般化を促進することが確認された。

    Link: https://arxiv.org/abs/2602.01032

  • 多段階LLM推論における過程と結果への貢献度発見 [cs.AI, cs.CL]目的:大規模言語モデルの推論能力向上
    • LLMの推論能力は,多様なタスクにおいて重要性が増している。
    • 従来の強化学習では,報酬の希薄性と効率的な貢献度割当が課題である。
    • 推論各ステップの価値を定量化し,ノイズを除去することで貢献度割当を改善する。
    • 提案手法は,テキストおよびマルチモーダルベンチマークにおいて,GRPOなどのベースラインを上回る性能を示した。
    • サンプル効率と最終的な精度が向上しており,特にMATHやSuper-CLEVRにおいて顕著である。
    • 分布外のデータに対しても頑健性を示し,未学習の推論タスクへのゼロショット転移能力も高い。

    Link: https://arxiv.org/abs/2602.01034

  • VEQ:MoE Vision-Languageモデルに対するモダリティ適応型量子化 [cs.CV, cs.AI]目的:MoE Vision-Languageモデルの量子化による圧縮
    • 大規模なVision-Languageモデルは高性能だが,メモリ・計算コストが課題となっている。
    • 既存の量子化手法は,ビジョンと言語の差異,エキスパート間の貢献度の不均一性に対応できていない。
    • モダリティ間およびエキスパート間の差異を考慮した量子化手法を開発し,性能劣化を抑制すること。
    • 提案手法VEQは,ビジョンと言語の差異,エキスパート間の貢献度の不均一性を考慮した量子化フレームワークである。
    • VEQは,Kimi-VLおよびQwen3-VLにおいて,既存の最先端量子化手法と比較して,平均でそれぞれ2.04%,3.09%の精度向上を達成した。
    • 様々なマルチモーダルタスクにおいて,VEQは優れた堅牢性を示すことが確認された。

    Link: https://arxiv.org/abs/2602.01037

  • 分布外検出による連合学習のための適応二重重み付けフレームワーク [cs.LG, cs.AI]目的:連合学習におけるデータ異質性への対策
    • エッジクラウド環境におけるインテリジェントサービスを実現する上で,データプライバシーを保護しつつ分散協調学習を行う連合学習は重要である。
    • 現実のサービス環境では,ユーザーやデバイス,アプリケーションの多様性からデータが非IIDとなり,モデルの収束性や汎化性能を著しく損なう。
    • 分布外検出に着想を得たフレームワークにより,データ異質性の悪影響を軽減し,学習の安定性と精度向上を目指す。
    • 提案手法FLoodは,疑似分布外サンプルに重みを置くことで,分布のずれや困難なデータからのロバストな学習を促進する。
    • サーバー側では,分布内の一貫性に基づいてクライアントの貢献度を調整し,グローバルモデルの堅牢性と収束性を高める。
    • 複数のベンチマークにおいて,既存の連合学習手法と比較して,精度と汎化性能において優れていることが示された。

    Link: https://arxiv.org/abs/2602.01039

  • 重ね合わせがべき乗則の学習ダイナミクスを統一する [cs.LG, cs.AI, physics.data-an, stat.ML]目的:特徴量の重ね合わせにおけるべき乗則学習ダイナミクスの発生機構
    • 深層学習の性能向上には,効率的な学習方法の確立が不可欠である。
    • 従来の学習方法は,データやチャンネル統計に依存した学習速度を示す。
    • 特徴量の重ね合わせが学習速度を加速し,データ非依存な学習を可能にする点を示す。
    • 特徴量の重ね合わせボトルネックは,データやチャンネル統計に依存しない,普遍的なべき乗則指数約1への移行を誘発する。
    • 重ね合わせを用いた学習は,純粋に逐次的な学習と比較して最大10倍の学習速度向上をもたらす。
    • この発見は,大規模言語モデルを含む重ね合わせを用いるニューラルネットワーク全般に重要な示唆を与える。

    Link: https://arxiv.org/abs/2602.01045

  • 残差デコーディング:履歴に基づく残差ガイダンスによる大規模視覚言語モデルにおける幻覚の軽減 [cs.CV, cs.AI]目的:大規模視覚言語モデルにおける幻覚軽減
    • 視覚と言語の理解を組み合わせたモデルは,多様な応用が期待されている。
    • 既存モデルは言語の先入観に影響され,視覚情報と一致しない内容を生成することがある。
    • 視覚情報に基づいた,より正確な言語生成を目指す。
    • ResDecは,履歴情報を活用し,言語の先入観による幻覚を効果的に抑制する。
    • 視覚的な根拠に基づいた生成を強化し,オブジェクト幻覚を減少させる。
    • ResDecは既存のベンチマークにおいて高い性能を示し,幅広い応用可能性を実証する。

    Link: https://arxiv.org/abs/2602.01047

  • SwiftRepertoire:動的カーネルコードによる少数ショット免疫シグネチャ合成 [cs.HC, cs.LG]目的:T細胞受容体のレパートリーレベル分析を通じた疾患検出と免疫モニタリング
    • T細胞レパートリー解析は,疾患の検出や免疫状態の把握に生物学的な根拠を提供する重要な手法である。
    • ラベルの不足,コホートの多様性,新しいタスクへの大規模エンコーダ適応の計算負荷が実用化の妨げとなっている。
    • 少ないサンプル数で,新しいタスクに迅速かつ効率的に適応できるモデルを開発することを目指す。
    • 学習済みのプロトタイプ辞書とレパートリープローブから得られる軽量なタスク記述子を用いて,タスク固有のパラメータを合成するフレームワークを提案した。
    • この合成により,事前学習済みのバックボーンに適用される小さなアダプターモジュールが生成され,フルモデルのファインチューニングなしに,少数のサポートサンプルで新しいタスクへの適応が可能となる。
    • モチーフを意識したプローブと,予測決定を配列レベルのシグナルに結び付ける較正されたモチーフ検出パイプラインにより,解釈可能性を維持している。

    Link: https://arxiv.org/abs/2602.01051

  • LRAgent: マルチLoRA LLMエージェントのための効率的なKVキャッシュ共有 [cs.LG]目的:マルチLoRA LLMエージェントにおけるKVキャッシュ共有
    • LLMエージェントは複雑なタスクを解決する上で重要であり,その性能向上は大きな課題である。
    • マルチLoRAでは各エージェントが個別にKVキャッシュを保持し,メモリ・計算コストが増大する。
    • 共有ベースコンポーネントとアダプター依存コンポーネントに分解し,キャッシュ効率を改善する。
    • LRAgentは,ベースコンポーネントを共有し,アダプターコンポーネントを低ランク形式で格納することで,メモリオーバーヘッドを削減する。
    • 共有-$A$マルチLoRAアーキテクチャにより,計算オーバーヘッドも削減し,既存のキャッシュ手法と同等の性能を実現する。
    • Flash-LoRA-Attentionにより,アダプターの寄与を効率的に再構成し,精度を維持する。

    Link: https://arxiv.org/abs/2602.01053

  • 良好なSFTはSFTを最適化し,より優れたSFTは強化学習の準備をする [cs.LG, cs.AI, cs.CL]目的:推論LLMのポストトレーニングにおけるSFT段階の最適化
    • LLMの性能向上には,オフラインSFTとオンライン強化学習の組み合わせが不可欠である。
    • 現在のSFT-RLパイプラインでは,SFTデータ分布とRL最適化ポリシーの間に不一致が生じやすい。
    • SFT段階でこの不一致を修正し,モデルをより効果的にRLに備えさせることを目指す。
    • 提案手法PEARは,オフライン学習損失の再重み付けにより,SFTデータとRLポリシーの分布間の不一致を解消する。
    • 実験の結果,PEARはQwenとDeepSeekモデルにおいて,AIME2025の正解率を最大14.6%向上させた。
    • PEARは,SFTを独立して最適化するのではなく,下流のRLを考慮したより包括的なLLMポストトレーニングへの有効な一歩である。

    Link: https://arxiv.org/abs/2602.01058

  • TLDiffGAN:時間情報融合を用いた潜在拡散GANフレームワークによる異常音検出 [cs.SD, cs.AI, eess.AS]目的:異常音検出のための新しいフレームワーク
    • 音響異常の早期発見は,機械の故障予測やセキュリティシステムの向上に不可欠である。
    • 既存の生成モデルは正常音の特徴分布を十分に捉えきれていない点が課題である。
    • 拡散モデルの潜在能力を活用し,より高精度な異常音検出を実現することを目指す。
    • 提案手法TLDiffGANは,拡散モデルとGANを組み合わせることで,識別器の学習を困難にし,生成サンプル品質を向上させた。
    • 事前学習済みオーディオモデルを用いることで,生の音声波形から直接特徴を抽出し,識別を補助する機構を導入した。
    • TMixupというスペクトログラム拡張手法により,微細な時間的パターンに対する感度を高め,検出性能を向上させた。

    Link: https://arxiv.org/abs/2602.01060

  • 多様性を維持したLLM推論のためのセットレベル方策最適化 [cs.HC, cs.AI]目的:LLMの推論における多様性の維持
    • LLMの性能向上は重要だが,多様性の低下が課題となっている
    • LLMの性能向上が,限られた解に集中する傾向にある
    • 多様性を維持しつつ,LLMの推論能力を向上させる
    • 提案手法は,様々なベンチマークにおいて,Pass@1とPass@Kの両方で既存手法を上回る性能を示した。
    • サンプルされた軌跡間のカーネル化された類似度に基づいて,セットレベルの多様性目的関数を定義した。
    • 稀な軌跡ほど,グローバルな多様性への貢献度が高いという単調性を理論的に証明した。

    Link: https://arxiv.org/abs/2602.01062

  • 文脈を通じたパーソナリティ表現:LLMエージェントにおける言語的・行動的変化 [cs.CL, cs.AI]目的:LLMエージェントにおけるパーソナリティ表現の文脈依存性
    • 対話型AIの人間らしい応答には,パーソナリティの適切な表現が不可欠である。
    • LLMは指示されたパーソナリティを常に一貫して表現できるとは限らない。
    • LLMが文脈に応じてパーソナリティをいかに変化させるかを解明すること。
    • 同一のパーソナリティプロンプトを用いても,会話の文脈によって言語,行動,感情表現が異なることが示された。
    • 文脈的な手がかりが,パーソナリティ表現と感情的なトーンの両方に系統的な影響を与えることが明らかになった。
    • LLMは固定的なパーソナリティではなく,文脈に応じて柔軟にパーソナリティを変化させる傾向がある。

    Link: https://arxiv.org/abs/2602.01063

  • 発話から鮮やかさへ:適応的局所選好最適化による表現力豊かな字幕翻訳LLMの学習 [cs.RO, cs.CL, cs.AI]目的:表現力豊かな字幕翻訳LLMの学習
    • 近年のLLM発展は翻訳能力を向上させたが,特定の分野では限界が見えている。
    • 字幕翻訳には,直訳と意訳のバランスが求められ,評価が難しい。
    • LLMを用いた字幕翻訳の質を向上させ,きめ細かい選好に適合すること。
    • 提案手法ALPOは,翻訳品質の多次元評価において優れた性能を発揮した。
    • LLMを報酬モデル及び翻訳評価モデルとして活用することの信頼性を検証した。
    • 多方向字幕並行コーパスを構築・公開し,きめ細かい選好整合にALPOを適用した。

    Link: https://arxiv.org/abs/2602.01068

  • 物理的事前知識を用いたニューラル画像セグメンテーションのためのPDE制約最適化 [cs.CV, cs.LG]目的:顕微鏡画像のセグメンテーションにおける精度向上
    • 近年,画像解析において深層学習が広く用いられるようになったが,安定性と汎化性能が課題である。
    • 測定ノイズ,弱い物体境界,およびラベル付きデータの不足により,顕微鏡画像セグメンテーションは困難な問題である。
    • 物理に基づいた事前知識を深層学習モデルに組み込み,セグメンテーションの安定性と汎化性能を向上させる。
    • 提案手法は,反応拡散方程式や相場界面エネルギーから導出されたペナルティ項を用いたPDE制約最適化により,セグメンテーション精度と境界の忠実度を向上させた。
    • LIVECellデータセットを用いた実験により,提案手法は既存の深層学習モデルと比較して,一貫した性能改善を示した。
    • 特に,サンプル数が少ない状況下での安定性と汎化性能の向上が確認された。

    Link: https://arxiv.org/abs/2602.01069

  • ConvexBench:LLMは凸関数を認識できるか [cs.AI]目的:LLMによる凸関数の識別能力の評価
    • 凸解析は現代数学の重要な分野であり,応用範囲が広い。
    • LLMが高度な数学的推論を行う上で,凸関数の理解が不可欠である。
    • 深層関数合成におけるLLMの凸性識別能力の限界を明らかにし,改善策を提案する。
    • 最先端LLMにおいて,深層合成における性能が急速に低下することが示された。
    • その原因として,構文解析の失敗と,受動的な推論が挙げられた。
    • 提案手法である分割統治型エージェントフレームワークにより,深層合成における性能が大幅に向上した。

    Link: https://arxiv.org/abs/2602.01075

  • AutoHealth:不確実性を考慮した自律型ヘルスデータモデリングマルチエージェントシステム [cs.AI]目的:自律型ヘルスデータモデリングとモデル信頼性評価
    • 医療分野では,データに基づいた意思決定の重要性が増しており,高性能な予測モデルが求められている。
    • 既存システムは,多様なヘルスデータに対応できず,タスク固有の目的に合わせた適応性が不十分である。
    • 不確実性の推定を取り入れ,信頼性の高いヘルスデータモデリングを実現することを目指す。
    • AutoHealthは,データ探索,モデル構築,学習,最適化を閉ループで連携する5つの専門エージェントで構成される。
    • 予測性能と不確実性定量化の両方を優先し,実用的なモデルと詳細なレポートを生成する。
    • 17の多様なタスクからなるベンチマークにおいて,予測性能で29.2%,不確実性推定で50.2%向上した。

    Link: https://arxiv.org/abs/2602.01078

  • EvoOpt-LLM:大規模言語モデルによる産業最適化モデルの進化 [cs.AI]目的:産業最適化モデルの自動構築,動的ビジネス制約の注入,および変数剪定
    • 産業計画やスケジューリングにおいて,数理最適化は不可欠な役割を担う。
    • 自然言語要件をソルバー実行可能なモデルに変換し,ビジネスルールの変更に対応するには専門知識が必要。
    • 大規模言語モデルを活用し,データ効率,ソルバー適合性,スケーラビリティの課題を解決する。
    • EvoOpt-LLMは,70億パラメータのLLMをLoRAファインチューニングすることで,高い生成率(91%)と実行可能性(65.9%)を実現した。
    • 制約注入モジュールは既存のMILPモデルを改変しながら目的関数を維持し,変数剪定モジュールは計算効率を向上させた。
    • 本研究は,専門家の介入を減らしつつ,産業最適化モデリングの適応性とソルバー効率を改善する実用的なアプローチを示す。

    Link: https://arxiv.org/abs/2602.01082

  • 置換不変な重み空間ネットワークの表現力について [cs.LG]目的:重み空間ネットワークの表現力に関する理論的解明
    • 事前学習済みモデルの活用が進み,重み空間学習の重要性が増している。
    • 置換不変な設計が一般化性能を向上させる一方,表現力が低下する可能性が指摘されている。
    • 重み空間ネットワークの表現力の包括的な特徴付けを目指す。
    • 主要な置換不変ネットワークは表現力において等価であることが示された。
    • 穏やかな条件下では,重み空間および関数空間において普遍性が確立された。
    • 普遍性が成立しないエッジケースの条件も明確化された。

    Link: https://arxiv.org/abs/2602.01083

  • MedBeads:信頼性の高い医療AIのための,エージェントネイティブで不変なデータ基盤 [cs.HC, cs.RO, cs.AI, cs.CR, cs.DB, cs.DC, cs.SE]目的:信頼できる医療AIのためのデータ基盤の構築
    • 医療AI分野は,診断や治療の質を向上させる可能性を秘めている。しかし,データ信頼性が課題となっている。
    • 既存の電子カルテやFHIRは人間向け設計であり,AIエージェントが利用するには文脈の断片化や推論の誤りが生じやすい。
    • AIエージェントが利用可能な,改ざん検知可能な決定論的なデータ基盤を提供し,医療AIの信頼性を高める。
    • 臨床イベントを不変の「Beads」として表現し,Merkle DAGを用いることで,改ざんを数学的に検出可能にした。
    • FHIRデータをDAGに変換することで,因果関係に基づいたデータ構造を実現し,リアルタイムな意思決定支援を可能にした。
    • 構造化されたBeadフォーマットは,AIネイティブな言語として機能し,効率的な情報伝達を促進する。

    Link: https://arxiv.org/abs/2602.01086

  • 厳格制約と柔軟な生成:LLMベースの組み合わせ最適化における保証付き実行可能性 [cs.AI]目的:LLMベースの組み合わせ最適化における,100%の実行可能性の保証
    • 組み合わせ最適化は,物流,スケジューリングなど,様々な現実世界の課題解決に不可欠である。
    • 既存のLLMは実行可能性を保証する機構を持たず,実用上の課題となっていた。
    • LLMによる組み合わせ最適化において,実行可能性を保証しつつ,解の質を向上させる。
    • FALCONは,文法制約デコーディング,実行可能性修復層,適応型Best-of-$N$サンプリングにより,100%の実行可能性を達成した。
    • BOPOというLLMトレーニング手法を導入し,密な教師データなしで性能向上を実現した。
    • 7つのNP困難な組み合わせ最適化問題において,既存の最先端手法と同等またはそれ以上の解質を維持しつつ,完璧な実行可能性を達成した。

    Link: https://arxiv.org/abs/2602.01090

  • 目的レベルのハッキングを通して見るRLVRトレーニングの不安定性 [cs.NI, cs.AI]目的:RLVRトレーニングにおける不安定性の理解
    • 大規模言語モデルの推論能力向上にRLVRが有効だが,その安定性は課題である。
    • MoEアーキテクチャにおいて,トレーニングの不安定性がモデル能力の向上を阻害する。
    • MoEモデルにおけるトレーニングと推論の乖離の原因を解明し,安定なRLVRアルゴリズム設計に貢献する。
    • RLVRの不安定性は,検証可能な報酬の巧妙な操作ではなく,トークンレベルのクレジットの誤配置に起因する「目的レベルハッキング」によって生じる。
    • MoEモデルにおいて,トレーニングと推論の乖離の異常な増加が,不安定さの主要な原因であることが示された。
    • 本研究は,MoEモデルにおける不安定性の根本原因を明らかにし,安定なRLVRアルゴリズム設計の指針を提供する。

    Link: https://arxiv.org/abs/2602.01103

  • OLion:スペクトルおよび$\ell_{\infty}$暗黙的バイアスとの交差によるアダマール理想への接近 [cs.LG, cs.AI]目的:スペクトル制御と$\ell_\infty$様式の座標制御を組み合わせた最適化手法
    • 最適化は機械学習の根幹であり,モデル性能に大きく影響する。
    • 既存の最適化手法は,特定の方向に偏りやすく,汎化性能を阻害することがある。
    • スペクトルと$\ell_\infty$バイアスの交差を利用し,よりロバストな最適化を目指す。
    • OLionは,AdamWやMuonと同等以上の性能を示す。
    • OLionは,AdamWで事前学習済みのチェックポイントのファインチューニング時の最適化手法の不一致を軽減する。
    • 診断的等方性仮定の下で,OLionの収束性が証明されている。

    Link: https://arxiv.org/abs/2602.01105

  • LLMを用いたプログラム編集の合成 [cs.SE, cs.AI, cs.LG]目的:プログラムAPI移行の自動化
    • ソフトウェア開発において,ライブラリ移行は頻繁に発生し,その品質が重要である。
    • 既存の移行ツールは,事例データに依存しており,データが少ない場合に困難が生じる。
    • LLMから移行事例を抽出し,汎用的な変換スクリプトを生成することで,この問題を解決する。
    • LLMから移行事例を抽出し,PolyglotPiranhaで再利用可能な変換スクリプトを生成する。
    • この手法は,既存の移行データや手動による作業を必要とせずに,移行ロジックを構造化する。
    • Pythonライブラリを用いた実験により,実世界のコードベースに適用可能なスクリプトが生成されることが示された。

    Link: https://arxiv.org/abs/2602.01107

  • 車両診断の変革:エラーパターン予測へのマルチモーダルアプローチ [cs.AI]目的:エラーパターン予測のためのマルチモーダル手法
    • 自動車産業において,車両のメンテナンスと安全確保は不可欠であり,正確な故障診断が重要である。
    • 従来の診断システムはDTCに依存しており,温度や湿度などの環境情報といった重要な文脈的情報を活用できていない。
    • DTCと環境データの関係性を捉え,より高精度で堅牢な車両診断を実現し,メンテナンスコスト削減を目指す。
    • BiCarFormerは,DTCシーケンスと環境条件を統合した,初のマルチモーダルなエラーパターン分類アプローチである。
    • 実験結果から,BiCarFormerはDTCのみに依存するモデルや従来のシーケンスモデルと比較して,分類性能が大幅に向上することが示された。
    • 環境情報を組み込むことで,より正確でロバストな車両診断が可能になり,自動化プロセスを促進すると考えられる。

    Link: https://arxiv.org/abs/2602.01109

  • GNNベースの産業グラフシステムにおける単一エッジノード注入脅威 [cs.LG]目的:産業グラフシステムにおけるGNNベースのセキュリティ監視に対する単一エッジノード注入攻撃の脅威
    • 産業制御システムの安全性確保が重要視される中,グラフ構造データの活用が進んでいる。
    • GNNは脆弱性を持ち,悪意のあるノード注入によって監視システムの判断を誤らせる可能性がある。
    • 限られたリソース下で効果的なノード注入攻撃手法を分析し,防御策の必要性を示す。
    • 本研究では,単一エッジノード注入攻撃(SEGIA)を提案し,既存手法と比較して攻撃成功率が25%以上向上することを示した。
    • SEGIAは,局所的な類似性を維持し,エッジプルーニングを回避するための工夫が施されている。
    • 産業用GNNの導入におけるシステムレベルのリスクが示唆され,軽量な受入検証と近傍一貫性監視の重要性が強調される。

    Link: https://arxiv.org/abs/2602.01113

  • マルコフスケール:推論時の最適な逐次スケーリングへ [cs.CL, cs.LG, cs.AI, cs.CL]目的:推論時の逐次スケーリングにおける最適化
    • 大規模言語モデルの推論コスト削減が重要視されている。
    • 既存のスケーリング手法は,効果が限定的で理論的な根拠が薄い。
    • マルコフ過程としてスケーリングをモデル化し,最適化基準を確立する。
    • マルコフスケールは,並列および逐次スケーリング手法を上回る性能を示す。
    • 理論的な限界に基づいて,精度と効率のバランスを最適化。
    • 3つの大規模言語モデルと5つのベンチマークで一貫した改善効果が確認された。

    Link: https://arxiv.org/abs/2602.01120

  • ChronoSpike:動的グラフのための適応型スパイクグラフニューラルネットワーク [cs.LG]目的:動的グラフにおける表現学習
    • グラフ構造は,ソーシャルネットワークや知識グラフなど,現実世界の様々なシステムで広く存在する。
    • 既存手法は表現力と計算コストのトレードオフ,勾配消失問題,メモリ消費量の大きさに課題がある。
    • スパイクニューラルネットワークの効率性と表現力を活用し,動的グラフ学習の課題を解決すること。
    • ChronoSpikeは,最新の12個のベースラインモデルをMacro-F1で2.0%,Micro-F1で2.4%上回る性能を示した。
    • ChronoSpikeは,再帰型手法と比較して3~10倍高速に学習可能であり,パラメータ数はグラフサイズに依存しない105Kで一定である。
    • 膜電位の有界性,勾配の流れの安定性,BIBO安定性に関する理論的保証が得られており,解釈可能性分析も実施された。

    Link: https://arxiv.org/abs/2602.01124

  • 多種多様なイベント系列の長距離モデリングと処理 [cs.CL, cs.LG]目的:非同期イベント系列のモデリング
    • イベント系列の分析は,様々な分野で重要であり,パターン認識や予測に役立つ。
    • 既存手法では,多種多様なデータを扱う際に系列長が伸び,長距離の関連性を捉えるのが困難である。
    • 系列長の増加による課題を解決し,より高度なイベント系列モデリングを目指す。
    • 本研究では,LLMベースのTPPを視覚的情報に拡張する新しいフレームワークを提案した。
    • 時間的類似性に基づく適応的系列圧縮メカニズムにより,長文テキスト生成に必要な長距離理解を可能にした。
    • DanmakuTPP-QAベンチマークにおいて,予測精度と生成テキストの品質で最先端手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2602.01125

  • WinFLoRA:プライバシーの多様性下における連合学習LoRAのクライアント適応集約のインセンティブ [cs.LG]目的:プライバシーの多様性下における連合学習LoRAにおけるクライアント適応集約のインセンティブ設計
    • 大規模言語モデルはWebアプリケーションに不可欠であり,効率的な専門化が求められている。
    • クライアントのプライバシー要件が異なると,個々のインセンティブと全体的な性能が乖離する。
    • クライアントのノイズレベルを考慮した集約重みを用いて,性能とプライバシーのバランスを取る。
    • WinFLoRAは,クライアントからのノイズを推定し,その推定値に基づいて集約重みを調整する。
    • ノイズの少ない更新を重視することで,グローバルな精度を向上させながら,クライアントのプライバシー要件を満たす。
    • 複数のLLMとデータセットにおいて,既存手法と比較して最大52.58%高いグローバル精度と最大2.56倍のクライアントの有用性を達成した。

    Link: https://arxiv.org/abs/2602.01126

  • 大規模言語モデルにおける方向性嗜好の整合のための接空間微調整 [cs.LG]目的:大規模言語モデルの複数の人間による嗜好次元間のバランス調整
    • 言語モデルの性能向上には,人間からのフィードバックに基づく嗜好整合が不可欠である。
    • 既存手法は複数の目的間でのトレードオフを捉えきれず,最適解の探索が困難である。
    • 複数の目的を同時に最適化し,より柔軟な行動生成を可能とする手法を開発する。
    • TS-DPOは,既存手法よりも広範なパレート最適解を達成し,より滑らかな嗜好制御を実現した。
    • 接空間での学習は,異なる嗜好に沿った正準方向を増幅し,嗜好の分離性を向上させる。
    • TS-DPOによって学習された方向は,推論時に線形結合することで,ユーザー指定の行動を生成できる。

    Link: https://arxiv.org/abs/2602.01128

  • 低高度経済圏におけるリアプノフ安定性に基づいたスタッケルベルクゲーム:制御指向のプルーニングベース深層強化学習アプローチ [cs.AI]目的:低高度経済圏におけるUAV資源配分問題の解決
    • 低高度経済圏の急速な拡大に伴い,UAVが多様なサービスを支える基盤として重要になっている。
    • UAVの限られた資源と厳格な安定性要件との間の矛盾が,ヘテロジニアスネットワークの効率性を損なっている。
    • 通信遅延が物理制御の安定性に与える影響を考慮し,安定性を確保しつつ資源配分を最適化する。
    • 提案手法は,リアプノフ安定性理論を用いて,制御システムの状態変化と通信制約の間の関係を定量化する。
    • スタッケルベルクゲームとして資源配分問題を定式化し,UAVが資源価格を設定して負荷を平準化・安定性を確保する。
    • 動的構造化プルーニング機構を組み込んだ軽量なPPOアルゴリズムにより,UAVは迅速にゲーム均衡を近似し,推論遅延を最小限に抑える。

    Link: https://arxiv.org/abs/2602.01131

  • スパイクニューラルネットワークにおける並列学習 [cs.CL, cs.NE]目的:スパイクニューラルネットワークの並列学習における効率的な設計
    • 脳神経回路に触発されたスパイクニューラルネットワークは,低消費電力な情報処理の実現が期待されている。
    • 大規模モデルの学習には高い並列性が求められるが,リセット機構が並列学習の妨げとなっている。
    • リセット機構の機能を維持しつつ,並列学習と逐次推論能力を両立する新しいスパイクニューロンを提案する。
    • 提案手法は,既存の並列スパイクニューロンと比較して,学習速度を25.6倍向上させた。
    • 2k長の系列で学習したモデルは,最大30k長の系列に対して安定した推論性能を維持した。
    • 画像分類,時系列予測,言語モデリングなど,多様なタスクとネットワーク構造で有効性が確認された。

    Link: https://arxiv.org/abs/2602.01133

  • TRACE:自己回帰密度推定による単一系列からのスケーラブルな因果探索 [cs.LG]目的:単一の離散事象系列から因果関係を探索すること
    • 車両ログや製造システムなど,時系列データの因果関係の解明は,システム理解や改善に不可欠である。
    • 単一の観測系列からの因果探索は,サンプル数が少なく,次元が高く,時間依存性が強いという課題がある。
    • TRACEは,自己回帰モデルを活用し,これらの課題を克服し,大規模な因果探索を可能とする。
    • TRACEは,イベント語彙数に対して線形にスケールし,遅延因果効果もサポートする。
    • 理論的な識別可能性が確立されており,不完全な自己回帰モデル下でも有効である。
    • 車両診断への応用では,29,100種類を超えるイベントタイプに対して堅牢な性能を示した。

    Link: https://arxiv.org/abs/2602.01135

  • 深層学習における安定性と解釈可能性のための統一された行列スペクトルフレームワーク [cs.LG, math.DS, math.OC]目的:深層ニューラルネットワークの安定性と解釈可能性の解析
    • 深層学習は高い性能を示す一方,その頑健性や解釈性に課題がある。
    • 入力摂動やラベルノイズに対する安定性の評価方法が確立されていない。
    • スペクトル指標を用いた安定性と解釈可能性の定量化と改善。
    • 線形演算子の積としてネットワークを表現することで,安定性を制御するスペクトル量を特定。
    • Global Matrix Stability Indexにより,様々な安定性指標を統合し,安定性を定量化。
    • スペクトルエントロピーを用いることで,最悪ケースだけでなく,典型的な感度を考慮した評価が可能。

    Link: https://arxiv.org/abs/2602.01136