arXiv雑要約

AI - 2026/04/30 公開

  • エージェントベースモデルにおけるデータ同化と尤度ベース推論の比較 [cs.CL, cs.LG, cs.CY, physics.soc-ph, stat.ME]目的:エージェントベースモデルにおける潜在状態推定手法の比較
    • 社会現象のモデル化において,エージェントベースモデルの活用が重要視されている。
    • エージェントベースモデルの潜在状態推定は困難であり,既存手法の適用が課題となっている。
    • データ同化と尤度ベース推論の性能を比較し,最適な推定手法を明らかにすること。
    • 尤度ベース推論は,モデルの誤指定下でも潜在的なエージェントレベルの意見をより正確に復元することが示された。
    • 集計レベルにおいては,両手法の性能は同程度であり,データ同化は特定のパラメータ設定下で競争力を持つ。
    • データ同化は集計予測に適しており,尤度ベース推論はエージェントレベルの推論に適しているという知見が得られた。

    Link: https://arxiv.org/abs/2509.17625

  • 最大エントロピーRLHFの失敗モード [cs.LG, cs.CL]目的:最大エントロピー強化学習における失敗モードの分析
    • 人間のフィードバックを用いた強化学習は,AIの性能向上に不可欠である。
    • オンラインRLHFにおいて,過最適化やKLダイナミクスの不安定性が問題となる。
    • 最大エントロピー強化学習がオンラインRLHFで示す問題を明らかにすること。
    • SimPOは最大エントロピー強化学習として導出可能であり,その理論的基盤が示された。
    • 最大エントロピー強化学習は,モデル規模に関わらず過最適化と不安定なKLダイナミクスを示すことが実験で確認された。
    • エントロピー正則化は,報酬ハッキングを防ぐ効果がなく,むしろ過最適化の兆候と相関があることが示唆された。

    Link: https://arxiv.org/abs/2509.20265

  • 同時的記号および連続計画のためのハイブリッド拡散 [cs.RO, cs.AI]目的:長期的タスク達成のためのロボット構築
    • 人工知能分野において,ロボットに複雑なタスクを実行させることは長年の課題である。
    • 既存の拡散モデルは,複雑な意思決定を伴う長期的タスクで性能が低下しやすい。
    • 記号計画と連続軌道生成を同時に行うことで,この課題を克服することを試みる。
    • 提案手法は,離散変数拡散と連続拡散の組み合わせにより,既存手法を大幅に上回る性能を示す。
    • ハイブリッド拡散プロセスにより,部分的な記号条件や完全な記号条件に基づいて柔軟な軌道合成が可能となる。
    • 生成された軌道は,多様な状況に対応できるようになる。

    Link: https://arxiv.org/abs/2509.21983

  • 大規模言語モデルにおける学習可能なタイルレベルのハイブリッド疎性 [cs.LG, cs.AI, cs.PF]目的:大規模言語モデルの展開におけるメモリと計算コストの削減
    • 近年の大規模言語モデルは高性能だが,実用には計算資源が大きな課題となる。
    • 従来のモデルプルーニング手法は,GPUの効率的な活用とモデル精度維持のバランスが難しい。
    • 本研究は,柔軟な疎性比率を実現し,精度と高速化の両立を目指す。
    • PATCHは,重み行列をタイルに分割し,各タイルを密または2:4疎にするかを学習可能にすることで,精度と高速化のトレードオフを制御する。
    • 0.5Bから13Bパラメータのモデルで,PATCHは密なモデルの精度との差を縮小しつつ,実用的な高速化を実現した。
    • LLaMA-2 7Bでは,A6000 GPU上で,従来の2:4プルーニング手法と比較して,精度が0.37%-2.96%向上し,エンドツーエンドの速度が1.18x-1.38x向上した。

    Link: https://arxiv.org/abs/2509.23410

  • 因果的抽象のネットワーク:層理論的枠組み [eess.SY, cs.SY, cs.AI, cs.LG, eess.SP]目的:複数の不完全で主観的な因果的視点の調整
    • AI分野において,人間の意思決定を模倣するには,因果関係の理解が不可欠である。
    • 既存の因果モデルは単一のグローバルなモデルを前提としており,分散環境での視点間の整合性に欠ける。
    • 分散した因果的知識を整合的に統合し,状況に応じた因果推論を可能にすること。
    • 因果的抽象ネットワーク(CAN)は,層理論を用いて複数の因果モデル集合を表現・学習・推論するための汎用的な枠組みを提供する。
    • CANの一貫性や滑らかさなど,主要な特性に関する範疇論的な定式化と性質が明らかにされた。
    • 合成データと多エージェント取引システムへの応用により,CANの回復,ポートフォリオ最適化,反実仮想推論が実証された。

    Link: https://arxiv.org/abs/2509.25236

  • Auto-ARGUE:LLMベースのレポート生成評価 [cs.IR, cs.AI, cs.CL]目的:レポート生成評価のための手法
    • 情報検索や自然言語処理において,根拠に基づいたレポートの自動生成は重要である。
    • 既存のRAG評価ツールは多様だが,レポート生成に特化したものは不足している。
    • レポート生成の評価を自動化し,人間との相関性を高めることを目指す。
    • Auto-ARGUEは,最近提案されたARGUEフレームワークを実装したLLMベースのレポート生成評価システムである。
    • TREC 2024のNeuCLIRおよびRAGトラックのタスクにおいて,システムレベルでの人間評価との良好な相関が示された。
    • Auto-ARGUEの判断やスコアを可視化するためのウェブアプリARGUE-Vizも公開された。

    Link: https://arxiv.org/abs/2509.26184

  • マルチエージェント言語モデルにおける創発的な協調 [cs.CL, cs.MA, cs.AI]目的:マルチエージェントLLMシステムの高次構造の兆候の有無の検証
    • 大規模言語モデルの進化に伴い,エージェント間の協調による新たな知能の創発が注目されている。
    • マルチエージェントシステムの協調が,単なる偶然の一致か,構造的な相互作用によるものか不明確である。
    • プロンプト設計によるマルチエージェントLLMシステムの協調性の制御メカニズムの解明。
    • 情報理論的枠組みを用いて,マルチエージェントLLMシステムの高次構造をデータ駆動的に評価した。
    • 個々のエージェントにペルソナを付与することで,安定したアイデンティティに基づいた差異化が観察された。
    • 「他のエージェントの行動を考慮する」という指示により,目標指向的な補完性と協調性が確認された。

    Link: https://arxiv.org/abs/2510.05174

  • 決定論的法的エージェント:監査可能な時系列知識グラフ上での推論のための標準的なプリミティブAPI [cs.AI, cs.CL, cs.IR]目的:法的規範の階層性,時間性,因果的来歴を維持した検索の実現
    • 法務分野では,根拠に基づいた正確な情報が不可欠であり,信頼性が求められる。
    • 従来の検索手法では,法的規範の構造や時間的要素を十分に考慮できない。
    • 法的知識グラフを用いた推論エージェントの信頼性と説明責任を高めることを目指す。
    • SAT-Graph APIを定義し,時系列知識グラフ上での監査可能な推論を可能にする。
    • APIは確率的な言語モデルと決定論的な記号基盤を分離し,不確実性を意図翻訳に限定する。
    • これにより,法的RAGはRetrieve-then-GenerateからReason-Act-Observeへと進化する。

    Link: https://arxiv.org/abs/2510.06002

  • 混合有向非巡回グラフにおけるベイズ因果探索への専門知識の組み込み [cs.LG, stat.ME]目的:混合有向非巡回グラフにおけるベイズ因果探索の専門知識組み込み戦略
    • 複雑な現実世界の現象を理解するには,因果関係の解明が不可欠である。
    • 既存の因果探索手法では,専門家の知識を組み込むことが困難であり,特に異質なデータに適用しにくい。
    • 異質なデータに対する因果探索において,専門知識を効率的に活用するための新たなアプローチを開発する。
    • 提案手法は,ベイズ実験計画に基づき,複数の因果モデル(混合成分)を生成することに成功した。
    • 異質な合成データを用いた評価において,専門家からの情報を活用することで,構造学習の性能が向上した。
    • 乳癌データベースの解析により,複雑な分布を捉える能力が実証された。

    Link: https://arxiv.org/abs/2510.06735

  • 大規模言語モデルのための過程報酬モデルに関する調査:結果シグナルから過程監視へ [cs.CL, cs.AI]目的:大規模言語モデルの過程報酬モデルの体系的な概要
    • 言語モデルの高度な推論能力を最大限に引き出すには,単に結果だけでなく,推論過程の評価が不可欠である。
    • 従来の報酬モデルは最終的な答えのみを評価するため,推論過程における問題点を特定し,改善することが困難である。
    • 推論過程を評価・誘導する過程報酬モデルの設計空間を明確にし,今後の研究を促進すること。
    • 本調査では,過程データの生成,過程報酬モデルの構築,および強化学習への応用を含む,過程報酬モデルの完全なループを体系的に概観した。
    • 数学,コード,テキスト,マルチモーダル推論,ロボティクス,エージェントなど,様々な分野での応用例をまとめた。
    • 新たなベンチマークをレビューし,より詳細で堅牢な推論アラインメントに向けた課題と将来の研究方向性を示唆した。

    Link: https://arxiv.org/abs/2510.08049

  • RLVRにおけるエントロピー介入の再検討:エントロピー変化の視点から [cs.LG, cs.AI]目的:RLVRにおけるエントロピーダイナミクスの理論的・実験的分析
    • LLMの推論能力向上にRLVRが不可欠であり,その性能向上が求められている。
    • RLVRの訓練はエントロピー崩壊に悩まされ,探索が制限され,学習効果が低下する。
    • エントロピー変化を考慮した,より原理的なエントロピー調整手法を提案し,エントロピー崩壊を抑制する。
    • エントロピー変化の厳密な近似を導出し,エントロピーを制御する4つの要因を特定した。
    • 既存手法がこれらの要因の一部にしか対処できていないという限界を明らかにした。
    • 提案手法STEERは,理論的に推定されたエントロピー変動に基づいてトークンを適応的に重み付けし,エントロピー崩壊を効果的に緩和し,最先端のベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10150

  • ToolPRM:関数呼び出しのための構造化出力のきめ細かい推論スケーリング [cs.CL, cs.AI]目的:関数呼び出しにおける構造化出力の推論スケーリング
    • 近年,大規模言語モデルの活用が広がっている中で,その性能向上は重要な課題である。
    • 構造化出力の推論スケーリングは,非構造化生成に比べて研究が遅れている。
    • 各関数呼び出しの決定段階における報酬モデルを用いて,推論性能の改善を目指す。
    • 提案手法ToolPRMは,従来の報酬モデルと比較して予測精度が向上し,複数の関数呼び出しベンチマークで一貫した改善が見られた。
    • 構造化出力生成は,「より多く探索するが,より多くを保持できない」という傾向を示すことが明らかになった。
    • JSONエラーは初期段階で発生すると回復が難しく,その影響が大きいことが示唆された。

    Link: https://arxiv.org/abs/2510.14703

  • 拡散言語モデルのための適応的加速とバックトラッキング強化リマスキングによる効率的なサンプリング手法 Saber [cs.CL, cs.AI, cs.CL, cs.LG, cs.SE]目的:拡散言語モデルにおける効率的なサンプリング手法の開発
    • 拡散言語モデルは並列生成や双方向の文脈モデリングに優れるため,自然言語処理の新たな選択肢として注目されている。
    • 構造制約の強いタスク,特にコード生成において,高速化と出力品質のトレードオフが課題となっていた。
    • モデルの信頼度に応じてサンプリングを調整し,誤りを修正することで,コード生成の性能を向上させる。
    • Saberは,既存の拡散言語モデルのサンプリング手法と比較して,Pass@1精度を平均1.9%向上させた。
    • Saberは,平均251.4%の推論速度向上を実現し,高速化と品質の両立に貢献した。
    • Saberを用いることで,拡散言語モデルと自己回帰モデルの性能差が縮小された。

    Link: https://arxiv.org/abs/2510.18165

  • FedPF:公平性と有用性を両立する,プライバシー保護型分散学習 [cs.LG, cs.AI]目的:公平性とプライバシー制約下での分散学習におけるモデルの有用性
    • データ共有なしにモデルを共同学習する分散学習は,プライバシー保護の観点から重要である。
    • 分散学習において,公平性とプライバシー保護を同時に実現することが困難である。
    • 公平性とプライバシー保護のトレードオフを最適化し,両者を両立することを目指す。
    • 提案手法FedPFは,公平性とプライバシー制約をゼロサムゲームとして捉えることで,多目的最適化問題を解決する。
    • 理論的解析から,プライバシー保護機構が有限サンプル環境下でのバイアス検出・修正能力を低下させる逆相関関係が示された。
    • 実験結果は,適度な公平性制約が汎化性能を向上させ,過度な制約は性能を低下させるという非単調な関係を裏付けている。

    Link: https://arxiv.org/abs/2510.26841

  • EvoDev:LLMベースエージェントによるエンドツーエンドソフトウェア開発のための反復型特徴駆動型フレームワーク [cs.SE, cs.AI]目的:LLMベースエージェントを用いたエンドツーエンドソフトウェア開発のための反復型フレームワーク
    • ソフトウェア開発の自動化は,生産性向上や開発コスト削減に不可欠である。
    • 既存のアプローチは,開発の反復性を捉えきれず,大規模プロジェクトへの適用が困難である。
    • 特徴間の依存関係を明示化し,コンテキスト伝播を行うことで,複雑なソフトウェア開発を支援する。
    • EvoDevは,既存のベースライン(Claude Code)と比較して,56.8%のパフォーマンス向上を達成した。
    • 異なるベースLLMにおいても,16.0%-76.6%のシングルエージェントパフォーマンス改善が確認された。
    • 依存関係モデリング,コンテキスト伝播,ワークフローを意識したエージェント設計の重要性が示された。

    Link: https://arxiv.org/abs/2511.02399

  • 不確実性考慮型オフラインデータ駆動型多目的最適化 [eess.SY, cs.SY, cs.RO, cs.NE]目的:オフラインデータ駆動型多目的最適化における不確実性への対処
    • データ駆動型最適化は,実験コストが高い問題への有効なアプローチである。
    • オフラインデータを用いる場合,サロゲートモデルの不確実性が最適化の精度を損なう。
    • 異なるサロゲートモデルの予測値と不確実性を活用し,信頼性の高い最適化を目指す。
    • 提案手法は,予測値と不確実性に基づいた二重ランキング戦略を採用している。
    • この戦略により,高品質かつ信頼性の高い解候補が優先的に選択される。
    • 実験結果から,提案手法が様々なサロゲートモデルで有効であることが示された。

    Link: https://arxiv.org/abs/2511.06459

  • 長文書要約のための事実整合性指標のストレステスト [cs.CL, cs.AI, cs.LG]目的:長文書要約における事実整合性指標の信頼性評価
    • 要約の質評価において,事実整合性は重要な要素であり,特に長文書ではその評価が困難である。
    • 既存の指標は,文書長や長距離依存関係への対応が不十分であり,信頼性に課題がある。
    • 長文書要約における既存指標の限界を明らかにし,改善の方向性を示す。
    • 短編要約向けに開発された指標は,長文書においては意味的に同等な要約に対しても一貫性のないスコアを生成する。
    • 情報密度の高い箇所を含む要約では,指標の信頼性が低下する傾向が確認された。
    • 検索コンテキストの拡張は一部の分野で安定性を向上させるが,長文脈下で常に事実整合性を維持できるわけではない。

    Link: https://arxiv.org/abs/2511.07689

  • Inferix:ワールドシミュレーションのためのブロック拡散ベース次世代推論エンジン [cs.CV, cs.AI]目的:ワールドシミュレーションにおける高品質な動画生成の効率化
    • エージェントAI,ロボティクス,ゲーム等の分野で,現実的かつインタラクティブなシミュレーションが重要である。
    • 既存の動画生成モデルは,計算コストが高く,長時間の高品質な動画生成が困難である。
    • ブロック拡散法とLLMキャッシュ管理を組み合わせた推論エンジンInferixを開発し,効率的な動画生成を目指す。
    • Inferixは,ブロック拡散法に基づく半自己回帰デコーディングを最適化することで,ワールドシミュレーションの効率を向上させる。
    • リアルタイムインタラクションと正確な世界ダイナミクスのモデル化を実現するインタラクティブ動画ストリーミングとプロファイリング機能を搭載している。
    • LV-Benchとの統合により,長尺動画生成の評価を可能にする効率的なベンチマーク環境を提供する。

    Link: https://arxiv.org/abs/2511.20714

  • 価値に基づいた反復的な改良と,VLMの頑健性を評価するためのDIQ-Hベンチマーク [cs.CV, cs.AI]目的:VLMの頑健性評価
    • ロボティクス等,具現化されたAIと安全性が重要な応用において,VLMは不可欠である。
    • 既存のベンチマークは,実世界の摂動や時間経過に伴う不整合の影響を考慮していない。
    • 悪条件下のVLMの持続的な誤りや価値のずれを評価し,安全性を評価する。
    • DIQ-Hベンチマークは,連続的なシーケンスにおけるVLMの頑健性を評価する。
    • 価値に基づいた反復的な改良(VGIR)フレームワークは,アノテーションの精度を向上させる。
    • DIQ-HとVGIRは,エラー回復,倫理的一貫性,時間的価値整合性の脆弱性を明らかにする。

    Link: https://arxiv.org/abs/2512.03992

  • Consist-Retinex: 一段階ノイズ強調一貫性学習による高品質レティネックス強化の高速化 [cs.CV, cs.AI]目的:高品質なレティネックス強化の高速化
    • 低照度画像処理は,監視や自動運転など幅広い分野で重要性が高まっている。
    • 既存の生成モデルは,反復サンプリングに依存し,リアルタイム処理が困難な場合がある。
    • 一段階推論における不安定性を解消し,効率的な強化手法を確立すること。
    • Consist-Retinexは,レティネックス分解ネットワークと二つの条件付き一貫性モデルを活用する。
    • 二重目的関数と適応的ノイズ強調固定点サンプリングにより,一貫性と成分整合性を同時に最適化する。
    • VE-LOL-Lベンチマークにおいて,既存手法を上回る性能を達成し,計算コストを削減した。

    Link: https://arxiv.org/abs/2512.08982

  • 効率的なゼロショットインペインティングのための,分離された拡散ガイダンス [cs.CV, cs.LG]目的:画像インペインティングにおける効率的なゼロショット手法
    • 画像編集技術は,現実世界の応用において重要であり,特にインペインティングは画像復元の基礎となる。
    • 既存のゼロショット手法は計算コストが高く,メモリ消費量が大きいという課題があった。
    • 拡散モデルの効率的な活用により,計算コストを削減し,高性能なインペインティングを実現すること。
    • 提案手法は,従来のファインチューニングされたベースラインと比較して,観測の一貫性を高く維持できる。
    • ガウス分布の事後遷移を効率的にサンプリングすることで,逆伝播の必要性を回避し,推論コストを大幅に削減する。
    • 高品質で一貫性のある再構成画像を生成するとともに,計算効率の向上を達成した。

    Link: https://arxiv.org/abs/2512.18365

  • 拡散モデルを用いた合成デモンストレーションによる敵対的模倣学習 (SD2AIL) [cs.LG, cs.RO]目的:敵対的模倣学習における報酬推論とポリシー最適化
    • ロボット制御や強化学習において,人間の専門家の行動を模倣する技術は重要である。
    • 専門家データの収集はコストや時間がかかる場合が多く,学習のボトルネックとなり得る。
    • 拡散モデルを用いて合成データを生成し,データ不足の問題を解決することを目指す。
    • 提案手法SD2AILは,拡散モデルを用いて生成された合成デモンストレーションを活用することで,敵対的模倣学習の性能を向上させる。
    • 優先度付き専門家デモンストレーションリプレイ戦略(PEDR)を導入することで,有効なデモンストレーションを選択的に再利用する。
    • シミュレーション実験の結果,Hopperタスクにおいて最先端手法を89の平均報酬で上回る3441を達成した。

    Link: https://arxiv.org/abs/2512.18583

  • PRAXIS:プログラム解析とオブザーバビリティの統合による根本原因分析 [cs.DC, cs.AI, cs.SE]目的:クラウドインシデントの根本原因分析のためのエージェントワークフローの管理と展開
    • クラウドサービスの可用性はビジネスに不可欠であり,その維持には迅速な障害対応が求められる。
    • クラウドインシデントの根本原因特定は複雑で時間がかかり,解決には高度な専門知識が必要となる。
    • 根本原因分析の自動化と効率化を図り,インシデント対応時間を短縮することを目的とする。
    • PRAXISは,サービス依存グラフとプログラム依存グラフを活用し,LLMによる構造化された探索を行う。
    • 最先端のReActベースラインと比較して,根本原因分析の精度を最大6.3倍向上させ,トークン消費量を5.3倍削減した。
    • 30件の実世界のインシデントを用いてPRAXISの有効性を検証し,根本原因分析のベンチマーク構築に貢献する。

    Link: https://arxiv.org/abs/2512.22113

  • 次世代LLMの学習不要な適応:既存の臨床モデルを活用して [cs.CL, cs.AI]目的:次世代LLMの臨床領域への適応手法
    • 医療現場における自然言語処理の重要性が増しており,高精度な臨床モデルが求められている。
    • 新しいLLMを臨床領域に適応させるには,高コストな再学習が必要となる。
    • 既存の臨床モデルと最新LLMを組み合わせ,学習なしで臨床適応を実現する。
    • Cross-Architecture Proxy Tuning (CAPT) により,最新LLMと旧世代の臨床モデルを組み合わせることで,個々のモデルや既存のアンサンブル手法を上回る性能が示された。
    • CAPTは,臨床的に有用な言語を増幅し,文脈エラーを減らし,臨床的特異性を高めることが明らかになった。
    • 本手法は,計算資源が限られた医療機関でも最新LLMを活用できる可能性を示唆している。

    Link: https://arxiv.org/abs/2601.03423

  • ポートフォリオ最適化のためのハイブリッド量子・古典リッジレットニューラルネットワーク [cs.LG, math.OC, math.QA]目的:ポートフォリオ最適化におけるリッジレット変換を取り入れた量子計算手法
    • 金融市場の予測精度向上は,資産運用において不可欠であり,投資判断の基盤となる。
    • 古典的なポートフォリオ最適化手法は,計算コストが高く,大規模なデータには適用が難しい場合がある。
    • 量子計算を活用し,計算コストを削減しつつ,高精度なポートフォリオ最適化を実現すること。
    • 提案手法である量子リッジレットニューラルネットワーク(QRNN)は,多解像度成分分解により,局所的およびグローバルなトレンドを識別可能である。
    • リッジレットに基づく特徴量は,必要な量子ビット数を大幅に削減し,量子計算の拡張性と精度を向上させる。
    • QRNNは,QUBOベースの平均分散最適化問題として定式化され,QAOAを用いて最適な株式を選択する。

    Link: https://arxiv.org/abs/2601.03654

  • 安全性は普遍的ではない:LLMアライメントにおける選択的安全性罠 [cs.CL, cs.AI]目的:LLMのアライメントにおける選択的安全性罠の存在とそのメカニズムの解明
    • LLMの安全性評価は,その応用拡大に不可欠であり,社会への実装において重要な課題である。
    • 既存の安全性評価では,特定の集団への脆弱性が隠蔽され,普遍的な保護の幻想を生んでいる。
    • 少数派グループに対する攻撃への脆弱性を明らかにし,公平な安全性アライメントへの道筋を示す。
    • 現在のLLMの安全性アライメントは,普遍的な能力ではなく,人口統計学的階層構造を持つことが示された。
    • 防御率は,同じモデルでも対象グループによって最大42%変動し,スケーリングによってこの格差が増幅される。
    • DPOによる直接的な最適化により,未学習のグループに対しても高い安全性汎化性能が確認された。

    Link: https://arxiv.org/abs/2601.04389

  • 学生が教師を導く:スペクトル直交探索による弱から強への推論 [cs.AI]目的:大規模言語モデルにおける数学的推論の精度向上
    • 数学的推論は,人工知能の重要な課題であり,その能力向上は様々な分野への応用を可能とする。
    • 大規模言語モデルは,複雑な数学問題において,同じ誤った論理の変形を繰り返す「推論崩壊」の問題を抱えている。
    • モデルの隠れ状態空間における低ランクの偏りを解消し,より多様な推論経路を探索することで,推論崩壊を軽減すること。
    • 提案手法であるスペクトル直交探索(SOE)は,教師モデルを弱モデルによって導くことで,多様な推論を促し,精度を向上させる。
    • 数学ベンチマークにおいて,SOEはベースライン手法と比較して,平均精度を62.4%向上,サンプリング効率を113.7%向上させた。
    • ロジックやコード生成ベンチマークにおいても,SOEの有効性を示す予備的な証拠が得られた。

    Link: https://arxiv.org/abs/2601.06160

  • AdaFRUGAL:動的な制御による適応的メモリ効率トレーニング [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルのメモリ効率トレーニング手法
    • 大規模言語モデルの発展は,その学習に必要な計算資源の増大を招いている
    • 従来のメモリ削減手法は,ハイパーパラメータの調整にコストがかかる
    • 自動的なハイパーパラメータ調整により,リソース制約下での学習を容易にすること
    • AdaFRUGALは,サブスペース比率と更新頻度を動的に制御することで,メモリ使用量と学習時間を大幅に削減した。
    • AdamWや静的なFRUGALと同等の性能を維持しながら,より実用的な自律的なLLMトレーニングソリューションを提供する。
    • C4 (英語) および VietVault (ベトナム語) による大規模事前学習とGLUEによるファインチューニングで有効性が確認された。

    Link: https://arxiv.org/abs/2601.11568

  • 一瞥または凝視:強化学習によるLMMの適応的な検索焦点の誘導 [cs.CV, cs.AI]目的:LMMの適応的な検索焦点の誘導
    • 大規模マルチモーダルモデルの活用は,視覚理解において目覚ましい進歩をもたらしている。
    • 既存の検索拡張型手法は,画像全体の無差別な検索に依存し,ノイズが多く効率が悪い。
    • 複雑な視覚クエリに対する効果を高めるため,関連性の低い情報をフィルタリングする手法が求められている。
    • 提案手法「Glance-or-Gaze」は,全自動でグローバルなコンテキストの一瞥と高価値領域への凝視を動的に選択する。
    • 二段階の訓練戦略により,基本的なGoGパラダイムを習得し,複雑なクエリに対する反復推論能力を強化する。
    • 6つのベンチマークにおいて最先端の性能を示し,選択的凝視と適応型強化学習の重要性を実証した。

    Link: https://arxiv.org/abs/2601.13942

  • 適応的な幅優先・深さ優先検索による自律的な知識グラフ探索 [cs.AI, cs.IR, cs.LG]目的:言語モデルのクエリに対する知識グラフからの証拠検索
    • 大規模言語モデルの性能向上には,知識グラフからの情報活用が不可欠である。
    • 既存手法では,広範囲探索と多段階探索のバランスが難しく,クエリに合致する証拠を見つけにくい場合がある。
    • クエリの内容に応じて探索戦略を適応的に変化させ,効率的な証拠検索を実現する。
    • ARKは,ノード記述子のグローバル検索と,近傍探索という2つのツールを組み合わせることで,幅優先と深さ優先の探索を柔軟に切り替える。
    • STaRKデータセットにおいて,ARKは既存手法と比較して,Hit@1とMRRが大幅に向上した。
    • 大規模モデルへの知識蒸留により,AMAZON,MAG,PRIMEデータセットでHit@1がさらに改善され,教師モデルの性能をほぼ維持した。

    Link: https://arxiv.org/abs/2601.13969

  • 因子分解型同時シフトの再検討 [cs.LG, stat.ML]目的:分布シフトの解析
    • 機械学習の性能は,学習データと実データ間の分布のずれに左右される。
    • 既存研究は主にカテゴリカルなラベルを対象としており,回帰問題への適用が困難。
    • 一般的なラベル空間における分布シフトを解析し,実用的な解決策を提供する。
    • 因子分解型同時シフトは,連続的なラベルシフトと共変量シフトの組み合わせから生じる。
    • 提案手法により,既存の結果を一般的なラベル空間に拡張し,EMアルゴリズムを改良した。
    • 一般的なラベル空間における一般化されたラベルシフトの考察も行った。

    Link: https://arxiv.org/abs/2601.15036

  • 検証時のスケーリング:テスト時ルブリックによる自己進化型深層研究エージェント [cs.AI]目的:深層研究エージェントの能力を,出力検証の反復を通して自己進化させること
    • 近年の深層学習の発展により,知識発見と問題解決の自動化が期待されている。
    • 既存研究は主に事後学習による能力向上に焦点を当てており,自己進化のメカニズムが不足している。
    • エージェントがテスト時に自身の出力を評価し,反復的に改善することで,性能向上を目指す。
    • 深層研究エージェントの失敗分類に基づき,ルブリックを導出し,検証プロセスを体系化した。
    • DeepVerifierは,従来の自己評価やLLMによる評価よりも12%-48%高いF1スコアを達成した。
    • テスト時スケーリングにより,GAIAやXBench-DeepSearchの難しいサブセットで8%-11%の精度向上を実現した。
    • DRA検証に焦点を当てた高品質な教師ありファインチューニングデータセットDeepVerifier-4Kを公開した。

    Link: https://arxiv.org/abs/2601.15808

  • 自動ボーカルモード分類のためのデータセット [cs.IR, cs.CL, cs.SD, cs.LG]目的:ボーカルモードの自動分類
    • 歌唱指導において,適切なボーカルモードの知識は重要であり,技術支援による指導への応用が期待される。
    • 既存研究では,データ不足により,ボーカルモードの自動分類は十分な成果を上げていない。
    • 本研究は,十分なサイズのデータセットを提供することで,ボーカルモードの自動分類の精度向上を目指す。
    • 4名の歌者(うち3名は5年以上のCVT経験を持つプロの歌者)から,持続母音を収録した新規データセットを構築した。
    • データセットは合計3,752個のユニークなサンプルと,4つのマイクを使用した自然なデータ拡張により13,000個以上のサンプルを含む。
    • ResNet18を用いた5分割交差検証で,81.3%の平衡精度を達成し,データセットの有効性を示した。

    Link: https://arxiv.org/abs/2601.18339

  • 3次元ラジオマップ構築のための統一された放射場による視覚と無線センシングの架け橋 [cs.NI, cs.AI, cs.CV, cs.LG]目的:3次元ラジオマップの構築
    • 次世代無線ネットワークの発展には,環境の高度な知能が不可欠である。
    • 従来の技術では,視覚情報と無線情報を独立したモダリティとして扱っている。
    • 電磁波伝搬の原理を共有する視覚情報と無線情報の統合を目指す。
    • 提案手法URF-GSは,3次元ガウススプラッティングと逆レンダリングに基づき,高精度な空間スペクトル精度を実現した。
    • NeRFベースの手法と比較して,空間スペクトル精度が最大24.7%向上,サンプル効率が10倍となった。
    • Wi-Fi AP配置やロボットの経路計画への応用を示し,包括的な放射場モデリングを可能にする。

    Link: https://arxiv.org/abs/2601.19216

  • LLMロールプレイングのための人間らしい推論と強化学習 [cs.LG, cs.AI]目的:LLMロールプレイングにおける認知レベルのペルソナシミュレーション
    • LLMの活用が広がる中で,人間らしい自然な対話を実現するペルソナ設定が重要になっている。
    • 既存モデルは口調や知識の再現に優れるものの,行動の裏にある思考のシミュレーションが課題である。
    • 高品質な推論データと人間の嗜好に沿った報酬信号を通じて,認知的なロールプレイングを可能とする。
    • 提案手法HERは,第一人称思考と第三人称思考を区別する二層思考を導入し,認知レベルでのペルソナシミュレーションを実現した。
    • CoSERベンチマークで30.26%の改善,Minimax Role-Play Benchで14.97%の性能向上を達成し,ベースラインモデルを大きく上回った。
    • データセット,原則,モデルを公開することで,今後の研究を促進する。

    Link: https://arxiv.org/abs/2601.21459

  • RE-MCDF:知識に基づいた臨床診断のための閉ループ多専門家LLM推論 [cs.AI]目的:知識に基づいた臨床診断のための多専門家LLM推論フレームワーク
    • 電子カルテは,診断支援において重要な情報源である。しかし,その利用は困難を伴う。
    • 既存のLLMは,電子カルテの不均一性,疎らさ,ノイズに弱く,誤った診断を下す可能性がある。
    • RE-MCDFは,論理的制約を考慮した推論により,より正確な臨床診断を目指す。
    • RE-MCDFは,生成,検証,修正の閉ループアーキテクチャを採用し,多専門家の協調による診断を実現した。
    • 医療知識グラフを活用し,証拠の重み付けと診断の整合性を高めることで,診断精度を向上させた。
    • 実験結果から,RE-MCDFが既存の最先端手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2602.01297

  • 無関係な情報の抽象化における二重の役割:認知的な労力と理解 [eess.SY, cs.SY, cs.CL, cs.AI, cs.HC]目的:無関係な情報の抽象化による記号的説明の理解度と認知負荷の改善
    • 説明は人間の認知において中心的であり,AIシステムの理解可能性を左右する。
    • 記号的AIは透明性が高いが,論理的トレースは認知負荷が高い場合がある。
    • 抽象化により,人間中心の記号的説明の質を向上させることを目指す。
    • 詳細のクラスタリングは,参加者の理解力を著しく向上させた。
    • 詳細の削除は,参加者の認知負荷を大幅に軽減した。
    • 抽象化は,人間中心の記号的説明を強化するという仮説を支持する。

    Link: https://arxiv.org/abs/2602.03467

  • ELIQ:進化するAI生成画像の品質評価のためのラベルフリーフレームワーク [cs.CV, cs.AI, cs.MM]目的:AI生成画像の品質評価手法
    • AI画像生成技術は急速に進歩しており,その品質評価は重要性を増している。
    • 既存のラベルデータは,生成モデルの進化により陳腐化しやすく,品質評価の精度低下を招く。
    • ラベルを用いずに,AI生成画像の品質を評価する新しい手法を開発し,継続的な進化に対応すること。
    • ELIQは,人間によるアノテーションなしに,視覚品質とプロンプト-画像の一致性を自動的に評価する。
    • ELIQは既存のラベルフリー手法を上回り,AI生成画像からユーザー生成画像への汎化性能を示す。
    • 継続的に進化する生成モデル下での,スケーラブルでラベルフリーな品質評価の道を開く。

    Link: https://arxiv.org/abs/2602.03558

  • 臨床強化学習における時間的リサンプリングの隠れたリスク [cs.LG]目的:臨床強化学習における時間的リサンプリングの影響評価
    • 医療分野での意思決定支援に,強化学習の応用が期待されている。
    • 過去の診療データを用いるオフライン強化学習では,データの時間間隔の不均一性が課題となる。
    • 時間的リサンプリングがモデルの性能に与える影響を明らかにし,安全な臨床応用を目指す。
    • 時間的リサンプリングは,実際のシミュレーション環境において,モデルの性能を最大60%低下させた。
    • 4時間間隔でのリサンプリングは,全てのモデルにおいてベースラインよりも低い性能を示した。
    • リサンプリングされたデータでの評価は,実際の性能を過大評価する傾向が確認された。

    Link: https://arxiv.org/abs/2602.06603

  • 感情サポート対話のための感情フロー言語モデル [cs.CL, cs.AI]目的:感情サポート対話における多岐にわたる戦略的意思決定
    • メンタルヘルスケアの重要性が増す中,対話型AIによる支援への期待が高まっている。
    • 既存の言語モデルは,対話の途中の戦略判断に対する十分な指導信号を得られていない。
    • 対話の文脈における感情の流れをモデル化し,より一貫性のある共感的な応答を目指す。
    • 提案手法AFlowは,対話の序盤段階における感情の連続的な変化を考慮することで,中間的な戦略的意思決定を改善する。
    • サブパスレベルのフローバランス目標を導入し,中間状態への優先信号伝搬を促進することで,戦略の一貫性と応答の質を向上させる。
    • 多様な感情的な状況において,競争力のあるベースラインと比較して一貫した有意な改善が確認された。また,GPT-4oやClaude-3.5などの大規模モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2602.08826

  • ReLoop:信頼性のあるLLMベース最適化のための構造化モデリングと行動検証 [cs.SE, cs.AI, cs.LG, math.OC]目的:LLMによる最適化コードの信頼性向上
    • LLMは自然言語を最適化コードに変換するが,その出力の信頼性が課題となっている。
    • 生成されたコードは実行可能でも,意味的に誤った最適化問題を表現している場合がある。
    • 構造化生成と行動検証により,LLMの出力における妥当性と正確性のギャップを埋める。
    • ReLoopは,コード生成を4段階の推論チェーンに分解することで,最適化問題の誤りを抑制する。
    • ソルバーを用いたパラメータ摂動による行動検証で,LLMの自己レビューに頼らないエラー検出を実現する。
    • RetailOpt-190データセットを公開し,LLMが最も失敗しやすい多制約相互作用のシナリオを提示する。

    Link: https://arxiv.org/abs/2602.15983

  • LLMエージェントの信頼性の高いツール利用のためのツール記述の書き換え学習 [cs.RO, cs.SY, eess.SY, cs.RO, cs.SY, eess.SY, cs.AI]目的:LLMベースのツール利用エージェントにおける信頼性の高いツール利用
    • LLMエージェントの性能向上は重要であり,特に複雑なタスクにおいてはツール利用能力が鍵となる。
    • 既存のツール記述は人間向けに書かれており,エージェントが曖昧さを解消できない場合がある。
    • ツールカタログの規模拡大に伴う性能低下を抑制し,未知のツールへの汎化能力を高める。
    • Trace-Free+は,豊富なトレーシング情報からトレーシングなしの展開へ,段階的に教師あり学習を転送するカリキュラム学習フレームワークである。
    • 実験の結果,ツールカタログが150以上の候補に拡大した場合でも,Trace-Free+はロバスト性を向上させ,StableToolBenchでの精度低下を29.23%削減し,クエリレベルでの成功率を60.89%改善した。
    • ドメイン間の汎化性能も高く,エージェントのファインチューニングと組み合わせることで,相乗効果が得られる。

    Link: https://arxiv.org/abs/2602.20426

  • 強化学習を用いた再帰的数値システムの規則性と学習性の関係の評価 [cs.CL, cs.AI]目的:再帰的数値システムにおける規則性と学習性の関係
    • 言語の普遍性が学習メカニズムと密接に関連する可能性が指摘されている。
    • 言語システムにおいて,規則性と学習しやすさの関係は未解明な点が多い。
    • 規則性が学習を促進するかどうか,強化学習を用いて検証する。
    • 規則的な数値システムは,不規則なシステムよりも学習しやすいことが確認された。
    • この非対称性は,限られたデータから全ての整数を正確に表現するという自然な仮定の下で生じる。
    • 極端に不規則なシステムでは,規則性の影響は見られず,信号長が学習性に影響を与える。

    Link: https://arxiv.org/abs/2602.21720

  • LLM監視への応用を伴う隠写術の決定理論的定式化 [cs.RO, cs.AI, cs.CL, cs.CR, cs.IT, cs.MA, math.IT]目的:LLMにおける隠写術的能力の検出と定量化
    • LLMの進化に伴い,悪意のある利用を検知する手段が重要になっている
    • 従来の隠写術の検出法は,非隠写術信号の分布を必要とするため,LLMには適用困難である
    • 情報利用の非対称性に着目し,隠写術を定量化する新たな指標を提案する
    • 決定理論的視点から隠写術を捉え,汎化された$\mathcal{V}$-情報という概念を導入した
    • 隠写術信号の有用性を,復号可能か否かによって比較する「隠写術ギャップ」を定義した
    • 提案手法によりLLMにおける隠写術的推論の検出,定量化,軽減が可能であることを実証した

    Link: https://arxiv.org/abs/2602.23163

  • 意見の二極化を抑制する統一グラフ学習フレームワークPACIFIER [cs.SI, cs.LG]目的:意見の二極化抑制手法の開発
    • 社会における意見の二極化は,対立激化やコミュニケーション阻害を引き起こす重要な課題である。
    • 既存手法は計算コストが高く,複雑な状況への適応が困難である。
    • グラフ学習と強化学習を組み合わせ,大規模ネットワークへの適用を目指す。
    • PACIFIERは,介入コストを考慮した意見の二極化抑制において,既存手法を上回る性能を示す。
    • 特に長期的視点でのコストや構造変化が重要となる場合に,PACIFIER-RLの有効性が確認された。
    • 15万ノード規模のTwitterネットワークにおける実験で,PACIFIERの汎用性が示された。

    Link: https://arxiv.org/abs/2602.23390

  • 視覚に基づく全方向ナビゲーション学習:単眼深度推定を用いた教師・生徒アプローチ [cs.RO, cs.CV, cs.LG]目的:視覚に基づく全方向ナビゲーションの学習
    • 産業環境における安全な移動ロボットの自律走行は重要であり,3次元環境理解が不可欠である。
    • 従来の2次元LiDARセンサーでは,環境の垂直方向の情報を捉えきれず,障害物回避に課題があった。
    • LiDARセンサーを用いずに,単眼深度推定と教師学習によってロバストなナビゲーションを実現することを目指す。
    • シミュレーション実験では,生徒ポリシーは教師ポリシー(2D LiDAR)を凌駕し,82-96.5%の成功率を達成した。
    • 実環境実験では,複雑な3D形状の障害物(張り出し構造や低姿勢物体)回避において,生徒ポリシーが教師ポリシーを上回った。
    • 本手法は,NVIDIA Jetson Orin AGXに搭載され,外部計算なしにリアルタイム推論が可能である。

    Link: https://arxiv.org/abs/2603.01999

  • アラインメント・フライホイール:アーキテクチャ非依存な安全性を実現するガバナンス中心のハイブリッドMAS [cs.MA, cs.LG, cs.RO]目的:アーキテクチャ非依存な安全性のためのガバナンス中心ハイブリッドMAS
    • 自律システムの進化に伴い,役割分解と規範的ガバナンスの重要性が高まっている。
    • 学習モデルの安全性は訓練に依存しやすく,監査や更新が困難であるという課題がある。
    • 決定生成と安全ガバナンスを分離し,安全性の欠陥に対する局所的な修正を可能にすること。
    • アラインメント・フライホイールは,自律システムと安全ガバナンスを分離するハイブリッドMASアーキテクチャである。
    • 提案者と安全オラクルを介して,安全シグナルを安定インターフェースで提供し,リスクポリシーを適用する。
    • 監査,不確実性に基づく検証,バージョン管理された改良により,安全オラクルの監視を行うことで安全性を確保する。

    Link: https://arxiv.org/abs/2603.02259

  • CoFL:言語条件付きナビゲーションのための連続フロー場 [cs.RO, cs.AI]目的:言語条件付きナビゲーションのための連続フロー場の学習
    • ロボットナビゲーションは,現実世界での自律的な行動を可能にする上で重要である。
    • 従来のシステムは,モジュール化されたパイプラインや単一の開始点からの軌道予測に依存しており,汎用性に課題がある。
    • CoFLは,空間的な制御を密に学習することで,より柔軟で安全なナビゲーションを実現する。
    • CoFLは,BEV画像と言語指示から連続フロー場を予測するエンドツーエンドのポリシーである。
    • 既存のVLMベースのプランナーや軌道生成ポリシーと比較して,ナビゲーション精度と安全性が大幅に向上した。
    • 実世界実験においても,CoFLは高い成功率で閉ループ制御を維持した。

    Link: https://arxiv.org/abs/2603.02854

  • 準古典的情報構造を用いた原理に基づいたコミュニケーション学習 [eess.SY, cs.LG, cs.MA, cs.SY, math.OC]目的:部分観測環境におけるコミュニケーション学習の形式化と理解
    • 深層マルチエージェント強化学習において,制御とコミュニケーション戦略の共同学習が注目されている。
    • 複雑な環境下では,エージェント間の効果的な情報伝達が困難であり,協調行動の妨げとなる。
    • 情報構造の枠組みを通して,コミュニケーション学習の計算可能性と効率性を解析し,解決策を提供する。
    • 準古典的情報構造を持つコミュニケーション学習問題は,一般的なケースで計算困難であることが示された。
    • 特定の条件下では,情報共有後も準古典的情報構造が維持されることが確認された。
    • 準古典的情報構造を持つコミュニケーション学習問題に対する計画および学習アルゴリズムが開発された。

    Link: https://arxiv.org/abs/2603.03664

  • 小規模言語モデルにおけるグラフ特性推論:表現と推論戦略の影響 [cs.CL, cs.LG]目的:小規模言語モデルにおけるグラフ特性推論の性能
    • 自然言語処理の進展により,構造化された推論を必要とする問題への応用が期待されている。
    • 小規模言語モデルでは,関係構造の形式的な特性を正確に推論することが困難である。
    • 入力表現と推論戦略が,グラフ特性推論の性能に与える影響を明らかにすること。
    • 小規模言語モデルは,グラフ特性の信頼できる推定に失敗する。誤差は目標特性の分散を上回り,順位相関も低い。
    • 隣接リストによる表現は,エッジリストに比べて誤差を減らし,順序の一貫性を向上させる。
    • マルチブランチ推論は,構成全体で測定可能な改善をもたらす。

    Link: https://arxiv.org/abs/2603.06635