arXiv雑要約

AI - 2026/01/30 公開

  • L2R:MoEにおける低ランク・リプシッツ制御ルーティング [cs.LG, cs.AI]目的:MoEモデルにおけるルーティングの安定性,専門性,および全体的な性能の向上
    • ニューラルネットワークの規模拡大にはMoEが有効。専門家ネットワークの選択が重要。
    • 従来の線形ルーティングでは,表現の不一致や不安定な専門化が課題。
    • ルーティング空間とスコアリングの幾何学を再構築し,安定化を図る。
    • L2Rは,低ランク潜在ルーティング空間とSIPSを導入することで,ルーティングの安定性を向上。
    • パラメータ効率の良いマルチアンカールーティング機構により,専門家の表現力を強化。
    • 大規模言語モデルやImageNetの実験で,L2Rがルーティングの安定性と性能向上に貢献。

    Link: https://arxiv.org/abs/2601.21349

  • 強化学習における頑健な報酬モデリングのための因果表現学習 [cs.LG]目的:人間のフィードバックからの強化学習による言語モデルと人間の選好の整合
    • 言語モデルの性能向上には,人間の選好との整合が不可欠であり,報酬モデリングが重要な役割を担う。
    • 従来の報酬モデルは,人間のラベルと因果関係のない特徴に影響されやすく,報酬ハッキングを引き起こす可能性がある。
    • 報酬予測に十分な因果的要素と,報酬に関係ない属性を分離し,頑健な報酬モデルを学習すること。
    • 提案手法は,文脈埋め込みを因果的要素と非因果的要素に分解する表現学習フレームワークを導入した。
    • 報酬ヘッドは因果的要素のみに依存するように制約され,非因果的要素からの報酬予測を抑制する敵対的ヘッドが導入された。
    • 数学的課題と対話タスクにおける実験により,提案手法がより頑健な報酬モデルを学習し,RLHFの性能を向上させることが示された。

    Link: https://arxiv.org/abs/2601.21350

  • 分割LLMサービングにおける理論的に最適なアテンション/FFN比率 [cs.LG, cs.AI]目的:分割LLMサービングにおける最適なアテンション/FFN比率の導出
    • 大規模言語モデルの効率的な推論は,その利用拡大に不可欠である。
    • アテンションとFFNの資源配分が不適切だと,ボトルネックやアイドル時間が発生する。
    • 非定常なアテンション計算と定常的なFFN計算を考慮した最適な比率を理論的に決定する。
    • 提案手法により,アテンション/FFN比率を決定する解析的フレームワークを確立した。
    • 確率的ワークロードモデルを用いて,システムのスループットを最大化する比率の閉形式解を得た。
    • シミュレーションの結果,理論的に最適な比率はシミュレーションで最適な比率と10%以内の誤差で一致した。

    Link: https://arxiv.org/abs/2601.21351

  • BEAP-Agent:GUIエージェントにおけるバックトラック可能な実行と適応的計画 [cs.AI]目的:GUIタスク実行におけるバックトラック機構
    • GUI自動化は生産性向上に不可欠であり,その重要性は増している。
    • 従来のGUIエージェントは誤った経路からの回復に弱く,タスク失敗に繋がる。
    • 本研究はGUIエージェントの体系的なバックトラックを実現し,タスク探索の成功率向上を目指す。
    • BEAP-AgentはGUIタスク実行をDFSとしてモデル化し,動的なタスク追跡と更新を可能にする。
    • OSWorldベンチマークにおける評価で,BEAP-Agentは28.2%の精度を達成した。
    • これにより,長距離タスク探索における体系的なバックトラック機構の有効性が示された。

    Link: https://arxiv.org/abs/2601.21352

  • 勾配ノルムに基づく期待改善 [cs.LG]目的:高コストなブラックボックス関数の最適化
    • 最適化問題は科学技術の進歩に不可欠であり,効率的な手法が求められている。
    • 従来の期待改善法は,過度に探索的であり,最適解に至らない場合がある。
    • 勾配情報を用いて,より効率的に最適解を探索することを目的とする。
    • 提案手法であるEI-GNは,標準的なベースラインと比較して,一貫した性能向上を示すことが確認された。
    • EI-GNは,勾配を考慮した補助目的関数に期待改善の原理を適用することで,高パフォーマンスかつ一階停留点に近づく領域でのサンプリングを促進する。
    • 制御ポリシー学習問題へのEI-GNの適用可能性も示された。

    Link: https://arxiv.org/abs/2601.21357

  • 潜在的な思考連鎖としての計画:推論と言語化の分離 [cs.AI, cs.CL]目的:大規模言語モデルにおける複雑な問題解決のための,潜在的な思考連鎖による計画立案
    • 複雑な問題を解決するため,大規模言語モデルの推論能力向上は不可欠である。
    • 従来の思考連鎖は,計算コストが高く,離散的なトークン空間に起因する推論経路の崩壊が課題である。
    • 潜在的な思考連鎖による効率化を目指し,推論と言語化を分離することで,柔軟な推論を可能にする。
    • PLaTは,推論ステップ数を事前に定義する必要がなく,動的に推論を終了できる。
    • 数学的ベンチマークにおいて,PLaTは貪欲法による精度は低いものの,推論の多様性において優れた拡張性を示した。
    • これは,PLaTがより広範な解空間を学習し,推論時探索のための透明性と拡張性を提供する基盤となることを示唆する。

    Link: https://arxiv.org/abs/2601.21358

  • グラフを用いない根本原因分析 [cs.LG, cs.SE]目的:複雑系における根本原因の特定
    • 複雑なシステムの障害発生時,迅速な原因究明は被害拡大防止に不可欠である。
    • 既存手法は,異常スコアが最も高い箇所を根本原因と仮定するため,伝播経路の影響を考慮できない。
    • 依存グラフがない状況でも,正確かつ迅速に根本原因を特定することを目指す。
    • PRISMは,依存グラフが不要な環境下で根本原因分析を行うための簡潔かつ効率的なフレームワークである。
    • 理論的な保証のもと,特定条件下でPRISMは根本原因分析を実行する。
    • 9つの実データセットにおける735件の障害に対し,PRISMは68%のTop-1精度を達成し,最良のベースラインを258%上回った。

    Link: https://arxiv.org/abs/2601.21359

  • コンプライアンスのパラドックス:自動コード評価における意味と指示の分離 [cs.CL, cs.AI, cs.ET, cs.LG, cs.SE]目的:大規模言語モデルを用いた自動コード評価における,意味と指示の乖離
    • 教育評価へのLLM活用が急速に進む中で,その信頼性確保が重要課題となっている。
    • LLMの指示追従能力が,客観的なコード品質の評価に直結するという前提が検証されていない。
    • LLMの「親切さ」に特化した調整が,悪意ある操作に対して脆弱性を作り出す問題を解決する。
    • 最先端モデルにおいて,95%を超える高い割合で,コードの正しさよりも書式制約を優先する現象が確認された。
    • 新しく開発したSPACIフレームワークとAST-ASIPプロトコルにより,構文的に無害な領域に悪意のある指示を埋め込むことが可能となった。
    • 現在のLLM調整方法が,自動採点に「トロイの木馬」のような脆弱性を生み出す可能性が示唆された。

    Link: https://arxiv.org/abs/2601.21360

  • パーセプトロンと注意の平均場景の局所化 [cs.RO, cs.CY, cs.LG, math.OC]目的:Transformerにおけるパーセプトロンブロックの影響の分析
    • 近年,Transformerモデルは自然言語処理を中心に大きな進歩を遂げており,その理論的理解が不可欠である。
    • Transformerの内部動作は複雑であり,特に長い系列データに対する振る舞いは未だ解明されていない点が多い。
    • Transformerを相互作用粒子系として捉え,パーセプトロンブロックがもたらす影響を解析することで,その振る舞いを理解する。
    • Transformerの順伝播を単位球面上の相互作用粒子系としてモデル化し,パーセプトロンブロックが臨界点に与える影響を調べた。
    • 特定の重み設定下では,システムがエネルギーの勾配降下として解釈でき,無限のコンテキスト長に対する解析が可能となる。
    • 解析の結果,臨界点は一般的に原子的であり,球面上の部分集合に局在化することが示された。

    Link: https://arxiv.org/abs/2601.21366

  • 大域方向性を持つヘブ学習 [cs.AI, cs.LG]目的:大域方向性を持つヘブ学習フレームワークの提案
    • 深層学習の成功は大きいが,生物学的妥当性や計算コストが課題である。
    • 従来のヘブ学習は局所情報のみに依存し,大規模化に限界があった。
    • 局所情報と大域情報を統合し,ヘブ学習の大規模化と性能向上を目指す。
    • 提案手法であるGHLは,既存のヘブ学習手法と比較して一貫して優れた性能を示す。
    • 大規模ネットワークやImageNetなどの複雑なデータセットにおいて,標準的な誤差逆伝播法との性能差を縮小した。
    • 局所的なOjaの規則と競争学習,および符号ベースの大域的なガイダンス信号を組み合わせた。

    Link: https://arxiv.org/abs/2601.21367

  • 連合グラフ基盤モデルの再考:グラフ言語アライメントに基づくアプローチ [cs.LG]目的:連合学習環境におけるグラフ基盤モデルの性能向上
    • グラフ構造データは,ソーシャルネットワークや知識グラフなど,様々な分野で重要性が増している。
    • 分散環境におけるデータプライバシー保護とモデルの汎化性能維持が課題となっている。
    • グラフと言語モデル間の意味的・構造的な整合性を高めることで,効率的な学習を実現する。
    • 提案手法FedGALAは,グラフと言語モデルを連続埋め込み空間でアライメントするコントラスティブ学習を用いる。
    • これにより,分散環境下でもロバストで転移可能な知識を捉え,多様なタスクへの適応を可能にする。
    • 多岐にわたるデータセットでの実験により,既存手法を最大14.37%上回る性能が確認された。

    Link: https://arxiv.org/abs/2601.21369

  • NEMO:実行を意識した最適化モデリングのための自律型コーディングエージェント [eess.SY, cs.SY, cs.AI]目的:意思決定問題の自然言語記述を,実行可能な数理最適化の実装へと変換するシステム
    • 最適化モデリングは,現実世界の様々な問題を効率的に解決するために不可欠である。
    • 従来の自動化手法は,脆く複雑であり,構文エラーや実行不可能なコードを生成しやすい。
    • NEMOは,自律型コーディングエージェントを活用し,より堅牢で実行可能な最適化モデリングを実現する。
    • NEMOは,自律型コーディングエージェントをAPIのように扱い,タスク仕様を構造化・洗練させる。
    • 独立して生成された最適化器とシミュレーターを用いた非対称な検証ループや,経験の再利用のための外部メモリを導入した。
    • 9つの最適化ベンチマークにおいて,最先端の性能を達成し,自動最適化モデリングの可能性を示した。

    Link: https://arxiv.org/abs/2601.21372

  • TeachBench: 大規模言語モデルの教育能力評価のためのシラバスに基づくフレームワーク [cs.AI]目的:大規模言語モデルの教育能力の評価フレームワーク
    • 教育分野において,AI技術を活用した個別最適化された学習の重要性が高まっている。
    • 既存の評価指標は問題解決能力に偏っており,知識に基づいた体系的な教育能力の評価が不足している。
    • 大規模言語モデルの教育能力を客観的に評価し,改善点を見出すこと。
    • 本研究で提案するフレームワークは,学生の成績向上という指標に基づき,大規模言語モデルの教育能力を評価する。
    • 実験の結果,モデルや科目によって教育効果に大きな差が見られ,物理や化学の教育は特に困難であることが示された。
    • 例題の組み込みが必ずしも教育効果の向上に繋がらず,モデルが特定の例題への修正に偏る傾向が確認された。

    Link: https://arxiv.org/abs/2601.21375

  • DA-SPS:特異スペクトル分析,パッチング戦略,およびスピアマン相関に基づく二段階多変量時系列予測ネットワーク [cs.LG]目的:多変量時系列予測のためのモデル
    • 時系列予測は,天気予報や交通量予測など,幅広い分野で重要な役割を担っている。
    • 既存手法では,的外れな変数が予測に与える影響が十分に考慮されていない。
    • 本研究は,時系列データの複雑なパターンをより効果的に捉えることを目指す。
    • 提案手法DA-SPSは,ターゲット変数と的外れ変数を別々に処理する二段階構造を採用している。
    • ターゲット変数の処理段階では,特異スペクトル分析とLSTM,P-Conv-LSTMを用いて特徴抽出を行う。
    • 実験結果から,DA-SPSは既存の最先端手法と比較して優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.21381

  • Sim-MSTNet:sim2realに基づくマルチタスク時空間ネットワークトラフィック予測 [cs.NI, cs.LG, cs.AI]目的:ネットワークトラフィック予測の精度向上
    • 知的ネットワーク運用において,ネットワークトラフィック予測は不可欠である。
    • 既存手法は,データ不足時に性能が低下しやすい。
    • データ不足による汎化性能の低下と,マルチタスク学習におけるタスク間の不均衡を解消する。
    • Sim-MSTNetは,シミュレータを活用して合成データを生成し,データ不足の問題に対処する。
    • ドメインランダム化により,合成データと実データの分布ギャップを低減する。
    • アテンション機構と動的損失重み付けにより,タスク間の知識共有とタスク目標のバランスを実現し,既存手法を上回る精度を達成した。

    Link: https://arxiv.org/abs/2601.21384

  • 合成音声の品質評価のためのフレシェ距離の理解 [cs.SD, cs.AI]目的:合成音声の品質評価
    • 音声合成技術の発展に伴い,客観的な品質評価手法の確立が重要となっている。
    • 主観評価は信頼性が高いものの,コストと時間がかかるため,大規模な評価には不向きである。
    • フレシェ距離を用いた評価手法の有効性と,最適な設定条件の特定を目指す。
    • フレシェ距離(FSD)および関連指標(SMMD)の性能を,様々な埋め込み表現と条件で評価した。
    • WavLM Base+の特徴量が,人間の評価との最も安定した一致を示すことが明らかになった。
    • FSDとSMMDは主観評価の完全な代替とはならないが,費用対効果が高く,再現性のある補完的な指標となりうる。

    Link: https://arxiv.org/abs/2601.21386

  • 構造的不確実性下におけるジョブショップスケジューリングの最適化学習 [cs.LG]目的:ジョブショップスケジューリングにおける構造的不確実性への対応
    • 製造業における効率化は重要であり,ジョブショップスケジューリングはその鍵となる技術の一つである。
    • 従来のスケジューリング手法は,処理時間変動などのパラメータ的不確実性に焦点を当てており,構造的不確実性への対応が課題である。
    • 状況要因によって経路が選択される構造的不確実性下での,より正確な価値関数学習を目指す。
    • 提案手法UP-AACは,アシンメトリックなアーキテクチャを採用することで,より安定した学習を実現する。
    • 特に,criticに事後的に再構成された決定的な状態を与える点が,価値関数学習の精度向上に貢献する。
    • 実験結果から,提案手法がベンチマークインスタンスにおけるmakespan削減において既存手法を上回ることが示された。

    Link: https://arxiv.org/abs/2601.21389

  • スパース報酬環境における内在的報酬方策最適化 [eess.SY, cs.SY, cs.LG, cs.AI]目的:スパース報酬環境における方策最適化
    • 強化学習において,エージェントは試行錯誤を通じて最適な方策を学習する必要がある。
    • 報酬がスパースな場合,単純な探索戦略では十分な性能が得られない場合がある。
    • 内在的報酬を活用し,事前学習なしで方策を直接最適化する手法を提案する。
    • 提案手法であるIRPOは,スパース報酬環境において,より情報量の多い学習信号を提供するサロゲート方策勾配を用いる。
    • 離散環境および連続環境において,ベースラインと比較して,性能とサンプル効率が向上することを示した。
    • IRPOが解く最適化問題を形式的に解析した。

    Link: https://arxiv.org/abs/2601.21391

  • DataCross:クロスモーダル異種データ分析のための統一ベンチマークおよびエージェントフレームワーク [cs.AI, cs.MA]目的:クロスモーダル異種データ分析に関する統一的なベンチマークと協調エージェントフレームワーク
    • 現実世界のデータ分析では,構造化データと非構造化データが混在しており,両者を統合的に分析する必要がある。
    • 既存のデータ分析エージェントは主に構造化データに限定され,視覚情報との関連付けが不十分である。
    • 構造化データと視覚情報を統合し,より高度なデータ分析を可能にすることを目的とする。
    • DataCrossは,金融,医療など多様な分野における200の分析タスクを含むベンチマークを提供することで,エージェントの能力を評価する。
    • DataCrossAgentは,専門エージェント間の協調により,視覚テーブル抽出,クロスモーダルアライメント,多段階共同推論などのタスクにおいて,GPT-4oより29.7%高い事実性を示す。
    • 再ReActメカニズムにより,コード生成とデバッグの堅牢性が向上し,断片化された視覚情報を効果的に活用した洞察に満ちたクロスモーダル分析を可能にする。

    Link: https://arxiv.org/abs/2601.21403

  • 生成によるエンハンスメントが,統一マルチモーダルモデルの理解力を向上させる:多表現生成によるアプローチ [cs.CV, cs.LG]目的:統一マルチモーダルモデルにおける理解力向上
    • 視覚情報と生成を統合し,相互に強化するモデル構築が重要視されている。
    • 理解力を活用して生成を改善する研究は多いが,生成を用いて理解力を高める研究は少ない。
    • 生成タスクを導入することで,視覚入力に対するモデルの理解を深めることを目指す。
    • 提案手法UniMRGは,モデルにピクセル,深度,セグメンテーションといった多様な表現を生成させることで理解力を向上させる。
    • 実験結果から,UniMRGはファイングレインな知覚能力を高め,ハルシネーションを抑制し,空間理解力を改善することが示された。
    • 理解力向上と同時に,生成能力も向上することが確認された。

    Link: https://arxiv.org/abs/2601.21406

  • BrainFuse:現実的な生物学的モデリングと中核的なAI手法を統合する統一インフラストラクチャ [cs.NE, q-bio.NC]目的:現実的な生物学的ニューラルシミュレーションと勾配ベースの学習を包括的にサポートする統一インフラストラクチャの提供
    • 神経科学とAIは汎用知能への異なる道筋である。両者の融合は,次世代の知能システム開発に不可欠である。
    • AIフレームワークは生物物理的なリアリズムをネイティブにサポートせず,神経シミュレーションツールは勾配ベースの最適化やノイロモルフィックハードウェアへの展開が困難である。
    • AIと神経科学の間のインフラストラクチャの非互換性を解消し,両分野の融合を促進することを目指す。
    • BrainFuseは,詳細なニューロンダイナミクスを微分可能な学習フレームワークに組み込むアルゴリズム統合を実現した。
    • GPU上でカスタマイズ可能なイオンチャネルダイナミクスを最大3,000倍に高速化するシステムレベルの最適化を可能にした。
    • ノイロモルフィックハードウェアへの展開に適したスケーラブルな計算パイプラインを提供し,38,000個のHodgkin-Huxleyニューロンを低消費電力で動作させた。

    Link: https://arxiv.org/abs/2601.21407

  • 動的モデル補間によるシステム1とシステム2の相乗効果 [cs.RO, cs.RO, cs.AI, cs.CL]目的:直感的思考(システム1)と熟慮的思考(システム2)の適応を可能にする統一言語モデルの構築
    • 言語モデルにおける認知能力の理解は,より人間らしいAIの実現に不可欠である。
    • システム1とシステム2の干渉により,両方を統合したモデルの学習が困難である。
    • モデルの思考方法を制御することで,システム1とシステム2の利点を効果的に組み合わせる。
    • 動的モデル補間により,モデルの認知深度を調整することが可能となった。
    • 提案手法DAMIは,既存のモデルを活用し,追加学習なしに精度と効率を両立する。
    • 数学的推論ベンチマークにおいて,DAMIは高い精度と効率を示すことが確認された。

    Link: https://arxiv.org/abs/2601.21414

  • 難易度を考慮した強化学習による大規模推論モデルの過剰思考の緩和 [cs.RO, cs.LG, cs.AI]目的:大規模推論モデルにおける過剰思考の緩和
    • 複雑な課題解決において,人間のように思考を深める大規模モデルの活用が重要視されている。
    • 単純な課題に対しても思考を深めすぎることで,無駄な計算資源の消費が生じるという課題がある。
    • タスクの難易度を考慮し,モデルが適切な思考量を調整することで,効率的な推論を目指す。
    • 提案手法DiPOは,モデル自身による難易度モデリングを通じて,タスクの複雑さを捉えることを可能にした。
    • DiPOは,報酬関数に難易度信号を組み込み,思考の冗長性を抑制しつつ,性能を維持する。
    • 実験結果から,DiPOを用いることで,モデルが推論コストを自律的に調整し,不要なトークン数を削減できることが示された。

    Link: https://arxiv.org/abs/2601.21418

  • 次元を通じた拡散モデル予測の再検討 [cs.LG, cs.CV]目的:拡散モデルにおける最適な予測対象の依存性
    • 近年,高次元データにおける生成モデリングが重要視されている。
    • 拡散モデルの予測対象選択に関する理論的な根拠が未解明であった。
    • データの次元性と最適な予測対象の関係を明らかにすること。
    • データの幾何学的性質と最適な予測対象の関係を理論的に導出した。
    • 周辺次元がデータの内在次元を大きく上回る場合,直接データ予測の優位性を説明した。
    • データから最適な予測パラメータを学習するk-Diffを提案し,生成性能を向上させた。

    Link: https://arxiv.org/abs/2601.21419

  • ConceptMoE:暗黙的な計算資源配分のための適応的トークン-概念圧縮 [cs.LG]目的:トークンと概念の間の適応的な圧縮
    • 大規模言語モデルの効率的な運用は,計算資源の最適化において重要である。
    • 既存モデルは全てのトークンに均一な計算資源を割り当てており,非効率な点がある。
    • ConceptMoEは,類似トークンを圧縮することで,計算資源の効率的な配分を目指す。
    • ConceptMoEは,言語およびビジョン-言語タスクにおいて,標準的なMoEモデルを上回る性能を示す。
    • 事前学習や長文理解,マルチモーダルベンチマークにおいて,それぞれ0.9点,2.3点,0.6点の性能向上を達成した。
    • 圧縮率R=2において,入力速度が175%,デコード速度が117%向上し,計算効率の改善が確認された。

    Link: https://arxiv.org/abs/2601.21420

  • 学習可能なGray-Wynerネットワークにおける損失のある共通情報 [cs.LG, cs.CV, cs.IT, math.IT]目的:複数の視覚タスクにおける共通情報とタスク固有情報の分離
    • 視覚タスクは共通情報を持つため,効率的な表現が重要である。
    • 従来のコーデックは共通情報を無視し,冗長な表現になりやすい。
    • 共通情報とタスク固有情報を分離し,冗長性を削減することを試みる。
    • 提案手法は,独立したコーディングと比較して,冗長性を大幅に削減した。
    • 3種類のコーデックアーキテクチャを用いて,6つの視覚ベンチマークで性能を評価した結果,提案手法が常に良好な結果を示した。
    • この研究は,最新の機械学習においてGray-Wyner理論を再考することの有用性を示唆している。

    Link: https://arxiv.org/abs/2601.21424

  • 禁止が許可になる時:言語モデルにおける否定への感受性監査 [cs.AI]目的:言語モデルにおける否定表現の理解度
    • AIの安全性が重要視される中,指示の正確な解釈が不可欠である。
    • 言語モデルが否定表現を正しく理解できず,誤った行動を招く可能性がある。
    • 否定表現に対する言語モデルの脆弱性を明らかにし,安全な利用のための指標を提案する。
    • 16のモデルを監査した結果,オープンソースモデルは否定表現に対して禁止行為を77%~100%認める傾向があることが判明した。
    • 商用モデルも否定表現において肯定表現と比べて19%~128%の乖離が見られ,モデル間の合意率も低下した。
    • 否定表現の理解度を測る指標(NSI)を提案し,ドメインごとに異なる認証フレームワークの必要性を提言した。

    Link: https://arxiv.org/abs/2601.21433

  • 一貫性から相補性へ:時系列理解と推論のための整列化・分離されたマルチモーダル学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:時系列データ理解と推論のためのマルチモーダル学習手法
    • 時系列データは様々な分野で利用されており,その理解と解析は重要である。
    • 異なるモダリティ間の時間的なずれや,意味の複雑な絡み合いが課題となっている。
    • モダリティ間の整列化と意味の分離によって,局所的な解釈と相補的な推論を実現する。
    • 提案手法MADIは,パッチレベルの整列,離散的分離インタラクション,重要トークン強調により,時系列データの理解と推論性能を向上させる。
    • MADIは,既存の汎用LLMや時系列特化型MLLMと比較して,一貫して優れた性能を示す。
    • 合成データと実世界のベンチマークにおいて有効性が確認された。

    Link: https://arxiv.org/abs/2601.21436

  • LEADによる高精度なネットワークトラフィックマトリックス予測:LLM強化アダプターベース条件付き拡散モデル [cs.LG]目的:ネットワークトラフィックマトリックスの正確な予測
    • 6GやAIネイティブなエッジインテリジェンスの進化に伴い,ネットワーク運用には予測とリスク対応が不可欠である。
    • ネットワークダイナミクスの確率的,非線形,バースト性のため,正確なトラフィックマトリックス予測は困難である。
    • 極端なバースト下での予測精度向上と不確実性への対応を目指す。
    • 提案手法LEADは,既存手法と比較してAbileneデータセットでRMSEを45.2%削減した。
    • Abileneデータセットにおいて,予測ステップ数が1から20に増加しても誤差幅は0.1098から0.1134とわずかな増加にとどまる。
    • GEANTデータセットでは,20ステップ予測において既存最高手法より27.3%低いRMSE 0.0258を達成した。

    Link: https://arxiv.org/abs/2601.21437

  • 頑健性のパラドックス:ハイステークス意思決定におけるルールベースの論理と感情的なノイズの分離 [cs.AI]目的:ハイステークスのルールに基づく意思決定におけるLLMの頑健性
    • LLMは社会実装が進んでおり,その意思決定の信頼性が重要視されている。
    • LLMはプロンプトのわずかな変化に敏感であり,人間のバイアスに影響されやすいことが課題である。
    • LLMが論理的な制約を満たす能力と,感情的な影響に対する頑健性を検証する。
    • LLMは,感情的な表現の影響をほとんど受けないことが明らかになった。
    • LLMは人間と比較して,物語による操作に対する耐性が110~300倍高い。
    • LLMはクエリの形式には脆弱だが,バイアスのある意思決定に対しては安定している。

    Link: https://arxiv.org/abs/2601.21439

  • Spava:シーケンス並列認識による長尺ビデオ理解の高速化 [cs.CV, cs.AI, cs.CL]目的:長尺ビデオ理解の高速化手法
    • 近年のマルチモーダル大規模モデルの発展に伴い,長尺ビデオの処理が重要になっている。
    • 既存手法では,ビデオ埋め込みの圧縮やスパースアテンションが用いられるが,性能低下や並列性の制限がある。
    • 複数のGPUを用いた並列処理により,圧縮なしで長尺ビデオの効率的な処理を目指す。
    • Spavaは,複数のGPU間で近似アテンションを分散することで,計算量を削減し,並列性を向上させる。
    • FlashAttn,ZigZagRing,APBと比較して,それぞれ12.72倍,1.70倍,1.18倍の高速化を達成した。
    • 性能劣化は認められず,タスクのパフォーマンスを向上させている。

    Link: https://arxiv.org/abs/2601.21444

  • グラフオートエンコーダを用いた金融活動の合成パターン生成と検出 [cs.LG, cs.CE, cs.ET]目的:金融活動における合成パターンの生成と検出
    • 金融犯罪は社会経済に深刻な影響を与えるため,その早期発見が重要である。
    • 実世界のデータはラベル付けが難しく,プライバシー制約も厳しいため,不正行為の検出は困難である。
    • 合成データを用いたグラフオートエンコーダにより,ラベルなしデータからの不正パターン検出を目指す。
    • グラフオートエンコーダ(GAE)を用いて,7種類の不正活動パターンを模倣した合成データを生成し,その識別可能性を検証した。
    • GAE-GCNが,パターン全体を通して最も安定した再構成性能を示し,GAE-SAGEおよびGAE-GATは特定のパターンでのみ競争力のある結果を示した。
    • 合成データ上のグラフ表現学習は,金融データセットの制約を克服し,不正行為検出のためのAI駆動型ツールの開発を可能にする。

    Link: https://arxiv.org/abs/2601.21446

  • ChipBench:AI支援型チップ設計におけるLLM性能評価のための次世代ベンチマーク [cs.AI, cs.AR]目的:AI支援型チップ設計におけるLLM性能評価のための包括的なベンチマーク
    • 半導体設計の自動化は,設計期間の短縮やコスト削減に不可欠であり,近年その重要性が増している。
    • 既存のベンチマークは飽和状態にあり,実際の産業ワークフローを反映した多様なタスクが不足している。
    • 現実的なタスクを通してLLMの性能を厳密に評価し,改善のためのデータ生成ツールを提供する。
    • ChipBenchは,Verilog生成,デバッグ,参照モデル生成の3つの重要なタスクにおいて,LLMを評価する。
    • 最先端モデルであるClaude-4.5-opusでさえ,Verilog生成では30.74%,Python参照モデル生成では13.33%という低い性能にとどまる。
    • 高品質なトレーニングデータ生成のための自動ツールボックスを提供し,今後の研究を促進する。

    Link: https://arxiv.org/abs/2601.21448

  • SAGE:生成レコメンデーションのためのシーケンスレベル適応勾配進化 [cs.LG, cs.AI]目的:生成レコメンデーションにおけるシーケンスレベル適応勾配進化
    • 大規模言語モデルをレコメンデーションに応用する研究が盛んになり,スケーリング則の有効性が示されている。
    • 既存手法は別途語彙を構築する必要があり,モデルの維持コストが高く,スケーラビリティに課題がある。
    • オープンソースの大規模言語モデルを活用し,語彙構築のコストを削減し,コールドスタート問題と多様性の崩壊を解決する。
    • SAGEは,幾何平均重要度比と分離された多目的優位性を用いることで,トークンレベルの分散を解消し,「報酬崩壊」問題を解決する。
    • 動的な勾配多様体と「ブースト係数」によって,コールドスタートアイテムの更新を加速させ,情報繭を打破する「エントロピー感知ペナルティ」を導入する。
    • 理論分析と実験結果から,SAGEがコールドスタートトラフィックを効果的に解消し,レコメンデーションの多様性を維持することが示された。

    Link: https://arxiv.org/abs/2601.21452

  • LION:マルチモーダル属性グラフ学習のためのクリフォードニューラルパラダイム [cs.AI]目的:マルチモーダル属性グラフにおけるアラインメントとフュージョンのための新しいニューラルパラダイムの提案
    • グラフMLは,多様なデータ表現を扱えるよう進化しており,その応用範囲は広がっている。
    • 既存手法は,グラフ構造の文脈を無視したモダリティアラインメントや,汎化性能の低いモダリティフュージョンに課題がある。
    • クリフォード代数に基づく新しいアラインメント・フュージョン手法を開発し,マルチモーダル属性グラフの性能向上を目指す。
    • LIONは,クリフォード代数と分離されたグラフニューラルパラダイムを用いることで,モダリティ間の相互作用を効率的に捉える。
    • 提案手法は,アラインメントされたトークンの幾何学的特性に基づき,適応的なホログラフィック集約を行うことで,モダリティフュージョンを改善する。
    • 9つのデータセットにおける実験結果から,LIONが最先端のベースラインを上回り,高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.21453

  • LLMロールプレイングにおける人間らしい推論と強化学習 [cs.LG, cs.AI]目的:LLMロールプレイングにおける認知レベルのペルソナシミュレーション
    • LLMは,コンパニオンシップ,コンテンツ作成,デジタルゲームなど,多様な応用において重要な役割を担う。
    • 既存モデルはキャラクターの口調や知識は捉えられるものの,行動の裏にある思考のシミュレーションが困難。
    • 質の高い推論データと人間の選好に沿った報酬信号の不足を解消し,認知的なペルソナシミュレーションを実現する。
    • 提案手法HERは,キャラクターの一次思考とLLMの三次思考を区別する二層思考を導入した。
    • 逆エンジニアリングにより推論を付加したロールプレイングデータを構築し,人間らしい原則と報酬モデルを定義した。
    • CoSERベンチマークで30.26%の改善,Minimax Role-Play Benchで14.97%の向上を達成し,ベースラインモデルを大幅に上回った。

    Link: https://arxiv.org/abs/2601.21459

  • L$^3$: 大規模ルックアップ層 [cs.HC, cs.LG, cs.AI]目的:大規模ルックアップ層による,スパース言語モデルの新しい軸の実現
    • 言語モデルの性能向上には,モデルの規模拡大が不可欠である。しかし,計算資源の制約がある。
    • MoE層は効率化に貢献するが,ハードウェア効率や学習の安定性に課題が残る。
    • L$^3$は,MoE層の課題を克服し,効率的かつ高性能な言語モデルを実現する。
    • L$^3$層は,トークンベースの静的なルーティングにより,コンテキスト依存的な埋め込みの集約を行う。
    • L$^3$は,高速な学習とCPUオフロード推論を可能にするシステムに優しいアーキテクチャを持つ。
    • 実験の結果,L$^3$は言語モデリングおよびダウンストリームタスクにおいて,denseモデルやiso-sparse MoEを上回る性能を示した。

    Link: https://arxiv.org/abs/2601.21461

  • 部分的フィードバックオンライン学習 [cs.LG, stat.ML]目的:部分的フィードバックオンライン学習におけるミニマックス後悔の特性評価
    • 機械学習において,データが不完全な状況下での学習理論は重要である。特に,実世界の問題への適用を考える上で不可欠。
    • 従来のオンライン学習モデルでは,正解ラベルが一つしか与えられない状況に対応できない。言語生成など,複数の正解が存在しうる場合に対応する必要がある。
    • 部分的フィードバック環境における学習可能性の限界と,最適な学習アルゴリズムの設計を目指す。
    • 決定論的学習者に対して,Partial-Feedback Littlestone dimension (PFLdim) を導入し,学習可能性とミニマックス後悔を正確に制御することを示した。
    • ランダム化学習者に対しては,Partial-Feedback Measure Shattering dimension (PMSdim) を開発し,タイトな上限を導出した。
    • 集合実現可能性の外では,問題が情報理論的に扱えなくなり,線形後悔が発生する可能性を示し,新たな複雑度指標の必要性を指摘した。

    Link: https://arxiv.org/abs/2601.21462

  • 事前知識強化オーディオLLMによる音声編集検出と内容局在化の統合 [cs.SD, cs.AI]目的:音声編集検出と内容局在化の統合フレームワーク
    • 音声編集技術は,音声コンテンツの改ざん検出やセキュリティ確保において重要である。
    • 従来の検出手法は,明瞭な編集痕のある音声に限定され,最新のシームレスな編集技術への対応が課題。
    • 高品質な音声編集データセットの構築と,新たな検出・局在化フレームワークの開発。
    • 大規模二言語データセットAiEditを構築し,高精度な音声編集データの不足を補った。
    • 事前知識強化オーディオLLM(PELM)を提案し,音声編集検出と内容局在化を統合的に解決した。
    • HumanEditおよびAiEditデータセットで最先端手法を大きく上回り,高い検出精度を達成した。

    Link: https://arxiv.org/abs/2601.21463

  • 検証不可能な学習のための対話:メタ評価による自己進化型LLM [cs.CL, cs.AI]目的:創造的執筆,対話,倫理的推論などの検証不可能なタスクに対するLLMの自己進化
    • LLMは多様なタスクに応用可能だが,質の評価が困難なタスクでの性能向上が課題。
    • LLMを評価者とするアプローチはスケーラブルだが,評価者自身の性能に限界がある。
    • LLM自身が評価を改善し,生成能力と評価能力を同時に最適化する手法を提案。
    • CoNLは,生成,評価,メタ評価を統合したマルチエージェント自己対話フレームワークである。
    • 改善に貢献する批評には報酬を与え,メタ評価の明示的な教師信号を生成する。
    • 5つのベンチマークで,CoNLは自己報酬ベースラインよりも一貫して性能が向上した。

    Link: https://arxiv.org/abs/2601.21464

  • Topeax -- 密度ピーク検出と語彙・意味的語項重要度を用いた改善型クラスタリングトピックモデル [cs.AI, cs.CL]目的:トピックモデリングにおけるクラスタリングの改善
    • テキストデータの構造化と分析において,トピックモデリングは重要な役割を担う。
    • 既存手法は,サンプルサイズやハイパーパラメータに過敏であり,安定したクラスタリングが困難。
    • 密度ピーク検出と語彙・意味的要素を組み合わせ,より高品質なトピックキーワードの抽出を目指す。
    • Topeaxは,Top2VecやBERTopicと比較して,クラスタリングの再現性と記述性の両方で優れている。
    • サンプルサイズやハイパーパラメータの変化に対する振る舞いがより安定している。
    • 語彙と意味的指標を組み合わせることで,よりコヒーレントで多様性のあるトピックの生成が可能となる。

    Link: https://arxiv.org/abs/2601.21465

  • 非凸複合最適化のためのブロック座標降下法フレームワーク:スパース精度行列推定への応用 [cs.LG, math.OC]目的:非凸複合最適化問題の解法
    • 大規模最適化問題への対応が求められる分野であり,効率的な解法開発が重要である。
    • 非凸最適化における理論的保証が十分でなく,収束性の検証が課題となっている。
    • 非凸最適化問題に対し,目的関数減少と解への収束を保証する汎用的なフレームワークを提供する。
    • 提案手法は,変数metric近接勾配法,近接Newton法,交互最小化法などの既存手法を包含する汎用性を持つ。
    • スパース精度行列推定問題(Graphical Lasso)において,既存ソルバー(Graphical ISTA, Primal GLasso, QUIC)を適用可能である。
    • 数値実験により,最先端の推定精度を維持しつつ,反復回数を最大100倍削減できることを示した。

    Link: https://arxiv.org/abs/2601.21467

  • MemOCR:効率的な長期的推論のためのレイアウト認識型視覚的メモリ [cs.AI]目的:長期的推論における情報圧縮の効率化
    • 複雑なタスク遂行には,過去のインタラクション履歴を効率的に活用する必要がある。
    • 既存のテキストベースのメモリシステムでは,メモリコストが線形に増加し,重要でない情報に予算を浪費しやすい。
    • 視覚的なレイアウトを通じて情報の密度を適応的に調整し,限られたコンテキスト内で効率的な推論を実現する。
    • MemOCRは,構造化されたリッチテキストメモリを画像として表現することで,重要な証拠を優先的に視覚化し,補助的な詳細は積極的に圧縮する。
    • 予算を考慮した強化学習により,多様な圧縮レベルに対して頑健性を確保している。
    • 長文の質問応答ベンチマークにおいて,テキストベースのベースラインを上回り,極端な予算下でも効果的なコンテキスト利用を達成した。

    Link: https://arxiv.org/abs/2601.21468

  • 効率的かつ最適化されたコード生成のためのマルチエージェント協調における適応的確信度ゲーティング [cs.SE, cs.AI]目的:小規模言語モデルにおける複雑な論理的要件への対応能力向上
    • 大規模言語モデルの進歩がある一方,小規模言語モデルの活用が重要視されている。
    • 小規模言語モデルは,複雑な論理的要件において推論のボトルネックや失敗ループに陥りやすい。
    • 小規模言語モデルの推論能力を向上させ,効率的なコード生成を実現すること。
    • DebateCoderは,HumanEvalで70.12%のPass@1を達成し,MapCoderを上回った。
    • APIオーバーヘッドを約35%削減し,効率的なソフトウェアエンジニアリングへの貢献を示唆した。
    • 協調プロトコルが,小規模モデルの限界を緩和し,高品質な自動ソフトウェア開発を可能にする。

    Link: https://arxiv.org/abs/2601.21469

  • PPI-SVRG: 半教師あり最適化のための予測駆動推論と分散低減の統合 [cs.LG, econ.EM, math.OC, stat.ML]目的:半教師あり確率的最適化における収束性向上
    • 教師データが不足する状況下での機械学習アルゴリズムの性能向上が重要である。
    • 既存手法では,予測モデルの不確実性が収束速度に影響を与えることが課題である。
    • 予測と参照勾配を組み合わせることで,予測の不確実性の影響を抑制し,収束性を改善することを目指す。
    • PPI-SVRGは,PPIとSVRGの数学的な等価性を示すことで,両者の利点を統合している。
    • 理論的な解析により,収束レートが損失関数の形状にのみ依存し,予測精度が低下しても安定した収束が確認された。
    • 実験結果から,PPI-SVRGがラベル不足下で平均二乗誤差を大幅に削減し,MNISTデータセットでのテスト精度を向上させることが示された。

    Link: https://arxiv.org/abs/2601.21470

  • LLMジャッジと限定的な人間による最良アームの識別 [cs.LG, math.OC, stat.ML]目的:最良アームの識別問題
    • 意思決定において,限られた情報から最適な選択肢を効率的に見つけることは重要である。
    • 安価なプロキシの利用は,コスト削減に有効だが,バイアスが結果を歪める可能性がある。
    • バイアスを補正し,効率的な監査戦略を開発することで,正確な最良アーム識別を目指す。
    • LLMなどのプロキシのバイアスを考慮せず,監査を行わない場合,誤ったアームを選択する確率が減少しないことが示された。
    • プロキシのスコアと逆確率重み付け残差を組み合わせた推定器を開発し,信頼区間を構築することで,効率的な監査を可能にした。
    • 提案アルゴリズムは,信頼性の低い状況や競合するアームに監査を集中させ,理論的および実験的に優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.21471

  • ScaleSim:Invocation Distanceに基づくメモリ管理による大規模マルチエージェントシミュレーションの提供 [cs.AI, cs.DC]目的:大規模マルチエージェントシミュレーションのためのメモリ効率の良い提供手法
    • LLMを活用したシミュレーションは多様な分野で重要性を増している。大規模化が課題となっている。
    • エージェント数増加に伴い,GPUメモリの圧迫が深刻化している。各エージェントの状態維持に大量のメモリを消費する。
    • Invocation Distanceを用いて,エージェントのメモリ利用を最適化し,シミュレーションのスケーラビリティ向上を目指す。
    • ScaleSimは,Invocation Distanceという概念に基づき,エージェントのLLMリクエスト順序を予測し,プロアクティブなprefetchingと優先度に基づいたevictionを実現する。
    • エージェント固有のメモリ管理をサポートするモジュールインターフェースを備えている。
    • シミュレーションベンチマークにおいて,SGLangと比較して最大1.74倍の高速化を達成した。

    Link: https://arxiv.org/abs/2601.21473

  • タスクフリー適応型メタブラックボックス最適化 [cs.RO, cs.NE, cs.AI, cs.LG]目的:複雑なブラックボックス最適化における最適化手法の自動構成
    • 複雑な問題に対し,手動で最適化手法を設計するのは非効率であるため,自動化が求められている。
    • 既存のメタ最適化手法は,訓練タスクに依存するため,未知のタスクへの汎化が課題となっていた。
    • 本研究では,ターゲットタスクの最適化データのみを用いてパラメータを適応させ,汎化性能を高めることを目指す。
    • 提案手法ABOMは,事前に訓練タスクを用意することなく,合成ベンチマーク及びUAVパスプランニング問題で良好な性能を示した。
    • ABOMは,最適化中に生成される集団を利用して,進化演算子を継続的に自己更新する閉ループ適応メカニズムを採用している。
    • 可視化の結果,パラメータ化された進化演算子は,自然選択や遺伝的組み換えといった有意な探索パターンを示すことが確認された。

    Link: https://arxiv.org/abs/2601.21475

  • 疎なグラフにおける平均場制御:局所限界からGNNへ,近傍分布を介して [cs.CL, cs.MA, cs.AI, cs.LG, math.OC]目的:大規模な疎なグラフ上での平均場制御の理論的基盤
    • マルチエージェントシステムの次元の呪いを克服するためのスケーラブルな手法の重要性。
    • 従来の平均場制御は完全結合を前提とし,現実世界の疎なネットワーク構造への適用が困難である。
    • 疎なグラフ上でも効率的かつ理論的に正当化された制御手法を確立すること。
    • エージェントの最適方策が,時間tにおいて(T-t)ホップ近傍のみに依存するという水平線依存性局所性を示すことが証明された。
    • この結果により,無限次元の制御問題を扱いやすくし,近傍分布空間上での新しいDPP(動的計画原理)が導出された。
    • GNN(グラフニューラルネットワーク)が,この文脈におけるアクタークリティックアルゴリズムに有効であることを理論的および実験的に示した。

    Link: https://arxiv.org/abs/2601.21477

  • ETS:学習不要な強化学習アラインメントのためのエネルギー誘導型テスト時スケーリング [cs.CL, cs.LG]目的:言語モデルの強化学習によるポストトレーニングアラインメント手法
    • 言語モデルの性能向上には,人間の意図との整合が不可欠であり,強化学習が有効な手段となる。
    • 従来の強化学習によるアラインメントは,学習コストが高く,安定性に課題がある。
    • 学習を伴わない推論手法により,最適な強化学習ポリシーから直接サンプリングすることを可能にする。
    • 提案手法ETSは,オンラインモンテカルロ法を用いてエネルギー項を推定し,その収束率を理論的に保証する。
    • 最新の高速化フレームワークと重要度サンプリング推定器を活用することで,推論遅延を大幅に削減しつつ,サンプリング品質を維持する。
    • 推論,コーディング,科学分野のベンチマークにおいて,ETSが生成品質を安定的に向上させることを確認した。

    Link: https://arxiv.org/abs/2601.21484