arXiv雑要約

AI - 2026/05/12 公開

  • コントラスト表現学習の幾何学的メカニズム:アラインメントポテンシャル,エントロピー的散逸,およびクロスモーダルダイバージェンス [cs.LG]目的:コントラスト表現学習における幾何学的メカニズムの解明
    • 表現学習は,機械学習の基盤技術であり,高性能なモデル構築に不可欠である。
    • InfoNCEの幾何学的メカニズムは,アラインメントと均一性の分解を超えて十分に理解されていない。
    • 表現の幾何学的構造を解析し,クロスモーダル構造制御の課題解決を目指す。
    • 表現学習は,埋め込み多様体上の表現測度の進化として捉えられ,そのエネルギーランドスケープが明確化された。
    • 単峰性の場合,エントロピーがアラインメントの曖昧さを解消する役割を担うことが示された。
    • 多峰性の場合,各モダリティ間の負の対称ダイバージェンスが,ペアワイズアラインメントとモダリティギャップの共存を可能にすることが明らかになった。

    Link: https://arxiv.org/abs/2601.19597

  • ステートレス実行環境における複雑な複数ターンツール呼び出しインタラクションのシミュレーション [cs.CL, cs.AI, cs.SE]目的:複数ターンツール呼び出し会話の複雑さに対応できる,小規模で費用対効果の高い言語モデルの調整
    • 言語モデルの性能向上には,大規模データセットが必要不可欠であり,その生成が課題となる。
    • 従来のツール呼び出しデータ生成は,状態を維持する実行環境を前提としており,現実のセキュリティ要件に対応できない。
    • セキュリティ上の制約や仕様の多様性がある環境でも有効なツール呼び出し会話データ生成手法を確立する。
    • 本研究で提案するDiGiT-TCは,ユーザーリクエストにツール呼び出しを暗黙的に表現する新しい生成パターンを採用。
    • 標準的なツール呼び出しベンチマークにおいて,DiGiT-TCは既存手法と比較して優れた性能向上を示した。
    • ステートフルな問題設定においても,DiGiT-TCを用いることで高いパフォーマンスが実現可能であることが示された。

    Link: https://arxiv.org/abs/2601.19914

  • LLMにおける暗黙的計画:評価指標と韻生成・質問応答への応用 [cs.LG, cs.AI, cs.CL]目的:LLMにおける暗黙的計画の評価指標
    • 大規模言語モデルの能力理解は,AIの安全性と制御戦略の策定に不可欠である。
    • LLMが示す暗黙的計画のメカニズムは,必ずしも明確に理解されていない。
    • LLMの暗黙的計画能力を定量的に評価し,そのメカニズムを解明することを目指す。
    • 提案手法は,韻生成や質問応答といったタスクにおいて,多くのモデルに容易に適用可能であることが示された。
    • 先行するトークンにベクトルを適用することで,生成される韻や答えを操作できることが確認された。
    • 暗黙的計画は,従来考えられていたよりも小さなモデル(10億パラメータ)でも普遍的に存在するメカニズムであることが明らかになった。

    Link: https://arxiv.org/abs/2601.20164

  • ニューラルネットワーク表現における暗黙的な仮説検定と多様性維持 [cs.LG, cs.IT, math.IT]目的:ニューラルネットワークの学習ダイナミクスにおける仮説検定
    • 機械学習の性能向上には,モデルがデータを適切に表現することが不可欠である。
    • 学習された表現が,汎化性能にどのように影響するか不明な点が多い。
    • 学習過程における表現の多様性維持のメカニズムを解明する。
    • 学習が進むにつれて,汎化性能の高いネットワークは,Neyman-Pearson最適決定規則に近づくことが示された。
    • 学習された表現がKLダイバージェンスを維持する度合いの単調増加によって測定された。
    • モデルの学習収束を体系的に評価するための「Evidence-Error平面」が提案された。

    Link: https://arxiv.org/abs/2601.20477

  • 無限次元拡散モデルに対する教師ありガイダンス訓練 [cs.LG, stat.ML]目的:無限次元拡散モデルのポステリアサンプリング手法
    • 偏微分方程式などから生じる逆問題を扱う上で,関数空間における確率モデルの重要性が増している。
    • 拡散モデルは関数空間上で表現力豊かな事前分布を提供するが,ポステリア分布からのサンプリング理論は未解決である。
    • 事前分布がCameron-Martin空間に存在する場合,またはガウス測度に対して絶対連続である場合に,拡散モデルの条件付けを可能にする。
    • 無限次元Doobの$h$-変換の拡張により,条件付きスコアが非条件付きスコアとガイダンス項に分解できることを示した。
    • 実用的なガイダンス項の計算を可能にするため,スコアマッチングに基づく教師ありガイダンス訓練を提案した。
    • 関数空間におけるベイズ逆問題に対する数値例を通して,提案手法の有効性を確認した。

    Link: https://arxiv.org/abs/2601.20756

  • 飽和問題に対する失敗接頭辞条件付けによる推論モデルの訓練 [cs.LG, cs.AI, cs.CL]目的:飽和問題における推論能力向上
    • 大規模言語モデルの推論能力向上は,様々な応用において不可欠である。
    • 報酬による強化学習において,問題が飽和すると学習信号が減少し,性能向上が停滞する。
    • 飽和問題に潜む学習信号を効率的に活用し,更なる推論能力向上を目指す。
    • 失敗接頭辞条件付けは,標準的な強化学習が停滞する状況下で,性能向上を安定的に実現した。
    • 新たに収集した中程度の難易度の問題で訓練した場合と同等の効果が得られた。
    • 反復的なアプローチにより,性能が停滞した後も追加的な改善が確認された。

    Link: https://arxiv.org/abs/2601.20829

  • 構造からのシグナル:生成フローネットワークにおけるサブモジュール上限の活用 [cs.LG, stat.ML]目的:サブモジュール性を持つ報酬構造を持つタスクにおける生成フローネットワークの訓練
    • 複雑な構造を持つデータの生成は重要であり,報酬に基づいた生成モデルが有効。
    • 報酬関数の評価コストが高く,効率的な探索が課題。
    • 未観測の構造に対する報酬の上限推定による,効率的なデータ生成。
    • サブモジュール性に着目し,未観測の構造に対する報酬上限を導出。
    • SUBo-GFNを提案し,従来のGFNと比較して,より多くの訓練データを生成可能。
    • 合成データと実データで,SUBo-GFNの分布マッチングと高品質な候補生成の有効性を実証。

    Link: https://arxiv.org/abs/2601.21061

  • 簡潔な幾何学的記述を橋渡しとして:平面幾何問題解決におけるLLMの可能性を解き放つ [cs.AI]目的:平面幾何問題の解決
    • 平面幾何は数学の基礎であり,論理的思考力や問題解決能力の育成に不可欠である。
    • LLMは視覚情報を直接処理できないため,図形問題への応用が困難である。
    • 視覚情報をテキスト記述に変換することで,LLMの潜在能力を引き出すことを目指す。
    • 提案手法では,図形情報を簡潔なCDL(Conditional Declaration Language)で記述することで,MLLMの学習を効率化している。
    • CDL生成のための報酬設計に工夫を凝らし,より直接的かつ高密度な学習を可能にしている。
    • Formalgeo7k-Rec-CoT,Unigeo,MathVistaにおける実験で,既存のLLMと比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2601.21164

  • モデルフリーニューラルフィルタリング:非線形システムにおける古典的フィルタとの比較 [cs.LG]目的:非線形動的システムにおける状態推定の性能比較
    • 制御や意思決定において状態推定は重要であり,システムの理解と制御に不可欠である。
    • 古典的フィルタはモデルに依存するため,モデルの不正確さが性能に影響する。
    • データのみから学習可能なニューラル推定器の性能を評価し,古典的フィルタとの差を明らかにする。
    • MambaやMamba-2といった構造化された状態空間モデル(SSM)が,ニューラル推定器の中で一貫して高い性能を示した。
    • これらのSSMは,特定の非線形システムにおいて,モデルへのアクセスなしで,性能の低い古典的フィルタを上回った。
    • パラメータ数やデータ量,評価期間を固定した場合,SSMは古典的フィルタに近い構造的バイアスを持つことが示唆された。

    Link: https://arxiv.org/abs/2601.21266

  • ETS:学習不要な強化学習アラインメントのためのエネルギー誘導型テスト時スケーリング [cs.LG]目的:言語モデルの強化学習後学習アラインメント手法
    • 大規模言語モデルの性能向上には,人間との整合性確保が不可欠である。
    • 従来の強化学習後学習は,計算コストが高く,不安定になりやすいという課題がある。
    • 学習を伴わない推論手法により,最適な強化学習ポリシーからのサンプリングを目指す。
    • 提案手法ETSは,オンラインモンテカルロ法を用いてエネルギー項を推定し,収束率を理論的に保証する。
    • 最新の高速化フレームワークと重要度サンプリング推定器を活用することで,推論遅延を大幅に削減しつつ,サンプリング品質を維持する。
    • 推論,コーディング,科学分野のベンチマークにおいて,ETSが生成品質を安定的に向上させることを確認した。

    Link: https://arxiv.org/abs/2601.21484

  • 並列思考の過大評価の呪い:システム効率とサンプル効率の矛盾 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの推論における並列思考の過大評価とその解決策
    • 大規模言語モデルの推論能力向上は,AI研究開発の重要な課題である。
    • 並列思考では,各サンプルの最適な予算配分が課題であり,無駄が生じやすい。
    • サンプルごとの最適な予算を予測することで,効率的な並列推論を実現することを目指す。
    • 本研究では,並列思考における過大評価の呪いを定量的に分析し,実世界システムでの顕著な存在を明らかにした。
    • 潜在予算予測器(LanBo)を提案し,モデルの潜在表現からサンプル固有の最適な予算を予測することで,予算利用率を大幅に改善した。
    • さらに,LanBoをデコーディングパイプラインに統合したPreAdaにより,効率的な並列デコーディングの可能性を示した。

    Link: https://arxiv.org/abs/2601.21619

  • LLM事前学習におけるカリキュラム学習:学習ダイナミクスの分析 [cs.LG, cs.AI]目的:LLM事前学習における学習ダイナミクス
    • 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 事前学習データの並び順が学習に与える影響は不明な点が多い。
    • カリキュラム学習が学習の安定性と性能に及ぼす影響を明らかにすること。
    • カリキュラム学習は,学習の潜在的な段階を経る順序を変えることはなく,各段階での滞在時間を変化させる。
    • ランダムな並び順は,小規模モデルにおいて勾配ノイズの規模を大きくし,出力層の飽和を引き起こす。
    • Verb Variationカリキュラムの並び順は重要であり,降順では効果が低下する。大規模モデルでは,これらの安定性の差は小さくなる。

    Link: https://arxiv.org/abs/2601.21698

  • なぜAdamはβ₁=β₂でより良く機能するのか:欠けていた勾配スケール不変性原理 [cs.CL, cs.LG, cs.AI, stat.ML]目的:Adam最適化アルゴリズムにおけるβ₁=β₂の有効性に関する説明
    • 深層学習モデルの学習において,最適化アルゴリズムの性能は重要である。
    • Adamのパラメータ設定β₁とβ₂の最適なバランスが長年不明であった。
    • β₁=β₂となる場合にAdamの性能が向上する理由を理論的に解明すること。
    • Adamはβ₁=β₂のとき,一次の勾配スケール不変性を持つことが証明された。
    • この不変性は,勾配のスケール変更に対する更新の安定性を高める。
    • 実験結果は,Adamのバランスの取れた状態が,他のスケールロバストな最適化アルゴリズムと整合することを示した。

    Link: https://arxiv.org/abs/2601.21739

  • 手術用把持と牽引のための教師ありエキスパート混合モデル [cs.RO, cs.RO, cs.AI, cs.LG]目的:手術用把持と牽引におけるエキスパート混合モデルの性能向上
    • ロボット手術は高精度が求められ,熟練した技術が必要であるため,自動化技術の導入が重要である。
    • 手術ロボットの学習にはデータ不足,狭い作業空間,安全性確保が課題となる。
    • 限られたデータで高精度な手術操作を可能にする技術の開発を目指す。
    • 提案手法は,少ないデータ(150件未満)で複雑な操作を学習できることを示した。
    • 標準的なACTと比較して,提案手法は高い成功率を達成し,未知の条件下でも頑健性を示す。
    • in vivo豚臓器手術における予備的な結果から,臨床応用への道が開かれる可能性が示唆された。

    Link: https://arxiv.org/abs/2601.21971

  • SMOG:多目的ベイズ最適化のためのスケーラブルなメタ学習 [cs.LG]目的:多目的ベイズ最適化におけるメタ学習モデルの構築
    • 多目的最適化は,複数の競合する目的を同時に最適化する重要な手法である。
    • 評価コストが高い場合,評価回数の制約が課題となる。過去のデータ活用が不十分である。
    • 過去の関連タスクのデータを活用し,多目的ベイズ最適化を高速化することを目指す。
    • 提案手法SMOGは,目的間の相関関係を明示的に学習するスケーラブルなメタ学習モデルである。
    • SMOGはメタタスクとターゲットタスク間の構造化されたジョイントガウス過程事前分布を構築し,メタデータに基づいてターゲットタスクの事前分布を導出する。
    • 実験結果から,SMOGは代表的なベンチマークとアプリケーションにおいて,高いデータ効率と競争力があることが示された。

    Link: https://arxiv.org/abs/2601.22131

  • FedAdaVR:限定的なクライアント参加下におけるロバストな連合学習のための適応的分散削減 [cs.LG, cs.DC]目的:連合学習における,不均一性による勾配ノイズ,クライアントドリフト,および部分的なクライアント参加エラーの問題解決
    • データプライバシー保護の観点から,分散環境での機械学習である連合学習の重要性が増している。
    • クライアントの参加率が低い場合,学習が不安定になり,モデルの性能が低下するという課題がある。
    • クライアントの過去の更新情報を活用することで,不参加クライアントの影響を軽減し,学習の安定化を図る。
    • 提案手法FedAdaVRは,過去のクライアント更新情報を活用することで,部分的なクライアント参加エラーを解消できる。
    • FedAdaVR-Quantは,更新情報を量子化することでメモリ消費量を大幅に削減しつつ,高いモデル性能を維持する。
    • 様々なデータセットでの実験により,FedAdaVRが最先端の手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.22204

  • ユーザーレベルの差分プライバシー下における実用的な逐次平均推定のための行列分解 [cs.LG, stat.ML]目的:逐次平均推定の精度向上
    • データ分析におけるプライバシー保護は重要であり,特にユーザーのデータ漏洩を防ぐ必要がある。
    • 従来の差分プライバシーはノイズが大きく,実用的な精度を損なう場合がある。
    • 近似差分プライバシーと行列分解を用いて,より精度の高い逐次平均推定を実現する。
    • 本研究では,ユーザーレベルの差分プライバシー下で効率的かつ正確な行列分解メカニズムを提案した。
    • 提案手法は,従来の差分プライバシーと比較して,より低い平均二乗誤差で推定が可能である。
    • 漸近的な下限との比較から,提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2601.22320

  • ソーシャルネットワークにおける時間的リンク予測のための反事実的着想による拡張対照学習:CoDCL [cs.LG, cs.AI]目的:ソーシャルネットワークの時間的リンク予測における性能向上
    • ソーシャルネットワークは急速に拡大しており,リンク予測は重要な課題である。
    • 既存手法はリンク形成の因果メカニズムを考慮せず,変化する構造への適応が困難である。
    • 動的な環境変化にロバストなモデルを構築し,時間的リンク予測の精度向上を目指す。
    • 提案手法CoDCLは,反事実的拡張と対照学習を組み合わせることで,既存モデルの性能を大幅に向上させた。
    • 動的治療計画と効率的な近傍探索を組み合わせた高品質な反事実データ生成戦略を開発した。
    • CoDCLは,既存の時系列グラフモデルに容易に組み込める汎用的なモジュールとして設計されている。

    Link: https://arxiv.org/abs/2601.22427

  • 制御可能な情報生成による物理的知能の創発 [cs.AI]目的:制御可能な情報生成
    • ロボット工学において,自律的な行動獲得は重要な課題である。
    • 従来の内在的動機づけアプローチは,設計者のバイアスを含む。
    • 動的システムと最適制御に基づいた,新たな内在的動機づけの基盤を構築する。
    • 制御可能な情報生成(CIP)は,従来の内在的動機づけ手法を上回り,ロボット学習のベンチマークで優れた性能を示した。
    • 特に,従来の技術では困難であったヒューマノイドの自力起き上がりタスクを解決した。
    • 物理的知能は,制御可能なカオス状態の端にシステムを導くことで創発されるという原理が示唆された。

    Link: https://arxiv.org/abs/2601.22449

  • 変換を拡張したGRPOによる大規模言語モデルの推論における探索の強化 [cs.LG]目的:大規模言語モデルの推論における探索能力の向上
    • 大規模言語モデルの性能向上が,様々な分野での応用を促進する上で重要である。
    • 強化学習を用いた大規模言語モデルの学習において,勾配消失や多様性の崩壊が課題となる。
    • 質問の言い換えにより,多様な報酬と推論経路を促し,学習の効率と性能を向上させる。
    • 提案手法TA-GRPOは,質問の言い換えを通じて,勾配消失と多様性の崩壊という既存手法の課題を解決する。
    • 4つのLLMを用いた実験により,TA-GRPOが競争レベルのベンチマークおよび分布外ベンチマークにおいて,pass@$k$を改善することが示された。
    • 特にQwen3-1.7BとQwen3-4Bの平均pass@32がそれぞれ4.97ポイントと4.34ポイント向上し,より少ないデータで同等の探索品質を達成した。

    Link: https://arxiv.org/abs/2601.22478

  • 文脈を考慮した自動ピアレビューのためのマルチエージェントフレームワーク ScholarPeer [cs.MA, cs.AI, cs.LG]目的:機械学習論文のピアレビュー自動化のためのフレームワーク
    • 機械学習論文の増加により,査読プロセスが逼迫しており,迅速なフィードバックと査読者の負担軽減が課題。
    • 従来の査読プロセスでは,技術的な妥当性や先行研究の確認に時間がかかり,効率性が低い。
    • 本研究は,査読プロセスを効率化し,査読者の負担を軽減することを目的とする。
    • ScholarPeerは,熟練研究者の査読ワークフローを模倣し,著者への迅速な反復支援と査読者への積極的な検証支援を行う。
    • フレームワークは,分野の動向を分析するサブドメインヒストリアン,最新技術の比較を探索するベースラインスカウト,技術的妥当性を深掘りするQ&Aエンジンで構成される。
    • ICLRの過去の論文を用いた評価の結果,最先端モデルや検索拡張型エージェントと比較して高い性能を示した。

    Link: https://arxiv.org/abs/2601.22638

  • 高忠実度画像再構成・生成のための超球面オートエンコーダ [cs.CV, cs.AI, cs.LG]目的:高忠実度画像再構成と生成の実現
    • 画像生成技術は,多様な分野で重要な役割を担っており,その発展が求められている。
    • 既存手法では,高周波詳細の損失により,再構成の忠実度が制限される場合がある。
    • 超球面オートエンコーダは,詳細情報の保持と効率的な学習を可能にする。
    • 提案手法(HAE)は,方向性に基づく特徴量アライメントと階層型畳み込みパッチ埋め込みにより,再構成の忠実度を向上させる。
    • 自己教師あり学習に基づく表現が内在する超球面を利用したRiemannian Flow Matchingにより,DiTの収束効率を高めている。
    • gFID 1.96,rFID 0.78,PSNR 25.2 dBという優れた結果から,提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2601.22904

  • 測定およびメカニズム異常の根本原因分析 [cs.LG]目的:異常の根本原因の特定
    • データ品質管理において,異常の正確な原因特定は不可欠である。
    • 既存手法は特徴量に着目し,測定誤差とメカニズム変化を区別できない。
    • 測定誤差とメカニズム変化を識別し,適切な対処法を導くこと。
    • 因果モデルを導入し,潜在変数と測定変数における外れ値を捉え,両者の区別可能性を示した。
    • 効率的な推論手順を開発し,根本原因の特定と異常タイプの分類を可能にした。
    • 合成データと実データを用いた実験により,最先端の性能と高いロバスト性を確認した。

    Link: https://arxiv.org/abs/2601.23026

  • グラフニューラルネットワークに基づくボット検出に対する最適輸送誘導型敵対的攻撃 [cs.RO, cs.CL, cs.LG, cs.AI, cs.CR]目的:グラフニューラルネットワークを用いたボット検出の堅牢性評価
    • ソーシャルメディアにおけるボットアカウント増加は,公共の議論に重大なリスクをもたらすため,対策が急務である。
    • 既存の攻撃手法は現実的な制約下での適用が限定的であり,GNNベースのボット検出の実際の有効性が不明である。
    • 現実的な制約を考慮した敵対的攻撃下におけるGNNベースのボット検出方法の堅牢性を高めることを目指す。
    • 本研究では,BOCLOAKを提案し,エッジ編集とノード注入による敵対的攻撃を通じて,GNNベースのボット検出の堅牢性を評価する。
    • BOCLOAKは,空間的・時間的な隣接特徴量の確率測度を構築し,人間とボットの行動を分離する最適な輸送幾何学を学習する。
    • 現実的な制約下で,BOCLOAKは既存手法と比較して攻撃成功率を最大80.13%向上させ,GPUメモリ使用量を99.80%削減した。

    Link: https://arxiv.org/abs/2602.00318

  • SayNext-Bench:LLMが次の発話を予測するのに苦戦する理由 [cs.AI, cs.HC]目的:次の発話予測におけるLLMの能力評価と改善
    • 人間らしい自然な対話を実現するAI開発において,発話予測は重要な要素である。
    • 既存のLLMは,人間の持つような文脈に基づいた発話予測能力に劣ることが課題である。
    • マルチモーダル情報を活用し,発話予測能力を向上させる新たなモデルの構築を目指す。
    • SayNext-BenchベンチマークとSayNext-PCデータセットを構築し,LLMのマルチモーダルな発話予測能力を詳細に評価した。
    • SayNext-Chatモデルは,既存の最先端モデルと比較して,すべての評価レベルで一貫して高い性能を示した。
    • マルチモーダル情報と予測的処理の重要性が強調され,LLMにおける自然な人間とのインタラクション実現への課題が明らかになった。

    Link: https://arxiv.org/abs/2602.00327

  • Pix2Fact:視覚だけでは不十分である – 高解像度実世界シーンにおけるWeb検証を用いた詳細VQAのベンチマーク [cs.CV, cs.LG]目的:詳細な視覚的根拠付けと外部知識を必要とする,高度な視覚知覚と知識検索能力の評価
    • 視覚と言語の連携はAIの重要な課題であり,現実世界の複雑な状況に対応するためには不可欠である。
    • 既存のベンチマークは,視覚的根拠付けと外部知識の能力を分離して評価しており,両者の相乗効果を考慮していない。
    • 現在のモデルが苦手とする,詳細な視覚理解と知識検索を統合したタスクに対する性能評価を可能にする。
    • Pix2Factは,1,000枚の高解像度画像を用いたVQAベンチマークであり,専門的な視覚知覚と知識検索を評価する。
    • 最先端のVLM (Gemini-3.1-Proを含む) でも平均正答率は51.7%にとどまり,視覚的根拠付けの誤り,検索の浅い活用,長尾情報の取得の難しさが課題として浮き彫りになった。
    • このベンチマークは,現実世界の複雑な状況において人間の活動を支援するための,次世代の視覚-言語エージェントの開発を促進することが期待される。

    Link: https://arxiv.org/abs/2602.00593

  • スコアベース密度比推定における正確かつ安定な最小分散経路原理 [cs.RO, cs.CC, math.RA, cs.LG, cs.AI, stat.ML]目的:スコアベース密度比推定の正確性と安定性の向上
    • 機械学習において,スコアベース手法は強力なツールである。しかし,理論上は経路に依存しないにも関わらず,実際には依存するという問題がある。
    • 既存の学習目的関数が理想的なものと異なり,スコア関数の経路分散という重要な要素が見過ごされてきた。
    • 経路分散を最小化する原理に基づき,データに適応的な低分散経路を学習することで,推定精度と安定性を高める。
    • 本研究では,経路分散の閉形式表現を導出し,最適化を可能にした。これにより,ヒューリスティックな手動選択に頼らず,データに適応した経路を学習できる。
    • 提案手法(MVP原理)は,既存のベンチマークにおいて最先端の結果を達成し,スコアベース補間の最適化のための一般的なフレームワークを提供する。
    • 本研究は,スコアベース手法の経路依存性という長年の問題を解決し,その応用範囲を拡大する。

    Link: https://arxiv.org/abs/2602.00834

  • SAGE:解釈可能で臨床応用可能な病理計算バイオマーカー探索のためのエージェント的フレームワーク [cs.RO, cs.LG]目的:病理計算バイオマーカー探索のためのフレームワーク
    • 病理診断の精度向上には,客観的で定量的なバイオマーカーが不可欠である。
    • 既存のAIは解釈が難しく,臨床への応用が限定的である。
    • 生物学的根拠に基づいた,信頼性の高いバイオマーカー探索の自動化。
    • SAGEは,知識グラフと多経路のオントロジー推論を通じて,バイオマーカー仮説を生成する。
    • SAGEは,議論ベースのマルチエージェントによる新規性評価により,候補バイオマーカーを厳密に検証する。
    • SAGEは,仮説を多種多様な病理データセット上で実行可能な分析に変換し,自動的に検証する。

    Link: https://arxiv.org/abs/2602.00953

  • トップk混合注意:スケーラブルな高速重みによる効率的な注意機構 [cs.LG, cs.CV]目的:効率的な注意機構の実現
    • Transformerの自己注意機構は自然言語処理の基盤であり,その効率化は重要である。
    • Transformerの注意機構は系列長が長くなるほど計算量が膨大になり,スケーラビリティが課題である。
    • 本研究では,高速重みをスケーラブルにするための新しい注意機構を提案し,効率性と表現力を両立することを目指す。
    • 提案手法MiTAは,ランドマーククエリを用いてトップkのキーバリューペアを動的に集約し,柔軟な高速重みエキスパートを実現した。
    • MiTAは従来のMoE注意機構の剛性を克服し,トップk注意機構のスケーラビリティを向上させた。
    • 画像認識タスクにおける実験により,MiTAの有効性と効率性が確認された。また,トークン剪定効果や標準的な注意機構からの容易な汎化性も明らかになった。

    Link: https://arxiv.org/abs/2602.01219

  • 隠された貢献者と勾配の膨張:Transformer における層ごとの冗長性が帰属の逆転を引き起こす [cs.LG, cs.AI, cs.CL]目的:Transformer における勾配に基づく帰属の妥当性検証
    • Transformer の解釈可能性は重要であり,モデルの動作原理を理解する上で不可欠である。
    • 勾配に基づく帰属は広く用いられるが,その精度と信頼性についての検証は不足している。
    • 層ごとの冗長性が帰属に与える影響を明らかにし,回路レベルの主張の妥当性を検証する。
    • Transformer において,早期層の「勾配の膨張」が過大評価され,後期層の「隠された貢献者」が過小評価されるという系統的な問題が確認された。
    • シーケンス反転タスクでは相関関係が比較的良好であったが,シーケンスソートタスクでは相関関係が著しく低下した。
    • 勾配に基づく帰属は,集合的な冗長性を検出できないため,特徴抽出と計算の重要度の評価を誤っている可能性がある。

    Link: https://arxiv.org/abs/2602.01442

  • 言語モデルがベクトル代数を用いて問題を解決する機能的サブ空間 [cs.CL, cs.AI]目的:言語モデルにおける機能的サブ空間の存在と,そのサブ空間におけるベクトル代数演算による問題解決
    • 近年,翻訳等の自然言語処理に加え,高度な機能を示す言語モデルの応用範囲が広がっている。
    • 言語モデルの動作原理や限界が不明確であり,適切な診断や改善が困難である。
    • 言語モデルがサブ空間とベクトル代数を用いてタスクを処理するという仮説を検証する。
    • 言語モデルは,証拠を蓄積するためのサブ空間を生成することが示唆された。
    • 文脈学習(ICL)タスクは,サブ空間における単純な代数演算によって解決可能であることが示された。
    • これらの結果は,言語モデルの内部動作の理解に貢献すると考えられる。

    Link: https://arxiv.org/abs/2602.01687

  • ポストトレーニング後の探索回復:大規模推論モデルのための潜在的探索デコーディング [cs.CL, cs.LG]目的:大規模推論モデルにおける探索能力の回復
    • 近年,大規模推論モデルは,数学やコードの推論において高い性能を発揮しており,その重要性が増している。
    • 強化学習によるポストトレーニングは性能向上に寄与する一方,探索が崩壊し,多様な解法が生み出されにくくなるという課題がある。
    • 潜在的探索デコーディングにより,探索能力を回復させ,より効率的な推論を実現することを目指す。
    • 潜在的探索デコーディング(LED)は,追加の学習やパラメータなしに,pass@1とpass@16の精度をそれぞれ0.61と1.03パーセントポイント改善する。
    • LEDは,中間層の事後分布を集約し,エントロピーが最大となる深度設定を探索候補として選択する,深度条件付きデコーディング戦略である。
    • LEDを強化学習に統合することで,報酬の改善が加速し,最終的な性能も向上する。

    Link: https://arxiv.org/abs/2602.01698

  • ベイズ逆問題に対する外れ値にロバストな拡散事後サンプリング [cs.CL, cs.LG]目的:ベイズ逆問題における外れ値に対するロバスト性
    • ベイズ逆問題は,不確実性を含む問題を解決する上で重要であり,多様な科学技術分野に応用されている。
    • 現実のベイズ逆問題では,尤度の誤指定が頻繁に起こり,特に外れ値が存在する場合に性能が低下する。
    • 尤度誤指定や外れ値に対するロバスト性を向上させ,より安定した逆問題解決を可能にすること。
    • 提案手法は,線形ベイズ逆問題において外れ値に対して理論的にロバストであることが証明された。
    • 科学技術分野の逆問題と自然画像処理タスクにおいて,外れ値を含む困難な条件下で一貫した性能向上を示した。
    • 既存の拡散ベースソルバーと比較して,提案手法は,尤度の誤指定や外れ値に対する耐性が高い。

    Link: https://arxiv.org/abs/2602.02045

  • 逆伝播の物理的理論:最小作用原理からの厳密勾配 [cs.LG, cs.AI, cs.NE, physics.class-ph, physics.comp-ph]目的:逆伝播の厳密な勾配の導出
    • 深層学習の理論的基盤確立が不可欠であり,物理学との融合は新たな視点を提供する。
    • 既存の逆伝播は物理的現実との乖離があり,近似的な勾配しか得られない場合が多い。
    • 最小作用原理を用いて,物理的な制約下で厳密な逆伝播を導き出すことを目指す。
    • ハミルトンの最小作用原理から,逆伝播を厳密に導出することに成功した。
    • 順伝播と勾配計算を統一的に記述する変分枠組みを構築した。
    • この理論は,古典力学のツールを学習力学の解析に応用する道を開く。

    Link: https://arxiv.org/abs/2602.02281

  • マルチエージェント対話のための文脈学習 [cs.AI, cs.LG, cs.MA]目的:マルチエージェント対話における議論の一貫性向上
    • 大規模言語モデルの共同問題解決への関心が高まっており,その有効性が期待される。
    • 既存手法では,エージェント間の文脈のずれにより,議論の一貫性が損なわれやすい。
    • 文脈生成器を用いて,各エージェントの文脈を動的に生成し,議論の一貫性を高める。
    • 提案手法M2CLは,情報整理と洗練を通じて文脈指示を生成し,文脈の一貫性と出力の差異を制御する。
    • M2CLは,多数派のノイズへの早期収束を回避し,正しい合意に漸進的に到達することを可能にする。
    • 学術的な推論,具現化タスク,モバイル制御を含む難しいタスクで,既存手法を20%~50%上回る性能を示した。

    Link: https://arxiv.org/abs/2602.02350

  • MEG-XL:長文コンテキスト事前学習によるデータ効率的な脳波-テキスト変換 [cs.LG, q-bio.NC]目的:脳波データからのテキスト変換におけるデータ効率の向上
    • 麻痺患者等,十分な学習データが得られない場合の脳-テキストインターフェースの実現が重要である。
    • 既存手法では,事前学習時のコンテキストが短く,脳波データの持つ長文脈情報を十分に活用できていない。
    • 長文脈のコンテキストを用いた事前学習により,脳波データの表現学習能力を高め,少ないデータでの高性能化を目指す。
    • MEG-XLは,従来のモデルと比較して遥かに長いコンテキスト(2.5分)で事前学習を行うことで,少ないデータ量(1時間)で同等の性能を達成した。
    • 長文脈での事前学習は,単語復号タスクにおける転移学習能力を向上させることが確認された。
    • 本研究は,脳波データに内在する長文脈情報を活用することの有効性を示唆する。

    Link: https://arxiv.org/abs/2602.02494

  • MathlibLemma: 数学的定理の自動生成と形式数学のベンチマーク [cs.LO, cs.AI, cs.LG]目的:形式数学における未整理の定理(folkore lemma)の発掘,形式化,証明
    • 形式数学は,数学の厳密な証明を機械的に検証可能にする重要な技術である。
    • 形式数学ライブラリMathlibには,数学者が当たり前と考える定理が不足しており,実用上の障壁となっている。
    • この研究は,LLMを活用して不足している定理を発掘し,Mathlibの拡張に貢献することを目指す。
    • MathlibLemmaパイプラインを構築し,1506個の形式化された定理と証明を生成した。
    • 生成された定理の一部はMathlibにマージされ,専門家による品質基準を満たすことが確認された。
    • 4028個の型チェック済みのLean文からなるMathlibLemmaベンチマークを構築し,LLMの貢献を評価した。

    Link: https://arxiv.org/abs/2602.02561

  • Transformerの構造的誘導バイアス:知識グラフにおける推論能力に関する研究 [cs.LG, cs.AI]目的:知識グラフにおけるTransformerの推論能力を向上させる構造的誘導バイアスの特定
    • 知識グラフは,多様な情報を構造的に表現でき,AIの推論能力向上に不可欠である。
    • Transformerは強力だが,知識グラフのような構造化データに対する推論能力は限定的である。
    • Transformerの構造的誘導バイアスを調整し,知識グラフにおける多段階推論の性能改善を目指す。
    • 疎な隣接性マスキングのみが,Transformerの知識グラフ推論能力の大幅な向上に貢献する。
    • 関係パラメータの学習はわずかな改善にとどまり,構造的なガイダンスがない場合は逆効果となる場合がある。
    • マスキングに基づく注意機構は,関係固有の重みよりもエッジタイプが保持されない場合でも性能劣化が少ない。

    Link: https://arxiv.org/abs/2602.02834

  • PrAg-PO:ロバストで多様な数学的推論のためのプロンプト拡張型方策最適化 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの数学的推論能力向上
    • 数学的推論は,AIの知能を測る上で重要な指標である。高度な数学的思考能力は,様々な分野での応用が期待される。
    • 既存手法では,単一の固定プロンプトに依存しやすく,プロンプト固有の過学習や不安定な学習ダイナミクスが発生しやすい。
    • 多様なプロンプトとフォーマット報酬を用いることで,モデルのロバスト性と多様性を高め,早期の学習崩壊を防ぐ。
    • PrAg-POは,ロールアウトの多様性を高め,ロバスト性を向上させることで,高い推論精度を実現した。
    • DeepSeek-R1-Distill-Qwen-1.5B,Qwen2.5-Math-1.5B,Qwen3-1.7Bを用いた実験で,既存の強化学習手法を上回る性能を示した。
    • MATH Level 3-5の固定学習データセットのみを用いて,数学ベンチマークにおいて競合する最新手法と同等の性能を達成した。

    Link: https://arxiv.org/abs/2602.03190

  • TodyComm:タスク指向の動的コミュニケーションによる多段階LLMベースマルチエージェントシステム [cs.HC, cs.CL, cs.AI]目的:多段階LLMベースマルチエージェントシステムにおける協調
    • マルチエージェントシステムは,複雑な問題解決に不可欠であり,様々な応用分野で注目を集めている。
    • 既存手法は固定的なコミュニケーション構造に依存し,役割変化や環境変化への対応が課題である。
    • タスクの進捗に応じてコミュニケーション構造を動的に変化させ,協調性能を向上させることを目指す。
    • TodyCommは,タスク指向で動的なコミュニケーション構造を生成し,各ラウンドの状況に適応する。
    • 動的な敵対環境下や通信予算制約下で,既存手法を上回るタスク性能を達成した。
    • TodyCommは,トークン効率,スケーラビリティ,汎化性能においても優れていることが示された。

    Link: https://arxiv.org/abs/2602.03688

  • タスク帰属のためのカーネル代理モデルの効率的な推定 [cs.LG, cs.AI, cs.CL]目的:タスク帰属の精度とスケーラビリティ向上
    • 大規模言語モデルの多様なタスクへの対応が重要視される中,個々のタスクの影響評価が不可欠である。
    • タスクを一つずつ削除して再学習する方法は計算コストが高く,実用的ではないという課題がある。
    • 非線形なタスク間相互作用を捉え,より正確かつ効率的なタスク帰属を可能にすることを目指す。
    • カーネル代理モデルは,線形代理モデルや影響関数よりも高い相関を示し,タスク帰属の精度を向上させる。
    • 提案手法は,事前学習済みのモデルを利用した勾配ベースの推定により,高い精度を維持しつつ計算コストを削減する。
    • データ選択に適用することで,数学的推論,文脈内学習,多目的強化学習などの様々な設定で性能が向上する。

    Link: https://arxiv.org/abs/2602.03783

  • SpatiaLab:ビジョン言語モデルは現実世界で空間推論を実行できるか? [cs.CV, cs.CE, cs.CL, cs.LG]目的:ビジョン言語モデルにおける空間推論能力の評価
    • 空間推論は人間の認知の基本であり,AIの高度化に不可欠である。
    • 既存の評価は合成データや限定的なタスクに偏り,現実世界の複雑さを捉えられていない。
    • 現実的で制約のない状況下での空間推論能力を評価し,課題を明らかにすること。
    • SpatiaLabは,相対位置,奥行き,向きなど,多様な空間タスクを含む大規模なベンチマークである。
    • 最先端のビジョン言語モデルは,人間のパフォーマンスと比較して空間推論能力に大きな差があることが示された。
    • SpatiaLabは,現実世界の空間推論におけるビジョン言語モデルの限界を明らかにし,今後の研究の方向性を示す。

    Link: https://arxiv.org/abs/2602.03916

  • SEIS:ニューラル表現に対する部分空間ベースの等変性と不変性のスコア [cs.LG, cs.CV]目的:ニューラル表現における幾何学的変換への応答性を評価する指標
    • 学習された特徴が意味のある空間構造を保持しているか評価することは重要である。
    • 既存手法では内部表現の幾何学的情報の構造が不明確であり,情報損失と再符号化を区別できない。
    • 幾何学的変換に対する等変性と不変性を分離し,層ごとの特徴表現を分析することを目的とする。
    • SEISは,ラベルや変換の知識なしに等変性と不変性を分離する部分空間ベースの指標である。
    • 畳み込みエンコーダは,層が深くなるにつれて強い等変性から不変性へと移行し,訓練初期に安定する。
    • セグメンテーションデコーダでは,後続の層で等変性が回復する傾向がある。データ拡張やマルチタスク学習が等変性と不変性を強化する。

    Link: https://arxiv.org/abs/2602.04054

  • 連合概念ベースモデル:分散型指導による解釈可能なモデル [cs.LG]目的:深層学習における解釈性の向上
    • AIの信頼性向上には,モデルの予測根拠を人間が理解できる形で示すことが重要である。
    • 概念アノテーションは高コストであり,単一のデータソースでは大規模な取得が困難である。
    • 分散型学習を活用し,概念アノテーションの共有とモデルの適応を両立させる。
    • 連合概念ベースモデル(F-CMs)は,従来の集中型学習と同等の精度を維持しつつ,概念の変更に適応する。
    • F-CMsは,特定の機関が利用できない概念に関する解釈可能な推論を可能にするという重要な新規性を持つ。
    • F-CMsは,プライバシーを保護しながら,概念レベルの情報を機関間で集約し,モデルアーキテクチャを効率的に適応させる。

    Link: https://arxiv.org/abs/2602.04093

  • 精度を超えて:拡散逆問題ソルバーの事後分布の忠実度評価 [cs.LG, stat.CO]目的:拡散逆問題ソルバーの事後分布の忠実度
    • 科学技術における逆問題において,不確実性の評価は不可欠である。データのノイズやモデルの不完全性から生じる不確実性を考慮する必要がある。
    • 既存の拡散逆問題ソルバーの評価基準は再構成精度に偏っており,不確実性や分布の挙動が十分に考慮されていない。
    • 拡散過程に基づく事後サンプルを用いて不確実性を表現するソルバーにおいて,生成されたサンプルが真の事後分布をどれだけ捉えているかを評価する。
    • 本研究では,制御されたシミュレーション環境において,既存の拡散逆問題ソルバーの事後分布の忠実度を体系的に調査した。
    • 真の事後分布が不明な現実世界の逆問題に対応するため,スコアベースのカーネルスタイン乖離(score-KSD)という新しい評価指標を提案した。
    • 実験結果から,スコア-KSDは再構成精度だけでは捉えきれない事後分布の忠実度に関する重要な情報を提供することが示された。

    Link: https://arxiv.org/abs/2602.04189

  • エージェント・オミット:効率的なLLMエージェントのための適応的文脈省略 [cs.AI, cs.LG]目的:LLMエージェントの効率化のための適応的文脈省略
    • マルチターン対話におけるエージェントの性能向上には,文脈管理が不可欠である。
    • 既存研究では,各対話ターンの重要度を考慮せず,文脈全体を一律に扱っている。
    • 本研究は,冗長な思考や観察を省略する能力をLLMエージェントに付与することを目指す。
    • 定量的な調査により,思考と観察がエージェントの有効性と効率に与える影響が明らかになった。
    • 提案手法Agent-Omitは,LLMエージェントが冗長な情報を適応的に省略することを可能にする。
    • 5つのベンチマークテストで,最先端のエージェントと同等の性能を示し,効率性と有効性のトレードオフを最適化した。

    Link: https://arxiv.org/abs/2602.04284

  • SAR-RAG:意味検索,検索,MLLM生成によるATR視覚質疑応答 [cs.CV, cs.AI, eess.IV]目的:合成開口レーダー(SAR)画像における自動標的認識(ATR)の性能向上
    • 国防・安全保障において,SARは軍事車両の位置検知・監視に不可欠。車両識別は困難を伴う。
    • SAR画像における車両の識別は難しく,種類,特性,寸法の特定が課題となっている。
    • 過去の類似画像事例を活用し,車両カテゴリの比較を通じてATRの予測精度を改善する。
    • 提案手法SAR-RAGは,MLLMと意味埋め込みベクトルデータベースを組み合わせることで,文脈に基づいた画像事例の検索を可能にする。
    • 過去の標的画像事例を検索・比較することで,SAR-RAGはATR予測精度を向上させる。
    • 検索・分類精度,車両寸法の数値回帰といった評価指標において,MLLMベースラインと比較して改善が確認された。

    Link: https://arxiv.org/abs/2602.04712

  • SE-Bench:知識内包による自己進化のベンチマーク [cs.CL, cs.AI, cs.LG]目的:自己進化の評価基準
    • 強化学習エージェントの継続学習能力向上は重要である。学習した経験を将来の問題解決に活かす能力が求められる。
    • 既存研究では,事前学習データとの知識の混同や,問題の難易度による評価の歪みが課題となっていた。
    • 本研究では,NumPyライブラリを偽装した環境を用いて,知識内包能力を純粋に評価する。
    • 参照ドキュメントを用いた学習は,知識の定着を阻害する「Open-Book Paradox」が確認された。重みを圧縮する「Closed-Book Training」が有効である。
    • 標準的な強化学習では,PPOクリッピングや負の勾配の影響で,知識の完全な内包が困難である「RL Gap」が示された。
    • 自己対戦学習とSFTの組み合わせは,ノイズの多い自己生成タスクから学習することで知識内包が可能であることが示された。

    Link: https://arxiv.org/abs/2602.04811

  • フローマッチングによる disentangled な表現学習 [cs.RO, cs.LG]目的:観測データにおける潜在的な説明要因の捕捉
    • データの本質理解には,データ生成過程を理解することが不可欠である。
    • 既存の拡散モデルでは,因子間の独立性を誘導するものの,意味的な整合性が不十分である。
    • コンパクトな潜在空間における因子条件付きフロー学習を通して,disentanglement を実現する。
    • 提案手法では,因子間の干渉を抑制し,情報漏洩を低減するため,非重複正則化項を導入した。
    • 複数のデータセットにおける実験により,代表的なベースラインと比較して,一貫して高い disentanglement スコアが確認された。
    • また,制御可能性とサンプル忠実度も向上した。

    Link: https://arxiv.org/abs/2602.05214

  • Transformerの構造化プルーニングにおける閉形式のワンショット表現保持手法 [cs.LG, cs.CV]目的:Transformerの構造化プルーニングによる効率化
    • Transformerは高性能だが,計算コストとメモリ使用量が大きい。
    • 従来の構造化プルーニングは再学習や多段階最適化が必要で,実用性が低い。
    • 教師なしデータのみで,再学習なしに構造化プルーニングを実現する。
    • CORPは,MLP次元とAttentionサブ構造を閉形式で除去する。
    • 再学習なしで高い精度を維持しつつ,モデルのスパース性を高めることができる。
    • DeiT-Hugeでは,50%の構造をプルーニング後も83.27%のTop-1精度を達成した。

    Link: https://arxiv.org/abs/2602.05243