arXiv雑要約

AI - 2026/05/29 公開

  • ノイズ補償付きシャープネス認識最小化:ノイズラベル学習のための手法 [cs.LG, cs.AI, cs.CV]目的:ノイズラベル学習における最適化
    • 現実世界のデータセットには誤ったラベルが含まれることが多く,深層学習の基本的な課題である。
    • 既存手法はラベル修正やサンプル選択に依存し,最適化の視点からの研究は少ない。
    • ラベルノイズがシャープネス認識最小化(SAM)の振る舞いに与える影響を解析し,バイアスを補正する。
    • 提案手法NCSAMは,ノイズ補償付き摂動によりSAMの最適化バイアスに対抗する。
    • NCSAMは,ノイズラベルの記憶を抑制しつつ,最適化ベースの学習の簡潔さを維持する。
    • 合成データおよび実データを用いた実験で,既存手法と比較してNCSAMが優れた性能を示す。

    Link: https://arxiv.org/abs/2601.19947

  • HE-SNR: エントロピーを用いた潜在的ロジックの解明 - SWE-benchにおける中間学習の誘導 [cs.LG, cs.CL, cs.SE]目的:大規模言語モデルの中間学習を効果的に誘導するための指標
    • ソフトウェア工学における複雑なタスクの自動化は,生産性向上に不可欠である。
    • 中間学習段階の評価指標は不十分で,下流タスクとの相関が低い。
    • エントロピーに基づく新しい指標HE-SNRを用いて,中間学習を最適化する。
    • 本研究では,エントロピー圧縮仮説に基づき,HE-SNRという新たな指標を提案した。
    • HE-SNRは,従来のPerplexityの問題点を克服し,下流タスクのパフォーマンスとの高い相関を示すことが示された。
    • 最大5600億パラメータのモデルや異なるコンテキストウィンドウで,本手法の有効性を検証した。

    Link: https://arxiv.org/abs/2601.20255

  • 表現のアンラーニング:情報圧縮による忘却 [cs.LG]目的:特定の訓練データの影響除去
    • プライバシー規制や堅牢性確保の観点から,モデルから特定のデータを削除する技術の重要性が高まっている。
    • 既存手法はモデルパラメータの修正に依存し,不安定性,計算コスト,局所近似といった課題が存在する。
    • 表現空間での情報圧縮により,より安定かつ効率的に忘却を実現することを目指す。
    • 表現のアンラーニングは,モデルパラメータを修正するのではなく,表現空間に変換を学習させることで忘却を行う。
    • この変換は,保持データとの相互情報量を最大化しつつ,忘却データに関する情報を抑制する情報ボトルネックを課す。
    • 実験結果から,表現のアンラーニングは,パラメータ中心のベースラインよりも信頼性の高い忘却,優れた実用性維持,そして計算効率の向上を達成することが示された。

    Link: https://arxiv.org/abs/2601.21564

  • 機能的・表現的類似性の橋渡し:利用可能な情報による定量化 [cs.LG]目的:表現間の類似性の定量化
    • 脳科学や機械学習において,脳やモデルの表現を理解することは重要である。
    • 機能的類似性と表現的類似性の関係が明確でなく,比較方法に課題がある。
    • 利用可能な情報という概念で統一的に類似性を捉え,その関係を解明する。
    • 機能的類似性は,スティーチング性能と条件付き相互情報量の間に形式的な繋がりを持つことが示された。
    • 再構成に基づく類似性指標やCKA,RSA等の既存手法が,特定の制約下で利用可能な情報の推定値として機能することが明らかになった。
    • 表現的類似性は機能的類似性にとって十分条件ではあるが,必要条件ではないことが示された。

    Link: https://arxiv.org/abs/2601.21568

  • 手続き的前学習:抽象データによる言語モデルのウォームアップ [cs.CL, cs.LG]目的:言語モデルの抽象データによる初期学習効果
    • 大規模言語モデルの性能向上は重要であり,学習効率も課題である。
    • 既存のウェブ規模データのみでの事前学習は,効率や汎化性能に限界がある。
    • 抽象データによる事前学習で,言語モデルの学習効率と性能を向上させる。
    • 手続きデータによる事前学習により,文脈想起の精度が大幅に向上した(Dyck系列で10%から98%)。
    • 事前学習データに0.1~0.3%の手続きデータを加えることで,自然言語,コード,数学のデータセットで性能が向上した。
    • 手続き的事前学習は,言語モデルの注意層とMLP層に構造を組み込み,学習を促進する。

    Link: https://arxiv.org/abs/2601.21725

  • メタ思考から実行へ:汎化性と信頼性を高める認知的に整合したLLMポストトレーニング [cs.AI, cs.CL]目的:汎化可能かつ信頼性の高いLLM推論の実現
    • LLMの推論能力向上は,多様なタスクへの応用を可能にするため重要である。
    • 既存手法は問題固有の解決策に偏りがちで,汎化性能に課題がある。
    • 人間の認知プロセスを模倣し,汎化性と信頼性を両立する手法を開発する。
    • 提案手法は,抽象的な思考パターンと具体的な実行を分離することで,汎化性能を向上させる。
    • CoMTにより,問題に依存しない抽象戦略の獲得を可能にし,CCRLにより,信頼性の高い実行を最適化する。
    • 実験結果から,本手法は既存手法と比較して,分布内および分布外データにおいて性能が向上することが示された。

    Link: https://arxiv.org/abs/2601.21909

  • 質問を伴う推論:受動的な問題解決者から能動的な探求者への大規模言語モデルの変革 [cs.CL, cs.AI]目的:大規模言語モデルにおける,推論と質問を繰り返すことによる問題解決能力の向上
    • 大規模言語モデルは,思考の連鎖(CoT)を活用し目覚ましい進歩を遂げている。しかし,情報不足下では非効率な推論を行う。
    • 既存の手法は外部環境へのクエリに依存し,前提や意図レベルの曖昧さへの対処が不十分である。
    • ユーザーとの対話を通じて不確実性を解消し,より効率的かつ正確な推論を実現することを目指す。
    • 提案手法Proactive Interactive Reasoning (PIR)は,数学,コーディング,文書編集において,既存手法を大きく上回る性能を示した。
    • PIRは,最大32.70%の精度向上,22.90%の合格率向上,41.36のBLEUスコア改善を実現し,推論計算量と対話回数を削減した。
    • PIRは,事実に基づいた知識,質問応答,前提欠如シナリオにおいても,高い汎化性能とロバスト性を示すことが確認された。

    Link: https://arxiv.org/abs/2601.22139

  • 部分参加下における連合ドメイン漸進学習のためのサーバー近接集約:タスク一様収束と後方転移 [cs.LG]目的:部分参加下における連合ドメイン漸進学習における,後方知識転移の保証と,全てのタスク系列における収束率の確立
    • 現実の連合学習システムは,データの共有が制限される中,分布の変動に適応する必要があるため,継続的な学習が重要である。
    • 連合ドメイン漸進学習では,クライアントの異質性やドメインのシフトといった課題があり,安定的な学習が難しい。
    • 本研究は,過去タスクの知識を保持しつつ,効率的に新しいタスクを学習することで,性能低下を防ぐことを目指す。
    • 提案手法SPECIALは,サーバー側に「アンカー」を導入することで,累積的なドリフトを抑制し,replay bufferやtask-specific headsを必要としない。
    • SPECIALは,後方知識転移の限界を理論的に保証し,ドリフトの制御により,過去タスクの損失増加を抑制する。
    • SPECIALは,部分参加下におけるFDILにおいて,O((E/NT)^(1/2))の通信効率の良い非凸収束率を達成し,単一タスクのFedAvgと同等の性能を示す。

    Link: https://arxiv.org/abs/2601.22274

  • 後学習量子化におけるブロック回転の限界の探求 [cs.LG, cs.AI]目的:後学習量子化におけるブロック回転の性能向上
    • 深層学習モデルの効率化が求められており,量子化はその重要な手法の一つである。
    • 量子化による精度劣化を抑制することが課題であり,特に外れ値の影響が大きい。
    • ブロック回転の限界を分析し,活性化マップの質量の再分配による精度改善を目指す。
    • 本研究では,ブロックハダマール回転における外れ値抑制の理論的限界を明らかにした。
    • 提案手法PeRQは,活性化マップの質量の再分配により,ブロック回転の効果を最大限に引き出す。
    • PeRQは,Llama3 1BをINT4に量子化する際に,フルベクトル回転の性能の最大90%を復元することを示した。

    Link: https://arxiv.org/abs/2601.22347

  • 合理主義者から学ぶ:中間的な解釈可能な根拠の抽出 [cs.LG, cs.AI]目的:深層ニューラルネットワークの解釈性向上
    • 深層学習の利用拡大に伴い,特に重要な決定を伴う分野で解釈性が求められている。
    • 根拠抽出は計算コストが高く,基盤ネットワークの能力が低い場合に困難を極める。
    • 教師モデルの根拠と予測を活用し,学生モデルの性能向上を目指す。
    • REKDは,言語および画像分類データセットにおいて,学生REモデルの予測性能を大幅に向上させることを示した。
    • 本手法は,モデル構造に依存しないため,様々なブラックボックスニューラルネットワークに適用可能である。
    • REKDは,人間が解釈可能な知識から効果的に学習する方法と整合性がある。

    Link: https://arxiv.org/abs/2601.22531

  • 教師なし階層的スキル発見 [cs.LG, cs.FL]目的:強化学習におけるスキル分割と階層構造の発見
    • 複雑なタスクを効率的に学習するには,再利用可能なスキルの発見が不可欠である。
    • 既存手法はラベルや報酬に依存し,汎用性に欠ける点が課題である。
    • ラベルなしデータから意味のある階層構造を持つスキルを発見することを目指す。
    • 提案手法は,CraftaxやMinecraftなどの高次元環境で有効性を示した。
    • 既存手法と比較して,より構造化され,意味のある階層構造を生成できることが確認された。
    • 発見された階層構造が,下流の強化学習タスクにおける学習を加速・安定化させることを実証した。

    Link: https://arxiv.org/abs/2601.23156

  • エージェントにおける推論とツール利用の競合:干渉の定量化と分離チューニング [cs.AI]目的:推論とツール利用の干渉の定量化と,それらを分離したチューニング手法
    • 複雑なタスク解決のため,大規模言語モデルに推論と外部ツール利用を組み合わせる研究が重要である。
    • 推論とツール利用を同時に学習させる手法が主流だが,その有効性は十分に検証されていない。
    • 推論とツール利用の間の干渉を解消し,最適化の効率を高めることを目指す。
    • 本研究では,推論とツール利用の間に干渉が存在し,それが最適化を阻害することを示す定量的な証拠が得られた。
    • 提案手法DARTは,推論とツール利用のパラメータ更新を分離することで,既存手法を上回り,2エージェントの上限に迫る性能を達成した。
    • DARTのシンプルな変更だけで干渉を軽減し,検索拡張QAやNL2SQLの13ベンチマークで性能向上を実証した。

    Link: https://arxiv.org/abs/2602.00994

  • 優れたSFTはSFTを最適化し,より良いSFTは強化学習に備える [cs.LG, cs.AI, cs.CL]目的:推論型LLMのポストトレーニングにおけるSFT段階の最適化手法
    • LLMの性能向上には,オフラインSFTとオンライン強化学習の組み合わせが不可欠である。
    • 現在のSFT-RLパイプラインでは,SFTデータ分布とRL時の分布の不一致が生じやすい。
    • SFT段階でこの不一致を修正し,強化学習への準備を改善すること。
    • 提案手法PEARは,重要度サンプリングを用いてSFT損失を再重み付けし,トークン,ブロック,シーケンスレベルで適用できる。
    • Qwen 2.5/3,DeepSeek-distilledモデルを用いた実験で,PEARは従来のSFTよりもRL後の性能を改善した。
    • AIME2025において,正答率が最大14.6%向上し,より包括的なLLMポストトレーニングへの有効性を示唆する。

    Link: https://arxiv.org/abs/2602.01058

  • 修正LpJEPA:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャ [cs.LG, cs.CV]目的:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャの改良
    • 表現学習において,効率的な表現は疎性を有することが重要視されている。
    • 既存手法は等方ガウス分布への正則化を行うが,疎な表現を獲得できないという課題がある。
    • 修正された分布一致正則化により,疎性を明示的に制御し,タスク関連情報を保持することを目指す。
    • 修正LpJEPAは,Rectified Generalized Gaussian (RGG)分布への整列により,疎な表現を獲得する。
    • RGGは,$\ell_0$ノルムの期待値を制御しつつ,最大エントロピー特性を維持する。
    • 画像分類ベンチマークにおいて,既存手法と同等以上の性能を示す。

    Link: https://arxiv.org/abs/2602.01456

  • Skill-Pro:LLMエージェントにおける経験からの再利用可能なスキルの学習 [cs.AI]目的:LLMエージェントにおける再利用可能な手続き的スキルの学習
    • LLMエージェントは逐次決定に優れるが,効率的な経験の再利用が課題である。
    • 同じ状況でも毎回推論を繰り返すため,計算資源の無駄と不安定性がある。
    • 経験から手続き的スキルを自動的に学習し,効率的な再利用を可能にすること。
    • Skill-Proは,エージェントがパラメータ更新なしに経験から再利用可能なスキルを自律的に学習する。
    • Non-Parametric PPOにより,信頼性の高い再利用性と能力劣化の抑制を実現した。
    • 実験結果から,高い再利用率と極端なメモリ圧縮による大幅な性能向上が確認された。

    Link: https://arxiv.org/abs/2602.01869

  • LLMはどれくらい先を見据えて計画するか:思考の連鎖における潜在的な地平線の解明 [cs.LG, cs.CL]目的:大規模言語モデルにおける潜在的な計画能力の解明
    • 大規模言語モデルの思考の連鎖は,複雑な推論を可能にする重要なメカニズムである。
    • 思考の連鎖における内部状態と推論過程の関係性が十分に理解されていない。
    • 大規模言語モデルの計画能力の限界を明らかにし,不確実性推定の改善を目指す。
    • 大規模言語モデルは,精密なグローバルな計画よりも,漸進的な遷移を主に行う傾向にあることが示された。
    • 思考の連鎖における不確実性の推定において,重要なピボット位置が少数で表現可能であることが確認された。
    • 思考の連鎖のダイナミクスを利用することで,性能劣化なしにバイパスを自動認識できることが示された。

    Link: https://arxiv.org/abs/2602.02103

  • 戦略オークションによる小型エージェントのスケーリング [cs.MA, cs.AI, cs.CL]目的:小型エージェントの戦略オークションを通じた効率的なスケーリング
    • エージェントAIにおいて,より小型な言語モデルは費用対効果が高く有望視されている。
    • タスクの複雑性が増すと,小型エージェントの性能が十分にスケーリングされるか不明確である。
    • タスクの複雑さに応じたエージェントの割り当てと自己改善による効率化を目指す。
    • 提案手法SALEにより,最大のモデルへの依存度を52%削減し,全体コストを35%削減した。
    • SALEは,最終的なトレース実行に追加のオーバーヘッドがほとんどない状態で,最大のモデルのpass@1を安定的に向上させた。
    • タスク記述に基づく既存のルーターは,SALEに劣るか,コスト削減に失敗する傾向が見られた。

    Link: https://arxiv.org/abs/2602.02751

  • AutoSizer:大規模言語モデル(LLM)エージェントによるアナログ・混合信号回路の自動サイズ決定 [cs.AI]目的:アナログ・混合信号回路の自動サイズ決定手法
    • アナログ回路設計は専門知識が不可欠であり,高性能化には高度な設計技術が求められる。
    • トランジスタのサイズ決定は非線形性や制約条件から困難であり,設計のボトルネックとなっている。
    • LLMを活用し,回路理解,探索空間の適応的構築,最適化を統合した効率的なサイズ決定を目指す。
    • AutoSizerは,回路シミュレーションのフィードバックに基づき,探索空間を反復的に洗練する二重ループ最適化フレームワークである。
    • 既存の最適化手法やLLMベースのエージェントと比較して,AutoSizerはより高品質な解,高速な収束,高い成功率を達成した。
    • SKY130 CMOS技術を用いた24種類の多様なアナログ・混合信号回路で構成されるAMS-SizingBenchを公開し,評価を行った。

    Link: https://arxiv.org/abs/2602.02849

  • 推論に関する推論:LLMにおける思考の連鎖トークン複雑性に関するBAPO境界 [cs.AI, cs.FL, cs.LG]目的:思考の連鎖(CoT)推論におけるトークン数の理論的限界
    • 大規模言語モデル(LLM)の性能向上にはCoTが不可欠だが,遅延と計算コストが課題である。
    • 入力サイズ増加に伴うCoTのトークン数のスケーリングには理論的な理解が不足している。
    • CoT推論に必要なトークン数の下限を導き,計算効率のボトルネックを特定すること。
    • バイナリ多数決,トリプレットマッチング,グラフ到達可能性の3つのタスクにおいて,入力サイズnに対してCoTトークン数がΩ(n)となる下限が証明された。
    • 提示された下限と一致またはほぼ一致する上限が,明示的な構成を通じて示された。
    • 実験結果は,これらのタスクにおいて,CoTトークン数の線形スケーリングと,トークン数制限時の失敗を示し,理論的下限と一致した。

    Link: https://arxiv.org/abs/2602.02909

  • 複合型連合学習における線形加速の実現 [cs.LG, math.OC]目的:複合型連合学習のための線形加速
    • 機械学習の応用拡大に伴い,分散環境での学習の重要性が高まっている。
    • 連合学習では,クライアント間のデータ不均一性が学習のボトルネックとなる場合がある。
    • 本研究は,データ不均一性に強く,線形加速を実現するアルゴリズムを提案する。
    • 提案手法FedNMapは,滑らかな損失関数と非滑らかな正則化項を持つ複合型連合学習において,線形加速を達成する。
    • 特に,非凸損失関数に対して,クライアント数およびローカル更新回数に関して線形加速が理論的に保証される。
    • 数値実験の結果,提案手法の有効性と線形加速が確認された。

    Link: https://arxiv.org/abs/2602.03357

  • 空力形状逆設計における最適化と生成 [cs.LG]目的:空力形状の最適化と生成手法
    • 輸送機関の効率向上は重要であり,空力設計はその鍵となる技術の一つである。
    • 従来の設計法は性能向上に偏りがちで,デザイン性やブランドイメージとの調和が課題である。
    • 視覚的特徴を維持しつつ,空力性能を改善する手法の開発が求められている。
    • 提案手法により,自動車の空気抵抗を初期形状と比較して5.8%削減することに成功した。
    • 航空機においては,空気抵抗対揚力比を28.8%改善し,視覚的特徴も維持された。
    • ビューに基づいた生成においては,空気抵抗を3.0%,空気抵抗対揚力比を68.6%改善した。

    Link: https://arxiv.org/abs/2602.03582

  • ツリーブースティングのハイパーパラメータ選択 [cs.RO, cs.CL, cs.CL, cs.LG, stat.AP, stat.ML]目的:ツリーブースティングのハイパーパラメータ最適化手法の比較
    • 表形式データの機械学習において,ツリーブースティングは広く利用されている。
    • ツリーブースティングの性能はハイパーパラメータに大きく依存するが,最適な設定は自明ではない。
    • 様々なハイパーパラメータ最適化手法を比較し,より高精度なモデル構築を目指す。
    • SMAC法が,他の全ての比較対象手法を明確に上回る性能を示した。
    • 正確なチューニングには,100回を超えるトライアル数が必要であることが示された。
    • 回帰タスクにおいては,早期停止を用いたブースティング反復回数の選択が,探索空間に含めるよりも高精度な結果をもたらす。

    Link: https://arxiv.org/abs/2602.05786

  • 離散拡散サンプラーとブリッジ:オフポリシーアルゴリズムと潜在空間への応用 [cs.LG, stat.ML]目的:離散拡散サンプラーの性能向上と,任意の2分布間のブリッジング手法の開発
    • 統計学における重要な課題であり,尤度計算が困難な分布からの効率的なサンプリングが求められる。
    • 離散空間における拡散サンプラーの研究は未成熟であり,連続空間の知見が十分に活用されていない。
    • オフポリシー学習を導入し,離散拡散サンプラーの性能を向上させ,データフリーな潜在空間サンプリングを実現する。
    • 提案手法により,既存の離散サンプラーの性能が,確立されたベンチマークと新たな合成ベンチマークの両方で向上した。
    • 離散領域において,初めてデータtoエネルギーシュレーディンガーブリッジ学習を導入し,2分布間のブリッジングを可能にした。
    • 画像生成モデルの離散潜在空間において,データフリーな事後サンプリングへの拡散サンプラーの応用を実証した。

    Link: https://arxiv.org/abs/2602.05961

  • ノイズを含む問い合わせによる分割不能な物品の羨望フリーな配分 [cs.CL, cs.GT, cs.IT, cs.LG, math.IT, stat.ML]目的:分割不能な物品の羨望フリーな配分問題における問い合わせ回数の最適性
    • 公平な資源配分は,経済学,計算機科学など多岐にわたる分野で重要な課題である。
    • エージェントの評価値を直接観測できない場合,効率的な配分アルゴリズムの設計が困難である。
    • ノイズを含む問い合わせのみで,効率的に羨望フリーな配分を実現することを目指す。
    • 2人エージェント環境において,ガウスノイズと評価値の上限を仮定した上で,必要な問い合わせ回数の上限と下限を導出した。
    • 最適な問い合わせ回数は,物品数$m$と負の羨望$\Delta$に基づいて,$\frac{m^{2.5}}{\Delta^2}$ のオーダーでスケールすることが示された(対数因子を除く)。
    • この上限は,非適応的な問い合わせとシンプルな閾値ベースの配分アルゴリズムに基づくものであり,任意の計算時間,適応的な問い合わせ下でも下限が成立する。

    Link: https://arxiv.org/abs/2602.06361

  • 大規模言語モデルにおける稀な事象の分析 [cs.DB, cs.LG, cond-mat.dis-nn, cond-mat.stat-mech]目的:大規模言語モデルにおける稀な事象の体系的な分析
    • 言語モデルの利用拡大に伴い,予期せぬ問題発生のリスクが高まっている。
    • 開発段階では観測されない稀な事象が,実運用で顕在化する可能性がある。
    • 大規模言語モデルにおける稀な事象を特定し,その影響を評価すること。
    • 提示されたフレームワークは,理論,効率的な生成戦略,確率推定,およびエラー分析を包含する。
    • 具体例を通して,提案手法の実用性と有効性が示された。
    • 本研究は,他のモデルや文脈への拡張性を示唆しており,汎用的な概念と技術を提供する。

    Link: https://arxiv.org/abs/2602.06791

  • パイプライン磁気漏洩検査画像における物体検出のための大規模データセットおよびベンチマークPipeMFL-240K [cs.CV, cs.AI]目的:パイプライン磁気漏洩検査画像における物体検出のための大規模データセットおよびベンチマークの提供
    • パイプラインの健全性は,産業安全と環境保護にとって不可欠であり,非破壊検査技術として磁気漏洩検出が重要である。
    • 深層学習の自動化への期待はあるものの,大規模な公開データセットの不足が,公平な比較や再現性のある評価を困難にしている。
    • パイプライン磁気漏洩検査データの特性に対応した,高性能な物体検出アルゴリズムの開発を促進する。
    • PipeMFL-240Kは,249,320枚の画像と200,020個の高精度なバウンディングボックスアノテーションを含む大規模データセットである。
    • 既存の物体検出器は,MFLデータの持つ極端な長尾分布,微小な対象物の多さ,クラス内変動の大きさといった特性に課題があることが示された。
    • PipeMFL-240Kは,パイプライン診断やメンテナンス計画の効率化,MFLベースのパイプライン健全性評価研究の加速に貢献する基盤となる。

    Link: https://arxiv.org/abs/2602.07044

  • デジタルヘルスの未来は小規模エージェント群にある [cs.AI]目的:デジタルヘルスにおける臨床推論の改善
    • デジタルヘルスは,医療の質と効率を向上させる重要な分野であり,近年急速に発展している。
    • 大規模言語モデルの規模拡大は有効だが,信頼性や導入コストが課題となっている。
    • 単一モデルの規模拡大ではなく,エージェント群による協調推論で課題解決を目指す。
    • 小規模エージェント群(SAG)は,単一の大規模モデルと比較して,臨床指標において優れた性能を示した。
    • SAGは,追加の最適化や検索拡張生成の有無にかかわらず,より良い臨床的合理性を提供することが示された。
    • SAGは,有効性,信頼性,導入効率のバランスを改善する,スケーラブルなデジタルヘルスソリューションである。

    Link: https://arxiv.org/abs/2602.08013

  • 効率的かつ信頼性の高い報酬誘導生成のための勾配事前条件付け [cs.MA, cs.CL, cs.LG]目的:報酬誘導生成の効率化と信頼性向上
    • 生成モデルは多様なコンテンツ生成に不可欠であり,その性能向上が求められている。
    • 報酬最適化は性能改善の鍵だが,報酬ハッキングや計算コストの問題がある。
    • 報酬ハッキングを抑制し,効率的な報酬最適化を実現すること。
    • 提案手法は,勾配を白色ガウスノイズの統計に沿った方向に再形成し,報酬探索を加速する。
    • 実験の結果,最先端の正則化手法と同等の美観スコアを,30%の計算時間で達成した。
    • 本手法は,閉形式の投影演算を用いることで,計算オーバーヘッドを抑制している。

    Link: https://arxiv.org/abs/2602.08646

  • 潜在的な思考の連鎖のダイナミクス:因果構造に関する実証研究 [cs.AI, cs.CL]目的:潜在的な思考の連鎖における因果構造の解明
    • 大規模言語モデルの推論能力向上は,AI研究の主要な課題である。
    • 潜在的な思考の連鎖は解釈が難しく,中間ステップの評価が困難である。
    • 潜在的な思考の連鎖を因果モデリングで分析し,解釈性を高めることを目指す。
    • 潜在ステップの予算は,均一な深さではなく,非局所的なルーティングを持つ段階的な機能として機能する。
    • 早期の出力バイアスと後期の表現的コミットメントの間には,一貫したギャップが存在することが示された。
    • モード条件付きおよび安定性に基づいた分析が,潜在的な推論システムの解釈と改善に役立つと示唆された。

    Link: https://arxiv.org/abs/2602.08783

  • パリティの効率的な複製学習と応用 [cs.LG, cs.CR]目的:パリティの実用的な学習アルゴリズムの開発
    • 機械学習の安定性や汎化性能を理論的に理解する上で重要である。
    • 複製学習と統計的クエリ学習の計算能力に差があることが課題であった。
    • 一般的な分布における効率的な複製学習の可能性を示すことを目指す。
    • 本研究では,任意の分布におけるパリティの実用的な複製学習アルゴリズムを初めて提示した。
    • この結果は,効率的な複製学習が効率的な統計的クエリ学習よりも強力であることを示す証拠となる。
    • また,複製学習から純粋な差分プライバシーへの変換にはサンプル複雑さの損失が伴うことを示した。

    Link: https://arxiv.org/abs/2602.09499

  • LLMの特徴空間における疎な自己符号化器を用いた多様なデータの合成 [cs.CL, cs.AI]目的:大規模言語モデルにおける下流タスクの性能向上のためのデータ多様性
    • 大規模言語モデルの性能は,学習データの質と多様性に大きく依存する。
    • 既存の多様性指標は言語的な変化に焦点を当てており,タスク関連性の高い特徴を捉えきれない。
    • 特徴空間におけるデータ多様性を評価し,欠損特徴を補完する合成データ生成手法を開発する。
    • 提案手法は,命令応答,毒性検出,報酬モデリング,行動制御など,多様なタスクにおいて性能向上を実証した。
    • LLaMA,Mistral,Qwenといった異なるモデルファミリー間で共有可能な解釈可能な特徴空間を特定した。
    • 本研究は,大規模言語モデルのデータ中心最適化のための確固たる手法を提供する。

    Link: https://arxiv.org/abs/2602.10388

  • 過程を優先せよ,結果のみにあらず:潜在思考軌跡への報酬が,ループ型言語モデルの推論能力を向上させる [cs.LG]目的:ループ型言語モデルにおける推論能力の向上
    • 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
    • 従来の強化学習は,最終的な状態にのみ報酬を与えるため,モデルの内部計算とのミスマッチが生じていた。
    • 潜在思考軌跡全体に報酬を与えることで,より効果的な強化学習を実現し,推論能力を向上させる。
    • 提案手法RLTTは,強化学習フレームワークにおいて,潜在思考軌跡全体に報酬を分配する。
    • 実験の結果,RLTTは既存手法GRPOと比較して,数学的推論ベンチマークにおいて統計的に有意な改善を示した(1.4Bスケールで+5.8%,2.6Bスケールで+10.9%)。
    • RLTTは数学的推論に特化して学習されたにもかかわらず,非数学的な推論ベンチマークにも効果的に転移した。

    Link: https://arxiv.org/abs/2602.10520

  • 粗視化ボルツマン生成器 [cs.LG, cond-mat.stat-mech, physics.chem-ph, stat.ML]目的:平衡分子配置のボルツマン分布からのサンプリング
    • 分子シミュレーションにおいて,平衡状態のサンプリングは重要な課題である。
    • 従来のボルツマン生成器は計算コストが高く,大規模システムへの適用が困難である。
    • 粗視化により計算コストを削減しつつ,正確な統計量を維持する手法が求められている。
    • 粗視化ボルツマン生成器(CG-BG)は,粗視化された座標空間における重要度サンプリングを可能にする。
    • CG-BGは,フローベースモデルを用いてサンプルを生成し,学習された平均力ポテンシャル(PMF)を用いて再重み付けを行う。
    • 実験結果は,CG-BGが原子レベルのBGよりも大幅に低い計算コストで溶媒介在相互作用を捉えることを示している。

    Link: https://arxiv.org/abs/2602.10637

  • 協調的閾値ウォーターマーキング [cs.LG]目的:連合学習におけるモデルの出所証明メカニズム
    • データ活用におけるプライバシー保護の重要性が増しており,分散学習への関心が高まっている。
    • 既存のウォーターマーキング手法では,参加クライアントが多い場合にウォーターマークが弱くなる問題がある。
    • 複数クライアントの協調により,ウォーターマークの安全性を高め,出所証明を可能にすることを目指す。
    • 提案手法では,少なくとも$t$個のクライアントの協力が必要な閾値ウォーターマーキングを実現している。
    • ウォーターマーク鍵は秘密分散され,少数のクライアントによる復元は不可能である。
    • 画像分類および言語モデルのファインチューニング実験で,高い検出率と精度の維持を確認した。

    Link: https://arxiv.org/abs/2602.10765

  • S-MARC:双方向会話行動モデリングのための因果ストリーミング推論 [cs.CL, cs.AI]目的:双方向会話行動のモデリングと推論のためのフレームワーク
    • 自然な対話システム構築には,人間の思考の流れを捉えた行動の理解が不可欠である。
    • 既存手法では,会話の因果関係や時間的依存性を十分にモデル化できていない。
    • 会話の意図と行動の経路を形式化し,因果関係と時間的依存性を考慮した推論を行う。
    • S-MARCは,ストリーミング予測を連続的に進化するグラフ構造に整理し,意思決定の根拠を明確に示す。
    • 合成および実際の双方向会話データを用いた実験で,堅牢な行動検出と解釈可能な推論チェーンが確認された。
    • 本研究は,全二重音声対話システムにおける会話推論のベンチマーク基盤を確立する。

    Link: https://arxiv.org/abs/2602.11065

  • 言語誘導型ベイズ最適化による効率的なLoRAハイパーパラメータ探索 [cs.CL, cs.AI]目的:LoRAハイパーパラメータの効率的な探索
    • 大規模言語モデルの活用が広がる中,効率的な微調整手法の確立が重要である。
    • LoRAはハイパーパラメータに極めて敏感であり,網羅的な探索は計算コストが高い。
    • 言語モデルの知識を活用し,LoRAハイパーパラメータ探索の効率化を図る。
    • 事前学習済み言語モデルを離散-連続マッピングモジュールとして再利用し,ハイパーパラメータと知識を連続ベクトル空間に変換する。
    • 言語プロンプトによるマッピングの設計と制御により,LoRAに関するドメイン知識を自然言語で明示的に注入する。
    • データサブセットを用いたプロキシ学習と評価により,方法の効率性を大幅に向上させている。約30回の反復で,約45,000通りの組み合わせから得られた標準ハイパーパラメータと比較して20%以上の性能向上を達成した。

    Link: https://arxiv.org/abs/2602.11171

  • 因果的JEPA:オブジェクトレベル潜在的マスキングによるワールドモデルの学習 [cs.AI]目的:オブジェクトレベルの潜在的マスキングを通じたワールドモデルの学習
    • 予測,推論,制御を支えるには,ロバストな関係性の理解が不可欠である。
    • 既存のオブジェクト中心表現では,相互作用に依存するダイナミクスを捉えきれない。
    • 相互作用に依存する予測を可能にする学習目的を達成すること。
    • C-JEPAは,オブジェクトレベルの潜在変数をマスキングすることで,構造化された部分的な可視性を学習時に課す。
    • その結果,反事実的な予測クエリが生成され,近道的な解法を抑制し,視覚的質問応答において約20%の改善が見られた。
    • エージェント制御タスクでは,パッチベースのモデルに必要な潜在入力フィーチャーの1%のみで,同等の性能を達成する効率的な計画を可能にした。

    Link: https://arxiv.org/abs/2602.11389

  • OmniCustom:共同オーディオ・ビデオ生成モデルによるオーディオ・ビデオカスタマイズの同期 [cs.SD, cs.AI, cs.MM, eess.AS]目的:オーディオ・ビデオのカスタマイズ同期
    • 近年,オーディオとビデオを同時に生成する技術が急速に進歩しており,新たな可能性を広げている。
    • 既存のカスタマイズ手法は,主に画像とテキストに基づいて動画を生成するのに限定されている。
    • 参照画像と音声に基づいて,動画のIDと音声の音色を同時にカスタマイズする手法を確立する。
    • 提案手法 OmniCustom は,DiTベースのフレームワークであり,参照画像,音声,テキストプロンプトを同時に考慮して動画を生成する。
    • IDと音色の制御には,LoRAモジュールを使用し,コントラスト学習によりIDと音色の維持性能を向上させている。
    • 大規模なオーディオ・ビジュアルデータセットで学習し,既存手法と比較して一貫性のあるIDと音色の忠実度で優れていることを実験的に示している。

    Link: https://arxiv.org/abs/2602.12304

  • 正則化を超えて:RLVRにおける困難度スケジューラとしての分割関数に関する再考 [cs.CL, cs.AI]目的:大規模言語モデルの推論性能向上と生成多様性の両立
    • LLMの性能向上には報酬最大化RLが有効だが,生成多様性が低下しやすい。
    • 分割関数は単なる正規化項として扱われており,潜在的な情報活用が不十分である。
    • 分割関数をプロンプトごとの期待報酬として活用し,学習効率の向上を目指す。
    • 分割関数とプロンプトごとの精度推定の間に理論的な関係を確立した。
    • PACED-RLを提案し,精度推定に基づいて情報量の多いプロンプトを優先的に学習させた。
    • 既存手法GRPOやGFlowNetと比較して,性能が大幅に向上した。

    Link: https://arxiv.org/abs/2602.12642

  • 量子強化学習によるSIMアシスト無線ネットワークのセキュリティ確保 [cs.NI, cs.LG]目的:SIMアシスト無線ネットワークにおける秘密率最大化
    • 無線通信の安全性が重要視される中,物理層セキュリティの強化が求められている。
    • SIMの大規模な最適化空間は,従来の設計手法では効率が悪く,拡張が困難である。
    • 動的な環境下でのDRLの収束遅延と性能劣化を,量子技術で解決することを目指す。
    • 提案手法であるQ-PPOは,既存のDRLベースラインを凌駕し,安定的に高い秘密率を達成した。
    • 不完全な盗聴者チャネル状態情報下で,約15%の高い秘密率と30%の高速な収束を実現した。
    • Q-PPOは,SIM対応の安全な無線ネットワークの強力な最適化パラダイムとして確立される。

    Link: https://arxiv.org/abs/2602.13238

  • 理解の限界におけるベンチマーク [cs.AI, cs.LG]目的:大規模言語モデルの性能評価手法
    • AIの進歩を客観的に測るには,信頼性のある評価が不可欠である。
    • 最先端モデルが既存の評価基準を容易に満たし,新たな課題の創出が困難になっている。
    • 人間が完全に理解できない複雑なタスクにおいても評価を可能にする手法を確立する。
    • 批判耐性ベンチマークという,人間が部分的検証を行う敵対的フレームワークを提案した。
    • この手法では,反論がなければ正解とみなすことで,完全な理解を超えた評価の信頼性を維持する。
    • 数学の問題を用いて8つの最先端LLMを評価し,安定したスコアと外部指標との相関関係を示した。

    Link: https://arxiv.org/abs/2602.14307

  • 畳み込み位置エンコーディングを持つグラフTransformerのサイズ転移可能性 [cs.LG]目的:グラフシーケンスに対する多様体極限モデルを用いたグラフTransformerの解析
    • グラフ構造データに対するTransformerの応用が盛んになり,その性能向上が期待されている。
    • グラフTransformerの位置エンコーディングが,転移学習においてボトルネックとなる場合がある。
    • 位置エンコーディングの転移可能性を保証することで,大規模グラフにおける効率的な学習を目指す。
    • グラフTransformerは,位置エンコーディングの転移可能性を受け継ぎ,小規模グラフでの学習が大規模グラフに適用可能であることが示された。
    • 理論的保証に加え,標準的なグラフベンチマークでの実験により,グラフTransformerのスケーラビリティが確認された。
    • 地形における最短経路距離推定への適用実験で,転移可能なグラフTransformerの効率性が実証された。

    Link: https://arxiv.org/abs/2602.15239

  • ビジョン・ワームホール:異種マルチエージェントシステムにおける潜在空間コミュニケーション [cs.CL, cs.CV, cs.LG]目的:異種マルチエージェントシステムにおける潜在空間コミュニケーションの実現
    • 大規模言語モデルを活用したマルチエージェントシステムは高度な協調推論を可能にするが,通信がボトルネックとなりやすい。
    • 既存の潜在状態伝達アプローチは,同種アーキテクチャに限定されるか,ペアごとの翻訳器が必要となり,拡張性に課題がある。
    • ビジョン言語モデルの視覚インターフェースを連続的な通信チャネルとして捉え,拡張性と効率性を向上させる。
    • 提案手法「ビジョン・ワームホール」は,推論軌跡を共通の潜在空間にマッピングし,受信側の視覚経路に注入することで,ペアごとの翻訳器なしに潜在状態伝達を実現する。
    • ハブ・アンド・スポーク型トポロジーを採用することで,アライメントの複雑さをO(N^2)からO(N)に削減し,効率的な学習を可能にする。
    • 多様なビジョン言語モデルと9つの推論ベンチマークにおいて,エンドツーエンドの実行時間を短縮し,精度向上も確認された。

    Link: https://arxiv.org/abs/2602.15382

  • GICDM:距離ベース生成モデル評価におけるハブネスの軽減 [cs.LG, cs.AI, stat.ML]目的:生成モデル評価における信頼性向上
    • 生成モデルの性能評価は重要であり,多様な応用を支える。
    • 高次元埋め込み空間におけるハブネス現象が評価を歪める。
    • ハブネスの影響を修正し,距離ベース評価の信頼性を回復する。
    • GICDMは,実データと生成データの近傍探索の推定を修正する。
    • 多重スケール拡張により,実証的な性能が向上する。
    • 実験結果から,GICDMはハブネスによる誤りを解消し,人間の評価との一致度を高める。

    Link: https://arxiv.org/abs/2602.16449

  • 誰を信頼すべきか?比較評価のためのLLMを陪審員として [cs.CL, cs.AI, cs.LG]目的:自然言語生成評価における比較判断の信頼性向上
    • 自然言語生成の自動評価は,その効率性から重要性が増している。
    • LLMを評価者として用いる際,LLM間の性能ばらつきと判断の偏りが課題となる。
    • LLMの信頼性を考慮した集約手法により,評価精度を向上させる。
    • 提案手法BT-sigmaは,LLM各々の特性を考慮し,Bradley-Terryモデルを拡張した。
    • BT-sigmaは,既存の集約手法と比較して,より高い評価性能を示すことが確認された。
    • BT-sigmaで学習されたパラメータは,LLM判断の一貫性と相関があることが示された。

    Link: https://arxiv.org/abs/2602.16610

  • RAT+:密に訓練し,疎に推論する - 拡張された注意機構による拡張推論 [cs.LG]目的:拡張された注意機構による拡張推論のためのアーキテクチャ
    • Transformerモデルの効率的な推論が求められており,計算コスト削減が重要である。
    • 事前学習済みモデルを直接疎化すると精度が低下し,柔軟な再利用が困難である。
    • 一度訓練したモデルを,推論時に柔軟に疎な注意機構に切り替えられるようにすること。
    • RAT+は,1.5BパラメータでD=16の拡張推論において,密なモデルと同等の精度を達成する。
    • D=64の場合,常識推論およびLongBenchタスクで約2-3ポイントの精度低下が見られる。
    • さらに大規模なモデル(2.6Bおよび7.6Bパラメータ)では,より有望な結果が得られた(例えば,64倍の計算量削減で1ポイントの精度損失)。

    Link: https://arxiv.org/abs/2602.18196

  • JAEGER:シミュレーションされた物理環境における3Dオーディオビジュアルの共同接地と推論 [cs.CV, cs.AI, cs.SD]目的:3D空間におけるオーディオビジュアルの共同接地と推論
    • 現実世界の理解には,空間情報が不可欠である。AIの物理環境での活動を向上させるためには,3D情報の活用が重要となる。
    • 既存のオーディオビジュアルLLMは2D認識に限定され,音源の定位や空間推論の精度が低いという課題がある。
    • RGB-D画像と多チャンネル音響情報を統合することで,3D空間におけるオーディオビジュアルの理解能力向上を目指す。
    • JAEGERは,2D中心のアプローチと比較して,多様な空間認識・推論タスクにおいて一貫して優れた性能を発揮する。
    • 提案手法では,学習された空間オーディオ表現であるNeural IVを用いて,方向推定の精度を向上させている。
    • 大規模な学習と評価のためのベンチマークSpatialSceneQAを提案し,3Dモデリングの必要性を強調した。

    Link: https://arxiv.org/abs/2602.18527

  • 拡散サンプラーは本当に正しいのか?離散拡散言語モデルのサンプラー中心評価 [cs.LG]目的:離散拡散言語モデルにおけるサンプラーの正確性評価
    • 言語モデルは自然言語処理の基盤であり,その性能向上が様々な応用を促進する。
    • 離散拡散言語モデルの評価は,サンプラーの誤差とノイズ除去器の誤差が混在しており困難である。
    • サンプラー自身の誤差を分離し,正確なサンプリングのための条件を明らかにすること。
    • 提案手法により,ステップ数が系列長に近づくまでは,サンプラーが分布的に正しいとは言えないことが示された。
    • 負対数尤度や生成パープレキシティの改善が,必ずしも正しいサンプリングを意味しないことが確認された。
    • 真のマルコフ連鎖から導出されるオラクルフレームワークにより,サンプラーの誤差を分離して評価することが可能となった。

    Link: https://arxiv.org/abs/2602.19619

  • 部分観測平均場ゲームのための再帰構造的方策勾配法 [cs.AI]目的:大規模人口システムの相互作用のモデリング手法
    • 多数のエージェント間の複雑な相互作用を扱う上で,理論的枠組みと効率的な解法が求められる
    • モデルフリーな手法は分散が大きい一方,厳密解法は計算量が膨大になるという課題があった
    • 部分観測環境下での効率的な方策学習を実現し,実用的な応用範囲を広げることを目指す
    • 提案手法RSPGは,モデルフリー強化学習法と比較して,桁違いに高速な収束性を示した
    • RSPGは,過去の履歴を考慮した行動学習が可能であり,既存のHSMとは異なる振る舞いを実現する
    • 平均場ゲームの研究を促進するため,解析的およびサンプルベースの手法をサポートするJAXベースのフレームワークMFAXを公開した

    Link: https://arxiv.org/abs/2602.20141

  • 到達によるルーティング:事前学習済みGFlowNetの多目的生成への合成 [cs.LG]目的:多目的生成のための事前学習済みGFlowNetの合成手法
    • 科学的発見において,多様な候補解を探索することは重要であり,GFlowNetはそのために適している。
    • 既存手法は,目的の組み合わせごとに一から再学習が必要であり,柔軟性に欠ける。
    • 本研究は,再学習なしに目的の変更に迅速に対応できる手法を提案する。
    • 提案手法は,線形スカラー化において目標分布を正確に再現することを証明した。
    • 非線形演算子に対しては,歪み係数を用いて近似品質を定量的に評価した。
    • 合成データおよび分子生成タスクにおいて,既存手法と同等の性能を達成した。

    Link: https://arxiv.org/abs/2602.21565