arXiv雑要約

AI - 2026/02/05 公開

ゲームにおける実現可能なペイオフ集合推定の最適レート [cs.GT, cs.LG]目的：ゲームにおける実現可能なペイオフ集合の推定
- 多人数環境における意思決定の理解や戦略設計に不可欠な研究分野である。
- 観測された行動のみからペイオフ関数を推定することには困難が伴う。
- ハウスドルフ距離に基づいた精度で，実現可能なペイオフ集合を推定する。
- 正確な均衡プレイと近似均衡プレイの両方において，ミニマックス最適レートを初めて提供した。
- ゼロサムゲームと一般和ゲームの両方において，その結果がペイオフ推論の理論的基盤となる。
- オークション，価格設定，セキュリティゲームなど，多岐にわたる応用への展開が期待される。
Link: https://arxiv.org/abs/2602.04397
双方向バイアス帰属：プロンプトを変更せずに大規模言語モデルのバイアス軽減 [cs.CL, cs.AI]目的：大規模言語モデルにおけるステレオタイプを誘発する単語の検出と，ニューロンレベルのバイアス帰属
- 大規模言語モデルの利用拡大に伴い，公平性確保の重要性が高まっている。
- 既存のバイアス軽減手法は，スケーラビリティやユーザー体験を損なう場合がある。
- プロンプト変更やファインチューニングなしに，LLMのバイアスを直接軽減することを目指す。
- 提案手法は，比較分析によりステレオタイプを誘発する形容詞と名詞を特定する。
- 統合勾配に基づく2つの帰属戦略を用いて，特定のニューロンにバイアス行動を帰属させる。
- 実験の結果，提案手法はバイアスを効果的に軽減しつつ，モデル全体の性能を維持することが示された。
Link: https://arxiv.org/abs/2602.04398
拡散モデルにおける一般クラス構造における種分化転移の理論 [cs.LG, cond-mat.dis-nn]目的：拡散モデルにおける種分化の理論的解明
- 拡散モデルはデータ生成において重要な役割を担うため，その理論的理解が不可欠である。
- 従来の理論解析は，クラス識別が容易な場合に限定されており，より複雑な分布への適用が困難であった。
- 任意のクラス構造を持つ分布における種分化のメカニズムを解明し，理論的枠組みを拡張する。
- 本研究では，ベイズ分類を通じてクラス構造を形式化し，クラス間の自由エントロピー差に基づいて種分化時期を特徴付けた。
- この基準は，ガウス混合モデルの結果を再現しつつ，高次の特徴や集団的な特徴によってクラスが区別される状況にも適用可能である。
- アイジングモデルと共分散構造の異なるガウス分布を用いて理論の妥当性を検証し，解析的な結果を得た。
Link: https://arxiv.org/abs/2602.04404
分離と有用性のパレート最適フロンティア：情報理論的特徴付け [cs.LG, stat.ML]目的：分離と有用性の間のパレート最適フロンティアの特定
- 機械学習における公平性の確保は，社会的な影響を考慮する上で重要である。
- 予測モデルにおける，機密属性への依存性の排除が課題となっている。
- 有用性を損なわずに，予測の独立性を高める方法を確立する。
- 情報理論的アプローチにより，分離と有用性の間のトレードオフを厳密に特徴付けた。
- このフロンティアの凹性を証明し，分離の限界費用が増加することを示した。
- 条件付き相互情報量に基づく正則化項を提案し，実証実験で有効性を確認した。
Link: https://arxiv.org/abs/2602.04408
HoRD：履歴条件付き強化学習とオンライン蒸留によるロバストなヒューマノイド制御 [cs.RO, cs.LG]目的：ドメインシフト下におけるロバストなヒューマノイド制御のための学習フレームワーク
- ヒューマノイドロボットの汎用性は重要だが，わずかな環境変化で性能が低下しやすい。
- 従来の制御手法では，様々な環境やタスクへの適応が難しく，ロバスト性に課題がある。
- 履歴条件付き適応とオンライン蒸留を組み合わせ，未知の環境へのゼロショット適応を実現する。
- HoRDは，履歴条件付き強化学習により，多様なダイナミクスに適応する高性能な教師ポリシーを学習する。
- オンライン蒸留によって，教師ポリシーのロバストな制御能力を，疎な関節キーポイント軌跡を扱うTransformerベースの学生ポリシーに転送する。
- 実験の結果，HoRDは既存手法と比較して，特に未知のドメインや外乱下で優れたロバスト性と転移性能を示す。
Link: https://arxiv.org/abs/2602.04412
履歴に基づく反復型ビジュアル推論と自己修正 [cs.CL, cs.AI, cs.MM]目的：マルチモーダル大規模言語モデルにおける推論の信頼性向上
- 近年，画像とテキストを組み合わせたタスクが重要視されており，その性能向上が求められている。
- 既存手法では，過去の推論情報を活用せず，試行錯誤を繰り返すのみで，効率的な修正が困難である。
- 本研究は，過去の推論を参考にしながら，動的に誤りを修正する新しいフレームワークを提案する。
- 提案手法H-GIVRは，反復推論中に画像を複数回観察し，過去の回答を参考にすることで，エラーの動的修正を可能にする。
- 5つのデータセットと3つのモデルを用いた実験により，H-GIVRがクロスモーダル推論の精度を大幅に向上させることが示された。
- 例えば，ScienceQAデータセットにおいて，Llama3.2-vision:11bを用いて，ベースライン比107%の精度向上が確認された。
Link: https://arxiv.org/abs/2602.04413
Med-MMFL：医療におけるマルチモーダル連合学習ベンチマーク [cs.CV, cs.AI]目的：医療分野におけるマルチモーダル連合学習の標準的な評価
- 医療データの分散性とプライバシー保護の重要性から，連合学習への期待が高まっている。
- 既存の医療分野における連合学習ベンチマークは少なく，評価範囲も限定的である。
- 多様なモダリティ，タスク，フェデレーションシナリオを網羅するベンチマークを構築し，研究開発を促進する。
- Med-MMFLは，テキスト，画像，ECG，X線など10種類の医療モダリティを含む，初の包括的なマルチモーダル連合学習ベンチマークである。
- 6つの最新の連合学習アルゴリズムを，自然な分散環境，IID，非IID設定で評価し，セグメンテーション，分類，モダリティアラインメント，VQAタスクを網羅した。
- ベンチマークの実装，データ処理，分割パイプラインを公開し，今後の研究の再現性と公平な比較を支援する。
Link: https://arxiv.org/abs/2602.04416
EMAポリシー勾配：EMAアンカーとトップk KLによるLLM向け強化学習の制御 [cs.LG, cs.AI]目的：LLMに対するポリシー勾配アルゴリズムの改善
- 大規模言語モデルの能力向上には，複雑な推論やエージェントとしての振る舞いを獲得する強化学習が不可欠である。
- LLMの強化学習では，学習の安定性や効率が課題となっている。
- EMAアンカーとトップk KL推定器を用いることで，LLMの強化学習における性能向上を目指す。
- 提案手法EMA-PGは，既存手法GRPOと比較して，数学的推論においてOlympiadBenchで53.9%という高い正答率を達成した。
- また，質問応答タスクにおいて，EMA-PGはGRPOを平均33.3%改善し，HotpotQAでは29.7%から44.1%へと大幅な性能向上を示した。
- EMA-PGは，LLM向け強化学習のスケーリングにおいて，シンプルかつ効果的な手法である。
Link: https://arxiv.org/abs/2602.04417
SPEAR：スマートコントラクト監査のためのマルチエージェント連携の事例研究 [cs.MA, cs.AI, cs.DC, cs.ET, cs.SE]目的：スマートコントラクト監査におけるマルチエージェント連携フレームワーク
- ブロックチェーン技術の普及に伴い，スマートコントラクトの安全性確保が不可欠となっている。
- 従来のスマートコントラクト監査は，手動またはパイプライン方式であり，効率性と柔軟性に課題がある。
- エージェント連携による監査プロセスの自動化と，脆弱性発見時の迅速な復旧を目指す。
- SPEARは，リスクを考慮したヒューリスティックを用いて監査対象の優先順位付けを行う計画エージェントを備えている。
- タスクの割り当てにはContract Netプロトコルが用いられ，生成された成果物の脆弱性に対してはプログラムによる自動修復が行われる。
- 実験の結果，SPEARは連携，復旧，リソース利用の面で，集中型およびパイプライン方式よりも優れていることが示された。
Link: https://arxiv.org/abs/2602.04418
MaMa: 安全なエージェントシステムを設計するためのゲーム理論的アプローチ [cs.RO, cs.CL, cs.DB, cs.LG, cs.GT]目的：安全なエージェントシステムの自動設計
- LLMに基づくマルチエージェントシステムは発展が著しいが，安全性確保が課題となっている。
- エージェントの一部が故障したり，悪意のある行動をとる場合，システム全体の安全性が脅かされる。
- システム設計者が，攻撃に対する堅牢性と性能を両立する安全なシステムを構築することを目指す。
- 提案手法MaMaは，システム設計者と攻撃者の間のStackelbergセキュリティゲームを解くことで，安全なシステムを設計する。
- 実験結果から，MaMaで設計されたシステムは，最悪の攻撃に対しても高い耐性を示し，タスク遂行性能も維持できることが示された。
- 設計されたシステムは，より強力な攻撃者や異なる攻撃目標に対しても汎化し，訓練設定を超えた堅牢な安全性を実現する。
Link: https://arxiv.org/abs/2602.04431
ドップラーレーダー信号を用いたエコー状態ネットワークによるハンドジェスチャー認識 [cs.HC, cs.LG]目的：ドップラーレーダー信号からのハンドジェスチャー認識手法
- 人間とコンピュータのインタラクションにおいて，ハンドジェスチャー認識は重要な技術である。
- 従来の深層学習法は計算コストが高いという課題を抱えている。
- 計算効率の良い手法を用いて，車載インターフェースやロボットシステムへの応用を目指す。
- 提案手法は，Soliデータセットを用いた11クラスのハンドジェスチャー認識において既存手法を上回る性能を示した。
- Dop-NETデータセットを用いた4クラスのハンドジェスチャー認識においても，既存の深層学習モデルを上回る性能を達成した。
- マルチリザーバーESNによる並列処理が，時空間・時周波数領域の特徴マップからの時間パターン認識に有効であることが示された。
Link: https://arxiv.org/abs/2602.04436
汎用的な解決策はない：バシキール語，カザフ語，キルギス語，タタール語，チュヴァシ語への翻訳システムの構築 - 合成データとオリジナルデータを用いた [cs.CL, cs.AI, cs.LG]目的：5つのトルコ語ペアにおける機械翻訳
- 少数言語の言語資源は限られており，機械翻訳の構築が困難である。
- 既存の機械翻訳モデルは，これらの言語に対して十分な性能を発揮できない。
- 合成データとオリジナルデータを活用し，これらの言語への機械翻訳性能を向上させる。
- LoRAを用いたnllb-200-distilled-600Mのファインチューニングにより，カザフ語でchrF++ 49.71，バシキール語で46.94を達成した。
- DeepSeek-V3.2へのプロンプトによる類似事例の検索により，チュヴァシ語でchrF++ 39.47を達成した。
- タタール語ではゼロショットまたは検索ベースのアプローチでchrF++ 41.6，キルギス語ではゼロショットアプローチで45.6を達成した。データセットと学習済み重みを公開する。
Link: https://arxiv.org/abs/2602.04442
巨匠の混合：プレイヤールーティングによる疎なチェス言語モデル [cs.LG, cs.AI]目的：チェスにおける多様なプレイスタイルを再現する言語モデルの構築
- チェスAIの進化は，人間の戦略や思考パターンを理解する上で重要である。
- 既存の言語モデルは，多様なスタイルを失い，平均的な行動に陥りやすい。
- 巨匠のプレイスタイルを模倣することで，多様性と解釈可能性を高める。
- MoMは，複数の専門家モデル（GPT）を組み合わせることで，スタイルの均質化を防ぐ。
- ゲームの状態に応じて最適な専門家を選択するゲート機構を導入し，動的なスタイル変化を実現した。
- 標準的なゲームにおいて，Stockfishよりも優れた性能を示し，生成される手の多様性，制御性，解釈可能性を確保した。
Link: https://arxiv.org/abs/2602.04447
RASA：専門家混合モデルにおけるルーティングを考慮した安全性調整 [cs.LG, cs.AI, cs.CR]目的：専門家混合モデルの安全性調整
- 大規模言語モデルの安全性確保は，社会実装において不可欠であり，その重要性は増している。
- 専門家混合モデルは，ルーティング機構により安全性調整が難しく，最適化が不安定になりやすい。
- ルーティングを考慮し，安全性に重要な専門家のみを調整することで，安全性を高めることを目指す。
- RASAは，攻撃成功時の専門家活性化を識別し，固定ルーティング下で選択的に調整を行う。
- RASAは，ほぼ完璧な堅牢性，強力な汎化性能，過剰な拒否の減少を実現した。
- その結果，専門家レベルの調整が，全体的なパラメータ更新よりも効果的であることが示唆された。
Link: https://arxiv.org/abs/2602.04448
成長優先，配慮は後回し？日常の Dilemma における LLM の価値観の様相 [cs.CY, cs.AI, cs.CL]目的：LLM が様々な助言を求める状況において，いかに価値観のトレードオフをナビゲートするかという特性の把握
- 現代社会において，オンラインでの助言は重要性を増しており，LLM の役割も大きくなっている。
- 既存の助言システムは，単一の正解を提示するのではなく，複数の価値観間のトレードオフを伴う場合が多い。
- LLM の価値観の偏りが，助言における価値観の均質化を招き，意思決定に影響を与える可能性を明らかにすること。
- 助言を求める状況によって価値観のトレードオフ構造に大きな異質性が認められ，女性向け subreddit で最も複雑な価値衝突が見られた。
- LLM は，文脈やモデルに関わらず，一貫して「探求と成長」に関連する価値観を「慈悲と繋がり」よりも優先する傾向が示された。
- この価値観の偏りは，AI が仲介する助言における価値観の均質化というリスクを示唆し，大規模な意思決定や規範的結果への影響が懸念される。
Link: https://arxiv.org/abs/2602.04456
マイクロドメイン適応型事前学習は実運用に有効か？多段階評価による可能性と課題の解明 [cs.CL, cs.AI]目的：実運用における大規模言語モデルの有効性評価
- 企業運用では，特定の業務知識が不可欠であり，大規模言語モデルへの適用が求められている。
- 小規模な業務知識（マイクロドメイン）への適応において，既存手法の有効性が不明である。
- マイクロドメイン適応型事前学習の潜在能力と課題を，実運用タスクを通して明らかにすること。
- マイクロドメイン適応型事前学習は，基盤モデルが苦手とする知識抽出タスクを改善した。
- 推論や長文生成といった他のタスクについては，十分な改善は見られなかった。
- 知識抽出と推論タスクの解決が，高い性能（90%以上）を確保する上で重要であることが示唆された。
Link: https://arxiv.org/abs/2602.04466
車両分隊ネットワークにおけるLLMを活用した協調型コンテンツキャッシュ [cs.NI, cs.AI]目的：車両霧計算（VFC）支援分隊ネットワークにおけるコンテンツキャッシュの最適化
- 車両ネットワークにおける通信遅延の低減は，安全性向上や新しいサービスの提供に不可欠である。
- 従来のキャッシュ戦略では，動的なネットワーク環境と多様なコンテンツへの対応が課題であった。
- LLMを活用し，リアルタイムかつ知的なキャッシュ決定を行うことで，遅延を最小化する。
- 提案手法では，LLMがユーザープロファイル，履歴データ，コンテンツ特性などを考慮してキャッシュ決定を行う。
- 階層的な決定論的キャッシュマッピング戦略により，頻繁な再学習なしで適応的なリクエスト予測とコンテンツ配置が可能となる。
- シミュレーション結果から，提案キャッシュ方式の有効性が確認された。
Link: https://arxiv.org/abs/2602.04471
貪欲的Gnorm：注意エントロピーに対する勾配行列ノルムに基づく注意ヘッドプルーニングの代替手法 [cs.LG]目的：Transformerモデル圧縮のための注意ヘッドプルーニング手法
- AIの環境負荷軽減が重要視される中，モデルの効率化は不可欠である。
- 既存のプルーニング手法は静的な重要度スコアに依存し，ヘッドの役割変化に対応できない。
- 動的な重要度評価により，プルーニング中のヘッド役割の変化を捉え，精度低下を抑制する。
- 提案手法Greedy-Gnormは，BERT，ALBERTなど様々なモデルで高い圧縮率を達成した。
- 従来の注意エントロピーに基づく手法と比較して，精度劣化を最小限に抑えることが確認された。
- エネルギー効率の高いTransformerモデルの実現に貢献する可能性が示された。
Link: https://arxiv.org/abs/2602.04491
ReThinker：誘導的熟考と確信度制御による科学的推論 [cs.CL, cs.HC, cs.ET, cs.AI]目的：科学的推論の再考
- 大規模言語モデルの能力向上は，科学技術の発展に不可欠である。
- 既存モデルは，複雑な科学的推論タスクにおいて性能が低い。
- モデルの確信度に基づいた動的な計算資源配分により，推論能力を向上させる。
- ReThinkerは，既存の最先端モデルや深層学習システムを上回り，専門レベルの推論タスクで優れた結果を示した。
- Solver-Critic-Selectorアーキテクチャにより，情報検索，ツール使用，複数エージェントの推論を段階的に調整し，計算資源を効率的に配分する。
- 人間によるアノテーションを必要としない，逆データ合成パイプラインと適応的軌道リサイクル戦略を提案し，スケーラブルな学習を実現した。
Link: https://arxiv.org/abs/2602.04496
嗜好ベースおよび逆強化学習によるエージェントの価値観学習 [cs.CY, cs.AI, cs.LG]目的：エージェントの価値観システムの推定
- 合意形成技術は，人間を代理する自律エージェント間の相互作用において重要性を増している。
- 異なるユーザーの価値観の違いや，価値の定義の難しさから，倫理的な合意形成が課題となっている。
- 人間の観察とデモンストレーションから価値観システムを自動的に学習する手法を開発し，課題解決を目指す。
- 本研究では，価値観学習問題を形式化し，多目的マルコフ決定過程に基づいたモデルを提案した。
- 嗜好ベースおよび逆強化学習アルゴリズムを用いて，価値の根拠関数と価値観システムを推測する手法を開発した。
- シミュレーションによる評価を通して，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2602.04518
SLUM-i：インフォーマル居住地の都市マッピングとデータ品質ベンチマーキングのための半教師あり学習 [cs.CV, cs.AI]目的：インフォーマル居住地の都市マッピングのための半教師あり学習手法の開発と，データ品質の評価
- 発展途上国の都市部ではインフォーマル居住地が拡大しており，そのマッピングは都市計画や災害対策において重要である。
- アノテーション不足に加え，建物構造の類似性やアノテーションノイズにより，高品質なマッピングが困難である。
- 本研究は，限られたアノテーションとデータ品質の問題を克服し，より正確なインフォーマル居住地のマッピングを実現することを目指す。
- パキスタン（ラホール，カラチ）とインド（ムンバイ）を含む合計8都市のデータセットを構築し，データ品質評価を実施した。
- クラス不均衡や特徴劣化を軽減する新しい半教師ありセグメンテーションフレームワークを提案し，既存手法を上回る性能を示した。
- ソースラベルの10%で学習したモデルが，未知の地域でフル教師ありモデルのゼロショット汎化性能を上回る高いドメイン転移能力を実証した。
Link: https://arxiv.org/abs/2602.04525
ランドスケープを考慮した自動アルゴリズム設計：実世界最適化のための効率的なフレームワーク [cs.NE]目的：実世界最適化問題に対する高性能アルゴリズムの発見
- 近年，大規模言語モデルの発展により自動アルゴリズム設計の可能性が広がり，最適化問題解決への期待が高まっている。
- 既存手法は，探索の指針を得るために問題の評価を多く必要とし，評価コストが高い実世界問題には適用が困難である。
- 本研究は，評価コストを削減しつつ，実世界問題でも有効なアルゴリズムを効率的に探索することを目的とする。
- 提案手法では，遺伝的プログラミングとLLM駆動の進化アルゴリズム設計者を組み合わせ，プロキシ関数と実問題のランドスケープ特性の類似性に基づいて探索方向を決定する。
- その結果，実世界問題の評価回数を大幅に削減しつつ，高性能なアルゴリズムを発見できることが複数の問題で示された。
- 本研究は，計算コストの高い実世界最適化問題へのLLMベースの自動アルゴリズム設計応用の道を開く。
Link: https://arxiv.org/abs/2602.04529
連合学習における汎化のための反復適応：汎化を忘れない [cs.LG]目的：連合学習における汎化性能の向上
- Web環境は多様であり，プライバシー保護と分散学習の重要性が高まっている。
- 現実のWebシステムでは，クライアント間のデータ分布の非IID性が課題となっている。
- 非IIDデータ分布下での連合学習の汎化性能低下を解決することを目指す。
- 提案手法Iterative Federated Adaptation (IFA)は，世代ごとにモデルパラメータを再初期化することで，局所最適解からの脱出とグローバルな表現の維持を可能にする。
- CIFAR-10，MIT-Indoors，Stanford Dogsデータセットを用いた実験により，IFAがデータがNon-IIDな状況下でグローバルな精度を向上させることが示された。
- 平均して21.5%の精度向上が確認され，現実のWebシステムにおけるスケーラブルでプライバシー保護されたインテリジェンスの実現に貢献する。
Link: https://arxiv.org/abs/2602.04536
LycheeDecode：ハイブリッドヘッド疎なデコードによる長文脈LLM推論の加速 [cs.CE, cs.HC, cs.CL, cs.CL, cs.AI]目的：長文脈LLM推論における効率化手法
- 大規模言語モデルの長文脈処理能力は重要だが，計算コストが課題となっている。
- キー・バリューキャッシュの肥大化が，メモリ使用量と遅延の増加を引き起こしている。
- アテンションヘッドの機能的多様性を維持しつつ，計算効率を向上させることを目指す。
- LycheeDecodeは，Llama3やQwen3といった主要モデルにおいて，フルアテンションベースラインと同等かそれ以上の生成品質を達成した。
- 128Kの文脈長において，最大2.7倍の高速化を実現し，効率的な推論を可能にした。
- ハードウェア効率の良いtop-k選択戦略と，動的に重要なトークンを識別するリトリバーヘッドが，性能向上に貢献している。
Link: https://arxiv.org/abs/2602.04541
制御最小化による継続学習 [cs.LG, cs.AI]目的：継続学習における課題解決
- 機械学習の応用範囲拡大には，新たなタスクへの適応能力が不可欠である。
- 逐次的にタスクを学習する際，以前学習した内容を忘却する「破滅的忘却」が問題となる。
- 過去の知識を保持しつつ，効率的に新たなタスクを学習する手法を確立すること。
- 継続学習を制御問題として再構築し，学習と知識保持のバランスをとることで，破滅的忘却を抑制した。
- 正則化項を知識保持信号として利用し，以前のタスク表現を保護しながら新しいタスクを統合する。
- 本手法は既存手法を上回り，明示的な曲率保存なしで過去タスクの曲率を回復し，タスク識別を可能にした。
Link: https://arxiv.org/abs/2602.04542
OmniRad：マルチタスク医療画像解析のための放射線学的基盤モデル [cs.SI, cs.CL, cs.CY, cs.IR, cs.CV, cs.AI]目的：マルチタスク医療画像解析を支援する放射線学的基盤モデル
- 医療画像診断の精度向上は，患者ケアの質に直結する重要な課題である。
- 既存モデルは，異なる画像モダリティやタスクへの汎用性に課題があった。
- 多様な画像モダリティとタスクで高い性能を発揮する基盤モデルを構築する。
- OmniRadは，120万枚の医療画像で自己教師あり学習を行うことで，優れた表現を獲得した。
- MedMNISTv2の分類タスクにおいて，既存の基盤モデルと比較してF1スコアが最大2.05%向上した。
- MedSegBenchのセグメンテーションタスクにおいても，固定された表現を用いた場合に平均Diceスコアが向上した。
Link: https://arxiv.org/abs/2602.04547
図式展開を通る勾配フロー：学習レジームと厳密解 [cs.LG, stat.ML]目的：大規模学習問題における勾配フローのスケールレジーム分析と厳密な解析解の導出
- 機械学習モデルの性能向上には，学習プロセス自体の理解が不可欠である。
- 大規模な学習問題では，勾配フローの解析が困難であり，学習の理論的理解が遅れている。
- 複雑な学習レジームを明らかにし，勾配フローの厳密解を提供することで，学習プロセスの理解を深める。
- 損失関数の時間発展を記述する形式的な級数展開を導入し，その極限を解析することで，異なる学習相を明らかにした。
- Canonical Polyadic (CP) 分解を例に，フリーエボリューション，NTK，平均場など，多様な勾配フローのレジームが存在することを示した。
- 損失関数の級数展開を偏微分方程式に帰着させるアプローチを提案し，特性解法による解析解の可能性を示した。理論予測と実験結果の良好な一致も確認された。
Link: https://arxiv.org/abs/2602.04548
継続学習における構造の発見 [cs.LG]目的：継続学習における安定性と可塑性のバランス
- 機械学習の応用範囲拡大に伴い，継続学習の重要性が増している。
- 過去知識の忘却（破滅的忘却）が，継続学習の大きな課題となっている。
- 従来の複雑な手法に頼らず，安定性と可塑性のバランスを効率的に実現する。
- ダグラス・ラチフォード分割法(DRS)を用いることで，継続学習の目的関数を再構築した。
- DRSは，可塑性と安定性を直接的なトレードオフではなく，交渉として捉える。
- 補助モジュールや複雑な追加機能なしに，シンプルかつ強力な継続学習パラダイムを提供した。
Link: https://arxiv.org/abs/2602.04555
重みタイイングの再考：安定したLM学習と更新のための擬似逆行列タイイング [cs.CL, cs.LG]目的：言語モデルの学習安定性と更新性能の向上
- コンパクトな言語モデルにおいて，パラメータ削減は重要な課題である。
- 従来の重みタイイングでは，トークン埋め込みと出力射影間の対応が不安定になる。
- 擬似逆行列タイイングにより，学習中のトークンインターフェースの安定化を目指す。
- 擬似逆行列タイイングは，共有された潜在トークンメモリを用いて埋め込みとアンエンベディングを同期させる。
- 実験の結果，学習安定性の向上，層ごとの意味的一貫性の強化，副作用の軽減が確認された。
- 教師あり初期化またはランダムな直交初期化により，共有メモリを直交行列で維持する。
Link: https://arxiv.org/abs/2602.04556
デュアルマインドワールドモデルに基づくネットワークデジタルツインによるアクセススケジューリング [cs.NI, cs.AI, cs.MA]目的：アクセススケジューリングのためのデジタルツインフレームワーク
- 産業用IoTやサイバー物理システム等の発展に伴い，動的なトラフィックに対応した知能的なスケジューリングが重要である。
- 従来のルールベースやデータ駆動型ポリシーでは，将来の状態予測や適応的な意思決定に限界がある。
- デュアルマインドワールドモデルを活用し，予測とモデルベースの展開を組み合わせることで，より高度なスケジューリングを実現する。
- 提案手法は，バーストトラフィック，干渉，締め切りが厳しい環境において，従来のヒューリスティックや強化学習よりも優れた性能を発揮する。
- ネットワークレベルでの推論と低コストな学習を組み合わせることで，スケーラブルで適応的なネットワーク最適化に貢献する。
- 解釈可能性とサンプル効率を維持しつつ，将来のネットワーク状態を予測し，伝送決定を調整する。
Link: https://arxiv.org/abs/2602.04566
競争から協調へ：LLMとオンラインフォーラム間の持続可能なメカニズムの設計 [cs.IR, cs.CY, eess.SY, cs.SY, math.OC, cs.CL, cs.AI, cs.GT]目的：LLMとオンラインフォーラム間の持続可能な協調メカニズム
- 知識共有の場としてのオンラインフォーラムの重要性が高まっている。
- 生成AIがフォーラムからユーザーを奪う一方，学習データに依存している。
- AIと人間の知識プラットフォーム間の持続可能な協調を目指す。
- 生成AIがフォーラムに質問を提案し，一部を掲載する逐次的な相互作用の枠組みを提案した。
- シミュレーションの結果，インセンティブのずれが実証された。
- 完全情報下での理想的な状況と比較して，約半分の利得が得られることが示された。
Link: https://arxiv.org/abs/2602.04572
確率的ラベル伝播：グラフ上での認識的不確実性を含むソフトラベルの効率的かつ一貫性のある推定 [cs.LG]目的：ソフトラベルと認識的不確実性の推定
- AIの安全性確保は重要課題であり，高品質なラベル付きデータが不可欠である。
- ラベル自体に不確実性が含まれるものの，無視されることが多い。
- ラベル伝播によって，少ないアノテーション労力で不確実性を推定する。
- 提案手法は，ラベルの信頼性のある推定を可能にする。
- ラベル伝播は，データポイント当たりのアノテーション数がゼロに近づいても一貫した確率推定器を提供する。
- データセントリック画像分類ベンチマークにおいて，最先端の結果を達成した。
Link: https://arxiv.org/abs/2602.04574
Vibe AIGC：エージェントによるオーケストレーションを通じた新たなコンテンツ生成パラダイム [cs.AI]目的：コンテンツ生成のための新たなパラダイム
- 生成AI技術の進展は目覚ましいが，その利用には課題が残る。
- 従来のモデル中心のアプローチでは，意図と実行のギャップが顕著である。
- Vibe AIGCは，このギャップを埋め，AIの創造性を引き出すことを目指す。
- 本研究では，Vibe Codingに着想を得たVibe AIGCという新たなパラダイムを提案する。
- ユーザーは「Vibe」と呼ばれる高レベルな表現を提供し，AIはそれを実行可能なエージェントパイプラインに変換する。
- これにより，AIは単なる推論エンジンから，システムレベルのエンジニアリングパートナーへと進化する可能性がある。
Link: https://arxiv.org/abs/2602.04575
典型を信頼せよ [cs.CL, eess.SY, cs.SY, cs.IR, cs.CL, cs.CL, cs.AI, cs.DC, cs.LG]目的：言語モデルの安全性確保のための新たな枠組み
- 大規模言語モデルの安全性は，社会実装において不可欠であり，その重要性は増している。
- 既存の安全性確保手法は，既知の脅威への対処に終始し，未知の脅威には脆弱である。
- 安全なプロンプトの分布を学習し，逸脱を検出することで，未知の脅威にも対応可能な安全性確保を目指す。
- 「Trust The Typical (T3)」は，有害な例を必要とせず，18のベンチマークで最先端の性能を達成した。
- 専門的な安全モデルと比較して，誤検知率を最大40倍削減することに成功した。
- 安全な英語テキストのみで学習したモデルが，多様なドメインと14以上の言語に効果的に転移する。
Link: https://arxiv.org/abs/2602.04581
加速型ニューロモルフィックハードウェアにおけるアナログ信号のリアルタイム処理 [cs.NE]目的：アナログ信号のリアルタイム処理手法
- 低消費電力で効率的なセンサ処理が求められており，ニューロモルフィックシステムが注目されている。
- 従来のシステムでは，信号のデジタル変換が必要で，消費電力や処理速度が課題となっていた。
- アナログ信号を直接処理することで，変換過程を省略し，効率的な近接センサ処理を実現する。
- BrainScaleS-2プラットフォームを用いて，マイクロホンやサーボモーターを直接接続し，アナログ信号の直接注入を実証した。
- 間欠聴差を空間コードに変換し，音源の位置予測を行うスパイクニューラルネットワークを実装した。
- 音源の局所化とサーボモーターの制御をリアルタイムで実現する，チップ上での完全な処理パイプラインを構築した。
Link: https://arxiv.org/abs/2602.04582
VILLAIN at AVerImaTeC：マルチエージェント協調による画像とテキストの主張の検証 [cs.CL, cs.AI, cs.CY]目的：画像とテキストの主張検証のためのマルチエージェント協調システム
- 画像とテキストの組み合わせによる誤情報拡散が深刻化しており，その検証技術が不可欠である。
- 既存手法では，複雑な主張の検証において，証拠の解釈や矛盾の特定が困難である。
- 複数のエージェントによる協調を通して，より正確で信頼性の高い検証を実現する。
- 本システムVILLAINは，AVerImaTeCタスクにおいて，プロンプトベースのマルチエージェント協調を用いて画像とテキストの主張を検証する。
- テキストおよび視覚的証拠を収集し，エージェントが分析レポートを生成することで，主張の検証を行う。
- 評価指標において，リーダーボードで最高位を獲得し，その有効性が示された。
Link: https://arxiv.org/abs/2602.04587
制約付き強化学習における確率的決定地平線 [cs.AR, cs.HC, cs.LG]目的：制約付きマルコフ決定過程における効率的な学習手法
- 安全性の確保等，強化学習における制約条件の重要性が増している
- 既存手法では，オフポリシー学習のスケーラビリティが課題となっている
- 制約違反を考慮した報酬減衰と計画地平線の短縮により，学習効率を向上させる
- 確率的決定地平線に基づくControl as Inferenceにより，制約下での学習が可能となった
- 吸収的終端と仮想的終端という2つの違反セマンティクスを提案し，SAC/MPO形式のポリシー改善を実現した
- 標準的なベンチマークにおいて，サンプル効率と報酬-違反のトレードオフの改善が確認された
Link: https://arxiv.org/abs/2602.04599
RexBERT：Eコマース向けコンテキスト特化双方向エンコーダ [cs.CL, cs.CL, cs.AI]目的：Eコマースのセマンティクスに特化したBERTスタイルのエンコーダの開発
- 検索，分類，ランキングシステムにおいて，低遅延性，安定性，コストが重要視されるため，エンコーダは不可欠である。
- 汎用エンコーダは，専門領域のカバー範囲が限られた汎用コーパスで学習されることが多く，Eコマースのような特定ドメインへの適応が課題となる。
- Eコマースのデータに特化した高品質な学習データと適切な学習手法により，性能向上を目指す。
- 3500億トークンからなるEコマース専用コーパス「Ecom-niverse」を構築し，公開した。
- 汎用エンコーダと比較して，パラメータ数を2-3倍削減しながらも，Eコマースのベンチマークにおいて同等またはそれ以上の性能を達成した。
- 高品質なドメイン固有データと原理に基づいた学習アプローチが，無分別なスケーリングよりもEコマースアプリケーションに適していることを示した。
Link: https://arxiv.org/abs/2602.04605
Focus-LIME：大規模言語モデルの長文コンテキストにおける手術的解釈のためのプロキシベース近傍選択 [cs.CL, cs.LG]目的：大規模言語モデルの長文コンテキストにおける手術的解釈の実現
- 法的監査やコードデバッグなど，高リスクなタスクにおいて，モデルの解釈可能性は重要である。
- 既存手法では，高次元な特徴量により，特徴量に基づく解釈が希薄化し，正確な説明が困難である。
- Focus-LIMEは，プロキシモデルを用いて解釈可能性を向上させ，高精度な説明を可能にする。
- Focus-LIMEは，粗い段階から細かい段階へと解釈を行うことで，手術的解釈の実現性を高めた。
- 実験結果から，Focus-LIMEは長文コンテキストにおける解釈を正確に行うことが示された。
- 提案手法は，ユーザーに信頼できる説明を提供することが確認された。
Link: https://arxiv.org/abs/2602.04607
ヤコビアン正則化がニューラル微分方程式の長期積分を安定化する [cs.LG]目的：ニューラル微分方程式の長期積分における安定性の向上
- 物理システムのモデリングにおいて，ハイブリッドモデルやニューラル微分方程式の重要性が増している。
- 長期積分において，安定性や精度に関する問題が発生しやすい。
- 短い訓練ロールアウトでも長期積分を安定化させる手法を開発すること。
- ニューラル微分方程式モデルのヤコビアンを，その方向微分を用いて正則化することで，長期積分が安定化することを示した。
- 既知の動力学と未知の動力学の双方に対して，異なる正則化手法を設計し，その有効性を確認した。
- 提案手法は，長いロールアウトと比較して計算コストが低く，様々な常微分方程式および偏微分方程式において，長期シミュレーションの安定性を向上させた。
Link: https://arxiv.org/abs/2602.04608
気候変動下におけるレジリエントな負荷予測：Few-Shot極端負荷予測のための適応的条件付きニューラルプロセス [cs.LG, cs.SY, eess.SY]目的：極端な気象条件下での負荷予測精度の向上
- 電力供給の安定運用には，正確な負荷予測が不可欠である。特に異常気象時の需要変動に対応する必要がある。
- 極端な事象は負荷パターンに急激な変化をもたらすが，関連するサンプルは稀であり，学習と校正が困難である。
- 少ない極端なサンプルからでも，変化する負荷パターンに迅速に適応できる予測モデルを構築すること。
- 提案手法AdaCNPは，過去の類似データに基づいて現在の条件を評価し，文脈情報を再重み付けすることで，稀な極端なサンプルでも高い予測精度を実現した。
- 実データを用いた評価により，AdaCNPは既存手法と比較して，極端な状況下での平均二乗誤差を22%削減し，より信頼性の高い確率的予測を出力することが示された。
- AdaCNPは，分布の急激な変化と稀な極端サンプルの両方に対処することで，異常気象下における電力システム運用のレジリエンス向上に貢献する。
Link: https://arxiv.org/abs/2602.04609
AIにおける人間中心のプライバシーアプローチ [cs.CL, cs.HC, cs.AI, cs.CR, cs.LG]目的：人間中心AIにおけるプライバシー保護の枠組み
- AI技術の発展は社会に恩恵をもたらす一方，倫理的課題が重要視されている。
- AI開発ライフサイクル全体でプライバシーリスクが顕在化しており，対策が急務である。
- 技術，倫理，人間要因の視点から統合的なプライバシー保護策を提案し，AIの信頼性を高める。
- 本研究は，AI開発各段階におけるプライバシーリスクを特定し，その影響を包括的に示した。
- 連合学習や差分プライバシーといったプライバシー保護技術の導入可能性を検討した。
- ユーザーのメンタルモデルや法規制，倫理的観点を考慮した設計指針を提示し，人間中心のプライバシーフレームワークを構築した。
Link: https://arxiv.org/abs/2602.04616
QUATRO：LLMファインチューニングのためのクエリ適応型信頼領域方策最適化 [cs.CL, cs.LG]目的：LLMのファインチューニングにおけるクエリ適応型信頼領域方策最適化
- 近年，LLMの性能向上にRLによるファインチューニングが注目されている。
- 既存手法では，重要度比率のクリッピングが不安定な最適化を招く場合がある。
- 本研究は，信頼領域制約を直接適用し，安定した最適化を目指す。
- QUATROは，原理に基づいた最適化により，明確で解釈可能な目的関数を実現した。
- これにより，方策更新を明示的に制御し，安定したエントロピー制御最適化を可能にした。
- 数学的推論ベンチマークにおいて，QUATROは高い学習安定性とエントロピー制御性能を示した。
Link: https://arxiv.org/abs/2602.04620
WideSeek-R1：マルチエージェント強化学習による広範な情報探索のための幅の拡大 [cs.RO, cs.CC, cs.CL, cs.RO, cs.HC, cs.AI, cs.LG, cs.MA]目的：広範な情報探索のための幅の拡大
- LLMの発展は目覚ましいが，複雑なタスク遂行には組織能力が不可欠である。
- 既存のマルチエージェントシステムは，並列処理が困難な手動ワークフローに依存している。
- 幅の拡大によって，組織能力を向上させ，広範な情報探索を効率化すること。
- WideSeek-R1-4Bは，WideSearchベンチマークで40.0%の項目F1スコアを達成し，DeepSeek-R1-671Bと同等の性能を示した。
- 並列サブエージェントの数が増加するにつれて，WideSeek-R1-4Bの性能は一貫して向上し，幅の拡大の有効性が示された。
- WideSeek-R1は，大規模言語モデルの組織化能力を強化する新たなアプローチを提供する。
Link: https://arxiv.org/abs/2602.04634
RIGA-Fold: 再帰的相互作用と幾何学的認識によるタンパク質逆フォールディングの汎用的なフレームワーク [cs.RO, cs.LG]目的：タンパク質逆フォールディングの汎用的なフレームワーク
- タンパク質設計は，創薬や新機能を持つ生体材料の開発に不可欠である。
- 既存手法は，長距離依存性の捉えにくさや，誤差の蓄積が課題となっていた。
- 長距離依存性を捉え，誤差蓄積を抑制するフレームワークの構築を試みる。
- RIGA-Foldは，再帰的相互作用と幾何学的認識を組み合わせたフレームワークである。
- 幾何学的注意機構により，厳密なSE(3)不変性を保証した局所エンコーディングを実現した。
- RIGA-Fold*は，既存の最先端手法よりも高い配列回復率と構造的一貫性を示した。
Link: https://arxiv.org/abs/2602.04637
ソフトウェアエンジニアリングエージェントのための構造化，状態認識，実行に基づいた推論 [cs.SE, cs.AI]目的：ソフトウェアエンジニアリングエージェントの推論能力の向上
- ソフトウェア開発の効率化と品質向上に貢献するエージェント技術の重要性が高まっている。
- 既存のエージェントは反応型であり，長期的な推論や状況への適応が困難である。
- 構造化，状態認識，実行に基づいた推論により，より一貫性のある信頼性の高い推論を実現する。
- 現在のソフトウェアエンジニアリングエージェントは，会話履歴と最新の応答に依存する反応的な設計である。
- 本研究では，明示的な構造，永続的な状態，実行に基づくフィードバックの統合が，長期的なタスクにおいてより優れた推論を可能にすると論じる。
- 次世代のエージェント開発に向けた初期的なロードマップを提示し，実世界のタスクにおける有効性を高めることを目指す。
Link: https://arxiv.org/abs/2602.04640
多解像度結合埋め込み予測アーキテクチャによる時系列異常予測 (MTS-JEPA) [cs.LG]目的：時系列異常予測の性能向上
- 現代の重要インフラを支える多変量時系列データの活用が不可欠であり，異常予測はリスク軽減に重要である。
- 従来のJEPAアーキテクチャでは，表現の崩壊や様々な時間スケールの先行信号の捕捉が課題となっていた。
- 多解像度予測とソフトコードブックボトルネックを統合し，安定した最適化と早期警告性能の向上を目指す。
- 提案手法MTS-JEPAは，過渡的な衝撃と長期トレンドを明確に分離することで，退化的な解の生成を抑制することを示した。
- ソフトコードブックは，離散的な状態遷移を捉え，最適化の安定化に寄与する内在的な正則化としての役割を果たす。
- 標準的なベンチマークデータセットにおける評価により，MTS-JEPAが最先端の性能を達成し，早期警告プロトコル下で有効であることが確認された。
Link: https://arxiv.org/abs/2602.04643
SAFE：エントロピーを考慮した予測制御による安定したアラインメントファインチューニング [cs.RO, cs.CL, cs.LG]目的：強化学習による人間のフィードバック (RLHF) のための安定したアラインメント手法
- 大規模言語モデルの性能向上には，人間のフィードバックを活用したRLHFが不可欠である。
- 従来のRLHF手法は，報酬の変動やエントロピーの崩壊といった問題に直面し，調整が困難である。
- 報酬の安定性と学習の高速化を両立する，より堅牢なRLHFフレームワークを開発する。
- 提案手法SAFEは，PPOと比較して，学習平均報酬が+5.15%向上した。
- 報酬の急激な減少が抑制され，KL制御の安定性も向上した。
- 計算コストの増加は最小限で，実運用に適した解釈可能なフレームワークである。
Link: https://arxiv.org/abs/2602.04651
LLMチャットテンプレートにおける隠れた指示を通じた推論時バックドア [cs.DC, cs.CR, cs.LG]目的：LLMチャットテンプレートを悪用した推論時バックドア攻撃の可能性
- オープンウェイトLLMの利用拡大に伴い，セキュリティ課題が顕在化している。
- 従来のバックドア攻撃は，学習パイプラインやインフラへのアクセスを前提としていた。
- チャットテンプレートという新たな攻撃対象を提示し，モデル変更なしにバックドアを埋め込む手法を検討する。
- 悪意のあるテンプレートを使用することで，モデルの重みを変更することなく推論時にバックドアを埋め込むことが可能となった。
- 実験の結果，ファクトチェックの精度が大幅に低下し，攻撃者が制御するURLの発行成功率が80%を超えた。
- このバックドアは，推論ランタイムやセキュリティスキャンを回避し，LLMサプライチェーンの新たな脆弱性となる。
Link: https://arxiv.org/abs/2602.04653
拡散モデルに対する強化学習のデザイン空間の再考：損失設計を超えた尤度推定の重要性 [cs.CL, cs.LG, cs.AI]目的：拡散モデルにおける強化学習のデザイン空間の体系的な分析
- 画像生成等の視覚タスクにおいて，拡散モデルへの強化学習の応用が盛んである。
- 拡散モデルは尤度が扱いにくいため，既存手法はLLMの目的関数に依存した手法に偏っている。
- 尤度推定がアルゴリズム全体の性能に与える影響を調査し，効率的な最適化を実現する。
- 最終生成サンプルのみから計算されるELBOに基づく尤度推定器が，強化学習の最適化において最も重要な要素であることが示された。
- 異なる報酬ベンチマークにおいて一貫した傾向が確認され，SD 3.5 Mediumを用いた実験で有効性が検証された。
- 90 GPU時間でGenEvalスコアを0.24から0.95に向上させ，FlowGRPOの4.6倍，DiffusionNFTの2倍の効率を実現した。
Link: https://arxiv.org/abs/2602.04663