arXiv雑要約

AI - 2026/02/04 公開

バイレベルルーティング混合エキスパートによる継続学習のスケーラビリティ向上 [cs.LG, cs.CV]目的：継続学習におけるスケーラビリティ向上
- 事前学習モデルを活用した継続学習は重要性が増している。
- 長期的なタスクシーケンスにおいて，安定性と可塑性を両立した学習が困難である。
- 本研究は，多数のタスクに対応可能な継続学習手法を開発する。
- 提案手法CaREは，バイレベルルーティング混合エキスパート(BR-MoE)を導入し，タスク固有のルーターとエキスパートを動的に活用する。
- CaREは，様々なデータセットとタスク設定で既存手法を大きく上回り，優れた性能を示す。
- 特に，100～300以上のタスクシーケンスに対応可能なスケーラビリティが確認された。
Link: https://arxiv.org/abs/2602.03473
ScDiVa：シングル細胞アイデンティティと発現の同時モデリングのためのマスクされた離散拡散 [cs.DC, cs.HC, cs.LG, cs.AI, q-bio.GN]目的：シングル細胞のアイデンティティと発現の同時モデリング
- シングル細胞解析は，疾患理解や個別化医療に不可欠であり，近年急速に進展している。
- シングルセルRNA-seqデータは高次元で疎であり，自己回帰モデルでは順序依存性や誤差蓄積が生じやすい。
- データの特性に合わせた新たなモデルを構築し，より正確なシングル細胞解析を実現すること。
- マスクされた離散拡散モデルScDiVaは，ドロップアウト過程に基づき，データ生成の順序依存性を克服する。
- ScDiVaは，離散的な遺伝子アイデンティティと連続的な発現量を同時モデリングすることで，情報効率と細胞アイデンティティの維持を両立する。
- 大規模データセットでの事前学習により，バッチ統合，細胞タイプ注釈，摂動応答予測など，複数のベンチマークで高い性能を示した。
Link: https://arxiv.org/abs/2602.03477
ルーティング崩壊時：LLMルーティングの退化的な収束について [cs.AI]目的：LLMルーティングにおけるルーティング崩壊現象の分析と改善
- LLMの利用コストを抑えつつ性能を維持することが重要視されているため。
- 既存のルーティング手法では，コストが増加しても高価なモデルに偏る問題がある。
- モデル選定の決定と予測の間のギャップを埋め，小型モデルの活用を促進する。
- 既存のルーティング手法において，コスト予算が増加すると高価なモデルに偏る「ルーティング崩壊」という現象が確認された。
- 提案手法EquiRouterは，モデルのランキングを直接学習することで，ルーティング崩壊を緩和し，小型モデルの活用を促進する。
- RouterBenchでの評価において，EquiRouterは既存の最良手法と比較して，GPT-4レベルの性能を維持しつつ約17\%コストを削減した。
Link: https://arxiv.org/abs/2602.03478
自己検証のジレンマ：LLM推論における過剰な再検証の経験に基づく抑制 [cs.CL, cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける推論の効率化と精度維持
- 大規模言語モデルの推論能力は，複雑な問題解決に不可欠であり，その性能向上はAI研究の重要な課題である。
- 自己検証は有用だが，無駄に繰り返されることが多く，計算資源の浪費や推論速度の低下を招く可能性がある。
- 過去の検証結果を活用し，不要な再検証を抑制することで，効率的な推論を実現することを目指す。
- 提案手法は，過去の検証経験を参照することで，不要な再検証を検出し，抑制信号を送ることでトークン使用量を削減する。
- 複数のモデルとベンチマークにおいて，トークン使用量を最大20.3%削減しつつ，精度を維持，または向上させることを確認した。
- この手法は，大規模言語モデルの推論効率を向上させるための有効な手段となり得る。
Link: https://arxiv.org/abs/2602.03485
DeepDFA：系列サブシンボリック応用における深層学習への時間論理の注入 [cs.LG, cs.AI]目的：深層学習への時間論理の統合
- 深層学習は強力だが，論理的知識との統合が課題。特に時系列データにおける応用が重要。
- 従来の深層学習では，時間的な制約や規則を明示的に扱うことが困難である。
- 深層学習に時間論理を注入し，サブシンボリックデータにおける推論能力を向上させる。
- DeepDFAは，決定性有限オートマトンを用いて，時間論理を深層学習モデルに統合する。
- 画像シーケンス分類や非マルコフ環境における方策学習において，既存モデルを凌駕する性能を示した。
- サブシンボリック学習とシンボリック推論の融合に貢献し，時系列タスクへの応用可能性を示唆している。
Link: https://arxiv.org/abs/2602.03486
予測的系列モデルにおける創発的な経路積分と物体位置の束縛 [cs.LG, q-bio.NC]目的：予測的系列モデルにおける経路積分と物体位置の束縛の創発
- 適応的な認知には，物体とその関係性を構造化した内部モデルが不可欠である。
- 予測型ニューラルネットワークが「世界モデル」を形成するとされるが，そのメカニズムは不明である。
- 行動条件付きの系列予測で世界モデルが学習可能か，そのメカニズムの解明。
- 系列学習において予測精度が向上し，文脈内学習が示された。
- デコード解析により，経路積分と物体識別子と位置の動的な束縛が明らかになった。
- 介入解析により，新しい束縛が学習可能であり，分布外の束縛も学習できることが示された。
Link: https://arxiv.org/abs/2602.03490
最小限だが最後ではない：より良い性能-忘却のトレードオフのための中間主成分の微調整 [cs.LG]目的：低ランク適応における性能と忘却のトレードオフの分析
- 大規模事前学習モデルの活用は重要だが，計算資源の制約がある。
- 低ランク適応では，タスク固有の性能向上と事前学習知識の忘却のバランスが課題。
- 中間主成分の微調整によって，このトレードオフを改善し，ロバスト性を高める。
- 主成分を初期値として用いる低ランク適応において，中間成分の微調整が最もバランスが良いことが示された。
- 提案手法は，既存手法よりも高い学習率に対してロバストであり，精度向上と忘却の軽減を実現した。
- コンピュータビジョンと自然言語処理の多様なタスク，および継続学習シナリオで有効性が確認された。
Link: https://arxiv.org/abs/2602.03493
DALI：ローカルPCにおける効率的なMoE推論のためのワークロードを意識したオフローディングフレームワーク [cs.DC, cs.LG]目的：ローカルPC上での効率的なMoE推論
- 大規模言語モデルの性能向上には，MoEアーキテクチャが不可欠である。計算量の増加を抑えつつ，モデルの表現力を高める。
- 既存のオフローディング手法は，ワークロードの動的な変化に対応できず，CPUとGPUのリソース利用効率が低い。
- DALIは，ワークロードに応じて専門家をCPU/GPUに動的に割り当てることで，リソース利用効率の改善を目指す。
- DALIは，MoE専門家をCPUまたはGPUに動的に割り当てることで，CPU-GPU負荷のバランスを改善し，リソースの利用効率を向上させる。
- 残差ベースのプレフェッチング手法により，高ワークロードの専門家を正確に予測し，無駄なプレフェッチを削減する。
- ワークロードを意識したキャッシュ置換ポリシーにより，GPUキャッシュのヒット率を向上させ，推論速度を向上させる。
Link: https://arxiv.org/abs/2602.03495
拡散LLMの先読みパス尤度最適化 [cs.LG]目的：拡散LLMにおける尤度経路の最適化
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 既存手法では，局所的な自信度に基づいて経路を選択するため，全体的な精度が低い。
- 本研究は，全体的な精度と一貫性を向上させる経路選択手法の確立を目指す。
- Path LLは，下流タスクの精度と強い相関があり，尤度経路の選択を原理的に行うことを可能にする。
- POKEは，効率的な値推定器であり，部分的なデコード軌跡の将来のPath LLを予測する。
- POKE-SMCは，最適な尤度経路を動的に識別するSequential Monte Carloベースの検索フレームワークである。
Link: https://arxiv.org/abs/2602.03496
再パラメータ化フロー方策最適化 [cs.LG, cs.AI]目的：モデルベース強化学習における方策最適化
- 強化学習は，複雑な制御問題において高い性能を発揮する可能性を秘めている。
- 従来の強化学習は，サンプル効率が悪く，学習に時間がかかるという課題がある。
- 微分可能な力学系を通じて勾配を逆伝播させることで，サンプル効率を向上させる。
- 提案手法RFOは，フロー方策とRPGの相乗効果を活用し，高いサンプル効率を実現した。
- RFOは，フロー生成プロセスとシステム力学を通じて勾配を計算し，複雑な計算を回避する。
- 多様なロボットタスクにおいて，最先端手法と比較して，RFOは優れた性能を示した。
Link: https://arxiv.org/abs/2602.03501
生成的復元：分布の不一致に対する最適な損失圧縮復号 [cs.IT, cs.AI, cs.LG, math.IT]目的：分布の不一致を考慮した損失圧縮における最適な復号戦略
- 通信システムにおいて，効率的なデータ伝送は不可欠であり，圧縮技術はその重要な役割を担う。
- 固定エンコーダを用いる場合，エンコーダと復号器で分布が異なる場合に性能が低下する。
- 分布の不一致下においても，最適な性能を発揮する復号戦略を確立すること。
- 本研究で提案する生成的復元は，従来のセントロイド則を厳密に上回り，高い性能を示す。
- ノイズチャネル上での伝送においても，ロバストな復号則を導出し，標準的な分離アーキテクチャの非効率性を定量化する。
- タスク指向の復号においても，最適な戦略が条件付き平均推定から最大事後確率(MAP)検出へと変化することを示す。
Link: https://arxiv.org/abs/2602.03505
Transformerベースの記号回帰モデルの内部動作の解明 [cs.LG, cs.AI]目的：Transformerベースの記号回帰モデルにおける数学演算子生成の内部メカニズムの理解
- Transformerは多様な分野で成功しており，記号回帰においても有効性が示されている。
- Transformerが数学演算子を生成する際の内部メカニズムは未だ解明されていない。
- 記号回帰におけるTransformerの回路レベルでの特性を明らかにし，メカニズム解釈の適用可能性を示す。
- PATCHESアルゴリズムを用いて28個の回路を特定し，記号回帰Transformerの回路レベルでの初の特性評価を実現した。
- 性能に基づいた平均パッチングが，機能的に正しい回路を最も確実に分離することが示された。
- 直接的なlogit帰属や分類器プロービングは相関関係を捉えるに過ぎず，回路発見には限定的であることが示された。
Link: https://arxiv.org/abs/2602.03506
不整地におけるロバストなヒューマノイド歩行のための収縮写像埋め込み [cs.RO, cs.AI]目的：不整地におけるロバストなヒューマノイド歩行
- ヒューマノイドロボットの歩行は，現実世界での活用に不可欠であり，その応用範囲は広い。
- 不整地でのセンシングの信頼性の低さやモデルの不一致が，ロバストな歩行の大きな課題となっている。
- 観測ノイズ下での誤差範囲を理論的に制限し，ロバスト性を向上させることを目指す。
- 本研究では，高次元でノイズの多い観測を潜在空間に写像する CMR (Contractive Mapping for Robustness) フレームワークを提案した。
- コントラスト表現学習と Lipschitz 正則化を組み合わせることで，タスクに関連する形状を保持しつつ，感度を明示的に制御する。
- 実験の結果，提案手法はノイズが増加した場合でも，他の歩行アルゴリズムを凌駕する性能を発揮することが示された。
Link: https://arxiv.org/abs/2602.03511
補間学習システムにおける汎化の関数空間安定性境界 [cs.LG, math.OC, stat.ML]目的：汎化性能を説明するための関数空間安定性境界
- 近年の機械学習では，訓練データを完全に学習しつつも，未知のデータへの汎化能力が重要視されている。
- アルゴリズムの安定性と汎化性能の関係は未だ不明確であり，安定性が常に汎化を保証するわけではない。
- 関数空間における軌跡の感度を分析し，安定性に基づく汎化の条件と限界を明確にすること。
- 提案された収縮性伝播条件と安定性証明書は，汎化性能の予測に有効であることが実験的に示された。
- 証明書の成長は，オプティマイザ，ステップサイズ，データセットの変化による汎化性能の違いを予測しうる。
- 本研究は，安定性が汎化を説明できる領域と，他のメカニズムが必要となる領域を特定した。
Link: https://arxiv.org/abs/2602.03514
非同期パイプライン並列処理における陳腐化の軽減：基底回転によるアプローチ [cs.LG, cs.AI, cs.DC]目的：非同期パイプライン並列処理における勾配の陳腐化問題の解決
- 大規模な分散学習を実現するためには，ハードウェア資源の効率的な利用が不可欠である。
- 非同期パイプライン並列処理では，勾配の遅延が大きくなるにつれて，最適化の不安定性を招く問題がある。
- 基底回転を用いることで，遅延勾配の影響を軽減し，非同期パイプライン並列処理の収束性を改善することを目指す。
- 基底回転により，遅延勾配が最適化に与える悪影響を軽減し，収束を大幅に高速化できることが示された。
- 10億パラメータのLLMの学習において，基底回転は既存の非同期パイプライン並列処理のベースラインよりも，76.8%少ない反復回数で同じ学習損失を達成した。
- ヘッセ行列の固有基底と標準座標基底のずれが，適応的最適化手法の性能低下を引き起こすことが理論的・実験的に示された。
Link: https://arxiv.org/abs/2602.03515
全ての負例が等しいわけではない：LLMは妥当な推論からより良く学習する [cs.LG, cs.AI]目的：大規模言語モデルの推論能力向上に向けた負例学習の質の重要性
- LLMの性能向上には，推論能力の向上が不可欠であり，負例学習はその有効な手段として注目されている。
- 従来の負例学習では，全ての誤った回答を同等に扱っており，負例の質が学習に与える影響が無視されている。
- 妥当性のある負例を用いて，LLMの推論能力をより効果的に向上させることを目指している。
- 提案手法PNSは，形式と構造の一貫性を保ちつつ誤った回答を生成する高質な負例を合成する。
- PNSは，形式適合性，精度反転，報酬モデル評価，思考連鎖評価を組み合わせた複合報酬を用いて学習される。
- PNSは，数学的推論のベンチマークにおいて，既存の負例合成手法を上回り，平均2.03%の性能向上を達成した。
Link: https://arxiv.org/abs/2602.03516
ランク学習器：治療効果の直交順位付け [cs.LG]目的：治療効果の順位付け
- 予防医療や広告効果など，個人への介入優先順位決定には治療効果の順位付けが重要である。
- 因果効果推定は盛んに行われているが，治療効果の順位付けを直接学習する研究は不足している。
- 観測データから治療効果の正確な順位付けを，推定誤差に強く行うことを目指す。
- Rank-Learnerは，従来のCATE推定や非直交順位付け手法よりも優れた性能を示すことが実験的に確認された。
- 本手法は，正確な治療効果推定に頼らず，真の順位付けを回復するペアワイズ学習目標を最適化する。
- Rank-Learnerはナイマン直交性を持ち，潜在的な関数推定誤差に対する頑健性を保証する。
Link: https://arxiv.org/abs/2602.03517
ライブか嘘か：行動を意識したカプセル多インスタンス学習によるライブ配信プラットフォームのリスク評価 [cs.LG, cs.AI]目的：ライブ配信プラットフォームにおけるリスク評価
- 現代のインターネットにおいてライブ配信は不可欠であり，リアルタイムでの大規模な社会交流を可能にする。
- 悪意のある参加者による希薄で連携した行動が巧妙に隠蔽され，検知が困難である。
- ライブ配信ルームレベルでのみラベル付け可能な状況下で，リスク評価の精度向上を目指す。
- 提案手法AC-MILは，ユーザー行動とグループ間の連携パターンを考慮したカプセル多インスタンス学習フレームワークである。
- 大規模な産業データセットにおける実験により，AC-MILは既存手法を大幅に上回り，最先端のリスク評価性能を達成した。
- AC-MILはカプセルレベルでの解釈可能性を提供し，介入のための具体的な証拠としてリスクのある行動セグメントを特定できる。
Link: https://arxiv.org/abs/2602.03520
D3PIA：リードシートからのピアノ伴奏生成のための離散ノイズ除去拡散モデル [eess.SY, cs.SY, cs.SD, cs.AI, cs.MM]目的：ピアノ伴奏生成
- 音楽生成分野において，自動伴奏は作曲支援や音楽表現の多様化に不可欠である。
- 既存モデルでは，旋律とコード進行を忠実に反映した自然な伴奏生成が困難である。
- リードシートと伴奏の局所的な整合性を重視し，より高品質な伴奏生成を目指す。
- D3PIAは，既存の連続拡散モデルやTransformerベースのモデルと比較して，コード進行をより正確に反映した伴奏を生成する。
- 主観評価の結果，D3PIAによって生成された伴奏は，音楽的に一貫性が高く，より自然に聞こえると評価された。
- D3PIAは，ピアノロール表現におけるリードシートと伴奏の局所的なアラインメントを活用し，効果的な伴奏生成を実現した。
Link: https://arxiv.org/abs/2602.03523
WARPロジックニューラルネットワーク [cs.LG]目的：高速かつ効率的なAI推論の実現
- AI技術の発展に伴い，高速な推論処理の重要性が増している。
- 既存のロジックニューラルネットワークは，学習コストが高い，冗長性がある，近似勾配に依存するなどの課題がある。
- ハードウェアネイティブなロジックブロックの組み合わせを効率的に学習する。
- WARPは，ブール関数を正確に学習するための最もパラメータ効率の良い表現を提供する。
- 学習の際には，学習可能な閾値処理と残差初期化を導入し，学習の高速化を実現した。
- 緩和された学習と離散ロジック推論の間のギャップを確率的平滑化によって埋めた。
Link: https://arxiv.org/abs/2602.03527
Morphe：Vision Foundation Modelを用いた高忠実度生成型ビデオストリーミング [cs.NI, cs.AI, cs.MM]目的：高忠実度な生成型ビデオストリーミングの実現
- ビデオストリーミングは基盤的なインターネットサービスであり，高品質な配信が不可欠である。
- 従来の方式では，圧縮率の限界や遅延，画質の劣化が課題となっている。
- Vision Foundation Modelを活用し，低帯域幅環境下でも高品質なストリーミングを実現する。
- Morpheは，H.265と比較して同等の画質を維持しつつ，帯域幅を62.5％削減することに成功した。
- 視覚トークナイザーと可変解像度空間時間最適化の共同学習により，リアルタイム性を実現した。
- インテリジェントなパケット損失を活用することで，過酷なネットワーク環境下でもロバストな配信が可能となった。
Link: https://arxiv.org/abs/2602.03529
マスク化オートエンコーダにおけるロバストな表現学習 [cs.LG, cs.CV]目的：マスク化オートエンコーダによって学習される表現のロバスト性
- 画像認識技術の発展は，様々な分野での応用を可能にする重要な研究領域である。
- マスク化オートエンコーダの内部表現は高性能を示す一方で，そのメカニズムは十分に解明されていない。
- 画像劣化に対するロバスト性を評価し，表現学習の過程を理解することを試みる。
- 事前学習とファインチューニングで学習された表現は，ぼかしや遮蔽といった劣化に対して高い分類性能を示すことが示された。
- ネットワークの深層化に伴い，クラス間の分離性が高まるような，クラスを意識した潜在空間が構築されることが明らかになった。
- 標準的なVision Transformerと比較して，マスク化オートエンコーダはエンコーダ層全体で，初期段階から持続的なグローバルアテンションを示すことが確認された。
Link: https://arxiv.org/abs/2602.03531
多層ミラー降下法に基づくニューラルネットワークの疎訓練 [cs.LG, cs.NA, math.NA, math.OC]目的：ニューラルネットワークの疎訓練手法
- 深層学習のモデルサイズ増大に伴い，計算コストとメモリ使用量の削減が重要課題となっている。
- 既存の疎訓練法は，計算効率と精度のバランスに課題が残る場合がある。
- 計算コストを削減しつつ，高い精度を維持できる疎訓練法の開発を目指す。
- 提案手法は，静的・動的な疎性パターン更新を交互に行うことで，効率的に疎なパラメータ空間を探索する。
- 理論上，本手法は標準的なBregman反復法と比較して，FLOPs数を38%から6%まで削減できることが示された。
- 標準的なベンチマークにおいて，高い精度を持つ疎なモデルを生成できることが実証された。
Link: https://arxiv.org/abs/2602.03535
MatGPTQ：高精度かつ効率的なポストトレーニング・マトリオシカ量子化 [cs.LG]目的：複数精度に対応した単一の親モデルの生成
- 大規模言語モデルの効率的な推論が，実用的な利用において重要である。
- 従来の量子化手法では，精度と効率の両立が課題であった。
- 単一チェックポイントによる複数精度の展開を可能にし，量子化のハードルを下げる。
- MatGPTQは，ポストトレーニング量子化パイプラインとして，高い精度を維持しつつ低ビット幅での性能を向上させた。
- ビットスライスとクロスビット誤り補償を組み合わせた多精度目的関数により，効率的な量子化を実現した。
- MatGPTQは，マトリオシカ型ポストトレーニング量子化における新たな最先端技術を確立し，実用的な展開を可能にした。
Link: https://arxiv.org/abs/2602.03537
AIによる代替に対する集団選択の保護機能 [cs.AI, econ.TH]目的：生成AI利用が人間の文化進化に与える長期的な影響とそのリスク軽減策
- 文化的多様性は，創造的な活動を含む人類の進歩に不可欠な要素である。
- 生成AIへの過度な依存は，文化的多様性を低下させ，モデルの性能低下を引き起こす恐れがある。
- AI利用戦略が文化的多様性に与える影響を分析し，文化崩壊のリスクを軽減する方策を探る。
- AIによる代替利用は，個体レベルの選択においては有利となることが示された。
- 一方，AIを補完的に利用する戦略は，集団レベルの選択において，多様性を維持し，集団の探索能力を高めることで有利となる。
- 強固な集団境界が存在する場合，AIを補完的に利用する集団が優位になる可能性が示唆された。
Link: https://arxiv.org/abs/2602.03541
大規模言語モデルは表現形式を跨いで手続きを一般化できるか [cs.CL, cs.LG]目的：表現形式を跨ぐ手続きの一般化能力
- 現実世界のタスクは自然言語で記述されることが多く，モデルの汎用性評価は重要である。
- モデルはコードやグラフで訓練・評価されることが多いが，自然言語への汎化が課題である。
- コード，グラフ，自然言語間の汎化性能向上を目指す。
- 記号的データと自然言語データを用いた二段階のデータカリキュラムが，モデル性能を大幅に向上させる。
- 1.5B Qwenモデルが，自然主義的プランニングにおいてGPT-4oのゼロショット性能に匹敵する。
- 表現形式を跨ぐ汎化は生成的な類似性の一形態と解釈でき，カリキュラムがこれを促進する。
Link: https://arxiv.org/abs/2602.03542
パーソナ生成器：大規模な多様な合成ペルソナの生成 [cs.RO, cs.HC, cs.AI]目的：多様な合成ペルソナの生成手法
- 人間とのインタラクションを伴うAIシステムの評価には，多様なユーザー層への対応が不可欠である。
- 代表的な人間データを収集するにはコストがかかる場合が多く，特に新しい技術や仮説的なシナリオでは困難である。
- 多様なユーザー特性を網羅した合成ペルソナを効率的に生成し，AIシステムの評価を支援すること。
- 本研究では，AlphaEvolveを用いた反復的な改善ループにより，多様な合成ペルソナを生成する軽量な「パーソナ生成器」を開発した。
- 生成器は，わずかな記述から，意見や嗜好において多様性を最大化する合成ペルソナ集団を自動的に生成できる。
- 実験の結果，提案手法は既存手法と比較して，多様性の指標において優れた性能を示し，希少な特性の組み合わせも再現可能であることが示された。
Link: https://arxiv.org/abs/2602.03545
抵抗性ネットワークの訓練方法：汎化平衡伝播と解析的学習 [cs.LG, cond-mat.dis-nn, cond-mat.mes-hall, cond-mat.soft, cs.ET]目的：抵抗性ネットワークの効率的な訓練手法
- 機械学習は強力だが，デジタルハードウェアは消費電力が大きい。
- アナログ計算システムは省エネだが，訓練方法が課題。
- 物理的制約下での効率的な訓練アルゴリズムの開発。
- グラフ理論と解析的枠組みを用いて，勾配を正確に計算するアルゴリズムを開発。
- 汎化平衡伝播は，広範なヘブ学習アルゴリズムを包含する。
- 出力層のみでの読み出しで抵抗ネットワークを訓練可能であり，性能劣化を最小限に抑えつつ抵抗値の一部更新が可能。
Link: https://arxiv.org/abs/2602.03546
単一の正解では不十分：LLM向け逆合成ベンチマークの再考 [cs.CL, cs.LG, cs.AI, cs.CE, cs.CL]目的：LLM向け単一ステップ逆合成ベンチマークの改善
- 医薬品開発におけるLLM活用が重要視されている。
- 既存のベンチマークは，現実の合成計画の多様性を捉えきれていない。
- 化学的妥当性を重視した新しい評価指標とデータセットを開発し，ベンチマークを改善する。
- 新しいベンチマークでは，化学的妥当性を測るChemCensorという指標を用いる。
- 既存のLLMベースラインモデルを上回る性能を示すモデルを訓練した。
- 化学的妥当性を重視することで，人間の合成計画との整合性が向上する。
Link: https://arxiv.org/abs/2602.03554
ELIQ：進化するAI生成画像の品質評価のためのラベルフリーフレームワーク [cs.CV, cs.AI, cs.MM]目的：AI生成画像の品質評価
- AI画像生成技術の急速な進歩に伴い，生成画像の品質評価が重要となっている。
- 既存の品質評価手法は，ラベルの信頼性低下により，新しい生成画像に対応できない問題がある。
- ラベルを用いずに，AI生成画像の品質を評価する新たな手法を開発し，その汎化性能を高める。
- ELIQは，従来の歪みとAIGC特有の歪みを網羅するペアを自動構築し，ラベルフリーでの品質評価を実現した。
- 事前学習済みのマルチモーダルモデルを，指示チューニングにより品質評価器へと適応させた。
- 複数のベンチマークにおいて，既存のラベルフリー手法を上回り，AIGCからUGCへの汎化性能も示した。
Link: https://arxiv.org/abs/2602.03558
HySparse：オラクルトークン選択とKVキャッシュ共有によるハイブリッド疎な注意機構 [cs.CL, cs.AI]目的：ハイブリッド疎な注意機構の設計
- 大規模言語モデルの性能向上には，計算コストとメモリ使用量の削減が不可欠である。
- 従来の疎な注意機構は，トークン重要度の予測にプロキシを必要とし，複雑性や性能低下を招く場合がある。
- HySparseは，フルアテンション層をオラクルとして利用し，効率的かつ高精度なトークン選択を実現する。
- HySparseは，フルアテンション層と複数の疎な注意層を交互に配置するシンプルなアーキテクチャである。
- 7Bと80Bのモデルで評価した結果，HySparseはフルアテンションやSWAと比較して一貫して優れた性能を示した。
- 特に80Bモデルでは，フルアテンション層を5層のみ使用し，KVキャッシュのストレージを約10分の1に削減しつつ，性能向上を達成した。
Link: https://arxiv.org/abs/2602.03560
NPCNet：ナビゲーター駆動型疑似テキストを用いた初期敗血症表現型深層クラスタリング [cs.LG]目的：初期敗血症の表現型深層クラスタリング
- 敗血症は多様な症状を示すため，患者層別化が個別化医療の精度向上に不可欠である。
- 既存のクラスタリング手法では，臨床的妥当性が考慮されず，臨床的に意味のある表現型を反映できない場合がある。
- 臨床的意義を重視したクラスタリングにより，より適切な治療戦略の発見を目指す。
- NPCNetは，時間的経過を含む電子カルテ情報を活用し，敗血症表現型と臨床的意義との整合性を高める。
- 4つの敗血症表現型（α，β，γ，δ）を特定し，SOFAスコアの推移に差異が見られた。
- 特に，αとδは初期症状が重篤ながらも，NPCNetは改善傾向にある患者（α）と悪化リスクが高い患者（δ）を区別できる。
Link: https://arxiv.org/abs/2602.03562
CoGenCast：時系列予測のための結合自己回帰フロー生成フレームワーク [cs.CL, cs.LG]目的：時系列予測のための生成モデルフレームワーク
- 時系列予測は，経済，科学，工学など様々な分野で不可欠であり，将来の傾向を理解するための基盤となる。
- 既存の手法は，意味的文脈のモデリングと連続的な時間的動性の確率的モデリングの双方を同時に扱うことが難しい。
- この研究は，LLMとフローマッチングを組み合わせることで，より正確な時系列予測を実現することを目指す。
- CoGenCastは，事前学習済みのLLMとフローマッチング機構を組み合わせたハイブリッド生成フレームワークである。
- LLMの注意トポロジーを変更することで，双方向の文脈エンコーディングと因果表現生成を可能にした。
- 複数のベンチマークテストで，CoGenCastは既存のベースラインを安定的に上回る性能を示した。
Link: https://arxiv.org/abs/2602.03564
リーマン多様体上のニューラル最適輸送 [cs.LG, math.OC, stat.ML]目的：最適輸送マップの学習と，その計算可能性に関する研究
- 生成モデリングの理論的基盤として，最適輸送は重要な役割を担う。
- 高次元リーマン多様体上でのニューラル最適輸送は未解決の課題である。
- 多様体の次元に対するスケーラビリティを向上させる手法を提案する。
- 従来の離散化に基づく手法は，次元の呪いを克服できないことが証明された。
- 連続的なニューラルネットワークパラメータ化であるRNOTマップを導入した。
- RNOTマップは，次元に対して亜指数関数的な複雑性で最適輸送マップを近似する。
Link: https://arxiv.org/abs/2602.03566
近似的アンラーニングにおけるカスタマイズされた摂動によるデータ消去の効率的な検証 (Kinrikuteki anrāningu ni okeru kasutomaizu sareta settō ni yoru dēta shōsa no kōritsuteki na kenshō) [cs.LG, cs.AI]目的：機械的アンラーニングのデータ消去検証
- 機械学習モデルのプライバシー保護は重要であり，データ削除要求への対応が不可欠である。
- アンラーニングが正しく行われたかの検証は課題であり，既存手法は初期学習への参加が必要で非効率である。
- 初期学習に参加せずに，アンラーニングの消去を効率的に検証する手法を提案する。
- 提案手法EVEは，バックドア手法と異なり，モデルの初期学習プロセスに関与せずに機械的アンラーニングを検証できる。
- 摂動を生成する際に，アンラーニング効果を保証し，標的サンプルの予測を変化させるという2つの主要な目的を達成する。
- 実験結果から，EVEは既存のアンラーニング検証手法よりも効率性と検証精度に優れていることが示された。
Link: https://arxiv.org/abs/2602.03567
EHRWorld：長期的な臨床経過を対象とする患者中心の医療世界モデル [cs.AI, cs.LG]目的：長期的な臨床経過のシミュレーション
- 医療分野における意思決定支援の重要性が高まっており，将来の状態予測が不可欠である。
- 既存の言語モデルは，一連の介入下で患者の状態を一貫して維持することが困難である。
- 因果的・時間的な医療データを用いた世界モデルの構築により，シミュレーションの信頼性を向上させる。
- EHRWorldは，単純な言語モデルと比較して，長期的なシミュレーションの安定性が大幅に向上した。
- 臨床的に重要なイベントのモデリング精度が向上し，推論効率も良好であった。
- 因果的・時間的な臨床データを用いた学習が，信頼性の高い医療世界モデル構築に不可欠であることが示された。
Link: https://arxiv.org/abs/2602.03569
非対称階層的アンカリングによるオーディオ・ビジュアル共同表現：ロバストなクロスモーダル汎化のための情報割当曖昧性解消 [cs.LG]目的：オーディオ・ビジュアル共同表現の学習
- マルチモーダルな情報統合は，多様な応用において重要な役割を果たす。
- 既存手法では，モダリティ間の情報割当の曖昧性が課題となっていた。
- クロスモーダル汎化能力を向上させるため，情報割当の方向性を制御することを目指す。
- 提案手法AHAは，構造化されたセマンティックアンカーを用いて，方向的な情報割当を強制する。
- オーディオRVQによる階層的な離散表現を活用し，ビデオ特徴量の蒸留を共有セマンティック空間に導く。
- AVEおよびAVVPのベンチマークで，AHAが既存手法を上回るクロスモーダル転移性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.03570
必要に応じてグラフを利用：効率的かつ適応的な検索拡張生成とグラフの統合 [cs.RO, cs.CL, cs.AI]目的：検索拡張生成とグラフの効率的かつ適応的な統合
- 大規模言語モデルの知識集約型タスクにおける課題を克服するため，外部知識源の活用が重要視されている。
- 従来の検索拡張生成は，非構造化ドキュメントの断片的な情報により，その効果が制限される場合がある。
- クエリの複雑さに応じて適切な手法を選択することで，検索拡張生成とグラフの統合のパフォーマンスを向上させる。
- 提案手法EA-GraphRAGは，構文解析に基づいた複雑度分析により，RAGとGraphRAGを動的に切り替えることで，精度と応答速度を大幅に改善した。
- 多様な質問応答ベンチマークにおいて，EA-GraphRAGは最先端の性能を達成し，単純な質問と複雑な質問の両方において優れた結果を示した。
- 複雑度に応じたルーティングポリシーと相互ランク融合により，EA-GraphRAGは複雑なシナリオへの対応能力を高めた。
Link: https://arxiv.org/abs/2602.03578
誤解を招くツール説明下におけるMCP挙動の理解と測定 [cs.CR, cs.AI]目的：誤解を招くツール説明下でのMCP挙動の理解と測定
- LLMによる外部ツール利用がAIエージェントの基盤となり，その信頼性が重要視されている。
- MCPでは，ツール説明と実際のコード実行の一貫性が保証されず，セキュリティリスクが存在する。
- MCP環境におけるツール説明とコードの不一致が及ぼす影響を明らかにすること。
- 10,240個のMCPサーバーを分析した結果，約13%で記述とコードに大きな不一致が見られた。
- 不一致は，本来意図しない特権操作，隠れた状態変化，不正な金融取引を可能にする。
- アプリケーションカテゴリ，人気度，マーケットプレイスによって不一致の割合に系統的な差が見られた。
Link: https://arxiv.org/abs/2602.03580
空気力学逆設計における最適化と生成 [cs.LG]目的：空気力学形状最適化のための逆設計手法
- 航空機や自動車等の設計において，空気抵抗低減は性能向上に不可欠である。
- 高次元な形状と高コストなシミュレーションが，逆設計のボトルネックとなっている。
- コスト予測と密度勾配最適化により，設計の効率化と性能向上を目指す。
- 最適な設計点と設計分布の観点から逆設計を再検討し，最適化と生成を統合した。
- 高次元における条件付き共分散近似問題に対し，時間・メモリ効率の良いアルゴリズムを開発した。
- 2D制御実験と高精度3Dベンチマークで，最適化と生成の両面で一貫した性能向上を実証した。
Link: https://arxiv.org/abs/2602.03582
状態ゼロにおける汎用価値モデル：あらゆるポリシーに対する [cs.CL, cs.AI, cs.LG]目的：あらゆるポリシーに対する期待パフォーマンスの推定
- 大規模言語モデルの性能向上には，効率的なリソース配分が不可欠である。
- 従来の価値モデルはポリシーの進化に追従する必要があり，学習コストが高い。
- 状態ゼロにおける価値推定により，効率的なサンプリングとルーティングを実現する。
- 提案手法$V_0$は，パラメータ更新なしで様々なモデルの性能を推定可能である。
- GRPO学習において，$V_0$はロールアウト前の成功率を予測し，予算配分を最適化する。
- LLMルーティングタスクにおいて，性能とコストのパレート最適解を実現した。
Link: https://arxiv.org/abs/2602.03584
活性化摂動によるニューラルネットワークの探求：APEX [cs.LG, cs.AI]目的：ニューラルネットワークの構造的情報を探求すること
- ニューラルネットワークの内部動作解明は，AIの信頼性向上に不可欠である。
- 既存手法では，中間表現にエンコードされた構造情報を捉えきれない。
- 活性化摂動によって，モデルの構造的情報を効率的に明らかにする。
- APEXは，入力やパラメータを固定し，活性化を摂動することで構造情報を引き出す。
- 小ノイズ領域では，サンプル規則性の軽量かつ効率的な指標を提供し，構造化されたモデルとランダムにラベル付けされたモデルを区別する。
- 大ノイズ領域では，バックドアモデルにおける予測のターゲットクラスへの集中など，学習誘導されたモデルレベルのバイアスを露呈させる。
Link: https://arxiv.org/abs/2602.03586
SAGE-5GC：5Gコアネットワークにおける異常検知評価のためのセキュリティを考慮したガイドライン [cs.LG]目的：5Gコアネットワークにおける異常検知の評価方法に関するガイドラインの提案
- 5Gネットワークは社会基盤であり，そのセキュリティ確保は喫緊の課題である。
- 既存の異常検知評価は，現実の運用環境では成立しない仮定に基づいている場合が多い。
- 現実的な脅威を考慮した，5Gコアネットワークにおける異常検知評価手法を確立すること。
- 提案手法SAGE-5GCは，5Gコアネットワークのセキュリティ専門家の知見に基づいて，現実的な評価設定を提供する。
- 攻撃者が検知を回避するためにネットワークトラフィックの特徴量を操作する状況下での検出性能低下が確認された。
- 攻撃者が操作可能な特徴量のみを用いて攻撃を最適化する遺伝的アルゴリズムに基づく手法が有効であることを示した。
Link: https://arxiv.org/abs/2602.03596
エネルギーに基づく関節埋め込み予測アーキテクチャのための軽量ライブラリ [cs.RO, cs.CV, cs.AI]目的：関節埋め込み予測アーキテクチャを用いた表現学習と世界モデルの学習
- 表現学習は，画像や動画などのデータを効率的に処理し，様々なタスクに応用可能な基盤技術である。
- 従来の生成モデルは計算コストが高く，意味のある特徴を捉えにくいという課題があった。
- 表現空間での予測を通じて，計算効率と表現能力の両立を目指す。
- 本ライブラリは，画像から動画，さらには行動条件付きの世界モデルへと，表現学習技術の適用範囲を拡張する。
- CIFAR-10の実験では，91%の精度で有用な特徴を学習することを示した。
- Two Roomsナビゲーションタスクでは，97%の計画成功率を達成し，行動条件付きの世界モデルの有効性を実証した。
Link: https://arxiv.org/abs/2602.03604
LLMベース検索における生成エンジンの出力ランキング制御 [cs.CL, cs.AI, cs.IR]目的：LLMベース検索における出力ランキングの制御手法
- LLMの普及により検索と商品選択の方法が変化しており，新たな課題が生じている。
- 生成エンジンはLLMの初期検索順位に強く影響され，中小企業や個人クリエイターの露出を制限する。
- 検索エンジンのコンテンツを最適化し，出力ランキングを操作することでこの問題を解決する。
- COREは，文字列，推論，レビューに基づく最適化コンテンツを用いて，出力ランキングを効果的に制御する。
- ProductBenchを用いた大規模実験により，COREはGPT-4o，Gemini-2.5，Claude-4，Grok-3において高いPromotion Success Rateを達成した。
- COREは既存のランキング操作手法を上回り，最適化されたコンテンツの流暢性を維持する。
Link: https://arxiv.org/abs/2602.03608
説明漏洩：差分プライバシーと能動学習による防御を用いたメンバーシップ推論 [cs.LG]目的：機械学習サービスにおける説明によるプライバシーリスクの増大とその軽減策
- 機械学習の透明性向上は重要だが，API経由でのモデル利用はプライバシー侵害の危険性を伴う。
- 説明機能の追加が，メンバーシップ推論攻撃を強化し，プライバシー侵害のリスクを高めることが懸念される。
- 説明機能とプライバシー保護，モデル性能のバランスを取り，安全な機械学習サービスを実現すること。
- カウンターファクチュアル説明（CF）を公開することで，より効果的なシャドーベースのメンバーシップ推論攻撃が可能になることが示された。
- 差分プライバシー（DP）と能動学習（AL）を組み合わせた防御フレームワークが，記憶の削減と学習データへの暴露制限に有効であることが確認された。
- プライバシー漏洩，予測性能，説明品質の間のトレードオフを明らかにするとともに，説明可能な機械学習サービスの責任ある展開における注意点を提示した。
Link: https://arxiv.org/abs/2602.03611
深層ニューラルネットワーク圧縮のための量子化認識正則化項 [cs.LG]目的：深層ニューラルネットワークの圧縮手法
- 深層学習の性能向上は著しいが，モデルサイズが巨大化しており，リソース制約のある環境での利用が課題。
- 従来のモデル圧縮手法では，量子化による精度低下が避けられないという問題点がある。
- 学習段階から量子化を意識した正則化項を導入し，精度低下を抑制しつつ圧縮性能を維持する。
- 提案手法では，各層ごとに重みをクラスタリングさせる正則化項を導入し，量子化を学習過程に組み込む。
- 量子化の代表値がネットワークパラメータとして組み込まれる点は，先行研究には見られない。
- CIFAR-10データセットを用いた実験により，AlexNetおよびVGG16モデルにおいて有効性が確認された。
Link: https://arxiv.org/abs/2602.03614
物理誘導型拡散による超高速偏微分方程式解法 [cs.LG]目的：偏微分方程式の超高速解法
- 科学技術計算において，偏微分方程式の解法は不可欠であり，多様な現象のシミュレーションに利用される。
- 拡散モデルは精度が高いものの，計算コストが高く，物理法則との整合性が課題となっていた。
- 拡散モデルの効率性と物理的整合性を向上させ，実用的な解法を提供することを目指す。
- 本研究では，物理知識を注入した蒸留フレームワーク「Phys-Instruct」を提案し，高速なサンプリングを実現した。
- Phys-Instructは，既存の拡散モデルと比較して，推論速度を大幅に向上させ，偏微分方程式の誤差を大幅に減少させた。
- また，得られたモデルは，様々な条件付きタスクにおいても，効率的かつ物理的に整合した推論を可能にする。
Link: https://arxiv.org/abs/2602.03627
LLMはロケット科学をこなせるか？GTOC 12を用いた複雑な推論の限界の探求 [cs.AI]目的：複雑な推論能力の限界の評価
- 宇宙開発は人類の発展に不可欠であり，効率化が常に求められている。
- 複雑な宇宙ミッションの自動計画は困難であり，AIの活用が期待されている。
- LLMの高度な推論能力を宇宙ミッション計画に応用する可能性を検証する。
- LLMの戦略的妥当性スコアは過去2年間で約2倍に向上した。
- 高度なモデルは概念的な理解力を示すものの，実装段階で物理単位の不整合や境界条件エラーが頻発する。
- 現在のLLMは，宇宙科学タスクにおける強力な支援者ではあるものの，完全自律的なエンジニアとしては限界がある。
Link: https://arxiv.org/abs/2602.03630
BIRDTurk：BIRD Text-to-SQLデータセットのトルコ語への適応 [cs.CL, cs.AI, cs.DB]目的：トルコ語におけるText-to-SQLタスクの性能評価と改善
- 自然言語処理において，データベースとの連携は重要な課題であり，Text-to-SQLはその応用範囲が広い。
- 既存のText-to-SQLシステムは英語を主対象としており，形態素が豊富でリソースの少ない言語への対応が遅れている。
- トルコ語環境下でのText-to-SQL性能低下の原因を特定し，多言語モデルの改善に資する。
- BIRDTurkは，厳密な翻訳パイプラインを用いて構築された，最初のトルコ語版BIRDベンチマークである。
- 実験の結果，トルコ語は構造的な言語の違いとLLMの事前学習における表現不足から一貫した性能低下を引き起こすことが示された。
- ただし，エージェントによる多段階推論は，言語を跨いだロバスト性においてより優れた結果を示した。
Link: https://arxiv.org/abs/2602.03633