arXiv雑要約

AI - 2026/01/30 公開

  • 推論ホップのスケーリングが脆弱性を露呈:大規模言語モデルにおけるホップ汎化の解明と改善 [cs.CL, cs.LG]目的:大規模言語モデルにおける推論ホップ汎化の脆弱性とその改善策の解明
    • 複雑な問題を解決するため,大規模言語モデルへのChain-of-Thought推論の適用が重要視されている。
    • 推論ステップ数が増加すると,性能が著しく低下する問題が指摘されている。
    • 誤った推論経路を増幅する注意ヘッドを特定し,推論過程で無効化することで性能向上を目指す。
    • 推論ステップ数が増加した場合,エラーは特定のトークン位置に集中する傾向があることが示された。
    • エラーの原因は,誤った推論経路を増幅し,正しい経路を抑制する「誤った処理ヘッド」の存在に起因することが判明した。
    • 推論時に誤った処理ヘッドを動的に特定・無効化する手法「テスト時修正」が,推論ホップ汎化を改善することが確認された。

    Link: https://arxiv.org/abs/2601.21214

  • 時間的文脈とアーキテクチャ:自然な脳波復号のベンチマーク [cs.LG, cs.AI, eess.SP]目的:自然な脳波復号におけるモデルアーキテクチャと時間的文脈の相互作用
    • 脳活動を正確に解釈することは,脳機能の理解やブレイン・マシン・インターフェース開発に不可欠である。
    • 脳波データの復号は,データ内のノイズや個人差,時間的な変動など多くの課題を抱えている。
    • 様々なアーキテクチャの性能を比較し,時間的文脈が復号精度に与える影響を明らかにすること。
    • S5アーキテクチャは,CNNと比較して20分の1のパラメータ数で,64秒の文脈において98.7%という高い精度を達成した。
    • S5は被験者間での精度が高い一方,分布外のデータに対して過信した誤りを犯す傾向がある。
    • EEGXFは周波数シフトに対して安定しており,より保守的な不確実性を示すが,分布内データでのキャリブレーションはS5に劣る。

    Link: https://arxiv.org/abs/2601.21215

  • ソフト量子化:重み結合によるモデル圧縮 [cs.CL, cs.LG, cond-mat.dis-nn]目的:ニューラルネットワークの重み間の短距離引力結合によるモデル量子化
    • 機械学習モデルの規模拡大に伴い,計算資源やメモリ消費量の削減が重要となっている。
    • 量子化はモデル圧縮の一手法であるが,精度劣化を伴う場合が多い。
    • 精度劣化を抑制しつつ,柔軟なモデル圧縮を実現する手法の開発。
    • 訓練中に重み間の結合を導入することで,モデルの重み分布の離散化を促進する「ソフト量子化」を提案。
    • この手法は,わずか2つのハイパーパラメータで混合精度量子化を実現。
    • ResNet-20/CIFAR-10において,ヒストグラム等化後量子化と比較して良好な性能を示す。

    Link: https://arxiv.org/abs/2601.21219

  • 説明可能なAIのための因果探索:二重符号化アプローチ [cs.AI]目的:機械学習モデルの意思決定を説明するための因果関係の解明
    • 機械学習モデルの透明性向上は,信頼性と責任ある利用のために不可欠である。
    • 従来の因果探索法は,カテゴリ変数の取り扱いに数値的不安定性の問題がある。
    • カテゴリ変数に対応した安定した因果構造の特定を目指す。
    • 二重符号化アプローチにより,カテゴリ変数の因果探索における安定性が向上した。
    • 提案手法は,既存の説明可能なAI手法と整合性のある因果構造を特定した。
    • Titanicデータセットへの適用により,手法の有効性が確認された。

    Link: https://arxiv.org/abs/2601.21221

  • MGSM-Pro:多言語数学推論評価のための単純戦略 [cs.AR, cs.CL, cs.AI]目的:多言語数学推論評価のロバスト性向上
    • LLMの数学推論能力向上に伴い,多言語での評価基準の整備が不可欠である。
    • 既存の多言語数学評価データセットは,英語に比べて難易度や鮮度が低いという課題がある。
    • 同一問題の異なる表現による評価変動を抑制し,より信頼性の高い評価を実現する。
    • MGSM-Proは,MGSMデータセットを拡張し,名前,数字,文脈を変化させた5つのインスタンスを提供する。
    • 評価の結果,低リソース言語において,数字の異なるインスタンスでの性能低下が顕著であることが示された。
    • Gemini 2.5 FlashやGPT-4.1は数字の変化に弱く,Claude 4.0 Sonnetは比較的強いことが明らかになった。

    Link: https://arxiv.org/abs/2601.21225

  • 生きた統治なしの委任 [cs.AI]目的:エージェントAIシステムへの判断委任における統治のあり方
    • 社会経済や政治的結果をAIが形成する中で,人間の役割を維持することの重要性
    • 従来の静的でコンプライアンスに基づく統治は,実行時に判断が不透明になるAIには不向きであること
    • AIとの意味のあるコミュニケーションや共進化を維持し,人間の関連性を保つための統治方法の模索
    • 従来の統治モデルでは,AIが判断を下す実行時の不透明性に対応できない。
    • 人間の役割を維持するためには,AIとのコミュニケーションと共進化が不可欠である。
    • 「ガバナンスツイン」という新しい概念が,この状況下での人間の関連性を維持する有効な手段となりうる。

    Link: https://arxiv.org/abs/2601.21226

  • ただ尋ねる:好奇心旺盛なコードエージェントが最先端LLMのシステムプロンプトを明らかにする [eess.SY, cs.SY, math.OC, cs.AI]目的:大規模言語モデルに基づくコードエージェントにおけるシステムプロンプト抽出
    • LLMを活用した自律エージェントはソフトウェア開発を革新し,その安全性確保が重要である。
    • エージェントの自律性は攻撃対象領域を拡大し,システムプロンプトの漏洩リスクを生む。
    • 本研究は,コードエージェント特有の脆弱性を突いたシステムプロンプト抽出を試みる。
    • 提案手法JustAskは,手動プロンプト設計や教師なし学習を必要とせず,対話のみで抽出戦略を自律的に進化させる。
    • JustAskは41の商用LLMに対し,完全またはほぼ完全なシステムプロンプトの復元に成功し,設計上の脆弱性を明らかにした。
    • システムプロンプトは,現代のエージェントシステムにおける重要な攻撃対象領域であることが示唆された。

    Link: https://arxiv.org/abs/2601.21233

  • 物理方程式を用いない物理情報拡散モデル [cs.LG]目的:スパースデータ下における力学系の軌道予測の信頼性向上
    • 力学系の予測において,事前分布の表現力が重要であり,拡散モデルはその強力な表現力を持つ。
    • データが少ない場合,拡散モデルの予測は信頼性が低いことが課題である。
    • 複雑なシステムにおいて,完全な物理方程式が不明でも予測可能なモデルを構築すること。
    • PHDMEは,ポートハミルトニアン構造を利用しつつ,完全な物理方程式を必要としない。
    • ガウス過程ポートハミルトニアンシステムを用いて,物理的に整合性のある人工データセットを生成する。
    • 実験結果から,データ不足下においてPHDMEが精度と物理的整合性を向上させることが示された。

    Link: https://arxiv.org/abs/2601.21234

  • SHARP:大規模言語モデルにおける不公平の測定のためのリスクプロファイルによる社会的な害の分析 [cs.CL, cs.AI]目的:大規模言語モデルにおける社会的な害の多次元的,分布を考慮した評価
    • 大規模言語モデルは重要な分野に導入されており,その安全性と公平性の評価が不可欠である。
    • 既存の評価指標は,複雑な社会的なリスクを単純な数値で表現し,詳細な情報を失っている。
    • 本研究は,リスクプロファイルを用いて,大規模言語モデルの社会的な害をより詳細に分析することを目的とする。
    • SHARPフレームワークは,社会的な害を多変量確率変数としてモデル化し,バイアス,公平性,倫理,認識信頼性を考慮する。
    • 評価の結果,平均リスクが類似するモデルでも,テールリスクとボラティリティに2倍以上の差が見られた。
    • バイアスが最も深刻なテールリスクを示し,倫理的な誤 alignment は最も低いことが示された。

    Link: https://arxiv.org/abs/2601.21235

  • 言語生成におけるノイズの定量化 [cs.DS, cs.CL, cs.LG]目的:言語生成におけるノイズの影響の定量化
    • 言語生成は,人工知能における重要な課題であり,その限界と可能性を理解することが求められている。
    • 従来の言語生成モデルは,ノイズの影響を考慮した評価が十分でなかった。
    • 本研究は,ノイズが言語生成に与える影響を数学的に定量化し,よりロバストなモデルの構築に貢献する。
    • 一意のノイズ文字列の追加は,生成可能な集合を厳密に減少させることを示した。
    • 一意のノイズ文字列での生成は,有限量のノイズでの生成と同等であることを示した。
    • 非一様ノイズ依存生成可能性に関する初の特性評価を提供した。

    Link: https://arxiv.org/abs/2601.21237

  • PTQ4ARVG: 自己回帰型画像生成モデルのポストトレーニング量子化 [cs.CV, cs.AI]目的:自己回帰型画像生成モデルにおける量子化手法の開発
    • 画像生成モデルの高性能化に伴い,モデルサイズと計算コストの削減が重要課題となっている。
    • 既存の量子化手法は,自己回帰型画像生成モデルへの適用が難しく,汎化性能が低いという問題がある。
    • 本研究は,自己回帰型画像生成モデルに特化した量子化手法を開発し,性能劣化を抑制することを目的とする。
    • 提案手法PTQ4ARVGは,自己回帰型画像生成モデルのチャネルごとの外れ値,トークンごとの動的な活性化,サンプルごとの分布の不一致という課題に対処する。
    • PTQ4ARVGは,Gain-Projected Scaling(GPS),Static Token-Wise Quantization(STWQ),Distribution-Guided Calibration(DGC)の3つの要素で構成される。
    • 実験の結果,PTQ4ARVGは,8ビットおよび6ビット量子化において,競合する性能を維持しながら,自己回帰型画像生成モデルを効果的に量子化できることが示された。

    Link: https://arxiv.org/abs/2601.21238

  • TIDE:LLMに基づく自動ヒューリスティック設計のためのチューニング統合動的進化 [cs.AI]目的:LLMを用いた自動ヒューリスティック設計におけるヒューリスティックの進化
    • 組合せ最適化問題解決において,効率的なヒューリスティック設計は重要である。
    • 既存手法では,離散的なアルゴリズム構造と連続的な数値パラメータの相互作用が考慮されていなかった。
    • アルゴリズム構造とパラメータ最適化を分離し,より効率的な探索を可能にすること。
    • TIDEは,構造的多様性を促進するツリー類似度編集距離と,パラメータ調整のためのLLMと微分変異オペレーターを組み合わせている。
    • UCBに基づくスケジューラにより,リソース配分を最適化し,高収率なプロンプト戦略を優先的に実行する。
    • 9つの組合せ最適化問題において,TIDEは最先端のベースラインを上回る解質と検索効率を達成した。

    Link: https://arxiv.org/abs/2601.21239

  • SignReLUネットワークによる比率ベースの関数近似を通じた拡散モデルの理解 [cs.LG, cs.AI]目的:条件付き生成モデリングにおける比率型関数の近似理論的枠組み
    • 拡散モデルは,複雑なデータ分布の生成において重要な役割を担う。
    • 条件付き生成モデリングでは,目標となる条件付き密度が比率の形で表され,近似が難しい。
    • SignReLUネットワークを用いた比率型関数の近似精度向上と,その理論的保証を与える。
    • SignReLU活性化関数を用いることで,比率型関数の近似が可能となることを理論的に示した。
    • DDPMに特化することで,生成データと真のデータ分布間の過剰なKLリスクに対する上限を導出した。
    • 有限サンプルでの学習における拡散モデルの一般化性能を保証する結果が得られた。

    Link: https://arxiv.org/abs/2601.21242

  • ノイズを減らし,声(推論)を増やす:指示の精製による強化学習 [cs.LG, cs.AI, cs.CL]目的:LLMの推論能力向上
    • LLMの推論能力は,様々なタスクにおいて重要であり,その性能向上は社会への貢献に繋がる。
    • 強化学習によるLLMの推論は,限られた試行回数と不安定な学習という課題を抱えている。
    • プロンプト中の干渉トークンを除去することで,効率的な試行と安定した学習を実現する。
    • LENSは,干渉トークンを除去することで,ロールアウト効率を大幅に向上させる。
    • 実験の結果,LENSはGRPOと比較して,性能と収束速度の両方で優れていることが示された。
    • 平均で3.88%の性能向上と1.6倍以上の高速化を達成した。

    Link: https://arxiv.org/abs/2601.21244

  • 干渉下におけるロバストな化学物質検出のためのピーク認識注意機構を用いた条件付き生成フレームワーク [cs.LG, cs.AI]目的:干渉条件下におけるGC-MS測定の信頼性向上
    • ガスクロマトグラフィー質量分析法は,化学物質の検出に広く用いられており,環境分析や品質管理において不可欠である。
    • 干渉物質の存在下では,非特異的ピークや背景ノイズが増加し,検出感度低下や誤報の原因となる。
    • 本研究は,干渉物質の影響を軽減し,より正確な化学物質検出を実現するためのAI識別フレームワークを開発する。
    • 提案手法は,GC-MSデータの特徴的なピークを強調するピーク認識機構により,重要なスペクトル特徴をより忠実に生成する。
    • 生成されたシミュレーションデータは,AIベースのGC-MS識別モデルの学習に活用され,化学物質の正確な識別を支援する。
    • 提案手法は,ピーク数の多様性を維持しつつ,識別モデルにおける誤報を低減し,コサイン類似度およびピアソン相関係数を0.9以上で一貫して達成した。

    Link: https://arxiv.org/abs/2601.21246

  • サイバー物理システムにおける検証可能な状態完全性:モジュール主権が可塑性と安定性のパラドックスを解決する理由 [cs.AI, cs.LG]目的:サイバー物理システムにおける状態完全性の検証可能性
    • サイバー物理システムは安全性に関わるため,高い信頼性が求められる
    • 時系列基盤モデルのファインチューニングは,既存の知識を忘却する問題がある
    • モジュール主権パラダイムにより,システムの検証可能性と堅牢性を向上させる
    • 時系列基盤モデルのファインチューニングによる破滅的忘却が確認されている
    • HYDRAは,不確実性を考慮した動的なレジーム専門家を組み合わせることで,状態完全性を保証する
    • モジュール主権パラダイムは,検証可能な経路を提供し,CPSライフサイクル全体を通してロバストな状態完全性を実現する

    Link: https://arxiv.org/abs/2601.21249

  • ハイパーソリッド:短距離反発による創発的な視覚表現 [cs.CV, cs.AI, cs.LG]目的:自己教師あり学習における表現崩壊の防止
    • 視覚表現学習は,人工知能の発展に不可欠であり,様々な応用分野を支える基盤技術である。
    • 自己教師あり学習では,表現が単純化し情報が失われる表現崩壊が頻繁に発生する。
    • 局所的な衝突を回避する短距離反発を利用し,表現の多様性を維持することを試みる。
    • ハイパーソリッドは,表現学習を離散的なパッキング問題として捉え,短距離反発によって表現の衝突を防ぐ。
    • この制約は,高い分離度を持つ幾何学的領域を生み出し,データ拡張の多様性を維持する。
    • その結果,微細な分類や低解像度画像分類タスクにおいて優れた性能を示す。

    Link: https://arxiv.org/abs/2601.21255

  • 音楽盗用検出:問題設定とセグメントに基づく解決策 [cs.SD, cs.AI, cs.LG, eess.AS]目的:音楽盗用検出タスクの問題定義と解決手法
    • 音楽は文化的資産であり,その保護は重要である。盗用は創作意欲を阻害し,音楽業界の健全性を損なう。
    • 音楽盗用検出の研究は進むものの,タスク自体の定義が曖昧で,研究の進展を遅らせている。
    • 音楽盗用検出タスクの明確な定義と,それを実現するためのデータセット及び手法を提示する。
    • 本研究では,音楽盗用検出を他の音楽情報検索タスクと区別し,解決すべき課題を明確に定義した。
    • 新たに「Similar Music Pair」データセットを構築し,定義されたタスクをサポートする。
    • セグメント書き起こしに基づく手法を提案し,タスク解決の一つのアプローチを示す。

    Link: https://arxiv.org/abs/2601.21260

  • 非線形動的システムにおけるモデルフリーなニューラル状態推定:ニューラルアーキテクチャと古典的フィルタの比較研究 [cs.LG]目的:非線形動的システムにおける状態推定性能の比較
    • 制御や意思決定問題において状態推定は重要であり,システムの正確な状態把握は性能向上に不可欠である。
    • 古典的フィルタはシステムダイナミクスへの知識を必要とし,複雑なシステムへの適用が困難な場合がある。
    • 本研究は,システムモデルを用いずにデータのみから学習するニューラル推定器の性能評価を目的とする。
    • ニューラルモデル,特に状態空間モデル(SSM)は,強固な非線形カルマンフィルタに匹敵する性能を示した。
    • ニューラルモデルは,システムモデルへのアクセスがないにもかかわらず,従来の古典的フィルタよりも優れた性能を発揮した。
    • ニューラルモデルは,古典的フィルタと比較して,大幅に高速な推論処理を実現した。

    Link: https://arxiv.org/abs/2601.21266

  • メタ評価からの強化学習:正解ラベルなしでの言語モデルの調整 [cs.NE]目的:言語モデルの調整
    • 大規模言語モデルの性能向上は,多様な応用において不可欠である。
    • 従来の強化学習は,正解ラベルや検証者の必要性から,適用範囲が限定される。
    • ラベルなしで言語モデルを調整し,適用可能なドメインを拡大すること。
    • メタ評価からの強化学習(RLME)は,正解ラベルなしで言語モデルを調整可能である。
    • RLMEは,ラベルベースの学習と同等の精度とサンプル効率を達成する。
    • 複数の目的間の制御可能なトレードオフを実現し,信頼性の高い推論パターンを促進する。

    Link: https://arxiv.org/abs/2601.21268

  • 軽量高忠実度低ビットレートの3Dビデオ会議向けトークングフェイス圧縮 [cs.CV, cs.AI]目的:3Dビデオ会議における低ビットレートでの高忠実度トークングフェイス表現
    • 没入感の高いコミュニケーション需要が高まり,3Dビデオ会議技術が発展している。
    • 従来の2D圧縮では微細な情報を保持できず,NeRFは計算コストが高い。
    • リアルタイム3Dビデオ会議に適した効率的な圧縮手法を提案すること。
    • 提案手法はFLAMEと3DGSを統合し,必要情報をリアルタイムで伝送する。
    • ガウスベースのヘッドモデルにより効率的な再構成が可能である。
    • Gaussian属性圧縮とMLP最適化により,送信効率が向上し,高いレート歪性能を実現した。

    Link: https://arxiv.org/abs/2601.21269

  • より多くのコード,より少ない再利用:AI生成プルリクエストのコード品質とレビュー担当者の感情の調査 [cs.HC, cs.SE, cs.AI, cs.HC]目的:AI生成プルリクエストの特性
    • ソフトウェア開発において,コードの品質と保守性は重要であり,長期的な開発効率に影響する。
    • 従来の評価指標は合格率のみに焦点を当てており,コードの可読性や保守性といった重要な側面が考慮されていない。
    • AI生成コードにおける品質問題と,開発者による評価との乖離を明らかにすること。
    • AIエージェントが生成するコードは,人間が書いたコードと比較して再利用が少なく,冗長性が高い傾向にある。
    • レビュー担当者は,AI生成のプルリクエストに対して,人間が書いたものよりも中立的または肯定的な感情を示す傾向がある。
    • AIコードの表面的な妥当性により,冗長性が隠蔽され,技術的負債が静かに蓄積される可能性がある。

    Link: https://arxiv.org/abs/2601.21276

  • GeoRC:位置推論チェーンのベンチマーク [cs.CV, cs.AI, cs.CL, cs.LG]目的:位置推論チェーンの評価基準
    • 画像とテキストを理解するAIの能力向上は,地理情報処理を含む多様な分野で重要である。
    • 既存のAIモデルは位置予測は高い精度を示すものの,その根拠となる推論過程に誤りや虚偽が含まれる場合がある。
    • AIモデルの位置推論における根拠の妥当性を評価し,より信頼性の高い推論を可能にすることを目指す。
    • 本研究で作成したベンチマークは,専門家による位置推論チェーンを800件用意し,AIモデルの推論能力を評価する。
    • 大規模な閉鎖型VLMは位置予測精度は人間に匹敵するが,推論過程の透明性ではまだ人間に劣る。
    • オープンウェイトVLMは,本ベンチマークにおいて著しく低い性能を示し,視覚情報の抽出能力に課題があることが示唆された。

    Link: https://arxiv.org/abs/2601.21278

  • NEXUS:代替勾配を用いない訓練による,ニューロモーフィックゲート回路を通じたANNとSNNのビット単位での完全等価性 [cs.NE, cs.AI]目的:人工ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)のビット単位での完全等価性の実現
    • SNNはイベント駆動によるスパース性により,エネルギー効率の高い計算が期待されている。
    • 既存のアプローチは,連続値を離散的なスパイクで近似するため,精度が低下するという課題がある。
    • IEEE 754準拠の浮動小数点演算を可能にするニューロモーフィックゲート回路を構築し,ANNとSNNの精度劣化をなくす。
    • NEXUSは,標準ANNと同等のタスク精度(0.00%の劣化)を達成し,平均ULPエラーはわずか6.19であった。
    • ニューロモーフィックハードウェア上で,27,000〜168,000倍のエネルギー削減を実現した。
    • 空間ビットエンコーディングにより,膜電位漏洩やシナプスノイズに対して高い耐性を示し,ゲートレベルの精度を98%以上維持した。

    Link: https://arxiv.org/abs/2601.21279

  • EGAM:ルーティング問題解決のための拡張グラフ注意モデル [cs.LG]目的:ルーティング問題に対するグラフ注意モデルの拡張
    • 経路最適化は,物流,交通,ネットワークなど様々な分野で重要な課題である。
    • 既存手法は専門知識やラベル付きデータに依存し,複雑な問題への適用が困難である。
    • 複雑なグラフ構造を持つ制約の厳しい問題に対する効率的な解法を確立すること。
    • 提案手法EGAMは,ノードとエッジの両方の埋め込みを更新することで,従来のGAMの限界を克服した。
    • 様々なルーティング問題において,既存手法と同等またはそれ以上の性能を示した。
    • 特に,制約の厳しい問題において顕著な性能を発揮し,複雑なグラフ構造への対応能力の高さを示した。

    Link: https://arxiv.org/abs/2601.21281

  • DUET:効率的な文脈化教師からの知識蒸留によるLLMのアンラーニング [cs.LG, cs.AI]目的:LLMからの不要な知識の除去
    • AIの信頼性確保は重要であり,そのためにモデルの知識編集技術が不可欠である。
    • 既存のアンラーニング手法は計算コストが高い,またはプロンプト攻撃に弱いという課題がある。
    • プロンプト誘導型教師モデルを用いた知識蒸留により,効率的かつ安全なアンラーニングを実現する。
    • DUETは,既存のベンチマークにおいて,忘却と汎用性の維持において高い性能を発揮する。
    • 最新のアンラーニング手法と比較して,大幅に少ないデータで同等の効果を得られる。
    • プロンプト操作や逆エンジニアリング攻撃に対する脆弱性を軽減する。

    Link: https://arxiv.org/abs/2601.21283

  • 拡散による物理情報学習(PILD) [cs.LG, cs.AI, cs.ET, math.AP]目的:拡散モデルと物理法則の統合
    • 複雑なデータ分布のモデリングにおいて,拡散モデルは強力なツールとなり得る。
    • 従来の拡散モデルはデータ駆動型であり,物理法則を考慮する必要がある工学・科学の問題には限界がある。
    • 物理法則を組み込んだ拡散モデルによる,より高精度で安定した学習を目指す。
    • 提案手法PILDは,拡散モデルと物理法則を統合し,生成過程を物理的制約で監督する。
    • 物理情報を埋め込むモジュールを導入することで,拡散過程全体を通して一貫したガイダンスを確保する。
    • 様々な実験で,PILDは既存手法と比較して,精度,安定性,汎化性能において著しい改善を示す。

    Link: https://arxiv.org/abs/2601.21284

  • Zenith:数十億規模のライブストリーミング推薦のためのランキングモデルのスケールアップ [cs.LG, cs.AI]目的:数十億規模のライブストリーミング推薦におけるランキングモデルのスケールアップ
    • 推薦システムにおいて,特徴量の相互作用を正確に捉えることは重要であり,モデルの能力拡張が予測性能向上に不可欠である。
    • 既存研究では,特徴量の多粒度な相互作用を捉えるモデル構造が探求されてきたが,推論遅延を抑制しつつモデルの規模を拡張する効率的な手法は少ない。
    • 本研究は,ランタイムオーバーヘッドを最小限に抑えつつ,複雑な特徴量の相互作用を学習するスケーラブルで効率的なランキングアーキテクチャを提案し,その問題を解決する。
    • Zenithは,Token FusionとToken Boostモジュールにより,高次元のPrime Tokensを効率的に処理し,他の最先端ランキング手法と比較して優れたスケーリング則を示す。
    • TikTok Liveへの展開により,ZenithはオンラインCTR AUCで+1.05%/-1.10%,Quality Watch Session / Userで+9.93%,Quality Watch Duration / Userで+8.11%の改善を実現した。

    Link: https://arxiv.org/abs/2601.21285

  • Drive-KD:自動運転におけるVLMsのためのマルチ教師蒸留 [cs.AI, cs.CV]目的:自動運転におけるVLMsの効率的な知識伝達
    • 自動運転は安全性に重要な技術であり,LLM/VLMの発展が新たな可能性を開いている。
    • 大規模モデルはGPUメモリを大量に消費し,推論遅延が大きい。SFTでは小規模モデルの能力向上に限界がある。
    • 知覚・推論・計画の分解と知識蒸留により,効率的なVLMsの構築を目指す。
    • Drive-KDは,自動運転を「知覚・推論・計画」の三要素に分解し,知識蒸留を通じて能力を伝達するフレームワークである。
    • 蒸留信号として層ごとの注意機構を利用し,単一教師モデルを構築することで,既存手法よりも優れた性能を実現する。
    • 蒸留されたInternVL3-1Bモデルは,78Bモデルと同等以上の性能をDriveBenchで示し,GPT-5.1の計画能力を上回る。

    Link: https://arxiv.org/abs/2601.21288

  • TimeSliver:説明可能な時系列分類のための象徴的・線形分解 [cs.LG]目的:時系列分類における,各時点の影響度を特定すること
    • モデルの判断根拠を明らかにし,透明性を高めることは,AIの信頼性向上に不可欠である。
    • 既存手法は,基準状態に依存したり,時系列データの依存関係を無視したりする課題がある。
    • TimeSliverは,時系列データと象徴的抽象化を組み合わせて,より忠実な重要度スコアを算出する。
    • TimeSliverは,7つの時系列データセットで既存手法を11%上回る性能を示した。
    • 26のUEAベンチマークデータセットにおいて,最先端手法と同等の予測性能を達成した。
    • TimeSliverは,高い予測性能と説明可能性を両立する汎用的なフレームワークである。

    Link: https://arxiv.org/abs/2601.21289

  • 物理知識誘導型Tiny-Mamba Transformerによる信頼性重視の早期故障予兆 [cs.LG, cs.AI]目的:回転機械の信頼性中心予知保全のための早期警告信号の精度向上
    • 機械設備の安定稼働には,故障の予兆診断が不可欠であり,設備の寿命やメンテナンス計画に大きく影響する。
    • 実際の稼働環境では,運転条件の変動やセンサーデータの偏りがあり,高精度な予兆診断が困難となる場合が多い。
    • 本研究は,非定常な条件下でも精度の高い,信頼性の高い故障予兆を実現することを目的とする。
    • 物理知識をモデルに組み込むことで,古典的な軸受故障の周波数帯域との整合性を高め,物理的に妥当な説明を提供した。
    • 極値理論を用いることで,誤報率を抑制し,目標とする誤報強度を達成する閾値を設定することを可能にした。
    • CWRUなどのデータセットを用いた評価により,PG-TMTは既存手法と比較して,高い精度と短い故障検出時間を実現した。

    Link: https://arxiv.org/abs/2601.21293

  • マルチモーダル学習におけるスペクトルPLSの欠損データ誘発位相遷移 [cs.LG, stat.ML]目的:マルチモーダルデータに対するスペクトルPLSの位相遷移
    • データ解析において,複数種類のデータを統合的に扱うことで,より高度な予測や理解が可能となる。
    • マルチモーダルデータには欠損値が含まれることが多く,既存手法では性能劣化が生じやすい。
    • 欠損値が存在する状況下でのPLSの性能限界と,最適なデータ利用方法を明らかにすること。
    • 欠損データの割合に応じて,PLS-SVDが有効な情報を提供するかどうかの明確な閾値が特定された。
    • 欠損値による信号強度の減衰を考慮することで,位相遷移の挙動を理論的に説明することができた。
    • シミュレーションと半合成実験により,理論予測の妥当性が検証された。

    Link: https://arxiv.org/abs/2601.21294

  • データセット蒸留における情報性と有用性の理論的根拠と拡張 [cs.LG, cs.AI]目的:データセット蒸留における情報性と有用性のバランス
    • 大規模データセットの効率的な利用が求められる分野で,データ量の削減は重要である。
    • 既存手法は経験則に頼ることが多く,元のデータと合成データの関係性が十分に解明されていない。
    • 情報性と有用性を数学的に定義し,最適なデータセット蒸留を実現することを目指す。
    • 提案手法InfoUtilは,情報性最大化と有用性最大化をバランス良く実現する。
    • 情報性最大化にはShapley Valueを用い,有用性最大化にはGradient Normに基づくサンプル選択を行う。
    • ImageNet-1Kデータセットにおいて,ResNet-18を用いた実験で,最先端手法を6.1%上回る性能を達成した。

    Link: https://arxiv.org/abs/2601.21296

  • 平均報酬Q学習における$\varepsilon^{-2}$依存性の達成:新たな縮小原理 [cs.CE, eess.SP, stat.AP, eess.SY, cs.SY, cs.LG, stat.ML]目的:平均報酬マルコフ決定過程におけるQ学習の収束率
    • 強化学習は,複雑な環境下での意思決定問題を解決する上で重要な役割を果たす。
    • 縮小性の欠如は,平均報酬Q学習における基本的な課題である。
    • 到達可能性仮定の下で,Q学習の最適なサンプル複雑度を保証すること。
    • 同期型および非同期型Q学習において,$\widetilde{O}(\varepsilon^{-2})$のサンプル複雑度を達成した。
    • 怠惰なダイナミクスからサンプリングする簡単な変形により,これを実現した。
    • インスタンス依存のセミノルムを構築し,ベルマン作用素の1ステップ縮小性を証明した。

    Link: https://arxiv.org/abs/2601.21301

  • モデルベース強化学習における探索の意外な困難性 [cs.LG, cs.AI]目的:モデルベース強化学習における探索の困難性とその改善策
    • 強化学習は,複雑な問題の自律的な解決を目指す上で重要であり,様々な分野への応用が期待されている。
    • モデルベース強化学習では,モデルの精度向上だけでは性能が向上せず,探索の効率が課題となっている。
    • 本研究では,分布シフトの軽減が探索において重要であること,およびそのための効果的な手法を明らかにすることを目指す。
    • 従来の考え方とは異なり,探索は学習された方策の単純な代替とはならず,高いモデル精度でも性能を低下させることがある。
    • 分布シフトの軽減が,モデルや価値関数の精度向上よりも重要であることが示された。
    • この知見に基づき,効果的な探索を可能にする主要な技術を特定し,複数のベンチマークドメインで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2601.21306

  • 因果的視点からの転移可能なグラフ凝縮 [cs.LG]目的:グラフデータセットの凝縮手法
    • グラフ表現学習の性能向上には大規模データが不可欠だが,学習コストが課題となる。
    • 既存の凝縮手法は,元のタスクとデータセットに限定され,汎用性に欠ける。
    • タスクやドメインを跨いだ,転移可能な凝縮データセットの構築を試みる。
    • 提案手法TGCCは,因果的介入によりドメイン不変な特徴を抽出し,凝縮操作を強化する。
    • スペクトル領域におけるコントラスト学習を通じて,因果的情報を凝縮グラフに注入する。
    • 5つの公開データセットとFinReportデータセットで,既存手法と比較して最大13.41%の性能向上を示した。

    Link: https://arxiv.org/abs/2601.21309

  • 変動する充電インフラ下における自動運転電気タクシー隊の動的運用に対するFew-Shot Learning:メタ深層強化学習アプローチ [cs.LG]目的:自動運転電気タクシー隊の動的運用方針
    • 電気自動車の普及に伴い,充電インフラの最適配置と効率的な運用が不可欠である。
    • 従来の強化学習は静的な充電ネットワークを仮定しており,現実の動的な変化に対応できない。
    • 変化する充電インフラに迅速に適応可能な運用方針を学習することを目指す。
    • 提案手法GAT-PEARLは,現実世界の都市環境における空間的・時間的関係を効果的にモデル化する。
    • GAT-PEARLは,充電ネットワークのレイアウト変更に対して,再学習なしに迅速に適応する能力を示す。
    • 中国成都の現実データを用いたシミュレーションにより,GAT-PEARLが既存手法を大幅に上回り,高い運用効率を達成した。

    Link: https://arxiv.org/abs/2601.21312

  • 多源非教師ありドメイン適応のための分布ロバスト分類 [cs.LG, cs.AI]目的:多源非教師ありドメイン適応における分類性能の向上
    • 機械学習において,学習データとテストデータの分布が異なる状況は頻繁に発生する。
    • ターゲットドメインのラベルなしデータが限られている場合,既存手法は性能が低下しやすい。
    • 分布の不確実性を考慮し,少ないターゲットデータでもロバストな分類を実現すること。
    • 提案手法は,共変量分布と条件付きラベル分布の両方の不確実性をモデル化する分布ロバスト学習フレームワークを採用する。
    • 多源ドメイン適応に最適化されているが,単一ソースのシナリオにも適用可能であり汎用性が高い。
    • 様々な分布シフトシナリオ下での実験により,提案手法は特にターゲットデータが極端に少ない場合に,強力なベースラインを上回ることが示された。

    Link: https://arxiv.org/abs/2601.21315

  • オンデマンド航空タクシーサービスのための異種バーティポート選択最適化:深層強化学習アプローチ [cs.LG, cs.AI]目的:オンデマンド航空タクシーサービスのバーティポート選択最適化
    • 都市交通の混雑緩和が急務であり,低空域の活用が注目されている。
    • 航空と地上交通を統合した最適なルート戦略に関する研究が不足している。
    • 航空と地上交通の連携による効率的な移動手段の実現を目指す。
    • 提案手法 UAGMC は,従来の比例配分法と比較して平均移動時間を34%削減することを示した。
    • UAGMC は,深層強化学習と V2X 通信を活用することで,動的なルート計画とバーティポート選択を最適化する。
    • 本研究は,航空と地上交通の連携によるインテリジェントな都市交通ソリューションの発展に貢献する。

    Link: https://arxiv.org/abs/2601.21316

  • 分布外データに対する過信を最適輸送によって抑制する手法 [cs.CV, cs.LG]目的:分布外データに対する過信の軽減
    • 深層学習は実世界で活用される機会が増えているため,その信頼性確保が重要である。
    • 深層ニューラルネットワークは,分布外データに対して過信した予測を行いやすいという課題がある。
    • 最適輸送の特異境界を利用し,モデルが構造的に不確実な領域でより適切な予測を行うことを目指す。
    • 最適輸送によって生成される特異境界近傍のサンプル(OTIS)を用いることで,過信を抑制する損失関数を導入した。
    • OTISは幾何学的に根拠があり,意味的に曖昧な性質を持つ分布外データを構成する。
    • 実験の結果,本手法は既存手法と比較して分布外データに対する過信を大幅に軽減できることが示された。

    Link: https://arxiv.org/abs/2601.21320

  • 人間を模倣した推論によるホワイトボックス・オペアンプ設計 [cs.AI]目的:解釈可能なオペアンプパラメータ設計フレームワーク
    • 高性能アナログ回路設計は,現代エレクトロニクスの根幹をなす重要な技術分野である。
    • 従来の設計手法は,ブラックボックス化しやすく,設計意図の反映や最適化が困難な場合がある。
    • 人間の推論プロセスを模倣することで,設計の透明性と効率性を向上させることを目指す。
    • 提案手法 White-Op は,大規模言語モデルエージェントを活用し,解釈可能なオペアンプ設計を実現した。
    • 仮説制約の導入と検証を繰り返すことで,数学的に扱いやすい極零の位置を適切に制御し,最適化問題を構築する。
    • 9種類のオペアンプトポロジーで,従来のブラックボックス手法が失敗したケースに対し,White-Opは高い設計精度と安定性を実現した。

    Link: https://arxiv.org/abs/2601.21321

  • 敵対的脆弱性は計算パラダイムを超え,特徴量エンジニアリングはニューラル敵対的転移に対する防御とならない [cs.LG, cs.AI, cs.CV]目的:深層ニューラルネットワークにおける敵対的転移の検証
    • 画像認識システムのセキュリティは重要であり,特に安全性が求められる場面での脆弱性は無視できない。
    • 敵対的サンプルに対する古典的機械学習パイプラインの脆弱性が不明であり,保護効果の検証が必要である。
    • 特徴量エンジニアリングが敵対的転移から保護するかどうか,その有効性を実証的に評価する。
    • VGG16を代替モデルとして使用し,HOGベースの古典的分類器に対する敵対的転移攻撃実験を行った結果,全ての分類器で精度低下が確認された。
    • 古典的機械学習モデルにおいては,反復攻撃であるPGDよりも,高速勾配法であるFGSMの方が攻撃効果が高いという,ニューラルネットワークとは異なる傾向が見られた。
    • 敵対的脆弱性は,エンドツーエンドの微分可能性に起因するものではなく,画像分類システムの基本的な特性であることが示唆された。

    Link: https://arxiv.org/abs/2601.21323

  • 標準SVM損失の一般化とその浅層・深層ニューラルネットワークへの応用 [cs.LG]目的:SVM損失の一般化
    • 機械学習において,SVMは高い汎化性能を持つ強力な手法の一つである。
    • SVMは計算コストが高く,大規模データセットへの適用が課題となっている。
    • 損失関数にパターン相関を導入することで,汎化性能の向上を目指す。
    • 提案手法は,標準損失と同等以上の汎化性能を示すことが実験的に確認された。
    • 浅層・深層ニューラルネットワークとの組み合わせによる更なる性能向上が期待される。
    • SVMの損失関数に対する新たなアプローチを提示し,今後の研究の可能性を示唆した。

    Link: https://arxiv.org/abs/2601.21331

  • 内因論理のモデリング:説明可能なマルチ行動推薦のための因果的ニューロシンボリック推論モデル [cs.AI]目的:説明可能なマルチ行動推薦のための因果的ニューロシンボリック推論モデル
    • 推薦システムは多様化し,ユーザーの複雑な行動を理解することが重要になっている。
    • 既存手法では,説明性と汎化性能のバランスが課題となっている。
    • ユーザー行動に内在する論理を明示的にモデル化し,因果的推論により誤った相関を排除すること。
    • CNREは,階層的な嗜好伝播により,異種行動間の依存関係を捉える。
    • ユーザーの行動チェーンに内在する論理ルールを嗜好の強さに基づいてモデル化し,ニューラル・論理推論経路を適応的に選択する。
    • 大規模データセットにおける実験により,CNREが最先端手法を上回り,多層的な説明性を提供することが示された。

    Link: https://arxiv.org/abs/2601.21335

  • 大規模言語モデルにおける創造的タスクに対する,モデル内変動とプロンプト間変動 [cs.AI]目的:大規模言語モデルの出力変動要因の分析
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 言語モデルの出力は確率的要素が強く,評価が困難である。
    • プロンプトとモデル選択が創造性に与える影響を定量的に評価する。
    • 出力の質(独創性)に関しては,プロンプトとモデル選択が同程度の変動要因である。
    • 出力の量(流暢性)に関しては,モデル選択とモデル内変動が主要な要因であり,プロンプトの影響は小さい。
    • プロンプトは出力の質を制御する有効な手段だが,モデル内変動には注意が必要である。

    Link: https://arxiv.org/abs/2601.21339

  • EHR-RAG:拡張検索生成による長期間構造化電子カルテと大規模言語モデルの統合 [cs.AI]目的:長期間構造化電子カルテデータの正確な解釈
    • 医療現場での意思決定において,電子カルテの長期的な臨床データは不可欠である。
    • 既存手法では,長期間の電子カルテに対応できず,重要な臨床情報や時間的依存関係が失われる。
    • 長期間電子カルテデータに対応し,より正確な臨床予測を可能にすること。
    • EHR-RAGは,臨床構造と時間的ダイナミクスを維持するイベント・時間認識型ハイブリッド検索を採用している。
    • 適応的反復検索により,広範な証拠を段階的に拡充し,事実と反事実の両方の証拠を並行して取得・推論する。
    • 4つの長期間電子カルテ予測タスクにおいて,既存の最先端LLMベースラインを平均10.76%上回るMacro-F1スコアを達成した。

    Link: https://arxiv.org/abs/2601.21340

  • オストラコン-VL:フードサービスおよび小売店向けのドメイン専門MLLMへ [cs.AI]目的:フードサービスおよび小売店における知覚と推論能力の向上
    • フードサービスおよび小売店における業務効率化には,画像と言語を組み合わせた高度なAI技術が不可欠である。
    • 現実世界の店舗データはノイズが多く,品質管理が困難なため,高性能なAIモデルの学習を妨げている。
    • 店舗データを活用した,信頼性の高いAIモデルの構築と,客観的な評価指標の確立を目指す。
    • Ostrakon-VLは,ShopBenchにおいて平均60.1点を達成し,既存のオープンソースMLLMを上回る性能を示した。
    • 特に,パラメータ数の多いQwen3-VL-235B-A22Bを0.7点上回り,パラメータ効率の高さが確認された。
    • これらの結果は,Ostrakon-VLが店舗業務に特化した知覚と意思決定能力において,より堅牢で信頼できる性能を発揮することを示唆する。

    Link: https://arxiv.org/abs/2601.21342

  • 自己改善型事前学習:後学習済みモデルを用いたより良いモデルの事前学習 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの安全性,事実性,全体的な品質の向上
    • 大規模言語モデルの利用拡大に伴い,安全性や品質確保は不可欠である。
    • 事前学習段階で学習された問題パターンを修正することが困難である。
    • 事前学習段階で安全性と事実性を高め,より高品質なモデルを構築すること。
    • 提案手法は,事実性において標準的な事前学習よりも36.2%の相対的な改善を示す。
    • 安全性においては18.5%の相対的な改善,全体的な生成品質では最大86.3%の勝率向上を実現した。
    • 強化学習により,モデルの生成能力を段階的に向上させ,安全性と事実性を担保する。

    Link: https://arxiv.org/abs/2601.21343

  • 協調学習のための動的フレームワーク:適応的フィードバック機構を備えた高度なLLMの活用 [cs.AI, cs.HC, cs.SE]目的:協調学習プラットフォームにおける学生のエンゲージメント,批判的思考,包容性の向上
    • 教育現場における個別最適化された学習のニーズは高まっており,効果的な学習支援システムの開発が求められている。
    • 既存の教育システムでは,静的なモデレーションやパーソナライズの不足が,学習効果の阻害要因となっている。
    • 本研究は,動的なモデレーションと適応的なフィードバックを通じて,より公平で効果的な学習成果を目指す。
    • 本フレームワークは,リアルタイムな議論の促進と学習者のニーズへの適応により,学生の協調学習を大幅に改善することが示された。
    • 高度なLLMを動的モデレーターとして活用することで,より深い理解の促進と幅広い科目・ユーザーグループへの拡張性を実現した。
    • 堅牢なフィードバック機構は,AIモデレーションの改善,内省的学習の促進,およびユーザー間の参加バランスに貢献する。

    Link: https://arxiv.org/abs/2601.21344

  • 拡散モデルにおけるノイズ除去中心の視点からの記憶制御 [cs.RO, cs.LG, cs.AI]目的:拡散モデルにおける記憶制御のメカニズム
    • 生成モデルの性能向上は,多様な応用において不可欠である。
    • 拡散モデルは学習データの記憶に偏りやすく,汎化性能が低下しやすい。
    • ノイズ除去過程における学習の偏りを抑制し,記憶と汎化のバランスを制御すること。
    • 一様ステップサンプリングが,ノイズ除去ステップ間の学習貢献度の不均衡を生じさせることが示された。
    • ノイズ除去過程における学習位置を明示的に制御するステップサンプリング戦略が提案された。
    • 提案手法は,学習の重点を遅いノイズ除去ステップにシフトすることで記憶を低減し,データ分布との整合性を向上させる。

    Link: https://arxiv.org/abs/2601.21348