arXiv雑要約

AI - 2026/02/03 公開

  • EverMemBench:大規模言語モデルにおける長期インタラクティブメモリのベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの長期的な会話メモリ性能の評価
    • LLMアシスタントの高度化には,長期的な文脈理解が不可欠であり,その評価基準が重要となる。
    • 既存のベンチマークは単純な対話に偏っており,現実世界の複雑な会話を捉えきれていない。
    • 現実的な多者間・多トピック会話に対応可能な,高度なメモリシステムの開発を促進する。
    • EverMemBenchは,100万トークンを超える大規模な会話データセットであり,時間的変化や役割に基づいた多様な情報を包含する。
    • 多者間対話における複数段階推論は困難であり,最新モデルでも26%の精度に留まることが示された。
    • 時間的推論はタイムスタンプのマッチングだけでは不十分であり,バージョン管理の概念が重要であることが明らかになった。

    Link: https://arxiv.org/abs/2602.01313

  • TxRay:ライブブロックチェーン攻撃の事後分析をエージェントによって行う [cs.CR, cs.AI]目的:ライブブロックチェーン攻撃の事後分析の自動化
    • DeFiの発展によりブロックチェーンが金融インフラとなり,その安全性確保が重要である。
    • DeFiにおける攻撃は多く,その原因特定には時間と専門知識を要する。
    • TxRayは,限られた情報から攻撃ライフサイクルを再構築し,根本原因を特定する。
    • TxRayは,LLMエージェントを用いて,単一のトランザクションから攻撃のライフサイクルを復元し,根本原因を導き出す。
    • 114件の事例で,92.11%の事例で専門家と一致する根本原因と実行可能なPoCを生成した。
    • TxRayが生成したPoCは,攻撃者のアドレスをハードコードしていない割合が98.1%であり,攻撃模倣の範囲を拡大する。

    Link: https://arxiv.org/abs/2602.01317

  • PolySAE:多項式デコーディングによるスパースオートエンコーダにおける特徴量相互作用のモデリング [cs.LG, cs.CL]目的:ニューラルネットワーク表現の解釈可能性向上
    • 深層学習モデルの内部表現を理解することは,AIの信頼性と制御可能性を高める上で重要である。
    • 従来のスパースオートエンコーダは,特徴量の線形結合で表現するため,概念的な構成構造を捉えられない。
    • 多項式デコーディングを用いて特徴量間の相互作用をモデル化し,より解釈性の高い表現を獲得すること。
    • PolySAEは,既存のSAEと比較して,プロービングF1スコアを平均約8%向上させた。
    • 学習された相互作用重みは,特徴量の共起頻度との相関が低く,概念的な構成構造を捉えていることを示唆する。
    • PolySAEは,パラメータ数の増加を抑制しつつ,特徴量の分布間のWasserstein距離を拡大することに成功した。

    Link: https://arxiv.org/abs/2602.01322

  • スキーマ駆動型エージェント的推論による視覚的メタファーの転移 [cs.CV, cs.AI]目的:視覚的メタファー転移の実現
    • 創造性は,抽象概念を効果的に伝える上で重要であり,視覚的メタファーはその表現手段として活用される。
    • 既存の生成AIモデルは,ピクセルレベルの指示追従に偏っており,メタファー生成に必要な抽象的論理の把握が不十分である。
    • 視覚的メタファーの根底にある抽象的論理を抽出し,別の対象に適用する手法を確立すること。
    • 本研究では,概念融合理論に基づいたマルチエージェントフレームワークを提案し,視覚的メタファー転移タスクを実現した。
    • 提案手法は,既存モデルと比較して,メタファーの一貫性,類似性の適切性,視覚的創造性において大幅な性能向上を示した。
    • この成果は,広告やメディアといった分野における,自動化された創造的な応用を可能にする基盤となる。

    Link: https://arxiv.org/abs/2602.01335

  • 拡散モデルと対数凹分布に対する高精度サンプリング [cs.LG, math.ST, stat.ML, stat.TH]目的:拡散モデルおよび対数凹分布における高精度サンプリング手法
    • 機械学習モデルの生成能力向上は,画像生成など多様な応用において重要である。
    • 既存のサンプリング手法は,高い精度を得るために計算コストがかかりやすい。
    • 拡散モデルや対数凹分布に対する効率的なサンプリングアルゴリズムの開発。
    • 本研究では,拡散モデルのサンプリングにおいて,誤差$\delta$に対し$\mathrm{polylog}(1/\delta)$ステップで高精度なサンプルを得るアルゴリズムを提案した。
    • 提案手法は,従来のアルゴリズムと比較して,計算複雑度において指数関数的な改善を実現した。
    • また,一般的な対数凹分布に対しても,勾配評価のみを用いて$\mathrm{polylog}(1/\delta)$の複雑度でサンプリングを行う手法を新たに提示した。

    Link: https://arxiv.org/abs/2602.01338

  • 確率的ミニマックス最適化における微分プライバシー付き2次停止点の探索 [cs.LG]目的:確率的非凸ミニマックス最適化における微分プライバシー付き2次停止点の探索
    • 機械学習モデルのプライバシー保護は重要であり,特に敵対的環境下での安全性確保が求められている。
    • 既存研究では,ミニマックス問題に対する2次停止点の探索,または古典的な確率的最小化問題に対する2次停止点の探索しか行われていない。
    • 本研究は,両者を統合し,プライバシー保護された2次停止点探索を実現する手法を提案する。
    • 提案手法は,ネストされた勾配降下・上昇法とSPIDER様式の分散低減,ガウス摂動を組み合わせることで,プライバシーを確保する。
    • ブロックワイズ(q-周期)分析により,確率的変動とプライバシーノイズの累積を抑制し,実証的リスクと母集団リスクを統一的に扱う。
    • 理論的保証として,実証的リスクに対しては$\alpha = \mathcal{O}( (\frac{\sqrt{d}}{n\varepsilon})^{2/3})$,母集団リスクに対しては$\mathcal{O}(\frac{1}{n^{1/3}} + (\frac{\sqrt{d}}{n\varepsilon})^{1/2})$の近似精度を持つ2次停止点に到達可能であることを示した。

    Link: https://arxiv.org/abs/2602.01339

  • 文脈認識最適化による6G車載ネットワーク向け適応型量子耐性暗号 [cs.CR, cs.AI, stat.AP]目的:6G車載ネットワークにおける量子耐性暗号の適応的選択
    • 将来の量子コンピュータによるV2X通信のセキュリティ侵害が懸念されており,対策が急務である。
    • 量子耐性暗号は計算負荷が高く,高速な6G車載ネットワークへの適用が課題となっていた。
    • 予測に基づく動的な暗号構成選択により,遅延とセキュリティの制約を満たすことを目指す。
    • 提案手法は,予測多目的進化アルゴリズムを用いて,状況に応じた最適な量子耐性暗号構成を動的に選択する。
    • シミュレーションにより,エンドツーエンド遅延を最大27%削減し,通信オーバーヘッドを最大65%削減できることが示された。
    • また,提案する安全な単調アップグレードプロトコルは,様々な攻撃に対して有効であることが確認された。

    Link: https://arxiv.org/abs/2602.01342

  • ビジョン言語モデル選択のための層伝導性によるタスク特異性類似度 [cs.AI]目的:ビジョン言語モデル選択のためのフレームワーク
    • 近年,ビジョン言語モデルが発展しているが,最適なモデル選択は課題である。
    • 計算資源やデータ不足により,網羅的な評価が困難である。
    • 内部機能ダイナミクスに基づき,効率的なモデル選択を目指す。
    • 提案手法は,層伝導性を用いてタスクを表現し,ターゲット条件付きブロック重要度分布を算出する。
    • 非対称的な指標であるDirectional Conductance Divergence (DCD)を導入し,ソースタスクがターゲットの重要な機能ブロックをどれだけ網羅しているかを定量化する。
    • 21のデータセットにおける48のVLMで実験を行い,最先端手法と比較してNDCG@5で14.7%の改善を達成した。

    Link: https://arxiv.org/abs/2602.01346

  • CRAFT:強化学習による回答忠実な経路を用いたキャリブレーションされた推論 [cs.CL, cs.LG]目的:複数段階の質問応答における推論の精度と信頼性の向上
    • 大規模言語モデルの知識獲得と推論能力を向上させる上で,外部知識の活用が重要である。
    • 複数段階の質問応答では,推論の過程で誤りが生じやすく,根拠に基づかない回答が生成される可能性がある。
    • 回答の正確性と,その根拠となる推論の一貫性を両立させることを目指す。
    • CRAFTは,強化学習フレームワークを用いて,回答を忠実に支持する推論を生成するようにモデルを訓練する。
    • 構造の正確性を保証する決定論的報酬と,意味的な忠実性を検証する判断に基づいた報酬という二重の報酬メカニズムを採用する。
    • 実験の結果,CRAFTはモデルの規模に関わらず,回答の正確性と推論の信頼性を向上させ,競合するクローズドソースLLMと同等の性能を達成した。

    Link: https://arxiv.org/abs/2602.01348

  • 非構造化テキストにおける集計クエリ:ベンチマークとエージェント手法 [cs.AI]目的:非構造化テキストに対する集計クエリの解決
    • 自然言語処理における情報検索の高度化には,テキストデータからの集計処理が不可欠である。
    • 既存手法は,集計クエリに必要な網羅的な証拠収集が困難であり,完全性に欠ける場合が多い。
    • 集計クエリにおける完全性を重視した評価基準と,それを満たすための手法開発を目指す。
    • 新たなベンチマークAGGBenchを導入し,集計クエリの完全性評価を可能にした。
    • 提案手法DFAは,曖昧性,フィルタリング,集計における課題を分解し,既存手法を上回る証拠網羅率を実現した。
    • DFAは,大規模なテキストコーパスにおいて,より完全な集計結果を得るための有効性を示した。

    Link: https://arxiv.org/abs/2602.01355

  • 自己対戦アルゴリズムは密かに敵対的模倣者である:模倣学習の視点を通じたLLM自己対戦の理解 [cs.CC, cs.LG]目的:大規模言語モデルの自己対戦によるファインチューニングの理論的基盤の解明
    • 言語モデルの性能向上には,大量のデータと計算資源が必要であり,効率的な学習手法が求められている
    • 自己対戦学習は有効だが,その理論的な根拠が不明確であり,安定性や収束性に関する問題がある
    • 自己対戦学習を敵対的模倣学習として捉え,理論的な分析に基づいた安定な学習アルゴリズムを開発する
    • 自己対戦ファインチューニングは,モデルと報酬プレイヤー間のmin-maxゲームとして定式化できることが示された
    • この定式化に基づき,$\chi^2$-divergenceに基づく新しい自己対戦模倣ファインチューニングアルゴリズムが提案された
    • 様々な言語モデルのファインチューニングタスクで,既存手法と比較して一貫した性能向上が確認された

    Link: https://arxiv.org/abs/2602.01357

  • PaAno:時系列異常検知のためのパッチベース表現学習 [cs.LG, cs.AI]目的:時系列データの異常検知手法
    • 時系列データ分析は,様々な分野で重要な役割を担っており,異常検知はその中でも特に重要である。
    • 大規模なニューラルネットワークは計算コストが高く,リソースに制約がある環境での利用が困難である。
    • 計算コストを抑えつつ,高精度な時系列異常検知を実現することを目指す。
    • 提案手法PaAnoは,TSB-ADベンチマークにおいて,既存の手法を大きく上回る最先端の性能を達成した。
    • 特に,ユニバリアートおよびマルチバリアート時系列データにおいて,様々な評価指標で優れた結果を示した。
    • PaAnoは,計算コストを抑えながらも,高精度な異常検知を可能にする軽量かつ効果的な手法である。

    Link: https://arxiv.org/abs/2602.01359

  • ドメイン間の相互作用:強化学習による推論における非対称性と順序依存性 [cs.LG, cs.AI, cs.CL]目的:異なるドメインのシーケンス戦略下におけるグループ相対ポリシー最適化 (GRPO) の振る舞いの解明
    • 大規模言語モデルの推論能力向上は,AI研究における重要な課題である。
    • GRPOにおけるドメインシーケンス戦略の影響に関する体系的な研究が不足している。
    • ドメイン間の相互作用と最適な学習戦略を明らかにし,性能向上を目指す。
    • 単一ドメインの汎化性能には非対称性が認められ,特に数学は他のドメインからの学習により約25%の精度向上が見られた。
    • ドメイン学習順序は性能に大きな影響を与え,数学→科学と科学→数学で結果が大きく異なることが示された。
    • 多ドメイン学習において,シーケンシャル学習は数学に,混合学習は科学と論理に有利であり,最適な戦略はドメインに依存する。

    Link: https://arxiv.org/abs/2602.01365

  • 深層コントラスト学習によるリスク層別化とイベント発生時間推定の同時学習 [cs.LG, cs.AI]目的:臨床意思決定のためのリスク層別化とイベント発生時間推定
    • 生存時間解析は,治療計画の策定や患者のリスク評価において不可欠な手法である。
    • 深層学習は予測精度向上に貢献するが,解釈可能性が課題となっている。
    • 予測精度と解釈可能性を両立した生存時間解析モデルの開発。
    • 提案手法CONVERSEは,変分オートエンコーダとコントラスト学習を組み合わせることで,解釈可能なリスク層別化を実現した。
    • 複数のデータセットにおける評価により,既存の深層学習モデルと同等以上の性能を達成した。
    • リスク層別化においても有意義な結果が得られ,臨床応用への期待が高まる。

    Link: https://arxiv.org/abs/2602.01367

  • PolyGen:多重生成器アンサンブルによる完全合成の視覚言語学習 [cs.CV, cs.AI, cs.LG]目的:視覚言語学習のための,多様性と構成の厳密性を重視した合成データ構築
    • 視覚言語理解は,画像とテキストを結びつけるAI技術の根幹であり,多様な応用を可能にする。
    • 既存の合成データ生成手法は,単一の生成器に依存し,その特性に偏った学習結果となりがちである。
    • 異なる生成器による多様なデータを活用し,生成器固有の偏りを抑制することで,よりロバストな特徴空間を構築する。
    • PolyGenは,複数の異なる生成器の交差部分で学習するPolylithicアプローチを採用し,生成器特有のアーチファクトを排除する。
    • プログラムによる難易度調整を用いた学習により,構文的な理解を深め,より洗練された特徴表現を獲得する。
    • マルチタスクベンチマークで既存のSynthCLIPを19.0%上回り,SugarCrepe++では9.1%の性能向上を示した。

    Link: https://arxiv.org/abs/2602.01370

  • 自己回帰型言語モデルにおける文脈依存性と信頼性 [cs.CL, cs.AI, stat.ML]目的:言語モデルの出力に影響を与える文脈要素の特定
    • 大規模言語モデルの応用拡大に伴い,その意思決定の根拠を理解することが重要となっている。
    • 既存の説明手法は文脈の冗長性に対処できず,説明の安定性や解釈性に課題がある。
    • 冗長性を考慮し,出力に影響を与える重要な文脈要素を明確に特定すること。
    • 提案手法RISEは,入力間の相関を抑制し,各入力要素の独自の影響を定量化することで,より明確かつ安定した説明を提供する。
    • 実験の結果,RISEは従来の手段よりも堅牢な説明が可能であり,信頼性の高い言語モデルの説明と監視に貢献することが示された。
    • 文脈情報の条件付き重要性が,信頼できるLLMの説明において不可欠であることが強調された。

    Link: https://arxiv.org/abs/2602.01378

  • PromptRL:フローベース画像生成における強化学習でのプロンプトの重要性 [cs.CL, stat.ML, cs.CV, cs.LG]目的:フローベース画像生成における強化学習の効率と汎化性能の向上
    • テキストから画像を生成する技術は,創造性や表現の幅を広げる上で不可欠である。
    • 既存の強化学習パイプラインは,生成多様性の不足やプロンプトへの過学習といった課題を抱えている。
    • プロンプトを洗練する言語モデルを導入し,最適化プロセスを改善することで,これらの課題を克服する。
    • PromptRLは,GenEvalで0.97,OCR精度で0.98,PickScoreで24.05という,複数のベンチマークで最先端の性能を達成した。
    • 大規模な画像編集モデルFLUX.1-KontextのEditRewardを1.19から1.43に向上させ,Gemini 2.5 Flash ImageやReasonNetといった既存モデルを上回る性能を示した。
    • PromptRLは,従来のフローベース強化学習と比較して,必要なロールアウト数を2倍以上削減しながら,より高い性能上限に到達することが実証された。

    Link: https://arxiv.org/abs/2602.01382

  • 「もしあなたが非常に賢いなら,誰もあなたがそれを使ったとは知らない」:職場における生成AIリテラシー育成の社会力学 [cs.RO, cs.HC, cs.AI]目的:職場における生成AIリテラシー育成の社会力学的プロセス
    • 知識労働の変革に伴い,生成AIリテラシーは組織にとって不可欠な能力となっている。
    • 職場における生成AIリテラシー形成の社会的な側面に関する実証的な知見が不足している。
    • 生成AIの活用における学習機会の促進と透明性の向上を目指す。
    • 同僚との知識共有は学習を支援する一方で,生成AI利用の痕跡を消すことが専門性の証明と捉えられる傾向がある。
    • この行動は知識共有の機会を減少させ,透明性を損なう可能性がある。
    • 職場におけるAIリテラシー向上のためには,オープンな対話,ユーザー生成型知識の可視化,協調学習の重視が重要である。

    Link: https://arxiv.org/abs/2602.01386

  • 物理情報に基づくKolmogorov-Arnoldネットワークの拡張:金融深層強化学習(RL)アルゴリズムにおけるニュートンの法則の応用 [cs.HC, cs.CE, cs.LG]目的:ポートフォリオ最適化のための強化学習フレームワーク
    • 金融取引問題において,強化学習は強力な手法として注目されている。
    • 従来の強化学習は,不安定性や汎化性能の低さといった課題がある。
    • 動的かつノイズの多い金融市場において,安定した高いパフォーマンスを実現すること。
    • 提案手法は,中国,ベトナム,米国を含む3つの株式市場で,従来の強化学習や古典的なポートフォリオ選択手法と比較して,より高い累積リターンと年化リターンを達成した。
    • シャープレシオとカルマーレシオも向上し,ドローダウン特性も改善された。
    • 学習の安定性が向上し,より高いシャープレシオと優れたパフォーマンスが得られた。

    Link: https://arxiv.org/abs/2602.01388

  • VLMによる音声解説の評価能力:多次元定量的評価フレームワーク [cs.RO, cs.HC, cs.AI]目的:音声解説の質的評価のためのフレームワーク
    • デジタル動画は情報伝達・教育・娯楽に不可欠だが,視覚障碍者には音声解説が必須である。
    • 既存の評価方法はNLP指標や短尺動画に偏り,長尺コンテンツの質評価が課題となっている。
    • VLMと人間の評価者の能力を比較し,効率的な質管理手法を確立することを目指す。
    • VLMは専門家による評価と高い一致性を示すものの,その推論の信頼性・有用性は人間に劣る。
    • VLMと人間による評価を組み合わせたハイブリッド評価システムの可能性が示唆された。
    • このフレームワークは,音声解説の品質管理を大規模に行うための道筋を提供する。

    Link: https://arxiv.org/abs/2602.01390

  • 輸送現象が支配的な問題に対する非線形モデル次元削減 [cs.CL, cs.HC, math.NA, cs.LG, cs.NA, math.OC]目的:輸送現象が支配的な問題における非線形モデル次元削減手法
    • 複雑な物理現象のシミュレーションにおいて,計算コストが課題となる。
    • 線形近似では精度が不十分な,非線形性の強い問題が存在する。
    • 線形近似が適用できない問題に対し,効率的な次元削減手法を確立する。
    • 本研究は,非線形パラメトリゼーション,縮約力学,オンラインソルバーという3つの要素を中心に,非線形モデル次元削減手法を整理した。
    • 変換に基づく手法,オンライン適応技術,汎用的な非線形パラメトリゼーションと瞬時残差最小化の組み合わせなど,既存のアプローチを分類した。
    • これにより,Kolmogorov障壁に関連する現象など,線形近似が困難な輸送現象が支配的な問題への応用が可能となる。

    Link: https://arxiv.org/abs/2602.01397

  • シャプレー値の奇数推定器 [cs.LG, cs.AI, stat.ML]目的:シャプレー値の推定方法
    • 機械学習における説明可能性や因果推論において,特徴量の重要度を評価する上で不可欠な概念である。
    • 正確な計算が困難であり,効率的な近似手法が求められている。
    • 対生成サンプリングの理論的根拠を明らかにし,より高精度な推定器を開発すること。
    • シャプレー値は集合関数の奇数成分のみに依存することが証明された。
    • OddSHAPは,奇数部分空間のみで多項式回帰を行うことで,従来の近似手法を凌駕する精度を実現した。
    • フーリエ基底を利用することで,高次の近似による組み合わせ爆発の問題を克服している。

    Link: https://arxiv.org/abs/2602.01399

  • プラグマからパートナーへ:エージェント駆動型ハイレベル合成の共生的進化 [cs.CL, cs.AI]目的:エージェント駆動型ハードウェア設計におけるハイレベル合成の役割
    • AI技術の進展に伴い,ハードウェア設計の自動化が重要視されている。
    • 従来のハイレベル合成ツールは,性能フィードバックの不足やデバッグの困難さといった課題がある。
    • AIエージェントを活用することで,これらの課題を克服し,ハードウェア設計を効率化すること。
    • 本研究では,ハイレベル合成がエージェント駆動型ハードウェア設計において,重要な抽象化層および参照点となることを示す。
    • 現在のハイレベル合成ツールの限界を特定し,AIエージェントがその解決に貢献できる可能性を指摘する。
    • エージェント駆動型ハイレベル合成の進化段階を分類し,人間とAIの役割分担の変化を明らかにする。

    Link: https://arxiv.org/abs/2602.01401

  • サブバイト大規模言語モデル学習のための適応型混合精度フレームワークSNIP [cs.DC, cs.HC, cs.LG, cs.AR]目的:大規模言語モデル学習における効率性とモデル品質の維持
    • 近年,大規模言語モデルは自然言語処理の様々なタスクで高い性能を発揮しており,その重要性が増している。
    • サブバイト精度をサポートするGPUを用いた学習では,効率性と品質のバランスが課題となっている。
    • 層ごとの精度を最適化することで,計算コストを削減しつつモデルの品質を維持することを目的とする。
    • SNIPは,活性化,勾配,オプティマイザの状態に関する統計情報を収集し,精度低下がモデル品質に与える影響を評価する。
    • SNIPは整数線形計画法を用いて層ごとの精度を最適化し,全体の品質損失を最小限に抑えながら効率目標を達成する。
    • 1B,3B,7B,70BのLlama類似モデルにおける実験により,SNIPが既存の手法を上回り,FLOPsを最大80%削減し,モデル品質を維持することが示された。

    Link: https://arxiv.org/abs/2602.01410

  • 視覚のための放物線に基づく位置符号化:原理に基づいた視覚中心の位置符号化 [cs.DC, cs.MA, cs.CV, cs.LG]目的:視覚モダリティにおける位置情報の符号化
    • 近年の視覚タスクにおいて,自己注意機構が重要な役割を果たしており,位置情報の効果的な符号化が不可欠である。
    • 既存の位置符号化は言語処理から流用されたものが多く,視覚モダリティ特有の特性を十分に考慮されていない。
    • 視覚モダリティの特性に基づき,より優れた位置符号化手法を開発し,性能向上を目指す。
    • 提案手法PaPEおよびPaPE-RIは,8つのデータセット中7つで最高性能を達成した。
    • ImageNet-1Kでの外挿実験において,PaPEは他の位置符号化手法を最大10.5%上回る絶対的な性能向上を示した。
    • PaPEは,並進不変性,回転不変性,距離減衰,方向性,文脈認識といった原理に基づき設計されている。

    Link: https://arxiv.org/abs/2602.01418

  • 疑似ラベリングによる半教師ありCAPP Transformer学習 [cs.LG, cs.AI]目的:CAPP Transformerモデルの汎化性能向上
    • 製造業におけるプロセス計画の自動化は,生産性向上に不可欠である。
    • CAPPシステムの学習データが不足しており,モデルの精度向上が課題である。
    • データ不足環境下で,モデルの精度を向上させることを目指す。
    • 本研究では,教師ありデータが少ない状況でも,TransformerベースのCAPPモデルの性能を向上させる半教師あり学習法を提案した。
    • 訓練済みモデルを利用して生成された予測をフィルタリングし,疑似ラベルとして活用することで,効率的なモデルの再学習を実現した。
    • 実験の結果,提案手法は既存手法と比較して,精度向上が確認された。

    Link: https://arxiv.org/abs/2602.01419

  • 標的化された指示ペアを用いた,より優れた欺瞞検出プローブの構築 [cs.HC, cs.AI, cs.LG]目的:AIシステムの欺瞞的な行動を監視するためのプローブの性能向上
    • AIの発展に伴い,その安全性と信頼性の確保が重要課題となっている。
    • 既存の欺瞞検出プローブは,誤検出や表面的な相関関係に陥りやすい。
    • 欺瞞行動の分類に基づいた指示ペアの設計により,プローブの性能を改善すること。
    • 指示ペアは,コンテンツ固有のパターンよりも欺瞞的な意図を捉えていることが示された。
    • プロンプトの選択がプローブの性能に大きく影響し,全体の分散の70.6%を占めることが判明した。
    • 特定の脅威モデルに特化したプローブを設計することが,汎用的な欺瞞検出器を求めるよりも有効である。

    Link: https://arxiv.org/abs/2602.01425

  • 言語モデルにおけるウォーターマーク強度と推測サンプリング効率のトレードオフ改善 [cs.LG, cs.CR]目的:言語モデル出力の出所追跡のためのウォーターマーク強度と,推測サンプリングによる推論効率の間のトレードオフ改善
    • 大規模言語モデルの利用拡大に伴い,生成されたテキストの信頼性確保が重要課題となっている。
    • ウォーターマークは出所追跡に有効だが,推論効率を低下させるという課題があった。
    • ウォーターマーク強度と推測サンプリング効率のトレードオフを解消し,両立を目指す。
    • ウォーターマーク強度を定量的に評価する指標を導入し,統計的検出可能性を最大化する条件を明らかにした。
    • 既存のウォーターマーク手法におけるトレードオフを制約付き最適化問題として定式化し,パレート曲線を得た。
    • 推測サンプリングにおけるドラフトトークン受容に擬似乱数を導入するメカニズムを提案し,ウォーターマーク強度と効率の両立を実現した。

    Link: https://arxiv.org/abs/2602.01428

  • DCD:自己相関と非定常性を持つ時系列データからの分解に基づく因果探索 [cs.RO, cs.LG, cs.AI, stat.ML]目的:自己相関と非定常性を持つ時系列データからの因果構造の発見
    • 金融,気候科学,医療など,多変量時系列分析は重要であり,複雑な因果関係を解明する必要がある。
    • 従来の因果探索手法は,非定常性や自己相関の影響を受けやすく,誤った因果関係を導く可能性がある。
    • トレンド,季節性,残差といった成分に分解することで,より正確な因果構造を特定することを目指す。
    • 提案手法は,時系列データを成分ごとに分析することで,偽の関連性を減らし,解釈性を高める。
    • 合成データと実際の気候データを用いた実験で,既存手法よりも正確に因果構造を復元できることが示された。
    • 特に,強い非定常性と自己相関が存在する場合に,その性能が顕著に向上することが確認された。

    Link: https://arxiv.org/abs/2602.01433

  • ニューラルネットワークにおける特徴学習の相転移 [cs.LG, math.ST, stat.TH]目的:ニューラルネットワークにおける特徴学習の閾値の導出
    • 近年,深層学習の理論的基盤を理解する重要性が高まっている。
    • データ次元がサンプル数よりも大きい場合,特徴学習が困難になることが知られている。
    • ニューラルネットワークにおける特徴学習の限界と,その閾値を明らかにすること。
    • 本研究では,2層ニューラルネットワークにおいて,特徴学習が可能なデータ次元とサンプル数の比率の閾値δNNを導出した。
    • この閾値は,勾配の大きさの変化とヘッセ行列のスペクトルにおける相転移によって決定される。
    • 閾値δNNの導出は,ネットワーク構造と学習アルゴリズムが学習ダイナミクスに与える影響の研究への道を開く。

    Link: https://arxiv.org/abs/2602.01434

  • 部分観測データに対する測度一貫性正則化の理論的分析 [cs.LG, stat.ML]目的:部分観測下における正則化手法の理論的根拠の解明
    • 機械学習において,不完全なデータは汎化性能低下の大きな要因となる。
    • 欠損値やノイズを含むデータに対するロバストな学習法が求められている。
    • 測度一貫性正則化が有効であるものの,その理論的解明が遅れていた。
    • 測度一貫性正則化の汎化性能向上要因をニューラルネットワーク距離の観点から特定した。
    • 学習過程における二重性ギャップを監視することで,汎化性能を維持した早期停止条件を提案した。
    • 提案手法の有効性を理論的・実験的に検証し,様々なデータソースへの適応性を示した。

    Link: https://arxiv.org/abs/2602.01437

  • CIPHER:応答のハイブリッド評価による暗号学的脆弱性プロファイリング [cs.CR, cs.AI]目的:大規模言語モデル生成コードにおける暗号学的脆弱性の発生状況の測定
    • 現代のソフトウェア開発において,暗号は情報セキュリティの根幹であり,その重要性は増している。
    • 大規模言語モデルが生成するコードには,暗号機能の誤りを含む可能性があり,セキュリティ上のリスクとなる。
    • 本研究は,大規模言語モデルが生成するコードの暗号学的脆弱性を定量的に評価し,改善策を検討することを目的とする。
    • CIPHERベンチマークを用いて,様々な大規模言語モデルの暗号学的脆弱性を評価した結果,明示的な「安全」プロンプトは特定の脆弱性を軽減するものの,全体的な脆弱性を確実に排除するものではないことが示された。
    • 脆弱性の分類体系と自動スコアリングパイプラインを構築し,脆弱性の特定と評価を効率化することができた。
    • ベンチマークとスコアリングパイプラインは公開され,暗号学的セキュリティの向上に貢献することが期待される。

    Link: https://arxiv.org/abs/2602.01438

  • TQL:アテンション崩壊を防ぐことでTransformerを用いたQ関数のスケーリング [cs.LG, cs.AI]目的:Q関数のスケーリング
    • 機械学習の進歩には規模拡大が不可欠だが,強化学習ではQ関数の規模が小さいまま。
    • TransformerをQ関数に適用しても,学習不安定や性能低下が起こりやすい。
    • アテンションスコアの崩壊を防ぎ,スケーリングを安定させる手法を開発する。
    • アテンションスコアのエントロピーを制御することで,Transformerのスケーリングを可能にした。
    • 提案手法TQLは,ネットワーク規模拡大で最大43%の性能向上を達成した。
    • 既存手法では性能劣化が見られたのに対し,安定した学習が可能となった。

    Link: https://arxiv.org/abs/2602.01439

  • 勾配-因果性の乖離:複雑なタスクにおける勾配重要度の失敗 [cs.LG, cs.AI, cs.CL]目的:複雑なタスクにおける勾配重要度の限界
    • 深層学習モデルの汎化性能向上は重要な課題である。過学習を抑制し,未知データへの対応能力を高める必要がある。
    • 勾配情報に基づくニューラルネットワークのプルーニングは,不安定な結果をもたらす可能性がある。
    • 勾配と因果関係のずれを定量化し,より信頼性の高いプルーニング手法の確立を目指す。
    • Transformerモデルにおいて,タスクの複雑さが増すにつれて,勾配の大きさは因果的重要度と乖離することが示された。
    • 勾配の低い「隠れたヒーロー」の除去は,外挿性能を著しく低下させる。
    • 勾配の高い「勾配の膨張」の除去は,最適化ノイズや過学習回路の存在により結果が不安定である。

    Link: https://arxiv.org/abs/2602.01442

  • SimGym:EコマースにおけるオフラインA/Bテストのためのトラフィックに基づいたブラウザエージェント [cs.AI]目的:EコマースUI変更のオフラインA/Bテスト
    • EコマースにおけるUI改善は,売上向上や顧客体験の向上に不可欠である。
    • 従来のA/Bテストは,トラフィックを diversion し,結果が出るまでに時間がかかる。
    • SimGymは,実際のトラフィックデータを活用し,迅速かつ安全なA/Bテストを実現する。
    • SimGymは,大規模言語モデルを活用した合成バイヤーを用いて,オフラインでのA/Bテストを可能にした。
    • 実店舗の購入者プロファイルと意図を抽出し,行動特性に基づいてシミュレーションを行う。
    • SimGymは,実際のUI変更に対する人間の行動を再現し,実験サイクルを大幅に短縮する。

    Link: https://arxiv.org/abs/2602.01443

  • 時系列予測におけるハイパーパラメータ最適化のためのメタ知識拡張LLMフレームワーク [cs.LG]目的:時系列予測におけるハイパーパラメータ最適化手法
    • 深層学習モデルの性能向上にはハイパーパラメータ最適化が不可欠であり,その重要性は高い。
    • 従来のハイパーパラメータ最適化は計算コストが高く,その意思決定の解釈が困難である。
    • LLMを活用し,文脈に応じた安定したハイパーパラメータ調整と,その根拠の可視化を目指す。
    • 提案手法LLM-AutoOptは,既存のベイズ最適化と比較して,予測性能が向上した。
    • LLM-AutoOptは,メタ知識を取り入れないベースライン手法よりも,より解釈可能な最適化行動を示した。
    • データセットの特徴量やモデルの説明をLLMに組み込むことで,最適化の文脈理解を促進した。

    Link: https://arxiv.org/abs/2602.01445

  • SentiFuse:堅牢な感情抽出のための深層マルチモーダル融合フレームワーク [cs.CL, cs.AI]目的:感情抽出モデルの融合による性能向上
    • 感情分析は,顧客の意見把握や市場調査など,様々な分野で重要視されている。
    • 既存手法では,異なる感情分析モデルの効果的な統合が困難であった。
    • 本研究は,多様なモデルの相補性を活かし,より正確な感情分析を実現することを目指す。
    • SentiFuseは,標準化層と複数の融合戦略により,異種感情モデルを効果的に統合する。
    • 実験結果から,SentiFuseは個々のモデルや単純なアンサンブルよりも一貫して高い性能を示すことが確認された。
    • 特に特徴量レベルの融合は,F1スコアで最大4%の絶対的な改善を達成し,否定表現や複合感情に対する頑健性を向上させる。

    Link: https://arxiv.org/abs/2602.01447

  • 知覚に基づくセマンティックオブジェクト識別によるインテリジェントビークルのクロスパラダイム評価 [cs.HC, cs.CY, cs.IR, cs.CL, cs.CV, cs.AI]目的:運転中のドライバーの視線行動を特徴づける,セマンティックオブジェクト識別
    • 次世代の先進運転支援システムや道路安全の向上において,ドライバーの視線行動の理解は不可欠である。
    • 既存手法では,道路状況の変化や夜間などの悪条件下において,小型で重要なオブジェクトの正確な識別が課題である。
    • 異なるアプローチを用いて,ドライバーの視線とオブジェクトの意味的関連性を明らかにし,よりロバストな識別手法を開発する。
    • 直接オブジェクト検出(YOLOv13)と大規模VLM(Qwen2.5-VL-32b)が他の手法を大幅に上回り,マクロF1スコア0.84を超えた。
    • 特にQwen2.5-VL-32bは,夜間などの悪条件下で,信号機などの小型で安全上重要なオブジェクトの識別において,優れたロバスト性と性能を示した。
    • セグメンテーション支援型パラダイムは「部分対全体」の意味的ギャップによりリコールが大きく低下し,リアルタイム性と文脈理解のトレードオフが明らかになった。

    Link: https://arxiv.org/abs/2602.01452

  • 報酬のないMDPにおける検証可能な協調型マルチエージェント探索 [cs.LG]目的:報酬のないMDPにおける協調型マルチエージェント探索のトレードオフの特性評価
    • マルチエージェントシステムは,複雑なタスクを効率的に解決するために不可欠である。
    • 報酬が与えられない環境での探索は,効率的な学習を妨げる大きな課題である。
    • 限られた探索フェーズ数で,必要なエージェント数を最小限に抑えることを目指す。
    • 探索フェーズ数が地平線Hと等しい場合,効率的なアルゴリズムにより,$\tilde{O}(S^6 H^6 A / \epsilon^2)$のエージェント数で近似的なダイナミクスが得られる。
    • 探索フェーズ数がH未満の場合,少なくとも$A^{H/\rho}$のエージェントが必要であることが示され,Hオーダーの探索フェーズの重要性が明らかになる。
    • エージェント数を多項式的に制限する場合,Hオーダーの学習フェーズが不可欠であることが示された。

    Link: https://arxiv.org/abs/2602.01453

  • 属性グラフにおけるノード属性分布へのトポロジーの影響モデリング [cs.LG]目的:属性グラフにおけるノード属性分布に対するトポロジーの影響
    • グラフ構造とノード属性は複雑なシステムを表現する上で重要であり,それらの関係性を理解することは不可欠である。
    • 既存の研究では,トポロジーと属性の関係性が十分に解明されておらず,効果的なモデリング手法が求められている。
    • グラフのトポロジーがノード属性分布に与える影響を定量的に捉え,より正確なモデルを構築することを目指す。
    • 本研究では,グラフのトポロジーとノード属性分布を構造的に異なる要素として捉え,それらの相互作用を代数的に表現する新たなアプローチを提案した。
    • ノードがグラフのトポロジーをどのように認識するかを形式化し,その認識度をノード属性分布に組み込むことで,トポロジーの影響を捉える。
    • 完全グラフにおいては,提案手法が元の属性分布を再現することを示し,その妥当性を検証した。

    Link: https://arxiv.org/abs/2602.01454

  • 修正されたLpJEPA:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャ [cs.LG, cs.CV]目的:疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャの改良
    • 表現学習は,画像認識などのタスクにおいて重要な役割を果たす。効率的な表現学習は,計算資源の削減にもつながる。
    • 従来の表現学習手法は,密な表現を学習しやすく,効率的な表現に必要な疎性を捉えきれていない。
    • 疎性を明示的に制御しつつ,タスクに関連する情報を保持した表現学習手法を確立すること。
    • 修正された分布マッチング正則化(RDMReg)により,表現の疎性を効果的に制御することが可能となった。
    • RDMRegを搭載したRectified LpJEPAは,既存のガウス基盤のJEPAを厳密に一般化し,疎な非負の表現を学習する。
    • 画像分類ベンチマークにおいて,Rectified LpJEPAは競争力のある性能を示し,疎性と性能のトレードオフを改善した。

    Link: https://arxiv.org/abs/2602.01456

  • 外分布検出の観点から見たVision Transformerのロバスト性理解 [cs.CV, cs.AI, cs.LG]目的:Vision Transformerのロバスト性に関する理解
    • 画像認識分野において,Vision Transformerは高い性能を示すが,実用化には課題が残る。
    • 量子化による軽量化は性能低下を伴う可能性があり,その影響を理解する必要がある。
    • 外分布データに対する量子化の影響を調査し,ロバスト性の向上に貢献する。
    • 4ビットモデルは初期不安定性を示すことが明らかになり,特にImageNet-22kで学習したモデルで顕著であった。
    • ImageNet-22kで事前学習したViTとDeiT3は,4ビット量子化によりAUPR-outでそれぞれ15.0%と19.2%の大きなデルタを示した。
    • 大規模データセットでの事前学習は,外分布検出における低ビット量子化のロバスト性を阻害する可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01459

  • チームベースの自律型ソフトウェアエンジニアリングのためのマルチエージェントシステム:Agyn [cs.AI, cs.SE]目的:チームベースの自律型ソフトウェアエンジニアリングシステムの構築
    • ソフトウェア開発はチームで行われるため,その構造を再現した自律システムの開発が重要である。
    • 既存の自律システムは,課題解決を単一またはパイプライン処理として扱うことが多く,現実のチーム開発とは異なる。
    • チーム構造,方法論,コミュニケーションを再現することで,自律型ソフトウェアエンジニアリングの性能向上を目指す。
    • 本システムは,コーディネーション,調査,実装,レビューといった役割をエージェントに割り当てることで,組織的なプロセスを模倣している。
    • SWE-bench 500において,72.4%のタスクを解決し,単一エージェントのベースラインを上回る性能を示した。
    • 組織設計とエージェントインフラの改善が,モデルの改良と同様に重要である可能性を示唆している。

    Link: https://arxiv.org/abs/2602.01465

  • 階層型エキスパート混合モデルの観点からのゲート付き注意の統計的理論 [cs.LG, stat.ML]目的:ゲート付き注意の統計的理論
    • Transformerは長距離依存関係を学習可能にし,様々な分野で成功を収めているため,その基盤技術である注意機構の理解が重要である。
    • 従来の注意機構では「注意のシンク」現象が発生し,性能が制限される場合がある。
    • ゲート付き注意がなぜより高性能なのか,その理論的根拠を明らかにすることを目指している。
    • ゲート付き注意行列およびマルチヘッド自己注意行列は,階層型エキスパート混合モデルとして表現できることが示された。
    • ゲート付き注意は,マルチヘッド自己注意よりもサンプル効率が良いことが数学的に証明された。
    • ゲートの位置によって性能が変化する理由について,理論的な裏付けが得られた。

    Link: https://arxiv.org/abs/2602.01468

  • P-EAGLE:スケーラブルな学習による並列ドラフト EAGLE [cs.LG, cs.AI]目的:大規模言語モデルにおける並列ドラフト生成手法
    • 推論LLMの長文出力に対応するため,効率的なデコーディング技術が求められている。
    • 並列ドラフトは高速化に有効だが,学習時の計算量がシーケンス長と並列位置の積に対して二乗で増加する。
    • 学習スケーラビリティを向上させ,長文脈での並列予測を可能にすること。
    • P-EAGLEは,EAGLEを自己回帰型から並列多トークン予測型に変換し,学習効率を改善する。
    • アテンションマスクの事前計算やシーケンス分割技術により,並列予測学習における勾配累積を可能にした。
    • vLLMでの実装により,GPT-OSSやQwen3-Coderにおいて,自己回帰型EAGLE-3と比較して1.10〜1.36倍の高速化を達成した。

    Link: https://arxiv.org/abs/2602.01469

  • 変革的AIガバナンスのための法的基盤 [cs.CL, cs.AI, econ.GN, q-fin.EC]目的:変革的AIガバナンスを実現するための法的基盤
    • AI技術の発展は社会に大きな影響を与え,法的整備が不可欠である。
    • AIの急速な進化に対し,法規制の整備が追いついていない現状がある。
    • AIの変革的性質に対応した法整備の枠組みを提案し,議論を深める。
    • AIガバナンスの重点は内容面に置かれがちだが,法的な基盤整備も重要である。
    • 最先端モデルの登録制度,自律エージェントの登録・識別制度の創設が提案されている。
    • 民間企業によるAI規制サービスの革新を促進する規制市場の設計が提唱されている。

    Link: https://arxiv.org/abs/2602.01474

  • 確率的グラフィカルモデルにおけるMPE推論のための局所探索の誘導学習 [cs.AI, cs.LG]目的:確率的グラフィカルモデルにおけるMPE推論のための局所探索の誘導手法
    • 診断,計画,構造化予測など,幅広い分野で基礎的かつ重要な推論問題である。
    • 局所最適解に陥りやすく,効率的な推論が困難であるという課題がある。
    • 反復推論において,局所探索の性能を向上させることを目指す。
    • 提案手法は,アテンションベースのニューラルネットワークを用いて,近最適解への距離を縮める移動を評価する。
    • これにより,短期的な尤度向上と長期的な有望性をバランスさせ,局所探索の効率を高める。
    • 実験結果から,提案手法がSLSやGLS+よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.01475

  • ロッドフロー:安定性の限界における勾配降下の連続時間モデル [cs.CL, cs.LG, cs.AI, math.OC, stat.ML]目的:安定性の限界における勾配降下のダイナミクスに関するODE近似
    • 非凸な損失関数における勾配ベースの学習は重要であり,その理解は深まっていない。
    • 従来の勾配フローでは,大きなステップサイズで勾配降下法が発散する「安定性の限界」現象の説明が困難。
    • ロッドフローは,勾配降下法の反復を一次元オブジェクトとして捉え,より正確な近似を導き出す。
    • ロッドフローは,単純な例では勾配降下法のダイナミクスをより良く捉え,代表的なニューラルネットワークアーキテクチャではCentral Flowと同等の精度を示す。
    • 理論的には,ロッドフローが臨界鋭さ閾値を正確に予測し,カルテットポテンシャルにおける自己安定化を説明できることを証明した。
    • 数値実験によって,ロッドフローの理論的な予測が検証された。

    Link: https://arxiv.org/abs/2602.01480

  • 因果的選好抽出 [cs.HC, cs.LG, cs.AI, stat.ME]目的:専門家を巻き込んだ因果探索のためのベイジアンフレームワーク
    • 因果推論は,科学的発見や意思決定において重要な役割を果たす。
    • 観測データのみでは因果構造の同定が困難な場合がある。
    • 専門家の知識を活用し,効率的に因果構造を学習すること。
    • 提案手法は,専門家への効率的な問い合わせを通じて,DAG(有向非巡回グラフ)の事後分布を迅速に絞り込む。
    • 合成グラフ,タンパク質シグナル伝達データ,およびヒト遺伝子摂動ベンチマーク実験により,提案手法の有効性が示された。
    • 限られた問い合わせ予算下で,より正確な因果効果の復元が可能であることが確認された。

    Link: https://arxiv.org/abs/2602.01483

  • 報酬末尾分布に基づく探索によるテスト時スケーリング則の予測と改善 [cs.LG, stat.ML]目的:大規模言語モデルにおけるテスト時スケーリング則の予測と改善
    • 大規模言語モデルの推論能力向上において,テスト時スケーリングが重要な手法として注目されている。
    • 既存手法は,計算資源の配分や多段階の意思決定において,理論的な保証が不足している。
    • 報酬末尾分布の推定に基づき,スケーリング則を予測し,計算資源を効率的に配分する手法を提案する。
    • 提案手法は,網羅的な評価なしに大規模言語モデルのスケーリング則を予測できる。
    • SLG探索は,完全な情報を持つオラクルと比較して消失する後悔を理論的に保証する。
    • 実験結果は,同一の計算量において,提案手法がBest-of-$N$よりも高い報酬を得ることを確認した。

    Link: https://arxiv.org/abs/2602.01485