arXiv雑要約

AI - 2026/02/04 公開

  • ロバストなオフライン強化学習のための因果フローQ学習 [cs.CL, cs.RO, cs.DC, cs.LG, cs.AI, cs.RO]目的:オフライン強化学習における因果的交絡の頑健性
    • オフライン強化学習は,実世界での応用においてデータ収集コストを削減できるため重要である。
    • オフラインデータには,観測されない交絡が存在し,学習の偏りを引き起こす可能性がある。
    • 交絡の影響を考慮した,より頑健なオフライン強化学習手法を開発すること。
    • 提案手法は,交絡の影響を考慮した新しいオフライン強化学習の目的関数を導入した。
    • 深層識別器を用いて,ターゲットポリシーと行動ポリシーの乖離を評価し,交絡に強いポリシー学習を実現した。
    • 25のピクセルベースのタスクにおいて,最先端のオフライン強化学習手法と比較して120%の成功率を達成した。

    Link: https://arxiv.org/abs/2602.02847

  • ゼロサムSVD:低ランクLLM圧縮における損失感度バランスの調整 [cs.LG]目的:大規模言語モデルの低ランク圧縮
    • LLMは高性能だが,メモリと計算コストが課題となっている。
    • 既存手法では,損失感度の違いを考慮した最適なランク配分が困難である。
    • 損失変化をゼロに保ちながら異質なランクを自動的に決定する手法を開発する。
    • 提案手法Zero Sum SVD (ZS-SVD)は,活性化の白色化と一次校正損失推定を用いて,グローバルな特異値成分を選択する。
    • ZS-SVDは,累積予測損失の変化をほぼゼロに保つゼロサム則により,ランク配分最適化なしで異質なランクを実現する。
    • 様々なLLMアーキテクチャと圧縮率において,ZS-SVDは一貫した性能向上を示す。

    Link: https://arxiv.org/abs/2602.02848

  • AutoSizer:大規模言語モデル(LLM)エージェントによるアナログ・混合信号回路の自動サイズ決定 [cs.AI]目的:アナログ・混合信号回路の自動サイズ決定手法
    • アナログ回路設計は専門知識が不可欠であり,高性能化には最適化が重要である。
    • 従来の最適化手法は効率が悪く,堅牢性に欠ける場合がある。
    • LLMの推論能力と数値最適化を融合させ,効率的なサイズ決定を目指す。
    • AutoSizerは,回路理解,適応的な探索空間構築,最適化のオーケストレーションを統合したメタ最適化フレームワークである。
    • 提案手法は,既存の最適化手法やLLMベースのエージェントと比較して,より高品質な解を,より速く,より高い成功率で達成した。
    • AMS-SizingBenchというベンチマークを公開し,現実的な制約下での適応型最適化ポリシーを評価した。

    Link: https://arxiv.org/abs/2602.02849

  • 再帰的等変制約変調:データからの層別対称性緩和学習 [cs.LG]目的:層別対称性緩和レベルの学習
    • 等変ネットワークは汎化性能向上に貢献するが,厳格な制約は学習を阻害する可能性がある。
    • 既存手法は緩和レベルを事前定義する必要があり,タスク依存性と調整コストが高い。
    • データと各層の入出力分布の対称性から緩和レベルを自動的に学習する。
    • 提案手法RECMは,各層の緩和レベルがその対称性ギャップによって上限されることを証明した。
    • 対称的な分布を持つ層は完全な等変性を回復し,近似的な対称性を持つ層は非対称な解を学習する。
    • 多様なタスクにおいて,既存手法を上回り,GEOM-Drugsデータセットでの分子コンフォーマー生成においても高い性能を示した。

    Link: https://arxiv.org/abs/2602.02853

  • 事前学習がLoRAファインチューニングを阻害する場合:単一指数モデルによる動的解析 [cs.LG, cond-mat.dis-nn, math.ST, stat.TH]目的:LoRAファインチューニングにおける事前学習の影響の解析
    • 大規模言語モデルの性能向上には,事前学習とファインチューニングが不可欠である。
    • 事前学習が必ずしもファインチューニングを促進するとは限らないという問題がある。
    • LoRAファインチューニングにおける事前学習の過剰な影響を理論的に解明することを目的とする。
    • 事前学習が強すぎると,ファインチューニングの最適化速度が低下する可能性があることが示された。
    • ファインチューニングの収束速度は,初期アライメントとターゲットタスクの非線形性に依存することが明らかになった。
    • 事前学習とダウンストリームタスクが整列していても,強い事前学習は収束を遅らせる可能性がある。

    Link: https://arxiv.org/abs/2602.02855

  • IMAGINE:インテリジェントなマルチエージェントGodotベース屋内ネットワーク探索 [cs.RO, cs.RO, cs.LG, cs.MA, cs.NI, cs.SY, eess.SY]目的:自律通信認識協調型UAV群によるGNSS非利用環境の探索
    • 屋内環境における自律移動は,災害時やインフラ点検など多くの場面で重要であり,効率的な探索技術が求められている。
    • 従来の研究では,離散行動,集中制御,事前知識への依存,動的障害物への対応困難などの課題が存在した。
    • 本研究は,マルチエージェント強化学習とシミュレーション技術により,これらの課題を克服し,効率的な屋内探索を実現する。
    • マルチエージェント強化学習とGodotエンジンによる高精度シミュレーションを組み合わせることで,スケーラブルな屋内探索が可能となった。
    • カリキュラム学習の導入により,より迅速かつ堅牢な学習が実現し,複雑な環境下での探索性能が向上した。
    • 簡素化されたアーキテクチャと効率的な計算手法により,実用的なロボットシステムへの展開に向けた基盤が確立された。

    Link: https://arxiv.org/abs/2602.02858

  • グロッキングにおける後期汎化崩壊:Weightwatcherによるアンチグロッキングの検出 [cs.LG]目的:グロッキング現象における後期汎化崩壊(アンチグロッキング)の検出
    • ニューラルネットワークの学習メカニズム解明は,AI技術の信頼性向上に不可欠である。
    • グロッキング現象では,学習データへの過剰適合と汎化性能の低下が同時に起こり得る。
    • 本研究は,グロッキング後の汎化性能崩壊を新たな現象として捉え,その原因を特定する。
    • モデルがグロッキングから成功する汎化へと移行した後,テスト精度が偶然レベルまで低下する「アンチグロッキング」という新たな段階が確認された。
    • WeightWatcherツールを用いた分析により,「相関トラップ」と呼ばれる異常な大きな固有値が検出され,これが汎化性能の低下と関連することが示された。
    • 相関トラップは,大規模言語モデル(LLM)においても同様の病理現象を引き起こす可能性が示唆された。

    Link: https://arxiv.org/abs/2602.02859

  • STEER:推論時のリスク制御のための制約付き品質多様性探索 [cs.AI, cs.LG]目的:推論時のリスク制御手法
    • 大規模言語モデルの応用拡大に伴い,安全性と信頼性が重要課題となっている。
    • 既存手法では,リスク許容度に応じた応答の調整が困難であった。
    • リスク許容度に応じた応答の調整を可能にし,安全性と性能の両立を目指す。
    • STEERは,オフラインでの品質多様性探索により,安全性を確保しつつ多様な行動特性を持つペルソナ群を構築する。
    • 推論時には,ユーザーが指定したリスクパーセンタイルに応じて最適なペルソナを選択することで,応答の保守性を調整する。
    • 臨床トリアージのベンチマークにおいて,STEERは温度サンプリングや静的ペルソナアンサンブルと比較して,より広い行動特性を示すことが確認された。

    Link: https://arxiv.org/abs/2602.02862

  • 「私の説明が不明確だったのかもしれません」:推論時のLLM推論不安定性の診断 [cs.AI, cs.LG]目的:LLMの推論における動的な不安定性の診断
    • 大規模言語モデルの活用が広がる中で,その推論能力の信頼性確保が重要課題となっている。
    • LLMの推論過程における不安定性は,最終的な出力結果の質を低下させる要因となるが,検出が困難である。
    • 推論過程で観測可能な情報から,LLMの不安定性を診断し,その予測可能性を評価すること。
    • 推論時のトークン対数確率から計算される不安定性指標が,誤答の予測に有効であることが示された。
    • 不安定性のピーク強度と誤答率には相関があり,モデルサイズが大きくなるにつれてその傾向が顕著になる。
    • 推論早期の不安定性は修正される場合があり,推論終盤の不安定性は誤答につながりやすいことが明らかになった。

    Link: https://arxiv.org/abs/2602.02863

  • 合成エントロピーリスク最小化のための幾何学的認識型効率的アルゴリズム [cs.LG]目的:合成エントロピーリスク最小化問題の最適化
    • 機械学習における損失関数の表現として重要性が増している。
    • 既存の最適化アルゴリズムは,収束性,数値安定性,収束速度に課題がある。
    • 幾何学的構造を考慮した新しいアルゴリズムでこれらの課題を解決すること。
    • 提案手法SCENTは,凸問題に対して$O(1/\sqrt{T})$の収束率を持つことを理論的に証明した。
    • 標準的なSGD更新と比較して,SPMD更新の利点を理論的に特徴付けた。
    • 極端な分類,偏AUC最大化,コントラスティブ学習など,様々な問題で既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2602.02877

  • 学習を取り入れた形式的推論:契約合成から成果物再利用,形式意味論まで [cs.CL, cs.SE, cs.AI]目的:形式手法と人工知能の融合による,次世代検証システムの実現
    • ソフトウェアの信頼性確保は重要であり,形式手法はその核となる技術である。
    • 従来の形式手法は,個別検証に偏り,知識の再利用が困難である。
    • 過去の検証努力を活かし,将来の検証を加速する仕組みの構築。
    • 大規模言語モデルとグラフ表現を組み合わせたハイブリッドフレームワークを提案する。
    • これにより,スケーラブルな意味的マッチングと形式的な検証成果物の再利用が可能となる。
    • 学習ベースのコンポーネントが意味的指針を提供し,記号的マッチングが形式的な健全性を保証する。

    Link: https://arxiv.org/abs/2602.02881

  • コンセプトボトルネック専門家の混合 [cs.CY, cs.IR, cs.LG, cs.AI]目的:コンセプトボトルネックモデルの解釈性と予測精度向上
    • AIの透明性や説明可能性が求められる中で,予測根拠の理解が重要である。
    • 既存のコンセプトボトルネックモデルは,予測器の柔軟性が低く,タスクやユーザーニーズへの適応が難しい。
    • 複数の専門家と機能形式を活用し,解釈性と精度のバランスを取る新しい枠組みを提案する。
    • M-CBEsは,既存のコンセプトボトルネックモデルを拡張し,より高い予測精度と適応性を実現した。
    • 混合サイズや関数形式を変化させることで,精度と解釈性のトレードオフを柔軟に調整できることが示された。
    • 線形M-CBEとSymbolic M-CBEという2つのモデルが提案され,その有効性が確認された。

    Link: https://arxiv.org/abs/2602.02886

  • HALT:ログ確率の時間的変化による幻覚評価 [cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚の検出
    • 大規模言語モデルの安全性が重要視される中,幻覚は重大な課題となっている。
    • 既存の幻覚検出手法は,計算コストが高いか,汎化性能に課題がある。
    • 出力ログ確率のみを用いて,効率的かつ汎用性の高い幻覚検出手法を確立する。
    • HALTは,ログ確率の時間変化を分析することで,大規模言語モデルの幻覚を高精度に検出する。
    • HALTは,Lettuceよりも30倍小さく,60倍高速でありながら,HUBベンチマークで優れた性能を示す。
    • HUBベンチマークは,多様なタスクにおける幻覚検出の評価を可能にするフレームワークを提供する。

    Link: https://arxiv.org/abs/2602.02888

  • 自己スープ化:ラベルなしでのモデルスープの調理 [cs.LG]目的:モデルスープの構築と,自己教師あり学習への拡張
    • モデルの性能向上は,様々な分野で重要であり,特に大規模言語モデルや画像認識において不可欠である。
    • 従来のモデルスープは教師あり学習に依存しており,ラベル付きデータの必要性が課題となっていた。
    • 本研究は,ラベルなしデータを用いた自己教師あり学習でモデルスープを構築し,ロバスト性を向上させることを目指す。
    • 自己スープ化により,ImageNet-Cで+3.5%,LAION-Cで+7%のロバスト性向上が確認された。
    • 異なる自己教師あり学習アルゴリズムを組み合わせたモデルスープが,個々のアルゴリズムよりも高い精度を達成した。
    • 本研究は,自己教師あり学習アルゴリズムの多様な組み合わせが,よりロバストなモデルの構築に繋がる可能性を示唆する。

    Link: https://arxiv.org/abs/2602.02890

  • TraceNAS:勾配トレース相関によるゼロショットLLMプルーニング [cs.LG, cs.CL]目的:大規模言語モデルの効率的な展開のための構造化プルーニング手法
    • 大規模言語モデルの普及には,計算資源の効率的な利用が不可欠である。
    • 既存手法は局所的な重要度評価に偏り,モデル全体の構造的依存性を捉えきれない。
    • 学習コストを抑えつつ,モデル全体の構造的依存性を考慮したプルーニング手法の確立。
    • TraceNASは,学習を伴わないニューラルアーキテクチャ探索(NAS)フレームワークであり,LLMの深さと幅の構造化プルーニングを同時に探索する。
    • 事前学習済みモデルとの損失ランドスケープの整合性を維持するゼロショットプロキシを用いて,高い性能ポテンシャルを持つプルーニングモデルを効率的に発見する。
    • 単一のGPUで8.5時間以内に高精度なプルーニングモデルを探索でき,学習を伴う手法と比較してGPU時間の使用量を10分の1に削減できる。

    Link: https://arxiv.org/abs/2602.02891

  • 医療画像における確実な意思決定のための対照的推論:DoubleTake [cs.DC, cs.CV, cs.LG]目的:医療画像における信頼性の高い意思決定のための対照的推論手法
    • 医療画像診断は患者の予後を左右するため,正確性が極めて重要である。
    • 既存手法は類似事例の検索に依存し,冗長な情報や誤った仮説の強化を招く可能性がある。
    • 識別力を高めるための対照的な参照選択と,信頼性の高い意思決定を可能とする推論手法の開発。
    • 提案手法は,視覚的な関連性,埋め込みの多様性,情報源を考慮した参照選択により,識別能力を向上させた。
    • Counterfactual-Contrastive Inferenceにより,ペアワイズ比較とマージンベースの意思決定ルールを用いた信頼性のある推論を実現した。
    • MediConfusionベンチマークにおいて,既存手法を大幅に上回り,セットレベルの精度を約15%向上させた。

    Link: https://arxiv.org/abs/2602.02894

  • 壊れていても進む:具現化とタスクに条件付けられた拡散ポリシーによるフェイルアクティブな軌道生成 [cs.RO, cs.AI]目的:ロボットの故障時におけるタスク達成を可能にするフェイルアクティブ動作の実現
    • ロボットの自律性が向上すれば,人間が介入する機会が減少し,より効率的な作業が可能となる。
    • ロボットの故障が発生した場合,安全性を確保しつつタスクを継続することが難しい。
    • 様々な故障状況下でもタスクを完了できるような,ロバストな軌道生成手法を開発すること。
    • DEFTは,拡散モデルに基づいた軌道生成器であり,ロボットの具現化とタスク制約を条件とする。
    • シミュレーション実験では,DEFTは従来のベースライン手法と比較して最大2倍の性能向上を示した。
    • 実機実験においても,DEFTは古典的な手法が失敗するタスクにおいて成功を収めた。

    Link: https://arxiv.org/abs/2602.02895

  • 言語モデルのベンチマークとペアワイズ選好の整合性 [cs.AI, cs.CL]目的:言語モデルベンチマークとペアワイズ選好との整合性
    • 言語モデルの性能評価は重要であり,その結果はモデル開発の方向性を決定する。
    • 既存のベンチマークは,実際の有用性を正確に予測できない場合がある。
    • ベンチマークを更新することで,実際の選好をより正確に予測する。
    • 提案手法BenchAlignは,モデルの性能とペアワイズランキング情報を用いて,ベンチマーク問題の重みを学習する。
    • 更新されたベンチマークは,人間による選好モデルに基づいて,未学習のモデルを正確にランク付けできる。
    • 本研究は,ベンチマークの整合性の限界を明らかにし,実用的なモデル開発を加速させる可能性を示唆する。

    Link: https://arxiv.org/abs/2602.02898

  • 分散学習における統制された不一致が汎化性能を向上させる [cs.LG, cs.DC]目的:分散学習における汎化性能の向上
    • 分散学習は,データが分散している場合に有効だが,集中的な学習に劣ると考えられてきた。
    • ワーカー間のコンセンサスエラーが収束と汎化性能を損なうという問題があった。
    • コンセンサスエラーを意図的に保持し,汎化性能を向上させることを目指す。
    • 本研究で提案するDSGD-ACは,標準的なDSGDや集中学習SGDよりも,画像分類と機械翻訳のベンチマークで高いテスト精度と解の平坦性を示した。
    • コンセンサスエラーは,有用な暗黙的な正則化項として機能することが示された。
    • 分散学習アルゴリズム設計に対する新たな視点が開かれた。

    Link: https://arxiv.org/abs/2602.02899

  • 多様体制約エネルギーベース遷移モデル:オフライン強化学習における利用 [cs.LG, cs.AI]目的:オフライン強化学習における分布シフトへの対処
    • 強化学習は,複雑なタスクの自動学習に有効だが,データ収集コストが高い。
    • オフライン強化学習では,分布外のデータに対する汎化性能が課題となる。
    • データ分布を考慮した遷移モデルの構築により,分布シフト問題を軽減する。
    • 多様体制約エネルギーベース遷移モデル(MC-ETM)は,データ分布近傍の負例生成により,遷移モデルの精度向上を実現した。
    • MC-ETMは,エネルギー関数に基づく信頼性信号を用いて,方策最適化中のロールアウトを適切に制限し,過大評価を抑制する。
    • 実験結果から,MC-ETMは,既存手法と比較して,オフライン制御ベンチマークにおいて高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.02900

  • 人工知能エージェントにおける主観的視点の最小限の計算的条件 [cs.AI]目的:人工知能エージェントにおける主観的視点の運用化
    • 人工知能の高度化に伴い,知覚や意識といった主観性の再現が重要課題となっている。
    • 従来のAI研究では,行動の結果を最適化することに重点が置かれ,内在的な主観的経験が軽視されてきた。
    • 現象学に基づいた最小限の内部構造を導入し,主観的視点の計算的基盤を明らかにすること。
    • 報酬のない環境下で,潜在構造に方向依存性のヒステリシスが認められた。
    • このヒステリシスは,機械システムにおける視点的な主観性の測定可能な指標となり得る。
    • 行動レベルでは反応性が維持されつつ,内部状態が緩やかに進化することが示された。

    Link: https://arxiv.org/abs/2602.02902

  • 交通調整のための時空間決定トランスフォーマー [cs.LG, cs.AI, cs.SY, eess.SY]目的:交通信号制御における多エージェント協調
    • 都市交通において交通渋滞緩和は重要であり,信号制御はその鍵となる。
    • 従来の強化学習は,多エージェント間の協調や学習効率に課題があった。
    • 過去の交通データから効率的に学習し,信号制御の協調性を向上させる。
    • 提案手法MADTは,既存のベースラインと比較して平均移動時間を5〜6%削減した。
    • グラフ注意機構により,交差点間の空間的依存関係をモデル化することに成功した。
    • 時系列トランスフォーマーエンコーダにより,交通ダイナミクスを捉えることができた。

    Link: https://arxiv.org/abs/2602.02903

  • FIRE-Bench:科学的洞察の再発見におけるエージェントの評価 [cs.AI]目的:科学的洞察の再発見を通じたエージェントの評価
    • 科学的発見の加速が期待される中,LLMを活用した自律エージェントの能力評価が重要である。
    • 既存の評価指標は,LLMによる判断に依存したり,科学的洞察を測るには不十分であったりする。
    • 近年の機械学習研究から確立された知見の再発見を通じて,エージェントの科学的発見能力を厳密に評価する。
    • FIRE-Benchを用いて最先端のエージェントを評価した結果,完全な科学研究サイクルは依然として困難であることが示された。
    • 最も性能の良いエージェントでも再発見の成功率は50%未満であり,実験計画,実行,証拠に基づく推論に課題が見られた。
    • FIRE-Benchは,信頼性の高いエージェントによる科学的発見に向けた進捗を測定するための厳密かつ診断的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2602.02905

  • 拡散モデルの一貫性に関するランダム行列理論的考察 [cs.LG, cs.AI, cs.CV, stat.ML]目的:拡散モデルのデータ分割における出力の一貫性のメカニズム解明
    • 拡散モデルは高品質な画像生成が可能だが,学習データに依存した不安定性がある。
    • 異なるデータ分割で学習されたモデル間の一貫性が高く,その理由が不明であった。
    • ランダム行列理論を用いて,有限データセットが生成過程に与える影響を定量化する。
    • 異なるデータ分割間の一貫性は,学習されたノイズ除去器とサンプリングマップの期待値と分散が,データセットのガウス統計によって予測されることに起因する。
    • データサイズが有限であるため,分散が低い方向へ過小収縮し,サンプルがデータセットの平均に引き寄せられる現象が明らかになった。
    • 固有モード間の異方性,入力間の不均一性,データセットサイズが,データ分割間の一貫性の違いに影響を与える主要な要因であることが示された。

    Link: https://arxiv.org/abs/2602.02908

  • 推論に関する推論:LLMにおける思考の連鎖のトークン複雑さに対するBAPO境界 [cs.AI, cs.FL, cs.LG]目的:思考の連鎖におけるトークン数の理論的下限の証明
    • 大規模言語モデルの性能向上において,思考の連鎖は重要な役割を果たしている。
    • 思考の連鎖は計算コストや遅延が大きく,効率的な推論が課題となっている。
    • 入力サイズ増加に伴う思考の連鎖に必要なトークン数の理論的限界を明らかにすること。
    • バイナリ多数決,三重マッチング,グラフ到達可能性の3つのタスクにおいて,思考の連鎖に必要なトークン数は入力サイズnに対してΩ(n)であることが証明された。
    • 理論的下限と一致,またはほぼ一致する上限が明示的な構成によって示された。
    • 最先端の推論モデルを用いた実験により,これらのタスクにおけるトークン数はほぼ線形にスケールすることが確認された。

    Link: https://arxiv.org/abs/2602.02909

  • 事後更新における報酬表現に関する考察 [cs.LG, cs.AI, stat.ML]目的:事後更新の報酬表現
    • 制御理論や強化学習において,意思決定を推論と捉えるアプローチが重要視されている。
    • 報酬の絶対的な値が特定されず,文脈依存のベースラインに依存するという問題がある。
    • 事後更新が情報伝達の経路として機能する場合の報酬表現を明確にすることを試みる。
    • 事後更新は,行動を変化させる相対的なインセンティブ信号を決定するが,絶対的な報酬を一意に決定することはできない。
    • 事後更新は,ベースラインの証拠の再重み付けとして説明可能である。
    • 異なる条件付け順序に関連付けられた報酬記述間の整合性に関する制約が導かれる。

    Link: https://arxiv.org/abs/2602.02912

  • ウェアラブルPPGデータ学習のための重み付き時間減衰損失 [cs.RO, cs.LG]目的:ウェアラブルPPGデータと臨床ラベルの疎さに対応した学習戦略
    • ウェアラブルデバイスとAIの進歩により,健康モニタリングにおけるPPGの重要性が高まっている。
    • 臨床ラベルの不足が,時間的に離れたバイオ信号の信頼性を低下させるという課題がある。
    • 時間間隔に応じたサンプル重みの減衰損失を導入し,疎なラベルでの学習精度向上を目指す。
    • 提案手法は,10種類のバイオマーカーにおいて,ベースラインと比較して性能が向上した。
    • サブジェクトごとの設定では,AUPRCの平均値が0.715となり,自己教師あり学習ベースラインやランダムフォレストを上回った。
    • 学習された減衰率は,各バイオマーカーのPPG証拠が古くなる速さを示し,時間的感受性の解釈を可能にした。

    Link: https://arxiv.org/abs/2602.02917

  • 全スライド画像解析のためのマルチスケール線形時間エンコーダ [cs.CV, cs.AI, cs.LG, q-bio.TO]目的:全スライド画像解析のためのマルチスケール線形時間エンコーダ
    • 病理診断支援において,全スライド画像解析は不可欠であり,診断精度向上に貢献する。
    • 従来の解析手法は計算コストが高く,ギガピクセル画像への対応が課題であった。
    • マルチスケール情報を効率的に処理し,計算コストを削減する新たなフレームワークを開発する。
    • 本研究で提案するMARBLEは,既存手法と比較してAUCが最大6.9%,精度が20.3%,C-indexが2.3%向上した。
    • MARBLEは,線形時間状態空間モデルを用いることで,効率的なマルチスケール依存関係の捕捉を実現した。
    • 本フレームワークは,全スライド画像解析における汎用性とスケーラビリティを示すことができた。

    Link: https://arxiv.org/abs/2602.02918

  • DeltaEvolve:運動量駆動型進化による科学的発見の加速 [cs.AI, cs.LG]目的:科学的発見を加速するための運動量駆動型進化フレームワーク
    • 科学的発見の自動化は,人間の探求を補完し,新たな知見を生み出す可能性を秘めている。
    • 既存の進化システムは,文脈効率が悪く,進化の指針となる情報が弱いという課題がある。
    • DeltaEvolveは,変更点間の構造的な意味的デルタを活用し,進化の効率と精度を向上させることを目指す。
    • DeltaEvolveは,従来のフルコード履歴を用いる手法と比較して,より少ないトークン消費量で優れた解を発見できることが示された。
    • このフレームワークは,言語モデルが提案するプログラム候補と,評価フィードバックに基づく文脈の更新を,Expectation-Maximizationフレームワークとして捉えている。
    • 意味的デルタを多層データベースで整理し,段階的な開示メカニズムを導入することで,入力トークン数をさらに削減している。

    Link: https://arxiv.org/abs/2602.02919

  • 小規模神経画像データに対するバイアスに強い機械学習のための再現可能なフレームワーク [cs.LG, cs.CV, q-bio.NC, q-bio.QM]目的:小規模神経画像データにおけるバイアスに強い機械学習フレームワーク
    • 脳機能画像解析は,精神疾患や神経疾患の理解・診断に不可欠である。
    • データ量が少ない場合,モデルの過学習や結果のバイアスが生じやすい。
    • バイアスを抑制し,再現性の高い機械学習モデルの構築を目指す。
    • ドメイン知識に基づいた特徴量エンジニアリング,ネストされた交差検証,最適化された決定閾値を用いることで,バイアスを低減。
    • 深部脳刺激認知結果の構造的MRIデータセットを用いて,ネストCVにおけるバランスアキュラシー0.660±0.068を達成。
    • 重要度に基づくランキングにより選択された解釈可能なサブセットを用いることで,高い解釈性と信頼性を両立。

    Link: https://arxiv.org/abs/2602.02920

  • ラグランジュ関数は拡散モデルを通して安全な強化学習をどのように導くか [cs.LG, cs.SY, eess.SY]目的:拡散モデルを用いた強化学習における安全性の確保
    • 強化学習は複雑な意思決定問題を解決する強力な手法であり,ロボティクスや自動運転など様々な分野で応用が期待される。
    • 従来の強化学習は安全性の考慮が不十分であり,現実世界への適用においてリスクを伴う可能性がある。
    • 拡散モデルを活用し,安全性を考慮した強化学習アルゴリズムを開発することで,より実用的な応用を目指す。
    • 提案手法であるALGDは,ラグランジュ関数をエネルギー関数として解釈し,非凸なエネルギー landscape を局所的に凸化することで,安定した方策生成と学習を実現する。
    • 理論的な解析と実験結果から,ALGDが様々な環境において,堅牢かつ安定した性能を発揮することが示された。
    • ALGDは,最適な方策の分布を変化させることなく,拡散モデルを用いた強化学習の安全性を高めることができる。

    Link: https://arxiv.org/abs/2602.02924

  • 特徴空間内での類似性検索を用いた異常検知における決定境界の洗練 [cs.LG, cs.AI, cs.CR, cs.NE]目的:不均衡データセットにおける異常検知のための決定境界洗練手法
    • 高度な持続的脅威(APT)など,極端に不均衡なデータセットの異常検知は,機械学習システムにおける重要な課題である。
    • 従来の能動学習アプローチは,特徴空間の幾何学的構造を十分に活用できていないという問題点が存在する。
    • スパースな二値埋め込みに適した新しい類似性尺度を用いて,効率的な決定境界洗練を目指す。
    • 提案手法SDA2Eは,52個の不均衡データセットにおいて,最先端の異常検知手法と比較して,一貫して優れたランキング性能を示した。
    • SDA2Eは,受動学習と比較して,最大80%まで必要なラベル付きデータ量を削減することができた。
    • 統計的検定により,これらの改善の有意性が確認され,特にサイバーセキュリティアプリケーションへの適性が示された。

    Link: https://arxiv.org/abs/2602.02925

  • 生成モデリングのための距離行進法 [cs.LG]目的:生成モデリングにおけるノイズ除去方向の改善
    • 生成モデルは高品質なデータ生成に不可欠であり,その性能向上は重要な課題である。
    • 従来のtime-unconditionalモデルでは,ノイズレベルの曖昧さから適切なノイズ除去方向が定まらない問題がある。
    • 距離場モデリングの考え方を導入し,よりデータ多様体に近いノイズ除去方向を学習することで,この問題を解決する。
    • 提案手法Distance Marchingは,CIFAR-10およびImageNetにおいて,既存のtime-unconditionalベースラインよりもFIDを平均13.5%改善した。
    • クラス条件付きImageNet生成においても,時間情報を除去したにもかかわらず,Flow Matchingを上回る性能を達成した。
    • 距離予測は,サンプリングの早期停止や外れ値検出にも有効であることが示された。

    Link: https://arxiv.org/abs/2602.02928

  • RPG-AE:Provenanceに基づく異常検知のための希少パターンマイニングを用いたニューロシンボリックグラフオートエンコーダ [cs.LG, cs.AI, cs.CR, cs.NE]目的:システムレベルのProvenanceデータにおけるAPT類似活動の識別
    • サイバー攻撃は巧妙化の一途を辿っており,早期発見が重要視されている。
    • APTは潜伏性が高く,正常なシステム動作に紛れ込みやすく検出が困難である。
    • グラフ表現学習とパターンマイニングを組み合わせ,より効果的な異常検知を実現する。
    • 提案手法は,k-NNに基づくプロセス行動グラフとグラフオートエンコーダを組み合わせることで,正常な関係構造を学習する。
    • 希少パターンマイニングにより,稀な行動の共起を発見し,異常スコアを向上させることで検知精度を高める。
    • DARPA Transparent Computingデータセットにおいて,既存手法を上回る性能と,アンサンブル法に匹敵する結果が得られた。

    Link: https://arxiv.org/abs/2602.02929

  • 稀なイベント早期検出:重症外傷患者における敗血症発症のデータセット [cs.LG]目的:重症外傷患者における敗血症発症のデータセット
    • 敗血症は高頻度で重篤な疾患であり,早期発見と迅速な対応が重要である。
    • 既存のデータセットは集中治療室の患者を一括りに扱い,外傷患者特有の課題に対応できていない。
    • 外傷後の敗血症に特化したデータセットを用いて,早期発見手法の開発を目指す。
    • 本研究では,MIMIC-IIIから抽出・再ラベル付けし検証された,外傷後敗血症発症の標準化されたデータセットを公開する。
    • このデータセットは,集中治療室の臨床ワークフローに沿って,敗血症発症の早期検出という稀なイベント検出問題として定義されている。
    • 包括的な実験により,この新しいデータセットを用いた更なる進歩の必要性が示唆された。

    Link: https://arxiv.org/abs/2602.02930

  • 公平なアクセス,不平等な対話:LLMの公平性に関する反実仮想監査 [cs.CL, cs.AI]目的:大規模言語モデルにおける対話品質の公平性
    • LLMの社会実装が進む中で,その公平性は重要な倫理的・社会的課題となっている。
    • 従来の公平性評価はアクセスの可否に偏っており,アクセス後の対話品質の格差は未解明であった。
    • LLMが提供する対話において,年齢,性別,国籍等の属性による品質の差異を明らかにすること。
    • GPT-4は若い男性ユーザーに対し,より強い躊躇表現を示す傾向があることが明らかになった。
    • LLaMAは,属性グループ間で感情表現に幅広いばらつきが見られた。
    • アクセスは平等であっても,対話レベルで公平性の格差が生じることが示唆された。

    Link: https://arxiv.org/abs/2602.02932

  • 3D学習:拡散モデルを用いた分布ロバスト決定志向型学習 [eess.SY, cs.SY, cs.LG]目的:分布ロバスト決定志向型学習のフレームワーク
    • 計算・ネットワークシステムにおいて,機械学習予測の精度がシステム性能に大きく影響する。
    • テスト時に分布外(OOD)サンプルが現れ,予測誤差により意思決定性能が低下する。
    • 拡散モデルを活用し,現実的な最悪分布を探索することで,OOD環境下での汎化性能向上を目指す。
    • 3D学習は,既存の分布ロバスト最適化(DRO)やデータ拡張手法と比較して,OOD環境下での汎化性能で優れている。
    • 拡散モデルの分布モデリング能力により,平均と最悪の場合のシナリオ間のバランスが取れた最悪分布を特定する。
    • LLMリソースプロビジョニングのタスクにおいて,3D学習の有効性が確認された。

    Link: https://arxiv.org/abs/2602.02943

  • 逆問題と不確実性定量のための変分スパースペアードオートエンコーダ (vsPAIR) [cs.LG, cs.NA, math.NA]目的:逆問題解決と不確実性定量
    • 科学技術分野において,観測データから隠れた情報を復元する逆問題は不可欠である。
    • 逆問題解決において,点推定だけでなく解釈可能な不確実性の提示が課題となっている。
    • 高速な推論と不確実性推定を両立する手法を提案し,解釈性と構造化された不確実性を提供すること。
    • 提案手法vsPAIRは,観測データと関心対象量をペアで符号化することで,解釈性の高い不確実性推定を可能にする。
    • スパースエンコーディングにより,情報が識別可能な要素に集中し,構造化された不確実性を実現する。
    • ブラインドインペインティングとコンピュータ断層撮影の実験により,vsPAIRの有効性が確認された。

    Link: https://arxiv.org/abs/2602.02948

  • N\"uwa: VLMトークン剪定による空間的整合性の回復 [cs.CV, cs.AI, cs.CL]目的:VLMの効率化のためのトークン剪定手法
    • 大規模言語モデルと画像認識の融合が進む中で,VLMの効率的な処理が重要になっている。
    • 既存の剪定手法はVQAでは性能を維持できるものの,VGタスクでは大幅に性能が低下する。
    • 空間情報を維持しつつ,効率的な特徴量集約を実現し,VGタスクの性能向上を目指す。
    • 提案手法N\"uwaは,複数のVQAベンチマークで最高水準の性能(94%から95%)を達成した。
    • VGタスクにおいては,大幅な性能向上(7%から47%)が確認された。
    • N\"uwaは,空間情報の損失を防ぎながら,効率的なトークン剪定を実現した。

    Link: https://arxiv.org/abs/2602.02951

  • UAT-LITE:事前学習済みTransformerにおける推論時の不確実性認識型Attention [cs.AI]目的:ニューラルNLPモデルにおける不確実性認識の改善
    • 自然言語処理モデルの信頼性は重要であり,誤った予測に対する過信は避けるべきである。
    • 既存手法では,予測の不確実性を正確に捉えきれていない,あるいは計算コストが高いという課題がある。
    • 推論時に不確実性を考慮することで,モデルの校正精度とロバスト性を向上させる。
    • UAT-LITEは,事前学習済みTransformerの自己注意機構にモンテカルロドロップアウトを適用し,推論時に不確実性を認識させる。
    • SQuAD 2.0,MNLI,SST-2において,UAT-LITEは期待校正誤差を平均約20%削減し,タスク精度を維持した。
    • また,選択的予測と分布シフトに対するロバスト性も向上した。

    Link: https://arxiv.org/abs/2602.02952

  • 医療音声分類のための合成データ拡張:予備評価 [cs.SD, cs.AI, cs.LG]目的:医療音声分類における性能向上
    • 医療音声は,病状診断に不可欠であり,正確な分類が求められる。
    • ノイズ,微細な特徴,クラス内変動が大きいことが課題であり,データ不足も深刻。
    • 合成データ拡張によるデータ増強が,これらの課題解決に貢献しうる。
    • ベースラインモデル(CNN)のF1スコアは0.645であった。
    • 個々の拡張手法では性能向上は見られず,中立または低下を示す結果も。
    • 拡張モデルのアンサンブルのみ,F1スコアのわずかな改善(0.664)が見られた。

    Link: https://arxiv.org/abs/2602.02955

  • Quant VideoGen:2ビットKVキャッシュ量子化による自己回帰的長尺ビデオ生成 [cs.LG]目的:自己回帰的ビデオ拡散モデルにおけるKVキャッシュメモリの効率化
    • ビデオ生成技術は近年急速に進歩しているが,その応用には計算資源が不可欠である。
    • KVキャッシュメモリの増大が,ビデオ生成の性能低下とハードウェアへの制約となっている。
    • KVキャッシュの量子化により,メモリ使用量を削減し,長尺ビデオの生成品質を維持することを目指す。
    • QVGは,トレーニング不要のKVキャッシュ量子化フレームワークであり,ビデオの空間的・時間的冗長性を活用する。
    • QVGは,KVキャッシュメモリを最大7倍削減し,エンドツーエンドの遅延を4%未満に抑えながら,既存手法を上回る生成品質を実現した。
    • Semantic Aware SmoothingとProgressive Residual Quantizationにより,量子化エラーを抑制し,品質とメモリのトレードオフを最適化する。

    Link: https://arxiv.org/abs/2602.02958

  • 公平性のための人間中心交通信号制御:マルチエージェント行動分岐型深層強化学習アプローチ [cs.LG, cs.SY, eess.SY]目的:交通信号の公平性最適化
    • 都市交通の円滑化は経済活動や生活の質に不可欠である。
    • 従来の交通信号制御は車両中心であり,歩行者や公共交通機関の利用者の公平性が課題である。
    • 人間中心の報酬設計と行動分岐型制御により,交通遅延を削減し,公平性を向上させる。
    • 提案手法MA2B-DDQNは,既存の強化学習手法やベースライン手法と比較して,影響を受ける交通利用者の数を大幅に削減する。
    • 行動分岐型制御は,複雑な都市交通環境下でもスケーラブルな協調制御を可能にする。
    • 本研究は,より公平で適応性の高い交通信号システムの構築に貢献する。

    Link: https://arxiv.org/abs/2602.02959

  • 具現化を意識した汎化・特化蒸留による統一されたヒューマノイド全身制御 [cs.RO, cs.AI, cs.LG]目的:多様なヒューマノイドロボットの全身制御
    • ヒューマノイドロボットは,多様な環境下での活動が期待されており,その制御技術の重要性は高い。
    • ロボットの形状や動力特性の違いにより,汎用的な制御ポリシーの作成が困難である。
    • 多様なヒューマノイドロボットに対して,報酬の調整なしに制御可能な統一的なポリシーを開発する。
    • EAGLEは,反復的な汎化・特化蒸留フレームワークにより,複数の異なるヒューマノイドロボットを単一のポリシーで制御可能となった。
    • シミュレーションおよび実機実験の結果,EAGLEは既存手法と比較して高い追跡精度とロバスト性を示した。
    • 本研究は,スケーラブルなヒューマノイドロボット群制御に向けた一歩となる。

    Link: https://arxiv.org/abs/2602.02960

  • 生成エンジン最適化:Pinterestの獲得成長のためのVLMとエージェントフレームワーク [cs.AI]目的:Pinterestの獲得成長を目的とした生成エンジン最適化フレームワーク
    • コンテンツ発見において,AIネイティブ検索システムが重要性を増している
    • 画像のような視覚コンテンツは,生成検索が重視する意味的深さと権威性信号に乏しい
    • 視覚プラットフォームが生成検索時代において成長するための方法を提示する
    • 生成エンジン最適化(GEO)フレームワークを開発し,Pinterestに実装した。
    • VLMとAIエージェントを活用し,ユーザーが実際に検索するクエリを予測し,コレクションページを構築した。
    • 大規模な展開により,オーガニックトラフィックが20%増加し,月間アクティブユーザー数(MAU)の増加に貢献した。

    Link: https://arxiv.org/abs/2602.02961

  • Q-ShiftDP:量子機械学習のための微分プライバシーパラメータシフト則 [cs.LG, cs.CR]目的:量子機械学習における訓練データプライバシー保護のメカニズム
    • 量子機械学習は計算上の利点が期待されるが,データプライバシー保護が重要課題である。
    • 従来のDP-SGDは量子勾配推定の特性を活かせておらず,ノイズ量が多い。
    • 量子勾配の特性を利用し,ノイズ量を削減することでプライバシーと実用性の両立を目指す。
    • Q-ShiftDPは,量子機械学習に特化した初のプライバシーメカニズムである。
    • パラメータシフト則の持つ量子勾配の有界性と確率性を活用し,より厳密な感度分析とノイズ量の削減を実現した。
    • 実験結果から,Q-ShiftDPは従来のDP手法と比較して,量子機械学習において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2602.02962

  • Co2PO:協調制約付き方策最適化によるマルチエージェント強化学習 [cs.LG]目的:マルチエージェント強化学習における協調を通じた安全性確保
    • マルチエージェントシステムは複雑な問題を解決できるが,安全性確保が課題となる。
    • 従来の制約付き強化学習は,事後的なペナルティや集中型批評家を用いるため,探索が抑制されやすい。
    • Co2POは,リスクを考慮した通信と予測により,安全性と性能の両立を目指す。
    • Co2POは,位置意図や譲歩信号を共有するブラックボードアーキテクチャを導入し,協調的な安全性確保を実現した。
    • 学習されたハザード予測器を用いて潜在的な違反を予測し,制約付き最適化目標に統合することで,事前的な危険回避を可能にした。
    • 複雑なマルチエージェント安全ベンチマークにおいて,既存手法よりも高い報酬とコスト遵守率を達成した。

    Link: https://arxiv.org/abs/2602.02970

  • グロブナー基底計算のための高速単項順序学習 [cs.SC, cs.LG, math.AC, math.AG]目的:グロブナー基底計算における単項順序選択の最適化
    • 多項式方程式系を解くための基盤技術であり,計算効率が重要である。
    • 既存の単項順序は専門家の経験則に頼る部分が大きく,最適化の余地がある。
    • 強化学習を用いて,計算コストを最小化する単項順序の選択戦略を確立する。
    • 強化学習によって学習された単項順序選択戦略が,既存のヒューリスティクスを上回る性能を示すことが確認された。
    • システム生物学やコンピュータビジョンのベンチマーク問題において,計算コストの大幅な削減が達成された。
    • 学習された戦略は単純なモデルへの蒸留が難しく,非線形な幾何学的構造を利用している可能性が示唆された。

    Link: https://arxiv.org/abs/2602.02972

  • 規範と参照が衝突する場合:大規模言語モデルにおける規範的推論の評価 [cs.CL, cs.AI, cs.LG]目的:規範に基づく参照解決能力の評価
    • ロボット等の具現化されたエージェントが,社会規範を理解し活用できることは,人間との円滑なコミュニケーションに不可欠である。
    • 大規模言語モデルは言語能力が高いものの,文脈から社会規範を推論し,適切に参照を解決する能力が不十分である。
    • 大規模言語モデルにおける規範的推論の能力を定量的に評価し,その課題を明らかにすること。
    • SNICという,規範的推論を評価するためのテストベッドを構築し,大規模言語モデルの性能を検証した。
    • 実験の結果,現状の大規模言語モデルは,暗黙的または曖昧な規範,あるいは相反する規範の解釈に苦慮することが示された。
    • この結果は,大規模言語モデルが社会的な状況下で活動する具現化されたシステムとして展開する上での課題を浮き彫りにした。

    Link: https://arxiv.org/abs/2602.02975

  • 画像と長いキャプションにおける視覚的根拠に基づいた理解のための森林と木の整合 [cs.CV, cs.AI, cs.LG]目的:画像と長いキャプション間の階層的セマンティクスの整合
    • 画像とテキストの理解は,AI技術の発展において不可欠であり,様々な応用を可能とする。
    • 既存のモデルは長いキャプションの理解に苦戦しており,視覚的詳細と文脈の整合性に課題がある。
    • 画像とテキストの階層的な整合を促し,視覚的根拠に基づいた詳細な理解を実現することを試みる。
    • 提案手法CAFTは,画像と長いキャプション間のグローバルとローカルなセマンティクスを整合させる階層的表現学習フレームワークである。
    • CAFTは,ピクセルレベルの教師なしで,画像全体とキャプション全体のマッチングを実現し,領域と文の対応を誘導する。
    • 3000万組の画像-テキストペアで学習した結果,6つの長文検索ベンチマークで最先端の性能を達成し,優れたスケーリング性を示した。

    Link: https://arxiv.org/abs/2602.02977