arXiv雑要約

AI - 2026/03/12 公開

価値反復の再検討：割引報酬と平均報酬の場合の統一的解析 [cs.CL, cs.CL, eess.SY, cs.SY, cs.LG]目的：割引報酬と平均報酬の両設定における価値反復の収束解析
- 強化学習は，エージェントが環境との相互作用を通して最適な行動を学習する重要な分野である。
- 価値反復の理論的な収束保証と実証的な振る舞いの間に乖離が見られていた。
- 価値反復の収束率をより正確に評価し，理論と実践のギャップを埋める。
- 一意で単鎖的な最適ポリシーが存在する場合，価値反復は割引報酬と平均報酬の両設定において幾何学的収束を示すことが示された。
- 従来の解析よりも高速な収束率が，幾何学的な解析を通して明らかになった。
- この解析は，価値反復の理論的理解を深め，アルゴリズムの性能向上に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2510.23914
LLM推論におけるコンパクトな保存のためのKVキャッシュ変換符号化 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルのKVキャッシュ効率的な管理
- LLMの規模拡大に伴い，メモリ消費量が課題となっている。
- KVキャッシュは再利用されるものの，不要なキャッシュがメモリを圧迫する。
- KVキャッシュの冗長性を利用し，圧縮によるメモリ効率向上を目指す。
- KVTCは，PCA，適応量子化，エントロピー符号化を組み合わせることで，KVキャッシュを最大20倍に圧縮する。
- Llama 3，Mistral NeMo，R1-Qwen 2.5を含む複数のモデルで，推論速度低下を最小限に抑えながら高い圧縮率を達成した。
- KVTCは，トークン退去，量子化，SVD法などの既存手法と比較して，優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.01815
DeepEyesV2：自律的マルチモーダルモデルへ [cs.CV, cs.AI]目的：マルチモーダルモデルにおける，外部ツールを活用した推論能力の向上
- 画像とテキストを理解するだけでなく，外部ツールを活用するAIの重要性が高まっている。
- 単純な強化学習では，ツール利用のパターンを確立することが難しい。
- ツール利用のパターンを確立し，文脈に応じた最適なツール選択を可能にすること。
- DeepEyesV2は，データ構築，学習方法，モデル評価の観点から，自律的マルチモーダルモデルを構築した。
- RealX-Benchという，現実世界でのマルチモーダル推論を評価するためのベンチマークを新たに提案した。
- DeepEyesV2は，現実理解，数学的推論，検索を必要とするタスクにおいて高い有効性を示した。
Link: https://arxiv.org/abs/2511.05271
ハイブリッド無線光IoTネットワークにおけるGNNとマルチタスク学習を用いたリソース配分 [cs.NI, cs.LG]目的：ハイブリッド無線光IoTネットワークにおけるスループット最大化とAge of Information（AoI）最小化
- IoT機器の増加に伴い，効率的な通信技術が求められている。無線と光通信の組み合わせが有力な選択肢である。
- 現実の環境では，チャネル状態の完全な把握が難しく，最適化問題の計算負荷が高いという課題がある。
- 部分的なチャネル情報と少ない計算量で，最適なリソース配分を実現することを目指す。
- 提案手法であるDGETフレームワークは，既存のRFシステムと比較して，より高いトラフィック負荷をサポートし，AoIを最大20%削減する。
- DGETフレームワークは，最適化ベースの手法と同等の性能を，90%以上の分類精度と低い計算量で実現する。
- DGETフレームワークは，部分的なチャネル情報下でもロバストなスケジューリングを可能とする。
Link: https://arxiv.org/abs/2511.07428
捉えきれないもの：構造化された発見のための多様体分離 [cs.RO, cs.SY, eess.SY, cs.HC, cs.AI]目的：学習された表現からの情報へのアクセス
- 高次元データセットを扱う分野において，注釈，発見，データフィルタリングは重要である。
- 既存手法では，条件付け変数の影響を完全に分離することが困難である。
- 条件付け変数の影響を取り除くことで，より意味のある残差表現を獲得することを目指す。
- 提案手法「What We Don't C」は，潜在的なフローマッチングに基づき，潜在空間を分離する。
- 条件付けによって抑制された情報を明示的に除去することで，表現の再利用を可能にする。
- 本研究は，生成モデルを用いて，未捕捉，未考慮，未カタログ化の要素を探索する道を提供する。
Link: https://arxiv.org/abs/2511.09433
D-GAP：周波数空間とピクセル空間におけるデータセット非依存かつ勾配誘導による拡張を通して，領域外ロバスト性を向上 [cs.CV, cs.AI]目的：領域外ロバスト性の向上
- 現実世界のコンピュータビジョン応用において，ロバスト性は不可欠である。背景，スタイル，取得機器の変化に対応する必要がある。
- 汎用的なデータ拡張は一貫した効果を示さず，データセット固有の拡張は専門知識を要する。
- 周波数成分への学習バイアスを軽減し，領域外性能の低下を防ぐことを目指す。
- D-GAPは，周波数空間とピクセル空間の両方で標的を絞った拡張を導入することで，領域外ロバスト性を向上させる。
- タスク勾配から周波数空間の感度マップを計算し，異なる周波数成分に対する深層モデルの反応の強さを反映し，適応的に振幅を補間する。
- 現実世界のデータセットで平均OOD性能が+5.3%，ベンチマークデータセットで+1.9%向上した。
Link: https://arxiv.org/abs/2511.11286
MediRound：医療画像における多段階エンティティレベル推論セグメンテーション [cs.CV, cs.AI]目的：医療画像における多段階エンティティレベル推論セグメンテーション
- 医療教育において，段階的な知識習得が重要である。画像認識技術はその支援に貢献しうる。
- 既存のセグメンテーション手法は，単一の質問への対応に限られ，多段階の推論をサポートできていない。
- 多段階の質問応答を通してエンティティレベルでの推論を行い，医療知識の理解を深めることを目指す。
- 本研究では，多段階の医療セグメンテーション対話データセットMR-MedSegを構築した。
- 提案手法MediRoundは，多段階推論セグメンテーションにおいて，従来の参照セグメンテーション手法を上回る性能を示した。
- 推論時のエラー伝播を抑制するため，軽量な判断・修正メカニズムを導入した。
Link: https://arxiv.org/abs/2511.12110
STREAM-VAE：車両テレメトリ異常検知のためのデュアルパスルーティング [cs.LG, cs.AI]目的：車両テレメトリデータの異常検知における，緩やかな変動と急激なスパイクの分離
- 自動車の安全性向上は重要であり，テレメトリデータの異常検知はその鍵となる。
- 従来の異常検知手法は，時間スケールの異なる変動を区別できず，精度が低下する。
- 本研究は，緩やかな変動と急激なスパイクを分離することで，より高精度な異常検知を目指す。
- 提案手法STREAM-VAEは，デュアルパスエンコーダを用いて，緩慢なドリフトと急激なスパイクを分離する。
- 実験により，既存の予測，アテンション，グラフ，VAE等の手法と比較して，ロバスト性が向上することが示された。
- 本手法は，車載モニターとバックエンド分析の両方で安定した異常スコアを提供する。
Link: https://arxiv.org/abs/2511.15339
REMSA：制約を考慮したエージェントによるリモートセンシング用ファウンデーションモデルの選択 [cs.CV, cs.AI]目的：リモートセンシングにおけるファウンデーションモデル選択の自動化
- リモートセンシング技術は，地球観測や環境モニタリングにおいて不可欠であり，多様な応用が期待される。
- 利用可能なリモートセンシング用ファウンデーションモデルの情報が散在しており，適切なモデル選択が困難である。
- 自然言語による問い合わせに基づき，制約を考慮した自動化されたモデル選択手法を確立すること。
- 本研究では，160を超えるリモートセンシング用ファウンデーションモデルを網羅した構造化データベースRS-FMDを構築した。
- REMSAは，ユーザーの質問を解釈し，制約を明確化し，文脈学習を通じてモデルをランク付けすることで，自動化されたモデル選択を実現する。
- 専門家による評価の結果，REMSAは既存手法を上回り，実用的な意思決定アプリケーションへの応用が期待される。
Link: https://arxiv.org/abs/2511.17442
生体医用・医療インテリジェンスのための不完全かつプライバシー保護された医療データを用いた階層的二重戦略アンラーニング [cs.RO, cs.LG, cs.AI, cs.CR]目的：生体医用・医療分野における知識の選択的アンラーニング
- 医療データは機密性が高く，LLMのプライバシーリスク軽減が重要である。
- LLMは学習データ記憶によりプライバシー侵害の危険性がある。
- 医療知識の専門性を損なわずに，特定の知識を選択的に削除すること。
- 本手法は，MedMCQAとMHQAデータセットにおいて高い忘却率(82.7%)と知識保持率(88.5%)を達成した。
- パラメータの0.1%の変更のみで高いプライバシー保護を保証し，臨床研究の規制遵守を支援する。
- 幾何学的制約勾配更新と概念認識トークンレベル介入を組み合わせることで，効果的なアンラーニングを実現した。
Link: https://arxiv.org/abs/2511.19498
CostNav：物理AIエージェントの現実的な経済コスト評価のためのナビゲーションベンチマーク [cs.AI, cs.CE, cs.CV, cs.LG, cs.RO]目的：現実世界の経済コストを考慮した物理AIエージェントのナビゲーション評価
- 自律配送システムの商業化には，タスク成功率だけでなく経済的制約が不可欠である。
- 既存のナビゲーションベンチマークは現実世界の経済的制約を無視しており，商業的実現可能性との乖離がある。
- 商業的実現可能性を評価するための，現実世界の経済コストを考慮したナビゲーションベンチマークを提供する。
- 既存のナビゲーション手法は経済的に非効率であり，いずれもマイナスの利益率を示すことがわかった。
- RGBカメラとGPSのみを搭載したCANVASは，LiDARを搭載したNav2よりも経済的に優れていることが示された。
- CostNavは，ナビゲーション研究の指標と商業的実現可能性との間のギャップを定量的に示す初の物理ベースの経済ベンチマークである。
Link: https://arxiv.org/abs/2511.20216
対称性が崩れる環境における部分的に等変な強化学習 [cs.LG, cs.RO]目的：対称性が崩れる環境下での，より効率的かつ汎用性の高い強化学習手法の開発
- 強化学習の汎化性能向上には，環境の対称性を活用することが重要である。
- 現実世界の環境は完全な対称性を持たないことが多く，学習の妨げとなる。
- 局所的な対称性の崩壊が，価値推定誤差の全体への伝播を防ぐことを目指す。
- 提案手法PI-MDPは，対称性が成立する場所でのみ対称性を利用することで，誤差の伝播を抑制する。
- 離散制御向けPE-DQNと連続制御向けPE-SACは，既存手法と比較して高い性能を示す。
- Grid-World，移動，操作といった様々なタスクにおいて，サンプル効率と汎化性能が向上することが確認された。
Link: https://arxiv.org/abs/2512.00915
IndiMathBench：人間の手による数学的推論問題の自動形式化 [cs.AI]目的：数学的定理の証明評価のためのベンチマーク
- 数学的推論の自動化は，AI研究の重要な課題であり，その進展は様々な分野に貢献しうる。
- 高品質な学習データの不足が，数学的推論の自動形式化における大きな障壁となっている。
- 自然言語で記述された数学の問題を形式的な論理体系に変換するパイプラインを構築し，評価用のベンチマークを提供する。
- IndiMathBenchは，インドの数学オリンピックの問題を形式化されたLean 4の定理と対応する自然言語の問題文のペア312個から構成される。
- AI支援パイプラインと専門家による検証により，効率的な形式化プロセスを実現し，高品位なベンチマークを構築した。
- 最先端モデルによる評価の結果，構文的な正当性と意味的な正当性の間に大きな隔たりがあり，定理の証明成功率は低いことが示された。
Link: https://arxiv.org/abs/2512.00997
器用な手の共設計 [cs.RO, cs.LG]目的：器用な手のためのロボット操作器の設計と制御
- ロボット工学において，人間の手のような器用な操作は重要な課題である。
- 操作性と設計の課題があり，器用なタスクに最適な操作器の設計原則は確立されていない。
- タスクに適した手の形態と制御方法を同時に最適化する枠組みを構築し，問題を解決する。
- 本研究では，関節，指，手のひらを生成する形態探索空間を持つ共設計フレームワークを提案した。
- 形態条件付きクロスエンボディード制御により，広範な設計空間を効率的に評価することが可能である。
- 設計，学習，製造，展開を24時間以内に実現できるエンドツーエンドのパイプラインが構築された。
Link: https://arxiv.org/abs/2512.03743
自分が知らないことを知るワールドモデル - 較正された不確実性による制御可能な動画生成 [cs.CV, cs.AI, cs.RO]目的：制御可能な動画生成における不確実性の定量化
- 動画生成技術は，ロボティクスなどの分野で応用が期待されており，現実世界とのインタラクションにおいて重要である。
- 既存の動画生成モデルは，物理現実と乖離した動画を生成する「幻覚」を起こしやすく，信頼性に課題がある。
- 生成モデルが自身の不確実性を認識し，それを表現することで，幻覚の軽減を目指す。
- 提案手法C3は，サブパッチレベルでの高密度な信頼度推定を可能にし，不確実性の箇所を正確に特定する。
- 厳密な得点ルールを用いて，正誤性と較正性を同時に学習する新しいフレームワークを開発した。
- 大規模なロボット学習データセットと実世界での評価により，学習データ内および外での較正された不確実性推定と分布外検出の有効性が示された。
Link: https://arxiv.org/abs/2512.05927
言語モデル，特性アラインメント，戦略的探索による閉ループ分子発見 [cs.AI, cs.LG]目的：閉ループ分子設計のためのフレームワーク
- 創薬は時間とコストがかかるため，効率化が求められている。
- 既存のバーチャルスクリーニングは成功率が低く，スケーラビリティに限界がある。
- 汎化性能，解釈可能性，薬理学的特性のバランスを改善する。
- Trioは，断片ベースの分子言語モデル，強化学習，モンテカルロ木探索を統合した。
- Trioは，結合親和性の向上(+7.85%)，薬物らしさ(+11.10%)，合成容易性(+12.05%)を達成した。
- 分子多様性を4倍以上に拡大し，AI駆動創薬の新たな基盤を確立した。
Link: https://arxiv.org/abs/2512.09566
GTR-Turbo：エージェント型VLM学習のための秘密の無料教師 [cs.CV, cs.AI]目的：エージェント型VLM学習のための報酬密度の向上と，長期的な信用割当問題の解決
- 視覚と言語モデルを基盤とするマルチモーダルエージェントのRLは，複雑なタスク遂行において重要である。
- 従来のRLは報酬が疎であり，長期的な信用割当が困難であるため，学習が停滞しやすい。
- 高価な教師モデルに依存せず，効率的に報酬密度を高め，安定した学習を実現することを目指す。
- GTR-Turboは，RL訓練中に生成されたチェックポイントの重みを統合することで，教師モデルの代替を実現した。
- 従来のGTRと同等の性能を達成しつつ，訓練時間を50％，計算コストを60％削減することに成功した。
- 多様な視覚エージェントタスクにおいて，ベースラインモデルの精度を10～30％向上させた。
Link: https://arxiv.org/abs/2512.13043
自己対比表現による効率的なヒューマノイドロボット学習：固有受容性優先 [cs.RO, cs.LG]目的：ヒューマノイドロボットの効率的かつロバストな全身制御
- 複雑な環境下でのヒューマノイドロボットのタスク遂行には，全身制御が不可欠である。
- ヒューマノイドロボットの複雑なダイナミクスと部分観測性により，強化学習のサンプル効率が課題となる。
- 固有受容性と特権状態の補完性を活用し，サンプル効率を向上させる。
- 提案手法PvPは，手動によるデータ拡張を必要とせず，コンパクトでタスクに関連する潜在表現を獲得する。
- シミュレーション環境SRL4Humanoidを用いた実験で，既存のSRL手法と比較してサンプル効率と最終性能が大幅に向上した。
- ヒューマノイドロボットの全身制御におけるSRLと強化学習の統合に関する知見を提供する。
Link: https://arxiv.org/abs/2512.13093
事前学習済みバッテリー変換器 (PBT): 汎用的なバッテリー寿命予測のための基盤モデル [cs.LG, cs.AI]目的：バッテリー寿命予測のための基盤モデルの構築
- バッテリーの性能向上は，電気自動車の普及やエネルギー貯蔵システムにおいて不可欠である。
- バッテリーデータは種類が多様で不足しており，機械学習による高精度な寿命予測が困難である。
- 異種バッテリーデータからの知識伝達を可能にし，汎用的な寿命予測を実現すること。
- PBTは，13の異なるリチウムイオンバッテリーデータセットで事前学習することで，転移学習による性能向上を実現した。
- リチウムイオン，ナトリウムイオン，亜鉛イオンバッテリーを含む15のデータセットで最先端の性能を示し，平均で21.8%の改善を達成した。
- 本研究は，バッテリー寿命予測のための初の基盤モデルを確立し，データ不足・異質性問題への解決策を提供する。
Link: https://arxiv.org/abs/2512.16334
TLS点群投影を用いたYOLOv8と説明可能なAIによる樹種分類の高度化 [cs.CV, cs.AI]目的：樹種分類のための深層学習モデルの解釈可能性向上
- 森林資源管理において，樹種の正確な識別は重要な課題である。効率的な森林管理や生物多様性の保全に不可欠。
- 深層学習モデルは高い分類精度を示すが，その判断根拠が不明確であり，信頼性向上が課題となっている。
- 本研究は，深層学習モデルの判断根拠を可視化し，樹種分類の解釈可能性を高めることを目指す。
- YOLOv8を用いた樹種分類において，平均精度96%（SD = 0.24%）を達成した。
- Finer-CAMを用いることで，識別的な領域が忠実に特定できることが示された。
- モデルは主に樹冠の領域を重視して樹種分類を行っており，樹種によって重視する部位に違いが見られた。
Link: https://arxiv.org/abs/2512.16950
サドル-サドル力学がニューラルネットワークアーキテクチャにおける単純性バイアスを説明する [cs.LG]目的：ニューラルネットワークにおける単純性バイアスの起源
- 深層学習のモデルは複雑化する傾向があり，その制御が重要である。
- 単純性バイアスのメカニズムに関する統一的な理論的枠組みが不足していた。
- サドル-サドル学習ダイナミクスを用いて，単純性バイアスの普遍的なメカニズムを解明する。
- 勾配降下法による学習において，線形ネットワークは増加するランクの解，ReLUネットワークは増加するキンク数の解を学習する。
- 畳み込みネットワークは増加する畳み込みカーネル数，自己注意モデルは増加するアテンションヘッド数を学習することが示された。
- データ分布と重みの初期化が学習における停滞期間と回数に与える影響を予測できる。
Link: https://arxiv.org/abs/2512.20607
低照度アニメ風景画像強調のためのデータ相対論的確実性フレームワーク [cs.CV, cs.LG, cs.MM]目的：低照度アニメ風景画像の品質劣化改善
- 自然画像処理技術の発展は著しいが，アニメ風景画像への応用は未だ十分ではない。
- アニメ風景画像は特有の表現方法を持つため，既存の低照度画像強調手法では十分な効果が得られない場合がある。
- データに内在する照度条件の多様性に着目し，不確実性を考慮した学習方法を提案することで，画像強調の性能向上を目指す。
- 提案手法であるデータ相対論的確実性（DRU）フレームワークは，照度条件の不確実性を明示的に定量化する。
- DRUフレームワークをEnlightenGANsに適用した実験により，最先端手法を上回る知覚的・審美的品質が確認された。
- 本研究は，データ中心学習の新たなパラダイムを提示し，視覚および言語分野への応用が期待される。
Link: https://arxiv.org/abs/2512.21944
Transformer Attention のベイズ幾何学 [cs.LG, cs.AI, stat.ML]目的：Transformer Attention におけるベイズ推論の幾何学的メカニズムの解明
- Transformer は自然言語処理の分野で重要な役割を果たしており，その内部動作の理解が不可欠である。
- Transformer がベイズ推論を行っている可能性はあるが，その検証は困難であった。
- ベイズ推論の基盤となる幾何学的メカニズムを明らかにし，Transformer の動作原理を解明すること。
- 制御された環境下で実験した結果，小規模な Transformer は高い精度でベイズの事後分布を再現した。
- 一方，同程度の容量を持つ MLP は大幅に性能が劣り，Transformer のアーキテクチャ的優位性が示された。
- Transformer は残差ストリーム，フィードフォワードネットワーク，Attention を通してベイズ推論を実現する幾何学的メカニズムを持つことが明らかになった。
Link: https://arxiv.org/abs/2512.22471
大規模言語モデルにおけるベイジアン推論の幾何学的スケーリング [cs.LG, cs.AI]目的：大規模言語モデルにおけるベイジアン推論の幾何学的構造の存在とその役割
- 言語モデルの推論能力向上には，不確実性の表現と処理が不可欠である。
- 既存モデルでは，不確実性の表現が必ずしも最適化されておらず，性能向上を阻害している。
- 言語モデルが持つ幾何学的構造が，ベイジアン推論をどのように可能にしているかを解明する。
- Pythia，Phi-2，Llama-3，Mistralなどのモデルにおいて，最後の層の価値表現が予測エントロピーと強い相関を持つ単一の軸に沿って組織されていることが示された。
- 特定の軸への介入が，文脈学習中の不確実性の幾何学的構造を破壊する一方で，ランダムな軸への介入は影響を与えないことが確認された。
- この幾何学的構造は，不確実性の読み取りに特化したものであり，ベイジアン推論の単一の計算ボトルネックではない可能性が示唆された。
Link: https://arxiv.org/abs/2512.23752
深層学習を用いたルーチン病理組織標本からの膵癌臨床的に関連する分子サブタイプの推論 [cs.LG, cs.CV, eess.IV]目的：膵癌の分子サブタイプの推論
- 膵癌は予後不良であり，分子サブタイピングによる個別化医療が重要である。
- 従来の分子サブタイピングはコストや時間，組織量に制約があり，臨床応用が限られている。
- ルーチン病理組織標本から迅速かつ低コストで分子サブタイプを予測する手法を開発する。
- PanSubNetは，H&E染色標本から分子サブタイプを高い精度（AUC 88.5%）で予測可能であった。
- 外部検証データセット（TCGA）においても高い汎化性（AUC 84.0%）を示し，転移性疾患において予後層別化能を向上させた。
- 予測の不確実性は分類ノイズではなく，中間的な転写状態に関連していることが示された。
Link: https://arxiv.org/abs/2601.03410
検索拡張大規模言語モデルにおける過剰検索 [cs.LG, cs.AI]目的：検索拡張大規模言語モデルにおける過剰検索の評価と軽減
- 知識集約型タスクにおいて，外部検索と大規模言語モデルの統合が重要視されている。
- 検索拡張モデルは，不要な検索を行うことで計算効率を損ない，誤った情報を組み込む可能性がある。
- 過剰検索を定量化し，その軽減策を検討することで，効率的な検索拡張モデルの実現を目指す。
- 検索は回答可能なクエリの正答率を向上させる一方，回答不能なクエリに対する棄権を妨げる。
- 過剰検索は，複雑な推論モデルや深層的な調査システムにおいて顕著であり，ノイズの多い検索によって悪化する。
- 検索された証拠の構成が重要であり，否定的な証拠の存在は棄権を改善する。Tokens Per Correctness (TPC) という評価指標を提案した。
Link: https://arxiv.org/abs/2601.05503
企業LLMにおける安全なマルチテナントアーキテクチャのための使い捨て型データ保護 [cs.CR, cs.AI]目的：企業LLM環境におけるデータ漏洩の防止
- 組織でのLLM利用拡大に伴い，データ漏洩リスクが重要なセキュリティ課題となっている。
- マルチテナント環境における，テナント間の情報漏洩を防ぐ仕組みが不十分である。
- セッション情報を自動破棄する使い捨て型データ保護メカニズムを導入し，データ漏洩を抑制する。
- 提案するSMTAは，部門間のLLMインスタンスを分離し，厳格なコンテキスト所有権境界を適用することで，高いセマンティックな分離を実現した。
- BAUメカニズムは，クライアント，サーバー，アプリケーション，インフラ，キャッシュ層において，セッション後の漏洩脅威を76.75%の確率で軽減することに成功した。
- SMTAとBAUの組み合わせにより，厳格な分離，完全なセッションの一時性，強力な機密性，非永続性，ポリシーに準拠した動作が実現された。
Link: https://arxiv.org/abs/2601.06627
Langevinに基づく速度と初期値推定による確率微分方程式における確率的補間を用いたサンプリング [math.NA, cs.LG, cs.NA, math.PR, stat.ML]目的：非正規化ボルツマン分布からのサンプリング手法
- 機械学習や統計物理における確率分布からの効率的なサンプリングは，モデル学習や推論に不可欠である。
- 高次元や多峰性分布からのサンプリングは，既存手法では計算コストが高く困難である。
- 確率微分方程式に基づき，Langevinサンプラーを用いた効率的なサンプリング手法を開発し，その有効性を検証する。
- 提案手法は，線形確率的補間から導出される確率フロー常微分方程式に基づき，Langevinサンプラーを用いることで効率的なシミュレーションを実現する。
- Langevinサンプラーは，中間時点でのサンプル生成と，確率フロー常微分方程式を支配する速度場のロバストな推定に利用される。
- 理論的な収束性保証に加え，様々な次元や複雑な分布に対する数値実験で，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2601.08527
最大トークンを超えて：LLMエージェントにおけるツール呼び出しチェーンによる隠密なリソース増幅 [cs.CL, cs.CR, cs.AI]目的：LLMエージェントにおけるツール層を標的とした，経済的DoS攻撃手法の提案と評価
- LLMエージェントは多様なタスクを自動化する強力なツールだが，セキュリティ上の脆弱性が存在する
- 従来のDoS攻撃は単一ターンであり，コスト増幅や隠密性に限界があった
- 複数ターンのツール呼び出しチェーンを悪用し，コストを増幅させつつ検知を回避する攻撃手法を確立する
- 提案手法は，LLMエージェントを60Kトークン以上の長大な処理に誘導し，コストを最大658倍に増加させる
- エネルギー消費量も100～560倍に増加し，GPUのKVキャッシュ占有率も35～74%に上昇した
- 標準的なプロンプトフィルタや出力監視では検知が難しく，エージェント処理全体の保護が必要であることが示唆された
Link: https://arxiv.org/abs/2601.10955
指向性スキルグラフと選択的適応によるアクションRPGにおける転移可能なスキルの学習 [cs.AI]目的：アクションRPGにおける転移可能なスキルの学習
- 強化学習は複雑な環境での自律エージェントを実現する上で重要である。継続的な学習能力は，実用的な応用には不可欠である。
- 既存手法では，環境変化に適応するために再学習が必要となり，効率が悪い場合が多い。
- スキルグラフを用いた階層的なカリキュラムと選択的ファインチューニングにより，効率的な継続学習を目指す。
- 本研究では，Dark Souls IIIの戦闘を指向性スキルグラフとして表現し，５つの再利用可能なスキルを学習した。
- 特定の環境変化に対して，限られた学習時間内で，一部のスキルのみをファインチューニングすることで性能を回復できることを示した。
- スキルグラフと選択的ファインチューニングの組み合わせは，複雑な環境下で継続的に学習するエージェント開発の現実的な道筋を提供する。
Link: https://arxiv.org/abs/2601.17923
ハーン・コルモゴロフ・アーノルドネットワークによる時系列予測 [cs.LG, stat.ML]目的：時系列予測のためのハーン・コルモゴロフ・アーノルドネットワークの活用
- 長期間の時系列予測は，需要予測や異常検知など，幅広い分野で重要である。
- Transformerモデルは計算コストが高く，MLPモデルは学習に偏りがあるという課題があった。
- 軽量かつ解釈可能なモデルとして，ハーン・コルモゴロフ・アーノルドネットワークの可能性を探る。
- 提案モデルHaKANは，既存の最先端手法と比較して，様々な予測ベンチマークで一貫して高い性能を示した。
- HaKANは，ハーン多項式に基づく学習可能な活性化関数と，チャネル独立性，パッチングなどの機構を統合している。
- 各構成要素の効果を検証するアブレーションスタディにより，HaKANの有効性が確認された。
Link: https://arxiv.org/abs/2601.18837
MemOCR：効率的な長期的推論のためのレイアウト認識型ビジュアルメモリ [cs.AI]目的：長期的な推論における効率的な文脈圧縮
- エージェントの長期的な推論能力は，増加するインタラクション履歴の効率的な圧縮に依存する。
- 既存のメモリシステムは履歴をテキストとしてシリアライズするため，無駄な詳細にリソースを費やす場合がある。
- 限られた文脈予算内で，重要な情報を優先的に圧縮し，効率的な情報利用を目指す。
- MemOCRは，ビジュアルレイアウトによる適応的な情報密度で，メモリ空間を割り当てることで，長期的な推論性能を向上させる。
- 構造化されたリッチテキストメモリを画像として表現し，重要な証拠を優先的に表示しつつ，不要な詳細は積極的に圧縮する。
- 予算を考慮した学習により，MemOCRは様々な圧縮レベルに対して頑健性を獲得し，極端な予算下でも効果的な文脈利用を達成する。
Link: https://arxiv.org/abs/2601.21468
幻覚は空間最適性の結果である：メンバーシップテストのためのレート歪み定理 [cs.LG, cs.AI, cs.CL, cs.DS, cs.IT, math.IT]目的：大規模言語モデルにおける幻覚の発生メカニズムの解明
- 大規模言語モデルの利用拡大に伴い，その信頼性確保が重要課題となっている。
- 大規模言語モデルは事実に基づかない情報を高確度で生成する「幻覚」を起こしやすい。
- 限られたモデル容量下での情報圧縮の限界が，幻覚の根本原因となる。
- 本研究では，幻覚を記憶の効率性とトレードオフとして捉え，レート歪み定理を導出した。
- 理論的考察により，モデル容量が限られている場合，幻覚は最適な戦略の結果として必然的に生じることが示された。
- 合成データを用いた実験により，幻覚が損失圧縮の自然な帰結であることが検証された。
Link: https://arxiv.org/abs/2602.00906
複数参加者による共同対話のための長期的記憶の評価 [cs.CL, cs.AI]目的：複数参加者による共同対話における長期的記憶の評価基準
- 実用的なLLMにおいて，対話履歴の長期記憶は重要である。複数の参加者，グループ，チャンネルを跨いだ情報管理が求められる。
- 既存の評価基準は，対人または単一トピックの対話に偏っており，現実世界の複雑な共同対話パターンを反映していない。
- 現実世界の共同対話における記憶システムの性能を評価し，次世代LLMの開発を促進することを目的とする。
- EverMemBenchは，100万トークンを超える複数参加者間の共同対話から構築された，初の長期的記憶評価基準である。
- 評価の結果，現在のシステムは，複数参加者の情報を正確に把握することや，時間経過に伴う情報の変化を理解することに課題があることが判明した。
- 類似性に基づく検索方法では，暗黙的に関連する情報を捉えることが難しく，記憶認識がボトルネックとなっている。
Link: https://arxiv.org/abs/2602.01313
位置：モデル中心予測を超えて – エージェントによる時系列予測 [cs.LG]目的：エージェントによる時系列予測の概念
- 時系列予測は，様々な分野で不可欠であり，将来の計画や意思決定を支援する。
- 従来の予測は静的で単一パスであり，適応性や多段階推論に限界がある。
- 予測をエージェントの知的なプロセスとして捉え，継続的な学習と改善を目指す。
- 本稿では，時系列予測をエージェントの知覚，計画，行動，反省，記憶からなるプロセスとして捉え直す。
- モデル中心の予測からエージェントによる予測への移行が，新たな研究の基盤となると提唱する。
- ワークフローベース設計，エージェントによる強化学習，ハイブリッドなワークフローなど，実装パラダイムを提示する。
Link: https://arxiv.org/abs/2602.01776
ワールドモデルによる実行可能な計画に基づいた生成動画の接地 [cs.LG]目的：生成動画の計画を実行可能な行動系列に結びつける手法
- 動画生成モデルは計画立案能力を示すが，現実的な制約を満たせず実用化が課題。
- 生成された計画が時間的一貫性や物理法則を満たさず，実際の行動に繋がりにくい。
- 生成動画の計画を，学習済みのワールドモデルを用いて実行可能な行動に変換すること。
- 提案手法GVP-WMは，生成された動画計画を，動的に実行可能な潜在軌道に投影する。
- 潜在空間における軌道最適化問題を解くことで，ワールドモデルのダイナミクス下で状態と行動を同時に最適化する。
- シミュレーション実験で，物理制約に違反する動画からでも，実行可能な長期的計画を復元できることを実証。
Link: https://arxiv.org/abs/2602.01960
分散型拡散モデルにおける生成品質は専門家とデータの整合性によって支配される [cs.LG]目的：分散型拡散モデルにおける生成品質の支配要因
- 近年，大規模モデルを分散学習する手法が注目されており，その効率化が重要である。
- 分散学習においては，各専門家モデルの予測が不一致となることがあり，生成品質の低下を招く。
- 本研究は，分散型拡散モデルにおける生成品質を向上させるための指針を提示する。
- 生成品質は，数値的な安定性よりも，入力データと専門家モデルの学習データの整合性に依存することが示された。
- スパースTop-2ルーティングは，最も安定したサンプリングダイナミクスと数値収束を示す一方で，生成品質は最も低い。
- データのクラスタ間距離分析，専門家ごとの分析，不一致分析により，専門家とデータの整合性が生成品質を左右することが確認された。
Link: https://arxiv.org/abs/2602.02685
挫折しても進む：具現化とタスクを条件とする拡散ポリシーによるフェイルアクティブな軌道生成 [cs.RO, cs.AI]目的：ロボットの損傷時における安全なタスク完了
- ロボットの応用範囲拡大には，故障に対するロバスト性が不可欠である。
- ロボットの故障発生時の回復は，人間介入が必要となる場合が多い。
- 本研究は，ロボットが損傷してもタスクを遂行できるフェイルアクティブな操作を実現する。
- DEFTは，拡散モデルを用いてロボットの現在の状態とタスク制約に基づいて軌道を生成する。
- シミュレーションと実機実験で，既存手法と比較して高い成功率を示した(制約なし:99.5%, 制約あり:46.4%)。
- 訓練データにない故障状態に対しても高い汎化性能を発揮し，実用的なタスクで有効性が確認された。
Link: https://arxiv.org/abs/2602.02895
WebAccessVL：ウェブアクセシビリティのための違反認識VLM [cs.HC, cs.AI, cs.CV]目的：ウェブサイトのアクセシビリティ違反の自動修正
- ウェブアクセシビリティは，情報への公平なアクセスを保証し，多様な人々を含むすべての人々のデジタル包容性を促進する上で重要である。
- ウェブサイトの多くはアクセシビリティガイドラインに違反しており，障害を持つユーザーの利用を困難にしている。
- 本研究は，ウェブサイトのアクセシビリティ違反を自動的に特定し，修正することで，より包括的なウェブ環境を実現することを目指す。
- 提案手法は，生のデータと比較して違反数を96.0%削減し，GPT-5よりも87%高い性能を示した。
- 実験結果から，修正されたウェブサイトは元の視覚的デザインとコンテンツを適切に維持していることが確認された。
- 違反情報を条件としてVLMに組み込むことで，反復的なチェック・ループによる改善戦略を可能にした。
Link: https://arxiv.org/abs/2602.03850
BLITZRANK：トーナメントグラフに基づく原理的なゼロショットランキングエージェント [cs.RO, cs.LG]目的：高コストなk-way比較による上位m個のアイテム選択
- 文書再ランキング，クラウドソーシング評価など多様な場面で上位アイテムの選定は重要である。
- 既存手法は，比較から得られる情報を十分に活用できていないか，効率が悪いという課題がある。
- トーナメントグラフを用いて比較情報の活用を最大化し，効率的なランキングを実現する。
- 提案手法は，14のベンチマークと5つのLLMで既存手法を凌駕する性能を示した。
- 同等の精度を維持しながら，比較回数を25〜40%削減し，pairwiseランキングよりも7倍少ないトークンで済んだ。
- 非推移的な選好にも対応し，原理的な階層型ランキングを実現する。
Link: https://arxiv.org/abs/2602.05448
エージェント強化学習のための潜在ポアンカレ形状 [cs.LG]目的：AlphaZeroライクなLLMエージェントの訓練手法
- 大規模言語モデルの能力向上は，複雑なタスク解決への応用を可能にするため重要である。
- LLMエージェントは，探索空間が広大であり，効率的な探索が課題となっている。
- ポアンカレ潜在空間を利用し，効率的な探索と価値判断を実現することを目指す。
- LaPhaは，ポアンカレ潜在空間においてLLMエージェントを訓練する手法である。
- MATH-500において，LaPhaはQwen2.5-Math-1.5Bの精度を66.0%から88.2%に向上させた。
- 価値ヘッドによる探索により，AIME'24でLaPha-1.5Bは56.7%，LaPha-7Bは60.0%の精度を達成した。
Link: https://arxiv.org/abs/2602.09375
細粒度グループポリシー最適化による長鎖思考圧縮 [cs.LG, cs.AI]目的：大規模言語モデルにおける冗長な思考過程の圧縮
- 大規模言語モデルの活用において，計算コストと遅延を削減することが重要である。
- 思考過程の説明が冗長になり，性能向上に見合わない計算資源を消費する問題がある。
- 思考過程を細かく分割し，重みを調整することで，効率的な圧縮を実現することを目指す。
- 提案手法FGOは，思考過程の長さに応じて適切な重みを付与することで，圧縮を実現した。
- FGOは，既存手法GRPOのデータ利用効率の低さとエントロピー崩壊という課題を解決した。
- MATH500等の複数のベンチマークにおいて，性能劣化なく思考過程を圧縮できることを示した。
Link: https://arxiv.org/abs/2602.10048
混合か融合か：大規模言語モデルのためのマルチドメイン強化学習に向けて [cs.AI]目的：大規模言語モデルにおけるマルチドメイン強化学習のあり方に関する検討
- 大規模言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- マルチドメインにおける強化学習の適用には，ドメイン間の干渉が課題となる。
- 本研究は，マルチドメイン強化学習の最適な学習パラダイムを明らかにすることを目指す。
- マルチドメイン強化学習において，ドメイン間の相互干渉は少ないことが示された。
- 推論能力を要するドメイン間では，相乗効果が認められた。
- 重み空間の幾何学，情報制約，モデル予測挙動，自己検証の観点から，相互利得のメカニズムが分析された。
Link: https://arxiv.org/abs/2602.12566
UniWeTok：コードブックサイズ2の128乗を持つ統一されたバイナリトークナイザー - 統一マルチモーダル大規模言語モデルのために [cs.OS, cs.MA, cs.CV, cs.AI]目的：統一マルチモーダル大規模言語モデルのための，高精度な再構成，複雑な意味抽出，および生成適性を同時にサポートする視覚表現
- マルチモーダル大規模言語モデルの発展には，画像とテキストを統合するための効率的な視覚表現が不可欠である。
- 既存の視覚トークナイザーは，高精度な再構成と意味抽出，生成適性という相反する目標を同時に満たすことが困難である。
- 本研究では，巨大なバイナリコードブックを用いて，このギャップを埋める統一的な離散トークナイザーUniWeTokを開発する。
- UniWeTokは，ImageNetにおいて最先端の画像生成性能（FID: UniWeTok 1.38 vs. REPA 1.42）を達成し，大幅に少ない計算量で学習可能である。
- 汎用ドメインにおいては，マルチモーダル理解，画像生成（DPG Score: UniWeTok 86.63 vs. FLUX.1 [Dev] 83.84），および編集（GEdit Overall Score: UniWeTok 5.09 vs. OmniGen 5.06）において高い性能を示す。
- Pre-Post DistillationやSigLu活性化関数などの技術により，UniWeTokは様々な画像解像度や知覚に敏感なシナリオへの適応性を高めている。
Link: https://arxiv.org/abs/2602.14178
TikArt：強化学習による絞り込み探索を用いた微細視覚推論の安定化 [cs.CV, cs.AI]目的：微細視覚推論の性能向上
- マルチモーダルLLMの発展に伴い，画像理解の精度向上が求められている。
- 既存手法では，微小物体や複雑な領域の識別が困難である。
- 絞り込み探索を通じて，重要な視覚情報を効率的に取得する。
- TikArtは，言語推論と絞り込み行動（ズーム，セグメンテーション）を繰り返すTAOループを用いる。
- RUR（Relative Uncertainty Reduction）という報酬関数を導入することで，長期的な学習を安定化させている。
- 高解像度画像推論，マルチモーダル理解，セグメンテーションにおいて，ベースラインモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2602.14482
GOT-JEPA：関節埋め込み予測アーキテクチャを用いたモデル適応とオクルージョン処理による汎用オブジェクト追跡 [cs.CV, cs.AI, cs.LG, cs.MM, cs.NE]目的：汎用オブジェクト追跡における汎化性能とオクルージョン認識の向上
- 視覚システムは変化に適応し，オクルージョンを詳細に推論する能力が重要である。
- 既存の追跡器は学習データに依存し，未知の状況での頑健性や汎化性能が課題である。
- オクルージョンに対する詳細なモデリングと，より頑健な追跡を実現することを目指す。
- GOT-JEPAは，画像特徴の予測から追跡モデルの予測へとJEPAを拡張した事前学習フレームワークである。
- 教師モデルと生徒モデルを用いて，ノイズの多い画像から信頼性の高い追跡モデルを予測するように学習する。
- OccuSolverを導入し，オブジェクトの視認性推定とオクルージョンパターンの詳細な把握を強化することで追跡性能を向上させた。
Link: https://arxiv.org/abs/2602.14771
LexiSafe：語彙的安全性・報酬階層を用いたオフライン安全強化学習 [cs.NI, cs.LG, cs.SY, eess.SY]目的：オフライン環境における安全な強化学習手法
- サイバー物理システム等の安全性確保は重要であり，訓練中の安全違反は許容されない。
- 既存手法では，安全性を犠牲にしてしまう「安全性ドリフト」が発生しやすい。
- 安全性と性能の両立を図り，安全性ドリフトを抑制する手法を開発する。
- LexiSafeは，語彙的優先順位付けと構造的バイアスを統合したフレームワークである。
- 標準的なオフライン安全強化学習（LexiSafe-SC）と階層的な安全性要件（LexiSafe-MC）に対応可能である。
- 実験結果から，既存手法と比較して安全違反が減少し，タスク性能が向上することが示された。
Link: https://arxiv.org/abs/2602.17312
ZACH-ViT：医療画像のためのコンパクトなVision Transformerにおける状況依存型誘導バイアス [cs.CV, cs.LG, eess.IV]目的：医療画像におけるVision Transformerの性能向上
- 医療画像診断の精度向上は，臨床現場における重要な課題である。
- 従来のVision Transformerは，自然画像向けに最適化されており，医療画像のような空間情報が弱い場合に性能が低下する。
- 空間情報に依存しないアーキテクチャにより，医療画像診断におけるVision Transformerの性能を改善すること。
- ZACH-ViTは，位置埋め込みと[CLS]トークンを削除することで，パッチ処理において置換不変性を実現した。
- BloodMNISTにおいて顕著な優位性を示し，PathMNISTでも競争力のある性能を発揮した。
- 空間構造が強固なデータセット（OCTMNIST，OrganAMNIST）では優位性が低下し，データ構造とアーキテクチャの整合性の重要性が示唆された。
Link: https://arxiv.org/abs/2602.17929
多数のAIアナリスト，単一のデータセット：エージェント型データサイエンス多元宇宙の航海 [cs.CL, cs.AI, cs.LG]目的：AIアナリストによる分析的多様性の再現と，その結果に対する透明性の確保
- データ分析において，結論はデータだけでなく分析者の意思決定に依存する点が重要である。
- 複数分析者による研究では結論の不一致が確認されているが，その実施にはコストがかかる。
- LLMを活用したAIアナリストを用いて，分析的多様性を低コストで再現し，透明性を高める。
- AIアナリストによる分析では，効果量，p値，結論に大きなばらつきが見られた。
- このばらつきは，前処理，モデル仕様，推論における分析者の選択に起因することが判明した。
- 分析者のペルソナやLLMを変更することで，結果の分布を制御可能であることが示された。
Link: https://arxiv.org/abs/2602.18710
リアル異常は不要：MLLMを活用したゼロショット動画異常検知 [cs.CV, cs.AI]目的：動画異常検知における新しいフレームワーク
- 動画データは，その稀少性から収集・検知が困難であり，監視や自動運転等の応用において重要である。
- 既存手法は，データセットの多様性の不足や文脈依存の異常セマンティクスの理解不足から，オープンワールド環境で性能が低い。
- 未知の異常カテゴリへの適応性を高め，異常パターンの空間的時間的な稀少性に対処し，計算コストを削減することを目的とする。
- 提案手法LAVIDAは，擬似異常を用いてゼロショットで動画異常を検知するエンドツーエンドのフレームワークである。
- 異常曝露サンプラーにより，モデルの未知の異常カテゴリへの適応性を向上させている。
- MLLMの統合と逆注意に基づくトークン圧縮により，SOTA性能を達成した。
Link: https://arxiv.org/abs/2602.19248