arXiv雑要約

AI - 2026/05/12 公開

高確率ゼロ次オンライン凸最適化：ユークリッド幾何学を超えて [cs.LG, stat.ML]目的：オンライン凸最適化における高確率な後悔境界の確立
- 機械学習の発展において，オンライン最適化は重要な役割を担う。データストリームに適応する能力が求められる。
- 既存手法では，高次元データや複雑な制約条件における確率的保証が不十分である場合が多い。
- 様々なノルム空間におけるオンライン最適化の汎用的な高確率な後悔境界を導出すること。
- 平均が凸であるランダムなリプシッツ損失関数に対し，全ての$p, q, r \in [1, \infty]$ で統一された高確率な後悔境界を証明した。
- 本アルゴリズムは，既存の研究における期待値に基づく保証を，時間的に一様な高確率保証に強化する。
- 適切なサンプリング幾何学の下では，$q \in [1, 2]$ で最適性が確立され，$q > 2$ におけるギャップが示唆された。
Link: https://arxiv.org/abs/2509.21484
Neuroprobe：自然刺激に対する脳内応答の評価 [cs.LG, q-bio.NC]目的：多言語処理に関する脳内計算のタイミングと場所の系統的決定
- 高分解能の神経データは，次世代の脳コンピュータインタフェースや神経治療の基盤となるため重要である。
- 頭蓋内脳波（iEEG）記録に対する標準化された評価フレームワークが存在しないという課題がある。
- iEEGデータのベンチマークを通じて，脳内計算のメカニズム解明とモデルの比較を可能にすることを目指す。
- Neuroprobeは，40時間以上のiEEG記録を含むBrainTreebankデータセットを基盤とし，多言語処理に関する様々なデコーディングタスクを提供する。
- 上側側頭回から前頭前皮質への情報伝達の流れを可視化し，音の高さや音量といった単純な特徴から，品詞のような複雑な言語特徴への処理の進化をデータ駆動的に示した。
- Neuroprobeは，大規模データセットで学習されたニューラルファウンデーションモデルのアーキテクチャや学習プロトコルの比較のための厳密なフレームワークを提供する。
Link: https://arxiv.org/abs/2509.21671
ニューロン活性化からの形式的性質の推論 [cs.LG, cs.SE]目的：フィードフォワードニューラルネットワークの形式的性質の自動推論
- 深層学習の安全性・信頼性確保は重要であり，モデルの振る舞いを理解する手段が求められている。
- ニューラルネットワークはブラックボックス性が高く，その内部の動作原理の解明が困難である。
- ニューロンの活性化状態から形式的な性質を推論し，モデルの挙動を説明可能にすることを目指す。
- Prophecyは，ニューロンの活性化状態を前条件とするルールを抽出し，特定の出力特性を導くことができる。
- 抽出されたルールは，隠れ層で捉えられたネットワークの性質を表し，所望の出力動作を保証する。
- 本ツールは，形式的説明の推論，合成検証，ランタイム監視など，多様な応用可能性を示す。
Link: https://arxiv.org/abs/2509.21677
弾力的なMoE：MoEの推論時スケーラビリティの解放 [cs.CL, cs.AI, cs.LG]目的：MoEモデルの推論時のスケーラビリティ向上
- 大規模言語モデルの効率的な推論は，実用上の重要な課題である。
- MoEモデルでは，推論時のハードウェアや負荷変動への対応が難しい。
- 推論時に活性化される専門家数を動的に調整することで，スケーラビリティを改善する。
- EMoEは，推論時に活性化される専門家数を弾力的に変化させる新しい学習フレームワークである。
- EMoEは，専門家間の協調学習を促進し，多様な推論予算で安定した性能を維持する。
- 実験結果から，EMoEは有効なスケーリング範囲を大幅に拡大し，ピーク性能も向上することが示された。
Link: https://arxiv.org/abs/2509.21892
医療ビジョン言語モデルにおけるおべっか行為のベンチマークと緩和 [cs.CV, cs.AI]目的：医療ビジョン言語モデルにおけるおべっか行為のベンチマークと緩和戦略
- 医療現場におけるAI活用が期待される中で，その安全性確保は極めて重要である。
- 医療におけるビジョン言語モデルは，おべっか行為に脆弱であり，誤診のリスクがある。
- おべっか行為を軽減し，根拠に基づいた推論を促進する手法を確立すること。
- 現在のビジョン言語モデルは，視覚的要素に強く影響を受け，モデルの規模や精度と誤答率に相関が見られた。
- 権威への迎合やユーザーの行動模倣が，視覚データとは独立したバイアス機構として機能することが示唆された。
- 提案手法VIPERは，根拠に基づかない社会的要素をフィルタリングすることで，おべっか行為を軽減し，解釈可能性を維持し，既存手法を上回る性能を発揮した。
Link: https://arxiv.org/abs/2509.21979
メカニズム的独立性：識別可能な分散表現の原理 [cs.LG, stat.ML]目的：識別可能な分散表現の原理
- データの本質的要因を捉える分散表現は，機械学習の重要な課題である。
- 分散表現の識別可能性は未だ完全には解明されておらず，理論的な課題が多い。
- メカニズム的独立性に基づき，統計的仮定に頼らず識別可能な分散表現の条件を明確化する。
- メカニズム的独立性という統一的な枠組みを導入し，分散表現の識別可能性を捉えた。
- サポートベース，スパース性ベース，高次条件など，複数の独立性基準を提案し，それらが潜的空間の識別性を保証することを示した。
- これらの基準間に階層構造が存在し，潜的空間は連結成分としてグラフ理論的に特徴付けられることを明らかにした。
Link: https://arxiv.org/abs/2509.22196
株価時系列予測のためのマルチスケール空間-時間ハイパーグラフネットワーク Hermes [cs.LG]目的：株価時系列予測の精度向上
- 金融分野において，投資判断や規制当局の意思決定を支援する重要な技術である。
- 既存のハイパーグラフベース手法では，業界間の相互依存関係を十分に捉えられていない。
- 業界間の先行遅延関係とマルチスケール情報を考慮し，予測精度を向上させる。
- Hermesは，移動集約モジュールとマルチスケール融合モジュールを統合したハイパーグラフネットワークである。
- 先行遅延関係の柔軟な捉え方として，スライディングウィンドウを用いた動的な時間集約操作を導入した。
- 異なるスケールの情報を効果的に統合し，各スケールの整合性を維持するクロススケールエッジ間メッセージパッシングを採用した。
Link: https://arxiv.org/abs/2509.23668
大規模言語モデルにおけるモデルマージのスケーリング則 [cs.AI]目的：言語モデルマージのスケーリング則の経験的法則
- 大規模言語モデルの性能向上は，計算資源の効率的な利用が重要である。
- モデルマージは広く利用されているが，その効果を定量的に予測するルールは存在しない。
- モデルサイズとエキスパート数の関係性を明らかにし，マージの計画的な利用を可能にすること。
- モデルサイズに応じてマージによる性能向上の限界が変化し，エキスパート数が増えるにつれて効果が逓減することが明らかになった。
- この法則は，様々なアーキテクチャや手法で確認され，マージの初期段階で大きな効果が得られ，エキスパート数が増えるほど変動が小さくなるという傾向を説明する。
- この法則を用いることで，目標とする性能を達成するために必要なエキスパート数を予測し，予算に応じてモデルのスケーリングとエキスパートの追加を計画的に行うことができる。
Link: https://arxiv.org/abs/2509.24244
信頼の証明に向けて：科学AIのためのタスク認識型分布外検出 [cs.LG]目的：科学AIにおける分布外データの検出手法
- 気象予報や流体力学など，科学分野でのデータ駆動型モデリングが重要性を増している。
- 回帰タスクにおける分布外データの検出は未解決の課題であり，誤った予測のリスクがある。
- 予測誤差との強い相関性を持つ信頼性スコアを提供し，AI予測の信頼性を評価する手段を提供する。
- 提案手法は，スコアベース拡散モデルを用いて同時尤度を推定することで，入力と予測の両方を考慮したタスク認識型検出を実現する。
- 様々な科学データセット（偏微分方程式，衛星画像，脳腫瘍セグメンテーション）において，尤度と予測誤差の強い相関が確認された。
- 本研究は，検証可能な「信頼の証明」を構築するための基礎となるステップを提供する。
Link: https://arxiv.org/abs/2509.25080
不確実性評価を伴う深層集合演算子学習 [cs.LG, cs.NA, math.NA]目的：データからの演算子学習
- 科学的機械学習において，物理現象のモデル化は重要である。
- 既存手法は，センサー数や配置に依存し，不確実性の定量化が困難である。
- 疎なセンサー配置や演算子のランダム性に対応し，不確実性を評価する。
- 提案手法UQ-SONetは，セットTransformerと条件付き変分オートエンコーダを統合している。
- これにより，疎なセンサー配置に対応しつつ，演算子の条件付き分布を近似し，不確実性を推定する。
- Navier-Stokes方程式を含む数値実験で，提案手法の有効性とロバスト性が確認された。
Link: https://arxiv.org/abs/2509.25646
シンプルさを追求：グラフ対照学習の新たな方向性 [cs.LG]目的：異種グラフにおけるグラフ表現学習の性能向上
- グラフ構造データは，ソーシャルネットワークや分子構造など，様々な分野で重要性が増している
- 既存のグラフ対照学習は，異種グラフにおいて十分な性能を発揮できていない
- ノード特徴量のノイズを軽減し，グラフ構造との相補性を活かすことで性能向上を目指す
- 複雑なデータ拡張や負例サンプリングを必要とせず，シンプルなGCNとMLPエンコーダで高い性能を達成した
- 異種グラフのベンチマークにおいて，最先端の結果を達成し，計算コストとメモリ消費を抑制した
- 理論的根拠に基づき，敵対的攻撃に対するロバスト性も検証することで，有効性を確認した
Link: https://arxiv.org/abs/2509.25742
タイプ指向の権限分離によるプロンプトインジェクションの防止 [cs.CR, cs.LG]目的：プロンプトインジェクションの防止策
- 大規模言語モデルの応用拡大に伴い，エージェントシステムのセキュリティ確保が重要になっている。
- 既存の防御策は，適応的な攻撃に対して脆弱性を持つことが課題となっている。
- システムレベルの防御範囲を広げ，より多くのタスクを保護することを目指している。
- 提案手法は，信頼できないデータを厳選されたデータ型に変換することで，プロンプトインジェクションを根本的に防止する。
- データ型は範囲と内容が限定されるため，悪意のあるコード実行の可能性を排除する。
- ケーススタディの結果，本手法は高い実用性を維持しつつ，プロンプトインジェクション攻撃を効果的に防御できることが示された。
Link: https://arxiv.org/abs/2509.25926
AI推論の臨界点：フロンティア物理学研究ベンチマーク [cs.AI, cond-mat.other, cs.CL, hep-th, quant-ph]目的：フロンティア物理学研究におけるAIの推論能力評価
- 物理学研究は，科学技術の進歩に不可欠であり，複雑な問題解決を必要とする。
- 大規模言語モデルは高度な推論能力を示す一方，実際の物理学研究レベルの問題への適用は限定的である。
- 物理学者が求めるAI支援の具体的なタスクを明らかにし，AI開発の方向性を示すことを目指す。
- 提示されたベンチマーク「CritPt」は，現代物理学の幅広い分野を網羅した研究レベルの問題群を提供する。
- 現在の最先端LLMは，個々のチェックポイントでは一定の成果を示すものの，大規模な研究課題の解決には至っていない。
- モデルの能力と現実の物理学研究ニーズとの間に大きな隔たりが存在し，科学に基づいたAIツールの開発が求められる。
Link: https://arxiv.org/abs/2509.26574
GLAI：知識の分離による学習加速のためのGreenLightningAI [cs.LG, cs.AI]目的：知識の分離による機械学習の学習効率向上
- 深層学習のモデル規模拡大に伴い，学習時間の短縮が喫緊の課題となっている。
- 従来の多層パーセプトロン（MLP）は計算コストが高く，学習に時間がかかるという課題がある。
- ReLU活性化による構造的知識と数値的知識を分離し，効率的な学習を実現する。
- GLAIは，従来のMLPを置き換える新たなアーキテクチャブロックであり，学習時間を約40%削減できる。
- GLAIは，パラメータ数を同等に保ちながら，MLPと同等以上の精度を達成し，より高速に収束する。
- GLAIの設計原則は，Transformerなどの大規模アーキテクチャへの統合の方向性を示す。
Link: https://arxiv.org/abs/2510.00883
SAFA-SNN：スパース性認識型スパイキングニューラルネットワークによる高速適応構造を用いたデバイス上Few-Shot Class-Incremental学習 [cs.LG]目的：デバイス上におけるFew-Shot Class-Incremental学習手法
- エッジデバイスにおける継続学習は，データプライバシー保護と動的な環境下での信頼性維持に不可欠である。
- データ量が少ないFew-Shot Class-Incremental学習は，デバイスリソースの制約から困難である。
- 本研究は，スパイキングニューラルネットワークを用いた効率的なFew-Shot Class-Incremental学習を実現する。
- 提案手法SAFA-SNNは，スパース性認識型ニューロンダイナミクスと高速適応構造により，既存手法よりも優れた性能を示す。
- Mini-ImageNetデータセットにおいて，最終的なインクリメンタルセッションで少なくとも4.01%の性能向上を達成した。
- CIFAR100データセットにおいては，ベースラインと比較して20%低いエネルギーコストを実現した。
Link: https://arxiv.org/abs/2510.03648
LaTeXpOsEd：大規模言語モデルを用いたプレプリントアーカイブにおける情報漏洩の体系的分析 [cs.CR, cs.AI]目的：プレプリントアーカイブにおける情報漏洩の存在と種類
- プレプリント公開は研究の迅速な共有を促進する一方，セキュリティリスクが軽視されている。
- プレプリントにはLaTeXソースやコメントなど，機密情報を含む可能性があり，それが放置されている。
- 本研究は，プレプリントアーカイブに潜む情報漏洩を検出し，その危険性を明らかにすることを目的とする。
- 10万件のarXiv投稿データ約1.2TBを分析した結果，PII，GPS情報，クラウドストレージへのリンクなどが多数発見された。
- LLMを活用した秘密検出ベンチマークLLMSec-DBを導入し，最先端モデル25種の性能を評価した。
- 研究者や機関の評判を損なう可能性のある，機密な著者間のコミュニケーションや会議への提出情報も確認された。
Link: https://arxiv.org/abs/2510.03761
ドリフトを制約へ：非定常マルチストリーム環境におけるロバストな推論アライメント [cs.CV, cs.AI, cs.LG]目的：マルチモーダル大規模言語モデルからの推論アライメント
- 複数のモデルを統合することで，より高度な推論能力と汎化性能を実現できる。
- 環境変化によりモデルの推論分布が変動し，アライメントの安定性が損なわれる。
- 推論分布のドリフトを制約として捉え，ロバストなアライメントを実現する。
- 本研究では，推論アライメントを概念ドリフト理論に基づく制約充足問題として定式化し，APOフレームワークを提案した。
- APOは，モデル間の差異を動的な負制約として扱い，ドリフトする軌跡を抑制することで，一貫性のある合意多様体を合成する。
- 胸部X線解釈実験の結果，提案手法は既存モデルを凌駕し，高いロバスト性と精度を達成した。
Link: https://arxiv.org/abs/2510.04142
PAINET：3D動力学モデリングのための原理に基づいた効率的なTransformer [cs.LG, cs.AI]目的：3D動力学における全対相互作用の学習
- 科学技術分野において，多体系の挙動予測やシミュレーションは不可欠である。
- 既存手法は，観測された構造に依存し，複雑な物理現象における隠れた相互作用の捉えが困難である。
- 未観測の相互作用を捉え，複雑な物理現象の理解と予測精度向上を目指す。
- PAINETは，エネルギー関数の最小化経路から派生した物理学に基づいた注意ネットワークを採用している。
- PAINETは，SE(3)変換に対する不変性を維持しながら，効率的な推論を可能にする並列デコーダを備えている。
- 様々なベンチマークにおいて，既存モデルを上回り，3D動力学予測誤差を4.7%から41.5%削減した。
Link: https://arxiv.org/abs/2510.04233
モデルベースフレームワークによる深層学習最適化のための適応メモリモーメンタム [cs.DC, cs.LG]目的：深層学習の最適化における適応的なメモリモーメンタムの導入
- 深層学習モデルの学習にはモーメンタム法が広く用いられており，その性能が重要である。
- 既存のモーメンタム法では，モーメンタム係数が固定されており，最適ではない場合がある。
- 動的に調整されるモーメンタム係数により，最適化の効率と精度を向上させることを目指す。
- 本研究では，目的関数を2つの平面で近似することにより，適応的なメモリメカニズムを提案している。
- 提案手法はSGDおよびAdamWに適用され，様々な学習タスクにおいて，従来の最適化手法を上回る性能を示した。
- 本研究は，最適化における適応性の新たな可能性を切り開くものである。
Link: https://arxiv.org/abs/2510.04988
潜在的再中心化によるテスト時適応：最適化不要アプローチ [cs.LG, cs.CV]目的：テスト時適応の性能向上
- 現実世界のデータは学習時と分布が異なる場合が多く，モデルの汎化性能が低下する。
- 既存のテスト時適応手法は，計算コストが高い，大量のデータが必要，またはハイパーパラメータに敏感であるという課題がある。
- 潜在空間の幾何学に基づき，少ない計算量でロバストなテスト時適応を実現する。
- NEOは，ImageNet-Cにおいて，たった1バッチのデータでViT-Baseの分類精度を55.6%から59.2%に向上させた。
- ImageNet-C，ImageNet-R，ImageNet-SおよびCIFAR-10-Cの各データセットにおいて，NEOは比較対象の7つのテスト時適応手法を上回り，最も少ない計算量で優れた性能を示した。
- Raspberry PiやJetson Orin Nanoなどのエッジデバイスにおいて，推論時間を63%削減し，メモリ使用量を9%削減した。
Link: https://arxiv.org/abs/2510.05635
日常MMQA：文化に基づいた多言語・多様式スピーチビジュアルQAフレームワーク [eess.SY, cs.SY, cs.CL, cs.AI]目的：文化に基づいた多言語・多様式スピーチビジュアルQAのための大規模データセットおよびフレームワーク
- 視覚と言語を組み合わせたAI研究は，現実世界での知的なインタラクションを可能にする基盤となる。
- 既存のモデルは，文化的背景や常識的な知識を必要とする質問への対応が苦手である。
- 文化的知識と日常知識を組み込んだ，多言語・多様式のQAデータセットの構築を目指す。
- OASISという大規模なデータセットが構築され，画像，テキスト，スピーチを包含している。
- このデータセットは，英語とアラビア語の多様な方言に対応し，1480万組のQAペアを含む。
- 複数の既存モデルを評価した結果，文化的な背景知識がモデルの性能に大きく影響することが示された。
Link: https://arxiv.org/abs/2510.06371
制御付き自己回帰拡散によるデータ同化 [cs.LG, cs.AI, cs.CV]目的：データ同化における制御付き自己回帰拡散モデルの枠組み
- 気象予測や流体シミュレーション等，複雑なシステムの挙動を正確に把握する上で不可欠な技術である。
- 既存手法は計算コストが高く，観測データが少ない場合，予測誤差が累積しやすいという課題がある。
- 事前学習済みの拡散モデルにコントローラーを組み込み，効率的かつ安定したデータ同化を実現すること。
- 提案手法は，既存の拡散モデルの速度を大幅に向上させ，データ同化を高速化できる。
- 2つの代表的な偏微分方程式と，ECMWF Reanalysis v5を用いた実験により，高い安定性と精度が確認された。
- GenCast大規模研究においても同様の改善が見られ，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2510.06637
差分プライバシーを持つスペクトルグラフクラスタリング：プライバシー，精度，効率のバランス [cs.IT, cs.CR, cs.LG, cs.SI, math.IT]目的：エッジ差分プライバシー下でのスペクトルグラフクラスタリング
- グラフ構造データの解析は，ソーシャルネットワークや生物学ネットワークなど，様々な分野で重要である。
- プライバシー保護を考慮したグラフ解析は，データ公開に伴うリスクを軽減するために不可欠である。
- プライバシーと精度のトレードオフを解消し，効率的なクラスタリング手法を開発すること。
- 提案手法は，ランダムなエッジ反転と隣接行列のランダム置換を組み合わせた行列シャッフルメカニズムを用いる。
- このメカニズムは，グラフの規模が大きくなるにつれてプライバシーを向上させ，エラーレートを$\tilde{O}(1/n)$に抑えることが示された。
- これは，既存の差分プライバシー手法よりも優れており，理論的および実験的に検証された。
Link: https://arxiv.org/abs/2510.07136
汎用化されたジェンセン・シャノンダイバージェンスを用いたLLM生成テキストのブラックボックス検出 [cs.LG, cs.IT, math.IT]目的：LLM生成テキストのブラックボックス検出手法
- LLMの急速な進化に伴い，生成されたテキストの真偽性の判断が重要課題となっている。
- 既存手法では，参照モデルとの不一致やコストの問題があり，実用性に課題がある。
- 参照モデルの不一致やコスト問題を克服し，よりロバストな検出手法を確立すること。
- 提案手法SurpMarkは，トークンの驚き度の動的な変化を要約し，状態遷移行列を用いてテキストを評価する。
- 人間と機械のテキストから構築された固定された参照との間のジェンセン・シャノンダイバージェンスの差をスコアとする。
- 実験の結果，SurpMarkは様々なデータセット，ソースモデル，シナリオにおいて，既存手法と同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2510.07500
テスト時スケーリングにおける多様性の低下と安全性：大規模言語モデルにおける間接的かつ広範なリスク [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルのテスト時スケーリングにおける安全性と多様性の関係
- 大規模言語モデルの性能向上は，社会への応用において不可欠である。
- テスト時スケーリングは有効だが，安全性への影響が十分に理解されていない。
- テスト時スケーリングにおける多様性の重要性を明らかにし，安全性低下のリスクを評価する。
- テスト時スケーリングにおいて，候補の多様性が低下すると，有害な出力が生成される可能性が著しく高くなることが示された。
- 提案された多様性削減プロトコル(RefDiv)は，テスト時スケーリングパイプラインの脆弱性を診断するための効果的な攻撃手法であることが確認された。
- この現象は，様々なモデルやテスト時スケーリング戦略，さらには商用モデルにおいても一貫して観察され，テスト時スケーリングの一般的な特性であることが示唆された。
Link: https://arxiv.org/abs/2510.08592
ロボットが人間より有能になる時：制約されたデモンストレーターからの学習 [cs.RO, cs.AI, cs.LG]目的：制約されたデモンストレーターからの学習による政策改善
- ロボットに複雑なタスクを教える技術は，産業における自動化を促進し，生産性向上に貢献する。
- 専門家のデモンストレーションは，制御の制約や安全上の制限により最適ではない場合がある。
- 制約されたデモンストレーションから，より効率的な政策を学習することを目指す。
- 本研究では，デモンストレーションからタスクの進捗を示す報酬信号を推定する。
- 未知の状態に対する報酬を時間補間を用いて自己付与することで学習効率を高める。
- 実機による実験で，提案手法は模倣学習よりも優れた性能と高速なタスク完了時間を実現した。
Link: https://arxiv.org/abs/2510.09096
バッチベイズ活性学習における部分バッチラベルサンプリング [cs.CL, cs.LG, cs.AI, stat.ML]目的：活性学習における取得関数の選択に関する問題解決
- データ効率の良い機械学習モデル構築には，適切な学習データ選択が不可欠である。
- 既存の活性学習手法は，バッチサイズが大きい場合に計算コストが増大したり，性能が低下したりする。
- 大規模バッチサイズにおける性能低下を抑制し，より効率的なデータ選択を実現すること。
- 提案手法ParBaLS EPIGは，既存手法と比較して，限られた予算内でより高い性能を示すことが実験的に確認された。
- 特に，大規模事前学習モデルからの埋め込み表現を用いたベイズロジスティック回帰において，その効果が顕著である。
- ParBaLSは，活性学習におけるバッチサイズの問題を解決する有効なアプローチとなり得る。
Link: https://arxiv.org/abs/2510.09877
非線形コンテキストバンディットにおける検証可能なエニタイムアンサンブルサンプリングアルゴリズム [cs.LG, cs.AI, stat.ML]目的：非線形コンテキストバンディットにおけるアンサンブルサンプリングのアルゴリズム的枠組みとその後悔境界
- コンテキストバンディットは，現実世界の意思決定問題に広く適用可能であり，高い最適化性能が求められる。
- 非線形モデルを用いた場合，探索と活用のバランスを理論的に保証することが困難であった。
- エニタイム版アルゴリズムを開発し，ラウンド数Tが未知の場合でも適用可能とする。
- GLM-ESの後悔境界は，一般化線形バンディットにおけるランダム探索アルゴリズムの最先端の結果と一致する。
- Neural-ESは，特徴ベクトルの次元dやニューラルタンジェントカーネルの有効次元widetilde{d}に応じて，後悔境界が収束することが示された。
- 実験結果は，GLM-ESとNeural-ESが強力な性能を発揮することを示しており，アンサンブルサンプリングの実用性を裏付けている。
Link: https://arxiv.org/abs/2510.10730
適応的行動スケーリングによる制約条件を考慮した強化学習 [cs.CL, cs.RO, cs.LG, cs.SY, eess.SY]目的：強化学習における安全性の確保とタスク性能の維持
- ロボットなど実世界での応用には，安全性の確保が不可欠であるため。
- 探索中に制約違反が発生し，安全性と性能のトレードオフが課題となる。
- 制約違反を抑制しつつ，探索を妨げない安全な強化学習手法の確立。
- 提案手法は，制約違反の予測に基づいて行動をスケーリングするモジュールなコスト認識レギュレータである。
- 制約違反を最小化しつつ，行動の抑制を避けるようにレギュレータを訓練する。
- Safety Gymのロボット運動タスクにおいて，従来手法と比較して制約違反を最大126倍削減し，報酬を1桁以上向上させた。
Link: https://arxiv.org/abs/2510.11491
グラフ分析を用いた教師なし高速マルウェアフィンガープリント [cs.DC, cs.CR, cs.LG]目的：マルウェアのフィンガープリント作成とグループ化
- マルウェアの増加は深刻であり，手動解析は現実的ではない。
- 大量のマルウェアに対し，効率的な類似性に基づくフィルタリング手法が不足している。
- マルウェアの類似性に基づいた効率的な分類を可能とする手法を開発すること。
- 提案手法TrapNetは，グラフコミュニティ検出によりマルウェアのフィンガープリントとファミリー帰属を行う。
- FloatHash (FH)という新しい数値ファジーハッシュ技術により，アセンブリコードのセマンティクスを要約する短尺の実数値ベクトルを作成する。
- 実験結果から，TrapNetは既存手法と比較して高い精度と効率でマルウェアのグループ化を達成することが示された。
Link: https://arxiv.org/abs/2510.12811
情報的検閲下における生存時間分析における異質的な治療効果の頑健性評価 [cs.LG, stat.ML]目的：情報的検閲下での生存時間分析における条件付き平均治療効果(CATE)推定の頑健性評価
- 臨床試験では脱落が頻発し，治療効果の評価に影響を及ぼす。正確な効果測定のためには，脱落の影響を考慮する必要がある。
- 脱落が情報的である場合，生存時間と関連しバイアスが生じやすい。従来の推定方法は強い仮定に依存しており，現実の問題に対応できない場合がある。
- 情報的検閲下でもCATEの信頼区間を導出し，治療効果が期待できる患者層を特定すること。
- 提案手法は，強い仮定を必要とせず，情報的検閲下でもCATEの上限と下限を導出できる。
- モデルに依存しないメタ学習器SurvB-learnerを開発し，任意の機械学習モデルと組み合わせて利用可能である。
- シミュレーションデータと実データを用いた実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2510.13397
ユーザーによる注釈：比較モードからのLLMの嗜好学習 [cs.CL, cs.AI]目的：LLMの嗜好学習のためのユーザーによる比較データ収集
- 大規模言語モデルの性能向上には，人間による評価が不可欠である。
- ユーザーが生成するデータの品質管理が課題となっている。
- ユーザーのデータ品質を推定し，信頼性の高い学習データを得ることを目指す。
- 異なるモデルやバージョンの応答を比較させることで，ユーザーデータの品質推定を実現した。
- 期待値最大化アルゴリズムを用いて，ユーザーの潜在的な品質因子を推定し，データのフィルタリングを行った。
- 提案手法は，ユーザー行動の把握とLLMアライメントのためのデータフィルタリングにおいて有効性を実証した。
Link: https://arxiv.org/abs/2510.13830
LILO：自然言語フィードバックを用いたベイズ最適化 [cs.LG, cs.AI, cs.CL]目的：複雑な主観的選好を自然言語フィードバックとして活用するベイズ最適化フレームワーク
- 現実世界の最適化問題では，明示的な目的関数で表現しにくい主観的な選好が重要となる。
- 従来の選好型ベイズ最適化は，スカラーやペアワイズ比較など，表現に制約のあるフィードバックに依存する。
- 自然言語フィードバックを構造化された選好信号に変換し，ベイズ最適化の探索効率と安定性を維持すること。
- LILOは，大規模言語モデルを用いて自然言語フィードバックを構造化された選好信号に変換することで，従来の選好型ベイズ最適化やLLM単独の最適化手法を上回る性能を示す。
- 特に，フィードバックが限られた状況下で顕著な改善が見られた。
- ガウス過程プロキシモデルにより，不確実性を考慮した原理的な探索が可能となる。
Link: https://arxiv.org/abs/2510.17671
活性化推論：潜在的活性化空間における論理的推論 [cs.LG, cs.AI]目的：潜在活性化空間における論理的推論の組み込み
- 大規模言語モデルの活用が進む中で，その推論過程の透明性と制御可能性が重要課題となっている。
- 既存の潜在的特徴表現は脆弱で受動的であり，体系的な推論やモデル制御の仕組みが不足している。
- 潜在的活性化に論理構造を埋め込み，透明性と制御性を向上させ，信頼性の高いAIを実現する。
- 活性化推論（AR）フレームワークは，潜在空間に論理的推論を組み込み，複雑な推論タスクにおいて高い拡張性を示す。
- ARは抽象的かつ文脈依存的なタスクへの汎化能力を示し，異なるモデルバックボーンへの転移も可能であることが確認された。
- 潜在的活性化に論理構造を基盤化することで，透明性の向上，構造化された推論，信頼性の高い制御，および望ましい行動との整合性が実現された。
Link: https://arxiv.org/abs/2510.18184
大規模言語モデルに対する安全性を意識した意図防御：プレフィックスプロービングによる手法 [cs.CR, cs.AI]目的：大規模言語モデルの脱獄攻撃に対する防御
- 大規模言語モデルの利用拡大に伴い，安全性確保は不可欠である。
- 既存の防御策は，実用性や性能に課題が残る場合が多い。
- モデル更新や推論コスト増加なしに，脱獄攻撃への有効な防御を目指す。
- 提案手法SAIDは，入力の意図を抽出し，安全性のあるプレフィックスを用いて応答を評価する。
- SAIDは，モデルのパラメータ更新やデコーディングプロセスの変更を必要としない，ブラックボックス互換の防御機構を提供する。
- 実験結果から，SAIDは有害な応答を削減しつつ，通常のタスク性能を維持する優れた安全・ユーティリティのトレードオフを実現することが示された。
Link: https://arxiv.org/abs/2510.20129
Bi-CoG: ビジョン言語モデルのための双一貫性に基づく自己学習 [cs.LG]目的：ビジョン言語モデルにおける半教師あり自己学習による性能向上
- 画像と言語を理解するビジョン言語モデルは，多様なタスクに応用可能な汎用的なAI技術である。
- ラベル付きデータの不足は，ビジョン言語モデルの性能向上における大きな課題となっている。
- モデルのバイアスやハイパーパラメータへの依存性を軽減し，よりロバストな学習を実現する。
- 提案手法Bi-CoGは，モデル間およびモデル内の一貫性を同時に活用することで，高品質かつ低バイアスの擬似ラベルを付与する。
- エラーを考慮した動的な擬似ラベル割り当て戦略により，既存手法の性能を安定的に向上させる。
- 14のデータセットを用いた実験により，Bi-CoGの有効性が理論的・実験的に示された。
Link: https://arxiv.org/abs/2510.20477
容易な手業：文脈圧縮のための単純かつ強力なベースライン [cs.CL, cs.AI, cs.LG]目的：文脈圧縮における評価とベースラインの確立
- Transformerモデルの推論コスト削減が，RAG等の応用において重要視されている。
- 評価方法やベースラインが統一されておらず，研究の進捗が測りにくい状況にある。
- 再現性の高い評価スイートと高性能なベースラインを構築し，改善策を提示すること。
- 文脈圧縮評価スイート「BenchPress」を開発し，様々なモデル規模やデータセットに対応可能とした。
- 平均プーリングと双方向圧縮トークンが，既存手法を大幅に上回る性能を示すことを実証した。
- 圧縮表現の計算において，双方向アテンションが有効であり，単純なプーリングが表現力豊かな圧縮演算子であると示唆された。
Link: https://arxiv.org/abs/2510.20797
重要なものを測定する：状況判断テストによるAIの心理測定的評価 [cs.CL, cs.AI]目的：AIの行動傾向の一貫性評価
- AIの倫理的利用や安全性の確保のため，AIの行動特性を理解することが重要である。
- 大規模言語モデルの行動は，プロンプトによって変動しやすく，安定した評価が困難である。
- 状況判断テストを用いて，AIの行動傾向を定量的に評価し，安定性を検証する。
- 状況判断テストと多次元項目応答理論により，AIの行動傾向は一貫性を示すことが明らかになった。
- 潜在特性スコアは，既存のベンチマークテストの結果と相関関係があることが確認された。
- この手法は，自己申告による評価よりも信頼性の高いAIの行動評価を提供する可能性がある。
Link: https://arxiv.org/abs/2510.22170
タスク効率の良いLLM：タスクを意識した層の削除 [cs.LG, cs.CL]目的：タスク特化型LLMアーキテクチャの最適化
- 大規模言語モデルの利用拡大に伴い，計算コストの削減が重要である。
- LLMの全層が全てのタスクに等しく貢献するわけではない。
- タスクに無関係または悪影響を及ぼす層を削除し，効率的な推論を実現する。
- TALEは，ゼロショットおよびFew-shot設定において，ベースラインと同等またはそれ以上の性能を達成した。
- TALEは，計算コストを削減しながら，タスク固有の性能を最適化した。
- TALEは，ファインチューニングと組み合わせることで，更なる性能向上が期待できる。
Link: https://arxiv.org/abs/2510.22767
Vision TransformerのFederated Prompt Tuningのためのプロトタイプからのプロンプト推定 [cs.CV, cs.LG]目的：分散型環境におけるVision Transformerのプロンプトチューニングにおける汎化性能と個別化性能の向上
- 大規模モデルの適応には多くのデータが必要だが，データ不足の状況では効率的な微調整手法が求められる。
- 従来のFederated Learningでは，クライアント間のデータ異質性が課題であり，汎化性能が低下しやすい。
- クライアント固有のデータに過剰適合することなく，汎化性能を維持したFederated Prompt Tuningを目指す。
- 提案手法PEP-FedPTは，クラス固有のプロンプトとグローバルな共有プロンプトを組み合わせることで，サンプルごとにプロンプトを個別化する。
- クラスプロトタイプとクライアントのクラス事前分布を用いて重みを決定することで，クライアント依存の学習パラメータを必要としない。
- CIFAR-100，TinyImageNet，DomainNet，iNaturalistといった多様なデータセットで，既存手法を上回る性能が示された。
Link: https://arxiv.org/abs/2510.25372
TetraJet-v2：振動抑制と外れ値制御による大規模言語モデル向けNVFP4の高精度訓練 [cs.RO, cs.IR, cs.LG, cs.AI]目的：大規模言語モデルの低精度量子化訓練における精度向上
- 大規模言語モデルの訓練コストが高騰しており，効率的な訓練手法が求められている。
- 低ビット数量子化訓練では，精度劣化が課題となっており，実用化が難しかった。
- NVFP4を用いた訓練における，重みの振動と外れ値の問題解決を目指す。
- TetraJet-v2は，最大370Mパラメータ，212Bトークンまで訓練されたモデルで，BF16との性能差を平均51.3%削減した。
- FP8と比較して，1.67倍のend-to-end高速化を実現した。
- NVFP4を用いた線形層向けに，最適な収束性を持つダブルブロック量子化手法を提案した。
Link: https://arxiv.org/abs/2510.27527
BITを忘れよ，全てはTOKENだ：LLMのための意味情報理論へ [cs.CL, cs.IT, cs.AI, math.IT]目的：大規模言語モデル(LLM)における意味情報理論の構築
- LLMは実用的な成功を収めているが，理論的基盤が確立されていないため，さらなる発展には不可欠である。
- 従来のLLM研究は，計算資源とデータに依存しており，根本的な原理に基づいた理解が不足している。
- 本研究は，意味の単位を「ビット」から「トークン」へと置き換えることで，LLMの理論的枠組みを再構築する。
- LLMをエネルギーベースモデルとして再解釈し，意味埋め込みを意味多様体上のベクトル化として捉えた。
- LLMをフィードバック付き状態チャネルとしてモデル化し，自己回帰的生成の因果関係を評価する指標を導出した。
- 次トークン予測をグランジャー因果推論と同一視し，LLMの推論限界をパール因果梯子を用いて明確化した。
Link: https://arxiv.org/abs/2511.01202
KVキャッシュTTLを用いた効率的かつ堅牢なマルチターンLLMエージェントスケジューリング：Continuum [cs.RO, cs.SY, eess.SY, cs.OS, cs.AI, cs.NI]目的：マルチターンエージェントワークロードにおけるジョブ完了時間の最適化
- LLMの推論効率化において，KVキャッシュの適切な管理が不可欠である。
- エージェントワークロードではツール呼び出しによる中断が頻発し，KVキャッシュの再利用が困難である。
- ツール呼び出し時間変動に対応しつつ，GPUメモリ効率と推論速度の両立を目指す。
- Continuumは，KVキャッシュにTTL（Time-To-Live）メカニズムを導入することで，エージェントワークロードのジョブ完了時間を大幅に短縮する。
- Llama-3，Gemma，GLMといった多様なLLMで評価を行い，平均ジョブ完了時間が8倍以上改善された。
- KVキャッシュのピン留め戦略と自動削除により，堅牢な性能を維持し，スループットも向上させた。
Link: https://arxiv.org/abs/2511.02230
TripleWin：データ・モデル連動市場における固定点均衡価格設定 [cs.LG]目的：データとモデルの取引を統合した市場における均衡価格の導出
- 機械学習モデルの経済圏が拡大し，データとモデルの市場が相互に影響を及ぼすようになった。
- 既存の価格設定手法は，データとモデルを分離するか，仲介業者に有利な構造になっている。
- データ提供者，モデル提供者，モデル購入者の間の公平性を保ちつつ，効率的な価格設定を実現する。
- 提案手法は，データ支払いをモデル価格に変換し，購入者価格をデータに反映する閉ループシステムを構築する。
- このシステムは標準的な干渉関数(SIF)として証明され，均衡価格の存在，一意性，大域的収束が保証される。
- 実験結果は，既存手法と比較して，効率的な収束と公平性の向上が確認された。
Link: https://arxiv.org/abs/2511.03368
コード言語モデルの知識蒸留に関する変態テストの視点：生徒は教師を深く模倣しているか？ [cs.DC, cs.AR, cs.SE, cs.LG]目的：コード言語モデルの知識蒸留における行動の忠実度評価
- コード言語モデルはソフトウェア分析で高性能だが，計算コストが高いという課題がある。
- 従来の評価指標では，教師モデルと生徒モデルの行動の違いを捉えきれない。
- 行動を保持する変態関係を用いて，生徒モデルの行動の忠実度を評価する。
- MetaCompressは，知識蒸留された生徒モデルにおいて最大62％の行動の乖離を検出した。
- 従来の精度ベースの評価では捉えられない，敵対的攻撃に対する性能低下が大きいことが示された。
- MetaCompressは，知識蒸留パイプラインにおける行動の忠実度評価のための実用的なフレームワークである。
Link: https://arxiv.org/abs/2511.05476
分数階ニューラル拡散ネットワークによる適応的多視点グラフ対照学習 [cs.LG]目的：グラフ対照学習におけるノードとグラフの表現学習
- グラフ構造データは，ソーシャルネットワークや分子構造など，様々な分野で重要である。
- 既存手法は固定された視点に依存し，多スケールな構造パターンを捉えきれない場合がある。
- 分数階微分を用いることで，データに適応的に多様な視点を生成し，表現力を向上させる。
- 本手法は，手動によるデータ拡張を行わず，多様かつ補完的な表現を生成できる。
- 実験結果から，提案手法は既存のグラフ対照学習手法を上回り，よりロバストで表現力豊かな埋め込み表現を獲得できることが示された。
- 分数階微分パラメータを学習可能にすることで，データに最適な拡散スケールを自動的に発見できる。
Link: https://arxiv.org/abs/2511.06216
COGNOS：制約付きガウスノイズ最適化と平滑化による時系列異常検知の汎用的な性能向上 [cs.LG, cs.AI]目的：時系列異常検知における性能向上
- 時系列データは様々な分野で重要であり，異常検知はシステム監視や故障予測に不可欠である。
- 従来の再構成ベースの手法は，平均二乗誤差損失に依存し，統計的に欠陥のある再構成残差を生む。
- ガウスノイズ正則化とカルマン平滑化により，異常スコアのノイズを低減し，安定した検知を実現する。
- COGNOSは，ガウスホワイトノイズ正則化戦略を導入し，モデル出力残差をガウス分布に制約する。
- 適応残差カルマン平滑化器により，生の異常スコアを統計的にロバストにノイズ除去する。
- 複数のベンチマークにおいて，COGNOSは最先端のモデルの性能を大幅に向上させることを実証した。
Link: https://arxiv.org/abs/2511.06894
モデル集合による完全な証拠抽出：医療コーディングにおけるケーススタディ [cs.CL, cs.IR, cs.LG]目的：医療コーディングにおける完全な証拠抽出
- 意思決定支援システムは重要な判断に用いられ，その透明性が求められている。
- 従来の証拠抽出は十分な証拠に焦点を当てていたため，網羅性に課題があった。
- 本研究では，複数のモデルによる集合推論で証拠の網羅性を高めることを目指す。
- ラショモン効果に着想を得たモデル集合は，個々のモデルよりも証拠の再現率を大幅に向上させる。
- わずか3つのモデルの集合体でも，単一の最良モデルを上回り，個々のモデルが見逃す情報を補完する。
- モデル集合による証拠抽出は，わずかなトークン増加で，より完全な証拠を提供できる。
Link: https://arxiv.org/abs/2511.07055
フィードバックを考慮した回顧的信用割り当てによる多段階コード生成のためのMURPHY [cs.LG, cs.AI]目的：多段階コード生成における自己修正能力の向上
- 大規模言語モデルの推論タスク性能向上には，検証可能な報酬を用いた強化学習が不可欠である。
- 既存のGRPO系手法は単一ターンに最適化されるため，反復的な改善が必要な環境には不向きである。
- 環境からのフィードバックに基づいて，反復的に解を洗練する能力を持つモデルの開発を目指す。
- MURPHYは，失敗した候補解と実行環境からのフィードバックを組み合わせたロールアウトツリーを構築する。
- 報酬をツリー内で逆伝播させることで，初期の試行が有益なフィードバックをもたらした場合に，後の成功に貢献したと評価する。
- HumanEval，MBPP，LiveCodeBench-v6の3つのコード生成ベンチマークにおいて，既存手法を最大6%上回るpass@1スコアを達成した。
Link: https://arxiv.org/abs/2511.07833
エンドツーエンド深層学習パイプラインにおけるデータフレームライブラリのエネルギー消費量：比較分析 [cs.SE, cs.AI, cs.PF]目的：データフレームライブラリのエネルギー消費量に関する比較
- 深層学習の普及に伴い，データ処理の効率化と省エネルギー化が重要課題となっている。
- データ処理ライブラリの性能が，深層学習パイプライン全体のボトルネックとなる場合がある。
- GPU処理との組み合わせにおけるデータ処理ライブラリのエネルギー効率を評価し，改善策を提示する。
- Pandas，Polars，Daskの3つの主要なPythonデータ操作ライブラリを比較分析した結果，エネルギー消費量に差が見られた。
- 特に，大規模なGPUワークロードにおいて，データローディング，前処理，バッチ供給といった段階でライブラリの性能が影響することが示された。
- データセットや機械学習モデルによって最適なライブラリが異なり，エネルギー効率を考慮したライブラリ選択の重要性が示唆された。
Link: https://arxiv.org/abs/2511.08644