arXiv雑要約

AI - 2026/06/03 公開

SAIL：LLMを用いた音響的抽象解釈器 [cs.PL, cs.LG]目的：プログラムの振る舞いを安全に近似するための，グローバルに健全な抽象解釈器の構築
- 抽象解釈は，プログラムの安全性や信頼性を保証する上で不可欠な技術である。
- 抽象解釈器の構築は手作業に頼る部分が多く，時間と労力がかかる。
- LLMを活用することで，抽象解釈器の自動構築を実現し，その効率化を目指す。
- 本研究で開発したSAILは，既存の手動設計による抽象変換器と同等の性能を示すことが確認された。
- SAILは，複雑な非線形演算子に対して，文献には存在しない，健全かつ高精度な抽象変換器を合成することに成功した。
- この結果は，LLMが抽象解釈器の自動構築において有効であることを示唆する。
Link: https://arxiv.org/abs/2511.13663
SeSE：構造情報理論に基づく大規模言語モデルのブラックボックス不確実性定量化 [cs.CL, cs.AI]目的：大規模言語モデルにおける不確実性定量化手法
- 安全性確保が求められる状況下でのLLM利用には，信頼性の高い不確実性評価が不可欠である。
- 既存手法は潜在的な意味構造を考慮せず，不確実性の正確な推定を妨げている。
- 意味構造の情報を活用し，より精度の高い不確実性定量化を実現することを目指す。
- SeSEは，意味的・構造的エントロピーに基づいて不確実性を定量化するブラックボックスフレームワークである。
- 構造エントロピーは，LLMの潜在的な意味空間における不確実性を評価する指標となる。
- 実験結果から，SeSEは既存手法を凌駕する性能を示すことが確認された。
Link: https://arxiv.org/abs/2511.16275
大規模言語モデルのための並列ブロック座標連合学習：ParaBlock [cs.LG, cs.DC]目的：大規模言語モデルの連合学習における通信効率の向上
- プライバシー保護が重要視される中，連合学習は有望な手法である。
- 大規模言語モデルでは，ブロック内のパラメータ数が多く，通信遅延が課題となっている。
- 通信と計算を並列化し，通信効率を改善することでこの課題を解決する。
- 提案手法ParaBlockは，標準的なブロック座標降下法と同等の収束率を理論的に保証する。
- 一般的な命令追跡および数学的推論タスクにおける実験により，ParaBlockは高い性能を維持しつつ，通信効率を大幅に向上させることが確認された。
- 特にリソース制約のあるクライアント環境において，その効果が期待される。
Link: https://arxiv.org/abs/2511.19959
AI言語における量子構造の特定：人間と人工の認知の進化収斂の証拠 [cs.CL, cs.CL, cs.AI]目的：概念的組み合わせに関する認知テストの結果
- 言語と認知の根底にある原理を理解することは，知能の普遍的な基盤を解明する上で重要である。
- 従来の確率モデルでは，人間の認知や言語における複雑な現象を十分に説明できないという課題がある。
- AI言語モデルにおける量子的な構造を明らかにすることで，認知の普遍的原理を探求することを目的とする。
- ChatGPTとGeminiにおいて，ベルの不等式が有意に破綻しており，古典的な確率論の公理を満たさない非古典的な確率モデルの存在を示唆する。
- 大規模テキスト中の単語分布において，直観的に予想されるマクスウェル・ボルツマン統計ではなく，ボース＝アインシュタイン統計が確認された。
- これらの発見は，人間とAIの認知領域において，非古典的な量子構造が系統的に出現することを示唆し，進化収斂の可能性を示唆する。
Link: https://arxiv.org/abs/2511.21731
思考型LLMを判断者とする際の分布較正推論時間計算 [cs.CL, cs.LG, cs.AI]目的：思考型LLMを判断者とした際のペアワイズ選好の評価
- LLMを評価者として活用することで，人間の判断を補助し，評価の効率化が期待される。
- LLMの判断はノイズを含み，同率の場合に標準的な集約方法では矛盾が生じやすい。
- 推論時間計算を最適化し，分布を考慮した集約方法によって，LLMの判断精度を向上させる。
- 提案手法は，評価ベンチマークにおいてMAEを低減し，ペアワイズ精度を向上させる結果が得られた。
- 人間の合意ラベルとの比較では，個々の人間の評価者と同等またはそれ以上の性能を示した。
- 推論時間計算の適切な割り当てと分布を考慮した集約により，ノイズの多いLLMの判断を信頼性の高い評価へと変換できる。
Link: https://arxiv.org/abs/2512.03019
MemVerse：生涯学習エージェントのためのマルチモーダルメモリ [cs.AI]目的：生涯学習エージェントのためのマルチモーダルメモリの実現
- 大規模言語モデルや画像認識モデルが進歩する中で，AIエージェントの記憶能力は重要な課題となっている。
- 既存のエージェントは過去の経験を忘却しやすく，長期的推論やマルチモーダル環境での適切な行動が困難である。
- MemVerseは，過去の経験を保持し，継続的な学習と適応を可能にすることで，この問題を解決することを目指す。
- MemVerseは，高速なパラメトリックな想起と階層的検索ベースのメモリを組み合わせたモデルに依存しないメモリフレームワークである。
- 短期記憶と長期記憶を効果的に維持し，マルチモーダルな経験を階層的な知識グラフとして構造化することにより，継続的な学習を支援する。
- 実験の結果，MemVerseはマルチモーダル推論と継続学習の効率を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2512.03627
MIND：マルチモーダル大規模モデルのための多根拠統合識別推論フレームワーク [eess.SY, cs.SY, cs.AI]目的：マルチモーダル大規模モデルの推論能力向上
- マルチモーダル大規模言語モデルは様々な推論タスクに応用され，その重要性が増している。
- 既存モデルは多根拠のセマンティックモデリング不足，論理的頑健性の欠如，誤解を招く手がかりに弱いという課題がある。
- 人間の「理解 -> 再考 -> 修正」という認知能力をモデルに付与し，識別推論へと進化させる。
- 提案手法MINDは，複数の公開データセットにおいて最先端の性能を達成した。
- 根拠拡張・識別(RAD)パラダイムにより，統一的かつ拡張可能なデータ基盤を提供している。
- 段階的二段階修正学習(P2CL)戦略と多根拠コントラストアラインメント(MCA)最適化戦略により，性能向上を実現した。
Link: https://arxiv.org/abs/2512.05530
拡散言語モデルにおけるアンマスクポリシーの学習 [cs.LG]目的：拡散言語モデルのトークンアンマスク戦略
- 言語モデルの効率的な推論処理が重要視されている。
- 従来のアンマスク戦略は手動調整が必要で，ブロックサイズに依存する。
- 強化学習を用いて，より適応的なアンマスクポリシーを学習する。
- 本研究で提案する学習済みポリシーは，半自己回帰生成において最先端のヒューリスティクスと同等の性能を示す。
- 完全拡散設定においては，ヒューリスティクスを上回る性能を発揮する。
- 拡散言語モデルのサンプリング効率と品質向上に貢献する。
Link: https://arxiv.org/abs/2512.09106
FutureWeaver：モジュール化された協調によるマルチエージェントシステムの推論時計算計画 [cs.CL, cs.AI, cs.CL]目的：マルチエージェントシステムにおける推論時計算の計画と最適化
- 大規模言語モデルの性能向上に，推論時の計算量増加が有効であることが示されている。
- マルチエージェントシステムへの応用では，効率的な計算資源配分や協調のスケールに関する課題がある。
- 固定予算下で，推論時の計算資源を最適化し，マルチエージェント間の協調を促進することを目的とする。
- FutureWeaverは，協調モジュールを導入し，反復的な相互作用パターンから再利用可能なワークフローを自動的に誘導する。
- 二層計画アーキテクチャを用いて，短期的な行動選択と長期的な抽象的な予測を同時に行い，予算制約下で推論経路を最適化する。
- 複雑なエージェントベンチマークにおいて，様々な予算設定で既存手法を上回り，推論時最適化における有効性が確認された。
Link: https://arxiv.org/abs/2512.11213
DTop-p MoE：基礎モデル事前学習のためのスパース性制御動的Top-p MoE [cs.AI]目的：基礎モデルの事前学習における効率的なモデル容量拡張
- 大規模モデルの性能向上には，モデルの容量拡大が不可欠である。効率的な容量拡張手法が求められている。
- 既存のMoEでは，トークンの難易度や層ごとの計算ニーズを考慮した柔軟なスパース性の制御が課題であった。
- 動的な閾値制御により，計算コストを抑制しつつ，MoEの性能を最大限に引き出すことを目指す。
- 提案手法DTop-pは，Top-kや固定Top-pと比較して，一貫して優れた性能を示すことが確認された。
- DTop-pは，Top-k MoEと同程度のFLOPsを維持しながら，より高い精度を実現する。
- 実験結果は，DTop-pが専門家数，モデルサイズ，データセットサイズなどに対して堅牢なスケーリング特性を持つことを示唆している。
Link: https://arxiv.org/abs/2512.13996
自己対戦型SWE-RLによる超知能ソフトウェアエージェントの育成に向けて [cs.RO, cs.CG, cs.SE, cs.AI, cs.CL, cs.LG]目的：超知能ソフトウェアエージェント育成のためのパラダイム
- ソフトウェア開発の自動化は，生産性向上や新たな価値創造に不可欠である。
- 既存手法は人間による知識やキュレーションに依存し，超知能化の障壁となっている。
- 人間介入なしに，ソフトウェアリポジトリから自律的に学習する道筋を示す。
- 自己対戦型SWE-RL（SSR）は，人間が作成したデータに頼らず，ソフトウェアのバグ注入と修正を繰り返すことで自己改善を実現した。
- SWE-bench VerifiedとSWE-Bench Proのベンチマークにおいて，SSRは人間データベースラインを上回り，性能が向上した（+10.4点，+7.8点）。
- この初期結果は，エージェントが実世界のソフトウェアから自律的に学習し，人間の能力を超える可能性を示唆している。
Link: https://arxiv.org/abs/2512.18552
エッジ認識および内容適応型赤外線ガス漏洩検知：産業安全監視への応用 [eess.SY, cs.SY, cs.CV, cs.AI]目的：産業環境における微弱なガス漏洩検知技術の開発
- 産業安全や環境監視において，ガス漏洩の早期発見は不可欠であり，その自動化が求められている。
- 赤外線画像におけるガス漏洩は，微弱で小さく，半透明であり，境界が不明瞭なため，自動検知が困難である。
- 本研究は，微弱なガス漏洩を検知するための，エッジ認識と内容適応型特徴融合検出器を提案することで，この課題を解決する。
- 提案手法ECAF-Detは，IIGデータセットにおいて，RT-DETR-R18ベースラインに対し，AP，AP50，small-object APでそれぞれ3.0%，6.5%，5.4%の性能向上を達成した。
- LangGasデータセットにおいても，APが36.3%，AP50が68.5%と良好な結果を示し，様々な赤外線ガス漏洩画像への汎化能力を証明した。
- エッジ認識による表現学習と，内容適応型疎性特徴ルーティングが，微弱な赤外線ガス漏洩の認識精度向上に貢献する。
Link: https://arxiv.org/abs/2512.23234
連続動的複数目的最適化のベンチマーク：サーベイと汎用テストスイート [cs.NE]目的：動的複数目的最適化のベンチマークに関する包括的なフレームワーク
- 現実世界の複雑な問題に応用可能なため，複数目的最適化は重要である。
- 既存のベンチマークでは，現実的な環境変化を十分に再現できていない。
- より現実的で困難なベンチマークを提供し，アルゴリズムの性能を正確に評価すること。
- 提案フレームワークは，パレート最適解集合が多様に変化する状況を再現できる。
- 変数間の相互作用や環境変化を制御し，現実的な複雑さを組み込むことが可能である。
- 実験結果は，提案フレームワークが既存のベンチマークよりも優れていることを示している。
Link: https://arxiv.org/abs/2601.01317
LLM，推論，そして剽窃 [cs.CY, cs.AI]目的：LLMの推論と剽窃の区別
- LLMの能力評価は，科学研究の発展や知識創造のあり方に影響を与える重要な課題である。
- LLMが生成する内容が，真の推論に基づくものなのか，既存情報の再利用に過ぎないのかが不明確である。
- LLMの推論能力に関する主張を科学的に検証するための透明性と再現性を高める方法を提示すること。
- LLMの推論能力に関する主張は，検証可能性の原則を満たしていない現状が示された。
- 推論能力の強調が，科学論文における剽窃を助長する可能性が指摘された。
- 透明性と再現性を確保するためのガイドラインの必要性が提言された。
Link: https://arxiv.org/abs/2601.02380
エージェントの初日：職場シナリオにおける学習，探索，スケジューリングのベンチマーク [eess.SY, cs.SY, cs.CY, cs.AI]目的：職場シナリオにおける学習，探索，スケジューリングの評価基準
- マルチモーダルLLMの進化によりワークフロー自動化が進むが，現実世界での頑健性が課題。
- 既存研究は静的な環境での性能評価に偏り，動的なタスクや不確実性への対応が不十分である。
- 動的な環境下でのエージェントの弱点を明らかにし，より信頼性の高い評価フレームワークを確立する。
- 最先端のエージェントは，特に動的な探索と継続学習において，現実世界環境で課題を抱えることが示された。
- \method{}は，エージェントが新しい環境を継続的に探索する「研修生」をシミュレートする動的な評価環境である。
- この研究は，静的なテストから現実的な実運用シナリオへの評価シフトを促し，エージェントの信頼性評価の枠組みを確立する。
Link: https://arxiv.org/abs/2601.08173
大規模言語モデルに基づく会話エージェントの擬人化に関する倫理的視点のスコープレビュー [cs.AI, cs.HC]目的：大規模言語モデルに基づく会話エージェントの擬人化に関する倫理的検討
- AI技術の進化に伴い，人間とのインタラクションが増加しており，倫理的考察の重要性が高まっている。
- 擬人化の定義や評価基準が分野によって異なり，一貫した議論が不足している。
- LLMに基づく会話エージェントの倫理的利用に向けたガイドライン策定に貢献する。
- 本レビューでは，擬人化に関する概念，倫理的課題と機会，そして方法論的アプローチを整理した。
- 擬人化の定義は帰属に基づいた共通認識が見られる一方，操作的定義や規範的評価には多様性が見られた。
- リスクに焦点を当てた倫理的枠組みが主流であり，観察されたインタラクション効果と具体的なガバナンス指針を結びつける実証研究が不足していることが示唆された。
Link: https://arxiv.org/abs/2601.09869
SciMLモデル学習のための最適化手法入門 [math.NA, cs.AI, cs.NA, math.OC]目的：SciMLモデル学習における最適化手法の概要
- 機械学習と科学的機械学習の両分野で最適化は不可欠であり，科学的発見や予測の精度向上に貢献する。
- 従来の機械学習手法はSciMLの複雑な物理現象や演算子制約には必ずしも最適ではない。
- SciML特有の課題に対応する最適化手法を提示し，その有効性を示す。
- 機械学習とSciMLにおける最適化手法を統一的に紹介し，問題構造がアルゴリズム選択に与える影響を強調した。
- 物理制約やデータ駆動型SciMLモデルへの適応について，第一・第二階最適化手法を検討した。
- チュートリアル例を通じて実践的な戦略を示し，科学計算と科学的機械学習のインターフェースにおける今後の研究方向性を明らかにした。
Link: https://arxiv.org/abs/2601.10222
関係性の線形性が幻覚の予測因子となる [cs.CL, cs.AI]目的：言語モデルにおける幻覚の予測因子
- 大規模言語モデルの性能向上は目覚ましいが，事実に基づかない情報を生成する幻覚が課題である。
- 言語モデルは，未知のエンティティに関する質問に対して，誤った情報を生成しやすいという問題がある。
- 線形関係性に着目し，幻覚が生じやすいメカニズムの解明と軽減を目指す。
- 関係性の線形性が高い場合，未知の主語に対してオブジェクトを幻覚しやすく，モデルの幻覚傾向と強い相関が認められた。
- 線形関係でない場合，幻覚は抑制されやすいことが示された。
- SyntHalという合成ベンチマークを用いて，４つの命令調整済みモデルで検証された。
Link: https://arxiv.org/abs/2601.11429
蒸留と置換：効率的なタスク固有のハイブリッド注意モデル構築 [cs.LG, cs.AI]目的：タスク固有のハイブリッド注意モデルの構築
- Transformerは高性能だが，計算量が課題。実用的な応用範囲を広げるには効率化が重要。
- 線形注意機構は効率的だが，性能低下が懸念される。ハイブリッドモデル設計は困難である。
- 既存モデルの知識を活かし，再学習や探索コストを抑えた効率的なハイブリッドモデル構築を目指す。
- 提案手法 DtR は，事前学習済みの全注意モジュールから線形注意モジュールへの蒸留と，逐次的な置換を行う。
- DtR は，コストのかかる再学習やニューラルアーキテクチャ探索なしに，タスク固有のハイブリッドモデルを効率的に構築する。
- 様々なダウンストリームタスクに対し，事前学習済みの全注意バックボーンに DtR を適用できる。
Link: https://arxiv.org/abs/2601.11667
Aletheia：コード検証器におけるRLVRの動作原理 [cs.SE, cs.AI]目的：コード検証器の訓練レシピの性能とコストのトレードオフに関する分析
- 大規模コード生成モデルの性能向上には，訓練後の検証が不可欠であり，その自動化が求められている。
- RLVRは有効だが，その実装コストが高く，コード生成への応用が遅れている。
- より効率的なRLVR訓練レシピを特定し，コード検証器の導入を促進すること。
- 検証器の規模に応じて最適な訓練レシピが異なり，小規模な検証器ではオンポリシー学習が主要な性能向上要因となる。
- 大規模な検証器では，思考予算が最も重要な要素となり，負例学習は規模に応じてランキング再構成への貢献度が単調に増加する。
- 大規模モデルでは，オンポリシー学習を排除することで，フルRLVRと同等の性能を達成でき，計算効率の良い戦略となる。
Link: https://arxiv.org/abs/2601.12186
計画，検証，充填：拡散言語モデルのための構造化並列デコーディングアプローチ [cs.CL, cs.AI, cs.LG]目的：拡散言語モデルにおける効率的なテキスト生成手法
- 言語モデルは，自然言語処理の基盤技術であり，様々な応用分野で活用されている。
- 既存のデコーディング戦略は双方向の文脈を十分に活用できておらず，効率が低い。
- 高影響度の意味的アンカーを優先し，構造的停止を検証することで効率改善を目指す。
- 提案手法「Plan-Verify-Fill (PVF)」は，関数評価回数を最大65%削減し，効率を向上させる。
- PVFは，既存の信頼度に基づく並列デコーディングと比較して，精度を損なうことなく効率化を実現する。
- LLaDA-8B-InstructおよびDream-7B-Instructを用いた評価により，PVFの有効性が確認された。
Link: https://arxiv.org/abs/2601.12247
ソーシャルキャプション：マルチモーダルモデルにおける社会的理解の評価 [cs.CY, econ.GN, q-fin.EC, cs.CL, cs.LG]目的：マルチモーダル大規模言語モデルにおける社会的理解能力の評価
- 人間社会は複雑であり，その理解はAIにとって不可欠である。
- 既存のモデルは，人間特有の社会的な相互作用の理解が不十分である。
- モデルの社会的推論，全体的分析，指向的分析能力を評価する指標の確立。
- 本研究では，相互作用理論に基づいた評価フレームワーク「ソーシャルキャプション」を提案した。
- モデルの規模，アーキテクチャ，音声コンテキストが社会的理解能力に影響を与えることを分析した。
- マルチモーダルな社会的理解の自動評価のスケーリングへの道筋を示した。
Link: https://arxiv.org/abs/2601.14569
グラフ構造がグラフニューラルネットワークのメンバーシップ推論リスクに与える影響 [cs.LG, cs.CR]目的：グラフニューラルネットワークにおけるメンバーシップ推論リスクとそのグラフ構造との関連性
- グラフニューラルネットワークは広く利用されているが，プライバシー侵害の懸念がある。
- 既存研究では，グラフ構造の役割が十分に考慮されていない。
- グラフ構造がプライバシーリスクに与える影響を明らかにすること。
- スノーボールサンプリングは，ランダムサンプリングと比較して，一般化性能を低下させる傾向がある。
- 推論時に訓練-テスト間のエッジへのアクセスを許可すると，テスト精度が向上し，訓練-テスト間の性能差が縮小する。
- 一般化性能の差は，メンバーシップ推論リスクの完全な指標とはならず，推論時のエッジアクセスが重要な役割を果たす。
Link: https://arxiv.org/abs/2601.17130
埋め込みベースのTop-$k$検索のための$\mathbb{R}^{2k}$の理論的十分性 [cs.LG, cs.AI, cs.IR]目的：Top-$k$検索における最小埋め込み次元
- 大規模データ検索の効率化は，情報科学における重要な課題である。
- 高次元空間における近似最近傍探索は計算コストが高いという課題がある。
- Top-$k$検索に必要な最小次元を理論的に決定し，その限界を探る。
- 内積，ユークリッド距離，コサイン類似度において，最小埋め込み次元は$m$に依存せず$\Theta(k)$となることが示された。
- ロバストな最小埋め込み次元について，実現可能性の上限$\epsilon_\star(m,k)$を導出し，ガウス重心構成による上限も得られた。
- 合成データと実データセットの実験により，単純な埋め込みベース検索が過学習し，LLM埋め込みを上回ることが確認された。
Link: https://arxiv.org/abs/2601.20844
局所学習は自己教師あり逆伝播に匹敵するか？ [eess.SY, cs.SY, cs.LG]目的：深層ニューラルネットワークにおける表現学習の比較
- AIシステムの訓練において，自己教師あり学習が重要視されている。
- 局所的な自己教師あり学習では，有効な表現を構築することが困難である。
- 局所学習が逆伝播と同等の性能を達成できるか検証する。
- 線形ネットワークにおいて，局所学習アルゴリズムが逆伝播と同じ重み更新を行う条件を特定した。
- 非線形畳み込みニューラルネットワークにおいて，局所学習アルゴリズムを改善し，逆伝播に近似させた。
- 最良の局所学習ルールは，逆伝播と同等の性能を示し，既存の局所学習の性能を上回った。
Link: https://arxiv.org/abs/2601.21683
弱い拡散事前分布でも強力な逆問題性能を達成できる [cs.CY, cs.LG, cs.CV, stat.CO, stat.ML]目的：逆問題における弱い拡散事前分布の有効性
- 逆問題は，ノイズの多いデータから元の信号を復元する上で重要。画像処理や医療診断など，幅広い分野で利用。
- 従来の逆問題解決では，高品質な事前分布が必要だが，現実的には不一致や低品質な事前分布しか利用できない場合が多い。
- 本研究は，そのような弱い事前分布でも十分な性能を発揮できる条件を明らかにすることを目指す。
- 測定データが豊富な場合，弱い拡散事前分布でも真の信号に近い解に収束することが示された。
- ベイズ一貫性理論と局所相関分析により，弱い事前分布とより強力な事前分布が類似した局所的空間構造を持つことが説明された。
- この結果は，弱い拡散事前分布を信頼性高く使用できる条件を理論的に裏付けるものである。
Link: https://arxiv.org/abs/2601.22443
Lethe：連合学習における永続的な知識消去のためのアダプター拡張型デュアルストリーム更新 [cs.LG]目的：連合学習における，指定されたクライアント，クラス，またはサンプルレベルの知識の消去
- プライバシー保護の重要性が増す中，分散型データを利用した機械学習が求められている。
- 既存手法では，消去後の継続学習における知識の再出現が課題となっている。
- 継続学習時でも知識の再出現を防ぎ，永続的な知識消去を実現することを目指す。
- Letheは，消去対象知識と保持知識の相関を低減する，Reshape--Rectify--Restoreパイプラインを用いる。
- 一時的なアダプターを用いて勾配上昇で更新を増幅し，層ごとの修正を行うことで，知識の再出現を抑制する。
- 実験により，Letheが様々なレベルでの消去をサポートし，継続学習後も1%以下の再出現率を維持することが示された。
Link: https://arxiv.org/abs/2601.22601
名前は重要ではない：オープン語彙学習のための記号不変Transformer [cs.LG, cs.LO, cs.SC]目的：オープン語彙学習における記号不変性
- 自然言語処理において，語彙の拡張性と汎化性能は重要な課題である。
- 既存のモデルは，意味的に等価な記号の区別が難しく，未知の記号への対応が苦手である。
- 記号の置換に対して不変なTransformer機構を開発し，汎化性能を向上させる。
- 提案手法は，記号の置換に対して理論的に不変性を保証する。
- 複数の埋め込みストリームと集約された注意機構により，記号不変性を実現している。
- 実験結果は，未知の記号への汎化性能が向上することを示した。
Link: https://arxiv.org/abs/2601.23169
L∞ロバストMDPに対する方策反復の強い多項式時間計算複雑性 [cs.AI, cs.CC]目的：L∞ロバストMDPにおける方策反復アルゴリズムの計算複雑性
- 意思決定の基本的なモデルであり，現実世界の複雑な問題を扱う上で不可欠である。
- 不確実性に対するロバスト性の保証が難しく，計算コストが高い場合がある。
- L∞ロバストMDPに対する効率的な方策反復アルゴリズムの開発を目指す。
- L∞ロバストMDPの方策反復アルゴリズムが，定数割引率において強い多項式時間で動作することが示された。
- この結果は，ロバスト最適化における重要なアルゴリズム問題の解決に貢献する。
- 古典的なMDPやターンベースの確率ゲームを包含する汎用性の高いモデルに対する効率的な解法を提供する。
Link: https://arxiv.org/abs/2601.23229
スレピアン関数を用いた局所的・高解像度地理表現 [cs.LG]目的：局所的地理表現の構築
- 地理データは局所性が重要であり，様々な分野で活用されている。
- 既存の機械学習モデルは地理的表現能力を均一に分散させ，高解像度での局所的な応用が難しい。
- スレピアン関数を用いて，関心領域に表現能力を集中させ，高解像度化を可能にすること。
- スレピアン関数に基づく地理位置エンコーダは，従来のモデルと比較して優れた性能を示した。
- 特に，分類，回帰，画像拡張予測のタスクにおいて，その優位性が確認された。
- ハイブリッドSlepian-球調和エンコーダは，局所性とグローバル性のトレードオフを効率的に解決する。
Link: https://arxiv.org/abs/2602.00392
scBatchProx：不均一なバッチ構成下における安定した細胞タイプ識別能のための連合学習に触発された改良 [cs.LG]目的：単一細胞データのバッチ効果を低減し，異なるバッチ構成下での細胞タイプ識別能を安定化させる手法の開発
- 単一細胞データ解析において，バッチ効果の除去は，異なる実験条件間での比較を可能にする上で不可欠である。
- バッチ内の細胞タイプ構成が異なる場合，既存のバッチ効果除去手法は不安定になりやすい。
- 本研究は，変化するバッチ構成下でも安定した細胞タイプ識別能を維持する手法を開発することを目指す。
- scBatchProxは，既存の埋め込み表現を直接操作し，バッチごとに局所的な潜在空間更新を学習する。
- プロキシマル正則化と恒等性保持正則化により，更新を保守的に保ち，安定性を向上させる。
- 実験の結果，scBatchProxは，様々な前処理による埋め込み表現において，細胞タイプ分類の性能を向上させることが示された。
Link: https://arxiv.org/abs/2602.00423
自己回帰モデルは既に因果グラフを明らかにする [cs.LG]目的：単一の離散事象の系列から，因果構造の発見
- 因果推論は，データ生成過程の理解や介入効果の予測に不可欠である。
- 単一の観測系列からの因果発見は，サンプル不足，語彙の巨大さ，長期依存性により困難である。
- 事前学習済みの自己回帰モデルを活用し，大規模なデータセットにおける因果関係を効率的に解明する。
- TRACEは，自己回帰モデルを条件付き相互情報量の推定器として再利用するフレームワークである。
- GPUによる並列化された条件付き独立性検定により，大規模な語彙サイズに対しても線形にスケールする。
- 交差エントロピー損失の最小化が，因果識別誤差の上界の最小化に繋がることを理論的に証明した。
Link: https://arxiv.org/abs/2602.01135
因果的嗜好抽出 [cs.LG, cs.AI, stat.ME]目的：専門家を巻き込んだ因果発見のためのベイズ的枠組み
- 因果関係の解明は，科学的発見や意思決定において不可欠である。
- 観測データのみでは因果構造の特定が困難な場合が多い。
- 専門家の知識を活用し，効率的に因果構造を推定すること。
- 提案手法は，専門家への質問を通じてDAGの事後分布を迅速に収束させる。
- シミュレーションデータ，タンパク質シグナルデータ，遺伝子撹乱ベンチマークにおいて，高い性能が示された。
- 限られた質問回数でも，指向性効果の復元精度が向上した。
Link: https://arxiv.org/abs/2602.01483
オンライン表形式マルコフ決定過程に対するデータおよび分散依存の後悔限界 [cs.LG, stat.ML]目的：オンライン表形式マルコフ決定過程におけるデータ依存および分散依存の後悔限界を達成するアルゴリズムの開発
- 強化学習は，エージェントが環境との相互作用を通じて最適な行動を学習する重要な枠組みである。
- オンライン環境における最適な行動決定は，データが逐次的に到着するため困難を伴う。
- データや分散の特性を考慮したアルゴリズムにより，より効率的な学習と最適化が可能となる。
- 本研究では，敵対的環境と確率的環境の両方において，データおよび分散依存の後悔限界を達成するアルゴリズムを提案した。
- 提案アルゴリズムは，MDPの複雑度を定量化するための新たな指標と，データ依存および分散に基づく指標を用いた。
- 敵対的環境における上限と下限の限界がほぼ一致することから，提案手法の最適性が示唆された。
Link: https://arxiv.org/abs/2602.01903
自己スープ化：ラベルなしでのスープモデルの調理 [cs.IR, cs.LG]目的：スープモデルのレシピを自己教師あり学習に一般化すること
- モデルの性能向上には，多様な学習方法の組み合わせが重要であるため，その手法の探求が不可欠である。
- 従来のスープモデルは教師あり学習に依存しており，ラベル付きデータが必須であるという課題があった。
- ラベルなしデータを用いたスープモデルの構築を可能にし，汎化性能とロバスト性を高めることを目指す。
- 自己スープ化により，汚染されたテストデータに対するロバスト性が向上し，ImageNet-Cで+3.5%，LAION-Cで+7%の改善が確認された。
- 異なる自己教師あり学習アルゴリズムやハイパーパラメータを持つモデルをスープの材料として組み合わせることが可能となった。
- MAE，MoCoV3，MMCR，LeJEPAなどの材料を用いたスープは，個々の自己教師あり学習モデルよりも高い精度を実現した。
Link: https://arxiv.org/abs/2602.02890
ニューラル注意探索線形モデル：適応的トークンレベルハイブリッド注意モデルへ [cs.CL, cs.LG]目的：長文脈における効率的な系列モデルの構築
- Transformerモデルの計算コストが長文脈処理のボトルネックとなっている。
- 線形注意モデルは効率的だが，表現力に限界がある。
- トークンごとに注意機構を切り替えることで，効率と表現力の両立を目指す。
- NAtS-Lは，トークンごとに線形注意またはsoftmax注意を動的に選択する。
- Gated DeltaNetとsoftmax注意の組み合わせを最適化することで，高い性能と効率を実現した。
- 本研究は，トークンレベルのハイブリッド注意アーキテクチャの有効性を示唆する。
Link: https://arxiv.org/abs/2602.03681
リャプノフ制約付きソフトアクター・クリティック法：クープマン演算子理論による軌道追従と安定化 [eess.SY, cs.LG, cs.RO, cs.SY]目的：軌道追従および安定化のための，リャプノフ制約付きソフトアクター・クリティック法の開発
- 強化学習は複雑な逐次決定問題に成功を収めている。安全性確保が重要な物理システムへの応用が課題。
- 従来の強化学習は報酬最大化を優先し，振動や状態の無限大発散を引き起こす不安定な制御戦略になりやすい。
- クープマン演算子理論を用いて，安定性を保証する制御戦略を強化学習に組み込み，安全性を高めることを目指す。
- 拡張動的モード分解(EDMD)を用いて誤差ダイナミクスの線形リフテッド近似を学習し，離散代数リッカチ方程式(DARE)を解くことで閉形式の候補制御リャプノフ関数(CLF)を得る。
- このCLFをSACアクター更新にラグランジュペナルティとして組み込み，最悪の場合の違反をCVaR目的関数で集約し，不安定なイベントへの制約圧力を集中させる。
- 実験により，ハードなラグランジュ制約が学習に不可欠であることが示され，報酬シェイピングに置き換えると学習が不安定化し，クアッドロータータスクの報酬が低下した。
Link: https://arxiv.org/abs/2602.04132
ファントム転送：データ汚染はデータレベル防御を乗り越える [cs.CR, cs.AI]目的：データ汚染攻撃の存在証明
- 機械学習モデルの安全性確保は重要であり，特にデータ汚染攻撃への対策が不可欠である。
- データレベルでの防御策は存在するものの，巧妙な攻撃に対しては脆弱性が見られる。
- 既存のデータレベル防御策を回避し，モデルに悪意のある挙動を植え付ける攻撃手法を提示する。
- 提示された攻撃「ファントム転送」は，汚染データの特定・除去が困難である。
- この攻撃は，データ生成モデルや学習モデル，攻撃対象に関わらず有効に機能する。
- 11種類のデータレベル防御策（モデルによる言い換えを含む）を乗り越えることが示された。
Link: https://arxiv.org/abs/2602.04899
決定時計画のためのラプラシアン表現 [cs.LG]目的：決定時計画における有効な潜在空間の提供
- モデルに基づく強化学習において，学習されたモデルを用いた計画は重要な課題である。
- 決定時計画では，長期的構造を維持しつつ局所的なコスト計算をサポートする状態表現が不可欠である。
- ラプラシアン表現による状態空間距離の多時間スケールでの捕捉による計画性能の向上を目指す。
- ラプラシアン表現は，意味のある距離を保存し，長期的問題を自然にサブゴールに分解する。
- これにより，長予測ホライズンにおける誤差の蓄積を軽減できる。
- 提案手法ALPSは，OGBenchのオフラインゴール条件付き強化学習タスクにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2602.05031
PieArena：現実的な交渉シナリオにおける言語エージェントのランキングとプロファイリング [cs.AI]目的：言語エージェントの交渉能力の評価
- ビジネスにおいて交渉は不可欠であり，戦略的思考力や相手の意図理解が重要となる。
- 既存の評価方法では，交渉における複雑な行動や戦略を十分に捉えられていない。
- 現実的な交渉シナリオに基づく評価基準を確立し，言語エージェントの能力を詳細に分析する。
- PieArenaは，MBAコースで用いられるシナリオを基にした大規模な交渉ベンチマークである。
- ランキングモデルにより，実験的な非対称性を修正しつつ，信頼性の高い評価結果が得られた。
- GPT-5は，訓練を受けたビジネススクールの学生との交渉において，同等またはそれ以上の成果を示した。
Link: https://arxiv.org/abs/2602.05302
効率的な一次制御のための局所・大域的ワールドモデルの結合 [cs.RO, cs.AI]目的：効率的な強化学習のためのワールドモデルの活用
- 複雑な環境や感覚情報を扱う上で，シミュレーターでは困難な場合があるため，ワールドモデルの研究が重要である。
- 既存のワールドモデルは計算コストが高く，複雑なタスクの学習における強化学習への応用が難しいという課題がある。
- 本研究では，局所的・大域的ワールドモデルを結合することで，高精度かつ効率的な強化学習を実現することを目的とする。
- 提案手法は，ロボットが実際の環境とのインタラクションから学習したワールドモデル内で強化学習ポリシーを訓練する。
- 大規模拡散モデルを用いた効率的な勾配計算のために，分離された一次勾配法を開発した。
- Push-T操作タスクにおいて，サンプル効率がPPOを大幅に上回り，四脚歩行ロボットによる物体操作タスクでも有効性が確認された。
Link: https://arxiv.org/abs/2602.06219
深層学習に基づくハイブリッド偏微分方程式ソルバーは信頼できるか？学習パラダイムと更新戦略の重要性 [math.NA, cs.LG, cs.NA]目的：深層学習ハイブリッド反復法における学習パラダイムと更新戦略の感度分析
- 偏微分方程式は自然科学の基礎であり，シミュレーションの精度が重要である。
- 深層学習を用いた偏微分方程式ソルバーは，偽の固定点に陥りやすく，信頼性に課題がある。
- 物理現象に基づいた学習と反復設計により，ソルバーの信頼性を向上させる。
- 従来のAnderson加速法は，非線形ニューラル演算子には適さないことが示された。
- 物理情報に基づいたAnderson加速法(PA-AA)を導入することで，安定した収束が実現された。
- AIベースの偏微分方程式ソルバーの信頼性は，アーキテクチャだけでなく，学習と反復設計に依存することが明らかになった。
Link: https://arxiv.org/abs/2602.06842
InftyThink+: 強化学習による無限地平線推論の効率化 [cs.CL, cs.AI]目的：無限地平線推論の効率的かつ効果的な手法
- 大規模言語モデルの推論能力向上には，複雑な思考過程の再現が不可欠である。
- 既存の推論手法は計算コストが高く，文脈長に制限があり，推論の精度が低下しやすい。
- 強化学習を用いて，推論における要約戦略を最適化し，効率性と精度を両立することを目指す。
- InftyThink+は，AIME24において21%の精度向上を達成し，従来の強化学習手法を上回った。
- モデルが戦略的な要約と継続を学習できるよう，教師あり学習と強化学習の二段階学習スキームを採用した。
- 推論の遅延を大幅に削減し，強化学習の訓練を加速することで，推論効率を向上させた。
Link: https://arxiv.org/abs/2602.06960
PAND：プロンプトを意識した近傍蒸留による軽量な細粒度画像分類 [cs.CL, cs.CV, cs.AI, cs.LG, cs.MM]目的：細粒度画像分類における軽量ネットワークへの知識蒸留
- 画像認識技術は，多様な応用分野において重要であり，その精度向上は継続的な課題である。
- 既存の知識蒸留は固定されたプロンプトに依存し，大域的なアラインメントに偏りがちである。
- プロンプトを意識した近傍蒸留により，軽量なネットワークでも高精度な分類を可能にすること。
- 提案手法PANDは，プロンプトを意識した意味的校正と近傍を考慮した構造的蒸留を組み合わせる。
- CUB-200データセットにおいて，ResNet-18モデルで76.09%の精度を達成し，既存手法VL2Liteを3.4%上回った。
- PANDは，4つの細粒度画像分類ベンチマークで最先端手法を上回る性能を示した。
Link: https://arxiv.org/abs/2602.07768
報酬は誰に帰属するか：マルチエージェントシステムのためのシャプレイ信用に基づく最適化SHARP [cs.CL, cs.AI]目的：マルチエージェントシステムの最適化
- 複雑な問題を解決するため，LLMと外部ツールの連携が重要視されている。
- エージェントの貢献度を正確に評価することが難しく，効率的な学習が阻害されている。
- シャプレイ値を用いて，エージェントごとの貢献度を正確に評価し，学習を安定化させる。
- SHARPは，エージェント固有の優位性を軌跡グループ間で正規化することで学習を安定化させる。
- 様々なベンチマークにおいて，SHARPは最先端のベースラインを大幅に上回り，平均して23.66％と14.05％の性能向上を達成した。
- グローバルな報酬，シャプレイ信用に基づく報酬，ツールプロセス報酬の組み合わせが効果を発揮する。
Link: https://arxiv.org/abs/2602.08335
誰の名前が挙がるか？II：LLMベースの学者推薦に関するベンチマークと介入に基づく監査 [cs.IR, cs.AI, cs.CY, cs.SI, physics.soc-ph]目的：LLMベースの学者推薦におけるモデル基盤とエンドユーザー介入の共同評価
- 学術専門家推薦は研究活動において重要であり，質の高い推薦は効率的な情報探索を可能にする。
- 既存の監査はモデル単体に着目し，エンドユーザーによる介入の影響を考慮していない点が課題である。
- モデル選択と展開決定のどちらが失敗の原因かを明らかにし，改善策を提示することを目的とする。
- LLMScholarBenchは，モデル基盤とエンドユーザー介入の両方を評価できるベンチマークとして開発された。
- 温度調整は，妥当性，一貫性，事実性といった技術的品質を低下させる傾向にあることが示された。
- 多様性を高めるための制約付きプロンプティングは，事実性を損なう可能性があり，RAGは技術的品質を向上させるものの，多様性と公平性を低下させる傾向にある。
Link: https://arxiv.org/abs/2602.08873
スペクトル空間における物理情報を取り入れた拡散モデル [cs.LG, cs.AI, cs.CV, cs.NA, math.NA]目的：偏微分方程式の解の生成
- 物理現象のシミュレーションは科学技術の発展に不可欠であり，高精度かつ効率的な解法が求められている。
- 従来の数値解法は計算コストが高く，特に逆問題や不完全な観測データに対する対応が課題となっていた。
- スペクトル空間を利用することで，高次元データを効率的に扱い，物理法則に適合する解を生成することを目指す。
- 提案手法PISDは，スペクトル表現の潜在空間における拡散過程を通じて，偏微分方程式のパラメータと解の同時分布を学習する。
- PISDは，Poisson方程式，Helmholtz方程式，および非圧縮性Navier-Stokes方程式において，既存の拡散モデルよりも高い精度と計算効率を示す。
- 拡散過程における物理情報に基づく制約と観測条件を適用することで，疎な観測データに対してもロバストな解を得ることが可能となる。
Link: https://arxiv.org/abs/2602.09708
解釈可能性成果物からの自己解釈学習：ベクトル・ラベル対を用いた軽量アダプターの訓練 [cs.CL, cs.AI, cs.LG]目的：言語モデルの自己解釈能力の向上
- 言語モデルの複雑化に伴い，その内部動作の解釈が重要になっている。
- 既存の自己解釈手法はハイパーパラメータに敏感で，信頼性に欠けるという課題がある。
- 凍結された言語モデル上で軽量アダプターを訓練することで，安定した自己解釈を可能にする。
- 訓練されたアダプターは，元の訓練ラベルよりも優れた性能を示す疎な自動符号化器特徴ラベルを生成する。
- アダプターは94%のリコール@1でトピックを特定し，マルチホップ推論におけるブリッジエンティティを解読する。
- 学習されたバイアスベクトル単独で，性能向上全体の85%を占めることが示された。
Link: https://arxiv.org/abs/2602.10352
LLMを用いた物理クエリプランのテスト時最適化 [cs.DB, cs.AI]目的：物理クエリプランのテスト時最適化手法
- クエリ応答速度の向上はデータベースシステムの重要な課題であり，性能改善に繋がる。
- 従来のコストベースオプティマイザは，ヒューリスティックに頼り，セマンティックな情報を活用できない。
- LLMのセマンティック推論能力を用いて，効率的な物理クエリプランをテスト時に発見する。
- LLMが提案する修正をJSONパッチとして適用し，DataFusionエンジンでテスト時最適化を実現した。
- TPC-HおよびTPC-DSにおいて，中央値で1.10～1.12倍，1.05～1.07倍の高速化を達成した。
- 小規模データセットで発見された最適化は，大規模データセットでも有効に転移することが示された。
Link: https://arxiv.org/abs/2602.10387
LLMはいつより曖昧であるべきか？信頼性の高い長文テキスト生成のための選択的抽象化 [cs.AI, cs.CL, cs.LG]目的：長文テキスト生成における信頼性向上のための選択的抽象化の枠組み
- LLMの活用が進む中で，その事実誤認は信頼性を損ない，高リスクな場面での利用を制限している。
- 不確実性推定による抑制は有効だが，長文生成においては有用な情報を過度に排除する問題がある。
- 不確実な情報を抽象化することで，具体性を犠牲に信頼性を向上させる手法を提案し，検証する。
- 選択的抽象化（SA）は，不確実な内容の詳細度を低減することで，LLMの信頼性を高める。
- 提案手法Atom-wise SAは，既存手法と比較して，リスク・カバレッジ曲線下の面積（AURC）を最大27.73%改善した。
- 具体性を低下させることで，精度と信頼性を向上させつつ，元の情報の大部分を維持できることが示された。
Link: https://arxiv.org/abs/2602.11908