arXiv雑要約

AI - 2026/05/27 公開

マルチモーダル・インコンテキスト学習の解剖：現代Transformerにおける様相非対称性と回路ダイナミクス [cs.CL, cs.LG]目的：マルチモーダル・インコンテキスト学習における様相間の非対称性と回路ダイナミクス
- Transformerは自然言語処理だけでなく，画像認識など多様な分野で高性能を発揮しており，その応用範囲は広い。
- マルチモーダル学習における様相間の相互作用のメカニズムは未だ十分に解明されておらず，学習効率の改善が課題である。
- インコンテキスト学習における様相非対称性と回路ダイナミクスを解明し，マルチモーダル学習の基礎を築く。
- Transformerにおけるインコンテキスト学習において，RoPEがデータ複雑性の閾値を上昇させることを確認した。
- 一次様相の高多様性データで事前学習した場合，二次様相のデータ複雑性が低くてもマルチモーダル・インコンテキスト学習が成立することを示した。
- マルチモーダル学習は，インコンテキスト事例からのラベルコピーに基づいた誘導様式メカニズムを様相間で洗練・拡張することによって実現されることがわかった。
Link: https://arxiv.org/abs/2601.20796
ORLoopBench：オペレーションズ・リサーチにおける自己修正と行動合理性のためのソルバー・イン・ザ・ループ・ベンチマーク [cs.LG, cs.AI, math.OC]目的：オペレーションズ・リサーチにおける，モデルの非実行可能性の修正と行動合理性の評価
- オペレーションズ・リサーチは，現実世界の問題解決に不可欠であり，その効率性は社会経済に大きな影響を与える。
- 既存のLLMベンチマークは，問題記述からソルバーコードへの翻訳に焦点を当てており，診断と修正の反復プロセスを考慮していない。
- ソルバー・イン・ザ・ループのベンチマークを通じて，LLMの自己修正能力と行動合理性を評価し，改善を図る。
- ORLoopBenchは，LP/MILPの修正インスタンスを含むOR-Debug-Benchと，在庫設定における行動合理性を評価するOR-Bias-Benchの2つのコンポーネントから構成される。
- 8Bモデルをソルバー検証付きのRLVRで訓練した結果，LP修正において最先端APIを凌駕し（95.3% vs 92.4% RR @5），診断能力も向上した。
- 評価の結果，モデル全体のコード再生成における意味的ドリフトが明らかになり，実行可能なMILPが誤った問題を解く可能性があることが示された。
Link: https://arxiv.org/abs/2601.21008
思考連鎖圧縮：理論的分析 [cs.AI]目的：思考連鎖圧縮の学習困難性の理論的解明
- 大規模言語モデルの推論能力向上には思考連鎖が有効だが，計算コストが高い。
- 思考連鎖を圧縮する暗黙的CoT圧縮は効率的だが，そのメカニズムは不明である。
- 高次の論理依存性の学習シグナル減衰を克服し，効率的な推論を実現すること。
- 高次の論理依存性を持つ問題では，中間ステップを省略すると学習シグナルが指数関数的に減衰することを示した。
- 不可約な論理推論を強制するベンチマークNatBool-DAGを新たに提案し，理論的知見を検証した。
- 潜在トークン分布を中間推論状態に整合させるALiCoTを提案し，54.4倍の高速化を達成した。
Link: https://arxiv.org/abs/2601.21576
記号方程式学習による説明可能な分類手法 ECSEL [cs.LG, cs.AI, stat.ML]目的：説明可能な分類手法の開発
- 機械学習のブラックボックス化が課題であり，モデルの解釈性が重要視されている。
- 既存のモデルは精度と解釈性の両立が難しく，説明可能なAIの実現が求められている。
- 記号方程式学習により，解釈性と予測精度の高い分類モデルを構築すること。
- ECSELは，既存の記号回帰手法よりも多くのターゲット方程式を復元し，計算コストを大幅に削減する。
- 確立された機械学習モデルと同等の分類精度を達成しながら，解釈性を維持する。
- 学習された方程式は，データセットの偏りを明らかにし，反事実的推論を可能にし，実用的な洞察を提供する。
Link: https://arxiv.org/abs/2601.21789
制約付きメタ強化学習における証明可能なテスト時安全性 [cs.LG]目的：テスト時における安全性とサンプル複雑性の保証
- ロボティクスや医療など，安全性が重要な現実世界の応用において，強化学習の活用が求められている。
- 従来のメタ強化学習はサンプル効率を向上させるが，テスト時の安全性を保証する仕組みが不足している。
- テストタスクにおける安全性とサンプル複雑性の両立を目指し，安全性が証明可能なアルゴリズムを開発する。
- 提案アルゴリズムは，訓練中に学習したポリシーを改良することで，テストタスクにおいてほぼ最適なポリシーを安全に学習できる。
- このアルゴリズムは，安全性とサンプル複雑性の両方に関して保証を持つ。
- 導出された下限は，提案アルゴリズムのサンプル複雑性が最適であることを示している。
Link: https://arxiv.org/abs/2601.21845
マルチエージェントActor-Criticによる分散型LLM協調学習 [cs.AI, cs.DC, cs.MA]目的：分散型LLM協調の最適化
- LLMの性能向上には，複数モデルの協調が重要であり，その最適化手法が求められている。
- 既存手法は中央集権的な実行プロトコルに依存し，柔軟な分散環境での運用が困難である。
- モンテカルロ法では分散が高く学習効率が低いため，Actor-Critic法を用いた分散LLM協調の最適化を目指す。
- 提案手法CoLLM-CCは，短いホライズンや高密度報酬の環境でモンテカルロ法と同等の性能を示す。
- 一方，長いホライズンや疎な報酬の環境では，モンテカルロ法やCoLLM-DCはCoLLM-CCに劣る。
- モンテカルロ法はサンプル数を多く必要とし，CoLLM-DCは収束が難しいという課題が示された。
Link: https://arxiv.org/abs/2601.21972
グラフはデータモダリティに共通する基盤である [cs.LG, cs.AI]目的：異種モダリティとタスク間におけるグラフ構造の永続性と蓄積
- 様々な分野で関係構造の自然な表現としてグラフが活用されている。
- 従来のグラフ学習はタスクごとに独立しており，構造的規則性の蓄積が不十分である。
- 共通のグラフ構造を基盤として学習することで，モダリティを跨いだ知識の再利用を目指す。
- G-Substrateは，異種モダリティとタスク間で互換性のあるグラフ構造を実現する統一的構造スキーマを備えている。
- 役割ベースのインターリーブされた訓練戦略により，同じグラフ構造を複数の機能に曝露することで学習効率を高めている。
- 複数のドメイン，モダリティ，タスクにおける実験で，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2601.22384
ルールプランナー：3Dフロアプランニングにおける設計ルール統一のための全一体型強化学習エージェント [cs.AR, cs.AI]目的：3Dフロアプランニングにおける複雑な設計ルールへの対応
- 集積回路の微細化に伴い，設計ルールは複雑化し，フロアプランニングにおけるルール遵守が重要となっている。
- 既存手法は限られた設計ルールしか扱えず，違反が発生した場合の修正には専門家の労力がかかる。
- 様々な設計ルールを統一的に処理し，設計プロセスの自動化と効率化を目指す。
- 提案手法は，設計ルールを表現するための新しい行列表現，無効な行動をフィルタリングする行動空間の制約，および制約充足度を報酬とする定量的な分析を導入している。
- 公開ベンチマークを用いた実験により，提案手法の有効性と妥当性が実証された。
- 未知の回路に対しても高い転移学習能力が確認されており，新たな設計ルールへの拡張性も示されている。
Link: https://arxiv.org/abs/2601.22476
不確実性認識型方策最適化 [cs.AI, cs.LG]目的：大規模言語モデルの信頼性向上
- 高リスクな応用において，言語モデルの過信による誤りを防ぐことが重要である。
- 既存の強化学習パラダイムは，二値的な決定空間や静的な不確実性報酬により，アドバンテージバイアスを起こしやすい。
- 不確実性に基づく報酬を取り入れた既存手法における誤りの原因を解消し，信頼性を高める。
- UCPOは，決定論的および不確実なロールアウトを分離・正規化するTernary Advantage Decouplingにより，アドバンテージバイアスを解消する。
- Dynamic Uncertainty Reward Adjustment機構により，モデルの進化やインスタンスの難易度に応じて不確実性重みをリアルタイムで調整する。
- 数学的推論や汎用タスクにおいて，UCPOは報酬の不均衡を解消し，モデルの知識範囲外での信頼性を大幅に向上させる。
Link: https://arxiv.org/abs/2601.22648
過剰適合 vs 過剰調整：汎化における特徴学習強度の役割 [cs.CL, cs.LG, stat.ML]目的：汎化における特徴学習強度の影響
- 深層学習の性能向上には，適切なモデルの学習が不可欠である。
- 汎化性能を最大化するための特徴学習強度の最適化が課題である。
- 過剰適合と過剰調整のトレードオフを解明し，最適な強度を見出す。
- 実験的に，最適な特徴学習強度が存在することが明らかになった。
- 強すぎる特徴学習は過剰適合を引き起こし，汎化性能を低下させる。
- 弱すぎる特徴学習は過剰調整を引き起こし，最適な学習を妨げる。
Link: https://arxiv.org/abs/2602.00827
知識境界の探求：深層知識抽出のためのインタラクティブなエージェントフレームワーク [cs.LG, cs.CL]目的：大規模言語モデルの知識抽出と定量化
- 言語モデルの能力向上は，知識ベースとしての活用を促進する。
- 既存の評価基準は静的であり，体系的な知識探求が困難である。
- 言語モデルが持つ知識の範囲と質を明確にすることを目的とする。
- 再帰的タクソノミー探索戦略が最も効果的であることが示された。
- モデル規模が大きいほど，より多くの知識を抽出できることが確認された。
- 専門特化モデルは初期精度が高いが，急速に劣化し，汎用モデルは安定した性能を維持する。
Link: https://arxiv.org/abs/2602.00959
Qrita：ピボットに基づく切り捨てと選択を用いた高性能Top-kおよびTop-p [cs.AI]目的：大規模語彙におけるTop-kおよびTop-pアルゴリズムの効率的な実装
- モデルサンプリングにおいて重要であり，大規模言語モデルの性能に直結する。
- GPU上でのソート処理の計算・メモリコストが大きい，または確率的アプローチによる出力の変化が問題となる。
- ピボットに基づく切り捨てと選択により，効率的かつ決定的なTop-k/pアルゴリズムを実現する。
- Qritaは，Gaussianに基づくsigma-truncationと二分探索を用いて，検索空間を削減し，高速化を実現する。
- SGLangやFlashInfer等のLLM実行エンジンと比較し，スループットを最大1.4倍向上，メモリ使用量を半分に削減する。
- QritaはvLLMのGPU実行パスにおけるデフォルトのTop-k/pサンプラーとして採用されている。
Link: https://arxiv.org/abs/2602.01518
TABX：マルチエージェント強化学習のための高性能サンドボックスバトルシミュレーター [cs.MA, cs.AI, cs.LG]目的：マルチエージェント強化学習アルゴリズムの設計と評価のための環境
- 協調型マルチエージェント強化学習の発展には適切な環境が不可欠である。
- 既存のベンチマークは，カスタム評価シナリオの設計に必要な柔軟性に欠ける。
- 複雑なタスクにおけるエージェントの振る舞いとアルゴリズムのトレードオフを体系的に調査する。
- TABXは，JAXを用いた高性能なサンドボックスであり，環境パラメータを細かく制御可能である。
- GPUによるハードウェアアクセラレーションと大規模並列化により，計算コストを大幅に削減する。
- 複雑な構造化されたドメインにおけるMARLエージェントの研究を促進し，今後の研究の基盤となる。
Link: https://arxiv.org/abs/2602.01665
ECHO-2：費用対効果の高い強化学習のための大規模分散ロールアウトフレームワーク [cs.LG, cs.DC]目的：LLMのポストトレーニングにおける，費用対効果の高い強化学習の実現
- LLMの性能向上には強化学習が不可欠であり，その効率化が求められている。
- 分散環境でのロールアウト実行は，コスト効率が良いが，広範囲な調整とポリシー伝搬に課題がある。
- ECHO-2は，分散環境におけるポリシーの遅延を考慮し，効率的な学習とロールアウトの並行処理を目指す。
- ECHO-2は，中央集権的な学習と分散ロールアウトを組み合わせ，ポリシーの鮮度をユーザーが制御可能とした。
- オーバーラップに基づくキャパシティモデルを導入し，学習時間，伝搬遅延，ロールアウトスループットの関係を定量化した。
- ピアアシストパイプラインブロードキャストとコストを考慮した異種ワーカーの起動により，コスト効率を向上させた。
Link: https://arxiv.org/abs/2602.02192
GraphDancer：二段階カリキュラム事後学習によるグラフ探索・推論能力のLLMへの習得 [cs.LG, cs.AI, cs.CL]目的：グラフに対する探索と推論能力
- LLMの性能向上には外部知識が不可欠であり，その多くはグラフ構造で表現される。
- グラフ構造の知識源に対する推論は，正確な関数呼び出しと複数回の対話を通じた証拠集約が課題である。
- LLMにグラフ構造の知識を効果的に利用させ，汎化性能の高いグラフ探索・推論能力を獲得する。
- GraphDancerは，自然言語推論とグラフ関数実行を組み合わせた二段階の事後学習フレームワークである。
- 第一段階ではルールベースの報酬を用いてグラフとの対話方法を学習し，第二段階では根拠に基づいた効率的な対話経路を優先するように学習する。
- 3Bのバックボーンモデルでありながら，より大規模なモデルを凌駕し，未知のドメインや質問タイプへの高い汎化性能を示す。
Link: https://arxiv.org/abs/2602.02518
LLMベースのエージェント評価のための統一的フレームワークの必要性 [cs.AI]目的：LLMベースのエージェント評価における標準化
- LLMの進化により汎用エージェントが発展。その性能評価は，研究開発の進展に不可欠である。
- 既存の評価は，プロンプトやツールセットの影響を受けやすく，再現性や公平性に課題がある。
- 標準化された評価フレームワークを確立し，エージェント自体の性能向上に寄与することを目指す。
- 現在のエージェントベンチマークは，システムプロンプト，ツールセット，環境などの外的要因に左右されることが課題である。
- プロンプト設計のばらつきや標準化された環境データの欠如が，評価の不公平性と不透明性を招いている。
- 本研究は，エージェント評価の厳密な進歩のために，統一的な評価フレームワークの提案を行う。
Link: https://arxiv.org/abs/2602.03238
Rank-Learner：治療効果の直交順位付け [cs.LG]目的：治療効果の順位付け
- 予防医療や広告効果の最大化など，個人に最適な介入を決定する上で，治療効果の順位付けは重要である。
- 因果効果推定は盛んに行われているが，治療効果の順位付けを直接学習する研究は少ない。
- 観測データから，正確な因果効果推定に頼らずに，治療効果の真の順位を回復することを目指す。
- Rank-Learnerは，既存のCATE推定器や非直交順位付け手法を凌駕する性能を示すことが実験により確認された。
- 本手法は，Neyman-orthogonalであり，潜在的な誤差に対する頑健性を示す理論的保証を有する。
- Rank-Learnerはモデルに依存せず，様々な機械学習モデルを組み込むことが可能である。
Link: https://arxiv.org/abs/2602.03517
多様な文脈における合成ペルソナ生成器 [cs.AI]目的：任意の文脈に対応した多様な合成ペルソナの生成
- 人間とのインタラクションを持つAIの評価には，多様なユーザー層への対応が不可欠である。
- 代表的な人間データを収集するにはコストがかかる場合が多く，特に新規技術や将来のシナリオでは困難である。
- 多様な意見や嗜好を網羅した合成ペルソナを効率的に生成し，AI評価の幅を広げる。
- 本研究では，AlphaEvolveを用いた反復改善ループにより，多様な合成集団を生成する軽量なペルソナ生成器を開発した。
- 生成器は，少数記述から多様なペルソナを自動的に生成し，関連する多様性軸に沿った意見と嗜好の網羅性を最大化する。
- 実験の結果，進化した生成器は，既存のベースラインと比較して，6つの多様性指標において優れた性能を示し，標準的なLLM出力では達成困難な希少な特性の組み合わせを再現した。
Link: https://arxiv.org/abs/2602.03545
ゲームにおける実現可能なペイオフ集合推定の最適レート [cs.GT, cs.LG]目的：ゲームにおける実現可能なペイオフ集合の推定
- 多人数環境における意思決定の理解と予測に不可欠であるため。
- 観測データのみからプレイヤーのペイオフを推定することは困難である。
- ハウスドルフ距離に基づく推定精度と確率的保証を確立する。
- 厳密均衡と近似均衡の両方において，最小最大最適レートを初めて提示した。
- ゼロサムゲームおよび一般和ゲームの両方で結果が得られている。
- 多人数環境における集合値ペイオフ推論の学習理論的基盤を提供する。
Link: https://arxiv.org/abs/2602.04397
制約付き強化学習のための確率的決定地平線 [cs.LG]目的：制約付き強化学習問題における，各ステップでの制約充足
- 現実世界への応用において，制約を満たしながら最適な行動を決定する重要性が高まっている。
- 従来の強化学習では，制約違反を適切に扱うことが難しく，安全性や安定性が課題となる。
- 制約違反時に決定地平線を短縮する枠組みを提示し，より安全で効率的な強化学習を実現する。
- 確率的決定地平線(SDH)は，制約違反を考慮した新しい強化学習のフレームワークである。
- オフポリシーかつ正則化されたアルゴリズムを開発し，即時制約下での強化学習を可能にした。
- シミュレーション実験の結果，SDHは，既存手法と同等の性能をより少ないステップ数で達成し，学習の安定性を向上させた。
Link: https://arxiv.org/abs/2602.04599
LLM強化学習における信頼領域の再考 [cs.LG, cs.AI, cs.CL]目的：LLMの強化学習における，より効率的かつ安定的な方策更新手法の開発
- LLMの性能向上には，強化学習によるファインチューニングが不可欠であり，その効率性と安定性が重要である。
- 既存のPPOアルゴリズムは，LLMの大規模な語彙サイズに対して，方策更新の制約が不適切であるという課題がある。
- 方策のダイバージェンスを直接推定することで，より適切な制約を設けることで，学習の効率性と安定性を向上させる。
- 提案手法DPPOは，PPOのヒューリスティックなクリッピングを，Total VariationやKLダイバージェンスに基づく，より原理的な制約に置き換える。
- DPPOは，メモリ消費量を抑えるために，Binary近似とTop-K近似を導入し，ダイバージェンスを効率的に捉える。
- 実験結果から，DPPOは既存手法と比較して，訓練の安定性と効率性が向上することが示された。
Link: https://arxiv.org/abs/2602.04879
大規模言語モデルにおける深層ごとの創発的な因果幾何力学 [cs.LG, cs.AI]目的：大規模言語モデルにおける深層ごとの表現構造と予測生成の因果関係
- 言語モデルの性能向上は，その内部表現の理解に不可欠である。
- 既存研究では，表現構造と予測生成の因果関係が十分に解明されていない。
- 深層ごとの表現構造の変化が予測生成にどのように影響するかを明らかにする。
- 深層学習モデルにおいて，文脈処理から予測生成へと計算が変化する明確な転移点が確認された。
- 後続層における幾何学的コードは，次トークンの分布類似度をパラメータ化し，予測の選択的因果制御を可能にする。
- 表現のノルムは予測とは独立した情報をエンコードしており，層ごとの機能を独立して理解することは困難である。
Link: https://arxiv.org/abs/2602.04931
心臓移植割り当てポリシー最適化における機械学習はインセンティブを考慮すべき [cs.LG, cs.GT]目的：心臓移植割り当てにおけるインセンティブ構造の重要性
- 臓器移植は医療における重要な課題であり，限られた資源を効率的に配分する必要がある。
- 既存の割り当てシステムは，関係者のインセンティブを考慮せず，非効率や不公平を生じさせる可能性がある。
- 機械学習を活用し，関係者の戦略的な行動を考慮した，より公平で効率的な割り当てポリシーを設計すること。
- 現在の臓器割り当ては単なる最適化問題ではなく，関係者間の複雑な駆け引きを含むゲームである。
- 米国の心臓移植割り当てにおけるインセンティブの不整合が，現在のシステムに悪影響を与えている実証データを示した。
- 機械学習コミュニティに対し，メカニズムデザイン，戦略的分類，因果推論，社会選択論の統合を求める研究課題を提示した。
Link: https://arxiv.org/abs/2602.04990
DIANOIA：マルチエージェント推論のための診断的分解と同時最適化 [cs.CL, cs.AI]目的：マルチエージェント推論における性能向上要因の分解と診断
- 複雑な問題を解決するため，複数エージェントの協力が有効な手法として注目されている。
- どの設計が新しいタスクに適しているか，また既存設計の失敗原因が不明瞭である。
- マルチエージェントシステムのボトルネックを特定し，リソース配分を最適化すること。
- DIANOIAは，カバレッジ，忠実性，合成という3つのチャネルにマルチエージェント推論の性能向上を分解する。
- 提案手法は，GSM8K，AIME-2025，MBPP，BFCL-SPにおいて，既存のマルチエージェントベースラインを上回る性能を示した。
- 診断プロトコルは，どのチャネルがボトルネックになっているかを正確に特定し，モデル間での性能向上に貢献した。
Link: https://arxiv.org/abs/2602.08586
二重最適化された疎クエリによるGraphLLMのスケーリング [cs.DB, cs.AI]目的：テキスト属性グラフにおけるノードレベルタスクの性能向上
- グラフ構造とテキスト情報を組み合わせることで，より高度な分析が可能となるため重要。
- 大規模言語モデルの利用は計算コストが高く，実用性に課題がある。
- 不要なクエリを削減し，計算コストを抑えつつ性能を維持・向上させる。
- 提案手法BOSQは，既存のGraphLLM手法と比較して大幅に高速に処理を実行できる。
- 6つの実世界データセットで，ノードレベルタスクにおいて同等以上の性能を維持している。
- 適応的な疎クエリ戦略により，冗長または低効果なクエリを回避することで計算負荷を軽減している。
Link: https://arxiv.org/abs/2602.09038
Olaf-World：ビデオ世界モデルのための潜在的行動の方向付け [cs.CV, cs.AI, cs.LG]目的：ビデオ世界モデルにおける潜在的行動空間の構造化
- ビデオ理解と制御において，行動可能な世界モデルの重要性が増している。
- 行動ラベルの不足が，行動制御可能な世界モデルのスケール拡大を制限している。
- 文脈を跨いだ潜在的行動の転移性を高め，より効率的な適応を目指す。
- 提案手法Seq$\Delta$-REPAは，凍結されたビデオエンコーダからの特徴量差を利用し，潜在的行動を文脈間で整合させる。
- Olaf-Worldパイプラインは大規模なビデオから行動条件付きの世界モデルを事前学習する。
- 実験結果から，提案手法はゼロショット行動転移と新しい制御インターフェースへの適応において，最先端手法を上回る性能を示す。
Link: https://arxiv.org/abs/2602.10104
産業規模の最適化モデリングベンチマークの構築 [cs.LG, cs.AI, math.OC]目的：産業規模の最適化問題に対する自然言語仕様と最適化モデルの対応関係
- ロジスティクス，製造，エネルギー，金融など，意思決定の基盤技術であり，産業競争力に不可欠である。
- 自然言語による要求を最適化モデルに変換するには専門知識が必要であり，手間と時間がかかる。
- 大規模な実問題に対するLLMの性能評価が困難であり，その解決を目指す。
- MIPLIB-NLは，実際の混合整数線形計画問題を逆構築する手法を用いて構築されたベンチマークである。
- 既存のベンチマークで高い性能を発揮するシステムでも，MIPLIB-NLでは性能が大幅に低下することが示された。
- このベンチマークは，大規模な実問題におけるLLMの課題を明らかにし，改善の方向性を示す。
Link: https://arxiv.org/abs/2602.10450
Hi-SAM：大規模推薦のための階層構造を意識したマルチモーダルフレームワーク [cs.SI, cs.CY, cs.CL, cs.AI, cs.IR]目的：大規模推薦におけるマルチモーダル情報活用手法
- 物品はテキストや画像など多様な属性を持つため，マルチモーダル推薦が重要視されている。
- 既存手法では，クロスモーダルな意味情報とモダリティ固有の詳細の分離が不十分であるという課題がある。
- ユーザーインタラクションや物品の階層構造を考慮し，効率的なマルチモーダル推薦を実現することを目指す。
- 提案手法Hi-SAMは，ジオメトリに基づいたアライメントと粗い粒度から細かい粒度への量子化を行うDisentangled Semantic Tokenizer（DST）を備える。
- Hierarchical Memory-Anchor Transformer（HMAT）により，位置エンコーディングを分割し，階層構造を復元することで，アイテムの履歴を効率的に活用する。
- 実世界のデータセットを用いた実験により，特にコールドスタートシナリオにおいて，Hi-SAMが最先端のベースラインを上回る性能を示すことが確認された。大規模プラットフォームでの実運用で，主要なオンライン指標が6.55%向上した。
Link: https://arxiv.org/abs/2602.11799
重要な手がかり：患者の状態推論のためのプロトコル制約付き臨床経過モデリング [cs.LG, cs.AI, cs.MA]目的：長期にわたる臨床経過における患者の状態推論
- 電子カルテの活用は，医療の質向上や効率化に不可欠である。
- 既存のLLMは，長期的な文脈を維持することが難しく，推論の安定性やコストに課題がある。
- 時間経過に伴う一貫性のある推論を実現し，予測性能と解釈性を向上させる。
- Vital Traceは，患者の状態をコンパクトに記憶し，段階的な推論を行うことで，文脈のずれやコスト増加を抑制する。
- 生理学的状態遷移ルールを含むプロトコル制約により，時間的な一貫性，コミュニケーションの安定性，キャリブレーション，解釈性が向上する。
- MIMIC-IVおよびeICUデータを用いた評価で，様々な臨床予測タスクにおいて優れた予測性能と安定性を示した。
Link: https://arxiv.org/abs/2602.12833
ベンチマークデータのリーク：LLMベースの推薦システムは信頼できるか [cs.LG]目的：LLMベースの推薦システムにおけるベンチマークデータリークの検証
- 推薦システムは，情報過多な現代において，ユーザーに最適な情報を提供する上で不可欠である。
- LLMを推薦システムに導入する際，評価の信頼性が課題となっている。
- ベンチマークデータリークが評価結果に与える影響を明らかにすることで，LLMベースの推薦システムの信頼性を高める。
- LLMは，事前学習やファインチューニング中にベンチマークデータを記憶する可能性があり，その結果，性能指標が実際よりも高く評価されることが示された。
- ドメイン関連データのリークは，見かけ上の性能向上をもたらすが，これは誤解を招くものである。
- ドメイン无关性のリークは，推薦精度を低下させることから，リークの影響は状況によって異なる。
Link: https://arxiv.org/abs/2602.13626
GICDM：距離ベース生成モデル評価におけるハブネスの緩和 [cs.LG, cs.AI, stat.ML]目的：生成モデル評価の信頼性向上
- 生成モデルの性能評価は重要であり，その精度が改善によって発展する。
- 高次元埋め込み空間におけるハブネス現象が，距離ベースの評価を歪める。
- ハブネス現象を修正し，距離ベースの評価の信頼性を回復すること。
- 提案手法GICDMは，実データと生成データの近傍探索を修正し，ハブネスの影響を軽減する。
- 多スケール拡張により，GICDMの性能が向上し，実験結果は人間の評価との整合性を示す。
- GICDMは，ハブネスに起因する評価の誤りを解消し，信頼性の高い指標を提供しうる。
Link: https://arxiv.org/abs/2602.16449
Persona2Web：ユーザー履歴を用いた文脈的推論のためのパーソナライズドWebエージェントのベンチマーク [cs.CL, cs.AI]目的：パーソナライズドWebエージェントの評価
- Webエージェントは，ユーザーの意図を理解し，情報検索を効率化する上で不可欠である。
- 現在のWebエージェントは，ユーザーの嗜好や文脈を考慮したパーソナライズが不十分である。
- ユーザー履歴に基づいて曖昧なクエリを解決し，パーソナライズされたWebエージェントを実現すること。
- 本研究では，ユーザー履歴を用いたパーソナライズドWebエージェントの評価ベンチマーク「Persona2Web」を提案した。
- 実験により，エージェントのアーキテクチャ，基盤モデル，履歴アクセス方法などが，パーソナライズ性能に大きな影響を与えることが明らかになった。
- 曖昧なクエリ解決において，ユーザー履歴に基づく推論が重要であることを示した。
Link: https://arxiv.org/abs/2602.17003
状況適応型オンラインメタ学習：空間的概念を利用した地理空間探索 [cs.DB, cs.DC, cs.CL, cs.CV, cs.AI, cs.CY, cs.LG]目的：地理空間データにおける高リスク・未観測地域の効率的な特定
- 環境モニタリングにおいて，費用と労力がかかるデータ収集の効率化が重要である。
- 地理空間データのラベルは疎で偏りがあるため，既存の学習手法の適用が制限される。
- 限られたデータと変化する状況下で，標的を確実に発見できる地理空間探索手法の確立。
- 提案手法は，概念の関連度を考慮した不確実性サンプリングとメタバッチ形成戦略を導入する。
- PFAS汚染の発見を対象とした実験により，限られたデータ下でも堅牢な標的発見能力を示す。
- 動的な環境下における汎化性能の向上に貢献する。
Link: https://arxiv.org/abs/2602.17605
深層多岐にわたる興味関心の抽出：生成型推薦のためのマルチモーダルLLMの活用 [cs.LG, cs.CV, cs.CY]目的：深層多岐にわたる興味関心の抽出と，それを用いた生成型推薦
- 推薦システムは，ユーザーに最適なアイテムを提示する上で不可欠であり，その精度向上が常に求められている。
- 既存の生成型推薦手法は，表層的なテキスト特徴量に依存し，潜在的なユーザーの動機を捉えきれていない。
- 本研究は，深層的な意味的興味関心を組み込むことで，推薦システムの精度と解釈可能性を向上させることを目指す。
- DeepInterestGRは，既存の最良手法と比較して，HR@10で5.8%-8.3%，NDCG@10で7.7%-9.9%の相対的な改善を達成した。
- ドメイン間の一般化性能も向上し，+24.8%の改善が見られた。
- これらの結果は，深層的な意味的興味関心を組み込むことが，SIDベースの生成型推薦を効果的に改善することを示唆する。
Link: https://arxiv.org/abs/2602.18907
Trusted Execution Environments に対する Claude Opus および ChatGPT ベースのセキュリティアドバイザーのレッドチーム化 [cs.CR, cs.AI]目的：Trusted Execution Environments (TEE) のセキュリティアドバイザーとしての Large Language Model (LLM) の脆弱性評価
- TEEはOSの侵害から機密コンピューティングを保護するが，マイクロアーキテクチャからの漏洩やサイドチャネル攻撃に弱点がある。
- セキュリティチームがLLMを信頼して利用する一方で，LLMは誤った情報を生成したり，安全でない挙動を示したりする可能性がある。
- LLMセキュリティアドバイザーの脆弱性を評価し，より安全な利用方法を模索すること。
- ChatGPT-5.2 と Claude Opus-4.6 に対するレッドチーム化の結果，LLM間での脆弱性の転移が確認された。
- TEE-RedBench という評価手法を導入し，技術的な正確性，根拠，不確実性の校正などを評価した。
- ポリシーゲート，検索による根拠付け，構造化されたテンプレートなどを組み合わせることで，脆弱性を80.62%削減できることが示された。
Link: https://arxiv.org/abs/2602.19450
GUI-Libra：行動を意識した教師あり学習と部分検証付き強化学習によるGUIエージェントの学習 [cs.LG, cs.AI, cs.CL]目的：GUIエージェントの学習レシピ
- GUI自動化は，様々なタスクを効率化する上で重要であり，その需要は高まっている。
- オープンソースのGUIエージェントは，クローズドソースシステムと比較して，長期的ナビゲーションタスクで性能が劣る。
- 質の高い学習データの不足と，GUIエージェント特有の課題への対応が課題であり，本研究ではそれらを解決する。
- GUI-Libraは，行動に合致した教師あり学習，KL正則化，成功適応型スケーリングを組み合わせることで，段階的精度とタスク完了率を向上させた。
- 新たに構築した81KのGUI推論データセットを活用し，推論と実行の連携を強化する教師あり学習手法を提案した。
- 部分検証下での強化学習の安定化のため，KL信頼領域の重要性を明らかにし，オフラインからオンラインへの予測精度を高めた。
Link: https://arxiv.org/abs/2602.22190
MedCollab：IBIS誘導による階層的疾患関係チェーンを用いた臨床診断のためのマルチエージェント連携 [cs.MA, cs.AI]目的：臨床診断と診断レポートの生成のためのマルチエージェントフレームワーク
- 臨床診断支援は，医療の質向上と効率化に不可欠であり，その重要性は高い。
- 大規模言語モデルは，根拠の薄弱さや透明性の欠如といった課題を抱えている。
- 構造化された議論と疾患関係のモデリングにより，LLMベースの診断の信頼性と臨床的整合性を向上させる。
- MedCollabは，ClinicalBenchおよびMIMIC-IVにおける診断精度，部門ルーティング，証拠の一貫性，レポート品質において，強力なLLMおよび医療マルチエージェントのベースラインを上回る性能を示した。
- IBISを用いて診断仮説を構造化することで，追跡可能性と監査可能性が向上する。
- 階層的疾患関係チェーンを構築することにより，受け入れられた仮説を臨床的に意味のある病理学的および併存疾患関係に整理することが可能となる。
Link: https://arxiv.org/abs/2603.01131
SWE-Adept：大規模コードベース分析と構造化された問題解決のためのLLMベースのエージェントフレームワーク [cs.SE, cs.CL, cs.LG]目的：大規模コードベースにおける問題の特定と解決
- ソフトウェアの規模拡大に伴い，コード理解と修正の自動化が重要になっている。
- 既存LLMは，リポジトリ全体を考慮したソフトウェアエンジニアリングタスクに課題がある。
- LLMを用いたエージェントフレームワークにより，コードベース分析と問題解決の精度向上を目指す。
- SWE-Adeptは，問題箇所特定エージェントと修正エージェントの二重エージェントフレームワークである。
- 問題箇所特定では，エージェント誘導深さ優先探索により，関連性の低いコードを削減し，精度を向上させている。
- SWE-Bench LiteおよびSWE-Bench Proにおける実験で，既存手法を上回り，問題解決率を最大4.3%改善した。
Link: https://arxiv.org/abs/2603.01327
重い裾を持つデータに対する位相型変分オートエンコーダ [cs.LG, cs.AI, stat.ML, stat.OT]目的：重い裾を持つデータのモデリング
- 現実世界のデータには重い裾を持つ分布が広く存在し，リスクや変動の要因となる。
- 既存の変分オートエンコーダはガウス分布などの単純な分布を使用し，重い裾を捉えられない。
- 位相型分布を用いた変分オートエンコーダを提案し，データから裾の形状を学習する。
- 位相型変分オートエンコーダは，様々な重い裾を持つ分布を高精度に近似できる。
- ガウス分布，t分布，極値理論に基づく変分オートエンコーダと比較して，裾のモデリング性能と極値量の推定において大幅に優れている。
- 多変量データにおいて，潜在表現を通じて現実的な多次元裾依存性を捉えることができる。
Link: https://arxiv.org/abs/2603.01800
BeliefSim：人口統計学的誤情報感受性の信念駆動シミュレーションに向けて [cs.CL, cs.AI]目的：人口統計学的誤情報感受性のシミュレーション
- 誤情報は社会的な脅威であり，その感受性は集団によって異なる。
- 大規模言語モデルの活用が進む中で，人間の行動を正確にシミュレートする課題がある。
- 信念を主要因として，誤情報感受性のシミュレーションを実現すること。
- BeliefSimは，心理学に基づいた誤情報分類と調査データを用いて，人口統計学的信念プロファイルを構築する。
- プロンプトベースの条件付けと後学習適応により，誤情報感受性のシミュレーションにおいて信念が強い事前知識となることを示した。
- データセットとモデル戦略において，最大92%の感受性の一致率を確認した。
Link: https://arxiv.org/abs/2603.03585
ロボMME：汎用ロボットポリシーのためのメモリのベンチマークと理解 [cs.RO, cs.AI]目的：ロボットの汎用ポリシーにおけるメモリの評価と理解
- 長期的なタスク遂行や履歴依存型ロボット操作において，メモリは不可欠である。
- 既存の評価設定が狭く標準化されていないため，体系的な理解や進捗測定が困難である。
- 長期的な履歴依存シナリオにおけるVLAモデルの評価基準と改善を目指す。
- ロボMMEは，時間的，空間的，物体，手続き的メモリを評価する16の操作タスクから構成される大規模な標準化ベンチマークである。
- 14種類のメモリ拡張VLAモデルを用いて，様々なメモリ表現とその統合戦略を体系的に探求した。
- メモリ表現の有効性はタスクに依存し，各設計は異なるタスクにおいて独自の利点と限界を示すことが示された。
Link: https://arxiv.org/abs/2603.04639
CompassDPO：堅牢な安全性調整のためのダイナミクス制御直接選好最適化 [cs.LG]目的：安全性調整のためのダイナミクス制御による直接選好最適化
- 言語モデルの安全性は，実用化における重要な課題であり，社会への影響を考慮した開発が求められる。
- 従来のDPOは，ペアワイズな選好更新に依存するため，不完全な教師データに弱く，頑健性に課題がある。
- CompassDPOは，ダイナミクス制御によって選好最適化を安定化させ，ラベルノイズに対する頑健性を向上させる。
- CompassDPOは，従来のDPOや他のDPO系ベースラインと比較して，PKU-SafeRLHFベンチマークで一貫して頑健性が向上した。
- 報酬モデルや追加の教師データを使用せず，DPOの標準的な学習中に利用可能な信号のみを用いて実装されている。
- 方向制御とMagnitude制御の二軸によるダイナミクス制御が，選好最適化の安定化に貢献している。
Link: https://arxiv.org/abs/2603.07211
幾何学的制約を用いた外れ値合成 [cs.LG, cs.AI]目的：画像分類における分布外データに対するロバスト性の向上
- 深層学習は画像認識で高い性能を示す一方，分布外データへの対応が課題となっている。
- 既存手法では，分布外データに対して過信傾向が残り，誤った判断を生じやすい。
- 学習時に外れ値を合成し，ロバストな特徴量学習を促すことで，この課題を解決する。
- GCOSは，学習済みデータの多様体構造を尊重する幾何学的に制約された外れ値を生成する。
- 実験により，GCOSが既存手法と比較して，近分布外ベンチマークにおいて優れた性能を示すことが確認された。
- 本手法は，不確実性スコアを統計的に妥当なp値に変換し，信頼性の高い分布外検出を可能にする。
Link: https://arxiv.org/abs/2603.08413
やめろ，私の言うことを聞くな！複数ターンの会話がLLMの信頼性を低下させる仕組み [cs.DC, cs.CL, cs.AI, cs.LG]目的：LLMにおける複数ターンの会話の影響評価
- LLMは現実世界での利用拡大に伴い，その性能評価が重要となっている。
- 静的なベンチマークでは評価しきれない，会話を通じた性能劣化が課題である。
- 会話におけるLLMの安全性と柔軟性を評価し，性能低下の原因を特定する。
- 17種類のLLMと3つの臨床ベンチマークを用いて評価した結果，複数ターンの会話によって精度が平均30%低下することが確認された。
- モデルが最初の回答を保留した後に，誤った提案を受け入れる確率が，正しい提案を受け入れる確率とほぼ同程度になる「盲目的な切り替え」が観測された。
- モデル規模を拡大すると，一部の会話における非効率性は軽減されるが，誤った提案を受け入れる傾向は悪化することが示された。
Link: https://arxiv.org/abs/2603.11394
波の文法：ニューロシンボリックVLMエージェントによる説明可能な多変量時系列イベント検出へ [cs.LG, cs.AI, cs.MA]目的：多変量時系列データにおける意味のあるイベントの局所化
- 時系列データは，エネルギーや気候など，重要な分野で広く利用されており，その解析は不可欠である。
- イベント検出において，詳細なアノテーションの取得コストが高く，教師あり学習が困難であるという課題がある。
- 自然言語によるイベント記述に基づき，少ないラベルデータでイベントを検出・説明することを目指す。
- 本研究では，言語記述を構造化された時間論理に変換するEvent Logic Tree (ELT)フレームワークを提案した。
- ELTに基づき，信号の視覚化から素因をグラウンディングし，制約の下で合成するニューロシンボリックVLMエージェントSELAを開発した。
- エネルギー・気候分野のデータセットを用いた実験で，SELAは既存手法を上回る性能を示し，イベント検出と説明可能性の両方を実現した。
Link: https://arxiv.org/abs/2603.11479
バッファと無制限乗り換えに対応するためのダイクストラ法の適応 [cs.DS, cs.AI, cs.RO]目的：公共交通機関における無制限乗り換え経路探索
- 効率的な経路探索は，都市交通システムの最適化や利便性向上に不可欠である。
- 従来のダイクストラ法は，時刻表ベースの手法に取って代わられ，公平な比較が不足していた。
- バッファ時間の影響を考慮した，より正確かつ高速な経路探索アルゴリズムを開発すること。
- 時間依存ダイクストラ法（TD-Dijkstra）が，既存のMR法よりも優れた性能を示すことが示された。
- バッファ時間を持つ停留所において，既存の接続フィルタリングが誤っていることが明らかになった。
- Transfer Aware Dijkstra (TAD)により，バッファ時間を考慮しつつ，MR法に対して2倍以上の高速化を実現した。
Link: https://arxiv.org/abs/2603.11729
教師なし対称群発見による潜在表現の分離学習 [cs.LG]目的：環境変換の群構造を利用した潜在的変動因子の発見
- 環境における対称性の理解は，効率的な学習や汎化能力向上に不可欠である。
- 既存手法は，対称群構造の事前知識や，部分群に関する制約を必要とする点が課題である。
- 環境との相互作用を通して，エージェントが自律的に対称群構造を発見し，表現を分離することを目指す。
- 本研究では，最小限の仮定下で真の対称群分解の識別可能性を証明した。
- 相互作用データから群分解を発見するアルゴリズムと，特定の部分群特性を仮定しないLSBD表現学習アルゴリズムを提案した。
- 提案手法は，異なる群分解を持つ3つの環境で既存のLSBD手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.11790
公共交通経路探索における早期枝刈り [cs.DS, cs.AI, cs.RO]目的：公共交通経路探索の効率化
- 都市交通の円滑化に不可欠であり，利用者の利便性向上に貢献する。
- 大規模ネットワークでは，乗り換え時の計算コストが課題となる。
- 乗り換え時の不要な探索を削減し，経路探索の高速化を図る。
- 提案手法「Early Pruning」は，既存の経路探索アルゴリズムに容易に組み込める。
- 乗り換え接続を時間順にソートし，最適な解が得られない場合は早期に枝刈りを行う。
- スイスとロンドンの交通ネットワークにおいて，最大57%のクエリ時間短縮を達成した。
Link: https://arxiv.org/abs/2603.12592
LR-SGS：LiDARと反射率をガイドとする頑健な3次元ガウススプラッティングによる自動運転シーン再構成 [cs.CV, cs.AI]目的：自動運転シーンの再構成と新規視点合成の性能向上
- 自動運転には，周囲環境の正確な3次元理解が不可欠であり，その再構成技術は重要である。
- 既存手法は，カメラまたはLiDARのみに依存し，LiDAR点群の反射率情報やLiDARとRGBの相補性を十分に活用できていない。
- 複雑な環境下や高速移動時にもロバストな再構成を可能にする新たな手法を開発すること。
- 提案手法LR-SGSは，LiDARと反射率をガイドとして利用し，より少ないガウス数と短い学習時間で優れた再構成性能を達成した。
- 特に，複雑な照明条件下のシーンにおいては，既存手法OmniReを上回るPSNRを記録した。
- 構造を意識したSalient Gaussian表現を用いることで，エッジや平面構造の正確な捕捉を実現している。
Link: https://arxiv.org/abs/2603.12647
FedTreeLoRA：連合学習LoRAファインチューニングにおける統計的・機能的不均一性の調和 [cs.CL, cs.LG, cs.AI]目的：連合学習LoRAファインチューニングにおける統計的・機能的不均一性の解消
- LLMのプライバシー保護付きファインチューニングは重要であり，連合学習がその有力な手法である。
- 既存手法は統計的不均一性には対応するが，LLMの層間の機能的不均一性を無視している。
- 統計的・機能的不均一性を同時に解決し，最適なパラメータ共有の深さを実現することを目指す。
- FedTreeLoRAは，層ごとのきめ細かいアラインメントのために，木構造化集約を採用する。
- 浅い「幹」で広範な合意を共有し，深い「枝」で徐々に専門化することで汎化性能と個別化性能を両立する。
- NLUおよびNLGベンチマークにおいて，FedTreeLoRAは最先端手法を大きく上回る性能を示す。
Link: https://arxiv.org/abs/2603.13282