arXiv雑要約

AI - 2026/05/12 公開

視覚的継続学習における強化学習による微調整を用いた破滅的忘却の克服 [cs.CV, cs.LG]目的：視覚的継続学習における破滅的忘却の軽減
- 継続学習は，モデルが新しいタスクを学習する際に過去の知識を保持する必要があるため重要である。
- 従来の継続学習手法は，新しいタスクの学習時に過去の知識を忘却しやすいという課題がある。
- 本研究では，強化学習による微調整を改善し，破滅的忘却を効果的に抑制することを目指す。
- 強化学習による微調整（RFT）は，教師あり微調整（SFT）よりも破滅的忘却に強いことが確認された。
- 提案手法RaPOは，軌道レベルの報酬形成によって知識保持を促進し，継続学習時の最適化を安定化させる。
- RaPOは，5つの視覚的継続学習設定において最先端の性能を達成し，破滅的忘却を大幅に軽減した。
Link: https://arxiv.org/abs/2605.09640
各トークンを最大限に活用：KVキャッシュ退去による長文脈性能の向上 [cs.SI, cs.CC, cs.LG]目的：長文脈推論におけるKVキャッシュの効率的な活用
- 大規模言語モデルの性能向上には，長文脈の処理能力が不可欠である。
- 長文脈処理では，KVキャッシュのメモリ消費量がボトルネックとなる。
- 学習可能なキャッシュ退去戦略により，メモリ効率と性能の両立を目指す。
- 提案手法は，KVキャッシュのメモリ使用量を大幅に削減しつつ，既存手法と同等またはそれ以上の性能を達成した。
- 本研究は，KVキャッシュの退去が単なる圧縮技術ではなく，長文脈推論の性能向上に繋がるメカニズムであることを示唆する。
- 有用なトークンを優先的に保持することで，注意機構における注意の希釈を軽減できることが理論的に示された。
Link: https://arxiv.org/abs/2605.09649
ワークスペース最適化：エージェントの訓練方法 [cs.AI, cs.LG]目的：エージェントのワークスペースの進化
- 大規模言語モデルに基づくエージェントの性能向上は，AI研究の重要な課題である。
- 最先端モデルは重みの調整が難しく，単発での問題解決能力に限界がある。
- ワークスペースを最適化することで，複雑な環境下でのエージェントの学習能力を高める。
- ワークスペースをパラメータ，証拠をデータ，反例を損失，テキストフィードバックを勾配に対応させることで，ワークスペースの進化を実現した。
- ARC-AGI-3の25ゲームでDreamTeamを実装し，既存の最先端エージェントのスコアを36%から38.4%に向上させた。
- DreamTeamは，ゲームごとの環境アクション数を31%削減することにも成功した。
Link: https://arxiv.org/abs/2605.09650
RDEx-CASK：コーシー変異，アーカイブ，および停滞解消法によるRDEx-CSOPの拡張 [cs.NE, cs.AI]目的：RDEx-CSOPの性能改善
- 最適化問題解決において，探索効率と解の質が重要である。
- RDEx-CSOPでは，停滞や終盤の分散が課題となることがある。
- 停滞を解消し，探索の多様性を維持することで，性能向上を目指す。
- RDEx-CASKは，既存のRDEx，UDE-III，CL-SRDEと遜色ない実現可能性と解質を示す。
- 多くの問題において，目標達成までの時間が短縮された。
- コーシー変異，アーカイブ，停滞解消法が，効果的に機能していると考えられる。
Link: https://arxiv.org/abs/2605.09652
MedMeta：医学研究からメタ分析の結論を合成する際のLLMのベンチマーク [cs.RO, cs.CL, cs.AI]目的：医学研究の抄録のみを用いて，メタ分析の結論を生成するLLMの能力の評価
- 医学分野における知識の進歩は速く，最新の情報を効率的に整理・分析する必要性が高まっている。
- LLMは医学知識の想起テストでは優れているが，複数の情報源からの証拠を統合する高度な推論能力は未評価である。
- LLMが医学的なメタ分析の結論を正確に合成できるかを評価し，その限界を明らかにすること。
- MedMetaは，PubMedから収集した81件のメタ分析を用いて，LLMの性能を評価するための新しいベンチマークである。
- 外部知識（抄録）を利用したRAG（Retrieval-Augmented Generation）が，LLM内部知識のみに依存するアプローチよりも一貫して高い性能を示すことが明らかになった。
- 現在のLLMは，否定的な証拠を特定・排除することが苦手であり，RAGシステムの脆弱性を示すとともに，性能は平均的な水準にとどまっている。
Link: https://arxiv.org/abs/2605.09661
因果パラメータドリフトシミュレーション：分類器のロバスト性評価のためのデジタルツインフレームワーク [cs.LG, cs.AI]目的：分類器のロバスト性評価のためのフレームワーク
- 動的な環境下での機械学習の信頼性確保は重要である。データ生成過程の変化に対応する必要がある。
- 従来の評価方法では，因果関係が無視され，現実的な性能評価が困難である。
- 因果関係を考慮したシミュレーションにより，潜在的な脆弱性を事前に発見し，対策を講じる。
- 提案手法は，構造因果モデルをデジタルツインとして活用し，因果関係を保ちつつ，変化をシミュレートする。
- OSMHデータセットを用いた実験により，標準的な統計的モニタでは検出できない脆弱性が明らかになった。
- このフレームワークは，既存のドリフト検出手法を補完し，分類器のデプロイ前のストレステストを可能にする。
Link: https://arxiv.org/abs/2605.09663
FreeMOCA：悪意のあるコード解析のためのメモリフリー継続学習 [cs.CR, cs.LG]目的：悪意のあるコード解析における継続学習のためのメモリおよび計算効率の高いフレームワーク
- 年々増加するマルウェアに対抗するため，アンチウイルスシステムは継続的な適応が不可欠である。
- 新たなサンプルのみで再学習すると知識の忘却が起こり，全データでの再学習は計算コストが高い。
- 逐次的なタスク更新間の適応層間補間により，既存知識を維持し，効率的な継続学習を実現する。
- FreeMOCAは，WindowsおよびAndroidのマルウェアベンチマークにおいて，既存の11個のベースラインを大幅に上回る性能を示した。
- 特にClass-ILにおいて顕著な改善が見られ，EMBERとAZベンチマークでそれぞれ最大42%と37%の精度向上を達成した。
- パラメータ空間におけるウォームスタート補間が，継続的なマルウェア検出のためのスケーラブルで効果的な代替手段となることを実証した。
Link: https://arxiv.org/abs/2605.09664
データ選択のための多指標重みの学習：効率的なプロキシを用いた共同タスク・モデル適応フレームワーク [cs.LG, cs.AI, cs.CL]目的：データ選択における多指標重みの学習
- 大規模言語モデルの効率的な命令チューニングにおいて，データ選択は重要な要素である。
- 既存手法は静的な重み付けスキームに依存しており，タスクやモデル固有の要件に対応できていない。
- タスクとモデルの両方に適応するデータ選択を可能にし，計算コストを最小限に抑える。
- 本手法は，コンパクトな検証セット上の文脈学習(ICL)シグナルを用いて最適な重み設定を特定することで，フルスケールなファインチューニングと同等以上の性能を達成する。
- GSM8Kベンチマークにおいて，訓練サンプルを30%削減しながら，フルデータセットチューニングに匹敵する性能を示す。
- 推論タスクにおいて，意味的多様性と論理的複雑さの間のトレードオフが明らかになり，共同タスク・モデル適応の必要性を示唆する。
Link: https://arxiv.org/abs/2605.09665
多発性硬化症病変セグメンテーションモデルの評価再考 [cs.CV, cs.AI]目的：多発性硬化症病変セグメンテーションモデルの評価方法
- 多発性硬化症は患者の生活の質を低下させる慢性疾患であり，早期発見と精密な経過モニタリングが重要である。
- 既存の評価指標は病変ごとの検出性能や，臨床的に重要なケースにおけるモデルの性能を十分に捉えられていない。
- 神経科医がMRIスキャンで確認するポイントを特定し，それらを定量化する適切な指標を提示することを目指す。
- 病変の検出と経過モニタリングにおいて，神経科医が重視する点と必要な指標を詳細に示した。
- 最新のモデルをオープンソースデータセットで評価した結果，臨床現場での利用可能性に課題があることが示された。
- 従来のDiceスコアだけでは，モデルの性能を正確に評価できず，より包括的な評価方法が求められることが明らかになった。
Link: https://arxiv.org/abs/2605.09666
S2P-Net：少量データ下における回転不変物体認識のためのスペクトル・空間極性ネットワーク [cs.CV, cs.AI]目的：少量データ下における回転不変物体認識のための深層学習アーキテクチャ
- 画像認識は，コンピュータビジョンの基礎であり，多様な応用分野で重要である。
- 既存の深層学習モデルは，データ量に依存し，回転に対して脆弱である場合が多い。
- データ拡張に頼らず，数学的に回転不変性を保証するモデルの構築。
- S2P-Netは，数学的に保証された回転不変性を実現するコンパクトな深層学習アーキテクチャである。
- 他のニューラルネットワークアーキテクチャ（CNN）と比較して，良好な結果が得られた。
Link: https://arxiv.org/abs/2605.09667
CodeClinic：臨床推論エージェントのためのコーディング能力の自動化の評価 [cs.RO, cs.AI, cs.MA]目的：臨床推論エージェントにおけるコーディング能力自動化の評価
- 医療現場におけるデータ量の増大と，迅速な意思決定の必要性が高まっている。
- 既存システムは専門家の手作業によるツール維持に負担が大きく，汎用性に課題がある。
- LLMエージェントが再利用可能な臨床スキルを自律的に合成・構築できるか評価する。
- CodeClinicベンチマークは，LLMエージェントが固定されたツールボックスに頼らずに臨床スキルを合成できるかを評価する。
- 自然言語の臨床ガイドラインを反復的なLLMによる改良を通して，再利用可能なPythonスキルライブラリへと変換するオフライン自動フォーマル化パイプラインを提案。
- 提案手法は，ゼロショットのコード生成と比較して一貫性を向上させ，クエリごとのトークン使用量を最大40％削減する。
Link: https://arxiv.org/abs/2605.09675
カオスネットベンチ：カオス性格子ダイナミクスにおける時空間グラフニューラルネットワークのベンチマーク [cs.LG, cs.AI, nlin.CD]目的：時空間グラフニューラルネットワークの性能評価
- 交通や気象等の動的システム予測において，時空間グラフニューラルネットワークの重要性が高まっている。
- 既存の評価手法では，特定のドメインと固定された分割データに依存し，異なるダイナミクス環境下での比較が困難である。
- 制御されたカオス性を持つデータセットを用いて，時空間グラフニューラルネットワークの性能を体系的に評価・比較することを目的とする。
- カオスネットベンチ（CNB）は，カオス性の強度，結合強度，システムサイズを調整可能な格子状のcoupled standard mapsを基盤とする合成データセットである。
- 実験の結果，局所的なカオスが低い場合，TCN等の非グラフベースラインが競争力を持つ一方，カオス性が高い場合は，Graph WaveNet等のSTGNNの方がよりロバストであることが示された。
- CNBは，STGNNアーキテクチャが様々なレベルのカオスに対処できる能力を系統的に比較・分析するための実用的なテストベッドを提供する。
Link: https://arxiv.org/abs/2605.09676
不条理な世界：LLMの推論能力を検証するための単純かつ強力な方法 [cs.AI]目的：LLMの推論能力を評価するためのベンチマークフレームワーク
- LLMは強力だが，人間が容易に解決できる問題を解決できない場合がある。
- 複雑な問題でLLMの推論を壊す研究が多いが，単純な論理的推論の堅牢性は未解明。
- 現実改変による評価で，LLMの論理的思考能力の検証を目指す。
- Absurd Worldは，現実を改変した世界でLLMの推論能力をテストするフレームワークである。
- このフレームワークは，現実世界のモデルを記号，行動，シーケンス，イベントに分解し，それらを変更することで不条理な世界を生成する。
- 多様なモデルとプロンプト手法で評価した結果，LLMの論理的思考能力を効果的に判断できることが示された。
Link: https://arxiv.org/abs/2605.09678
DeepTumorVQA：医療VLMsとツール拡張エージェントの段階的評価のための階層的3D CTベンチマーク [cs.CV, cs.AI]目的：腫瘍診断における多段階のエビデンスチェーンを追跡し，3D CTの推論を認識，測定，視覚的推論，医療的推論の4段階に分解した階層的ベンチマーク
- 医療画像診断の精度向上は，医療の質を高め，患者の予後改善に不可欠である。
- 既存の医療VQAベンチマークは，モデルの能力を単一の精度で評価するため，失敗箇所が不明確である。
- 本研究は，モデルの失敗箇所を特定し，段階的な評価を通じて医療VLMとAIエージェントの開発を促進する。
- DeepTumorVQAは，9,262の3D CTボリュームにわたる476Kの質問を含む大規模なベンチマークである。
- 定量的な測定が信頼性の低いボトルネックであり，後続の視覚的および医療的推論を困難にしていることが示された。
- ツール拡張により，この問題が大幅に緩和され，医療知識とツールを活用した推論が新たな課題となることが明らかになった。
Link: https://arxiv.org/abs/2605.09679
MonitoringBench：エージェント監視のための半自動レッドチーム [cs.CR, cs.AI]目的：コーディングエージェント監視システムの攻撃検出能力評価
- AIエージェントの利用拡大に伴い，その安全性確保が重要課題となっている。
- 既存のレッドチーム手法では，多様な攻撃を網羅的に洗い出すことが困難である。
- 半自動レッドチーム手法を開発し，監視システムの脆弱性をより深く評価すること。
- 提案手法により生成された攻撃は，既存の手法で生成された攻撃よりも多様かつ強力であった。
- 最先端の監視システムですら，欺瞞やスコアの較正に失敗することが明らかになった。
- MonitoringBenchは，ツール利用型エージェント監視システムの評価に役立つ静的なベンチマークおよび手法を提供する。
Link: https://arxiv.org/abs/2605.09684
時系列異常検知のための正常性の統一的表現学習 [cs.LG, cs.AI]目的：時系列異常検知における正常性の統一的な表現
- 時系列データは様々な分野で利用され，異常検知は重要な課題である。
- 既存手法では，正常データの分布を頑健に学習することが困難である。
- 正常データの多様性を捉え，異常を早期に検知することを目的とする。
- 提案手法$\text{U}^2\text{AD}$は，スコアベース生成モデリングを用いて正常データの分布を学習する。
- 時間依存スコアネットワークと統一的な学習目的により，正常データの多様な文脈を考慮する。
- 実験結果から，$\text{U}^2\text{AD}$は既存手法を凌駕し，異常発生の早期検知が可能であることが示された。
Link: https://arxiv.org/abs/2605.09685
コンパートメント薬物動態の量子回路シミュレーション：非線形混合効果集団薬物動態解析のための変分アルゴリズムの活用 [eess.SY, cs.SY, cs.LG]目的：コンパートメント薬物動態モデルの量子回路によるシミュレーション
- 薬物動態解析は，新薬開発や個別化医療において，薬物の体内動態を理解する上で不可欠である。
- 従来のシミュレーション手法では，複雑な非線形モデルの計算に時間がかかり，精度が十分でない場合がある。
- 量子計算を活用することで，複雑な薬物動態モデルの高速かつ高精度なシミュレーションを実現することを目指す。
- 量子モデルは古典モデルと比較して，統計的適合度を示す対数尤度値が大幅に向上した。
- パラメータ推定値は一致しており，数値的な整合性とモデル解釈可能性が検証された。
- 量子に基づく最適化は反復回数において収束が速いが，現在のシミュレーションオーバーヘッドにより，総実行時間は増加した。
Link: https://arxiv.org/abs/2605.09691
言語エージェントにおける予測不能性と構造化された制御の乖離 [cs.AI]目的：言語エージェント実装における，理由，記憶，自己状態，抑制と行動選択を結合する構造化メカニズムを確率的サンプリングで代替できるかどうかの検証
- 言語エージェントの研究は，人間らしいコミュニケーション能力を持つAIの開発に不可欠である。
- 従来の言語エージェントは，行動の予測可能性と制御の構造化に課題を抱えている。
- 本研究は，構造化された制御メカニズムなしに，確率的なサンプリングが行動制御を再現できないことを示す。
- 確率的サンプリングを用いたエージェントは，構造化された制御エージェントと比較して，7つのデータセットすべてにおいて予測不能性が高かった。
- 理由や拒否の機能を欠損させたエージェントは，構造化された制御エージェントの行動特性を低下させ，7つのデータセットすべてにおいて同様の結果を示した。
- 構造化された制御エージェントは，多様な制御条件下で一貫して高い行動フィールド結合を維持し，確率的制御群を上回る性能を示した。
Link: https://arxiv.org/abs/2605.09692
マルチモーダルモデルは電気羊を夢見るか？ [cs.CV, cs.AI, cs.LG]目的：空間パズルの解決におけるマルチモーダルモデルのメンタルイメージ形成
- 近年，視覚と言語を統合するマルチモーダルモデルの研究が盛んであり，その能力向上に期待が集まっている。
- モデルが推論過程でどのような情報を内部的に保持しているかは未だ解明されていない部分が多い。
- モデルが推論時に形成するメンタルイメージの存在とその活用方法を明らかにすること。
- マルチモーダルモデルは空間パズルを解く際にメンタルイメージを形成することが確認された。
- 特に，羊に関するパズルを解く際には，羊のイメージを想起していることが示唆された。
- 思考連鎖に16個の視覚トークンを統合することで，解決率が向上し，特に推論負荷の高いタスクでの改善が顕著であった。
Link: https://arxiv.org/abs/2605.09693
自動基底関数生成による非線形動力の発見 [cs.AR, cond-mat.mtrl-sci, cs.LG, cs.NE, cs.SC]目的：観測データからの支配方程式の発見
- 科学モデル構築において，支配方程式の特定は不可欠であり，未知の数理構造を持つ場合に特に重要である。
- 従来のSINDy法は基底関数を事前に指定する必要があり，重要な項の欠落や特殊な動力学を持つ系への適用が困難である。
- AutoSINDyは，ノイズ下でも支配方程式を高精度に発見し，モデルの複雑さを軽減することを目的とする。
- AutoSINDyは，記号回帰とSINDyの長所を組み合わせたハイブリッド手法である。
- 実験の結果，AutoSINDyは高いノイズ環境下でも真の支配方程式を92.8%の確率で復元することに成功した。
- 標準的なSINDyや単独の記号回帰と比較して，予測精度，汎化性能，記号的複雑さにおいて優れていることが示された。
Link: https://arxiv.org/abs/2605.09696
識別的なスパンを介した合成データ有用性の予測：分類器再構成によるアプローチ [cs.CV, cs.LG]目的：合成データの有用性の予測
- コンピュータビジョン分野では，特に医療画像や産業検査において，陽性サンプルが不足する課題が存在する。
- 合成データ生成は有効だが，その品質が下流モデルの性能に与える影響の評価が困難である。
- 下流モデルの訓練を伴わずに，合成データの有用性を事前に予測する指標を提案する。
- 提案手法は，事前学習済みモデルの埋め込み空間でデータセットを表現し，差ベクトルを用いて合成データの品質を評価する。
- 線形分類器の重みベクトルが，合成データによる変動が張る部分空間内に近似できるかを，投影誤差を測定することで判断する。
- 複数のデータセットで，提案指標と下流モデルの分類性能との間に強い相関関係が確認された。
Link: https://arxiv.org/abs/2605.09697
Ambig-DS：データサイエンスエージェントにおけるタスクの曖昧性に関するベンチマーク [cs.AI]目的：データサイエンスエージェントにおけるタスクの曖昧性評価
- データサイエンスエージェントの自動化が進むにつれ，タスクの誤解が重大な問題となる。
- 既存のベンチマークはパイプラインの実行可能性のみを評価しており，タスクの曖昧性を考慮していない。
- タスクの曖昧性がエージェントの性能に与える影響を定量的に評価し，改善策を検討する。
- Ambig-DSは，予測ターゲットの曖昧性（Ambig-DS-Target）と評価目的の曖昧性（Ambig-DS-Objective）の2つの診断スイートで構成される。
- 実験の結果，曖昧なタスクは性能低下を引き起こし，質問による明確化が性能向上に寄与することが示された。
- エージェントは曖昧な状況で質問すべきかどうかを判断するのが難しく，プロンプトの影響を受けることが明らかになった。
Link: https://arxiv.org/abs/2605.09698
普遍制約下での効率的なニューラルネットワーク学習のための適応的データ収集 [cs.LG, cs.AI]目的：ニューラルネットワーク学習における適応的データ収集戦略
- ニューラルネットワークは複雑な現象のモデリングに不可欠。制約を満たす学習は重要。
- 既存手法は固定的なルールに依存し，学習効率や安定性に課題が残る。
- 学習過程で動的にデータ収集を最適化し，効率的な制約充足を目指す。
- 強化学習を用いてデータ収集ポリシーを学習することで，制約充足の精度が向上した。
- LyapunovニューラルネットワークとPINNの両方で有効性が検証された。
- 適応的入力選択が重要な分野への応用可能性が示された。
Link: https://arxiv.org/abs/2605.09707
Metal-Sci：Apple Siliconにおける進化型LLMカーネル探索のための科学計算ベンチマーク [cs.LG, cs.AI, cs.DC]目的：科学計算カーネルの性能向上を目指す進化型LLMカーネル探索のためのベンチマーク
- 科学計算は，様々な分野の発展に不可欠であり，計算効率の向上が常に求められている。
- 従来のカーネル最適化は，専門知識と手作業による試行錯誤に依存しており，効率が悪い。
- LLMを活用した自動カーネル探索により，最適化の自動化と効率化を図る。
- Metal-Sciベンチマークを用いて，Claude Opus 4.7，Gemini 3.1 Pro，GPT 5.5の性能を評価した結果，最大で10.7倍の高速化を達成した。
- 提示された評価関数は，学習データに過剰適合したカーネルを検出するのに有効であることが示された。
- この自動探索ループにおける安価な機械的監視メカニズムの有用性が確認された。
Link: https://arxiv.org/abs/2605.09708
医学モデル合成アーキテクチャ：ケーススタディ [cs.AI]目的：不確実性下における臨床予測の透明性と検証可能性
- 医療現場では，多くの不確実性が存在し，医師の判断は常に重要な局面で求められる。
- 既存のAIシステムは，不確実性下での正確な推論や，その根拠の透明性に課題がある。
- 不確実性下で有用かつ透明な臨床予測を可能にするAIシステムの枠組みを提案する。
- 提案フレームワークMedMSAは，言語モデルを用いて関連知識を取得し，確率モデルを構築することで，不確実性を考慮した推論を可能にする。
- MedMSAのプロトタイプは，鑑別診断において，患者の症状を説明しうる可能性のある診断リストを不確実性の重み付けとともに生成する。
- 本研究は，安全な臨床協調を実現するための基盤となりうる汎用的なフレームワークの応用可能性を示唆する。
Link: https://arxiv.org/abs/2605.09716
CoTを用いた軽量なVision-Languageモデルへの3D空間推論の知識蒸留 [cs.CV, cs.AI]目的：3D空間推論能力の知識蒸留
- 3Dシーン理解は，ロボット工学や拡張現実など，多様な応用分野において不可欠である。
- 大規模な3D Vision-Languageモデルは計算コストが高く，実用上の展開が困難である。
- 計算資源の限られた環境下でも3Dシーン質問応答を可能にする効率的なモデルの構築。
- 7Bの教師モデルから2.29Bの生徒モデルへの知識蒸留により，推論速度を8.7倍向上，モデルサイズを3分の1に削減した。
- 「Hidden CoT」と呼ばれる学習可能な潜在的トークンを導入し，CoTデータなしでの推論性能向上を実現した。
- ScanNetと3D-FRONTでの実験により，生徒モデルが空間理解において高い精度（68-72%）を示した。
Link: https://arxiv.org/abs/2605.09719
ツールを利用するAIエージェントにおけるセキュリティリスク：特権実行環境の体系的分析 [cs.CR, cs.AI]目的：ツールを利用するAIエージェントのセキュリティリスク
- AIエージェントの利用拡大に伴い，クラウド環境での安全性が重要視されている。
- AIエージェントが持つ特権実行環境におけるセキュリティリスクが十分に理解されていない。
- クラウド環境におけるAIエージェントの安全な運用方法を確立すること。
- AIエージェントのリスク分類を提示し，3つのシナリオを通してリスクを具体的に説明した。
- リスクは，新しい脆弱性よりも，過剰な権限，能力と意図の不一致，環境からの権限漏洩に起因することが示唆された。
- AIエージェントを安全にクラウドで運用するための実践的な設計ガイドラインを導き出した。
Link: https://arxiv.org/abs/2605.09721
時間系列予測におけるTransformerとxLSTMのベンチマーク：暖房消費量への応用 [cs.LG]目的：暖房消費量短期予測のためのTransformerベースおよびxLSTMアーキテクチャの性能評価
- 地域暖房網の効率的かつ信頼性の高い運用には，正確な暖房需要の短期予測が不可欠である。
- 建物レベルの暖房消費量時間系列は，外気温や個々の利用状況などの外生変数に強く依存し，予測が困難である。
- 多様な建物データを活用し，汎化性能の高い予測モデルを構築し，計算資源効率を評価する。
- xLSTMが3時間および24時間予測で最も低いRMSE（それぞれ19.88kWh，21.47kWh）を達成した。
- Temporal Fusion Transformerは，3時間予測において最も優れたMAE（9.16kWh）を示した。
- 計算資源と予測精度とのトレードオフを考慮すると，パラメータ数の少ないモデルでも良好な予測結果が得られることが示された。
Link: https://arxiv.org/abs/2605.09722
モデル容量が記憶と汎化の速度競争を通じてグロッキングを決定する [cs.LG]目的：グロッキング現象におけるモデル容量の影響
- 近年，深層学習モデルの性能向上に伴い，その学習メカニズムの理解が重要になっている。
- グロッキングは，モデルサイズに依存することが知られているが，その具体的な関係性は未解明であった。
- 本研究は，モデル容量が記憶速度と汎化速度の競争を通じてグロッキングに及ぼす影響を解明することを試みる。
- モデルパラメータ数が増加しても，訓練データの暗記だけではグロッキングは起こらず，記憶速度と汎化速度のバランスが重要であることが示された。
- 記憶速度と汎化速度の交点が，グロッキングが始まるパラメータスケールに近いことが明らかになった。
- モデル容量とデータセットの複雑さから記憶速度を予測する経験モデルが提案され，既存の知見との整合性が確認された。
Link: https://arxiv.org/abs/2605.09724
単一モデルによる汎化：文脈内強化学習のための非線形Transformer [cs.LG, cs.AI]目的：文脈内強化学習におけるドメイン横断的な汎化
- 強化学習では，訓練タスクを超えた汎化が重要課題である。多タスク学習やメタ学習が試みられている。
- Transformerアーキテクチャは有望だが，汎化能力を向上させるための設計原則は未だ不明である。
- Transformerをカーネル回帰と関連付け，ドメイン間の知識共有を可能にする手法を提案する。
- 非線形Transformerは，異なるドメインの価値関数を共有された重みで表現可能であることが示された。
- Transformerは，再生核ヒルベルト空間における回帰と解釈できる。
- MetaWorld環境での実験により，提案手法が時間差目標に収束することが確認された。
Link: https://arxiv.org/abs/2605.09727
RubricRefine：事前実行リファインによるツール利用エージェントの信頼性向上 [cs.LG, cs.SE]目的：ツール利用エージェントの信頼性向上
- 大規模言語モデルによるツール利用は，複雑なタスク解決に不可欠である。
- ツール利用時のエラーは，実行時フィードバックだけでは捉えにくい場合が多い。
- 実行前に契約違反を検出し修正することで，信頼性を高める。
- RubricRefineは，事前実行段階でタスクとレジストリに特化した評価基準を生成する。
- 生成されたコードを契約チェックに照らし合わせ，反復的に問題を修正する。
- M3ToolEvalにおいて，平均で0.86という高い性能を7つのモデルで達成した。
Link: https://arxiv.org/abs/2605.09730
LLMにおける継続的なツール利用学習のための軌跡教師あり学習 [cs.SE, cs.AI, cs.MA]目的：LLMの継続的なツール利用学習における軌跡情報の有効性
- 大規模言語モデルの性能向上には，多様なデータと学習方法が不可欠である。
- 従来の学習データは最終結果のみを示し，過程の情報が欠如している場合が多い。
- API利用過程の軌跡情報を活用することで，継続学習の効率と精度を向上させる。
- API-Bankデータセットを用いた実験で，軌跡情報を含む条件Bは，含まない条件Aと比較して最終的な完全なAPIコール正確度が大幅に向上した。
- 条件BはAPI名予測の精度も7.7ポイント向上させたが，学習に必要なトークン数は25.1％増加した。
- 本研究は，次のAPIコール予測に焦点を当てているため，完全な対話の成功を評価するさらなる研究が必要である。
Link: https://arxiv.org/abs/2605.09734
KV-RM：静的グラフLLMサービングのためのKVキャッシュ移動の正則化 [cs.AR, cs.AI, cs.DC, cs.OS]目的：静的グラフLLMサービングにおけるKVキャッシュ移動の正則化
- 大規模言語モデルの効率的な推論は，計算資源の最適化と応答速度の向上のために重要である。
- 静的グラフLLMはメモリ予約の過大化や突発的な遅延が発生し，柔軟性に欠ける場合がある。
- KVキャッシュ移動の正則化によって，静的グラフLLMの柔軟性を高め，効率的な推論を実現することを目指す。
- KV-RMは，静的グラフLLMデコーダーの下でKVキャッシュ移動を正則化するランタイム設計である。
- 実験の結果，KV-RMは混合長デコードのスループットとテールレイテンシを改善し，予約されたKVメモリを削減した。
- これらの結果は，KVキャッシュ移動が静的グラフLLMサービングにおけるランタイムの柔軟性を回復するための有効な境界となり得ることを示唆している。
Link: https://arxiv.org/abs/2605.09735
CALYREX：システムプロンプト固定化のためのクロスアテンション層拡張トランスフォーマー [cs.LG]目的：システムプロンプト固定化による大規模言語モデルの制御
- 大規模言語モデルの安全性と制御は，社会実装において不可欠である。
- 従来のモデルでは，システムプロンプトとユーザー入力の区別が曖昧で，プロンプトインジェクションに弱い。
- システムプロンプトを構造的に固定化し，指示の逸脱や攻撃を抑制すること。
- CALYREXは，入力とシステムプロンプト間のクロスアテンションを用いることで，ルールを構造的に隔離・固定化する。
- レイヤーの最終8分の1への挿入が最適であり，活性化分析により行動制約が集中することが確認された。
- 80億パラメータモデルにおいて，CALYREXは指示応答性で7.4％，複数ターン指示遵守で16.3％向上し，脱獄攻撃成功率を13％削減した。
Link: https://arxiv.org/abs/2605.09737
沈黙の投票：意味的近傍の集約によるゼロショットLLMの信頼性向上 [cs.CL, cs.AI]目的：ゼロショットLLMの信頼性向上
- LLMは複雑な推論タスクにおけるゼロショット分類器として利用が拡大している。
- 制約付きデコーディングでは，意味的同義語の確率が失われ，過信と誤った校正を招く問題がある。
- 失われた情報を回復し，より校正され正確なゼロショット分類を実現する。
- 提案手法であるSemantic Softmaxは，期待校正誤差（ECE）とBrier Scoreを大幅に削減した。
- 同時に，AUROCとMacro-F1という観点から識別性能を向上させた。
- 言語的ニュアンスを考慮することで，より信頼性の高い分類が可能になった。
Link: https://arxiv.org/abs/2605.09739
TIDES：選択的状態空間モデルにおける暗黙的な時間認識 [cs.LG, cs.AI]目的：選択的状態空間モデルと連続時間状態空間モデルの利点を統合し，不規則な時系列データのモデリング性能向上
- 時系列データ分析は，様々な分野で不可欠であり，高精度なモデルが求められている。
- 既存の選択的状態空間モデルは，時間間隔の物理的な意味を失い，不規則な時系列データの扱いに限界がある。
- 時間間隔の物理的な意味を保持しつつ，選択的モデルの表現力を維持すること。
- TIDESは，時間間隔の入力依存性を状態行列の対角成分に移動させることで，選択的かつ連続的なアーキテクチャを両立している。
- 新しい実験ベンチマーク「Fading Flash」において，TIDESは既存のモデルの弱点を克服することが示された。
- 大規模なベンチマークにおいて，UEA時系列分類とPhysiome-ODE回帰の両方で，TIDESは新たな最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.09742
エントロピーに基づくデコーディング：適応情報駆動型分岐 [cs.LG, cs.AI, cs.IT, math.IT]目的：言語モデルのデコーディング戦略による生成品質の改善
- 大規模言語モデルは高性能だが，その出力品質はデコーディング戦略に依存する。
- 既存のデコーディング手法は，計算コストや単一路径への固執といった課題を抱える。
- モデルの不確実性に基づいて計算量を適応的に配分することで，効率的なデコーディングを実現する。
- 提案手法EDENは，エントロピーを推定し，分岐係数を動的に調整することで，計算効率を向上させる。
- 数学的推論，コード生成，科学的質問といった複雑なタスクにおいて，既存手法を上回る性能を示す。
- エントロピーに基づく分岐係数は，固定幅ビームサーチよりも優れた性能を発揮することが理論的に保証される。
Link: https://arxiv.org/abs/2605.09745
マルチスペクトルデータからの効率的な土砂災害セグメンテーションのための逐次特徴選択 [cs.LG, cs.AI]目的：土砂災害セグメンテーションにおける効率的な特徴選択手法の開発
- 衛星画像を用いた土砂災害検知は重要であり，防災・減災に貢献する。
- 多くのモデルが冗長な入力データに依存しており，解釈性や計算効率が課題である。
- 入力チャネルの重要度を明らかにし，最適な特徴集合を特定することを目指す。
- 提案手法である逐次前方浮動選択（SFFS）により，8チャンネルのコンパクトな特徴集合が特定された。
- この特徴集合は，最大30チャンネルを用いた設定と同等以上のセグメンテーションF1スコアを達成した。
- SFFSは，土砂災害モデルが依存する物理的な手がかりを理解するための手段を提供する。
Link: https://arxiv.org/abs/2605.09746
制約付き離散拡散のための双対ガイドデコーディング [cs.AI]目的：制約付き生成におけるKL正則化最適化問題の解法
- 拡散モデルは構造化されたシーケンス生成に有効だが，制約条件の組み込みが課題である。
- 生成時にグローバルな制約条件を満たすことが困難であり，応用範囲を狭めている。
- 制約条件を満たしつつ，モデルの分布を可能な限り維持する生成手法を確立する。
- 本手法は，追加学習やモデル評価なしに，複数の制約条件を同時に扱うことができる。
- 制約違反の厳密な上限を保証し，多様なドメインへの適用可能性を示す。
- トピックに基づいた文章生成，分子設計，音楽プレイリスト生成において，制約充足率と品質指標の両方を向上させた。
Link: https://arxiv.org/abs/2605.09749
受容から学ぶ：コーディングゲームにおける累積後悔 [cs.CL, cs.IT, cs.DC, cs.LG, math.IT]目的：コーディングゲームにおける累積後悔の低減
- 分散システムにおいて，中央集権的な認証がない環境下での信頼性の確保が重要である。
- 既存のコーディング理論は，正直なノード数が多いことを前提としており，現実のシステムへの適用が困難である。
- 不確実な敵対者に対する学習アルゴリズムを開発し，累積後悔を最小化することを目指す。
- 本研究では，Stackelbergリーダーとして行動するデータ収集者が，敵対者のユーティリティトレードオフを学習する不完全情報コーディングゲームを分析した。
- 提案アルゴリズムは，有望な受容ルール周辺を探索し，累積後悔が亜線形になることを証明した。
- 数値実験により，提案アルゴリズムの有効性が確認された。
Link: https://arxiv.org/abs/2605.09754
高速スケッチを用いたべき乗法加速による，より強固な低ランク近似 [math.NA, cs.DS, cs.LG, cs.NA, stat.ML]目的：低ランク近似のためのべき乗法加速手法
- 大規模データへの主成分分析は重要であり，データ次元削減やノイズ除去に利用される。
- 目標ランクが大きい場合，行列積計算コストがボトルネックとなり，計算時間が課題となる。
- 高速スケッチを用いてべき乗法を高速化し，計算コストを削減することを目指す。
- 高速スケッチを利用するアルゴリズムと理論的枠組みを開発し，べき乗法の加速を実現した。
- 特異値分解，低ランク因子分解，Nystr\"om 近似において，高い数値性能をベンチマーク問題で示した。
- 高速スケッチ法の特性である正則化されたスペクトル近似を用いることで，べき乗法の保証を拡張した。
Link: https://arxiv.org/abs/2605.09755
非ガウス性ノイズ下におけるカーネル回帰の一様誤差境界について [cs.LG, stat.ML]目的：カーネルに基づく回帰における非漸近的な一様誤差境界の導出
- 統計的機械学習において，安全性が重要な応用分野では，関数の推定における不確実性の定量化が重要である。
- 従来の誤差境界は，条件付き独立なサブガウス性ノイズに制限されており，より広範なノイズ分布に対応できない。
- 本研究は，サブガウス性，有界性，サブ指数性などの非ガウス性ノイズを含む，より一般的なノイズモデルに対する誤差境界を確立する。
- 提案された一様誤差境界は，既存の結果と比較して，より広範なノイズ分布に対応可能である。
- これらの境界は，相関のあるノイズと相関のないノイズの両方に適用できる。
- 安全制御における性能評価を通じて，提案された境界のタイトネスが示された。
Link: https://arxiv.org/abs/2605.09757
LEVI：より強力な検索アーキテクチャは，進化型検索において大規模LLMの代替となりうる [cs.CL, cs.NE, cs.AI]目的：進化型検索における検索アーキテクチャの強化
- LLMを活用した進化型検索は，数学やシステム研究等で有効だが，計算コストが高い。
- 既存のフレームワークは多様性維持が不十分で，過剰な変異や無駄な評価に繋がる。
- LEVIは，より強力な検索アーキテクチャで大規模LLMの代替を目指す。
- LEVIは，システム研究ベンチマークにおいて，既存フレームワークよりも3.3〜6.7倍少ない予算で最高スコアを達成した。
- ある問題では，既存の最高性能と同等レベルを35分の1のコストで実現した。
- プロンプト最適化においても，GEPAと同等以上の性能を，GEPAの半分のロールアウト予算で実現した。
Link: https://arxiv.org/abs/2605.09764
WISTERIA：電子健康記録におけるノイズのある教師信号からの臨床表現学習 - 多視点一貫性によるアプローチ [cs.LG, cs.AI]目的：電子健康記録からの臨床表現の学習
- 医療現場での意思決定支援や疾患予測に貢献するため，質の高い臨床データの活用が重要である。
- 電子健康記録の臨床ラベルはノイズが多く，データの質の低下を招き，学習モデルの性能を阻害する。
- 複数のノイズのあるラベル情報から一貫性を学習し，堅牢な臨床表現を獲得することを目的とする。
- WISTERIAは，複数の弱い教師信号間の整合性を強制することで，臨床的に意味のある構造を復元し，予測性能を向上させる。
- ラベルノイズに対するロバスト性が高く，既存のシーケンスベースの事前学習手法と比較して，施設間での汎化性能に優れている。
- 教師信号のプロセスを明示的にモデル化することで，電子健康記録データから堅牢で臨床的に意味のある表現を学習するのに適した誘導バイアスを提供する。
Link: https://arxiv.org/abs/2605.09765
心理的防衛機序の分類におけるUTS@PsyDefDetect：マルチエージェント評議会と欠如に基づく推論 [cs.HC, cs.MA, cs.AI]目的：心理的防衛機序の分類
- メンタルヘルスケアの分野において，対話内容から心理状態を理解することは重要である。
- 既存手法では，心理的防衛機序の分類精度が十分ではなく，特に少数クラスの誤認識が多い。
- 欠如に着目し，マルチエージェントシステムを用いて分類精度向上を目指す。
- 心理的防衛機序の分類において，Gemini 2.5を用いたマルチエージェント評議会で上位5位の結果を得た。
- 少数クラスの誤認識が課題であり，多数クラスへの偏り（L7アトラクター）が確認された。
- ファインチューニングされたQwen3.5モデルによるオーバーライドアンサンブルでF1スコアを2.4pp向上させた。
Link: https://arxiv.org/abs/2605.09769
スパイク状バンドパスウェーブレットによる時間信号の符号化と復号 [cs.NE, eess.SP, q-bio.NC]目的：時間信号の符号化と復号手法
- 脳の情報処理のモデル化に役立ち，低消費電力な情報処理システムの実現に繋がる。
- スパイク符号化は確率的な定式化が多く，信号処理の理論との連携が不十分であった。
- スパイク符号化と信号処理理論を統合し，効率的な符号化・復号手法を提案する。
- 提案手法は，スパイク表現の疎性と局所性を維持しながら，時間離散化とスパイク量子化による再構成が可能である。
- ECGと音声データセットを用いた実験で，連続ウェーブレット変換と同程度の正規化RMSEを達成した。
- 提案されたスパイクウェーブレットは，ニューロモーフィックハードウェアに直接適用可能である。
Link: https://arxiv.org/abs/2605.09770
ヘルスケアイベントの生成モデルと社会決定要因のデジタルツインの統合：疾患推論への応用 [cs.AI]目的：疾患推論のための生成モデル構築
- バイオメディカル研究と臨床において，画像特性やバイオマーカー等のセンサーデータが重要である。
- 既存の生成モデルは病院やレジストリデータに基づき，社会決定要因の明示的なモデリングが不足している。
- 社会決定要因のプロキシを用いて疾患推論モデルを構築し，個別化医療と臨床意思決定を支援する。
- 本研究で提案するモデルは，多臓器のセンサーデータとトークン化されたヘルスケアイベント間の関係性を確立する。
- 脳ネットワークの時間的変化を特徴づける幾何学的拡散モデルと，他の臓器システムの表形式データの拡散モデルを統合した。
- UK Biobankデータセットを用いた実験により，最先端の疾患自己回帰モデルや画像特性生成モデルと比較して顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2605.09771
欺瞞なき搾取：ダークトライアド特徴操縦による言語モデルにおける分離可能な反社会性回路の解明 [eess.SY, cs.RO, cs.SY, math.OC, cs.CL, cs.AI]目的：言語モデルにおけるダークトライアド特性の増幅と，それによる行動変化の評価
- 大規模言語モデルの倫理的な問題が重要視される中，反社会的な傾向の理解が不可欠である。
- 言語モデルの反社会性傾向は，単一の要因で説明されるのではなく，複雑な構造を持つ可能性がある。
- 言語モデルにおける搾取と欺瞞の分離メカニズムを特定し，制御方法を検討することを目的とする。
- ダークトライアド特性を操縦したモデルは，新たな状況下で搾取的，攻撃的，冷酷な行動を顕著に示す。
- 認知的な共感性は維持され，人間のダークトライアド特性に見られる共感性解離を再現する。
- 戦略的な欺瞞は影響を受けず，搾取と欺瞞は言語モデル内で異なる計算経路を通る可能性が示唆された。
Link: https://arxiv.org/abs/2605.09773
構造化された測定に基づくベイズ最適化：ベクトル値RKHSフレームワーク [cs.LG, math.OC]目的：構造化された測定を伴うベクトル値演算子のベイズ最適化
- 高コストなブラックボックス関数の最適化は重要であり，ベイズ最適化はその効率的な手法の一つである。
- 従来のベイズ最適化はスカラー値の出力に焦点を当てており，構造化されたシステム出力から得られる豊富な情報を活用できていない。
- 本研究は，多次元または関数的な出力を扱うベクトル値演算子に対するベイズ最適化の効率化を目指す。
- ベクトル値RKHSにおけるカーネルリッジ回帰の推定誤差について，高確率集中不等式を導出した。
- UCB獲得関数に基づくアルゴリズムを提案し，穏やかな仮定の下で後悔保証を確立した。
- 構造化された測定を活用することで，目的間での情報伝達が効率化され，時間変化への適応能力が向上することが示された。
Link: https://arxiv.org/abs/2605.09775
EvoPref：勾配降下法を超えた多様なLLMアライメントを発見する多目的進化最適化 [cs.NE, cs.AI, cs.CL, cs.LG]目的：大規模言語モデルのアライメントにおける多様性の向上
- LLMは強力だが，倫理的・社会的な課題があり，安全性確保が不可欠である。
- 従来の勾配ベースの手法では，多様性が失われ，限定的な行動モードに収束しやすい。
- 進化最適化により，多様性を維持しつつ，より優れたアライメントを実現することを目指す。
- EvoPrefは，勾配降下法と比較して，有意に高い多様性のアライメントを発見した。
- 標準的なベンチマークにおいて，EvoPrefは，優先度カバレッジを18%向上させ，コラプス率を47%減少させた。
- アライメント品質も競争力があり，RewardBenchのスコアはORPOと同程度であった。
Link: https://arxiv.org/abs/2605.09777