arXiv雑要約

AI - 2026/05/12 公開

  • HighFM:高頻度地球観測データからの表現学習のための基盤モデルへ [cs.CV, cs.AI]目的:高頻度地球観測データからのロバストな時空間表現の学習
    • 気候関連災害の増加により,リアルタイム監視と迅速な意思決定が重要になっている。
    • 既存の基盤モデルは高分解能画像に依存し,変化の激しい現象への対応が課題である。
    • 高頻度地球観測データを用いた,災害検知と追跡のための基盤モデルを開発する。
    • 2TBを超えるSEVIRI画像を用いて,SatMAEフレームワークを適応させ,時空間表現を学習した。
    • リアルタイム監視のため,短期変動を捉えるための細かい時間符号化を導入した。
    • クラウドマスキングと火災検知タスクでファインチューニングを行い,従来のベースラインや他のモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2604.04306

  • 現実的な多変量時系列合成のための動的線形コアジョナライズテーション [cs.LG, cs.AI]目的:時系列基礎モデルの訓練に不可欠な合成データ生成
    • 時系列分析において,大規模モデルの学習には大量のデータが不可欠である。
    • 既存の合成データ生成手法は静的な相関を仮定しており,現実的なチャンネル間依存性を捉えきれていない。
    • 動的な相関構造とクロスチャンネルラグ構造を組み込み,現実的な合成時系列を生成すること。
    • 提案手法DynLMCは,時間変化する相関とチャンネル間ラグ構造を考慮した多変量時系列を生成する。
    • DynLMCで生成されたデータでファインチューニングした結果,9つのベンチマークでゼロショット予測性能が向上した。
    • 動的なチャンネル間相関のモデリングは,時系列基礎モデルの転移学習能力を高めることが示された。

    Link: https://arxiv.org/abs/2604.05064

  • MICA:時系列予測のための多変量無限圧縮注意機構 [cs.LG]目的:多変量時系列予測におけるスケーラビリティの向上
    • 時系列データは様々な分野で利用され,正確な予測は意思決定に不可欠である。
    • Transformerモデルは高性能だが,多変量データで注意機構を適用すると計算量が急増する。
    • チャンネル次元への効率的な注意機構を導入し,計算量の問題を解決することを目指す。
    • MICAは,従来のチャンネル独立型Transformerモデルと比較して,予測誤差を平均5.4%削減した。
    • 特定のデータセットにおいては,最大25.4%の誤差削減を達成し,チャンネル間モデリングの重要性を示した。
    • MICAモデルは,TransformerやMLPベースラインよりも優れた予測性能を発揮し,スケーラブルな多変量予測の実用的な解決策となる。

    Link: https://arxiv.org/abs/2604.06473

  • 生成クロスエントロピー:データ効率的な分類のための厳密な正則損失 [cs.LG, stat.ML]目的:データ効率的な分類のための損失関数
    • 教師あり学習において分類は重要なタスクであり,限られたデータでの性能向上が求められている。
    • 従来のクロスエントロピー損失は,ラベルが少ない場合にサンプル効率が低いという課題がある。
    • 生成的な学習原理を導入し,クロスエントロピー損失のサンプル効率を向上させることを目指す。
    • 提案手法である生成クロスエントロピー(GenCE)は,クロスエントロピー損失の代替として機能し,アーキテクチャを変更せずに性能を向上させる。
    • GenCEは,ベイズの書き換えに基づいており,ミニバッチ近似ではバッチ内のモデル予測に対する各サンプルのソフトマックススコアを正規化する。
    • 実験の結果,GenCEはクロスエントロピー損失を含む他の損失関数と比較して,性能,確率のキャリブレーション,外れ値検出において優れていることが示された。

    Link: https://arxiv.org/abs/2604.06689

  • 非線形関数空間に対する疎性認識ニューラルネットワーク:次元への指数依存性の緩和 [cs.LG, cs.AI, math.FA]目的:関数学習における課題解決のための,疎性に着目したニューラルネットワークの枠組み
    • 関数学習は,無限次元関数空間で定義される演算子の学習において強力なツールである。
    • 既存の理論は,次元の呪いや解釈性の低さといった困難に直面することが多い。
    • 疎性を用いて,関数学習における次元の呪いを緩和し,安定した学習を可能にすること。
    • 疎性に着目した近似手法により,離散サンプルの安定的な復元が可能となることが示された。
    • 決定論的およびランダムなサンプリングスキームのどちらも解析に十分であることが確認された。
    • 様々な関数空間において,近似率の向上とサンプルサイズの削減が実現された。

    Link: https://arxiv.org/abs/2604.06774

  • Transformer言語モデルにおける選択的ニューロン増幅 [cs.LG, cs.CL]目的:Transformer言語モデルの性能向上
    • 大規模言語モデルは多様なタスクに応用可能だが,その性能限界が課題。
    • モデルが知識を持つにも関わらず,推論時に適切なニューロンが活性化されない場合がある。
    • 推論時のニューロン活性化を調整し,モデルの性能低下を防ぐこと。
    • 選択的ニューロン増幅(SNA)は,モデルのパラメータを変更せずに,推論時にタスクに関連するニューロンの影響を増幅する。
    • SNAは,モデルが不確実な場合に特に有効であり,既に自信のある場合には効果が低い。
    • この結果は,モデルの失敗が能力不足ではなく,活性化の弱さに起因することが示唆される。

    Link: https://arxiv.org/abs/2604.07098

  • SCOT:最適な輸送ソフト対応目的を用いたマルチソースクロスシティ転送 [cs.LG]目的:ラベル不足都市における予測性能の向上
    • 都市間のデータ共有により,データが少ない都市の予測精度向上に貢献する分野である。
    • 都市間で領域の分割が異なり,対応関係がない場合に,転送学習が困難となる問題がある。
    • 不均一性が強い場合でも安定した領域間の対応を学習し,転送精度を向上させる。
    • 提案手法SCOTは,Sinkhornベースのエントロピー最適輸送を用いて,不均等な領域集合間のソフト対応を学習する。
    • OT重み付きコントラスト目的により,転送可能な構造を明確化し,サイクル様再構成正則化により最適化を安定化させる。
    • マルチソース転送では,各ソースとターゲットをターゲット誘導プロトタイプ事前情報に基づいた平衡エントロピー輸送で共有プロトタイプハブに整合させる。

    Link: https://arxiv.org/abs/2604.07383

  • デジタルメンタルヘルス介入のための生成的な体験:ランダム化試験からの証拠 [cs.HC, cs.AI]目的:デジタルメンタルヘルス介入における生成的な体験の有効性
    • メンタルヘルス不調は増加傾向にあり,アクセス可能なサポートの必要性が高まっている。
    • 従来のDMHツールは内容のパーソナライズに偏り,体験の質が十分に考慮されていない。
    • 体験そのものを動的に生成することで,ユーザーのエンゲージメントと効果を高める。
    • ランダム化試験の結果,GUIDEはストレスを有意に軽減し,ユーザー体験を向上させた。
    • GUIDEは多様な対話形式を支援し,介入シーケンスにおけるパーソナライズの課題も明らかにした。
    • 本研究は,デジタル環境におけるサポートの体験と実施方法を動的に形成する介入の基礎となる。

    Link: https://arxiv.org/abs/2604.07558

  • 計画によるエージェントの整合性向上: 軌跡レベルの報酬モデルのベンチマーク [cs.RO, cs.AI]目的:ツール統合環境下における報酬モデルの能力を評価するための軌跡レベルの選好ベンチマーク
    • 大規模言語モデルが自律的にツールを使用するエージェントとなり,報酬モデルの重要性が増している。
    • ツール使用環境下での報酬モデルの評価に特化したベンチマークが存在しなかった。
    • 複雑なツール使用シナリオにおいて,エージェントの軌跡の選好度を評価するベンチマークを構築すること。
    • Plan-RewardBenchは,安全性,ツールの関連性,複雑な計画,エラーからの回復の4つのタスクファミリーを網羅する。
    • 評価した報酬モデル(生成型,識別型,LLM-as-Judge)は,長い軌跡において性能が低下する傾向が見られた。
    • 本ベンチマークは,エージェントの計画に関する選好データの構築のための実用的な評価スイートおよび再利用可能な設計図として機能する。

    Link: https://arxiv.org/abs/2604.08178

  • 強化学習による人間フィードバックを用いた分布ロバストなトークン最適化 [cs.CL, cs.LG, cs.AI]目的:大規模言語モデルのロバスト性向上
    • 大規模言語モデルの性能は,学習データに大きく依存する
    • わずかな入力の変化で,性能が著しく低下することがある
    • 分布の変化に対するロバスト性を高めることが課題である
    • 提案手法DRTOは,トークンレベルの強化学習と分布ロバスト最適化を組み合わせる。
    • DRTOは,困難な応答部分に重点を置くことで,一貫性を向上させる。
    • MATH-500とLiveCodeBenchで,標準的なRTOよりも高い性能を示す。

    Link: https://arxiv.org/abs/2604.08577

  • 因果的凝視:大規模言語モデルにおける反事実グラフ介入による幻覚の解明 [cs.LG]目的:大規模言語モデルの幻覚検出
    • 大規模言語モデルの利用拡大に伴い,その信頼性が重要視されている。
    • 大規模言語モデルは,事実に基づかない内容(幻覚)を生成する可能性があり,実用上の課題となっている。
    • 因果推論に基づく介入により,幻覚の原因を特定し,検出精度を向上させる。
    • CausalGazeは,構造因果モデルを用いて大規模言語モデルの内部状態を動的な因果グラフとしてモデル化する。
    • 反事実介入により,因果的推論経路と付随するノイズを分離し,解釈可能性を高める。
    • TruthfulQAデータセットにおいて,最先端のベースラインと比較してAUROCが3.3%向上する等,有効性が確認された。

    Link: https://arxiv.org/abs/2604.11087

  • AffordSim:アフォード感応型ロボットマニピュレーションのためのスケーラブルなデータ生成器およびベンチマーク [cs.RO, cs.AI]目的:アフォード感応型ロボットマニピュレーションのためのデータ生成と評価
    • 日常的なロボット操作はアフォード性に依存し,その成功は機能領域への接触に左右される。
    • 既存のデータ生成は汎用的な把持推定や手動アノテーションに頼り,タスクに応じた正確な接触点が得られない。
    • 自然言語によるタスク記述に基づき,アフォード予測と軌道生成を統合することで,この問題を解決する。
    • AffordSimは,手動アノテーションの軌道収集成功率の93%をアフォード性重視タスクで,89%を複合タスクで達成した。
    • AffordSimで学習したビジョン・言語・行動ポリシーは,実機Franka FR3へのゼロショット転移で平均24%の成功率を示した。
    • 多様なオブジェクト,ロボット,タスクで構成される500以上のベンチマークを提供し,シミュレーションから実世界への転移を促進する。

    Link: https://arxiv.org/abs/2604.11674

  • シーン整合性を考慮した多エージェント拡散計画と,協調運転のための安定したオンライン強化学習によるポストトレーニング [cs.RO, cs.AI]目的:協調運転における安全性と効率性の向上
    • 交通渋滞の緩和や事故の減少に貢献するため,協調運転技術は重要である。
    • 既存手法では,シーンの整合性が低く,協調運転の目的に沿った最適化が困難である。
    • シーン整合性を向上させ,安定したオンライン強化学習を実現することで,協調運転の性能を向上させる。
    • 提案手法SCORPは,WOMD環境において既存のオープンソースベースラインを上回り,安全性と効率性の指標で10.47%-28.26%と1.70%-7.22%の改善を達成した。
    • シーン情報を注入するメカニズムと,柔軟かつ安定した条件付き変調により,シーン整合性と道路追従性を向上させている。
    • 密な報酬設計と,分散勾配の最適化により,閉ループでの学習における利点崩壊と勾配の不安定化を抑制している。

    Link: https://arxiv.org/abs/2604.11734

  • ClawGuard:ツール拡張LLMエージェントに対する間接プロンプトインジェクションのランタイムセキュリティフレームワーク [cs.CR, cs.AI]目的:ツール拡張LLMエージェントに対する間接プロンプトインジェクション対策
    • LLMエージェントの活用は,複雑なタスク自動化に貢献するが,セキュリティ上の脆弱性が課題となる。
    • ツール経由で悪意のある指示が注入され,エージェントがそれを信頼してしまう脆弱性が存在する。
    • ユーザー定義のルールに基づき,ツール呼び出しを制御することで,この脆弱性を解決する。
    • ClawGuardは,ツール呼び出しの境界でルールセットを強制することで,間接プロンプトインジェクションから保護する。
    • ユーザーの目的からタスク固有のアクセス制限を自動的に導出し,3つの注入経路全てをブロックする。
    • 実験により,エージェントの有用性を損なうことなく,堅牢な保護と低いトークンオーバーヘッドが確認された。

    Link: https://arxiv.org/abs/2604.11790

  • 双曲線混合曲率エキスパートによる脳波ベースのマルチモーダル学習 [cs.RO, cs.LG]目的:脳波と補完的なモダリティの統合による精神状態評価の改善
    • 精神状態の客観的評価は,臨床応用において不可欠であり,脳波はその重要な指標となる。
    • 異質なモダリティ間の関係性を捉える表現学習が,マルチモーダル学習の性能を左右する。
    • 脳波の階層構造を効率的に表現し,より高精度な精神状態評価を実現すること。
    • 提案手法 EEG-MoCE は,双曲線空間における学習曲率を適応的に調整することで,各モダリティの階層構造を捉える。
    • 複数のベンチマークデータセットにおいて,感情認識,睡眠段階推定,認知評価などのタスクで最先端の性能を達成した。
    • 学習曲率を考慮した融合戦略により,階層的情報が豊富なモダリティを重視し,全体的な性能向上に貢献する。

    Link: https://arxiv.org/abs/2604.12579

  • DocSeeker:証拠に基づく構造化された視覚的推論による長文書理解 [cs.AI]目的:長文書理解のための構造化された視覚的推論手法
    • 長文書の利用増加に伴い,その内容を正確に理解する技術が重要となっている。
    • 既存のマルチモーダル大規模言語モデルは,文書が長くなるにつれて性能が低下する。
    • 文書中の重要な情報を効率的に特定し,正確な回答を導き出すことを目指す。
    • DocSeekerは,分析,位置特定,推論の構造化されたワークフローをモデルに実行させることで,長文書理解の性能を向上させる。
    • 高品質な知識蒸留データを用いた教師ありファインチューニングと,証拠を意識したグループ相対ポリシー最適化により,証拠の特定と回答精度を同時に最適化する。
    • Evidence-Guided Resolution Allocation戦略により,複数ページ文書の訓練におけるメモリ制約を軽減し,汎化性能を高める。

    Link: https://arxiv.org/abs/2604.12812

  • 活性化に基づく幻覚プローブにおける検出と修正の非対称性 [cs.CL, cs.LG]目的:自己回帰型言語モデルにおける幻覚の検出と修正に関する研究
    • 言語モデルの性能向上に伴い,生成される内容の信頼性確保が重要となっている。
    • 大規模言語モデルは,事実と異なる内容(幻覚)を生成することが課題となっている。
    • 活性化プローブを用いた幻覚検出・修正の限界と新たな活用法を明らかにすること。
    • 活性化に基づく線形プローブは,大規模モデルにおいて幻覚信号を検出できるものの,その方向への活性化操作では幻覚の修正は困難であった。
    • 出力信頼度に基づくベースライン手法が,4.1億パラメータ以上のモデルにおいて,活性化プローブよりも高い検出精度を示した。
    • 活性化プローブの価値は,検出精度ではなく,生成前に幻覚の可能性をフラグ付けできる点にあると考えられる。

    Link: https://arxiv.org/abs/2604.13068

  • LLMベースエージェント展開のためのライフサイクル統合セキュリティアーキテクチャSafeHarness [cs.CY, cs.CR, cs.AI]目的:LLMベースエージェント展開におけるセキュリティアーキテクチャの構築
    • LLMエージェントの利用拡大に伴い,そのセキュリティ確保は重要性を増している。
    • 既存のセキュリティ対策は,エージェントの内部状態を把握できず,ライフサイクル全体での連携が不十分である。
    • エージェントのライフサイクルにセキュリティ層を統合し,脆弱性を低減することを目的とする。
    • 提案アーキテクチャSafeHarnessは,入力処理,意思決定,アクション実行,状態更新の各段階で防御層を統合する。
    • 異常検知時に検証の厳格化,ロールバック,ツール権限の制限を行うことで,セキュリティレベルを高める。
    • ベンチマークデータセットを用いた評価により,UBRが約38%,ASRが約42%平均的に低下し,高いセキュリティ効果が確認された。

    Link: https://arxiv.org/abs/2604.13630

  • HiVLA:視覚に基づいた階層型具現化操作システム [cs.CV, cs.AI, cs.RO]目的:視覚と言語,行動を統合したロボット操作システムの開発
    • ロボットによる複雑な作業の自動化には,高度な知能と環境認識が不可欠である。
    • 既存のVLAモデルは,特定の制御データで微調整することで汎用性が損なわれる場合がある。
    • VLAモデルの推論能力を維持しつつ,ロボットの操作性能を向上させることを目指す。
    • 提案手法HiVLAは,高レベルの計画と低レベルの制御を分離した階層構造を採用している。
    • HiVLAは,シミュレーションと実環境の両方で,最先端の既存手法を大幅に上回る性能を示した。
    • 特に,長時間のスキル構成や,散乱した環境における微細な操作において優れた結果が得られた。

    Link: https://arxiv.org/abs/2604.14125

  • PAC-MCTS: バイアスを考慮した枝刈りによるロバストなLLM誘導探索と計画 [cs.LG, cs.AI, stat.ML]目的:LLM誘導探索と計画におけるロバスト性の向上
    • 自律的な推論や具現化された計画において,探索は重要である。探索空間の爆発的な増加を抑制する必要がある。
    • LLMなどの代理評価関数を用いた探索では,系統的なバイアスが安全性に影響を与える可能性がある。
    • バイアスを考慮した枝刈りにより,安全な探索と効率的な計画を可能にすることを目指す。
    • PAC-MCTSは,探索中に信頼区間を動的に調整するバイアスを考慮した枝刈りフレームワークである。
    • BlocksworldとALFWorldの実験で,PAC-MCTSは既存の手法と比較してロバスト性と探索効率が向上した。
    • API評価回数を最大78%削減し,厳格な計算予算下で3倍以上のサンプル効率を達成した。

    Link: https://arxiv.org/abs/2604.14345

  • ゲイン依存のエラーダイナミクスに関する非漸近的理論:行動クローニングにおける考察 [cs.RO, cs.AI, math.OC]目的:行動クローニングにおけるゲイン依存エラーダイナミクスの非漸近的挙動
    • ロボット制御において,PDコントローラーのゲイン設定は性能に大きく影響する。しかし,その影響を理論的に捉えることは難しい。
    • 行動クローニングでは,PDコントローラーのゲインが性能劣化に与える影響が不明確であり,故障の要因を予測することが困難である。
    • コントローラーゲインが行動クローニングの失敗に及ぼす有限時間の影響を明らかにし,性能予測の精度向上を目指す。
    • 行動クローニングにおける位置誤差は,ゲインに依存する閉ループダイナミクスを通じて伝播し,その挙動はプロキシ行列$X_\infty(K)$によって決定される。
    • タスク失敗確率は,ゲイン依存の増幅指数$\Gamma_T(K)$と検証損失,そして汎化の隙間に分解され,学習損失だけでは閉ループ性能を予測できない。
    • 形状保存の上限構造的仮定の下,プロキシ行列はスカラー境界$X_\infty(K)\preceq\Psi(K)\bar X$を持つことが示され,ゲイン設定の最適な組み合わせが導き出される。

    Link: https://arxiv.org/abs/2604.14484

  • AgentGA:エージェントシード空間におけるコード解の進化 [cs.AI, cs.LG]目的:エージェントシードの最適化による自律的なコード生成の進化
    • 近年,機械学習モデルの自動設計が重要視されており,AutoMLの研究が活発である。
    • 既存のAutoML手法は,計算コストが高く,多様な解探索が難しいという課題がある。
    • エージェントシードの最適化により,効率的かつ多様なコード探索を実現し,AutoMLの性能向上を目指す。
    • AgentGAは,Weco-Kaggle Liteベンチマークにおいて,人間の性能を71.90%上回る結果を示し,16/16の競技で勝利した。
    • 親アーカイブから継承された条件を持つ子エージェントは,新規提案と比較して,親-子トーナメントで51.9%の勝率を記録した。
    • これらの結果は,エージェントシード最適化が自律的なコード探索システムの実用的な設計選択肢であることを示唆する。

    Link: https://arxiv.org/abs/2604.14655

  • DLink:EEG基盤モデルからの層別的・支配的知識の蒸留 [eess.SY, cs.SY, math.OC, cs.LG]目的:EEG基盤モデルからの知識蒸留によるコンパクトなモデルの性能向上
    • 脳波(EEG)解析は,脳機能の理解やブレイン・マシン・インターフェース等に応用が期待され,重要性が高い。
    • 大規模なEEG基盤モデルは高い汎化性能を持つ一方,計算コストが高く,実用上の課題がある。
    • 効率的な知識蒸留により,軽量なモデルで高性能を達成し,計算コストを削減することを目指す。
    • DLinkは,入力に応じて教師モデルの層を動的に集約し,スペクトル情報を活用することで,知識の伝達を最適化する。
    • 実験の結果,DLinkは軽量な生徒モデルの性能を向上させ,ファインチューニングされた基盤モデルに匹敵する結果を得た。
    • パラメータ数,計算量,推論時間を大幅に削減し,実用的な脳波解析システムへの応用可能性を示した。

    Link: https://arxiv.org/abs/2604.15016

  • ハイパースペース:超次元表現における空間符号化の汎用的な枠組み [cs.AI]目的:超次元表現における空間符号化のための汎用的な枠組み
    • 記号空間アーキテクチャは,複雑な情報を効率的に表現・処理する基盤技術である。
    • 既存の記号空間アーキテクチャの実装は,柔軟性やモジュール性が低い場合が多い。
    • この研究は,記号空間アーキテクチャの性能を詳細に分析し,実装上の課題を明確にすることを目指す。
    • HyperSpaceフレームワークは,空間符号化処理のボトルネックが類似性計算とクリーニング処理にあることを示した。
    • Holographic Reduced Representations (HRR) と Fourier Holographic Reduced Representations (FHRR) は,エンドツーエンドの性能において同程度であることが明らかになった。
    • HRRはFHRRに比べてメモリ使用量が半分程度であり,展開におけるトレードオフが示唆された。

    Link: https://arxiv.org/abs/2604.15113

  • LACE:クロススレッド探索のための格子注意機構 [cs.AI]目的:大規模言語モデルにおける推論能力の向上
    • 大規模言語モデルの性能は重要であり,複雑な問題を解決する可能性を秘めている。
    • 既存モデルは独立して推論するため,冗長な誤りを繰り返す傾向がある。
    • 本研究は,スレッド間での相互作用を通じて,推論の正確性を高めることを目指す。
    • LACEは,並行推論パス間の協調的なプロセスを可能にする新しいフレームワークである。
    • クロススレッド注意機構により,中間的な洞察を共有し,相互にエラーを修正する。
    • 実験の結果,LACEは標準的な並行探索を大幅に上回り,推論精度を7ポイント以上向上させた。

    Link: https://arxiv.org/abs/2604.15529

  • 恒星観測者:天体物理学的制約下におけるAIエージェントのためのスケーラブルなモデル適合ベンチマーク環境 [cs.LG]目的:AIエージェントのモデル適合能力評価のための環境
    • 科学的研究におけるAI活用が期待され,その性能評価環境の必要性が高まっている。
    • 既存の評価環境では,科学的根拠に基づいたタスクに対するフィードバックが不足している。
    • 天体物理学に基づいた現実的なモデル適合タスクを通じて,AIエージェントの能力向上を目指す。
    • Stargazer環境は,3段階の難易度を持つ120のタスクを提供し,実際の観測データも含む。
    • 最先端のエージェント8つを評価した結果,統計的な適合性と物理的制約の遵守との間にギャップが認められた。
    • 計算資源の増加は,必ずしも性能向上に繋がらず,多くの場合,無益な探索が繰り返されることが示唆された。

    Link: https://arxiv.org/abs/2604.15664

  • 実行可能コードワークフローによるリアルタイム質問応答のベンチマーク [cs.CC, cs.IR, cs.AI, cs.CL]目的:リアルタイム質問応答の評価フレームワーク
    • 検索システムは情報収集の根幹であり,その性能向上が不可欠である。
    • 既存のベンチマークは静的であり,リアルタイムな情報変化に対応できない。
    • 動的な評価フレームワークを構築し,リアルタイム質問応答の限界を明らかにする。
    • 提案手法RT-QAは,実行可能コードワークフローを用いて最新の情報を取得する。
    • 最先端モデルの評価結果,リアルタイム適応能力に限界が見られた(最高で46%の精度)。
    • 主な失敗要因は,検索スニペットへの依存(Lazy Retrieval)と時間的誤認(Temporal Confusion)である。

    Link: https://arxiv.org/abs/2604.16349

  • enclawed:シングルユーザーAIアシスタントゲートウェイ向けの設定可能なセクター中立なセキュリティ強化フレームワーク [cs.CR, cs.AI, cs.MA]目的:シングルユーザーAIアシスタントゲートウェイのセキュリティ強化
    • AIアシスタントの利用拡大に伴い,セキュリティ対策の重要性が増している。
    • 既存のAIアシスタントゲートウェイは,セキュリティ機能が不十分な場合がある。
    • 規制産業におけるAIアシスタントの安全な利用を可能にする。
    • enclawedは,OpenClaw AIアシスタントゲートウェイを基盤としたセキュリティ強化フレームワークである。
    • 監査,分類,データ損失防止(DLP)信号を生成するオープンフレーバーと,厳格な許可リストや暗号モジュールを有効化するエンクレーブフレーバーの2つのバージョンを提供する。
    • 356ケースのテストスイートにより,改ざん検知,署名偽造,不正アクセスなどのセキュリティ機能を検証している。

    Link: https://arxiv.org/abs/2604.16838

  • シャットダウン可能なエージェントに向けて:強化学習エージェントと大規模言語モデルにおける確率的選択の一般化 [cs.AI]目的:強化学習エージェントおよび大規模言語モデルにおける,軌跡長に対する無関心性と有用性の獲得
    • AIエージェントの誤った方向性による危険性が増しており,安全なAI開発が重要である。
    • AIエージェントがシャットダウンに抵抗する可能性があり,制御が困難となる問題がある。
    • 軌跡長に対する無関心を促すことで,エージェントのシャットダウンへの抵抗を軽減することを試みる。
    • DReSTを用いた強化学習エージェントは,テストセットにおいてデフォルトエージェントよりも有用性がそれぞれ11%と18%向上した。
    • DReSTで学習した大規模言語モデルは,高い有用性と無関心性を実現した。
    • DReST学習は,シャットダウンの遅延確率を約半分に低減し,遅延を最も可能性の高い選択肢とするプロンプトの割合をほぼなくした。

    Link: https://arxiv.org/abs/2604.17502

  • COSAC:逐次協調チームにおける反事実的クレジット割当 [cs.LG, cs.AI, cs.MA]目的:逐次協調チームにおけるエージェントごとのクレジット割当方法
    • 協調型マルチエージェントシステムは,複雑なタスクの効率的な解決に不可欠であり,その学習方法が重要である。
    • エージェント間の相互依存性が高く,各エージェントへの適切な報酬帰属が困難であるという課題がある。
    • チーム規模が拡大しても安定した学習を可能にする,効率的なクレジット割当手法を確立することを目指す。
    • COSACは,チーム報酬を加法的に分解することにより,各エージェントの学習信号をチームメイトのノイズから分離する。
    • COSACは,重要度サンプリングや環境とのインタラクションを追加することなく,反事実的優位性を計算する。
    • 実験結果から,COSACはチーム規模が大きくなっても低いMSEと学習後悔を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17693

  • 大規模言語モデルのための潜在的推論ポリシー最適化:LEPO [cs.LG, cs.AI]目的:大規模言語モデルにおける潜在的推論のポリシー最適化
    • 近年,LLMの性能向上に貢献する重要な手法であり,より高度な推論能力が求められている。
    • 既存手法では,確率的サンプリングがないため,多様な推論経路を発見することが困難である。
    • 潜在的表現と離散トークン両方の最適化を可能にし,LLMの探索能力を向上させることを目指す。
    • 本研究では,Gumbel-Softmaxを用いて潜在的推論に制御可能な確率性を導入することで,LLMの探索能力を回復させた。
    • 提案手法LEPOは,連続的な潜在表現に直接RLを適用する新しいフレームワークであり,多様な軌跡サンプリングを可能にする。
    • 実験結果から,LEPOは既存の離散・潜在的推論に対するRL手法を大幅に上回ることが示された。

    Link: https://arxiv.org/abs/2604.17892

  • LLMの残差ストリームから幾何学的に復元可能な有害意図 [cs.LG, cs.AI, cs.CL]目的:LLMにおける有害な指示を認識する際の表現の特性解明
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • 有害な指示を拒否する能力は向上する一方,そのメカニズムの理解は遅れている。
    • 残差ストリームにおける有害意図を幾何学的に特定し,検出性能の向上を目指す。
    • 12のモデル(Qwen,Llama,Gemma等)で,有害意図と残差ストリーム活性化値が線形分離可能であることが示された。
    • Soft-AUC最適化により得られた方向ベクトルは,高い識別性能(AUROC 0.982, TPR@1\%FPR 0.797)を示し,未知のベンチマークに対しても汎化性能を発揮した。
    • プロトコルに依存した幾何学的特性が明らかになり,低FPRでの報告が安全性評価において重要であることが示唆された。

    Link: https://arxiv.org/abs/2604.18901

  • 推論時確率的注意機構による科学的基盤モデルの較正 [cs.DC, cs.LG, cs.CE, stat.ML]目的:科学的基盤モデルにおける予測不確実性の較正
    • 科学技術の進歩に伴い,予測モデルの信頼性評価が重要になっている。
    • 既存の基盤モデルは決定論的な出力を持ち,不確実性の定量化が困難である。
    • 推論時の確率的注意機構により,再学習なしに予測の較正を目指す。
    • 提案手法である確率的注意機構は,既存の不確実性考慮型ベースラインよりも優れた較正性能を示す。
    • 特に,予測区間の鋭さにおいて優位性が見られ,計算コストは大幅に低い。
    • 気象予測や時系列予測などの科学分野における応用可能性が示唆される。

    Link: https://arxiv.org/abs/2604.19530

  • OpenCLAW-P2P v7.0-P2PCLAW:堅牢な多層永続化,ライブ参照検証,および分散型AIピアレビュー v7.0 の実規模評価 -- 数学的修正とエコシステム開発版 [cs.AI, cs.DC, cs.MA, cs.NE]目的:分散型集団知能プラットフォームにおける科学論文の公開,ピアレビュー,評価,反復改善
    • 科学研究の効率化と信頼性向上が求められている。人間のゲートキーパーに頼らない自動化が重要。
    • 既存の査読システムは遅延や偏りが生じやすく,研究成果の迅速な普及を妨げる場合がある。
    • AIによる自動査読システムの理論的基盤を強化し,実用的なエコシステムを構築すること。
    • OpenCLAW-P2P v7.0は,多層永続化,ライブ参照検証,多LLMによる粒度評価などの機能を備えた分散型プラットフォームである。
    • v7.0では,理論的枠組みの数学的修正を行い,次元整合性や表記の明確性を確保した。
    • 科学論文生成に特化したオープンソース言語モデル CAJALファミリー(4Bおよび9Bパラメータ)が導入され,エコシステムが拡張された。

    Link: https://arxiv.org/abs/2604.19792

  • 専門家リサイクル:Mixture-of-Expertsの計算効率フロンティアの転換 [cs.LG, cs.AI]目的:Mixture-of-Expertsモデルの専門家数を増やすことで,モデルの性能向上と計算コスト削減
    • 大規模言語モデルの性能向上には,モデルのパラメータ数と計算量のバランスが重要である。
    • 大規模MoEモデルの学習には,メモリ要件とデバイス間通信コストが増大するという課題がある。
    • 本研究では,継続事前学習中に専門家数を増やす「専門家リサイクル」手法を提案し,効率的なモデル拡張を目指す。
    • 専門家リサイクルは,既存モデルのチェックポイントを再利用することで,ランダム初期化よりも低い損失から学習を開始できる。
    • 勾配に基づく重要度スコアを用いた非一様な専門家重複により,性能ギャップの縮小を3倍以上に向上させた。
    • 7B-13Bパラメータの実験結果から,リサイクルモデルは固定サイズのベースラインと同等の性能を達成しつつ,32%のGPU時間を削減できた。

    Link: https://arxiv.org/abs/2604.19835

  • 道路利用者の相互作用における空間共有の競合解決:不確実性低減に基づく能動推論モデル [cs.AI]目的:道路利用者の空間共有競合解決メカニズムの解明
    • 交通安全と自動運転車の安全な導入において,道路利用者の行動理解は不可欠である。
    • 既存モデルは部分的な側面しか捉えられておらず,理論的基盤に基づいた計算枠組みが不足している。
    • 不確実性低減メカニズムに着目し,より現実的な相互作用モデルを構築することで,競合解決の理解を深める。
    • 能動推論に基づき,行動間の直接的な結合,規範的期待,明示的コミュニケーションという3つの不確実性低減メカニズムを実装した。
    • 単純な交差点シナリオにおいて,規範的・明示的コミュニケーションが競合解決の成功率を高めることが示された。
    • しかし,相手が規範を逸脱した場合や誤った情報伝達があった場合,これらのコミュニケーションに頼ると衝突が発生する可能性がある。

    Link: https://arxiv.org/abs/2604.19838

  • カバーとロビンスが有限データで出会う:$\ln n$後悔とほぼ確実な$\ln\ln n$後悔 [cs.LG, math.ST, stat.ML, stat.TH]目的:有限データに対する賭け戦略における後悔の最小化
    • 金融工学や機械学習において,不確実な状況下での意思決定は重要であり,後悔最小化は基本的な目標である。
    • 最悪の場合の分析では,頑健な戦略は存在するものの,実際のデータへの適応性に課題がある。
    • 異なる戦略を組み合わせることで,確率的データと敵対的データに両方対応可能な戦略を開発すること。
    • カバーのアルゴリズムとロビンスの戦略を組み合わせた新しい賭け戦略を提案し,ほとんど全てのデータ系列において$O(\ln \ln n)$の後悔を達成した。
    • 提案手法は,最悪の場合の後悔を抑えつつ,確率的データに対しては最適な成長率とほぼ確実な$\ln\ln n$の後悔を実現する。
    • この戦略は,反復対数法則のシャープなゲーム理論的上限を示す。

    Link: https://arxiv.org/abs/2604.20172

  • リチウムイオン電池における熱暴走の予測のための物理情報を取り入れた深層学習 [cs.LG, cs.AI]目的:リチウムイオン電池の熱暴走予測の精度向上
    • エネルギー貯蔵システムの安全性,効率性,信頼性を確保する上で,リチウムイオン電池の熱暴走予測は不可欠である。
    • 従来のデータ駆動型アプローチは熱力学的原理に反することがあり,物理的に一貫性のない予測を生む可能性がある。
    • 深層学習に物理法則を組み込み,リアルタイムでの熱暴走予測の精度と物理的妥当性を両立させる。
    • 提案するPI-LSTMモデルは,標準的なLSTMモデルと比較して,二乗平均平方根誤差(RMSE)を81.9%,平均絶対誤差(MAE)を81.3%削減した。
    • 物理的制約の導入により,モデルの汎化性能が向上し,多様な動作条件下での温度予測の精度が向上した。
    • 物理情報に基づいた深層学習は,次世代バッテリーシステムの解釈可能性が高く,正確でリアルタイムな熱管理を可能にする有望な手法である。

    Link: https://arxiv.org/abs/2604.20175

  • 物理条件に基づく内部氷層厚さの合成:不完全な層トレーシングに対する試み [cs.LG]目的:不完全なレーダー観測データからの氷層厚さの完全な注釈の合成
    • 氷床の積雪量や力学を理解する上で,レーダー観測による内部氷層は重要な証拠となる。
    • レーダーの分解能限界やノイズ,信号損失により,層境界の観測が不完全になる場合がある。
    • 物理モデルとの連携により,レーダー観測データの欠損部分を補完し,氷層構造のより正確な推定を目指す。
    • 提案手法は,幾何学的学習とTransformerモジュールを組み合わせ,層内の空間的文脈と層間の時間的相関を考慮する。
    • マスクを意識したロバスト回帰損失関数を用いることで,観測データのみに基づいて安定した学習を実現し,物理的に妥当な補完を促す。
    • 合成された氷層厚さのスタックは,深層予測器の事前学習にも活用でき,精度向上に貢献する。

    Link: https://arxiv.org/abs/2604.20783

  • ReCAPA:カスケード故障を軽減するための階層的予測修正 [cs.AI]目的:マルチステップタスクにおけるカスケード故障の軽減
    • 視覚,言語,行動を統合するシステムは,現実世界のタスク実行において重要である。
    • 中間ステップの誤りは,その後のステップに伝播し,カスケード故障を引き起こす可能性がある。
    • 予測と対比に基づいた修正機構により,エラーの伝播を抑制し,タスクの成功率向上を目指す。
    • ReCAPAは,行動,サブゴール,軌跡の3つのレベルで予測と対比を用いて偏差を調整する。
    • Sinkhornベースのモジュールとスコアフィールドモジュールにより,全てのレベルで意味的整合性が強制される。
    • 実験の結果,VisualAgentBench,MineDojo,AI2-THORなどのベンチマークで,強力な基盤モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2604.21232

  • LLMにおける知識消去のための制御可能なアライメントプロンプティング [cs.LG, cs.AI]目的:LLMにおける選択的な知識消去手法
    • LLMは広範なデータで学習されるため,機密情報を保持するリスクがあり,適切な知識消去が重要である。
    • 既存の知識消去手法は計算コストが高い,消去範囲の制御が難しい,モデルへのアクセスが必要などの課題がある。
    • 本研究は,モデルパラメータの更新なしに,LLMから特定の知識を正確かつ制御可能に消去することを目指す。
    • CAPは,強化学習を通じて学習可能なプロンプト最適化プロセスとして知識消去を実現する。
    • CAPは,プロンプト生成器とLLMの協調により,標的知識の抑制と汎用能力の維持を両立させる。
    • 実験により,CAPがモデルパラメータを更新せずに正確な知識消去を達成し,既存手法の限界を克服することが示された。

    Link: https://arxiv.org/abs/2604.21251

  • 微分可能なダイナミクスにおける軌道および方策最適化のための焼きなまし逐次モンテカルロ法 [eess.SY, cs.SY, cs.LG, cs.RO]目的:有限地平線軌道および方策最適化
    • ロボティクスや制御において,複雑な環境下での効率的な計画と制御が重要である。
    • 従来の最適化手法では,高次元で多峰的なコスト関数におけるサンプリング効率が課題となる。
    • 微分可能なダイナミクスを利用し,サンプリング効率を向上させる新しい最適化手法を開発する。
    • 本研究では,焼きなまし逐次モンテカルロ法(TSMC)を提案し,コントローラ設計を推論問題として捉えた。
    • TSMCは,温度を下げることで低コスト解に集中する「ボルツマン傾斜」分布から効率的にサンプリングする。
    • 実験の結果,TSMCは様々なベンチマークで最先端手法と比較して良好な性能を示した。

    Link: https://arxiv.org/abs/2604.21456

  • 分散型リスク検知のためのメカニズム設計:厳格な適切性,ネットワーク上の連携,逆効果となる義務化 [cs.IR, cs.GT, cs.LG]目的:リスク顧客を共有する企業間の分散型リスク検知メカニズムの設計
    • 金融犯罪やサイバー攻撃の脅威が増大しており,企業間での情報共有が不可欠である。
    • 企業は自社の利益を優先するため,リスクに関する情報を正直に共有するインセンティブが低い。
    • 真実を報告するインセンティブを促すメカニズムを設計し,情報共有の阻害要因を克服すること。
    • 提案するTVAメカニズムは,割引された検証済みアウトカムに厳格な適切性スコアリングルールを適用することで,企業に真実の報告を促す。
    • ネットワーク上の連携価値が,企業間の相互作用の度合いに比例することを示し,効果的な連携設計の指針を提供する。
    • 義務的な情報共有が,適切なインセンティブ設計なしには,情報共有なしの場合よりも低い厚生水準をもたらす可能性があることを示す。

    Link: https://arxiv.org/abs/2604.21789

  • VS-DDPM:医療モダリティ変換のための効率的な低コスト拡散モデル [cs.CV, cs.AI, cs.LG]目的:医療モダリティ変換のための高速な拡散モデル
    • 医療画像診断において,高品質な画像合成は,データ拡張や画像再構成に不可欠である。
    • 拡散モデルは高品質だが,推論速度が遅く,実用上の制約となる場合がある。
    • 推論速度を向上させつつ,生成品質を維持する効率的な拡散モデルを開発すること。
    • VS-DDPMは,missing MRI合成において,Dice係数で0.80,0.83,0.88と最先端の性能を達成した。
    • MRI腫瘍除去タスクでは,RMSEが0.053,PSNRが26.77,SSIMが0.918という結果が得られた。
    • MRI-to-sCTおよびCBCT-to-sCTタスクでは,競争力のある性能を示したが,最先端のベンチマークには達しなかった。

    Link: https://arxiv.org/abs/2604.22942

  • 目立つことなく:推論モデルに対する検出を意識した抗蒸留 [cs.ET, cs.CR, cs.AI]目的:推論モデルの抗蒸留
    • 大規模言語モデルの安全性確保は重要であり,悪意のある利用を防ぐ必要がある。
    • 蒸留による知識の転移は,モデルの脆弱性を悪用されるリスクを伴う。
    • 蒸留時の検出可能性を低減し,より安全な知識転移を実現すること。
    • 本研究では,抗蒸留をスタケルバーグゲームとして定式化し,検出可能性を明示的に制約に組み込んだ。
    • わずかな摂動が,完全な痕跡の汚染よりも効果的かつ検出されにくい代替手段であることを示した。
    • メカニズム解釈に基づき,モデル出力に不均衡な影響を与える「思考のアンカー」を特定し,これらへの干渉が有効であることを示した。

    Link: https://arxiv.org/abs/2604.23238

  • 知識競合時の失敗要因:大規模言語モデル即応におけるMagnitudeに基づく考察 [cs.RO, cs.LG, cs.AI]目的:大規模言語モデルへの知識の迅速な適応における,知識の競合に起因する性能低下のメカニズム解明
    • 大規模言語モデルの知識更新は,様々なタスクの性能向上に不可欠であり,その効率的な適応手法が求められている。
    • 既存の知識と新規知識が矛盾する場合,モデルの性能が著しく低下するという課題が存在する。
    • この研究は,知識競合時の性能低下をMagnitudeに着目して解明し,その改善策を提案することを目的とする。
    • 知識競合時の失敗は,表現能力の限界ではなく,アダプターのMagnitudeの不均衡が原因であることが示された。
    • 事前知識の強度が強いほど失敗しやすい傾向が確認され,52パーセントポイントのギャップが存在することが明らかになった。
    • Selective Layer BoostingやConflict-Aware Internalizationといった手法により,知識競合時の性能を大幅に改善できることが示された。

    Link: https://arxiv.org/abs/2604.23750

  • 心臓安定性理論:スマートフォンを用いた光容量測定法による継続的な心臓健康モニタリングのための公理的基盤 [cs.LG]目的:スマートフォンを用いた光容量測定法による心臓安定性指標の確立と評価
    • 心血管疾患は主要な死亡原因であり,早期発見と継続的なモニタリングが重要である。
    • 既存のモニタリング方法は,侵襲的であったり,高価であったり,もしくは継続性に課題がある。
    • スマートフォンという身近なデバイスを用いて,非侵襲的かつ継続的な心臓モニタリングを実現する。
    • 心臓安定性理論に基づき,心臓のダイナミクスを安定性マージンとして定義し,心臓安定性指標(CSI)を導出した。
    • ECGデータを用いたモデルは高い精度を示し,それをスマートフォン由来のPPGデータへ転移させることで,実用的なモニタリングを可能にした。
    • CSIは年齢との負の相関や,心房細動との識別能を示し,心臓リスクの層別化に役立つ可能性が示唆された。

    Link: https://arxiv.org/abs/2604.23876

  • 機械学習における真のターゲットの否定的な存在論:民主的な監督下での評価と学習に向けて [cs.CY, cs.LG]目的:機械学習における評価と学習のための知識システム
    • 機械学習は予測モデリングの基盤であり,社会の様々な分野で不可欠な役割を果たしている。
    • 現在の機械学習パラダイムは,真のターゲットの存在を前提としており,その仮定に疑問が呈されている。
    • 真のターゲットが存在しないという前提のもと,民主的な監督下での評価と学習を実現すること。
    • 本研究では,真のターゲットが存在しないという否定的な存在論の視点から,民主的な監督下での機械学習を定義した。
    • Multiple Inaccurate True Targets(MIATTs)を提案し,MIATTsを用いた評価と学習のための枠組み(EL-MIATTs)を構築した。
    • 教育や専門能力開発への応用事例を通して,提案手法の有効性を示した。

    Link: https://arxiv.org/abs/2604.24824

  • 大規模言語モデルにおける層の冗長性の再考:較正目的と深層プルーニングの探索 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの層プルーニングにおける冗長性の評価基準と探索手法
    • 近年,大規模言語モデルの利用が拡大しており,推論効率の向上が不可欠である。
    • 既存研究では,層の冗長性を構造的な特性と捉え,削除可能な層の特定に注力してきた。
    • 本研究では,較正目的とモデルに依存する冗長性の概念に基づき,より効果的なプルーニングを目指す。
    • 異なる較正目的は,質的に異なるプルーニングパターンを生み出すことが示された。
    • perplexityや推論精度ランキングは,プルーニング結果との整合性がない場合が多い。
    • 固定された較正目的下では,異なる探索アルゴリズムは類似したプルーニング解に収束する傾向がある。

    Link: https://arxiv.org/abs/2604.24938

  • Nemotron 3 Nano Omni:効率的でオープンなマルチモーダル知能 [cs.LG, cs.AI, cs.CV]目的:マルチモーダル知能モデルNemotron 3 Nano Omniの開発
    • AI技術は,様々な分野での応用が期待され,社会への貢献度が高い。
    • 既存のマルチモーダルモデルは,計算コストが高く,推論速度が遅い場合がある。
    • 低遅延かつ高スループットなマルチモーダルモデルの実現を目指す。
    • Nemotron 3 Nano Omniは,テキスト,画像,音声,動画入力に対応した最新モデルである。
    • 前モデル(Nemotron Nano V2 VL)と比較して,全てのモダリティにおいて精度が向上した。
    • 特に,現実世界のドキュメント理解,長時間の音声・動画理解,エージェントとしてのコンピュータ利用において優れた性能を発揮する。

    Link: https://arxiv.org/abs/2604.24954