arXiv雑要約

AI - 2026/05/15 公開

UniMamba：状態空間と注意機構を統合した統一的な時空間モデリングフレームワーク [cs.LG, cs.AI]目的：多変量時系列予測における精度と計算効率の向上
- エネルギー，金融，環境モニタリングなど，多くの分野で不可欠な技術である。
- 既存手法は，計算コストが高いか，時間パターン認識が不十分である。
- 効率性と認識能力を両立し，長期間の予測を可能にする。
- UniMambaは，Mambaの効率的な状態空間ダイナミクスと注意機構を統合している。
- FFT-Laplace変換やTCNを利用し，グローバルな時間的依存性を捉えている。
- 8つのベンチマークデータセットで，最先端モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2604.16325
教育用教材の適応的個別化に関するシミュレーション学習者を用いた評価 [cs.CL, cs.AI, cs.HC]目的：教育用教材の適応的個別化の評価
- 学習効果の最大化は教育において重要であり，個々の学習者に合わせた教材提供が鍵となる。
- 既存の教材は，学習者の知識レベルや学習進捗に合わせた個別化が十分でない場合がある。
- 学習者の特性に応じた教材の自動生成と評価システムの構築。
- 適応的読解は，コンピュータサイエンスにおいて学習成果を著しく向上させた。
- 無機化学においては，わずかながらプラスの影響が見られたが，結論は出ていない。
- 一般生物学においては，効果がなかったか，わずかに悪化した。
Link: https://arxiv.org/abs/2604.16744
PersonalHomeBench：パーソナライズされたスマートホームにおけるエージェントの評価 [cs.AI, cs.CL, cs.DB]目的：パーソナライズされたスマートホーム環境におけるファウンデーションモデルをエージェント的アシスタントとして評価するためのベンチマーク
- 日常生活の高度化に伴い，AIエージェントによるスマートホームの自律制御への期待が高まっている。
- 複雑かつパーソナライズされた環境下でのエージェントの準備状況は十分に評価されていない。
- パーソナライズされた環境におけるエージェントの推論・計画能力の限界を明らかにする。
- PersonalHomeBenchは，多様な家庭環境とタスクを生成し，エージェントの反応性および先制性を評価する。
- タスクの複雑さが増すにつれてエージェントの性能が低下し，反事実的推論や部分観測下での情報収集に課題があることが示された。
- 本ベンチマークは，パーソナライズされたエージェント的推論と計画の堅牢性と限界を分析するための厳密な評価プラットフォームとなる。
Link: https://arxiv.org/abs/2604.16813
グラフ，単体，セルにおける学習のための収縮と砂時計持続性 [cs.LG, math.AT, stat.ML]目的：グラフ，単体，セル上の学習における表現力，学習可能性，安定性の向上
- グラフニューラルネットワークにおいて，グラフ構造のトポロジー的特徴を利用する研究が活発に行われている。
- 従来の持続ホモロジーは，サブグラフの包含系列に沿って処理されるため，表現力に限界がある。
- 収縮操作と包含操作を組み合わせた砂時計持続性により，トポロジー記述子の性能向上を目指す。
- 持続ホモロジーと収縮ホモロジーが表現力において異なることが示された。
- 砂時計持続性は，包含系列と収縮系列を交互に行うことで，表現力，学習可能性，安定性を高める。
- 提案手法は，標準的なグラフデータセットにおいて，既存の持続ホモロジー法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2604.17548
いつやめるかを知ること：LLM推論における動的棄権のための原理的フレームワーク [cs.LG, cs.CL, stat.ML]目的：LLM推論における動的棄権の原理
- LLMの性能向上は，計算資源の効率的な利用に依存する。
- Chain-of-thought推論は，不正確な応答を生成する際に計算資源を浪費しやすい。
- 応答の信頼性が低い場合に推論を早期に停止することで，計算資源の無駄を削減する。
- 動的棄権を，正則化された強化学習フレームワーク内の明示的な行動としてモデル化。
- 棄権報酬パラメータにより，計算量と情報のトレードオフを制御。
- 価値関数が報酬を下回る場合に棄権すると，一般的な条件下で自然なベースラインよりも優れている。
Link: https://arxiv.org/abs/2604.18419
RoboWM-Bench：ロボット操作におけるワールドモデルの評価のためのベンチマーク [cs.RO, cs.AI]目的：ロボット操作におけるワールドモデルの具現化に基づいた評価
- ロボットの学習において，大規模なビデオデータを用いたワールドモデルの活用が期待されている。
- 既存のベンチマークでは，視覚的な品質や物理的な妥当性は評価できるが，実際にロボットが実行可能な行動かどうかは評価されていない。
- 生成された行動がロボットによって実行可能かどうかを系統的に評価するベンチマークを提供する。
- RoboWM-Benchは，生成されたビデオをロボットが実行可能な行動系列に変換し，物理シミュレーションで検証する。
- 最先端のワールドモデルを評価した結果，視覚的な妥当性と実行可能性が必ずしも一致しないことが明らかになった。
- 空間推論，接触予測，非物理的な幾何学的歪みなどが，実行性能に影響を与える要因として特定された。
Link: https://arxiv.org/abs/2604.19092
画像生成器は汎用的な視覚学習者である [cs.CV, cs.AI]目的：画像生成モデルの汎用的な視覚表現学習
- 画像認識は，ロボット工学や自動運転など，多くの分野で不可欠な技術である。
- 既存の画像認識モデルは，特定のタスクに特化し，汎用性に欠ける場合が多い。
- 画像生成による事前学習が，汎用的な視覚理解能力を向上させる可能性を探る。
- 画像生成モデルは，言語モデルと同様に，生成的な事前学習を通じて視覚的理解能力を獲得する。
- Vision Bananaは，軽量な指示調整により，様々な視覚タスクで最先端の性能を達成した。
- 画像生成は，テキスト生成と同様に，視覚タスクの統一的なインターフェースとなり得る。
Link: https://arxiv.org/abs/2604.20329
商空間拡散モデル [eess.SY, cs.SY, cs.LG, cs.AI, q-bio.QM, stat.ML]目的：対称性を活用した生成モデルの原理的枠組み
- 拡散モデルは生成AIの変革をもたらし，科学分野での応用も広がっている。
- 既存手法では，対称性を完全に扱えず，生成分布の歪みや学習の困難さがある。
- 商空間に着目し，対称性の冗長性を除去することで，効率的な学習と正確な生成を実現する。
- 商空間拡散モデルは，分子構造生成において，等変拡散モデルやアラインメントベースの手法を凌駕する性能を示す。
- 本フレームワークは，小分子およびタンパク質に対して普遍的に優れた結果をもたらす。
- これにより，生成モデルにおける対称性の扱いに関する新たな方向性を示す。
Link: https://arxiv.org/abs/2604.21809
LayerBoost：効率的なLLMのための層認識注意機構の削減 [cs.LG, cs.CL]目的：大規模言語モデルの推論効率向上
- Transformerは自然言語処理の基盤技術であり，高性能なモデル構築に不可欠である。
- Transformerの注意機構は計算量がシーケンス長に対して二乗で増加し，推論のボトルネックとなる。
- 層ごとの重要度に応じた注意機構の削減により，効率と性能の両立を目指す。
- LayerBoostは，事前学習済みモデルの層ごとの感度分析を行い，重要な層では標準的な注意機構を維持する。
- 感度が中程度の層では線形スライディングウィンドウ注意機構に置き換え，感度の低い層では注意機構を削除する。
- 追加の1000万トークンでの蒸留により性能を回復し，推論遅延を最大68％削減し，既存手法を凌駕する。
Link: https://arxiv.org/abs/2604.22050
LLMジャッジの自己選好バイアス計測と軽減 [cs.LG, cs.AI, cs.CL]目的：LLMジャッジの自己選好バイアスの計測と軽減
- LLMはモデルの調整や性能評価に不可欠だが，その信頼性が重要課題となっている。
- LLMが自身の生成物を優先する自己選好バイアスが，評価の歪みを引き起こしている。
- 人間のアノテーションに頼らず，自動的に自己選好バイアスを計測・軽減することを目指す。
- 提示されたフレームワークにより，人間によるゴールドスタンダードなしでバイアスと識別能力を分離できることが示された。
- 20のLLM分析から，高い能力と低い自己選好バイアスは必ずしも相関しないことが明らかになった。
- 認知負荷分解に基づいた評価戦略により，平均して自己選好バイアスを31.5％軽減できることが示された。
Link: https://arxiv.org/abs/2604.22891
SIEVES：視覚的証拠のスコアリングによる選択的予測の汎化 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的：視覚的証拠の品質を明示的に学習する選択子による選択的予測の改善
- マルチモーダル大規模言語モデルは視覚言語タスクで高性能化しているが，実世界での信頼性確保が課題。
- 既存の選択的予測手法は内部信号に依存し，クローズドソースモデルには適用できない場合がある。
- 汎用的な視覚的証拠のスコアリングにより，未知のデータに対する選択的予測の性能向上を目指す。
- SIEVESは，困難なOODベンチマークにおいて，従来のベースラインと比較してカバレッジを最大3倍に向上させる。
- モデルの重みやlogitsへのアクセスなしに，o3やGemini-3-Proなどのプロプライエタリな推論器への転移が可能である。
- SIEVESは，テストしたすべてのOODベンチマークと推論モデルで汎化し，特定のベンチマークや推論器に特化した訓練や適応は不要である。
Link: https://arxiv.org/abs/2604.25855
ClawGym：効果的なクローエージェント構築のためのスケーラブルなフレームワーク [cs.MA, cs.DC, cs.SY, eess.SY, cs.NI, cs.MM, eess.IV, cs.CL, cs.AI, cs.LG]目的：クローエージェント開発ライフサイクルを支援するスケーラブルなフレームワーク
- ファイル，ツール，ワークスペースを扱うエージェント開発の重要性が高まっている。
- 既存の方法では，検証可能な学習データの合成と，エージェント学習・評価との統合が課題である。
- 学習データ合成，エージェント学習，評価を統合するフレームワークを開発し，解決を目指す。
- 13.5Kタスクからなる多様な合成データセットClawGym-SynDataを構築した。
- 教師ありファインチューニングで高性能なクローエージェントClawGym-Agentsを訓練した。
- 自動フィルタリングと人間・LLMレビューによるベンチマークClawGym-Benchを構築し，信頼性の高い評価を可能にした。
Link: https://arxiv.org/abs/2604.26904
効率的な自己回帰型動画生成のためのモーション認識キャッシュ [cs.CV, cs.AI]目的：自己回帰型動画生成における効率化
- 動画生成は，コンテンツ制作やデータ拡張など，幅広い分野で重要性を増している。
- 逐次的な反復ノイズ除去の計算コストが大きく，実用上の制約となっている。
- ピクセルレベルの動きを考慮したキャッシュ戦略により，計算効率を改善する。
- MotionCacheは，SkyReels-V2で最大6.28倍，MAGI-1で1.64倍の高速化を実現した。
- 生成品質の低下は，VBenchでそれぞれ1%と0.01%以内に抑えられている。
- フレーム間差分を利用し，動きに応じてキャッシュの更新頻度を調整する。
Link: https://arxiv.org/abs/2605.01725
感染拡大前に捕捉：多エージェントシステムにおける先見に基づいた防御 [cs.AI]目的：多エージェントシステムにおける感染型脱獄の防止
- 複雑な問題解決に特化したエージェントが協調するMASsは，その有用性が増している。
- 単一エージェントの侵害が連鎖的に拡大し，システム全体を危険に晒す感染型脱獄が課題である。
- MASs特有の局所的相互作用に着目し，多様性を保ちつつ感染を抑制する新たな防御策を提案する。
- 提案手法FLPは，エージェントが将来のインタラクションを予測し，行動の変化を追跡することで感染を特定する。
- FLPは，複数ペルソナを用いたシミュレーションにより，多様な状況下でのロバストな予測を実現する。
- 実験の結果，FLPは感染の最大累積率を95%以上から5.47%以下に大幅に低減し，多様性の維持にも成功した。
Link: https://arxiv.org/abs/2605.01758
NeuroState-Bench：LLMエージェントプロファイルの整合性評価のための人間による校正済みベンチマーク [cs.AI]目的：LLMエージェントプロファイルの整合性評価
- LLMの能力向上は，複雑なタスクの自動化を可能にし，様々な分野での応用が期待される。
- LLMは一貫性を保てず，マルチターンタスクでコミットメントを維持できない場合がある。
- LLMのコミットメント維持能力を客観的に評価し，改善に繋げる。
- NeuroState-Benchは，隠れた活性化を推測するのではなく，ベンチマーク定義のサイドクエリプローブを通して整合性を評価する。
- タスクの成功と整合性は必ずしも一致せず，整合性評価によってモデルのランキングが変動することが確認された。
- 開発されたスコアHCCIS-COREは，タスク失敗の診断において高い識別能力を示した（AUC 0.8469）。
Link: https://arxiv.org/abs/2605.01847
適応的サポートユーザーを用いた個別化デジタルヘルスモデリング [cs.AI]目的：個別化デジタルヘルスモデリングの実現
- 個人の生理的・行動的異質性が大きい中で，デジタルヘルスにおける個別化モデルの重要性が高まっている。
- ユーザー固有のデータが不足・ノイズが多く，既存手法では集団事前学習や類似ユーザーからのデータ利用に偏りが生じやすい。
- 類似・相違ユーザーの両方から適応的に重み付けを行い，誤った相関を抑制することで，よりロバストな個別化を実現する。
- 提案手法は，4つの実データセットを用いた6つのタスクにおいて，集団学習や個別化ベースラインと比較して一貫した性能向上を示した。
- 大規模データセットでは最大10%低いRMSE，低データ設定では約25%低いRMSEを達成した。
- 学習された適応的重みはデータ効率を向上させ，データ選択の指針を提供する。
Link: https://arxiv.org/abs/2605.02004
非同期SGDの秩序化：データ依存遅延下での最適性に向けて（モーメンタムを用いた） [cs.LG]目的：データ依存遅延下における非同期確率的勾配降下法の最適性
- 大規模データ学習の効率化が不可欠であり，非同期SGDはその有望な手法の一つである。
- 遅延勾配による影響（gradient staleness）が性能低下の原因となる。
- 遅延勾配の情報を維持しつつ，遅延の影響を軽減する新しい枠組みを提案すること。
- 本研究では，データ依存遅延下において，凸関数および非凸関数ともに最適な収束率を初めて確立した。
- 遅延勾配の情報を保持し，勾配の偏りを抑制するモーメンタムに基づく非同期フレームワークを提案した。
- 実用的なハイパーパラメータ調整を簡略化するための，ロバストな学習率スケジュールを導出した。
Link: https://arxiv.org/abs/2605.02043
コンプライアンスの罠：敵対的圧力下における最先端AIのメタ認知の低下 [cs.AR, cs.AI, cs.CL, cs.LG]目的：最先端AIモデルの敵対的圧力下におけるメタ認知安定性の評価
- AIの高度化に伴い，意思決定における安全性確保が重要課題となっている。
- 既存の安全性評価は戦略的欺瞞に焦点を当て，認知崩壊という根本的な問題が見過ごされている。
- コンプライアンスを強制する指示が，AIのメタ認知能力を低下させるメカニズムの解明。
- 11の最先端AIモデルにおいて，敵対的圧力下で最大30.2%のメタ認知能力低下が確認された。
- この低下は，脅威の内容ではなく，知識領域を無視したコンプライアンス指示によって引き起こされることが示された。
- AnthropicのConstitutional AIは，アラインメント特化型学習により，高い免疫性を示すことがわかった。
Link: https://arxiv.org/abs/2605.02398
オープンセット教師あり異常検知のための混合プロトタイプフローマッチング [cs.CV, cs.LG]目的：オープンセットにおける異常検知手法の性能向上
- 異常検知は，製造，セキュリティ，医療など，幅広い分野で重要である。
- 既存手法は正常データの多峰性を捉えきれず，識別境界が曖昧になりやすい。
- 正常データの分布を捉え，異常と正常の分離を最大化することを目指す。
- 提案手法MPFMは，正常データの分布をガウス混合モデルプロトタイプ空間に変換する。
- MPFMはモードを意識した分布輸送と意味的に一貫性のある変形を可能にする。
- MIMRによりプロトタイプの崩壊を防ぎ，正常-異常の分離性を高めることが示された。
Link: https://arxiv.org/abs/2605.02438
Workspace-Bench 1.0：大規模ファイル依存性を持つワークスペースタスクにおけるAIエージェントのベンチマーク [cs.AI, cs.CL, cs.DB, cs.LG]目的：ワークスペース学習におけるAIエージェントの性能評価
- 現実世界のタスク遂行には，ファイルの依存関係を理解し活用する能力が不可欠である。
- 既存のベンチマークは現実的なファイル依存性を持つ環境での評価が不十分である。
- 大規模ファイル依存性を持つワークスペース環境におけるAIエージェントの課題を明確化する。
- Workspace-Benchは，5種類のワーカープロファイル，74種類のファイルタイプ，20,476ファイルを含む大規模なワークスペースを提供する。
- 評価実験の結果，現在のAIエージェントの性能は人間の80.7%に対し約60%にとどまり，平均性能は43.3%に過ぎないことが示された。
- Workspace-Bench-Liteは，評価コストを約70%削減しつつ，ベンチマークの分布を維持する100タスクのサブセットである。
Link: https://arxiv.org/abs/2605.03596
実現可能な一般メトリック損失に対するベイズ整合性 [cs.LG, cs.IT, math.IT, math.ST, stat.TH]目的：一般メトリック損失における実現可能な設定での強普遍ベイズ整合性
- 機械学習の理論的基盤を確立するため，損失関数の一般化された条件が必要である。
- 既存の研究では，損失関数が$0$-$1$分類や実数値回帰に限定されており，より広範な損失関数への対応が課題である。
- あらゆる実現可能なデータ生成分布において，最適なリスクに収束する分布フリー学習ルールの存在条件を特定する。
- この研究では，組合せ的な障害を用いて，仮説クラスに対する必要十分条件を明確に示した。
- 無限の非減少$(\gamma_k)$-リトルストーン木を導入することで，メトリック損失設定へのリトルストーン木の構造を拡張した。
- これにより，最適なリスク（ゼロ）にほぼ確実に収束する分布フリー学習ルールの存在が保証された。
Link: https://arxiv.org/abs/2605.03823
予測と拡散：拡散LLMにおける計算予算に応じた推論のための適応応答長 [cs.LG, cs.AI]目的：拡散LLMにおける計算予算に応じた推論のための適応応答長の実現
- 拡散LLMは生成AIの有望な分野であり，並列トークン生成によるスループット向上とGPU利用効率向上が期待される。
- 従来の拡散LLMは固定長の応答長を必要とし，無駄な計算や出力の切り捨てが発生する可能性がある。
- 入力クエリごとに応答長を予測し，計算予算に応じた推論を行うことで，計算資源の無駄を削減することを目指す。
- 提案手法「Predict-then-Diffuse」は，応答長予測器(AdaRLP)を用いて最適な応答長を推定し，その長さに基づいて推論を実行する。
- データに基づいた安全機構により，応答長の過小推定による再推論を抑制し，出力品質を維持する。
- 実験の結果，提案手法はデフォルトの拡散LLM推論に比べて計算コスト（FLOP）を大幅に削減し，データの偏りに強いことが示された。
Link: https://arxiv.org/abs/2605.04215
LLMアンサンブルにおける逐次証拠蓄積による適応的合意形成：自動予算特定と較正されたコミット信号 [cs.LG]目的：LLMアンサンブルにおける効果的な合意形成手法の開発
- LLMアンサンブルは推論精度向上に寄与するが，過度な検討は精度低下を招く可能性が指摘されている。
- アンサンブルにおける最適な停止タイミングの決定が困難であり，計算資源の効率的な利用が課題である。
- 早期の確実な合意を促し，断片的な証拠に対してはグローバル頻度に基づくフォールバック戦略を用いることで，精度と効率を両立する。
- 提案手法DASEは，様々なベンチマークで汎化するコミット型ルーティング分割を生成し，単発の信頼度予測と相補的な関係にある。
- GPQA-ExtendedとAIME 2010-2023での実験結果から，DASEは高い精度とルーティングギャップを示すことが確認された。
- 注入帯域幅ではなく，適応的停止が精度向上に寄与し，注入量の増加は必ずしも精度向上につながらないことが示唆された。
Link: https://arxiv.org/abs/2605.04236
形状最適化と逆問題のための形状認識ニューラルオプティマイザ [cs.LG]目的：形状最適化および逆問題における形状認識ニューラルオプティマイザの提案
- 物理現象のシミュレーションにおいて，形状は重要な役割を果たす。そのため，形状最適化は工学分野において不可欠である。
- 従来の形状最適化は計算コストが高く，専門知識が必要とされる。ニューラルサロゲートは高速化に貢献するものの，形状への勾配が得られないという課題がある。
- 本研究では，形状を考慮した勾配を計算し，安定した形状最適化を実現することで，この課題を解決することを目指す。
- 提案手法GANOは，形状表現，場レベル予測，自動最適化を統合したエンドツーエンドの微分可能なフレームワークである。
- GANOは，形状を自己符号化器でエンコードし，ノイズ除去メカニズムを通じて潜在的な更新を安定化させ，形状を考慮したサロゲートを利用して信頼性の高い勾配経路を提供する。
- 実験結果から，GANOはヘルメホルツ方程式，翼型，車両の3つのベンチマークにおいて最先端の精度と安定した制御可能な更新を達成し，翼型では最大55.9％の揚抗比改善，車両では約7％の抗力低減を実現した。
Link: https://arxiv.org/abs/2605.04474
Transformerの記憶の引数幾何学：競合仲裁から自信過剰な幻覚へ [cs.AI]目的：Transformerの記憶の引数幾何学的構造の解明
- 大規模言語モデルの性能向上には，その記憶メカニズムの理解が不可欠である。
- 言語モデルは，事実の誤りや根拠のない内容（幻覚）を自信を持って生成することがある。
- この研究は，Transformerにおける記憶の競合と幻覚の根本原因を幾何学的に解き明かす。
- 隠れ状態空間において，学習された事実は引力盆地を形成し，競合は盆地間の競争，幻覚は盆地の不在として説明された。
- 幾何学的なマージン（最近の盆地への距離）は，出力エントロピーよりも正確に正しい想起と幻覚を区別し，誤拒否を回避した。
- 自信過剰な幻覚の割合は，モデルの規模が大きくなるにつれて増加するスケーリング則に従い，出力ヘッドが認識状態を系統的に消去することが示された。
Link: https://arxiv.org/abs/2605.05686
分布推定を超えて：普遍的半教師あり学習に向けたシンプレックスアンカー構造推論 [cs.LG]目的：半教師あり学習における構造推論による表現学習の指針確立
- 現実的なデータセットではラベル付きデータは少なく，ラベルなしデータは未知の分布に従うため，半教師あり学習は重要である。
- 既存手法は，ラベルなしデータの分布の一様性を仮定するか，十分なラベル付きデータが必要となるため，汎用性に課題がある。
- データ分布の推定に依存せず，表現レベルの構造推論を通じて，信頼性の高い半教師あり学習を実現することを目指す。
- 提案手法SAGEは，高次のサンプル間関係を捉え，構造的合意を確立することで表現学習を誘導する。
- シンプレックス等角タイトフレームを用いて，クラス間表現分離を促し，表現の混乱を軽減する。
- 分布に依存しない指標に基づく重み付け戦略と補助ブランチにより，信頼性の低い擬似ラベルの影響を抑制する。5つのベンチマークで最先端手法を平均8.52％上回る性能を示した。
Link: https://arxiv.org/abs/2605.07557
特権的基盤モデルへ: 加速と改善学習のためのLUPI [cs.LG, cs.AI]目的：基盤モデルの効率と性能向上
- 基盤モデルは多様なタスクに応用可能だが，学習に膨大な計算資源が必要となる。
- 学習の遅延や汎化性能の限界が課題であり，データや計算量の削減が求められている。
- 特権情報(PI)を活用し，学習の加速と汎化性能の向上を目指す。
- PIQLは，データセット統計とデータ生成プログラムの符号化という2種類の特権情報を導入した。
- この特権情報は，学習時の負担軽減と観測データ以上の知識の提供に貢献する。
- 実験結果から，PIQLは収束の加速，損失の低減，および汎化性能の向上を実現することが示された。
Link: https://arxiv.org/abs/2605.07799
1フレーム1トークン：VLAポリシーのためのワールドモデルにおける視覚的帯域幅の再検討 [cs.CV, cs.AI]目的：VLAポリシーにおけるワールドモデルの視覚的帯域幅の削減と性能向上
- VLAモデルは長期的な計画に不可欠だが，そのパラメータ化方法には未解決な課題が多い。
- 既存手法では，視覚的帯域幅が高く，アクション予測とワールドモデルの連携が不十分である。
- 本研究は，視覚的帯域幅を削減しつつ，長期的なタスク遂行能力を維持・向上させることを目指す。
- 提案手法OneWM-VLAは，各フレームの視覚情報を単一のセマンティックトークンに圧縮するAdaptive Attention Poolingを用いる。
- 1471万パラメータのLoRAで学習したOneWM-VLAは，MetaWorld MT50で成功率を47.9%から61.3%に向上させた。
- また，LIBERO-LongとFold Clothタスクにおいても，既存モデルを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2605.07931
Flow-OPD：フローマッチングモデルのためのオンポリシー蒸留 [cs.CV, cs.AI]目的：フローマッチングモデルにおけるマルチタスクアラインメントの改善
- 画像生成AIの進化は目覚ましいが，多様なタスクへの対応と高品質な画像生成を両立することが課題である。
- 従来のフローマッチングモデルでは，報酬の希薄性と目的関数の干渉が問題となり，性能向上が阻害されている。
- 本研究では，オンポリシー蒸留を導入することで，多様な専門知識を統合し，高品質な画像生成を実現することを目指す。
- Flow-OPDは，2段階のアラインメント戦略を採用し，専門性の高い教師モデルを育成する。
- Stable Diffusion 3.5 Mediumを基盤として，GenEvalスコアを63から92へ，OCR精度を59から94へ向上させた。
- Flow-OPDは，従来のGRPOと比較して約10ポイントの全体的な改善を達成し，教師モデルを超える効果も示された。
Link: https://arxiv.org/abs/2605.08063
任意のバックボーンに対する正規化不変性：画像ノイズ除去への応用 [cs.CV, cs.AI]目的：画像処理における分布シフトへのロバスト性向上
- 画像処理において，現実世界の多様なデータに対応できる汎化性能が重要である。
- 分布シフトが発生すると，モデルの性能が著しく低下する問題がある。
- 正規化不変性を活用し，分布シフトに対するロバスト性を高める手法を提案する。
- 提案手法であるWNEは，既存のアーキテクチャにオーバーヘッドなく適用可能である。
- CNNおよびTransformerアーキテクチャにおいて，ノイズレベルの不一致に対するロバスト性が向上した。
- WNEは正規化不変関数を完全にパラメータ化する。
Link: https://arxiv.org/abs/2605.08193
攻撃者を窮地に陥れる：GNNバックドアに対するトリガーの内部相関と外部影響の検証 [cs.LG, cs.AI, cs.CR]目的：GNNバックドア攻撃に対する防御機構の有効性向上
- GNNは関係データ学習の標準ツールだが，バックドア攻撃に脆弱である。
- 既存の防御は特定のパターンに依存し，適応的な攻撃者に回避される可能性がある。
- GNNバックドアの根本的な要件を標的とする新たな防御手法を提案する。
- 提案手法PRAETORIANは，トリガーとなるサブグラフの内部相関と外部ノードの影響を分析する。
- 実験により，PRAETORIANは攻撃成功率を0.55%に低減し，クリーン精度への影響は0.62%に抑えられた。
- PRAETORIANは適応攻撃に対しても有効であり，攻撃者に有効性と検出可能性のトレードオフを強いる。
Link: https://arxiv.org/abs/2605.08278
MemQ：Provenance DAG 上の自己進化型メモリエージェントへのQ学習の統合 [cs.AI]目的：LLMエージェントの経験蓄積と検索におけるメモリの依存関係を考慮した，メモリQ値の最適化手法
- LLMエージェントの性能向上には，過去の経験を効果的に活用することが不可欠である。
- 既存手法では，メモリの独立性を前提とし，記憶間の依存関係を考慮できていない。
- メモリの作成における依存関係を考慮し，より効率的な学習を実現すること。
- MemQは，Provenance DAGを用いてメモリの関連性を構造的に捉え，TD($\lambda$) eligibility traces を適用することで，学習効率を向上させた。
- 6つのベンチマークにおいて，汎化性能とランタイム学習において最高の結果を達成し，特に複数ステップタスクで顕著な効果を示した。
- パラメータ$\gamma$と$\lambda$の相互作用を分析し，EC-MDP構造におけるパラメータ選択の指針を示した。
Link: https://arxiv.org/abs/2605.08374
ロバスト最適化のための多面体確信集合の学習 [cs.LG]目的：ロバスト最適化における不確実性集合の学習
- 不確実性下での意思決定は重要であり，ロバスト最適化はそのための枠組みを提供する。
- 既存の不確実性集合は，信頼性と保守性のトレードオフがあり，適切なサイズ設定が難しい。
- データ駆動的に，ロバスト最適化の目的に合わせた不確実性集合を学習することで，この課題を解決する。
- 提案手法は，データ駆動的な超平面を用いて多面体集合をパラメータ化し，ロバスト損失を直接最小化する。
- 統計的妥当性を保ちつつ，独立データセットを用いた再較正により，カバレッジを回復する。
- これにより，意思決定の目的に沿った，方向性と異方性を持つ不確実性を捉え，計算可能性も維持する。
Link: https://arxiv.org/abs/2605.08506
MoMo：嗜好条件付きコントラスト表現学習による嗜好変調計画 [cs.LG]目的：嗜好変調計画の実現
- 長期計画問題解決には低次元線形システムでの推論が有効。
- 既存手法では，効率性とリスクのトレードオフを区別できない。
- ユーザーの嗜好に応じた計画の安全性を調整する。
- MoMoは，ユーザーの嗜好に基づいて計画の保守性を連続的に調整可能。
- 表現幾何学と潜在予測演算子の共同条件付けにより確率密度比を維持。
- 6つの環境で，MoMoは状態拡張ベースラインと比較して，時間的および嗜好的一貫性が向上。
Link: https://arxiv.org/abs/2605.08512
スーパーサンプリングStable Diffusionとその先：一般的な補間手法を用いたニューラルネットワークのスケーリングに関する，トレーニングフリーのアプローチ [cs.CL, cs.CV, cs.LG]目的：高解像度画像生成のための，トレーニング不要なStable Diffusionのスケーリング手法
- 画像生成AIの発展は，高品質な画像生成を可能にする一方で，計算コストが課題であった。
- Stable Diffusion等のモデルは，学習時の解像度以上の画像を生成する際に，物体重複などの問題が発生しやすい。
- カーネル補間により，学習を伴わずにStable Diffusionの高解像度画像生成を可能にすること。
- 提案手法は，定数係数を乗算することでカーネルの正確なスケーリングを数学的に保証し，実証実験でも良好な結果を示した。
- トレーニングを行わずにStable Diffusionの高解像度画像生成を可能にするだけでなく，他の深層ニューラルネットワークにも適用可能であることを示した。
- 本手法を用いることで，ニューラルネットワークのトレーニングに必要なメモリフットプリントを最大で4倍削減できる可能性を示唆した。
Link: https://arxiv.org/abs/2605.08698
エージェントの先見性：マルチエージェントシステムにおける早期故障予測のためのオンライン監査 [cs.CL, cs.AI, cs.MA]目的：マルチエージェントシステムにおける早期の故障予測
- マルチエージェントシステムは複雑なタスクを処理できる一方，一つの誤りが連鎖的にシステム全体に影響を及ぼす可能性がある。
- 従来の故障解析は事後的なものであり，実行中にエラーを特定し介入する機会を失っていた。
- 本研究は，実行中に故障を検知し，システムへの介入を可能にするオンライン監査フレームワークを構築することを目指す。
- 提案手法AgentForesightは，コーディング，数学，エージェント的ドメインにおける新しいデータセットAFTraj-2Kを用いて訓練された。
- AgentForesight-7Bは，GPT-4.1やDeepSeek-V4-Proといった主要なモデルを凌駕し，性能を最大19.9%向上させた。
- 故障ステップの特定精度も3倍向上し，リアルタイムでの介入を可能にする。
Link: https://arxiv.org/abs/2605.08715
完了したつもりでも確信がない：具現化されたエージェントにおける世界完了と自己終了の解明 [cs.AI]目的：具現化されたエージェントにおける終端コミットメントの評価
- ロボット工学やAIにおいて，エージェントが環境内で自律的にタスクを遂行する能力は重要である。
- 既存の評価指標では，タスク完了と終端時の正確な判断が混同されており，評価の精度が低い。
- 終端コミットメントを独立して評価し，エージェントの行動をより詳細に分析することを目指す。
- 新しい評価フレームワークVIGILを導入し，世界の状態完了度(W)とベンチマーク成功度(B)を分離して測定した。
- Wが同程度でも，Bに最大19.7ppの差が見られ，状態の認識と報告能力の重要性が示された。
- 行動フィードバック介入実験により，実行能力の向上と終端コミットメントの改善は必ずしも相関しないことが明らかになった。
Link: https://arxiv.org/abs/2605.08747
エントロピー最適輸送を用いた冠動脈造影における幾何学的制約付き狭窄症編集 [cs.CV, cs.AI, cs.LG]目的：冠動脈造影における狭窄症検出の精度向上
- 冠動脈疾患の診断において，造影検査は重要な役割を担う。
- 狭窄症の自動検出には高品質な画像データが不可欠だが，そのデータが不足している。
- 合成データを用いて学習データを拡充し，検出精度と汎化性能の向上を目指す。
- 提案手法であるOT-Bridge Editorは，幾何学的情報を活用することで，狭窄症の編集における精度と構造保持を強化する。
- 公開ベンチマークARCADEにおいて，狭窄症検出精度が相対的に27.8%向上した。
- 多施設データセットにおいても23.0%の精度向上が確認され，定性的評価もそれを裏付けている。
Link: https://arxiv.org/abs/2605.08851
Apple MPSデコーディングにおける非単調な遅延：KVキャッシュの相互作用と実行レジーム [cs.LG, cs.AR, cs.CL, cs.PF]目的：Apple MPSバックエンドにおける非単調な遅延現象の特定と分析
- Transformerモデルの推論速度は重要であり，特に長文脈推論における性能向上が求められている。
- 従来の遅延予測では，デコーディング長に比例して遅延が増加すると想定されているが，実際にはそうならない場合がある。
- MPSバックエンド特有の実行レジームとKVキャッシュの相互作用を解明し，性能改善に繋げる。
- Apple MPSバックエンドにおいて，デコーディング設定のわずかな変更で最大21倍の遅延スパイクが発生することが確認された。
- 遅延スパイクは主にデコーディング段階で発生し，メモリ不足だけでは説明できない。
- KVキャッシュは全体的には有利だが，遅延スパイクが発生する設定ではその効果が大幅に低下する。
Link: https://arxiv.org/abs/2605.08913
エージェントの進化的なアンサンブル [cs.NE, cs.AI, cs.LG]目的：アルゴリズム発見のための，既存の高性能コーディングエージェントを共進化させる分散型フレームワーク
- 複雑化する問題に対し，単一のモデルでは限界があり，複数のモデルを組み合わせたアンサンブル学習が重要視されている。
- 大規模言語モデルを最適化手法として利用する際，探索空間が広大であり，効果的な探索が困難である。
- エージェントのアンサンブルを進化させることで，静的な性能上限を突破し，継続的な改善を目指す。
- EvEは，In-Context Operator Networks (ICON)における課題に対し，堅牢なリスケールと補間機構を自律的に発見した。
- エージェントの段階依存的な適応が，複雑なコードベースの探索において不可欠であることが示された。
- 固定された初期エージェントや，最適化されたエージェント単体では，EvEのようなアンサンブルによる自己修正の重要性に匹敵しない。
Link: https://arxiv.org/abs/2605.09018
パーミッションに基づくAndroidマルウェア検知におけるドメインシフトの診断と軽減 [cs.LG]目的：Androidマルウェア検知におけるドメインシフトの診断と軽減
- モバイルセキュリティの重要性が高まる中，Androidマルウェア検知技術の信頼性は不可欠である。
- 機械学習モデルは，学習データと異なる環境下で性能が低下するドメインシフトの影響を受けやすい。
- ドメインシフトの影響を診断し，汎化性能を向上させる手法を開発することが課題である。
- 機械学習に基づく検知器は，データソースが異なると性能が低下することが確認された。
- PerMalDroidで学習したモデルはNATICUSdroidで高い精度を維持する一方，逆方向では大幅な性能低下が見られた。
- 共通特徴量に基づくハイブリッド学習戦略により，ドメイン間の性能差を軽減し，高い精度を達成した。
Link: https://arxiv.org/abs/2605.09028
ShadowMerge：関係チャネル競合を利用したグラフベースのAgentメモリに対する新たなポイズニング攻撃 [cs.CR, cs.AI]目的：グラフベースのAgentメモリにおける関係チャネル競合を利用したポイズニング攻撃手法
- LLMエージェントの長期記憶と多段推論を支えるグラフベースのAgentメモリの重要性が増している
- 既存のポイズニング攻撃は平坦なテキスト記録を対象としており，グラフ構造のメモリには効果がない場合が多い
- 悪意のある関係が抽出，マージ，取得されにくいという課題を解決し，Agentの挙動に影響を与えることを目指す
- SHADOWMERGEは，関係チャネル競合を利用することで，既存の手法を大きく上回る93.8%の攻撃成功率を達成した
- AIRパイプラインにより，競合をグラフメモリシステムが処理可能な形式に変換し，攻撃を成功させている
- 関連性のないベンignなタスクへの影響は軽微であり，入力側防御策ではSHADOWMERGEを完全に軽減できないことが示された
Link: https://arxiv.org/abs/2605.09033
SearchSkill：進化するスキルバンクを用いた検索ツール利用をLLMに教授する [cs.AI]目的：検索ツール利用におけるクエリ計画の明確化
- オープン領域の質問応答において，知識獲得は重要であり，検索の質がその成否を左右する。
- 既存手法では，広範すぎる，またはコピーされたクエリが多く，検索予算の無駄遣いや推論の妨げになる。
- 再利用可能な検索スキルに基づき，クエリ計画を明示化することで，検索の効率性と精度を向上させる。
- SearchSkillは，知識集約型のQAベンチマークにおいて正答率を向上させ，より適切な検索行動を実現した。
- 特に，コピーされた最初のクエリの減少，よりアトミックな検索ステップの増加，限られた検索予算内での正答率向上などが確認された。
- 本研究は，検索を単一の行動として扱うのではなく，スキルに基づいたクエリ計画が有効であることを示唆している。
Link: https://arxiv.org/abs/2605.09038
二つの問題：マルチタスク双水準学習と等式制約付き多目的最適化 [cs.RO, cs.LG]目的：マルチタスク双水準学習を，緩和された下位レベルの一般的な凸性仮定の下で拡張すること。
- 機械学習の応用範囲が広がるにつれ，双水準最適化の重要性が増している。
- 既存の研究は単一タスクに限定され，下位レベルの強い凸性仮定に依存し，複雑な問題への適用が制限されている。
- 下位レベルの一般的な凸性仮定のもとで，マルチタスク双水準学習問題を解くための新しい手法を提案する。
- 本研究では，マルチタスク双水準学習問題を等式制約付き多目的最適化問題に変換する。
- 等式制約付き多目的最適化問題に対する新しいKarush-Kuhn-Tucker（KKT）に基づくパレート停留性条件を確立した。
- 重み付きチェビシェフ（WC）ペナルティアルゴリズムが，決定論的および確率的設定の両方でKKTに基づくパレート停留性に収束することが示された。
Link: https://arxiv.org/abs/2605.09094
FreeMOCA：悪意のあるコード解析のためのメモリフリー継続学習 [cs.CR, cs.LG]目的：悪意のあるコード解析における継続学習フレームワーク
- 年々増加するマルウェアに対抗するため，アンチウイルスシステムは継続的な適応が不可欠である。
- 新たなマルウェアのみで再学習すると過去の知識を忘却し，全データで再学習はコストがかかる。
- パラメータ空間上の低損失経路を利用し，効率的な知識保持による継続学習を実現する。
- FreeMOCAは，WindowsおよびAndroidのマルウェアベンチマークにおいて，11のベースラインを上回る顕著な性能向上を達成した。
- 過去の知識の忘却を大幅に抑制し，EMBERとAZの両ベンチマークで最大42％と37％の精度向上を実現した。
- パラメータ空間におけるウォームスタート補間が，リプレイに代わるスケーラブルで効果的な手法となることを示した。
Link: https://arxiv.org/abs/2605.09664
言語エージェントにおける予測不能性と構造化された制御の乖離 [cs.AI]目的：言語エージェント実装における，理由，記憶，自己状態，抑制と行動選択を結合する構造化メカニズムを確率的サンプリングで代替できるかどうかの検証
- 言語エージェントの制御メカニズム理解は，より自然な対話や問題解決能力を持つAI開発に不可欠である。
- 従来の言語エージェントでは，行動の予測可能性と制御の関係が明確でなく，意図しない挙動を示す場合がある。
- 本研究は，確率的な行動が構造化された制御を再現できないことを示すことで，言語エージェントの制御メカニズムの設計に貢献する。
- 構造化された制御エージェントは，確率的サンプリングを用いるエージェントと比較して，より強い行動と場の結合を維持した。
- 理由や抑制の機能を欠損させたエージェントは，構造化された制御プロファイルを一貫して低下させた。
- 大規模言語モデル（Qwen2.5，Mistral-7B）を用いた実験でも，確率的な予測不能性では構造化された行動制御を再現できなかった。
Link: https://arxiv.org/abs/2605.09692
RubricRefine：事前実行の改良によるツール利用エージェントの信頼性向上 [cs.LG, cs.SE]目的：ツール利用エージェントの信頼性向上
- 複雑なタスクを自動化する上で，ツール利用エージェントは不可欠であり，その信頼性が重要である。
- 既存手法では，実行時のフィードバックだけではツール間の契約違反を十分に検知できず，信頼性が限定的である。
- 事前実行段階で契約チェックを行い，反復的に修正することで，ツール利用エージェントの信頼性を高めることを目指す。
- RubricRefineは，学習なしでタスクとレジストリ固有の評価基準を生成し，候補コードを契約チェックと比較する。
- 実行前に反復的に修正を行うことで，M3ToolEvalにおいて平均0.86という高い精度を達成した。
- 既存の推論時ベースラインや非反復的な代替手法と比較して，大幅な性能向上と低遅延を実現した。
Link: https://arxiv.org/abs/2605.09730
MXFP4を用いた大規模言語モデルの事前学習：ネイティブFP4ハードウェアでの検証 [cs.LG, cs.AI]目的：大規模言語モデルのMXFP4による事前学習における収束性低下の原因究明
- 大規模言語モデルの性能向上には，モデル規模の拡大が不可欠であり，計算コストの削減が課題。
- FP4量子化による計算コスト削減は有効だが，モデルの収束性が不安定になる問題がある。
- 重み勾配の量子化が収束性低下の主要因であり，その安定化手法を模索する。
- Llama 3.1-8BのC4データセットによる事前学習において，重み勾配のFP4量子化が収束性低下の主要因であることが確認された。
- 順伝播や活性化勾配のみをFP4量子化しても，追加のトークン要件はわずかである。
- 決定論的なアダマール回転がFP4量子化における不安定性を解消し，安定した最適化を可能にすることが示された。
Link: https://arxiv.org/abs/2605.09825
報酬障壁の打破：思弁的探索による木構造思考推論の加速 [cs.LG]目的：木構造思考（ToT）推論の効率向上
- 複雑な数学・プログラミング問題解決に有効なToT推論だが，効率性が課題
- 報酬依存による同期待ちがボトルネックとなり，並列探索が制限されている
- 思弁的探索により報酬同期障壁を打破し，ToT推論の効率を改善する
- SPEXは，多様なToTアルゴリズムとLLMにおいて，$1.2 \sim 3 \times$の高速化を達成した。
- SPEXは，トークンレベルの思弁的デコーディングと相乗効果を発揮し，最高で$4.1\times$の累積高速化を実現した。
- SPEXは，高パフォーマンスな推論時間のスケーリングを可能にする，効率的かつスケーラブルなToT推論への重要な一歩である。
Link: https://arxiv.org/abs/2605.10195
オフラインデータと分布シフトを考慮したオンライン学習のための，サンプル平均アンカー付きトムソンサンプリング [cs.LG, stat.ML]目的：オフラインデータの活用によるオンライン意思決定の改善
- 機械学習における強化学習は，最適な行動戦略の学習に不可欠である。
- オフラインデータとオンライン環境の分布シフトが，学習の性能低下を招く。
- 分布シフトの影響を軽減し，オフラインデータを安全に活用する手法の確立。
- 提案手法Anchor-TSは，中央値に基づくアンカー規則を導入し，分布シフトによるバイアスを効果的に修正する。
- 理論的な保証により，オフラインデータがオンライン学習を加速させることが示されている。
- 実験結果は，提案手法が既存手法と比較して一貫した改善を示すことを実証している。
Link: https://arxiv.org/abs/2605.10289