arXiv雑要約

AI - 2026/05/08 公開

Safety Anchor：幾何学的ボトルネックによる有害なファインチューニングからの防御 [cs.CR, cs.AI, cs.CL]目的：大規模言語モデルにおける有害なファインチューニングに対する防御策
- 大規模言語モデルの安全性確保は，社会実装において不可欠であり，その重要性は増している。
- 既存の防御策は，パラメータ空間の冗長性により，継続的な有害なファインチューニングによって回避される可能性がある。
- アンベディング層に着目し，幾何学的ボトルネックを設けることで，安全性を維持しつつ有害なファインチューニングを抑制する。
- 提案手法であるSBRは，有害なクエリの最終隠れ状態を安全なモデルのそれらに固定することで，高い防御効果を発揮する。
- 単一の安全アンカーを用いるだけで，有害スコアを10未満に低減し，良性タスクにおける性能を維持する。
- SBRは，パラメータ空間の冗長性という問題に対し，効果的な解決策を提供する。
Link: https://arxiv.org/abs/2605.05995
半空間の一様収束に関する詳細な理解 [cs.LG, cs.AI, math.ST, stat.TH]目的：半空間の一様収束挙動に関する詳細な分析
- 機械学習において，汎化性能の理論的な保証は重要であり，VC次元はそのための基礎となる概念である。
- VC次元に基づく従来の解析では，半空間の複雑な挙動を十分に捉えきれない場合がある。
- 半空間の一様収束のより詳細な特性を明らかにし，次元や構造の違いによる影響を評価する。
- 非同質半空間においては，サンプルサイズnに対して，誤差がO(d ln(n/d)/n)となることが示された。
- 同質半空間（2次元）では，サンプルと一致する仮説の誤差がO(1/n)となり，より良好な収束性を示す。
- アグノスティック設定において，対数的オーバーヘッドを伴うバンドワイズな偏差限界が確立された。
Link: https://arxiv.org/abs/2605.06004
PersonaKit (PK)：多様な役割における双方向対話のためのプラグアンドプレイプラットフォーム [cs.CL, cs.CL, cs.AI, cs.HC]目的：多様な役割を演じる対話システムのユーザテストのためのプラットフォーム
- 対話システムは，アシスタント以外の多様な役割を担うようになり，人間らしい自然な対話が求められている。
- 現在の双方向対話システムは，割り込みに対する対応が画一的で，キャラクター性を損なう場合がある。
- PersonaKitは，キャラクター固有の対話戦略を容易に評価できる環境を提供することで，この課題を解決する。
- PersonaKitは，直感的なJSON設定により，多様なキャラクターの定義と対話戦略の指定を可能にする。
- 実際に8種類のキャラクターを用いた評価実験により，PersonaKitが拡張性の高いプラットフォームであることが示された。
- PersonaKitは，次世代の対話システムにおける複雑な社会言語学的行動の研究を支援する。
Link: https://arxiv.org/abs/2605.06007
拡散モデルによる蒸留を用いたリアルタイムな熱認識の視覚システムへの付加 [cs.CV, cs.AI]目的：RGBベースの視覚システムにおける課題解決と，昼夜を問わない汎用的な知覚能力の実現
- 夜間や霧などの悪条件下で，視覚システムの性能低下と安全上のリスクが課題となる。
- 従来の赤外線画像とRGB画像の融合手法は，処理速度が遅く，リアルタイムでの利用が困難である。
- 本研究は，高速かつ高品質な画像融合モジュールを開発し，リアルタイムな熱認識を実現する。
- 提案手法FusionProxyは，既存の高精度な融合手法と比較して，大幅な高速化を実現している。
- 静的認識タスクにおいて優れた性能を示し，動的なタスクにおいてもロバスト性を大幅に向上させている。
- FusionProxyは，高性能GPUから汎用的なハードウェアまで，多様なプラットフォームでリアルタイム推論が可能である。
Link: https://arxiv.org/abs/2605.06010
T2I-VeRW：テキストによる画像検索のための車両部分レベルのきめ細かい知覚 [cs.CV, cs.AI]目的：テキストによる車両画像の検索
- 監視カメラ映像などから車両を特定する技術は，社会の安全確保に不可欠である。
- 従来の車両再識別は画像間の類似性に基づき，目撃者の証言のようなテキスト情報が活用できない。
- テキストによる車両検索技術を確立し，より現実的な状況下での車両特定を可能とすること。
- 提案手法PFCVRは，車両のパーツレベルで画像とテキストを関連付け，検索精度を向上させた。
- 新しい大規模データセットT2I-VeRWを構築し，きめ細かいアノテーションを付与することで，より高度な研究を促進する。
- T2I-VeRIおよびT2I-VeRWデータセットにおいて，既存手法を上回る高いRank-1精度を達成した。
Link: https://arxiv.org/abs/2605.06012
ランダム化ハダマール変換による量子化：効率的なヒューリスティクスの証明 [cs.LG, cs.AI, cs.DS, cs.NI]目的：勾配圧縮，推論高速化，KVキャッシュ圧縮，モデル重み量子化，ベクトルデータベースにおける近似最近傍探索のための量子化手法におけるランダム化ハダマール変換の理論的性能評価
- 現代的な機械学習モデルは大規模化しており，計算資源の効率的な利用が不可欠である。
- 量子化はモデルサイズを削減するが，精度低下を招く可能性があり，その対策が求められている。
- ランダム化ハダマール変換の理論的性能を明らかにし，Uniform Random Rotationと同等の性能を保証すること。
- 2つのランダム化ハダマール変換の組み合わせは，高次元入力において各座標の周辺分布が標準ガウス分布に収束することを示した。
- これにより，DRIVEやQUIC-FLといった現代的な圧縮スキームにおいて，ランダム化ハダマール変換はUniform Random Rotationと同等の性能を達成できる。
- ベクトル量子化においては，3つのランダム化ハダマール変換の組み合わせが有効であり，Uniform Random Rotationと同等の期待誤差となる。
Link: https://arxiv.org/abs/2605.06014
自己回帰系列における行列デカップルド集中：疎な長文脈報酬に対する次元自由保証 [cs.LG, math.PR]目的：自己回帰型大規模言語モデルにおける系列レベル評価の集中度に関する理論的保証
- 大規模言語モデルの性能評価において，系列生成時の依存関係を考慮した集中度の解析が重要である。
- 既存の集中度評価手法では，依存構造とターゲット感度の分離により，疎な報酬に対する分散の過大評価が生じていた。
- 因果関係を厳密に保ちつつ，依存構造を正確に捉えることで，分散の過大評価を抑制し，長文脈推論の安定性を数学的に保証すること。
- 本研究では，因果的依存関係の分解能とターゲット感度ベクトルの行列積によって支配される，従属系列に対する鋭いMcDiarmid型不等式を導出した。
- この行列デカップルド集中（MDC）フレームワークは，マルコフ連鎖に対して最適な定数を取り戻し，因果木に対してオーダー最適な境界を与える。
- MDCは，報酬の疎性を厳密に保持することでスカラー崩壊を防ぎ，次元に依存しない$\mathcal{O}(1)$の分散プロキシを保証する。
Link: https://arxiv.org/abs/2605.06017
Strat-LLM：リアルタイム多源信号を用いたLLMベースの株式取引における階層化戦略アライメント [cs.AI]目的：LLMベースの株式取引における戦略アライメントの最適化
- 株式市場は複雑であり，高頻度かつ多様なデータ分析が求められるため，LLMの活用が期待されている。
- 既存の評価基準では，LLMのアーキテクチャと戦略の一貫性の相互作用が十分に考慮されていない。
- リアルタイムデータを活用し，リスクを抑制しつつ，LLMの潜在能力を最大限に引き出すことを目指す。
- 階層化戦略アライメントにより，LLMは自由モードで高い収益性を達成し，厳格モードはリスク管理の重要な役割を果たすことが示された。
- 戦略アライメントの有効性は市場環境に依存し，上昇相場では自由モードとガイデッドモードが勢いを捉え，下降相場では厳格モードが損失を抑制する。
- 350億パラメータの中規模モデルは厳格な制約下で最適な性能を発揮し，1220億パラメータの超大規模モデルはガイデッドモードでより高いパフォーマンスを示す。
Link: https://arxiv.org/abs/2605.06024
マルチエージェント意思決定：ブラックウェルの情報量アプローチ [cs.NI, cs.LG]目的：マルチLLM環境における意思決定の分析
- 大規模言語モデルの発展に伴い，複数エージェントの協調による意思決定が重要視されている。
- 既存の集約手法は，形式的な情報量の保証がないという課題がある。
- ブラックウェルの情報量枠組みを用いて，より情報量の多い意思決定手法を模索する。
- 投票やディベートは，エージェントの個別情報以上の情報量を持たないことが示された。
- ブラックウェル順序の下で，ベイズの事後確率最大化が情報理論的な上限となることが明らかになった。
- 提案手法は，6つのQAベンチマークで最先端のマルチLLMディベートや投票手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.06028
AGIへの道筋 [cs.AI]目的：現在の生成AIツールの生成過程の分析
- AI技術は社会，政治，経済に大きな影響を与えるため，その発展を理解することは重要である。
- AGIの概念や定義には問題があり，現状のAI開発が必然であるという前提は危険である。
- 透明性，安全性，持続可能性を重視したAGIに準ずる能力の開発プログラムを検討する。
- 本研究は，現在の主要な生成AIツールがどのように生まれ，発展してきたのか，その経緯を分析した。
- 重要な意思決定ポイントを特定し，それが後の発展に与えた影響，あるいは見過ごされた可能性を明らかにした。
- 異なるモデル（独占モデル，オープンウェイトモデル，特定領域モデル）の発展経路の違いを比較検討した。
Link: https://arxiv.org/abs/2605.06029
合成データは役に立つか？深層学習時系列予測モデルからの実証的証拠 [cs.LG, cs.AI]目的：深層学習時系列予測モデルにおける合成データ拡張の効果の評価
- 時系列予測は，経済，気象，エネルギーなど，幅広い分野で重要な役割を果たす。
- 実世界の時系列データは入手が困難な場合が多く，モデルの性能向上に課題がある。
- 合成データ拡張によって，データ不足の問題を解決し，予測精度を向上させることを目指す。
- チャンネル混合モデル（TimesNet，iTransformer）では，合成データ拡張によって性能が向上する傾向がある。
- チャンネル独立モデル（DLinear，PatchTST）では，合成データ拡張によって性能が低下する傾向がある。
- 低リソース環境において，TimesNetは合成データ拡張によってフルデータベースラインを上回る結果を示す。
Link: https://arxiv.org/abs/2605.06032
AIと科学の出会い：分野横断的な研究の多様性，学際性，可視性，撤回に関する世界的な急増 [cs.DL, cs.AI, cs.CY, cs.SI]目的：AI技術の科学への影響に関する多様な側面
- 科学研究におけるAIの導入は，データ収集や分析に革命をもたらしつつある。
- AI技術の採用状況は分野や国によって異なり，その影響は限定的である可能性が指摘されている。
- AI技術の科学研究への急速な導入に伴う課題を明らかにし，その健全な発展を促す。
- 1960年から2015年にかけて，AI技術の採用は国や分野によってタイミングと程度に大きな違いが見られた。
- 2015年以降，AI技術の採用は指数関数的に増加し，全ての分野でAIを活用した研究の数は少なくとも4倍になった。
- AIを活用した研究は，コンピュータサイエンスや統計学と関連性の高いトピックに限定されており，認識論的な変革の可能性は低い。
Link: https://arxiv.org/abs/2605.06033
音声ディープフェイク検出のためのスペクトログラムパッチ特徴量を用いた量子カーネル [cs.SD, cs.AI]目的：音声ディープフェイク検出における量子カーネルの性能向上
- 音声認証・セキュリティにおいて，偽造音声の検出は喫緊の課題である。
- 既存手法では，スペクトログラムの時間周波数構造を十分に活用できていない。
- 時間周波数構造を考慮した量子カーネルにより，検出精度の向上を目指す。
- 提案手法Q-Patchは，スペクトログラムの局所的な時間周波数パッチを量子状態にエンコードする。
- Q-Patchは，RBF-SVMと比較して，より高い識別能力を示す（AUROC: 0.87 vs 0.82）。
- カーネル空間解析により，クラス構造の明確化と高いクラス内類似性が確認された。
Link: https://arxiv.org/abs/2605.06035
大規模言語モデルの報酬モデリングにおけるノイズ耐性のある選好からの最適輸送 [cs.LG, cs.AI]目的：大規模言語モデルの報酬モデリングにおけるノイズ耐性
- 人間のフィードバックによる強化学習において，報酬モデルは重要な役割を果たす。
- 現実世界のデータにはノイズが含まれており，従来の学習方法はこれらの誤りを過学習しやすい。
- 選好データのノイズに対処し，よりロバストな報酬モデルを構築すること。
- 提案手法SelectiveRMは，最適輸送の理論に基づき，モデル予測と選好データの分布を整合させる。
- 厳格な質量保存の制約を緩和する質量緩和メカニズムを導入し，ノイズのあるサンプルを自動的に排除する。
- 理論的にも，SelectiveRMが観測されていないクリーンリスクの上限を最適化することが示されている。実験により，提案手法が様々なベンチマークで最先端のベースラインを大幅に上回ることが確認された。
Link: https://arxiv.org/abs/2605.06036
LLMの推論と計画のための新規性に基づく思考の木探索 [cs.AR, cs.AI, cs.CL]目的：LLMの推論と計画における思考の木探索の効率化
- LLMの性能向上は，様々な分野で重要であり，人間レベルの能力獲得が求められている。
- 既存手法は，脆く，計算コストが高く，多くのドメインで十分な性能を発揮できていない。
- 思考の木探索に新規性の概念を導入し，探索範囲を削減することで効率的な推論を可能にする。
- 提案手法では，新規性をLLMに評価させることで，探索木のノードのユニーク性を定量化する。
- この新規性指標を用いて枝刈りを行い，探索範囲を削減することで，トークンコストを削減する。
- 言語ベースの計画と一般的な推論におけるベンチマークで，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2605.06040
要求の羽は群れをなす：LLM推論におけるバッチサイズとプレフィックスの均質性 [eess.SY, cs.SY, cs.LG]目的：LLM推論におけるバッチサイズとプレフィックスの均質性の最適なトレードオフ
- 大規模言語モデルの利用拡大に伴い，推論効率の改善が重要課題となっている。
- 既存のバッチ処理は，GPUメモリ制約下での最大バッチサイズに注力し，プレフィックスの均質性を考慮していない。
- プレフィックスの均質性を考慮したスケジューラにより，推論スループットの向上を目指す。
- 提案手法Featherは，強化学習を用いてバッチサイズとプレフィックスの均質性の最適なバランスを学習する。
- 軽量なデータ構造Chunked Hash Tree (CHT)により，高速なプレフィックス検出と効率的なリクエスト選択を実現する。
- vLLMとSGLangへの統合により，既存のスケジューラと比較して2～10倍の推論スループットを達成した。
Link: https://arxiv.org/abs/2605.06046
TFM-Retouche：表形式ファウンデーションモデル用軽量入力空間アダプター [cs.LG, cs.AI]目的：表形式ファウンデーションモデルの入力空間への軽量な残差アダプター
- 表形式データ分析において，事前学習済みのモデルを活用することで，高い予測性能が期待できる。
- モデルの微調整には計算コストがかかる，またはモデル固有の調整が必要となる場合がある。
- モデルのアーキテクチャに依存せず，入力空間で効率的な適応を行う手法を提案する。
- TFM-Retoucheは，事前学習済みの表形式ファウンデーションモデルに対して，入力空間で小さな残差補正を学習する。
- TabArena-Liteにおける評価で，TabICLv2-Retoucheはリーダーボードで最高位を記録し，集計Eloを56ポイント向上させた。
- この手法は，予測精度と学習・推論時間のバランスに優れ，Paretoの最適解上に位置する。
Link: https://arxiv.org/abs/2605.06047
脳ネットワークが移動するとき：場所を超えた学習 [cs.LG]目的：脳ネットワーク分析における汎化性能の向上
- 脳機能の解明は，精神疾患の診断や治療法の開発に不可欠である。
- サイト間でのデータ収集条件の違いが，脳ネットワーク分析の精度を低下させている。
- 異なるサイトで収集されたデータでも，安定した解析結果を得られる手法を確立すること。
- 本研究では，サイト特有の交絡因子を除去し，再現性の高い脳ネットワークを抽出するCOREというフレームワークを提案した。
- COREは，軽量な時間的記述子を用いて一時的な経路ダイナミクスをプロファイリングし，経路レベルのモデリングを可能にする。
- 実験の結果，COREは既存の手法と比較して，最大で6.7%の相対的な性能向上を示し，異なる脳地図分割スキームに対しても頑健であることが示された。
Link: https://arxiv.org/abs/2605.06050
大規模言語モデルにおける生成効率的な不確実性推定に向けて [cs.AR, cs.LG]目的：大規模言語モデルにおける不確実性推定の効率化
- 医療や金融など，高い信頼性が求められる分野でのLLM活用には，誤った情報を流暢に生成する「幻覚」への対策が不可欠である。
- 既存手法は不確実性推定にLLMの生成処理を必要とし，推論コストが増大し，迅速な判断を妨げるという課題がある。
- 本研究は，LLMの生成途中や入力情報のみから効率的に不確実性を推定する方法を模索する。
- 不確実性推定をLLMの生成過程における早期推定問題として捉える統一的なフレームワークを開発した。
- 生成途中の情報や入力情報のみを用いた不確実性推定手法として，Logit MagnitudeとMetaUEを提案した。
- Logit Magnitudeは高い性能を示し，LLMの不確実性推定には必ずしも完全な生成が必要ないことを実証した。
Link: https://arxiv.org/abs/2605.06053
LLM生成比較のための視覚的指紋 [cs.AI, cs.HC]目的：LLMの生成条件と出力特性の関係性の可視化
- LLMの利用拡大に伴い，その挙動理解と制御が重要となっている。
- 生成条件が多様であり，個々の出力の確率的変動により，傾向把握が困難である。
- 生成条件ごとのLLMの特性を明確化し，評価やプロンプト設計に役立てる。
- 提示手法により，LLMの出力における言語選択の分布を視覚的に比較可能となった。
- 生成条件の違いによる，LLMの出力傾向のパターンが明確に可視化された。
- 個々の応答や集約指標では捉えにくい，LLMの挙動の一貫性を明らかにした。
Link: https://arxiv.org/abs/2605.06054
Ascendにおける効率的なMoE推論のためのプールされたHBM上のリレーバッファ非依存通信 [cs.DC, cs.LG]目的：MoE推論における効率的な通信設計
- 大規模言語モデルの発展に伴い，MoEモデルの高速化が重要となっている。
- MoE推論におけるデバイス間トークン交換がボトルネックとなり，性能を制限している。
- 中間リレーバッファを削減し，MoE推論の通信効率を向上させる。
- 本研究では，Ascendシステム上でリレーバッファを排除した新しい通信設計を提案した。
- 提案手法により，分散および結合の遅延が削減され，スループットが向上した。
- 実装結果は，グローバルにアドレス可能なデバイスメモリを持つプラットフォームにおいて，中間バッファの削減がMoE推論の高速化に有効であることを示唆している。
Link: https://arxiv.org/abs/2605.06055
説明可能なドキュメント視覚的質問応答：説明連鎖予測によるアプローチ [cs.MA, cs.DC, cs.MS, cs.LG, cs.CV]目的：ドキュメント視覚的質問応答における説明可能性の向上
- ドキュメント理解と質問応答は，情報検索や知識獲得において重要な役割を担う。
- 既存のモデルは，根拠となる情報と回答の位置特定が混在しており，推論過程が不透明である。
- 視覚的根拠に基づいた推論過程を明示し，予測の透明性と検証可能性を高める。
- 提案手法CoExVQAは，質問関連証拠の特定，回答領域の局所化，そして局所化された領域からの回答デコードという段階を踏む。
- PFL-DocVQAデータセットにおいて，既存のexplainableベースラインと比較してANLSスコアを12%向上させた。
- 説明連鎖予測により，推論過程を直接検証可能にし，透明性の高い予測を実現した。
Link: https://arxiv.org/abs/2605.06058
幾何構造を考慮した単体メッセージパッシング [cs.CE, cs.SY, eess.SY, cs.LG, cs.CG, math.AT]目的：幾何学的単体複合体の識別能力向上
- グラフニューラルネットワークの表現力向上は重要課題である。
- 既存手法では，幾何学的構造の違いを捉えられない問題がある。
- 幾何学的構造を考慮した識別能力の限界と近似手法を確立する。
- 幾何構造を考慮した単体メッセージパッシングの表現力は，GSWLテストによって上限が定まることが示された。
- 特定のパラメータ設定下では，GSWLテストの識別能力とメッセージパッシングの能力が一致することが確認された。
- 合成データとメッシュデータを用いた実験により，理論的結果の妥当性が検証された。
Link: https://arxiv.org/abs/2605.06061
複雑なカードゲームにおける因果強化学習：マジック・ザ・ギャザリングのベンチマーク [cs.HC, cs.LG, cs.AI]目的：複雑なカードゲームにおける因果強化学習の評価
- 強化学習は，複雑な環境における意思決定問題への応用が期待されており，その重要性は高い。
- 従来の強化学習では，隠れた情報や大規模な行動空間，因果構造を扱うことが難しい場合がある。
- 因果関係を明示的に考慮することで，より解釈可能で汎化性能の高い強化学習エージェントを開発することを目指す。
- マジック・ザ・ギャザリングを基盤としたベンチマーク「MTG-Causal-RL」を構築し，因果関係の評価を可能にした。
- マスクされたPPOとCGFA-PPOは，競争力のある勝率を達成し，ランダムベースラインを上回った。
- 因果構造を利用した評価により，従来の勝率だけでは捉えられない診断的知見が得られた。
Link: https://arxiv.org/abs/2605.06066
正規化アーキテクチャはネイティブに4ビットである [cs.LG, cs.AI]目的：4ビット精度での大規模言語モデルの学習
- 大規模言語モデルの効率的な学習は，計算資源の制約下で不可欠であるため重要である。
- 低精度演算ではモデルの品質が低下しやすく，様々な対策が必要とされてきた。
- 本研究は，低精度演算に強いアーキテクチャを開発し，安定した学習を可能にすることを目指す。
- ngPTアーキテクチャは，単位超球面に重みと隠れ表現を制約することで，低精度演算に強い性質を持つことが示された。
- これにより，モデル品質を維持するための介入（ハダマール変換やper-tensorスケーリングなど）が不要となり，安定したNVFP4学習が可能となる。
- ngPTでは，要素ごとの積において微弱な正の相関が強化され，信号の積累が促進され，ノイズが打ち消されることで，高い有効信号対雑音比と平坦な損失地形が実現される。
Link: https://arxiv.org/abs/2605.06067
VibeServe：AIエージェントは特注のLLM提供システムを構築できるか？ [cs.AI, cs.DC]目的：LLM提供システムの自動合成
- LLMの利用拡大に伴い，効率的な提供基盤の重要性が増している。
- 既存の汎用的な提供システムは，多様なモデルやワークロードに最適化が難しい。
- 本研究は，利用状況に応じた特注の提供システムを自動生成することで，この課題を解決する。
- VibeServeは，LLM提供システム全体をエンドツーエンドで生成する初のAgenticループである。
- 標準的な環境下では，vLLMと同等の性能を示し，生成時の特殊化が性能低下につながらないことを実証した。
- 非標準的なシナリオでは，既存システムを上回り，生成時の特殊化の有効性を示唆している。
Link: https://arxiv.org/abs/2605.06068
PRISM：動的テキスト属性グラフにおける反復クロスモーダル事後精錬 [cs.LG]目的：動的テキスト属性グラフ表現学習
- システム進化のモデリングにおいて，ノードの意味と時間依存的相互作用を捉える重要性が高まっている。
- 既存手法は固定的なモダリティ分割や一括融合に頼り，ノードの意味と行動の依存関係を十分に捉えられない。
- ノードの意味と行動の進化する依存関係を捉え，グラフ表現学習の性能向上を目指す。
- PRISMは，動的テキスト属性グラフ情報を意味と行動のモダリティに整理することで，より本質的なモダリティ分割を実現した。
- 意味の事前分布を行動条件付き事後状態へと徐々に変換する精錬軌跡を学習し，クロスモーダル相互作用を可能にした。
- DTGBベンチマークデータセットでの実験により，PRISMが時間的リンク予測と目的ノード検索タスクで高い性能を発揮することが示された。
Link: https://arxiv.org/abs/2605.06073
拡散モデルの理解には，一般化に関する再考（再び）が必要である [cs.CL, cs.LG]目的：拡散モデルにおける一般化の理解
- 近年，画像生成等の分野で拡散モデルが注目を集めており，その理論的基盤の確立が重要である。
- 従来の統計学習理論や良性過学習のパラダイムでは，拡散モデルの一般化を十分に説明できない。
- 拡散モデルがどのように学習し，一般化を実現しているのか，そのメカニズムを解明すること。
- 拡散モデルにおいて，訓練データの暗記と新規サンプルへの一般化は両立しないことが示された。
- モデルの容量制限，最適化による暗黙的正則化，アーキテクチャの帰納的バイアスなどが一般化の要因として考えられているが，それらの相互作用は不明確である。
- モデルが暗記段階で何を学習しているのかを調査することが，拡散モデルの一般化理解への鍵となる。
Link: https://arxiv.org/abs/2605.06077
長距離言語エージェントのためのランドマーク誘導方策学習 [cs.CL, cs.AI]目的：長距離タスクにおける言語エージェントの行動決定
- 複雑なタスクを自律的に実行するエージェント開発は，AI研究の重要な目標である。
- 強化学習による長距離タスクの学習は，報酬の遅延や希薄性により困難である。
- ランドマークを利用し，部分的な進捗を評価することで，学習効率と成功率の向上を目指す。
- BEACONは，ALFWorld，WebShop，ScienceWorldにおいて，既存手法（GRPO，GiGPO）を上回る性能を示した。
- 特にALFWorldの長距離タスクでは，BEACONの成功率は92.9%と，GRPOの53.5%を大きく上回った。
- また，サンプル利用効率も23.7%から82.0%へと大幅に改善された。
Link: https://arxiv.org/abs/2605.06078
マルチクラスクロスエントロピーにおける高速ガウス・ニュートン法 [cs.LG]目的：マルチクラスsoftmaxクロスエントロピーにおける高速ガウス・ニュートン法の導出と評価
- 機械学習モデルの学習において，高速かつ正確な最適化手法が不可欠である。特に大規模データや高次元問題では重要性が増す。
- マルチクラス分類において，従来のガウス・ニュートン法は計算コストが高く，クラス数増加に伴いスケーラビリティが課題となっていた。
- softmaxクロスエントロピーの分解に基づき，近似的なガウス・ニュートン法を導出し，計算コストを削減しつつ，良好な性能を維持することを目指す。
- 標準的なマルチクラスGGNを真対照法と競合内共分散項に分解することで，近似的なFGNを導出した。
- FGNは二値分類に対しては完全一致し，マルチクラス分類においてもGGNの近似として機能することが示された。
- 実験結果から，FGNは競合者の質量が集中している場合や減衰が大きい場合に，GGNにより近い挙動を示すことが確認された。
Link: https://arxiv.org/abs/2605.06081
PoTAcc：べき乗数ベース量子化DNNのEnd-to-End加速パイプライン [cs.AR, cs.LG, cs.PF]目的：べき乗数ベース量子化DNNの加速と評価のためのEnd-to-Endパイプライン
- 深層ニューラルネットワークは高性能だが，計算量が多く，省電力化が課題。
- 既存の推論フレームワークでは，べき乗数量子化のハードウェア最適化が不十分。
- べき乗数量子化戦略がハードウェア設計・性能・エネルギー効率に与える影響を解明。
- PoTAccパイプラインにより，TensorFlow Lite経由で様々なプラットフォームへの展開が可能。
- CPU-FPGAハイブリッドシステム上で，最大3.6倍の高速化と78%の省電力化を達成。
- CNNやTransformerなど，多様なモデルで精度，性能，エネルギー効率を検証。
Link: https://arxiv.org/abs/2605.06082
不確実性の再検討：部分的に関連する動画検索のためのエビデンス学習について [cs.CV, cs.IR, cs.LG, cs.MM]目的：部分的に関連する動画検索における不確実性の明示的なモデリングと，それに基づく検索性能の向上
- 動画検索は，大量の動画データから目的とする情報を効率的に抽出するために不可欠である。
- 短いクエリと豊富な動画コンテンツ間の非対称性により，検索過程で不確実性が生じやすい。
- 動画内のスパースな時間的監督問題を緩和し，より確実な検索結果を得ることを目指す。
- 提案手法Holmesは，マルチ粒度のクロスモーダルエビデンスを統合し，不確実性を定量化・モデル化する階層的エビデンス学習フレームワークである。
- インタービデオレベルでは，類似度スコアをエビデンス的サポートとして解釈し，ディリクレ分布を用いてモデリングする。
- イントラビデオレベルでは，柔軟な最適輸送と適応ダストビンを用いたソフトクエリ-クリップアライメントにより，密なエビデンスを蓄積する。
Link: https://arxiv.org/abs/2605.06083
安全性認証は分類である [cs.AI, cs.SY, eess.SY]目的：不確実性下にある動的システムの安全性認証
- 動的システムの安全性確保は，自動運転やロボティクス等の発展に不可欠である。
- 従来の安全性認証手法は，再帰的な計算により誤差が蓄積し，認証範囲が制限される場合がある。
- 本研究は，再帰計算を用いず，安全性認証を分類問題として捉えることで，上記問題を解決する。
- 提案手法は，カーネル埋め込みを用いて安全性確率を直接推定し，従来のDPに基づく手法よりも安定した認証を可能にする。
- 本手法は，バリア証明やロバストマルコフモデルといった既存手法を包含し，その限界を超える。
- 非マルコフ過程を持つシステムや，長い認証範囲においても，安定した安全性認証を実現できることがシミュレーションにより確認された。
Link: https://arxiv.org/abs/2605.06087
VISD：構造化された自己知識蒸留による動画推論の強化 [cs.CV, cs.AI]目的：動画推論のための構造化された自己知識蒸留フレームワーク
- 動画理解は，AIの発展において重要な役割を担う。複雑な動画コンテンツから意味を抽出することは，様々な応用分野で求められている。
- 動画LLMの学習は，長期的な時間的推論における報酬の希薄性や，詳細なクレジット割り当ての欠如が課題である。
- 動画推論における構造化された詳細なフィードバックを提供し，学習効率と精度を向上させることを目指す。
- VISDは，動画認識の質を複数の次元（正答率，論理的整合性，時空間的根拠付け）に分解し，トークンレベルの指導を行う。
- 報酬から得られるロールアウトレベルの利点を更新方向として利用し，構造化された特権シグナルはトークンレベルの更新量を調整する。
- 様々なベンチマークテストにおいて，既存の手法を凌駕し，回答精度と時空間的根拠付けの質を向上させている。
Link: https://arxiv.org/abs/2605.06094
自己回帰RTGを超えて：決定変換器における逐次モデリング外の注入による条件付け [cs.LG, cs.AI]目的：オフライン強化学習における決定変換器の効率化と性能向上
- 強化学習は，複雑な意思決定問題を扱う上で重要な技術であり，様々な分野への応用が期待されている。
- 決定変換器は計算コストが高く，特に系列長の増加がボトルネックとなる場合がある。
- RTG（Return-to-Go）を系列から分離し，状態表現に注入することで，計算効率と性能の向上を目指す。
- SlimDTは，標準的なDTと比較して，D4RLベンチマークにおける様々なタスクで優れた性能を示す。
- RTGを系列から削除することで，系列長を短縮し，推論効率を直接的に向上させる。
- 疎な条件付け信号と情報豊富な系列を分離することで，計算上の利点と高いタスク性能の両立を実現する。
Link: https://arxiv.org/abs/2605.06104
浅いプリフィル，深いデコーディング：層非対称KV可視性による効率的な長文コンテキスト推論 [cs.AI]目的：長文コンテキスト推論における計算コスト削減
- 大規模言語モデルの性能向上には，長文コンテキストの処理が不可欠である。
- 従来のデコーダーモデルでは，長文のプロンプトを処理するプリフィル段階で高い計算コストが発生する。
- 層非対称なKV可視性により，計算コストを削減しつつ，性能を維持することを目指す。
- 提案手法SPEEDは，プリフィル段階でのKV状態の格納層を削減することで，計算コストを大幅に削減できる。
- Llama-3.1-8Bを用いた実験では，SPEEDはベースラインと同等の性能を維持しつつ，TTFTを33%，TPOTを22%改善，KVメモリ使用量を25%削減した。
- 層ごとの診断結果から，このカットオフによりプロンプト選択と表現安定化の主要領域が保持されていることが示唆された。
Link: https://arxiv.org/abs/2605.06105
時間と予算内：エージェントワークフローのための制約駆動型オンラインリソース割り当て [cs.AI, cs.CL]目的：エージェントワークフローにおける制約駆動型オンラインリソース割り当て
- 複雑なユーザー要求を解決するエージェントシステムが普及しており，効率的なワークフロー管理が重要である。
- 既存研究は平均的な効率化に偏りがちで，予算や時間制限下でのワークフロー成功確率の最大化が課題である。
- 予算と時間制約を満たしつつ，ワークフローの完了確率を最大化するリソース割り当て手法を開発する。
- 提案手法MCPPは，シミュレーションを通じて制約下での完了確率を推定し，リアルタイムに計画を修正する。
- CodeFlowとProofFlowの実験結果から，MCPPが様々な予算・時間制約下で既存手法を上回る完了確率を達成することが示された。
- MCPPは，軽量でありながら，制約条件を満たすワークフローの実行において高い有効性を持つ。
Link: https://arxiv.org/abs/2605.06110
スケジュールと較正：コードLLMのためのユーティリティ誘導型マルチタスク強化学習 [cs.SE, cs.AI]目的：コードLLMに対するマルチタスク強化学習による性能向上
- コード生成AIの性能向上は，ソフトウェア開発の効率化に不可欠である。
- 既存のマルチタスク学習法は，タスク間の違いを考慮せず，最適化戦略が固定されている。
- タスクの有用性を考慮した学習スケジュールと最適化により，マルチタスク学習の限界を克服する。
- 提案手法ASTORは，タスクの学習可能性と相乗効果を示す「タスクユーティリティ」に基づき，データスケジュールとポリシー最適化を行う。
- 実験の結果，ASTORは既存の専門モデルを9.0%-9.5%上回り，最良のマルチタスク学習ベースラインを7.5%-12.8%上回る性能を示した。
- ASTORは，単一のモデルで全てのタスクにおいて性能を向上させることを実証した。
Link: https://arxiv.org/abs/2605.06111
イベントストリームに基づく視覚オブジェクト追跡のための動的熟慮スパースネス認識混合エキスパートTransformer [cs.CV, cs.AI]目的：イベントベースの視覚オブジェクト追跡における追跡精度と計算効率の改善
- RGBベースの追跡器は照明条件や高速移動に弱い。イベントカメラは高ダイナミックレンジと高時間分解能を持つ。
- 既存のイベントベース追跡器はイベントデータの空間的なスパースネスと時間的な密度を無視している場合がある。
- イベント密度の変化を明示的にモデル化し，異なるスパースネスパターンに適応する追跡フレームワークを開発する。
- 提案手法は，イベントデータの多段階な密度学習を可能にするVision Transformerバックボーンを採用している。
- スパースネス認識混合エキスパートモジュールは，異なるスパースネスパターンへの専門化を促進し，追跡難易度に応じて推論深度を動的に調整する。
- FE240hz, COESOT, EventVOTデータセットでの実験により，提案手法が追跡精度と計算効率の良好なトレードオフを実現することが示された。
Link: https://arxiv.org/abs/2605.06112
CrossCult-KIBench：MLLMにおける異文化知識挿入のためのベンチマーク [cs.DC, cs.AI]目的：異文化知識挿入の評価
- 大規模言語モデルの多言語化が進む中，文化的な適切性が重要課題となっている。
- 既存モデルは英語中心のデータで学習され，異文化理解に課題を抱えている。
- 異文化環境下での不適切な応答を抑制し，文化適合性を高めることを目指す。
- CrossCult-KIBenchは，異文化知識挿入の効果と副作用を評価するベンチマークである。
- 本ベンチマークは，9,800件の画像データと49の異文化シナリオを網羅し，英語，中国語，アラビア語に対応している。
- 現在の知識挿入手法は，文化適応と行動維持のバランスを取るのが難しいことが示された。
Link: https://arxiv.org/abs/2605.06115
費用対効果の高い推論のためのポリシー駆動型段階的モデルルーティング [cs.AI]目的：費用対効果の高い推論のための段階的モデルルーティング
- 大規模言語モデルの推論能力向上は重要だが，計算コストが課題となっている。
- 既存手法は手動ルーティングか，大規模な報酬モデル訓練に依存し，性能や適用性に限界がある。
- 強化学習と閾値調整により，性能と効率のバランスを最適化し，コストを削減することを目指す。
- 提案手法は，GSM8K，MATH500，OmniMathの3つの数学ベンチマークにおいて，手動ルーティングと比較して精度とコストのバランスを改善した。
- 大規模な報酬モデルを必要とする手法と同等のトレードオフを達成し，実用性を高めている。
- 本手法は，オープンおよびクローズドモデルの両方で有効であることが確認された。
Link: https://arxiv.org/abs/2605.06116
BoostLLM：少数ショット表形式分類のためのブースティングに着想を得たLLMファインチューニング [cs.LG]目的：表形式データの少数ショット分類におけるLLMファインチューニングの性能向上
- 表形式データ分析は，様々な分野で重要であり，高精度な予測モデルが求められている。
- LLMは表形式データへの適応が進むものの，データ量が少ない状況下では勾配ブースティング決定木(GBDT)に劣る。
- ブースティングのパラダイムをLLMファインチューニングに応用し，少ないデータでも高精度な分類を実現すること。
- BoostLLMは，複数のLLMバックボーンとデータセットで，標準的なファインチューニングを安定して上回る性能を示した。
- BoostLLMは，ショット数が少ない場合や多い場合，幅広い条件下でXGBoostと同等またはそれを上回る性能を達成した。
- 決定木のパス情報を第二の入力として統合することで，初期段階での学習を支援し，最終的に特徴量駆動型の表現へと移行する。
Link: https://arxiv.org/abs/2605.06117
ヒューリスティック設計の原点へ：LLMによるコードと知識の架け橋 [cs.AI]目的：組み合わせ最適化のためのヒューリスティック設計における知識主導探索
- 組み合わせ最適化問題は現実の様々な分野で頻出するが，効率的な解法開発は依然として困難である。
- 既存の自動ヒューリスティック設計はコードに着目しがちで，得られた知識の再利用性や汎化性能が課題である。
- 知識を探索対象の中心に据え，コードは検証に留めることで，知識の再利用性と汎化性能を高めることを目指す。
- 知識主導探索は，探索効率，転移学習，汎化性能においてコード主導型パイプラインを上回る場合が多い。
- 知識とコードの両方を組み合わせる戦略は，更なる改善をもたらすことが示唆された。
- ヒューリスティック設計の進展は，単一の探索軌跡を超えて価値を維持する解釈可能な仮説の構築と進化に依存する。
Link: https://arxiv.org/abs/2605.06123
P-Guide：シングルパスCFG推論のためのパラメータ効率的な事前分布誘導 [cs.AI]目的：シングルパスCFG推論のためのパラメータ効率的な事前分布誘導手法
- 生成AIの発展において，高品質な条件付き生成は不可欠であり，その制御手法が重要である。
- 従来のCFGは計算コストが高く，サンプリングステップごとに二回の推論が必要となる点が課題である。
- P-Guideは，初期潜在状態の調整のみで高品質な誘導を実現し，計算コストを削減することを目的とする。
- P-Guideは，CFGと同等の性能を維持しつつ，推論時間を約50%削減することに成功した。
- P-Guideは，事前分布空間からの誘導を実現し，明示的な速度場外挿を必要としない。
- ホモセダスティックおよびヘテロセダスティックな事前分布を考慮し，分散のモデリングによりロバスト性が向上した。
Link: https://arxiv.org/abs/2605.06124
連続的な専門家集合：汎用画像復元のためのインスタンス条件付き低ランク残差 [cs.HC, cs.CV, cs.AI]目的：汎用画像復元におけるインスタンス条件付き低ランク残差の適用
- 現実世界の画像劣化は多様であり，単一のモデルで対応する必要性がある。
- 既存手法では，局所的な劣化情報を捉えきれない，または更新が不安定である問題がある。
- トークン単位で動的にパラメータを調整し，劣化に特化した復元を実現する。
- 提案手法 CEA は，既存のプロンプトベース，記述子ベース，専門家ベースの手法よりも高い復元品質を達成した。
- 特に空間的に変動する複合的な劣化に対して顕著な改善が見られた。
- パラメータ数，FLOP，実行時間においても効率性を維持している。
Link: https://arxiv.org/abs/2605.06127
強化学習によるスキル拡張エージェントの統一的な進化 [cs.AI]目的：言語モデルエージェントにおけるスキルライブラリの維持と進化
- 複雑なタスク解決には，過去の成功戦略の再利用が不可欠であるため，スキルライブラリの重要性が高まっている。
- 既存手法では，スキル選択，利用，抽出を独立して最適化するため，進化に矛盾が生じ，性能が限定される。
- スキル選択，利用，抽出を単一の報酬信号に基づいて協調進化させることで，より効率的なスキル習得を目指す。
- 提案手法Skill1は，ALFWorldとWebShopにおいて，既存のスキルベース手法および強化学習手法を凌駕する性能を示した。
- 学習ダイナミクス分析により，スキル選択，利用，抽出の3つの能力が協調的に進化することが確認された。
- 報酬信号のいずれかを削除すると，進化が阻害されることが示されており，各信号の重要性が明らかになった。
Link: https://arxiv.org/abs/2605.06130
BUILD-AND-FIND：エージェント管理コードベースを評価するための努力量に応じたプロトコル [cs.CL, cs.SE, cs.AI]目的：エージェント管理コードベースから意図された選択をダウンストリームエージェントがどの程度回復できるか，そしてその回復にどの程度の調査が必要かを評価すること
- 近年のエージェント技術の発展により，コードリポジトリ全体のエンジニアリングをエージェントが管理するケースが増加している。
- 生成されたコードが動作的に正しいだけでなく，将来の作業のためのコミュニケーション手段としての役割も担うため，意図された設計が明確に表現されていることが重要である。
- 生成されたコードベースから意図された選択をダウンストリームエージェントがどの程度容易に回復できるかを定量的に評価し，コードの可読性向上に貢献すること。
- BUILD-AND-FINDプロトコルは，行動的正確性と，コードベースからの意図された選択の回復を分離して評価する。
- 回復の正確性と再現性が確実である場合にのみ，調査の努力量が考慮され，より少ない努力で回復できるコードベースほど，意図が理解しやすいと判断される。
- 高優先タスクパックの評価では，回復の正確性はほぼ飽和しており，調査の努力量とファインダー固有の効果が主な比較項目となっている。
Link: https://arxiv.org/abs/2605.06136
自己回帰型ビジュアル生成には序論が必要である [cs.CV, cs.AI, cs.LG]目的：自己回帰型画像生成における再構成と生成のギャップを埋める手法
- 近年，生成モデルの性能向上は目覚ましいが，高画質な画像の生成は依然として課題である。
- 自己回帰型モデルでは，再構成と生成の両立が難しく，生成性能の向上が阻害される場合がある。
- 生成に特化した表現を学習し，再構成品質を維持しながら生成性能を向上させることを目指す。
- 提案手法「Prologue」は，画像トークン列の先頭に少数のプロローグトークンを生成することで，この課題を解決する。
- ImageNet 256x256において，Prologue-BaseはgFIDを21.01から10.75に，Prologue-LargeはrFIDを0.99，gFIDを1.46にそれぞれ低減した。
- プロローグトークンは，自己回帰勾配のみで意味構造を獲得し，標準的なトークナイザーよりも高いTop-1精度(35.88%)を示した。
Link: https://arxiv.org/abs/2605.06137
リストワイズポリシー最適化：LLM応答シンプレックスへのターゲット射影としてのグループベースRLVR [cs.LG, cs.AI]目的：大規模言語モデルの推論能力を向上させるための最適化手法
- 大規模言語モデルの性能向上は，自然言語処理の重要な課題である。
- 従来の強化学習では，報酬の検証可能性が課題であった。
- 応答シンプレックスへのターゲット射影を通じて，最適化の安定性と多様性を確保する。
- 提案手法LPOは，既存のポリシー勾配ベースラインと比較して，多様な推論タスクで訓練性能が向上する。
- LPOは，境界が明確なゼロサム射影勾配により，リストワイズ目的関数に関して単調な改善を保証する。
- LPOのフレームワークは，解離された射影ステップを通じて，異なる構造特性を持つダイバージェンスの選択を可能にする。
Link: https://arxiv.org/abs/2605.06139
SymDrift：対称性下の一ショット生成モデリング [cs.LG, cs.AI]目的：対称性下での一ショット生成モデリング手法
- 物理システムモデリングにおいて，回転対称性などの普遍的な対称性を考慮することは重要である。
- 既存のドリフトモデルは，対称性を考慮した生成器において適切なドリフト場を生成できないという課題がある。
- 対称性に対応したドリフト場を生成することで，効率的な一ショット生成を可能にすることを目指す。
- 提案手法SymDriftは，座標空間での対称化されたドリフトとG不変埋め込みを組み合わせることで，既存手法を上回る性能を発揮する。
- コンフォーマーおよび遷移状態生成の標準的なベンチマークにおいて，SymDriftは既存の一ショット手法よりも優れた結果を示し，多段階アプローチにも匹敵する。
- SymDriftは計算コストを最大40倍削減し，バーチャルスクリーニングや大規模反応ネットワーク探索などの高速処理アプリケーションに有望である。
Link: https://arxiv.org/abs/2605.06140