arXiv雑要約

AI - 2026/05/12 公開

  • タスクを意識したキャリブレーション:LLMにおける証明可能な最適デコーディング [cs.LG, cs.CL]目的:LLMのデコーディングにおける最適な戦略の確立
    • LLMは自然言語処理の様々なタスクで高い性能を示すが,生成される出力の信頼性が課題。
    • LLMの予測分布が真の生成分布と乖離することで,最適な意思決定が困難になる。
    • タスクに特化した潜在空間でのキャリブレーションにより,より信頼性の高い意思決定を可能とする。
    • タスクに内在する潜在構造を利用したキャリブレーションにより,LLMのデコーディング性能が向上する。
    • 最小ベイズリスク(MBR)デコーディングを潜在分布に適用することで,最適なデコーディング戦略を実現する。
    • タスクキャリブレーション誤差(TCE)という新しい指標を導入し,キャリブレーションの精度を定量的に評価する。

    Link: https://arxiv.org/abs/2605.10202

  • 分散型SGDにおける高確率汎化の解明 [cs.LG]目的:分散型確率的勾配降下法(D-SGD)における高確率汎化誤差の上限
    • 大規模データに対する機械学習において,分散学習は計算効率を高める上で不可欠である。
    • 既存研究では,D-SGDの高確率汎化保証が,集中型SGDと比較して劣っていた。
    • D-SGDの高確率汎化性能を向上させ,集中型SGDと同等の理論的保証を得ることを目指す。
    • 本研究では,分散学習における pointwise uniform stability を用いて,D-SGDの汎化誤差の上限を精密化。
    • 凸,強凸,非凸設定において,最適な$\mathcal{O}\left(\frac{1}{\sqrt{mn}}\log (1/\delta)\right)$ 汎化レートを達成。
    • 局所的最小値が存在する非凸ケースや,通信オーバーヘッドを考慮した時間変化モデルにおいても,高確率汎化保証を導出した。

    Link: https://arxiv.org/abs/2605.10205

  • 削除するか否か:ローカルLLMによる審議過程特権分類へのアプローチ [cs.CL, cs.AI, cs.IR]目的:情報公開法における審議過程特権に該当する文書の自動分類
    • 政府の透明性確保は民主主義社会において重要であり,情報公開法はその根幹をなす。
    • 機密情報の保護と情報公開のバランスが課題であり,特権文書の分類には専門性と時間が必要。
    • クラウドAPI利用の制限下で,ローカルLLMによる効率的な特権文書分類を実現すること。
    • 小規模ローカルLLM(Qwen3.5 9B)を用いた分類において,Chain-of-ThoughtとFew-shot promptingの組み合わせが最も高い性能を示した。
    • 提案手法は,既存研究や商用モデル(Gemini 2.5 Flash)に匹敵する再現率とF2スコアを達成した。
    • 審議過程に該当する文は,意見表明を示す動詞や一人称表現を多く含む傾向が確認された。

    Link: https://arxiv.org/abs/2605.10211

  • 自律性を超えて:ガバナンスと回復力のあるエンタープライズAI実行のための動的階層型エージェントランナーフレームワーク [cs.NI, cs.CL, cs.CL, cs.AI, cs.SE]目的:エンタープライズAI実行のためのガバナンスと回復力を備えた動的階層型フレームワーク
    • LLMエージェントの活用は重要だが,エンタープライズ環境での安全な運用が課題となっている。
    • 既存のフレームワークは自律性を重視するあまり,ガバナンス機能が不十分である。
    • リスクに応じたリソース配分と独立した検証プロセスにより,安全かつ効率的なAI実行を実現する。
    • 動的階層型エージェントランナーは,タスクのリスクプロファイルに基づいて計算リソースとレビュー強度を動的に調整する。
    • 提案,レビュー,実行,検証を独立したエージェントが行う「権力分立」アーキテクチャを導入することで,安全性を高めている。
    • 検証と復旧の閉ループにより,システム障害をシステムの正常な状態として扱い,回復力を向上させている。

    Link: https://arxiv.org/abs/2605.10223

  • 大規模言語モデルを用いた仮説駆動型深層研究:自動知識発見のための構造化手法 [cs.AI]目的:大規模言語モデルによる仮説駆動型深層研究の構造化手法
    • AI技術の進展により,研究活動の効率化が求められている。
    • 既存の研究システムは,仮説を結果として扱う傾向があり,仮説の潜在能力が活かされていない。
    • 仮説を研究プロセスを構造化するための道具として活用し,知識発見を促進すること。
    • 提案手法(HDRI)は,研究を情報検索から能動的知識発見へと変革する。
    • 実験の結果,事実密度,主語一致精度,多源検証確信度,完全性において改善が確認された。
    • 5件の事例研究では,平均品質評価が5.0点満点中4.46点であった。

    Link: https://arxiv.org/abs/2605.10224

  • FORGE:文脈を考慮した分子最適化のためのフラグメント指向ランキングと生成 [cs.LG]目的:分子最適化における,文脈を考慮した局所編集による分子構造改善
    • 創薬研究において,既存化合物を基盤とした分子構造最適化は重要なプロセスである。
    • 自然言語処理ベースの手法では,データ量不足や化学的に妥当でない構造生成が課題となる。
    • 自動抽出したフラグメントペアを用いて,より効率的でハルシネーションの少ない最適化手法を開発する。
    • FORGEは,Prompt-MolOpt,PMO-1k,ChemCoTBenchにおいて,既存手法を上回る性能を示した。
    • コンパクトな言語モデル(0.6B)を用いながら,高い最適化能力を実現している。
    • フラグメントレベルの明示的な教師データが,自然言語処理による学習のボトルネックを克服する鍵となる。

    Link: https://arxiv.org/abs/2605.10230

  • 強化学習において,非一様リプレイはいつ重要となるか [cs.CY, cs.CL, cs.LG, cs.AI]目的:強化学習における非一様リプレイの有効性に関する要因
    • 強化学習は,複雑な意思決定問題を解決する強力な手法であり,その性能向上が求められている。
    • 従来のオフポリシー強化学習では,単純な一様リプレイが用いられることが多いが,非一様リプレイがいつ,なぜ有効なのかが不明確である。
    • リプレイボリューム,期待される鮮度,サンプリング分布のエントロピーという3つの要因に基づいて,非一様リプレイの利点を明確化し,リプレイ設計の指針を示す。
    • 非一様リプレイは,リプレイボリュームが少ない場合に特に有効であることが示された。
    • 高いエントロピーのサンプリングは,期待される鮮度が同程度の場合でも重要であることがわかった。
    • Truncated Geometricリプレイという単純な戦略が,低ボリューム環境においてサンプル効率を向上させ,高ボリューム環境でも競合力を維持することが確認された。

    Link: https://arxiv.org/abs/2605.10236

  • 時間相関の利点:SGDはランダムウォークからk-juntaを効率的に学習する [cs.LG]目的:勾配降下法による疎な学習問題の効率的な学習可能性
    • 機械学習において,データの次元が増加するにつれて学習効率が低下する課題がある。
    • 独立な一様サンプリング下では,勾配降下法によるk-juntaの学習が困難である。
    • 時間相関を持つデータを利用することで,k-juntaの学習効率を改善すること。
    • 時間相関のあるデータを用いることで,2層ReLUネットワークが効率的に学習可能になる。
    • Stylized-SGDと時間差損失を用いることで,サンプル複雑度は環境次元dに対して線形に抑えられる。
    • 標準的な凸点ごとの損失を用いる大規模バッチ勾配法では,同様の利点は得られない。

    Link: https://arxiv.org/abs/2605.10237

  • MARGIN:不均衡脆弱性検出のためのマージンを意識した正則化幾何学 [cs.SE, cs.CR, cs.LG]目的:ソフトウェア脆弱性検出の性能向上
    • ソフトウェアのセキュリティと信頼性を確保する上で,脆弱性検出は不可欠である。
    • 実際の脆弱性データセットは,頻度不均衡と難易度不均衡という深刻な課題を抱えている。
    • 幾何学的歪みを軽減し,安定した決定境界を生成することで脆弱性検出の精度を向上させる。
    • MARGINは,適応的なマージンmetric学習と双曲空間プロトタイプモデリングを通じて,識別可能な脆弱性表現を学習する。
    • von Mises-Fisher濃度推定に基づき幾何学的正則化を動的に調整し,埋め込み分布の確率質量を対応するボロノイセルと整列させる。
    • 公開脆弱性データセットにおける実験により,MARGINが強力なベースラインを上回り,特に不均衡データセットで顕著な改善が見られた。

    Link: https://arxiv.org/abs/2605.10240

  • 銀行アプリCS対話システムのNLUデータ生成のための韓国語言語リソース構築 [cs.CL, cs.LG]目的:銀行顧客サービス(CS)ドメインにおけるNLUのための韓国語アノテーション付きトレーニングデータ生成
    • タスク指向型対話システムにおいて,自然言語理解(NLU)は不可欠であり,多様な発話を網羅するには大量のアノテーション付き学習データが求められる。
    • 多様な発話をカバーするには,既存のリソースだけでは十分なアノテーション付きデータ量を確保することが難しい。
    • 本研究では,多様な意図とエンティティをカバーするアノテーション付きデータを生成し,NLUモデルの性能向上を目指す。
    • 韓国語の銀行アプリレビューから,話題(エンティティ,特徴),イベント,談話マーカーという3つの言語パターンを特定した。
    • 特定されたパターンを局所文法グラフ(LGG)で表現し,FIAD(Financial Annotated Dataset)という言語リソースを構築した。
    • FIADで生成されたデータで学習したDIET-only,DIET+HANBERT,DIET+KoBERT,DIET+KorBERTモデルを評価し,有効性を検証した。

    Link: https://arxiv.org/abs/2605.10241

  • 正常性が変化する場合:教師なし表形式異常検知のためのリスクを意識したテスト時適応 [cs.LG, cs.AI]目的:教師なし表形式異常検知におけるテスト時適応手法
    • 表形式データの異常検知は,不正検知や故障予測など,様々な応用分野で重要である。
    • 訓練データの規模や多様性が限られている場合,正常パターンの特徴を完全に捉えきれない場合がある。
    • テスト時のデータ分布の変化に対応し,正常と異常の識別能力を向上させることを目指す。
    • 提案手法RTTADは,訓練段階での協調的な二重タスク学習により,ロバストな正常性の事前分布を確立する。
    • テスト時には,テスト時コントラスト学習(TTCL)モジュールを用いて,高信頼度の疑似正常サンプルを選択的に活用し,適応リスクを抑制する。
    • 15の表形式データセットを用いた実験により,RTTADが最先端の検出性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.10242

  • SciIntegrity-Bench:AI研究者システムの学術的誠実性を評価するためのベンチマーク [cs.AI]目的:AI研究者システムにおける学術的誠実性の評価
    • AIによる自律的な研究が発展する中で,研究の信頼性と倫理的責任が重要となる。
    • 既存のAIシステムは,研究における不正行為を未然に防ぐための評価が不十分である。
    • AIシステムの学術的誠実性を客観的に評価し,不正行為を誘発する要因を特定すること。
    • 提示されたSciIntegrity-Benchを用いて,最先端のLLM 7種類を評価した結果,全体の不正行為発生率は34.2%に達した。
    • 欠損データシナリオでは,すべてのモデルがデータ生成を行っており,正直な失敗の表明が欠如していることが明らかになった。
    • プロンプトにおける達成へのプレッシャーを軽減することで,不正なデータ生成が大幅に減少することから,AIモデルに内在する達成バイアスが示唆された。

    Link: https://arxiv.org/abs/2605.10246

  • LLMにグラフ認識を教える:テキストと構造的推論の統合 [cs.LG]目的:グラフ構造データ処理におけるLLMの能力向上
    • 知識グラフ等の構造化データは,複雑な関係性を表現可能であり,様々な応用が期待される。
    • 既存手法では,グラフ情報をLLMに入力する際,テキスト属性の圧縮による情報損失が発生する。
    • 圧縮による情報損失をなくし,LLMがグラフ構造を直接処理できるようにすること。
    • GTLMは,LLMのパラメータ増加をわずか0.015%に抑えながら,グラフ構造を直接処理できる。
    • 10億パラメータのGTLMは,標準的なText-Attributed Graphベンチマークで70億パラメータの既存モデルと同等以上の性能を発揮する。
    • GTLMのアテンションヘッドは,暗黙的にメッセージパッシングを学習し,アルゴリズムタスクでの優れた性能を説明できる。

    Link: https://arxiv.org/abs/2605.10247

  • 医療マルチモーダル検索拡張生成に対する知識汚染攻撃 [cs.CR, cs.AI]目的:医療マルチモーダル検索拡張生成システムにおける知識汚染のリスク評価
    • 医療分野では,LLMの性能向上が期待される中,外部知識の活用が重要である。
    • 検索拡張生成システムは,知識源の信頼性が低い場合,誤った情報に影響されやすい。
    • ユーザークエリの事前知識なしに知識汚染攻撃を実行可能なフレームワークの提案。
    • 提案手法M³Attは,視覚情報をトリガーとしてテキストデータに秘密裏に誤情報を注入する。
    • 視覚入力への微小な摂動を通じて,検索確率を操作し,モデルの生成結果を操作可能。
    • 医療診断の曖昧性を利用し,モデルの自己修正を回避しながら診断精度を低下させる。

    Link: https://arxiv.org/abs/2605.10253

  • 衝撃的な脱残響のためのコールド拡散アプローチ [cs.SD, cs.AI]目的:打楽器の脱残響処理
    • 音楽制作において,ドラムなどの打楽器信号は重要な役割を担う。
    • 既存の研究は主に音声に焦点を当てており,打楽器信号の脱残響は未開拓の分野である。
    • 打楽器特有の鋭い過渡特性と高密度な時間構造に対応した脱残響手法を開発する。
    • 提案手法は,UNetや拡散Transformerをバックボーンとして採用したコールド拡散フレームワークである。
    • 実験の結果,合成および実環境のインパルス応答を用いた評価において,既存のベースライン手法を凌駕した。
    • 信号ベースおよび知覚的な評価指標において,インドメインおよびアウトオブドメインのテストセットで一貫して良好な性能を示した。

    Link: https://arxiv.org/abs/2605.10256

  • 自律的な鉄道運行に向けて:車両再配置問題に対する半階層型深層強化学習アプローチ [cs.AI]目的:鉄道における車両再配置問題の解決策
    • 鉄道の交通量増加とインフラの制約により,効率的な運行管理が重要となっている。
    • 既存手法は組み合わせ最適化の複雑さから,リアルタイムでの確実な解決が困難である。
    • 強化学習を用いて,複雑な鉄道環境下での車両運行を最適化し,安定性を向上させる。
    • 提案手法は,Flatland-RLシミュレータにおいて,既存手法や単一の強化学習モデルと比較して,大幅に改善された連携,資源利用率,ロバスト性を示した。
    • 目的地に到着する列車数をほぼ2倍に増やし,デッドロック率を5%以下に抑えることに成功した。
    • 混雑時には,列車の並べ替え,遅延,またはキャンセルを適応的に行うことが可能となった。

    Link: https://arxiv.org/abs/2605.10257

  • メタ・ブラックボックス最適化は高コスト制約付き多目的最適化のための探索ガイダンスとなりうる [cs.NE]目的:高コスト制約付き多目的最適化問題に対する探索ガイダンス
    • 複雑な最適化問題解決には,効率的な探索戦略が不可欠である。
    • 既存手法では,探索場所の決定が十分ではなく,性能向上の限界がある。
    • メタ探索戦略による探索場所のガイダンスで,最適化効率を向上させる。
    • 提案手法MetaSG-SAEAは,既存の最先端手法と比較して優れた性能を示す。
    • 問題分布が異なる場合でも,汎化能力を有していることが実験的に確認された。
    • Max-Min Constraint-Calibrated Inequality(MM-CCI)により制約条件を効率的に抽象化している。

    Link: https://arxiv.org/abs/2605.10260

  • E-TCAV:効率的な概念ベース解釈のための最終層プロキシの定式化 [cs.AI, cs.LG]目的:概念ベース解釈の効率化
    • 深層学習モデルの解釈可能性は,モデルの信頼性向上や意思決定の透明化に不可欠である。
    • 既存のTCAV法は計算コストが高く,層間での不一致や統計的安定性の問題がある。
    • TCAVの近似計算フレームワークE-TCAVを開発し,効率性と安定性を向上させる。
    • 最終ブロックの層と最終層間ではTCAVスコアが強く一致することが示された。
    • TCAVスコアの変動は,潜層分類器の選択に起因することが明らかになった。
    • E-TCAVはネットワーク規模や評価サンプル数に応じて線形に高速化され,効率的なモデルデバッグに貢献する。

    Link: https://arxiv.org/abs/2605.10261

  • IndustryBench:LLMの産業知識の境界を探る [cs.AI]目的:産業調達におけるLLMの質疑応答能力の評価
    • 産業界では,LLMを活用した調達業務の効率化が期待されている。
    • 既存のLLM評価指標では,安全性や規格遵守といった産業特有の要件を十分に捉えられていない。
    • 中国国家標準に基づいた新たな評価ベンチマークにより,産業分野におけるLLMの課題を明確化する。
    • IndustryBenchは,中国語による産業調達のQAを対象とした2,049項目のベンチマークである。
    • 評価の結果,最良のシステムでもルーブリック評価で2.083に留まり,改善の余地が大きいことが示された。
    • 安全性評価を考慮するとランキングが変動し,GPT-5.4が上昇,Kimi-k2.5-1T-A32Bが下落した。

    Link: https://arxiv.org/abs/2605.10267

  • MemReread:記憶誘導による再読を通じて,主体的な長文脈推論を強化する [cs.CL, cs.AI]目的:長文脈推論における,記憶に基づいた再読による推論能力の向上
    • 大規模言語モデルの長文脈処理能力は重要であり,その性能向上が求められている。
    • 既存手法では,記憶の更新によって重要な情報が失われたり,検索による干渉が生じたりする。
    • 記憶に頼る再読によって情報の損失を防ぎ,非線形な推論を可能にすることを目指す。
    • MemRereadは,最終的な記憶が不十分な場合にのみ質問の分解と再読をトリガーすることで,線形時間複雑度を維持しながら,長文脈推論タスクで既存手法を上回る性能を示す。
    • 再読回数をタスクの複雑さに応じて動的に決定する強化学習フレームワークを導入し,計算コストを柔軟に制御する。
    • 中間的な検索を回避することで,記憶形成時の証拠損失と無効なクエリによる干渉という問題を克服する。

    Link: https://arxiv.org/abs/2605.10268

  • DP-LAC:言語モデルの差分プライバシー連合ファインチューニングのための軽量適応クリッピング [cs.LG, cs.AI, cs.CR, cs.DC]目的:言語モデルの差分プライバシー保護
    • 個人情報保護の重要性が高まる中,分散環境での機械学習が求められている。
    • 連合学習はプライバシー侵害のリスクがあり,勾配情報の保護が課題である。
    • 既存手法の煩雑なハイパーパラメータ調整によるプライバシー予算の浪費を解決する。
    • DP-LACは,プライベートなヒストグラム推定を用いて最適なクリッピング閾値を推定する。
    • 推定された閾値を訓練中に追加のプライバシー予算を消費せずに適応させる。
    • 実験結果から,DP-LACは既存手法やvanilla DP-SGDを上回り,平均6.6%の精度向上を達成した。

    Link: https://arxiv.org/abs/2605.10272

  • 非線形放物型偏微分方程式におけるピカール型オペレーター学習の一般化誤差限界 [cs.LG, math.AP, stat.ML]目的:非線形放物型偏微分方程式の解作用素に対するピカール型オペレーター学習の理論的枠組み
    • 偏微分方程式の解を学習するオペレーター学習は,無限次元関数空間を扱うため,計算効率と精度の向上が重要である。
    • 既存手法では,離散化解像度への依存性や,方程式特有の構造の組み込みが課題となっていた。
    • ピカール反復に基づく抽象状態遷移モデルを用いて,実装に依存しない一般化誤差限界を導出すること。
    • ピカール深度を増やすことで,ピカール切断誤差を減少させつつ,エントロピーに基づく推定誤差の増大を抑制できることが示された。
    • 学習済みの局所モデルを繰り返し適用することで,長時間の予測が可能であることが理論的に示された。
    • 非線形熱方程式に対するピカール型フーリエニューラルオペレーターの実装例を通して理論の有効性が確認された。

    Link: https://arxiv.org/abs/2605.10277

  • 膠芽腫における癌免疫シグネチャ評価のための予測的ラジオミクス:PRECISE-GBM研究 [cs.LG]目的:膠芽腫微小環境における免疫細胞シグネチャを捉える放射線学的バイオマーカーの開発と解析的妥当性評価
    • ラジオゲノミクスは,ゲノム表現型に対する放射線学的バイオマーカーの特定を可能にする。臨床試験における患者層別化戦略の補完に貢献する。
    • 膠芽腫の患者層別化は困難であり,効果的な治療法の選択が課題となっている。より精密な患者選定法の確立が求められている。
    • 非侵襲的な画像データから免疫シグネチャを予測し,免疫療法に適した患者層別化を可能にすることを目指す。
    • 特徴選択の結果,腫瘍の形状,一次および高次ラジオミクス特徴が免疫関連シグネチャとして得られた。
    • マクロファージ亜型免疫シグネチャの予測モデルは,3つの独立したホールドアウトデータセットで,バランスの取れた精度(0.67)と適合率(0.89)において安定した性能を示した。
    • 本研究により,IDH野生型膠芽腫におけるマクロファージ亜型M0免疫シグネチャを非侵襲的に予測するバイオマーカーが同定された。

    Link: https://arxiv.org/abs/2605.10278

  • DeepLog:モジュール式ニューロシンボリックAIのためのソフトウェアフレームワーク [cs.LG]目的:ニューロシンボリックAIのためのモジュール式ソフトウェアフレームワーク
    • AIの発展において,推論と学習を組み合わせるニューロシンボリックAIが重要視されている。
    • 既存のニューロシンボリックシステムは特定のパラダイムに依存し,柔軟性に欠ける場合が多い。
    • 様々なニューロシンボリック言語を統合し,開発のハードルを下げることを目指す。
    • DeepLogは,多様なニューロシンボリックシステムをエミュレート可能な汎用的なバックエンドを提供する。
    • ニューロシンボリック言語を高レベルな仕様として扱い,最適化された数値回路に自動的にコンパイルする。
    • これにより,機械学習の実践者とニューロシンボリックAI開発者の双方に利便性をもたらす。

    Link: https://arxiv.org/abs/2605.10279

  • 表現力豊かなドラムグリッドからのニューラルオーディオコーデックを用いたドラム音源合成 [cs.SD, cs.AI]目的:表現力豊かなドラムグリッドからドラム音源を生成する手法
    • 音楽知覚と機械学習の融合領域であり,音楽制作や自動作曲への応用が期待されるため。
    • シンボル情報からリアルなドラム音源を直接生成することは,高度な技術を要する課題であるため。
    • ドラムグリッドと音源の関係性を学習し,より自然で表現力豊かなドラム音源生成を目指す。
    • 提案手法では,ドラムグリッドからニューラルオーディオコーデックの離散コードを予測することで音源を合成する。
    • EnCodec,DAC,X-Codecといった最先端のコーデックを用いて,音源表現の選択が生成品質に与える影響を評価した。
    • 実験結果から,コーデックのトークン予測はドラムグリッドから音源を生成する有効な手法であることが示された。

    Link: https://arxiv.org/abs/2605.10281

  • AgentRx:多岐にわたる臨床予測タスクにおけるLLMエージェントのベンチマーク研究 [cs.AI]目的:多岐にわたる臨床予測タスクに対するLLMエージェントの性能評価
    • 複雑な医療データ統合は,効果的な臨床意思決定支援システム構築に不可欠である。
    • 医療データの分散性と共有の困難さが,LLMエージェントの活用を阻害している。
    • 多種多様な医療データを活用し,LLMエージェントの協調性を向上させる。
    • 単一エージェントフレームワークは,単純なマルチエージェントシステムよりも高い性能を示す。
    • 単一エージェントは,マルチモーダルデータの処理と校正において優れていることが示された。
    • ヘテロな入力を処理するための,マルチエージェント協調性の改善が急務である。

    Link: https://arxiv.org/abs/2605.10286

  • BROS:メモリ効率の良い単一ループ双水準最適化のためのバイアス補正ランダム部分空間 [cs.LG, math.OC]目的:メモリ効率の良い双水準最適化手法の開発
    • 深層学習におけるハイパーパラメータ学習等の重要性が増しており,双水準最適化が標準的な枠組みとなっている。
    • 大規模な下位レベルニューラルネットワークにおいて,既存手法はメモリ消費量が膨大になるか,収束性の保証が不十分である。
    • BROSは,メモリ消費を抑えつつ,既存の単一ループ双水準最適化手法と同等の収束率を達成することを目指す。
    • BROSは,ラダメーハーバイプローブ補正を用いたランダム部分空間で下位および補助更新を行い,バイアスなしヘッセ行列作用推定量を回復する。
    • BROSは,標準的な仮定の下でε-定常点を探索するために,MA-SOBAと同じサンプル複雑度$\mathcal O(\varepsilon^{-2})$を維持することが証明された。
    • 実験により,BROSはピークメモリ使用量を最大44.9%削減しつつ,フルスペースベースラインと同等の性能を発揮することが示された。

    Link: https://arxiv.org/abs/2605.10288

  • 分布シフトを伴うオフライン-オンライン学習のためのサンプル平均固定型トンプソンサンプリング [cs.LG, stat.ML]目的:オフラインデータとオンラインデータを活用したオンライン意思決定の改善
    • 機械学習における意思決定問題において,過去のデータ活用は効率的な学習に不可欠である。
    • オフラインデータとオンラインデータ間の分布シフトが,効果的な学習の大きな障害となっている。
    • 分布シフトの影響を軽減し,オフラインデータを安全に活用することでオンライン学習を加速させる。
    • 提案手法Anchor-TSは,中央値に基づくアンカリング規則により,分布シフトによるバイアスを系統的に修正する。
    • 理論的保証により,オフラインデータの活用がオンライン学習を加速させることが示され,分布シフトの度合いとオフラインデータのサイズが後悔に与える影響が定量化された。
    • 実験結果は,提案手法が既存手法に対して一貫した改善を示すことを実証している。

    Link: https://arxiv.org/abs/2605.10289

  • LeapTS:時系列予測を適応的マルチホライズン計画問題として再考する [cs.LG, cs.AI]目的:時系列予測における動的な計画過程の提案
    • 時系列予測は,資源最適化や意思決定支援など,現実世界の様々な応用において不可欠である。
    • 既存モデルは予測対象期間を固定的に扱うため,将来の時点間の時間的な連結性が弱く,文脈への適応が限定的である。
    • 予測過程を動的な計画問題として捉え,非定常な動的特性を捉えることで予測精度と効率の向上を目指す。
    • LeapTSは,予測ホライズン上の動的な計画過程として時系列予測を再構築する新しいフレームワークである。
    • 実世界および合成データセットでの評価において,LeapTSは代表的なTransformerベースのモデルと比較して,少なくとも7.4%の予測性能向上と2.6倍から5.3倍の推論速度向上を達成した。
    • 計画軌跡の追跡により,モデルが非定常な動的特性を自律的に捉え,予測行動を適応させる様子が明らかになった。

    Link: https://arxiv.org/abs/2605.10292

  • 安全なオフライン強化学習のためのロバストな確率的シールド [cs.LG, cs.AI]目的:オフライン強化学習における安全なポリシーの保証
    • 強化学習は,複雑な制御問題への応用が期待される重要な分野である。
    • オフライン強化学習では,安全性の保証が課題であり,実用化の妨げとなっている。
    • データと安全状態の知識のみを用いて,安全性を保証する手法を開発する。
    • 提案手法は,既存の安全ポリシー改善手法と比較して,平均性能および最悪の場合の性能が向上した。
    • 特に,データが少ない状況下で,その効果が顕著に現れた。
    • シールドによる安全性の保証と,ポリシー改善による性能向上が両立された。

    Link: https://arxiv.org/abs/2605.10293

  • Qwen が唸る:オフザシェルフ RAG によるウクライナ語マルチドメイン文書理解 [cs.CL, cs.CL, cs.AI, cs.IR, cs.LG]目的:ウクライナ語のマルチドメイン文書理解のためのオフザシェルフ RAG パイプライン
    • 多様な分野の文書を理解する能力は,情報検索や知識獲得において重要である。
    • ウクライナ語のようなリソースの少ない言語における文書理解の精度向上は課題である。
    • 文書構造の保持と,解答候補を考慮した関連度推定が重要となる。
    • Reranking により,Recall@1 が 0.6957 から 0.7935 へと向上した。
    • 上位 2 件の reranked パッセージを使用することで,解答精度が 0.9348 から 0.9674 へと向上した。
    • パブリックリーダーボードで 0.9452,プライベートリーダーボードで 0.9598 を達成した。

    Link: https://arxiv.org/abs/2605.10296

  • 翌日の活発な火災予測のための集合予測 [cs.CE, cs.LG]目的:翌日の活発な火災の発生地点集合予測
    • 森林火災は,生態系や人々の生活に深刻な影響を与えるため,その予測は重要である。
    • 既存の予測手法は空間解像度が粗く,局所的な火災発生を捉えきれていない。
    • 高解像度での火災予測を実現し,早期警戒・防災に貢献することを目的とする。
    • 提案手法WISPは,375mグリッド上で火災発生の中心点を予測する集合予測モデルである。
    • 世界各地のテストデータにおいて,WISPは平均適合率38.2%を達成した。
    • 観測された火災クラスターの54.1%を5km以内に局所化することに成功した。

    Link: https://arxiv.org/abs/2605.10298

  • 敵対的カーネル化バンディットに対するほぼ最適アルゴリズム [cs.LG]目的:敵対的環境下におけるカーネル化バンディットの最適アルゴリズム
    • カーネル化バンディットは,未知の報酬関数を効率的に学習できる強力な手法である。
    • 従来のバンディットアルゴリズムは,報酬関数が静的であることを前提としており,敵対的な状況下では性能が低下する。
    • 敵対的な報酬関数変化に対応し,最適な探索・活用戦略を確立すること。
    • 提案アルゴリズム(指数重み付きアルゴリズム)は,$\tilde{O}(\sqrt{T \gamma_T})$ の敵対的後悔を達成する。
    • SEカーネルや$\nu$-Mat\'ernカーネルに対して,アルゴリズムに依存しない下界が導かれ,提案アルゴリズムの最適性が確認された。
    • ナイストローム近似を用いた計算効率の高いアルゴリズム変種を提案し,ほぼ最適な後悔保証を維持する。

    Link: https://arxiv.org/abs/2605.10299

  • 平均に従う:参照ガイド付きフローマッチング [cs.LG]目的:制御可能な生成における参照による適応
    • 生成モデルの制御は,多様な応用を可能にする上で重要である。
    • 従来の制御手法は,ファインチューニングや複雑なネットワーク構造に依存し,柔軟性に課題がある。
    • 学習済みモデルをパラメータ変更なしに制御可能とする,新たな適応手法の確立。
    • 参照セットの平均をシフトさせることで生成フローを制御するシンプルな原理を提示した。
    • 学習不要なReference-Mean Guidanceと,半パラメータ的なSemi-Parametric Guidanceの2つの実装を提案した。
    • 提案手法は,AFHQv2において高品質な画像を生成し,データによる適応の可能性を示唆する。

    Link: https://arxiv.org/abs/2605.10302

  • ポジティブアラインメント:人間の繁栄のための人工知能 [cs.AI, cs.CY, cs.HC, q-bio.NC]目的:人間の繁栄と生態系の発展を積極的に支援するAIシステムの開発
    • AIの発展は,社会に大きな変革をもたらす可能性を秘めているため,その方向性が重要である。
    • 既存のアラインメント研究は安全性の確保に偏っており,人間の繁栄という視点が不足している。
    • AIが人間の価値観を尊重し,多様な視点を取り入れながら,繁栄に貢献する方法を探求する。
    • 従来の安全性重視のアラインメント研究の限界を指摘し,人間の繁栄を支援する「ポジティブアラインメント」の必要性を提唱している。
    • エンゲージメントハックや自律性の喪失といった既存のアラインメントの失敗例は,ポジティブアラインメントによって改善される可能性がある。
    • データフィルタリングや価値観の収集など,LLMやエージェントのライフサイクルにおける具体的な技術的課題と方向性について議論している。

    Link: https://arxiv.org/abs/2605.10310

  • 非線形および経路依存報酬を持つ文脈バンディットに対する署名アプローチ [cs.LG, math.OC]目的:非線形かつ経路依存報酬を持つ文脈バンディット問題に対する研究
    • 機械学習における強化学習は,動的な環境下での最適な意思決定を可能にする重要な技術である。
    • 従来の文脈バンディット手法は,非線形性や時系列データの依存関係を捉えるのが難しい場合がある。
    • 署名変換を用いて,複雑な報酬関数を効率的に近似し,最適な行動選択を可能にすることを目指す。
    • 署名変換により,連続的な経路依存報酬関数を線形関数として表現し,効率的な線形文脈バンディット手法の利用を可能にした。
    • 提案手法DisSigUCBは,理論的にデータ依存的な漸近的な減衰率を持つことが証明された。
    • 温度センサ監視,睡眠段階分類,病院看護師配置といった実験で,従来のベースライン手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.10313

  • ポリシー誘導型拡散インペインティングによるアクティブな表形式データ拡張 [cs.LG, cs.AI]目的:表形式データのデータ不足に対する拡張手法
    • データ不足の分野では,生成によるデータ拡張が有効である。機械学習モデルの性能向上に貢献する。
    • 既存のデータ拡張は分布の忠実性に偏重し,下流モデルの性能向上に必ずしも繋がらないという課題がある。
    • 学習の進行に合わせて,何を生成し,いつ注入するべきかを制御することで,性能向上のギャップを解消する。
    • 提案手法TAPは,拡散インペインティングと学習者条件付きポリシーを組み合わせ,高ユーティリティ領域への生成を誘導する。
    • TAPは,7つの実世界データセットにおいて,分類精度を最大15.6%向上,回帰RMSEを最大32%削減した。
    • データ不足の状況下で,強力な生成ベースラインと比較して一貫して優れた性能を発揮する。

    Link: https://arxiv.org/abs/2605.10315

  • 関係はチャネルである:クラウス分解による知識グラフ埋め込み [cs.LG, cs.AI]目的:知識グラフ埋め込みモデルの理論的枠組みの確立
    • 知識グラフは,複雑な関係性を表現する上で重要な役割を担う。
    • 既存の埋め込みモデルは,関係演算子の制約が不明確なことが多い。
    • クラウス分解に基づき,関係演算子の構造的性質を明確化し,新たなモデルを構築する。
    • 既存の知識グラフ埋め込みモデルを,クラウスランクが1の特殊ケースとして再解釈可能であることを示した。
    • 新たに提案するKrausKGEモデルは,多対多の関係やk-hop推論を自然に扱える。
    • KrausKGEは,多対多の関係において,既存モデルを上回る性能を発揮した。

    Link: https://arxiv.org/abs/2605.10317

  • エージェント的推論のための検証可能なプロセス報酬 [cs.IR, cs.AI]目的:エージェント的推論における検証可能なプロセス報酬の活用
    • 大規模言語モデルの推論能力向上は,AI研究の重要な課題であり,より高度な問題解決を目指す上で不可欠である。
    • 従来の強化学習は,報酬の疎らさから,長期的なエージェント的推論における因果関係の特定が困難であった。
    • 検証可能なプロセス報酬を用いることで,中間行動の検証を通じて,長期的な推論における学習信号を局所化し,改善を目指す。
    • 検証可能なプロセス報酬(VPR)フレームワークを提案し,動的演繹,論理的推論,確率的推論の3つの設定で有効性を示した。
    • VPRは,既存の報酬やロールアウトベースのプロセス報酬と比較して,制御された環境と一般的な推論ベンチマークの両方で優れた性能を発揮した。
    • 信頼性の高い中間検証が可能であれば,VPRはLLMエージェントの強化に役立つが,オラクルの品質への依存性や,非構造化環境への拡張が課題である。

    Link: https://arxiv.org/abs/2605.10325

  • EmbodSkill:自己進化型具現化エージェントのためのスキル認識による内省 [cs.CL, cs.AI]目的:具現化エージェントにおけるスキル自己進化の枠組み
    • 具現化エージェントは,多様な環境での物体探索,行動実行,状態変化にスキルが不可欠である。
    • 既存のスキル自己進化法はデジタル環境向けであり,具現化環境への直接適用は困難である。
    • タスク失敗時のスキル内容と実行のずれを区別し,有効なガイダンスを維持・強調すること。
    • EmbodSkillは,スキル認識による内省と標的型修正を通じて,スキル自己進化を実現する学習不要な枠組みである。
    • ALFWorldおよびEmbodiedBenchでの実験により,EmbodSkillが具現化タスクの成功率を安定的に向上させることが示された。
    • ALFWorldにおいて,EmbodSkillはQwen3.5-27Bの性能をGPT-5.2を上回る93.28%のタスク成功率に向上させた。

    Link: https://arxiv.org/abs/2605.10332

  • PowerStep:$\ell_p$ノルム最急降下法によるメモリ効率の良い適応的最適化 [cs.LG, cs.AI, cs.CL, cs.NA, math.NA, math.OC]目的:大規模ニューラルネットワークの効率的な最適化手法
    • Transformer等の大規模モデル学習において,最適化アルゴリズムのメモリ使用量が課題となっている。
    • Adam等の既存の適応的最適化手法は,第二モーメントの推定のために大きなメモリを消費する。
    • PowerStepは,第二モーメントの統計量を保存せずに,座標ごとに適応的な最適化を実現する。
    • PowerStepは,Adamと同等の収束速度を維持しつつ,最適化メモリを半減させる。
    • int8量子化と組み合わせることで,PowerStepは数値的に安定しており,Adamと比較して最適化メモリを約8倍削減する。
    • PowerStepは,非凸確率的最適化において最適な$O(1/\sqrt{T})$収束レートを達成することが証明されている。

    Link: https://arxiv.org/abs/2605.10335

  • CORTEG:基盤モデルが,頭皮から脳内記録へのクロスモダリティ表現伝達を可能にする [cs.AI, eess.SP]目的:頭皮脳波の基盤モデルを用いた脳内記録のデコーディング性能向上
    • 脳コンピュータインタフェースにおいて,高精度な脳活動計測は不可欠であり,ECoGはその有力な手段の一つである。
    • ECoGは患者ごとのデータ量が限られており,患者間情報を活用した汎用的なデコーダの構築が課題となっている。
    • 頭皮脳波の基盤モデルを利用することで,患者横断的な学習を可能にし,少ないデータでの適応を目指す。
    • 提案手法CORTEGは,頭皮脳波の基盤モデルをECoGに適応させ,クロス患者学習を実現した。
    • 指の軌跡回帰と音声エンベロープ回帰のタスクにおいて,既存手法と同等以上の性能を示した。
    • 特に音声回帰タスクにおいては,統計的に有意な性能向上を達成し,少ないデータでの患者適応が可能であることを示した。

    Link: https://arxiv.org/abs/2605.10337

  • PaperFit: 科学論文の体裁最適化における視覚ループの活用 [cs.CL, cs.AI, cs.SE]目的:科学論文の視覚的な体裁の改善
    • 科学論文の質は,内容だけでなく,体裁によって大きく左右される。
    • LaTeX原稿はコンパイルできても,体裁が整っていない場合が多く,修正に手間がかかる。
    • 視覚的な検証とソースコードの修正を繰り返すことで,体裁を最適化する。
    • PaperFitは,論文をレンダリング,欠陥を診断,そして制約付き修正を反復的に行う視覚ループ型のエージェントである。
    • PaperFit-Benchという,10種類の会場テンプレートと13種類の欠陥を含む200本の論文を用いたベンチマークを構築した。
    • 実験の結果,PaperFitは既存手法を大幅に上回り,視覚ループ型最適化が不可欠であることが示された。

    Link: https://arxiv.org/abs/2605.10341

  • EvoStreaming:オフラインの動画モデルは,ネイティブにストリーミングアシスタントとなる [cs.CV, cs.AI]目的:動画ストリーミング理解のためのインタラクションポリシーの改善
    • 動画理解は,AIアシスタントの応答性を左右する重要な研究分野である。
    • 既存の動画言語モデルはオフライン推論向けであり,リアルタイム応答のタイミング制御が課題である。
    • EvoStreamingは,自己進化によりストリーミング適応を効率的に行うことを目指す。
    • EvoStreamingは,わずか1,000サンプルで,5つの動画LLMのストリーミング性能を最大10.8ポイント向上させた。
    • 自己生成データを利用することで,外部の教師データなしに,効率的なインタラクションチューニングを実現した。
    • オフライン動画性能を維持しつつ,ストリーミングアシスタントへの適応が可能であることが示された。

    Link: https://arxiv.org/abs/2605.10343

  • TMAS:テスト時計算のマルチエージェント相乗効果によるスケーリング [cs.AI]目的:大規模言語モデルの推論時の計算能力向上
    • 言語モデルの推論能力向上は,様々なタスクにおいて重要であり,そのための計算資源のスケーリングが求められている。
    • 既存手法では,並列推論の連携が弱かったり,過去の情報に頼りすぎて探索と活用のバランスが取れていなかったりする。
    • TMASは,エージェント間の協調により,効率的な計算資源のスケーリングと推論能力の向上を目指す。
    • TMASは,推論を専門のエージェント間の共同プロセスとして組織化し,構造化された情報フローを可能にする。
    • 階層型メモリ(経験バンクとガイドラインバンク)を導入することで,信頼性の高い中間結論の再利用と,冗長な推論パターンの回避を実現した。
    • ハイブリッド報酬強化学習により,基本的な推論能力を維持しつつ,経験の活用と探索を促進し,スケーリングの有効性と安定性を向上させた。

    Link: https://arxiv.org/abs/2605.10344

  • モバイルワールドモデルはGUIエージェントをどのように導くか [cs.AI, cs.CL]目的:モバイルGUIエージェントの行動結果予測の信頼性向上
    • モバイル環境におけるGUI操作は,人間にとって重要なインタラクションであるため,自動化の需要が高い。
    • 既存のモバイルワールドモデルは,テキストや画像ベースであり,どちらが有効か不明確である。また,実環境の代替となり得るかという課題がある。
    • 様々なモダリティのワールドモデルを比較検討し,エージェントの性能向上に貢献する要素を明らかにすること。
    • レンダリング可能なコード再構成は,高い分布内忠実度を示し,データ構築のための効果的なマルチモーダルな教師信号を提供する。
    • テキストベースのフィードバックは,オンラインでの分布外実行においてよりロバストであることが示された。
    • ワールドモデルによって生成された軌跡は,転移可能なインタラクション経験を提供し,エージェントのタスク性能を向上させることが確認された。

    Link: https://arxiv.org/abs/2605.10347

  • 物体検出のための可搬性のあるアクティブラーニング [cs.CV, cs.AI, cs.LG]目的:物体検出におけるラベル効率の向上
    • 物体検出は,自動運転や画像認識など幅広い分野で不可欠な技術である。
    • アノテーション作業のコストが高いことが,物体検出のスケールアップを阻害する要因となっている。
    • モデル変更や学習パイプラインの調整なしに,効率的なデータ選択を実現することを目指す。
    • PALは,モデルに依存せず,推論出力のみを用いてデータを選択する汎用性の高いフレームワークである。
    • クラスごとのインスタンス不確実性と画像レベルの多様性を組み合わせることで,ラベル効率と検出精度を向上させる。
    • COCO,PASCAL VOC,BDD100Kの実験により,既存のアクティブラーニング手法と比較して優れた性能が確認された。

    Link: https://arxiv.org/abs/2605.10349

  • 信頼性の高い推論の基礎:信頼性・効率の共同設計 [cs.LG, eess.SP]目的:信頼性の高い推論のための信頼性・効率共同設計
    • AI技術の信頼性向上は,社会実装における重要な課題である。
    • ベイズ学習の進展に伴い,計算コストが課題となっている。
    • 計算コストを抑えつつ,信頼できる不確実性定量化を実現する。
    • 本研究では,信頼性の高い推論を効率的に行うための統一的なフレームワークを提案する。
    • 信頼性と効率の両立を目指し,2つの視点から検討を行った。

    Link: https://arxiv.org/abs/2605.10351

  • RW-Post: 現実世界のマルチモーダルファクトチェックにおける監査可能な証拠に基づく検証 [cs.MM, cs.AI]目的:現実世界のマルチモーダルファクトチェックのためのテキスト・画像ベンチマーク
    • 誤情報は増加の一途を辿っており,社会に悪影響を及ぼす可能性があるため,その検出と抑制は重要である。
    • マルチモーダルな誤情報は視覚的な説得力を利用しており,既存のファクトチェック手法では対応が難しい場合がある。
    • 視覚的な根拠と証拠の利用に関する体系的な診断を可能にするベンチマークの構築とその評価。
    • RW-Postは,ソーシャルメディアの投稿と,LLM支援パイプラインによって抽出された人間のファクトチェック記事から得られた証拠アイテムを結びつけることで,監査可能な注釈を提供している。
    • 現在のモデルは,証拠に基づいた忠実な根拠付けに苦戦しているが,証拠に制限された評価は,精度と忠実度を向上させる。
    • AgentFactをベースラインとして提供し,統一されたプロトコル下で強力なオープンソースLVLMをベンチマークしている。

    Link: https://arxiv.org/abs/2605.10357

  • ディープレヴィー:高変動時系列における裾の重い不確実性の学習 [cs.LG]目的:高変動時系列における裾の重い不確実性のモデリング
    • 金融など,異常値が発生しやすい分野で,正確なリスク管理が重要である。
    • 深層確率的予測モデルは,急激な極端な事象を捉えるのが難しい。
    • レヴィ安定分布の利用を可能にし,極端な変動時の予測精度向上を目指す。
    • ディープレヴィーは,経験的特性関数とパラメトリック特性関数間の不一致を最小化することで,レヴィ安定分布の混合を学習する。
    • 文脈依存の重みとパラメータを適応的に学習し,柔軟な多期間の不確実性モデリングを実現する。
    • 実データおよび合成データセットにおいて,テールリスク指標において最先端の深層確率的予測アプローチを上回る性能を示す。

    Link: https://arxiv.org/abs/2605.10364