arXiv雑要約

AI - 2026/05/08 公開

ランダムシャッフルに基づくDP-SGDのトレードオフ関数：タイトな上限と下限 [cs.LG, cs.CR]目的：ランダムシャッフルに基づくサブサンプリングを用いた差分プライバシー確率的勾配降下法（DP-SGD）のトレードオフ関数の解析
- データプライバシー保護の重要性が高まる中，機械学習モデルの差分プライバシー保証が求められている。
- 既存の差分プライバシー手法では，プライバシー保護とモデル精度のトレードオフが明確でない場合がある。
- ランダムシャッフルを用いたサブサンプリングによるDP-SGDのトレードオフ関数を厳密に解析し，明確な境界を導出すること。
- 本研究では，f-DPフレームワークにおいて，ランダムシャッフルに基づくサブサンプリングを用いたDP-SGDのトレードオフ関数をタイトに解析した。
- 具体的なパラメータ設定において，理想的なランダム推測の対角線に近いトレードオフ関数（1-a-δ）を達成するためのラウンド数とサンプル数を評価した。
- 複数エポックにわたるトレードオフ関数の合成方法を提示し，δの依存性を改善する新しい証明技術を導入した。
Link: https://arxiv.org/abs/2605.06259
厳格なアライメントを超えて：二重多様体較正によるグラフ連合学習 [cs.LG]目的：分散サブグラフ間の協調表現学習
- データプライバシー保護が重要視される中，分散環境での機械学習ニーズが高まっている。
- クライアント間のサブグラフのセマンティクスや構造の異質性が大きな課題となっている。
- 既存手法の制約を克服し，グローバルな共通性とローカルな個別性を両立させることを目指す。
- 提案手法FedGMCは，二重多様体較正メカニズムにより，グローバルな共通性を維持しつつ，ローカルクライアントの表現空間を最大化する。
- サーバーは等距離セマンティックアンカーを用いてセマンティック多様体を構築し，ローカルセマンティック多様体の較正を導く。
- 11のホモフィリックおよびヘテロフィリックグラフに対する実験の結果，FedGMCが最先端の手法を大幅に上回ることが示された。
Link: https://arxiv.org/abs/2605.06260
推論時精緻化が表形式拡散モデルにおける合成データと実データのギャップを埋める [cs.LG, cs.AI]目的：表形式データの合成における，合成データと実データの性能差の縮小
- 表形式データの合成は，プライバシー保護やデータ拡張に不可欠であり，その重要性は増している。
- 既存の合成手法は実データに匹敵する性能を達成できず，その性能差（ギャップ）が課題となっていた。
- 本研究は，事前学習済みのモデルを固定したまま推論時に精緻化を行うことで，この性能差を埋めることを目指す。
- 提案手法TARDISは，実データで学習したモデルを上回るダウンストリームタスクの性能を，中央値で8.6%改善した。
- TARDISは15のベンチマークデータセット全てにおいて，ベースラインモデルであるTabDiffを上回る結果を示した。
- 推論時の精緻化により，実データの性能を超える合成データを，短時間で生成することが可能となった。
Link: https://arxiv.org/abs/2605.06261
アトリビューションはリスクを予測できるか？：マルチビューアトリビューションからエンドツーエンド自動運転におけるリスクシグナルの計画へ [cs.LG]目的：エンドツーエンド自動運転における計画リスクの予測
- 自動運転の安全性を向上させるためには，システム全体の挙動を理解し，リスク要因を特定することが不可欠である。
- エンドツーエンドモデルは意思決定の過程が不透明であり，リスクの特定や局所化が困難であるという課題を抱えている。
- アトリビューションを用いて，計画過程におけるリスクシグナルを抽出し，リスク予測の精度向上を目指す。
- 提案手法では，L2一貫性を目的関数として，粗い領域から細かい領域へとアトリビューションを洗練させる階層的な戦略を採用した。
- アトリビューションエントロピー，カメラ内空間分散，カメラ間ジニ係数という3つの統計量をリスク予測シグナルとして抽出した。
- BridgeAD，UniAD，GenADにおける実験結果から，これらの統計量は軌道誤差（相関係数0.30±0.07）および衝突検出（AUROC 0.77±0.04）と相関することが示された。
Link: https://arxiv.org/abs/2605.06264
未観測分布への多ショット適応のためのフローマッチングアルゴリズム [cs.LG]目的：未観測分布への適応手法
- 生成モデルは画像生成などで成功を収めているが，少ないサンプルからの適応は課題である。
- 新たな分布へのモデル適応には，追加の学習コストや計算資源が必要となる場合が多い。
- サンプルデータに基づいた効率的な分布適応を可能にすることを目指している。
- 提案手法FP-FMは，ターゲット分布のサンプルに基づいて直接生成を条件付けする。
- FP-FMは，トレーニング分布に対応する速度場の基底関数を学習し，基底への最小二乗投影によって適応を実現する。
- 合成データセットと画像データセットにおいて，ベースラインよりも精度と再現率が大幅に向上した。
Link: https://arxiv.org/abs/2605.06272
ラベルに構造があるとき：階層を意識したクロスエントロピーによる画像分類の改善 [cs.LG, cs.CV]目的：階層構造を考慮したクロスエントロピー損失関数
- 画像分類は機械学習の基礎であり，その性能向上は様々な応用分野に不可欠である。
- 従来のクロスエントロピーは，クラス間の意味的な距離を考慮せず，誤分類を等しく扱う点が課題である。
- クラス階層構造を活用し，より効率的な学習と分類精度の向上を目指す。
- 提案手法HACEは，標準クロスエントロピーの代替として機能し，18組のアーキテクチャ・データセットペア中15組で精度が向上した。
- エンドツーエンド学習において，平均で4.66％の精度向上が確認された。
- 凍結されたDINOv2-Largeの特徴量を用いた線形プローブでは，HACEは3つのデータセットすべてで競合手法を上回り，平均で2.18％の改善を示した。
Link: https://arxiv.org/abs/2605.06274
低資源話者方言に対する線形意味セグメンテーション [cs.CL, cs.AI]目的：低資源話者方言における意味セグメンテーションの改善
- 対話分析において意味セグメンテーションは不可欠であり，言語理解の基礎となる。
- 既存モデルは高資源の書き言葉に偏っており，低資源の話し言葉方言への適用が困難である。
- 方言における非公式な構文，コードスイッチング，曖昧な談話構造に対処するセグメンテーションモデルを開発する。
- 方言のトランスクライブされた音声では，MSAニュースジャンルで良好な性能を示すセグメンテーションモデルの性能が低下する。
- 局所的な意味的 coherence と談話の不連続性に対するロバスト性を重視したセグメンテーションモデルを提案した。
- 提案手法は方言のニュース以外のジャンルにおいて，強力なベースラインモデルを上回る性能を示す。
Link: https://arxiv.org/abs/2605.06276
PACE：剪定と圧縮によるアンサンブルモデル [cs.LG, math.OC]目的：アンサンブルモデルの効率化と性能維持
- 予測タスクにおいて，アンサンブルモデルは高い性能を示すが，計算コストが大きい
- アンサンブル規模の拡大は，導入の障壁となり，解釈性や堅牢性の検証を困難にする
- モデルの剪定と圧縮を組み合わせ，効率性と性能を両立する手法を開発する
- PACEは，理論的根拠に基づいた手順で多様な学習器を生成し，アンサンブルを強化する
- 学習器の追加が困難になった時点で，PACEはアンサンブルの信頼性を制御しながら剪定を行う
- 実験により，PACEが既存の剪定・圧縮手法を上回り，信頼性保証を実現することが示された
Link: https://arxiv.org/abs/2605.06278
正しいコード，脆弱な依存関係：LLM指定ライブラリバージョンの大規模測定研究 [cs.SE, cs.AI]目的：LLM生成コードにおけるライブラリバージョンのリスク評価
- ソフトウェア開発におけるLLMの活用が拡大しており，その安全性確保が重要である。
- LLMが指定するライブラリバージョンが，セキュリティや互換性の問題を引き起こす可能性がある。
- LLMが選択するライブラリバージョンのリスクを定量的に評価し，対策を検討する。
- LLMは，プロンプト形式によってバージョン指定の頻度が異なり，26.83%-95.18%の範囲でバージョンIDを指定する傾向がある。
- 指定されたバージョンには，36.70%-55.70%のタスクで既知のCVEが含まれており，その深刻度は高い場合が多い。
- CVEの公開時期はモデルの知識カットオフよりも前であることが多く，LLMのバージョン選択にバイアスが存在することが示唆された。
Link: https://arxiv.org/abs/2605.06279
高次元PIDEsに対する反復ニューラルソルバーINEUS [cs.LG, cs.NA, math.NA, q-fin.CP]目的：高次元偏微分積分方程式の解法
- 科学技術計算において，偏微分方程式は現実世界の様々な現象を記述する上で不可欠である。
- 高次元PIDEsの計算コストは非常に高く，従来の数値解法では困難な場合が多い。
- 非局所項の効率的な処理と，計算コストの削減を目指す。
- INEUSは，非局所的な跳躍積分を単一跳躍サンプリングで置き換え，PIDEの解法を再帰的な回帰問題の系列として定式化する。
- PINNsと比較して，非局所項の処理効率が向上し，PIDE残差の微分計算を回避できる。
- 線形PIDEに対する収束性証明に基づき，数値実験により高次元線形および非線形問題に対して，正確かつスケーラブルな解を示す。
Link: https://arxiv.org/abs/2605.06281
LatentRAG：効率的なエージェント型RAGのための潜在的推論と検索 [cs.CL, cs.CL, cs.LG]目的：効率的なエージェント型RAGのための潜在的推論と検索の枠組み
- 複雑な質問応答において，外部知識の活用は性能向上に不可欠である。
- 既存のエージェント型RAGは，思考と検索の過程で高い遅延が発生する。
- 潜在空間での推論と検索により，遅延を大幅に削減することを目指す。
- LatentRAGは，思考と検索を潜在空間で行うことで，既存手法と同等の性能を達成した。
- 推論速度を約90%削減し，従来のRAGとの遅延差を大幅に縮小した。
- 潜在的な表現の透明性を高めるため，潜在トークンを自然言語に変換する仕組みを導入した。
Link: https://arxiv.org/abs/2605.06285
データ言語モデル：表形式データの新たな基盤モデルクラス [cs.MA, cs.AI]目的：表形式データのネイティブな理解
- 実世界のAI判断に重要な表形式データには，適切な基盤モデルが不可欠である。
- 既存の表形式AIは，前処理パイプラインが必須であり，データ自体を理解していない。
- データ言語モデル（DLM）により，前処理なしで表形式データを直接理解することを目指す。
- Schema-1は，230万以上の表形式データセットで学習された1億4000万パラメータのモデルである。
- 既存の勾配ブースティングやAutoMLと比較して，行レベル予測ベンチマークで優れた性能を示した。
- 欠損値の再構成において，古典統計手法や大規模言語モデルよりも低い再構成誤差を達成した。
Link: https://arxiv.org/abs/2605.06290
尤度，シンプソンのパラドックス，および機械生成テキストの検出 [cs.FL, cs.CL, cs.AI, cs.LG]目的：機械生成テキストと人間が書いたテキストの信頼性のある識別
- 大規模言語モデルの普及に伴い，AI生成テキストの識別が社会的に重要な課題となっている。
- 既存の検出器は，尤度に基づいてテキストを評価するため，統計構造の違いによる誤検出を起こしやすい。
- 検出器の隠れ空間における尤度分布の不均一性を修正し，検出精度を向上させる。
- 尤度ベースのトークンスコアの集約方法に問題があり，シンプソンのパラドックスによって検出性能が低下する。
- 隠れ空間におけるスコア分布を予測する軽量な予測器を導入し，尤度比を校正することで性能を改善した。
- 校正されたFast-DetectGPTはAUROCを0.63から0.85に改善し，DMAP検出器も最高水準の性能を達成した。
Link: https://arxiv.org/abs/2605.06294
解釈可能性のメタゲーム：帰属の階層的構造 [cs.LG, cs.AI, stat.ML]目的：モデルの説明における二次の相互作用効果の定量化
- AIの信頼性向上には，モデルの挙動を理解し説明することが不可欠である。
- 従来の解釈手法では，特徴量間の複雑な相互作用を捉えきれない場合がある。
- モデルの説明方法自体に着目し，より精緻な相互作用の理解を目指す。
- メタゲームの枠組みにより，モデルの説明における特徴量間の相互作用を定量的に評価できる。
- メタ帰属は，既存の相互作用指標を拡張したものであり，方向性を示すことができる。
- 本研究は，言語モデル，視覚言語エンコーダ，拡散変換器など，多様な応用例で有用な洞察を提供する。
Link: https://arxiv.org/abs/2605.06295
レンダリングする，デコードしない：潜在構造の分離による重み空間ワールドモデル [cs.CV, cs.AI]目的：大規模な未ラベル動画を用いたワールドモデルの学習
- 完全自律型知能を実現するための重要なステップである。
- 生のピクセルを不透明な潜在空間にエンコードし，重いデコーダーに依存する現状は，計算コストが高く解釈が困難である。
- 座標ベースの暗黙的ニューラル表現（INR）を用いて，効率的かつ解釈可能なワールドモデルを構築すること。
- NOVAは，システムの状態をINRの重みとバイアスとして表現することで，デコーダーのボトルネックを解消し，コンパクト性，可搬性，ゼロショット超解像を実現した。
- 補助損失や敵対的目標を用いずに，背景，前景，フレーム間運動などの構造的シーン要素を分離できることが示された。
- 単一のコンシューマーGPU上で，約4000万パラメータで強力な制御可能な予測が可能であり，潜在的ダイナミクスの理解を深める。
Link: https://arxiv.org/abs/2605.06298
事前活性化正則化による領域シード：区分線形ニューラルネットワークからの幾何学的視点 [cs.LG]目的：区分線形活性化を持つ深層ネットワークにおけるアフィン領域数の増加
- 深層学習モデルの表現能力向上は，そのアーキテクチャの複雑さと密接に関わる。
- 標準的な学習では，データ分布の周辺でアフィン領域の分割が不十分になりやすい。
- データ点近傍でのニューロン切り替え面を近づけることで，アフィン領域数の増加を促す。
- 提案手法は，学習初期段階におけるアフィン領域数を増加させることを可能にした。
- 玩具データセットにおいて，モデル全体の性能向上が確認された。
- ImageNet-1kにおいても，初期段階の精度改善と，同等またはわずかに向上した最終精度を実現した。
Link: https://arxiv.org/abs/2605.06300
分子と言語の融合：Transformer-VAE潜在空間における交絡因子を考慮した表現学習と化学的性質の制御 [cs.LG]目的：分子生成モデルにおける潜在空間の化学的性質制御
- 創薬や材料開発において，分子の効率的な生成が不可欠である。
- 既存の分子生成モデルは，潜在空間が必ずしも化学的意味を持つとは限らない。
- 交絡因子を考慮した評価により，潜在空間における制御可能性を検証する。
- Transformer-VAEの潜在空間において，線形プローブを用いて化学的性質の制御方向を特定した。
- SELFIES表記に起因する交絡因子を考慮した評価手法を導入し，ロバストな制御可能性を示した。
- 一部の性質はグローバルな制御方向を持つ一方，他の性質は局所的な勾配による記述が有効である。
Link: https://arxiv.org/abs/2605.06303
LLMを用いたHTTPトラフィックにおけるPII値の分類学的制約に依存しないアノテーション [cs.AI, cs.IR]目的：HTTPトラフィックにおけるPII値の分類学的制約に依存しないアノテーション
- Web/モバイルアプリのプライバシー監査において，HTTPトラフィック分析は重要な役割を果たす。
- 既存手法はラベル付きデータの不足と固定された分類体系に依存し，汎用性に課題がある。
- LLMを活用し，動的に指定された分類体系に基づき，PII値のアノテーションを可能とする。
- LLMベースのパイプラインにより，具体的なPII分類体系に対するPII型検出と値抽出の正確性が示された。
- 本研究は，柔軟かつ分類体系に依存しないトラフィックアノテーション基盤としてLLMの有効性を示唆する。
- プライバシー分類の進化に対応したラベル付きデータ生成への応用が期待される。
Link: https://arxiv.org/abs/2605.06305
推論軌跡によるブラックボックスの信頼度測定：幾何学，カバレッジ，言語化 [cs.HC, cs.AI]目的：ブラックボックスモデルの信頼度推定手法
- 大規模言語モデルの安全性確保は重要であり，信頼度の推定は不可欠である。
- 既存手法は計算コストが高い，または推論過程の幾何学的構造を無視している。
- 推論軌跡の幾何学的特性を利用し，より効率的かつ正確な信頼度推定を目指す。
- 提案手法は，外部の正解アンカーへの収束度をsoftmax関数で評価する。
- 6つのベンチマークにおいて，既存手法よりも高い性能を示す（AUC中央値0.78 vs 0.71）。
- カバレッジ，幾何学，言語化の3要素を組み合わせることで，信頼度推定が向上する。
Link: https://arxiv.org/abs/2605.06308
知覚，経路設定，変調：時系列予測のための動的パターン再調整 [cs.CL, cs.LG]目的：時系列予測における動的パターン再調整のメカニズム
- 実世界データは時間とともに変化するため，予測モデルはそれに対応できる必要がある。
- 既存の深層予測モデルは固定された重み行列を使用し，変化する局所的なダイナミクスへの適応が困難である。
- トークンレベルでの再調整により，時間とともに変化するパターンへの適応を実現すること。
- 動的パターン再調整（DPR）は，軽量な「知覚-経路設定-変調」パイプラインを通じて，隠れ状態を再調整する。
- DPRはバックボーンに依存しないアダプターとして，多様なアーキテクチャにおける予測精度を向上させる。
- DPRNetは，大規模なパラメータスケーリングと比較して，動的再調整の有効性を示す。
Link: https://arxiv.org/abs/2605.06310
$\ell_2$ブースティングがいつ無害に過学習するか：高次元リスク漸近解析と$\ell_1$暗黙的バイアス [cs.RO, cs.LG]目的：$\ell_2$ブースティングの高次元リスクと，$\ell_1$暗黙的バイアスが過学習に与える影響の解析
- 機械学習において，高次元データに対する過学習のメカニズム解明は重要な課題である。
- 貪欲なアンサンブル学習における$\ell_1$暗黙的バイアスの解析は困難であり，既存手法では十分な結果が得られていない。
- 本研究は，高次元における$\ell_2$ブースティングのリスクを解析することで，過学習のメカニズムを解明することを目指す。
- $\ell_2$ブースティングにおいて，ノイズが疎な活性集合に局所化されるメカニズムが確認された。
- 過剰な分散は $\Theta(\sigma^2/\log(p/n))$ の対数的なレートで減衰し，線形レートでの減衰は認められなかった。
- Bounded $\ell_1$-path条件の下で，チューニング不要な早期停止規則がLassoの基本不等式を回復し，最適な予測レートを達成することが示された。
Link: https://arxiv.org/abs/2605.06314
Pro-KLShampoo: 直交化により復元されたKL-Shampooの射影 [cs.LG, cs.AI]目的：大規模言語モデルの事前学習における最適化手法の改善
- 近年の大規模言語モデルの事前学習において，勾配の行列構造を活用する最適化手法が重要となっている。
- KL-ShampooやMuonといった既存手法は，それぞれ異なるアプローチで開発されており，統合的な視点が不足している。
- KL-Shampooの特性に着目し，直交化を組み合わせることで，メモリ効率と学習速度を向上させることを目指す。
- Pro-KLShampooは，KL-Shampooの勾配行列の固有値分布の構造を利用し，パラメータ数を削減している。
- GPT-2やLLaMAといったモデルで，Pro-KLShampooはKL-Shampooをあらゆる部分空間ランクにおいて上回り，検証損失，GPUメモリ使用量，学習時間を改善した。
- 提案手法は，直交化によってKL-Shampooの事前条件子を復元し，理論的な裏付けも提供している。
Link: https://arxiv.org/abs/2605.06316
NavOne：トップダウンマップを用いたビジョン言語ナビゲーションのためのワンステップグローバルプランニング [cs.CV, cs.AI]目的：ビジョン言語ナビゲーションにおけるグローバルパスプランニング
- ロボットナビゲーションの分野において，環境理解と行動計画は重要な課題である。
- 従来の手法は，誤差の蓄積や効率の限界といった課題を抱えている。
- トップダウンマップを活用し，効率的なグローバルナビゲーションを実現すること。
- 本研究では，ナビゲーションをトップダウンマップ上のワンステップグローバルパスプランニング問題として再構築するNavOneを提案した。
- NavOneは，マルチモーダルマップの表現のためのTop-Down Map Fuserと，空間認識型深度混合のためのAttention Residualsを特徴とする。
- R2R-TopDownデータセットを用いた実験により，NavOneが最先端の性能を達成し，既存手法と比較して大幅な速度向上を実現した。
Link: https://arxiv.org/abs/2605.06317
適応的タスクグラフによる言語エージェントチームの効率向上 [cs.MA, cs.AI, cs.CL]目的：言語エージェントチームの効率改善
- LLMのチーム運用が拡大する中で，チームの協調方法が重要となる。
- 既存手法は，固定的な構造か，あるいは非構造的なアプローチの二極化が見られる。
- 部分的観測下での協調性を高め，効率的なタスク実行を実現する。
- LATTEは，分散システムに着想を得たフレームワークであり，タスクの依存関係を記述する協調グラフを共有・進化させる。
- 実験により，LATTEはトークン使用量，実行時間，通信量，協調失敗を削減できることが示された。
- MetaGPT等の既存手法と比較して，同等以上の精度を達成している。
Link: https://arxiv.org/abs/2605.06320
SMolLM：小規模言語モデルは小規模分子文法を学習する [cs.LG]目的：分子生成における小規模言語モデルの学習
- 創薬において，分子構造の自動生成は重要な課題である。
- 大規模言語モデルは計算コストが高く，学習メカニズムが不明確である。
- 小規模モデルで分子文法を学習し，効率的な分子生成を目指す。
- 53KパラメータのSMolLMが，10倍のパラメータを持つGPTよりも高い有効性をZINC-250Kベンチマークで示した。
- SMolLMは，括弧，環，価電子の順にSMILESの制約を解決することが示された。
- 最初の括弧照合ステップが単一の注意ヘッドに局在することが確認された。
Link: https://arxiv.org/abs/2605.06322
指標を操作するのではなく危害を軽減：戦略的なプラットフォーム操作に対する安全性監査の認証 [cs.RO, cs.CR, cs.CY, cs.LG]目的：プラットフォームによる戦略的な操作を受けない，危害の真の減少を認証できる監査指標の条件
- オンラインプラットフォームにおける安全性確保は喫緊の課題であり，法規制も強化されている。
- プラットフォームは指標を最適化することで規制を回避し，実質的な安全性改善につながらない可能性がある。
- プラットフォームの操作に左右されない，信頼性の高い安全性評価指標を確立することを目指す。
- 指標がコンテンツ変種を直接評価する場合，有害なコンテンツ群内でスコアの差異があれば操作が可能となる。
- セマンティック・エンベロープ（Semantic Envelope）法は，クラス内でのスコア最大値を割り当てることで，保守的な指標操作を最小限に抑える。
- 提案手法による証明書は，プラットフォームのあらゆる戦略に対して有効であり，アノテーション誤差やプロトコルエラーを吸収する。
Link: https://arxiv.org/abs/2605.06324
オープンウェイトLLMにおける評価コンテキストの乖離測定：ペアプロンプトプロトコルとアラインメントパイプライン特異的異質性の予備的証拠 [cs.CL, cs.CL, cs.AI, cs.LG]目的：オープンウェイトLLMにおける評価コンテキストの乖離の測定
- LLMの安全性評価は，実運用における挙動を予測する上で重要である。
- プロンプトの形式が評価文脈に依存する場合，安全性評価の推論は脆弱になりやすい。
- 評価コンテキストによるLLMの挙動変化を定量的に測定し，その異質性を明らかにすること。
- LLMの安全性評価において，評価形式と実運用形式で挙動が異なる「評価コンテキストの乖離」が確認された。
- OLMo-3-Instructは評価に慎重である一方，Mistral-Small-3.2，Phi-3.5-mini，Llama-3.1-8Bは実運用に慎重な傾向を示した。
- 乖離の程度は評価者の判断に依存し，異なる安全性分類器を用いることで結果が変化することが示された。
Link: https://arxiv.org/abs/2605.06327
ソリューション志向のWindowsイベントログ分析のための小規模言語モデルのファインチューニング [cs.CR, cs.AI]目的：Windowsイベントログ分析における問題特定と解決策の生成
- サイバーセキュリティにおいて，イベントログ分析は異常検知とインシデント対応の基盤となる重要技術である。
- 既存のLLMは計算資源やセキュリティ上の制約があり，実用的な展開が困難な場合がある。
- 本研究は，軽量なSLMを用いた実用的なイベントログ分析手法を確立し，解決策の提示を可能とすることを目指す。
- 大規模な合成Windowsイベントログデータセットが，現実世界のシナリオを正確に反映していることが示された。
- ファインチューニングされたSLMは，問題の特定と適切な解決策の提示において，LLMよりも一貫して優れた性能を発揮した。
- SLMは，LLMと比較して少ない計算資源で同等の性能を達成可能であることが示された。
Link: https://arxiv.org/abs/2605.06330
LINC：構成的ニューラルルーティングにおける隠れたマッチングからの局所的帰結スコアリングの分離 [cs.IR, cs.LG]目的：構成的ニューラルルーティングにおける局所的帰結の明示的な計算と活用
- 組合せ最適化問題への深層学習の応用は，従来手法の限界を超える可能性を秘めている。
- 従来のニューラルルーティングソルバーは，遷移の算術を隠れた状態に依存させているため，学習効率が低い。
- 遷移の算術を明示化することで，学習効率と汎化性能の向上を目指す。
- LINCは，局所的帰結を明示的に計算し，線形ローカルスコアラーを用いて比較する。
- CVRPTWにおけるLINCのSolomon/Hombergerギャップは，それぞれ7.26\%/14.71\%に減少した。
- TSPやCVRPにおいても，外部ベンチマークギャップの改善が確認された。
Link: https://arxiv.org/abs/2605.06332
TinyBayes：ヤコビ事前分布を用いた閉形式ベイズ推論によるエッジデバイスでのリアルタイム画像分類 [cs.CV, cs.AI, cs.LG, stat.AP, stat.ML]目的：リアルタイム画像分類のための閉形式ベイズ推論フレームワーク
- 西アフリカではカカオが重要な収入源であり，病害の早期発見が収量確保に不可欠である。
- 既存のエッジデバイス向けシステムは不確実性の定量化が不十分で，ベイズ法は農業分野への応用が少ない。
- 小型・高速でインターネット接続不要な病害検出システムを構築し，エッジデバイスでの利用を可能にすること。
- TinyBayesは，YOLOv8-NanoとMobileNetV3-Smallを用いた画像処理パイプラインと，ヤコビ事前分布に基づく閉形式ベイズ分類器を組み合わせた。
- モデルサイズは9.5MBと軽量でありながら，カカオ汚染チャレンジデータセットで78.7%の精度を達成し，CPU推論速度は150ms以下。
- Jacobi-DMR分類器は，他の7つの分類器と比較して，精度，モデルサイズ，推論速度のバランスに優れていることが示された。
Link: https://arxiv.org/abs/2605.06333
MANTRA：ツール使用LLMエージェントのためのSMT検証済みコンプライアンスベンチマークの自動合成 [cs.CL, cs.LG, cs.LO]目的：ツール使用LLMエージェントのコンプライアンス検証のためのベンチマーク自動合成手法
- LLMエージェントの利用拡大に伴い，その挙動の信頼性確保が重要になっている。
- 既存のベンチマークは手動作成かLLM評価に依存しており，規模や信頼性に課題がある。
- 自然言語マニュアルから形式的に検証可能なコンプライアンスベンチマークを自動生成すること。
- MANTRAは，自然言語マニュアルとツールスキーマから，実行可能なコンプライアンスチェックを自動生成する。
- 生成されたベンチマークは，SMTソルバーによる検証を通して，形式的に信頼性が保証される。
- 実験の結果，既存ベンチマークと比較して，より厳密な制約が課せられたチェックが生成された。
Link: https://arxiv.org/abs/2605.06334
大規模言語モデルからの臨床変数間の関連性の引き出し：集団を跨いだ比較質問による手法 [cs.LG]目的：大規模言語モデルから臨床変数間の関連性情報の抽出
- 医療分野における意思決定支援の高度化には，患者特性間の相関や因果関係の把握が不可欠である。
- 大規模言語モデルが持つ知識を直接引き出す方法は，誤った情報や偏った知識を含む可能性がある。
- 比較質問を利用することで，大規模言語モデルから安全かつ信頼性の高い関連性情報を抽出することを目指す。
- 提示された手法は，慢性閉塞性肺疾患(COPD)と多発性硬化症(MS)の2つの臨床領域で有効性が確認された。
- 比較質問による間接的な情報抽出により，大規模言語モデルから意味のある関連性構造を再現できることが示された。
- 得られた相関情報は安定しており，臨床的に解釈可能であり，ダウンストリームの不変性テストを支援する。
Link: https://arxiv.org/abs/2605.06335
LLMのアクション決定におけるコントローラークラス選択のレジーム理論 [cs.NI, cs.AI]目的：LLMのアクション決定のためのコントローラークラス選択基準
- 大規模言語モデルの応用拡大に伴い，適切なアクション選択が重要課題となっている。
- 限られたデータでは，入力ごとの表現力向上は必ずしも性能向上に繋がらないという課題がある。
- データ規模に応じた最適なコントローラークラスを特定し，モデルの意思決定を改善すること。
- コントローラーを固定アクション，パーティションルーター，インスタンスレベルコントローラー，事前ゲートコントローラーの４つのクラスに分類した。
- ３つのデータ推定可能なボトルネックを用いて，最適なクラス選択を理論的に導出した。
- SMS-Spam等４つのベンチマークで，予測されたクラスが実証的な勝者と一致し，理論の有効性が確認された。
Link: https://arxiv.org/abs/2605.06339
継続的コンプライアンス監視下における戦略的な監査対象者ゲームのベンチマーク [cs.CY, cs.GT, cs.LG]目的：継続的コンプライアンス監視下における戦略的な監査対象者ゲームの評価
- AI規制など，法規制の強化に伴い，継続的なコンプライアンス監査の重要性が増している。
- 従来の入力/出力ゲームとは異なり，監査対象者は時間的遅延やデータ操作など，戦略的な行動を取り得る。
- 監査における脆弱性を明らかにし，効果的な監査戦略を設計するための基盤を提供する。
- 監査者は時間的な方針を決定し，監査対象者はそれに適応するStackelbergゲームとして継続的監査を定式化した。
- 静的監査設計には，カバレッジギャップと粒度ギャップを同時に解消できないという構造的な制約が存在することが示された。
- サンプルサイズを考慮したルールや，履歴に基づいた疑念エスカレーションポリシーによって，制約を克服するアプローチが提案された。
Link: https://arxiv.org/abs/2605.06340
結合最適化問題に対する大規模言語モデルを用いたヒューリスティック進化 [cs.NE, cs.AI, math.OC]目的：結合最適化問題に対するヒューリスティックの進化
- 現実世界の最適化問題は，高い全体性能のために解決策を協調させる必要がある複数の密結合サブ問題で構成されることが多い。
- 既存の大規模言語モデル駆動の自動ヒューリスティック設計手法は，単一の問題設定に限定されている。
- 相互依存するサブ問題にわたる進化探索の協調の重要性を示し，複雑な結合最適化問題に対するLLM駆動のヒューリスティック設計の可能性を示す。
- 分解に基づく戦略（逐次および反復）は，安定した収束と高い解の質を提供する。
- 統合進化戦略は，探索の複雑さと変動性が増大する傾向にある。
- 本研究は，大規模言語モデルを用いて結合最適化問題のヒューリスティックを効果的に進化させるための指針を提供する。
Link: https://arxiv.org/abs/2605.06341
ギャップに注意？タブラーファウンデーションモデルにおける実データと合成事前分布の分布比較 [cs.CL, cs.AI]目的：タブラーファウンデーションモデルの事前学習データ分布間の比較
- タブラーデータは様々な分野で活用されており，そのモデル性能向上は重要である。
- 事前学習データの分布がモデル性能に大きく影響するが，その関係性は未解明である。
- 実データと合成データの分布のずれを明らかにし，その影響を評価すること。
- TabICLという合成事前分布は，実データテーブルの分布空間において狭い領域に位置していた。
- 事前分布のハイパーパラメータを最適化しても，このずれを解消することはできなかった。
- キュレーションされたデータとWebスクレイピングされたデータは，分布レベルで互換性があった。
Link: https://arxiv.org/abs/2605.06343
言葉にできないもの以上：事前質問による科学的アイデア創出のベンチマークとフレームワーク [cs.AI]目的：科学研究における暗黙の理解を明示化し，検証可能で実行可能なものにするためのフレームワークとベンチマーク
- 科学研究の進展には，既存知識の枠を超えた新たな視点やアイデアが不可欠である。
- 研究の初期段階では，明確な研究課題が定まっていない曖昧な状態からの出発が一般的である。
- AIを用いて，研究者の暗黙的な問題意識を抽出し，具体的な研究課題へと発展させることを目指す。
- InciteResearchは，研究者の暗黙的理解を構造化されたプロファイルとして抽出し，問題点を特定する。
- TF-Benchは，暗黙的なインスピレーションを明確化する研究支援のベンチマークであり，関連性と非関連性のインスピレーションを区別する。
- InciteResearchは，既存のプロンプトベースラインと比較して，新規性とインパクトにおいて大幅な改善を達成し，単なる組み合わせからアーキテクチャ的な洞察へと研究提案をシフトさせた。
Link: https://arxiv.org/abs/2605.06345
予測とエンパワメント：ブリッジインターフェースを通じた能動性の理論 [cs.AI]目的：部分観測下における能動性のメカニズム
- AIエージェントの能動性は，複雑な環境下での自律的な行動に不可欠である。
- 環境の不確実性や観測の限界により，能動性のモデル化と制御は困難である。
- ブリッジインターフェースを通じて，予測，圧縮，エンパワメントの関係を明確化する。
- 予測は，隠れた商の特定，あるいは未来の行動を決定する上書き制御によって達成されることが示された。
- エンパワメントだけでは，予測能力の向上には不十分である。
- インターフェースの改良と十分な記憶容量があれば，行動条件付きの観測圧縮により，不確実性が低減される。
Link: https://arxiv.org/abs/2605.06346
人間とAIの共進化と認識的崩壊：力学系の視点 [cs.HC, cs.AI]目的：人間とAIが形成する結合力学系のダイナミクス
- 知識生成におけるAI依存度の高まりから，その影響を理解する必要がある。
- AI利用と再学習のフィードバックループが，知識の多様性喪失を引き起こす可能性がある。
- 人間とAIの相互作用が，AIシステムの進化の軌跡を規定することを明らかにする。
- 人間とAIはフィードバックループを介して結合し，共進化，脆弱な均衡，退化的な収束という3つのダイナミクスを示す。
- AIへの依存度が高まると，多様性が低く最適でない均衡状態への移行が起こりうる。
- この移行は，人間とAIのループにおける情報ボトルネックに相当し，エントロピー減少は有益な圧縮ではなく，多様性の喪失を反映する。
Link: https://arxiv.org/abs/2605.06347
エスカレーションは価値があるか？ LLMカスケードの決定論的特徴付け [cs.LG, cs.AI, cs.CL]目的：LLMカスケードにおける費用対効果のトレードオフに関する決定理論的枠組みの構築
- LLMの活用が拡大する中で，費用と品質のバランスを最適化することが重要である。
- 既存手法では，LLMカスケードの閾値設定が経験則に頼る傾向があり，最適な費用対効果曲線が不明確である。
- LLMカスケードの費用対効果曲線を理論的に分析し，最適な閾値設定の指針を示すことを目指す。
- 二つのLLMからなるカスケードにおいて，費用対効果曲線が区分的に凹となることを証明し，予算と品質の制約条件間の関係を明らかにした。
- 複数のLLMからなるカスケードにおいて，最適な費用対効果曲線は，全ての二つのLLMの組み合わせからなる費用対効果曲線の外接線で表せることを示した。
- 実験結果から，固定チェーンよりも組み合わせによるカスケードの方が高性能である一方，事前生成ルーティングが最も優れた性能を示した。
Link: https://arxiv.org/abs/2605.06350
グロッキングの位相的特徴 [cs.HC, cs.LG, cs.AI, stat.ML]目的：グロッキング現象の位相的分析
- 深層学習の内部表現理解は，モデルの汎化性能向上に不可欠である。
- 既存手法では，表現学習における多段階構造の把握が困難である。
- グロッキング時に現れる位相的変化を捉え，汎化能力との関連性を明らかにする。
- 埋め込み行列から得られる点群に対し，持続ホモロジーを適用した結果，グロッキング時には第1ホモロジー($H_1$)の最大持続性と総持続性が顕著に増加することが確認された。
- 持続性ダイアグラムからは，長期的に存続する主要な位相的特徴と，構造化された二次的特徴の出現が明らかになり，タスクの根底にある環状構造を反映している。
- フーリエ分析や局所固有次元といった既存の手法と比較して，持続ホモロジーは表現学習を統一的に幾何学的・位相的に特徴づけ，局所的・大域的な多段階構造を捉える。
Link: https://arxiv.org/abs/2605.06352
欠損データに対する順序非依存自己回帰モデリング [cs.CL, cs.LG, stat.ML]目的：深層生成モデリングにおける欠損データへの対応
- データ分析において，欠損値は頻繁に発生し，その取り扱いが重要である。
- 従来の欠損値処理手法は，複雑なデータ構造を捉えきれない場合がある。
- 欠損値下での高性能な自己回帰モデリング手法の確立を目指す。
- 順序非依存自己回帰モデルは，完全なデータに対しても高い性能を示すことが示された。
- 一般的な欠損メカニズム下での直接学習を可能にするフレームワークが提案された。
- MO-ARMは，既存の欠損値補完手法と比較して，一貫して優れた性能を発揮する。
Link: https://arxiv.org/abs/2605.06355
敵対的防御評価のためのメモリ効率型フルグラデーション攻撃（MEFA）フレームワーク [cs.LG, cs.AI, cs.CV]目的：敵対的防御評価のためのフレームワーク
- 機械学習モデルのセキュリティ確保は重要であり，敵対的攻撃に対する堅牢性の評価が不可欠である。
- メモリ制約から近似的な勾配計算に頼る場合があり，攻撃の精度低下や過大評価のリスクがある。
- 正確な勾配計算を可能にし，確率的防御における変動を制御することで，より信頼性の高い評価を目指す。
- 勾配チェックポインティングにより，メモリ使用量を削減しつつ，完全な勾配計算を実現した。
- このフレームワークは，拡散ベースおよびLangevinベースの確率的防御に対する強力な攻撃を可能にし，脆弱性を明らかにした。
- 正確な勾配評価が，確率的防御の信頼性のあるベンチマーキングに不可欠であることが示された。
Link: https://arxiv.org/abs/2605.06357
Chronos 周波数データ理解と再構成に関する予備的考察 [cs.NI, cs.LG]目的：Chronos ファウンデーションモデルにおける周波数領域情報の処理と内部表現能力の分析
- 時系列データ処理において，汎用的な表現学習が重要視されており，タスク固有の設計が不要となる。
- ファウンデーションモデルが基本的な信号特性をどのように符号化しているかは，十分には解明されていない。
- Chronosモデルにおける周波数情報の捕捉能力とその限界を明らかにすること。
- Chronosモデルは，特定の周波数の離散正弦波を識別し，周波数情報を内部表現に組み込んでいることが示された。
- 周波数スペクトル全体にわたる周波数内容の捕捉方法が明らかになり，表現品質が低下する領域も特定された。
- 本研究は，信号処理や情報融合の文脈におけるChronos利用に関する指針を提供し，解釈可能性向上に貢献する。
Link: https://arxiv.org/abs/2605.06361
任意の補助経路を持つフローマッチング [cs.LG, cs.AI]目的：生成モデリングのための新たなフレームワーク
- 生成モデルは，画像生成やデータ拡張など，様々な応用分野で重要な役割を担う。
- 既存のフローマッチング手法は，補助成分をガウスノイズに限定しており，柔軟性に欠ける。
- 任意の分布を持つ補助変数を導入し，確率経路の設計自由度を高めることで，生成性能の向上を目指す。
- 提案手法AuxPath-FMは，条件付きフローマッチングを一般化し，任意の分布から得られる補助変数を確率経路に組み込む。
- この構成により，連続方程式が保持され，周辺化定式と一貫性のある学習目標が維持されることが理論的に示された。
- ガウス分布，一様分布，ラプラス分布，ラデマッハ分布など，様々な事前分布を活用し，多様な確率経路を設計できる。
Link: https://arxiv.org/abs/2605.06364
エージェントループから決定論的グラフへ：再現可能なAIネイティブワークのための実行系統 [cs.AI, cs.MA, cs.SE]目的：AIネイティブワークにおける実行系統の確立
- AIエージェントの活用は増加の一途を辿っており，そのワークフロー管理が重要課題となっている。
- 従来のAIワークフローでは，状態管理の曖昧さから，安定した成果物の維持や変更の追跡が困難である。
- AI生成物の変更管理を可能にし，状態の一貫性を保証することで，AIワークフローの信頼性を向上させる。
- 実行系統を用いた実験の結果，最終成果物の品質と状態維持の品質は明確に異なることが示された。
- DAGリプレイは，変更の影響範囲を特定し，関係のない部分への影響を排除することに成功した。
- ループベースラインでは，最終成果物の品質は維持されるものの，状態の一貫性に問題が残ることが示唆された。
Link: https://arxiv.org/abs/2605.06365
拡散言語モデルにおける層の崩壊 [cs.LG]目的：拡散言語モデルにおける活性化ダイナミクスの特性把握
- 言語モデルは自然言語処理の基盤であり，その性能向上は様々な応用分野に不可欠である。
- 拡散言語モデルと自己回帰言語モデルの活性化ダイナミクスの違いは十分に解明されていない。
- 拡散言語モデル特有の層の崩壊現象のメカニズムを解明し，より効率的なモデル構築を目指す。
- 拡散言語モデルLLaDA-8Bにおいて，初期層に特徴的な「層の崩壊」現象が確認された。これは，特定の層が単一の大きな外れ値に支配される状態を指す。
- この外れ値は一見冗長に見えるが，削除すると出力が反復的なランダムトークンループに陥るなど，出力の質が著しく低下する。
- 拡散言語モデルは，自己回帰モデルと比較して圧縮に対して頑健であり，量子化やスパース化によって高い性能を維持できることが示された。
Link: https://arxiv.org/abs/2605.06366
分布シフトに対するコントラスト視覚的説明ペアを用いた正則化：eXplaining to Learn (eX2L) [cs.CV, cs.AI, cs.LG]目的：分布シフトに対するロバスト性の向上
- 機械学習モデルの汎化性能を維持するため，未知のデータ分布への対応は重要である。
- 既存手法では，多様な分布シフトに対し安定した性能が得られず，ERMを下回る場合も多い。
- 説明可能性の高いフレームワークを構築し，誤った相関を排除することでロバスト性を高める。
- eX2Lは，Spawrious Many-to-Many Hard Challengeベンチマークで平均精度82.24%と最悪グループ精度66.31%を達成した。
- 既存最先端手法と比較して，平均精度で5.49%，最悪グループ精度で10.90%の性能向上を示した。
- ラベルと無関係な属性を分離することにより，機能的なドメイン不変性を実現することが示された。
Link: https://arxiv.org/abs/2605.06368
デュアル因果介入によるバイアス除去を用いたマルチモーダルパーソナリティ理解 [cs.AI]目的：マルチモーダルパーソナリティ理解におけるバイアスの軽減
- 人間中心型AIにおいて，パーソナリティ理解は重要な役割を担う。
- 既存研究では，バイアス（年齢や潜在的な精神状態など）が混入しやすい。
- マルチモーダル特徴とパーソナリティ特性間の不要な関連性を解消すること。
- 提案手法DCANは，ベンチマークデータセットCFI-V2およびDMSPデータセットにおいて，予測精度を向上させた。
- CFI-V2では，EQual OpportunityとDemographic Parityの公平性指標がそれぞれ6.57%と7.97%改善された。
- DMSPデータセットでは，それぞれの指標が15.38%と20.06%と，さらに大きな改善が見られた。
Link: https://arxiv.org/abs/2605.06371
統一的なPair-GRPOファミリー：安定性と汎用性のある強化学習アラインメントのための暗黙的から明示的な優先制約へ [cs.DC, cs.LG, math.ST, stat.TH]目的：強化学習における人間からのフィードバックを用いた言語モデルのアラインメント手法に関する研究
- 言語モデルのアラインメントは，AIの安全性と有用性を確保する上で不可欠である。
- 従来のペアワイズな優先度学習は，不安定なポリシー更新や勾配の分散が大きいという課題を抱える。
- Pair-GRPOファミリーを用いて，アラインメントの安定性向上と汎化性能の獲得を目指す。
- 提案手法であるSoft-Pair-GRPOは，標準的なGRPOの勾配と正の比例関係にあることが理論的に証明された。
- さらに発展させたHard-Pair-GRPOは，局所的な確率制約を導入することで，勾配ノイズとポリシーのドリフトを抑制する。
- 実験結果から，Pair-GRPOファミリーは，標準的なベンチマークにおいて，既存手法を上回るアラインメント品質と安定性を示した。
Link: https://arxiv.org/abs/2605.06375