arXiv雑要約
AI - 2026/05/12 公開
CoreQ:学習を用いないミスマッチ補正と逐次丸めによる量子化 [cs.LG, cs.AI]目的:量子化におけるミスマッチ補正と逐次丸めによる精度向上
- 大規模言語モデルの効率的な展開には,モデルの軽量化が不可欠であり,量子化はその重要な手法の一つである。
- 逐次量子化では,初期層の誤差が後続層に伝播し,ミスマッチが生じ,精度低下の原因となる。
- 幾何学的分解に基づくミスマッチ補正係数を用いて,過学習を抑制し,精度を向上させる。
- CoreQは,学習を必要としない量子化フレームワークであり,層ごとに適応的なミスマッチ補正を行う。
- 提案手法は,有限なキャリブレーションデータへの過学習を軽減し,ハイパーパラメータ調整を不要とする。
- 様々なLLMファミリー,規模,ビット幅,量子化設定において,既存のPTQベースラインよりも高い精度を達成した。
f-GRPOとそれ以降:汎用LLMアライメントのための発散に基づく強化学習アルゴリズム [cs.LG, stat.ML]目的:汎用LLMのアライメント手法
- LLMの能力向上に伴い,人間の意図と合致した安全なLLMの開発が不可欠となっている。
- 従来のLLMアライメントは,報酬ハッキングや安全性確保が課題であった。
- 報酬に基づくアライメントと,オフポリシーの嗜好度学習を組み合わせることで,上記課題を解決する。
- 提案手法f-GRPOは,既存のGRPOを数学的推論タスクにおいて改善した。
- ハイブリッド手法f-HALは,検証可能な報酬が利用できない場合に,報酬ハッキングを軽減する効果が確認された。
- これらの手法は,報酬に基づくアライメントと非アライメントの分布間のf-divergenceを推定し,期待される報酬の改善を保証する。
エージェントが言うことと行うことの乖離:LLMから得られた信念の検証 [cs.AI]目的:LLMにおける信念の一貫性の検証
- 高度な意思決定には未知の結果の確率に関する信念の形成が不可欠であり,LLMの応用範囲が拡大している。
- LLMが意思決定の際に一貫した信念を持っているか,またその信念をどのように検証できるかは不明である。
- LLMが報告する信念と意思決定との整合性を検証し,モデルの信頼性を高めることを目指す。
- 提案手法では,確率判断と意思決定の一貫性を検証する決定理論的枠組みを提示した。
- その形式化により,エージェントの効用関数に関する仮定なしに,経験的に検証可能な条件が導き出されることが示された。
- 臨床診断タスクにおいて,モデルが報告する信念は意思決定に現れる情報のおおまかな要約に過ぎないことが示されたが,高性能モデルではその乖離は比較的小さいことがわかった。
オンライン非凸二重最適化におけるより良い局所後悔限界の達成 [cs.RO, cs.LG, math.OC]目的:オンライン二重最適化問題に対する最適な後悔限界
- 機械学習の様々な問題に応用可能な二重最適化の重要性が高まっている。
- 既存の手法では,後悔限界の最適性が明確でなかった。
- 標準的な局所後悔およびウィンドウ平均局所後悔の最適な限界を確立する。
- 標準的な局所後悔に関して,適応的な反復戦略を持つアルゴリズムを提案し,最適な後悔$\Omega(1+V_T)$を達成した。
- ウィンドウ平均局所後悔に対しては,環境変動を捉えたアルゴリズムにより,最適な後悔$\Omega(T/W^2)$を達成した。
- 提案手法の有効性は理論的結果と実験により検証された。
HyPER:仮説経路の拡張と削減によるスケーラブルなLLM推論における探索と活用 [cs.AI]目的:大規模言語モデルの推論における探索と活用のバランス改善
- LLMの推論能力向上は,複雑な問題解決に不可欠であり,そのスケーラビリティが重要である。
- 既存手法は,探索と活用のバランスが固定的であり,柔軟性に欠けるため,性能が制限されている。
- 仮説経路の動的な拡張と削減により,計算資源を効率的に配分し,推論精度を向上させる。
- HyPERは,探索から活用への移行をオンラインで制御し,計算資源を効率的に再配分する。
- 実験の結果,HyPERは4つの混合エキスパート言語モデルにおいて,既存手法よりも高い精度と計算効率を実現した。
- 具体的には,精度が8〜10%向上し,トークン使用量が25〜40%削減された。
文脈に応じた不連続な変化下におけるコンテキスト強化学習のためのダイナミクス整合共有ハイパーネットワーク [cs.LG, cs.AI]目的:不連続な文脈変化下におけるコンテキスト強化学習のゼロショット汎化
- 強化学習は,様々な環境における最適な行動決定を可能とする重要な技術である。
- 文脈が潜在的でデータから推論する必要がある場合,ゼロショット汎化が困難である。
- 不連続な文脈変化に適合可能な,効率的な制御応答を学習すること。
- 提案手法DMA*-SHは,ダイナミクス予測のみで学習する単一のハイパーネットワークを用いることで,ダイナミクスモデル,ポリシー,行動価値関数を共有する。
- この共有モジュレーションは,不連続な文脈からダイナミクスへの変化に適応した誘導バイアスを付与し,文脈推論の安定化を図る。
- Actuator Inversion Benchmark(AIB)を用いた評価により,DMA*-SHはゼロショット汎化を実現し,既存手法を大幅に上回る性能を示した。
ペアワイズだけでは不十分:マルチエージェント経路探索のためのハイパーグラフニューラルネットワーク [cs.LG, cs.AI, cs.MA]目的:マルチエージェント経路探索における協調性の向上
- 複数のエージェントが衝突を避けつつ各目標地点へ移動する問題であり,現実世界のロボット工学等への応用が期待される。
- 既存手法はペアワイズなメッセージ伝達に限定され,密集環境下での集団協調性において課題があった。
- ハイパーグラフを用いてエージェント間の高次の相互作用を明示的に捉え,協調性を向上させることを目指す。
- 提案手法HMAGATは,学習ベースのMAPFソルバーにおいて,最新技術を上回る性能を達成した。
- HMAGATは,パラメータ数や学習データ量が少ないにも関わらず,既存の最先端モデルを凌駕する結果を示した。
- ハイパーグラフ表現がGNNに固有の注意力の希薄化を緩和し,複雑な相互作用を捉えることが示された。
多表合成データにおけるメンバーシップ推論攻撃の探索 [cs.LG]目的:多表合成データのユーザーレベルのプライバシー漏洩の評価
- プライバシー保護を考慮したデータ共有の重要性が増しており,合成データの活用が注目されている。
- 従来の単一テーブル合成データ生成では,複数テーブル間の関係性を考慮したプライバシー保護が不十分であった。
- 多表合成データにおけるユーザーレベルのプライバシーリスクを明らかにし,より安全なデータ生成手法の検討を目指す。
- 本研究では,多表合成データに対する新たなメンバーシップ推論攻撃(MT-MIA)を提案し,既存の手法よりも高い精度でユーザーレベルのプライバシー漏洩を検出できることを示した。
- MT-MIAは,異種グラフニューラルネットワークを利用してユーザーエンティティの表現を攻撃することで,テーブル間の関係性から生じる脆弱性を捉える。
- 実世界のデータセットを用いた評価により,最先端の多表合成データ生成器においてもプライバシー漏洩が存在することが確認された。
BONSAI:自然さと解釈可能性を備えたベイズ最適化 [cs.LG, cs.AI, stat.ML]目的:デフォルト設定からの逸脱を最小限に抑えつつ,効率的な最適化
- ブラックボックス関数の最適化において,サンプル効率が重要視されるため。
- 標準的なベイズ最適化は,デフォルト設定からの逸脱を抑制せず,重要でないパラメータを極端な値に設定しやすい。
- デフォルト設定を考慮した最適化により,重要な変化とそうでない変化を区別し,推奨設定の検証負荷を軽減する。
- BONSAIは,デフォルトからの影響の少ない逸脱を抑制し,最適化性能を維持しながら,推奨設定における非デフォルトパラメータ数を大幅に削減する。
- 理論的に,特定の条件下において,BONSAIは従来のGP-UCBと同等の後悔限界を持つことが示されている。
- BONSAIは,ARD lengthscalesが既知の場合,関連座標セットをゼロコストで復元し,GP-UCBと同等の最適化速度を達成する。
MePo:リハーサルなし汎用継続学習のためのメタポストリファインメント [cs.RO, cs.AI]目的:事前学習済みモデルに基づく汎用継続学習の性能向上
- 外界の変化に対応するため,継続学習は不可欠である。複雑な環境下でのリアルタイムな応答能力が求められる。
- 従来の継続学習手法は,多様かつ時間的に混合された情報を一度のパスで処理する能力に限界がある。
- 事前学習済みモデルの表現学習能力を迅速に適応させ,汎用継続学習の性能を向上させる。
- MePoは,事前学習データから疑似タスクシーケンスを構築し,二層メタ学習パラダイムを用いて事前学習済みバックボーンをリファインする。
- 事前学習済み表現空間の基準幾何学としてメタ共分散行列を初期化することで,ロバストな出力アライメントを実現する。
- 様々な汎用継続学習ベンチマークにおいて,リハーサルなしで有意な性能向上を達成した(CIFAR-100, ImageNet-R, CUB-200)。
新たな測度変換不等式のクラスによる情報理論的汎化誤差の上界の強化 [cs.IT, cs.LG, math.IT]目的:汎化誤差の上界を強化するための新たな測度変換不等式の提案
- 機械学習,情報理論,統計学において,確率的保証を得る上で不可欠なツールである。
- 既存の測度変換不等式では,十分な精度が得られず,よりタイトな上界が求められていた。
- データ処理不等式に基づき,汎化誤差の上界をより厳密に導出することを目指す。
- 提案された測度変換不等式は,f-divergence,Rényi divergence,α-mutual informationなど,広範な情報測度に関して有効である。
- これにより,PAC-Bayesian理論,差分プライバシー,データ記憶などの分野で,より強力な保証を得ることが可能となった。
- 既存の結果をより簡潔な分析によって再現しつつ,汎化誤差の上界を強化することに成功した。
大規模離散行動空間における距離誘導強化学習 [cs.LG, cs.AI]目的:大規模離散行動空間における効率的な強化学習
- 大規模な意思決定問題への強化学習の応用が拡大しており,その重要性が増している。
- 大規模な離散行動空間では,次元の呪いが問題となり,既存のアルゴリズムは苦戦している。
- この研究は,大規模離散行動空間における強化学習の効率性と安定性を向上させることを目指す。
- 提案手法DGRLは,サンプリングされた動的近傍と距離に基づく更新を組み合わせることで,最大$10^{20}$個の行動を持つ問題において効率的な強化学習を実現する。
- DGRLは確率的な体積探索を行い,方策最適化を安定した回帰タスクに変換することで,行動空間のカーディナリティからの勾配分散を分離する。
- 構造化されたタスクにおいて,DGRLは局所的な価値改善を保証し,混合連続-離散行動空間にも自然に一般化する。
ERIS:連合学習におけるプライバシーとスケーラビリティの向上 - 連合シャード集約による [cs.LG]目的:連合学習におけるプライバシー,スケーラビリティ,モデルの有用性のトレードオフ改善
- 大規模モデルの学習において,プライバシー保護と効率的な分散学習は重要な課題である。
- 既存手法では,精度低下,高コスト,収束の遅延などの問題が生じやすい。
- 中央集約のボトルネック除去と情報漏洩リスク軽減を目指す。
- ERISは,連合シャード集約(FSA)という新しいメカニズムを導入することで,通信ボトルネックを大幅に削減した。
- ERISは,メンバーシップ推論や再構成攻撃に対する堅牢性を向上させ,重い暗号化やユーティリティ低下を招く摂動に依存しない。
- 理論的証明により,ERISは標準的な仮定の下で収束を維持し,クライアント側の集約器数や圧縮レベルに応じて情報漏洩を抑制することが示された。
ラプラシアンヘッドがトークン表現の平滑化によりTransformerを改善 [cs.LG]目的:トークン表現の平滑化によるTransformerの性能向上
- Transformerは自然言語処理の基盤技術であり,その性能向上が様々な応用分野に貢献する。
- Transformerの注意機構は過剰な平滑化を引き起こす可能性があり,表現力の低下を招く恐れがある。
- ラプラシアンヘッドを導入することで,トークン表現の分散を制御し,Transformerの性能を改善することを目指す。
- ラプラシアンヘッドは,トークン表現の平均を更新し,シーケンス内の分散を直接制御することを可能にする。
- 教師あり学習では,ラプラシアンヘッドは同じシーケンス内のトークン表現を凝縮し,シーケンスの平均をNeural Collapseの幾何学と整合させる。
- 言語モデリングでは,同一の次トークン予測を持つトークン表現の分離性を高め,自己教師あり学習ではセグメンテーションに適した主成分を生成する。
制約付きニューラルネットワークのための柔軟な修復層SnareNet [cs.LG, cs.AI, stat.ML]目的:物理的,運用,または安全性の要件を満たす制約下でのマッピング学習
- ニューラルネットワークは高速な代替モデルとして活用が広がっている
- 制約なしの予測は,物理法則や安全基準に反する可能性がある
- 入力依存の制約を満たす出力生成を可能にすること
- SnareNetは,制約空間の範囲内で探索する微分可能な修復層を追加する
- 適応的緩和により,初期化時にニューラルネットワークを制約内に閉じ込め,学習初期段階での探索と厳密な制約適合を両立する
- 最適化学習や軌道計画のベンチマークで,既存手法より目的関数の質を向上させ,制約をより確実に満たすことが示された
EcoGym:インタラクティブ経済における長期的計画・実行のためのLLMの評価 [cs.CL, cs.AI]目的:長期的計画と実行を行うLLMベースのエージェントの評価基準
- 自律エージェントの重要な能力として,長期的計画が注目されている。経済活動シミュレーションは,その評価に適している。
- 既存の評価フレームワークは,個別的,ドメイン依存,あるいは経済動態への接地が不十分である。
- 持続的な経済活動における長期的な計画と実行能力を評価するための汎用的な基準を確立すること。
- EcoGymは,ベンディング,フリーランス,オペレーションの3つの多様な環境を含む,インタラクティブ経済における継続的な計画・実行のベンチマークである。
- 11の主要なLLMを評価した結果,どのモデルもすべてのシナリオで優位性を示すことはなかった。
- モデルは,高レベルの戦略または効率的な行動実行において有意な非最適性を示すことが明らかになった。
連合学習におけるラショモン集合とモデル多様性 [cs.LG, cs.DC]目的:連合学習におけるラショモン集合の形式化
- モデルの透明性,公平性,ロバスト性を高めるためには,モデルの多様性を理解することが重要である。
- 既存のラショモン集合の定義は集中学習を前提としており,連合学習のような分散環境には適用できない。
- 連合学習におけるクライアントごとのデータ分布の異質性や通信制約下で,モデルの多様性を評価する手法を確立する。
- 本研究では,連合学習におけるグローバル,t-合意,個別のラショモン集合の定義を提案した。
- 提案手法により,プライバシー制約下でもモデル多様性を推定可能になった。
- 実験結果から,提案するラショモン集合の定義はクライアント固有のデータや公平性の考慮に役立つモデルの選択に繋がる。
少ない方が多い:文脈圧縮におけるLLMのスケーリングの逆説 [cs.LG]目的:文脈圧縮におけるLLMのスケーリングの逆説の解明
- 大規模言語モデルの性能向上は,パラメータ数増加に大きく依存してきたため,その限界を知ることは重要である。
- 文脈圧縮において,モデル規模を拡大すると,再構成された文脈の忠実度が低下するという逆説的な現象が課題となっていた。
- 文脈圧縮におけるスケーリング則の破綻を明らかにし,忠実な文脈保存のためのモデルサイズを特定すること。
- モデル規模を拡大すると,文脈の再構成エラーは減少するものの,忠実度が低下する「サイズ-忠実度逆説」が確認された。
- この逆説は,大規模モデルが元の事実を自身の事前知識で上書きする「知識の上書き」と,内容を言い換えたり再構成したりする「意味ドリフト」が原因である。
- 中規模の圧縮器が,大規模なものよりも忠実な文脈回復において優れた性能を示すことが示された。
多次元CDFの均一近似と固定価格メカニズムのサンプル複雑性 [cs.CL, cs.LG]目的:多次元累積分布関数(CDF)の均一近似学習におけるサンプル複雑性
- 機械学習や統計的推論において,分布の近似は重要な役割を果たす。
- 限られた情報(ワンビットフィードバック)下での高次元分布近似は困難である。
- ワンビットフィードバック環境におけるサンプル複雑性の理論的限界を明らかにする。
- 提案手法は,次元数$n$に依存した対数項のみを含むサンプル複雑性$\frac{1}{\epsilon^3}{\log\left(\frac 1 \epsilon \right)^{\mathcal{O}(n)}}$を達成する。
- この結果は,高次元における均一$\epsilon$-近似が可能であることを示す。
- この理論的枠組みを応用し,小規模市場における固定価格メカニズム学習のサンプル複雑性と後悔限界を導出した。
オンライン二段階最適化のための完全一階アルゴリズム [cs.CL, cs.LG, math.OC]目的:オンライン二段階最適化問題に対する完全一階アルゴリズムの開発
- 機械学習等の分野で,最適化問題は重要であり,特に二段階最適化は,リーダー・フォロワーの関係をモデル化する際に有効である。
- 既存の二段階最適化アルゴリズムは,ヘッセ行列ベクトル積(HVP)の計算が必要となり,計算コストが高いという課題があった。
- 本研究は,HVPを必要とせず,完全一階アルゴリズムのみで解決を目指す。
- 本研究で提案するアルゴリズムは,$O(1 + V_T + H_{2,T})$ のリグレットを達成し,計算量は$O(T\log T)$となることを理論的に保証した。
- シングルループ構造においては,追加の勾配変動項を導入することで,サブ線形のリグレット界を確立した。
- 適応的な内反復スキームを用いた改良版アルゴリズムは,$H_{2,T}$への依存性を排除し,$O(\log T + V_T)$ のリグレットを達成する。
大規模ビジョン言語モデルにおける物体幻覚を軽減するための疎な潜在ステアリング [cs.AI, cs.LG]目的:大規模ビジョン言語モデルにおける物体幻覚の軽減
- 近年,画像と文章を理解するモデルが発展しているが,誤った情報を生成することが課題となっている。
- モデルの深い層で,視覚情報とテキスト情報が混ざり合い,視覚情報が抑制されている。
- 抑制された視覚情報を効果的に再活性化し,物体幻覚を抑制することを目的とする。
- 提案手法REVISは,追加学習なしで,潜在空間の幾何学に基づき視覚情報を抽出する。
- REVISは,情報が抑制される層に対してのみ介入することで,計算コストを抑えつつ視覚情報を復元する。
- 標準的なベンチマークにおいて,REVISは最先端手法と比較して物体幻覚発生率を約19%削減した。
RelBench v2:関係データのための大規模ベンチマークおよびリポジトリ [cs.LG]目的:関係データの深層学習のための大規模ベンチマークとリポジトリの提供
- 関係データベースは,多くの情報システムの中核であり,その効率的な活用が重要である。
- 既存のベンチマークは規模が小さく,現実世界の複雑な関係データを十分に表現できていない。
- 関係データの深層学習モデルの評価と進捗を促進するための,大規模で現実的なベンチマークの必要性に応える。
- RelBench v2は,学術出版,企業資源計画,消費者プラットフォーム,臨床記録を含む4つの大規模関係データセットを追加し,データ量を大幅に増加させた。
- オートコンプリートタスクという新しい予測目標を導入し,時間制約を考慮しながら関係テーブル内の欠損属性値を推論する能力を評価した。
- 既存のベンチマークや評価フレームワークとの統合を進め,関係データと時間データの統一的な評価を可能にした。
連合学習におけるクライアントの異質性に対する低ランク適応のランク崩壊の防止 [cs.NI, cs.LG, cs.AI, cs.DC]目的:分散環境における基盤モデルの効率的な微調整手法
- 基盤モデルの活用には計算資源が要るため,分散学習による効率化が重要である。
- クライアントのシステム資源やデータ分布の異質性が,学習の安定性を損なう場合がある。
- ランク崩壊という新たな問題に対処し,学習性能と安定性を向上させる。
- 本研究では,ランク崩壊の原因がランク非依存の集約重みとランク依存のクライアント貢献の不一致にあることを理論的に明らかにした。
- 提案手法raFLoRAは,ローカル更新をランクパーティションに分解し,効果的なクライアント貢献によって各パーティションを集約することで,ランク崩壊を抑制する。
- 実験結果から,raFLoRAは多様な異質構成において,既存のFedLoRAベースラインと比較して性能向上とロバスト性の向上が確認された。
等方性ノイズ不変な固有値分解のための離散二重ブラケット流 [cs.LG, cs.NA, math.NA, math.OC]目的:等方性ノイズ下におけるSO(n)上の固有値分解
- 機械学習や信号処理において,固有値分解はデータの主要な構造を抽出するために不可欠である。
- 従来のアルゴリズムはノイズレベルに依存し,ノイズが大きい場合に性能が低下する。
- 本研究は,ノイズレベルに依存しない固有値分解手法を開発し,大規模データへの適用を可能にすることを目指す。
- 提案手法は,ノイズ成分の影響を受けないように,接Lie代数上で作用する離散二重ブラケット流を構築した。
- その結果,安定ステップサイズや収束性は,ノイズフロアに依存せず,信号成分のみによって決定されることが示された。
- また,Stiefel多様体上での上位k個の固有値追跡についても,効率的なアルゴリズムが提案されている。
逐次メンバーシップ推論攻撃 [cs.LG, cs.CR, math.ST, stat.ML, stat.TH]目的:AIモデルのプライバシー監査
- AIモデルは進化し続けるため,ライフサイクル全体でのプライバシー保護が重要である。
- 従来のプライバシー評価では,最終モデルのみを検証し,モデル更新の過程を考慮していない。
- モデルの更新シーケンスを利用し,プライバシー侵害リスクをより正確に評価する。
- 提案手法SeMI*は,特定の挿入ステップでターゲットを検知する最適な攻撃手法であり,モデルシーケンスへのアクセスが最終モデルのみの検証よりも強力なメンバーシップ推論攻撃を可能にする。
- SeMI*は,ターゲット挿入前後の統計情報のみに依存するという特性を持ち,これを活用した白箱および黒箱攻撃を(DP-)SGDで学習されたモデルに対して実装した。
- 実験結果から,提案手法は既存手法よりも高い攻撃成功率を示し,ターゲットの挿入タイミング制御とモデルシーケンスの観察により,より厳密なプライバシー監査を実現する。
現実世界の自律型システムにおける正式なポリシー強制 [cs.CR, cs.AI, cs.MA]目的:自律型システムにおけるセキュリティポリシーの正式な強制
- 近年のAI技術の発展に伴い,自律型システムの利用が拡大しているため,安全性確保が重要課題となっている。
- 従来のポリシー強制方法は,自然言語による記述に依存するため,解釈の曖昧さや誤りが発生しやすい。
- 実行履歴に依存するポリシーなど,表現力の限界を克服し,より厳密なポリシー強制を実現すること。
- 提案するフレームワークは,ポリシーをエージェントの推論とは独立して記述・強制することで,形式的な保証を提供する。
- Datalogをポリシー言語として採用することで,宣言的なルール記述,再帰処理,決定性のある強制を実現している。
- FORGEの実装により,既存のエージェントを修正することなく,ポリシーを適用できることを示した。
限られたラベルにおける脳波基盤モデルの構造化プロトタイプ誘導適応 [cs.LG]目的:脳波基盤モデルのラベル制限下での適応手法
- 脳波は非侵襲的で高時間分解能のため,脳機能解明やブレイン・マシン・インターフェースへの応用が期待されている。
- 脳波データのラベル付けはコストがかかるため,ラベル付きデータが少ない状況下でのモデル適応が課題である。
- 脳波基盤モデルの過剰な自信,予測の崩壊,表現のずれを抑制し,効率的な適応を実現すること。
- 提案手法SCOPEは,脳波基盤モデルの適応において,既存手法を大きく上回る性能を示すことが確認された。
- 外部 supervision とプロトタイプに基づいた軽量なadapter ProAdapterの導入により,安定した学習と汎化性能の向上が実現された。
- 多様な設定の実験により,SCOPEの有効性と効率性が実証された。
クロス言語的価値判断:コンセンサス・多元主義の視点 [cs.CL, cs.AI]目的:大規模言語モデルにおけるクロス言語的価値判断能力の評価
- グローバル化が進む中で,多様な文化的背景を持つ人々の価値観を理解することが重要である。
- 既存の評価方法は事実に基づいたタスク性能に偏っており,深層的な価値判断能力を評価できていない。
- 言語や文化を超えた価値観の判断における課題を克服し,より公平な評価を実現すること。
- 本研究では,文化的多様性と専門分野の複雑さという,価値判断ベンチマーク構築上の主要な課題を明らかにした。
- 人間とAIが協働する新しいアノテーションフレームワークを提案し,これらの課題を軽減することに成功した。
- 14言語,7つの主要な世界問題カテゴリーを含む「X-Value」ベンチマークを開発し,17のLLMに対する評価を実施した結果,クロス言語的価値判断における限界と性能のばらつきが示された。
安全性を維持するための学習:ファインチューニング中の安全性低下に対する適応的正則化 [cs.CL, cs.LG]目的:ファインチューニング中の安全性低下に対する適応的正則化手法
- 指示に従う言語モデルの安全性は重要であり,社会への影響が大きい。
- ファインチューニングによって言語モデルの安全性が損なわれる可能性があり,対策が必要である。
- 安全性を維持しながら,言語モデルの有用性を損なわない手法を開発すること。
- 本研究では,訓練時に安全性のリスクを評価し,それに応じて正則化を適応させる枠組みを提案した。
- 安全リスクの推定には,judgeベースのSafety Criticと活性化ベースのリスク予測器の2つのアプローチを採用した。
- 提案手法は,複数のモデルや攻撃シナリオにおいて,攻撃成功率を低下させ,性能を維持することが確認された。
ブースティングベクトル値予測に対する($\alpha$,$\beta$)-安定性 [cs.LG, stat.ML]目的:構造化予測におけるブースティングの集約理論の理解
- 構造化予測は機械学習の重要な分野であり,複雑なデータ構造を扱う上で不可欠である。
- スカラー予測とは異なり,ベクトル値予測における集約理論の一般化された理解は不十分である。
- ベクトル値予測における安定性に着目し,ブースティングフレームワークの理論的基盤を確立すること。
- ターゲットダイバージェンス下での幾何学的安定性($\alpha$,$\beta$)-安定性を見出し,それが弱い保証を集約して強いものへと増幅することを示した。
- 幾何学的中央値を用いてこの安定性を形式化し,指数再重み付けと幾何学的中央値集約に基づくブースティングフレームワークをサポートすることを示した。
- 提案する汎用ブースティングフレームワークgeomedboostは,弱い学習器の条件と($\alpha$,$\beta$)-安定性の下で,経験的ダイバージェンス誤差の指数関数的減衰を達成し,一般化境界を通じて母集団保証をもたらす。
$(1+1)$進化アルゴリズムにおける全ての定数突然変異率 [cs.NE]目的:突然変異率の最適性
- 進化計算は複雑な問題を解決する強力な手法であり,様々な分野で応用されている。
- 突然変異率の選択はアルゴリズムの性能に大きく影響するが,最適な値を見つけるのは難しい。
- あらゆる突然変異率に対して,その近傍に最適解が存在することを示す。
- 突然変異率$p$に対し,任意の$\varepsilon$に対して,$(1+1)$進化アルゴリズムにおける最適突然変異率が$(p-\varepsilon, p+\varepsilon)$に含まれるような目的関数が存在することが示された。
- $(1+1)$進化アルゴリズムにおける最適突然変異率の集合は,区間$[0, 1]$内で稠密である。
- DistantSteppingStonesと呼ばれる,大きな平坦部と谷を持つ目的関数が,その証明に用いられた。
試行錯誤から学ぶ:具現化されたLLMのためのテスト時計画における内省 [cs.LG, cs.AI, cs.CL, cs.CV, cs.RO]目的:具現化されたLLMにおけるテスト時計画への内省の統合
- ロボットのタスク遂行能力向上には,高度な推論能力が不可欠である。
- 既存のLLMは,失敗から学習せず,同じ過ちを繰り返してしまうという課題がある。
- 本研究は,内省機構を導入することで,LLMの継続的な学習と改善を目指す。
- 本研究で提案するReflective Test-Time Planningは,行動実行前後の内省により,ロボットの行動を改善する。
- Long-Horizon HouseholdやMuJoCo Cupboard Fittingのベンチマークにおいて,既存モデルを大きく上回る性能を示した。
- 現実環境や実機ロボットでの実験においても,高い汎化能力と有効性が確認された。
SymTorch:ニューラルネットワークの記号的蒸留 [cs.LG]目的:ニューラルネットワークの構成要素が学習する数学的関数の解明
- 近年,深層学習の応用範囲は広がる一方であり,その内部動作の理解が不可欠となっている。
- ニューラルネットワークはブラックボックスとなりやすく,学習された機能の解釈が困難である。
- 学習された機能を記号的な数式として表現することで,ニューラルネットワークの解釈可能性を高める。
- SymTorchは,様々なアーキテクチャにおいて物理法則を自動的に発見することに成功した。
- 物理現象を学習したニューラルネットワークから,正確な閉形式の偏微分方程式/常微分方程式の解を抽出した。
- TransformerのMLP層を記号的な代理モデルで置換することで,計算効率とメモリ使用量を改善した。
VeRO:エージェントを最適化するエージェントの評価フレームワーク [cs.RO, cs.AI, cs.CL, cs.LG]目的:エージェント最適化におけるコーディングエージェントの性能評価
- エージェント技術の進展に伴い,他のエージェントを改善するエージェントの重要性が増している。
- エージェント最適化は従来のソフトウェア開発とは異なり,評価方法の体系化が課題となっていた。
- エージェント最適化のための再現性のある評価環境とベンチマークスイートを提供し,性能分析を可能にする。
- VeROは,エージェントのスナップショット管理,予算制御,実行トレースの構造化記録を可能にする。
- VeROを用いた実験により,最適化設定の違いがターゲットエージェントの性能に与える影響が明らかになった。
- エージェント最適化の研究を支援するため,VeROが公開されている。
大規模言語モデルにおける多段質問応答のためのメタ認知行動チューニング [cs.AI]目的:多段質問応答における大規模言語モデルの性能向上
- 質問応答は,自然言語処理の重要な課題であり,情報検索や対話システムの基盤技術である。
- 大規模言語モデルは多段質問応答において,論理的な推論過程で正しい結論を得ているにも関わらず,誤った回答を生成することがある。
- 本研究は,大規模言語モデルの自己制御能力を強化し,より正確で効率的な多段質問応答を実現することを目指す。
- メタ認知行動チューニング(MBT)は,質問応答の推論過程に五段階のメタ認知構造を組み込むことで,高い精度と効率性を実現した。
- MBTは,HotpotQA,MuSiQue,2WikiMultiHopQAといったデータセットで,モデルの規模に関わらず最高水準のAccuracy-Efficiency Score(AES)を達成した。
- 新たに導入した指標(RRP,MQI)の評価からも,MBTは回答到達の早期化,冗長性の低減,メタ認知行動の充実において優れた結果を示した。
中間表現におけるメンバーシップ推論の軽減:差分プライバシーを用いた学習 [cs.LG]目的:中間表現におけるメンバーシップ推論リスクの軽減
- 機械学習モデルのプライバシー保護は重要であり,モデルの悪用を防ぐ上で不可欠である。
- 中間表現から学習データへのメンバーシップ情報を推論されるリスクが存在する。
- 層ごとのメンバーシップ推論リスクに応じてプライバシー保護を適応的に調整する。
- 提案手法LM-DP-SGDは,層ごとのメンバーシップ推論リスクを推定し,それに比例してプライバシー保護を配分する。
- 同じプライバシー予算下で,LM-DP-SGDはピーク時のメンバーシップ推論リスクを低減し,同時に有用性を維持する。
- LM-DP-SGDは,プライバシーと有用性のトレードオフを改善し,より優れた性能を示す。
汎用エージェントの評価 [cs.AI]目的:異種プロトコルと多様な未知環境におけるエージェントアーキテクチャの性能への影響の系統的測定
- 汎用エージェントは,特定のドメイン知識に依存せず様々なタスクを実行可能であり,その応用範囲は広い。
- 既存の研究では,エージェントアーキテクチャが多様な環境下でどのように性能に影響するか,体系的に評価されていなかった。
- 本研究は,異なるエージェントアーキテクチャの性能を統一的なフレームワークで比較し,汎用エージェントの能力を定量的に評価することを目的とする。
- 汎用エージェントは,ドメイン固有のカスタマイズなしに,様々なドメインに適応できることが確認された。
- エージェントアーキテクチャの選択は結果に影響を与えるものの,基盤となる大規模言語モデルの選択が全体的な性能を大きく左右する。
- 一部のベンチマークにおいて,高性能な汎用エージェントは,高度にカスタマイズされたドメイン固有のエージェントと遜色ない性能を示す。
時系列質疑応答のためのパターン認識アライメントとバランスのとれた推論:PATRA [cs.AI]目的:時系列質疑応答におけるパターン認識アライメントとバランスのとれた推論
- 時系列データは,金融,医療,環境など多岐にわたる分野で重要な役割を担う。
- 既存手法では,時系列のトレンドや季節性といったパターンを捉えきれていない。
- 複雑なタスクの学習が,単純なタスクに支配されやすく,高度な推論能力の獲得が困難。
- 提案手法PATRAは,時系列データのトレンドと季節性パターンを抽出するパターン認識メカニズムを導入した。
- 難易度の異なるタスク間での学習バランスを調整するタスク認識型報酬を設計し,一貫性のある思考連鎖の生成を促進する。
- 多様な時系列質疑応答タスクにおいて,既存の強力なベースラインモデルを上回り,優れたクロスモーダル理解と推論能力を示す。
AIの従順性の探求:なぜ純色画像の生成はサイバーパンクよりも難しいのか [cs.CL, cs.CV, cs.AI]目的:AIの従順性に関する概念の定式化と,決定論的精度を評価するためのベンチマークの提案
- 生成AIの進化は目覚ましいが,単純なタスクでの失敗が課題となっている
- 複雑な画像生成能力が高いモデルでも,単純なタスクでは性能が低下する現象が見られる
- AIが確率的近似からピクセルレベルの決定論へ移行する能力を評価し,指示への適合性を高める
- 生成AIモデルにおける「単純性のパラドックス」を明らかにし,美的バイアスが原因であることを指摘した。
- AIの従順性を評価するための階層的フレームワーク(レベル1~5)と,決定論的タスクのベンチマーク「Violin」を導入した。
- 閉鎖系モデルは一般的に,オープンソースモデルよりも決定論的精度が高いことが示された。
幅と深さのスケーリングにおけるμPのスペクトル条件 [cs.LG, stat.ML]目的:幅と深さのスケーリング下におけるμPのスペクトル制約
- 近年,大規模な生成モデルが発展しており,安定した学習とハイパーパラメータの転移が重要となっている。
- モデルの幅と深さを同時にスケーリングする場合,既存手法は複雑で,特定のアーキテクチャに依存している。
- 本研究は,幅と深さのスケーリング下でのμPを統一的なスペクトルフレームワークで解決することを目的とする。
- 残差ネットワークにおいて,残差ブロックの変換数kが1からk≧2に変化する際のμPの規範を明らかにした。
- スペクトル制約を具体的なハイパーパラメータにマッピングする一般的な手法を導出し,既存の結果を拡張した。
- GPT-2スタイルの言語モデル実験により,k≧2のμPが安定した学習と堅牢なハイパーパラメータ転移を実現することが示された。
内在的な自己確信度報酬を用いたテキスト画像生成の改善 [cs.CV, cs.AI]目的:テキスト画像生成の品質向上
- デザイン,メディア,データ拡張など,多様なコンテンツ作成を可能にする重要な技術である。
- 生成モデルと人間の嗜好,事実,美観の整合性が課題となっている。
- 外部報酬モデルを用いず,内部の自己確信度に基づき生成品質を改善する。
- SOLACEは,モデル自身の出力を再ノイズ化し,ノイズの復元精度を自己確信度として評価する。
- この内在的な信号を報酬に変換し,強化学習により高確信度の画像を生成することで,性能が向上する。
- SOLACEは,合成生成,テキストレンダリング,テキスト画像整合性の改善に寄与する。
タイル化アテンション:PyTorchのためのCUDAタイルSDPAカーネル [cs.LG, cs.AI]目的:NVIDIA GPU上でのSDPA研究のためのスケーラブルドット積アテンション(SDPA)順伝播演算子
- 深層学習モデルの高性能化には,アテンション機構の高速化が不可欠である。
- 既存のCUDA実装は修正が難しく,カーネル研究の障壁となっている。
- Pythonレベルでの柔軟な修正と再現性のあるベンチマークを可能にするカーネルを提供する。
- TiledAttentionは,標準的なアテンション実装と比較して大幅な高速化を実現する。
- cuTile/TileIRによる実装戦略により,スケジュールレベルでの柔軟な変更が可能である。
- PyTorchワークフロー内での直接利用が可能であり,性能とカスタマイズ性のバランスを提供する。
ITLC,SemEval-2026タスク11における:LLMの形式的推論のための正規化と決定論的構文解析 [cs.CL, cs.AI]目的:大規模言語モデルにおける推論におけるコンテンツ効果の軽減
- 言語モデルの推論能力は,多様な応用において不可欠である。
- 多言語環境において,推論タスクでコンテンツの影響を受けやすい。
- LLMにおける推論の公平性と信頼性を向上させること。
- 本手法は,シロギズムを標準論理表現に変換し,決定論的構文解析を適用する。
- SemEval-2026タスク11の全サブタスクにおいて,上位5位のランキングを達成した。
- コンテンツ効果を大幅に低減し,複雑なファインチューニングの代替案となる。
因果発見は群衆の知恵を取り入れるべきである [cs.LG, cs.ET, cs.HC, stat.ME, stat.ML]目的:群衆の知恵による因果学習パラダイムの認識
- 因果推論は,科学,政策決定,ビジネスなど,様々な分野で重要な役割を果たす
- 従来の因果モデリングは,専門家の知識に依存しており,規模や多様性に限界がある
- 多数の貢献者から分散された因果知識を統合し,よりロバストで包括的な因果構造を構築すること
- 本研究は,群衆の知恵を活用した因果学習のフレームワークを提案し,知識の抽出,モデリング,集約,最適化の各段階を網羅する
- クラウドソーシング,専門家からの知識抽出,集約技術,大規模言語モデルの進歩が,このパラダイムを可能にしている
- このアプローチは,因果学習,集合知,人間とAIの相互作用,意思決定科学など,学際的な協力の機会を提供する
マルチモーダル臨床状態分類におけるキャリブレーションと選択的予測の経験的分析 [cs.LG]目的:マルチモーダル臨床状態分類における不確実性に基づく選択的予測の信頼性
- 臨床現場でのAI利用拡大に伴い,安全性確保は重要課題である。誤った判断は患者に深刻な影響を及ぼす可能性がある。
- AIモデルの予測精度評価だけでは,不確実な予測を適切に処理できるか判断できない。誤った信頼度推定が問題となる。
- 臨床AIの安全性と頑健性を保証するため,キャリブレーションを考慮した評価手法を確立する。
- 選択的予測は,高い標準評価指標にも関わらず,性能低下を引き起こす可能性があることが示された。
- この性能低下は,特に代表例の少ない臨床状態において,モデルが正しい予測に高い不確実性を,誤った予測に低い不確実性を割り当てる,クラス依存的な誤キャリブレーションが原因である。
- 集約的な評価指標は,この種の問題を隠蔽する可能性があり,選択的予測の挙動を評価する上で限界がある。
MOOSE-Star:複雑性の壁を打ち破り,科学的発見のための実行可能な学習を可能にする [cs.LG, cs.CE, cs.CL]目的:科学的発見のための生成推論過程の直接モデリング
- 科学的発見の加速に貢献するため,大規模言語モデルの応用が期待されている。
- 大規模知識ベースからのインスピレーションの検索と構成の組み合わせ的複雑性が課題である。
- 複雑性の問題を解決し,科学的発見のための学習を可能にすること。
- MOOSE-Starは,複雑性を指数関数から対数関数に低減することに成功した。
- 確率的発見方程式から派生した分解されたサブタスクで学習を行うことでスケーラビリティを実現した。
- 大規模データセットTOMATO-Starを公開し,学習と推論を促進する。
協調型マルチエージェント強化学習における平均場サブサンプリングによる近似ナッシュ均衡の学習 [cs.MA, cs.AI, cs.LG, cs.SY, eess.SY, math.OC]目的:大規模なエージェント集団における近似ナッシュ均衡の学習
- 大規模プラットフォームやネットワーク制御システムにおいて,多数のエージェントを効率的に制御することが重要である。
- グローバルエージェントが全てのエージェントの状態を観測できない場合,最適な協調戦略の学習が困難となる。
- 部分的な観測情報のみから,効率的に近似ナッシュ均衡を学習可能な枠組みを提案することで,この問題を解決する。
- 提案手法(ALTERNATING-MARL)は,平均場Q学習と誘導されたMDPにおける最適化を交互に行う。
- この手法により,$\widetilde{O}(1/\sqrt{k})$-近似ナッシュ均衡への収束が理論的に保証された。
- 多ロボット制御の数値シミュレーションにより,提案手法の有効性が確認された。
構造的事前知識を用いた合成事前学習による関係性のある文脈内学習 [cs.LG, cs.AI, cs.DB]目的:関係性のあるデータベースにおける文脈内学習の実現
- 現代ビジネスの基盤であるリレーショナルデータベースの性能向上は重要である。
- 高品質なリレーショナルデータベースは希少で構造が多様なため,大規模事前学習が困難である。
- 合成データを用いた事前学習により,データ不足の問題を解決し,文脈内学習を可能にする。
- RDB-PFNは,200万件以上の合成データを用いて事前学習することで,新たなデータベースへの即時適応を実現した。
- 19の現実世界の予測タスクにおいて,グラフベースや単一テーブルのモデルを凌駕する性能を示した。
- 軽量なアーキテクチャと高速な推論速度を両立している。
認識的能動性の維持:責任あるAIのためのブラウワー的確実性制約 [cs.CY, cs.AI, cs.LG, cs.LO]目的:責任あるAIのための確実性制約
- 民主主義社会における認識的能動性は,情報への批判的吟味と正当化を必要とするため重要である。
- 生成AIは,不確実性を過度に説得力のある情報に見せかけることで,この正当化のプロセスを阻害する可能性がある。
- AIの出力に正当性の証明を伴わせることで,認識的能動性を保護し,誤った情報拡散を防ぐことを目指す。
- 生成AIが主張や否定を行う場合,公開され検証可能な正当性の証明書を提供することを義務付ける制約を提案する。
- この制約は,AIの出力状態を「主張」「否定」「未定」の3つに分類し,真偽値ではなく,発言の正当性を示すものとする。
- この設計により,AIの出力は信頼度だけでなく,検証可能な根拠に基づいて判断されるようになる。
フローマッチングはTD学習に何をもたらすか [cs.LG, cs.AI]目的:TD学習におけるフローマッチングの効果とそのメカニズムの解明
- 強化学習において,価値関数の推定は学習の重要な要素であり,より効率的かつ安定的な手法が求められている。
- 従来の価値関数推定手法では,非定常なTDターゲットへの対応や,過去の学習内容の保持が課題となっていた。
- 本研究は,フローマッチングがTD学習において,これらの課題を克服し,性能向上に貢献するメカニズムを明らかにすることを目的とする。
- フローマッチングは,積分による価値の読み出しと,各ステップにおける密な速度の教師あり学習により,TD学習を改善する。
- 特に,テスト時の回復メカニズムにより,初期の価値推定誤差を抑制し,よりロバストな価値予測を可能にする。
- また,速度場の多点における教師あり学習は,ネットワークにおける柔軟な特徴学習を促し,非定常なTDターゲットへの適応を容易にする。
