arXiv雑要約
AI - 2025/10/14 公開
ウォータースタイン重心集約を用いた個別化ベイジアン連合学習 [cs.LG]目的:非独立同一分布のクライアントデータに対する個別化とベイジアン推論の組み合わせによる連合学習手法
- プライバシー保護と分散データ活用が重要視される中で,連合学習は有効な手段である。
- 既存の個別化連合学習は,モデルの仮定や集約方法に制約がある場合が多い。
- ノンパラメトリック推論と幾何学的な集約手法により,連合学習の性能向上を目指す。
- 提案手法FedWBAは,クライアント側の推論とサーバー側の集約の両面で性能を向上させる。
- 理論的には,FedWBAの局所およびグローバル収束が保証されている。
- 実験結果から,FedWBAは予測精度,不確実性の校正,収束速度において既存手法を上回ることが示された。
「ハエット・バシャーと差別」:LLMに対するコード混合ヒングリッシュにおける音韻的摂動 [cs.CL, cs.AI]目的:LLMの安全フィルタを回避する手法の検証
- 近年,多言語・多様式に対応するLLMが開発され,その普及が進んでいる。
- 既存の脆弱性評価は主に英語に焦点を当てており,多言語環境下での安全対策は不十分である。
- コード混合と音韻的摂動を組み合わせることで,LLMの安全フィルタを効果的に回避することを試みる。
- テキスト生成タスクにおいて,99%の攻撃成功率,100%の攻撃関連率を達成した。
- 画像生成タスクにおいても,78%の攻撃成功率,96%の攻撃関連率を示した。
- 音韻的摂動が単語のトークン化に影響を与え,安全フィルタ回避に貢献することが明らかになった。
再利用・予測メカニズムによる効率的な拡散ノイズ除去並列化 [cs.LG, cs.AI]目的:拡散モデルの推論高速化手法
- 拡散モデルは画像,動画,音声等の生成において強力だが,実用化には推論速度が課題である。
- 既存の並列化手法は通信コストが高く,商用ハードウェアでの性能向上が限定的である。
- 隣接するノイズ除去ステップ間の類似性を活用し,軽量なステップ単位の通信による並列化を実現する。
- 提案手法ParaStepは,SVDで最大3.88倍,CogVideoX-2bで2.43倍,AudioLDM2-largeで6.56倍の高速化を達成した。
- 生成品質を維持しつつ,大幅な推論速度向上を実現した。
- 帯域幅制限のある環境下での拡散モデル推論を効率化するスケーラブルな解決策となる。
LLMSynthor:大規模言語モデルによるマクロ整合性のあるマイクロ記録の合成 [cs.LG]目的:社会科学や都市研究における信頼性の高いシミュレーションのための,マクロ整合性のあるマイクロ記録の合成
- 社会現象や都市構造の理解には,詳細な個別データが不可欠である。シミュレーションの精度向上に貢献する。
- 大規模な個別データの収集は困難であり,研究者はマクロレベルのデータに頼らざるを得ない状況である。
- 大規模言語モデルを活用し,現実的なマイクロ記録を生成することで,データ不足の問題を解決する。
- LLMSynthorは,事前学習済みのLLMをマクロ統計量に適合するマイクロ記録を生成するシミュレーターへと変換する。
- LLM提案サンプリングにより,効率的に不一致を修正し,モデルの事前知識に基づいたリアリズムを維持する。
- 移動,Eコマース,人口など様々なドメインにおいて,高いリアリズムと統計的忠実性,実用性を示すことが確認された。
Saten:大規模言語モデルのポストトレーニング圧縮のための疎な拡張テンソルネットワーク [cs.CL, cs.LG]目的:大規模言語モデルのポストトレーニング圧縮手法
- リソース制約のあるデバイスへのLLMの展開は重要であり,効率的な実装が不可欠である。
- 事前学習済みLLMは高ランクであるため,ポストトレーニング圧縮は困難である。
- ファインチューニング時の低ランクテンソル化LLMの性能向上を目指す。
- Satenは,テンソル化言語モデルにおける精度と圧縮効率を向上させる。
- 提案手法は,最先端の性能を達成するフルモデル圧縮を可能にする。
問題解決から問題解決指導へ:強化学習を用いたLLMと教育法との整合性 [cs.CL, cs.CL, cs.AI]目的:LLMを効果的なチューターとして育成するためのオンライン強化学習フレームワーク
- 教育現場における個別最適化された学習支援のニーズが高まっている。
- LLMは直接的な質問応答に最適化されがちで,効果的な教育法とは相容れない場合がある。
- LLMに戦略的な指導と段階的な問題解決を促し,教育的品質を高めることを目指す。
- 提案手法により,70億パラメータのチューターモデルを教師データなしで学習し,LearnLMと同程度の性能を達成した。
- 教育的サポートと学生の解答精度を調整可能な報酬重み付けにより,両者のトレードオフ関係を明らかにした。
- 本モデルは,単一ターンSFTベースラインよりも推論能力を維持し,思考タグを通じて解釈可能性を高めることが可能である。
TemplateRL:LLM推論のための構造化テンプレート誘導強化学習 [cs.CL, cs.LG]目的:LLMの推論能力を向上させるための,構造化テンプレート誘導強化学習フレームワーク
- 大規模言語モデルの推論能力向上は,様々なタスクにおいて重要である。
- 既存の強化学習手法は,効率的な探索が難しく,汎用的な問題解決戦略を獲得しにくい。
- テンプレートを用いて探索を誘導することで,強化学習の効率と安定性を高める。
- TemplateRLは,AIMEでGRPOを99%,AMCで41%上回る性能を示した。
- モデルが弱い場合や,異なるドメインへの汎化においても安定した性能を発揮する。
- 明示的なテンプレートライブラリは解釈可能であり,学習・推論中に更新可能である。
LLMエージェントにおけるメモリ管理が行動に与える影響:経験追従行動の経験的研究 [cs.AI]目的:LLMエージェントの行動へのメモリ管理の選択の影響
- LLMエージェントは,過去の実行を記憶し利用することでタスク性能を向上させる重要な要素である。
- 過去の経験の質が保証されない場合,誤りが累積し,長期的な性能が低下する可能性がある。
- 経験の質を制御し,堅牢な長期性能をサポートするメモリコンポーネントの設計指針を提示する。
- LLMエージェントは,タスク入力と検索されたメモリ記録の入力との類似性が高い場合,同様の出力を生成する「経験追従」特性を示す。
- この特性に関連する課題として,過去の不正確な経験が将来の性能を低下させるエラー伝播と,誤解を招く可能性のある経験の再生が挙げられる。
- タスク評価をメモリの品質ラベルとして活用することで,メモリバンク内の経験品質を調整することの重要性が示された。
専門用語検出のためのパーソナライズされたパラメータ効率的なファインチューニング [cs.CL, cs.AI, cs.LG]目的:専門用語の検出と説明のパーソナライズ
- 専門文書の読者層が多様化する中で,専門用語の理解を助けることは重要である。
- ユーザー固有のファインチューニングには,多くの注釈と計算資源が必要となる。
- 限られたリソースで,効率的かつスケーラブルなパーソナライズを実現すること。
- 提案手法であるパーソナライズされたLoRAモデルは,コンテキストプロンプティングを用いたGPT-4よりもF1スコアで21.4%向上した。
- また,教師ありデータの10%のみで,最良のオラクルベースラインを8.3%上回る性能を達成した。
- オープンソース言語モデルを用いた専門用語検出の効率的なパーソナライズを体系的に探求した初の研究である。
文脈への応答帰属:検索拡張生成における文脈帰属のメカニズム的研究 - Jensen-Shannon Divergenceに基づく [cs.CL, cs.AI, cs.LG]目的:検索拡張生成における応答の文脈帰属
- 大規模言語モデルの精度向上のため,外部知識の活用が重要となっている。
- 生成された内容と文脈の関連性を特定することは,計算コストが高く困難である。
- 計算効率と精度を向上させ,文脈帰属のメカニズムを解明すること。
- 本研究で提案するARC-JSDは,追加のファインチューニングや勾配計算を必要とせず,効率的かつ正確な文脈帰属を実現する。
- TyDi QA,Hotpot QA,Musique等のベンチマークにおいて,既存手法と比較して高い精度と計算効率を示す。
- 特定の注意ヘッドやMLP層が文脈帰属に重要な役割を果たすことがメカニズム分析により明らかになった。
SMART:LLMの数学問題解決能力を評価する自己生成・自己検証型多次元評価 [cs.AI]目的:LLMの数学問題解決能力の多次元評価
- LLMの数学分野における性能向上は目覚ましいが,その真の思考能力が不明である。
- 既存の評価方法は,最終解答か推論過程のみに焦点を当て,問題解決プロセス全体を評価できない。
- LLMの各認知次元における能力を詳細に分析し,真の問題解決能力を評価する。
- SMARTは,問題解決プロセスを理解,推論,計算,反復・改良の4次元に分解し,各次元を独立して評価する。
- 21のLLMにSMARTを適用した結果,次元ごとの能力に大きな差があることが判明した。
- 現在のLLMには明確な弱点が存在し,真の能力を測る新たな指標「All-Pass Score」が提案された。
事前学習済みLLMは,秘密裏に教師なしの信頼度調整器である [cs.LG, cs.AI]目的:事後学習済みLLMの信頼度調整
- LLMの性能向上が,様々な応用分野で不可欠となっている。
- 事後学習によりLLMは過信傾向になりやすく,信頼性を損なう可能性がある。
- ラベルなしデータを用いてLLMの信頼度を改善することを目的とする。
- DACAは,事前学習済みLLMと事後学習済みLLMの予測不一致を考慮した,新しい教師なし手法である。
- DACAは,一致例のみを使用することで,不一致例による過剰な信頼度調整を回避する。
- 実験の結果,DACAはオープンソースおよびAPIベースのLLMのECEを最大15.08%改善した。
MCP-RADAR:大規模言語モデルにおけるツール利用能力を評価するための多次元ベンチマーク [cs.AI]目的:大規模言語モデルのツール利用能力の評価
- LLMが高度化し,外部ツールとの連携が重要となる中で,客観的評価基準の確立が求められている。
- 既存の評価手法では,動的なツール発見と連携を行うMCPフレームワーク下でのツール利用能力を十分に評価できていない。
- MCPフレームワークにおけるLLMの性能を定量的に評価できる包括的なベンチマークを提供すること。
- MCP-RADARは,数学的推論,ウェブ検索,メール,カレンダー,ファイル管理,ターミナル操作の6つの領域にわたる507のタスクを含む。
- 評価基準として,回答の正確性と運用上の正確性を採用し,現実的な利用状況を模倣するため,実際のMCPツールと高忠実度のシミュレーションを使用。
- 主要なLLMの評価から,精度と効率性の間にトレードオフが存在することが明らかになり,開発者とツール作成者への示唆が得られた。
TRIM:ターゲットとする行単位の反復的な指標駆動型プルーニングによる極端な疎性化の達成 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの効率的な展開のための疎性化手法
- 大規模言語モデルの規模拡大に伴い,計算資源とメモリ消費が課題となっている。
- 従来のプルーニング手法では,層全体または層内で一様な疎性制約を適用し,高い疎性率で性能が低下する。
- 出力次元ごとに疎性率を調整し,性能劣化を抑制することで,極端な圧縮を実現する。
- TRIMは,Qwen2.5-14Bにおいて80%の疎性化でベースライン手法と比較して,パープレキシティを48%削減した。
- OPT-13Bにおいても,80%の疎性化でパープレキシティを90%以上削減し,最先端の結果を達成した。
- 次元ごとの疎性適応が,大規模言語モデルの極限的な圧縮に不可欠であることが示された。
DetailMaster:あなたのテキストから画像へのモデルは長いプロンプトを扱えるか? [cs.CV, cs.AI]目的:長文かつ詳細なプロンプトに対するテキストから画像へのモデルの能力評価
- 画像生成技術は,コンテンツ制作など幅広い分野で活用が期待されており,その重要性は高い。
- 既存のモデルは,詳細な指示を含む長いプロンプトに対して,性能が著しく低下するという課題がある。
- 詳細なプロンプトに対する画像生成能力を評価するベンチマークを開発し,モデルの限界を明らかにすること。
- DetailMasterは,キャラクター属性,配置,シーン属性,空間関係という4つの評価軸で構成される。
- 評価実験の結果,最先端モデルでも重要な要素において約50%の精度しかなく,プロンプト長が伸びると性能が低下した。
- 分析から,現在のモデルは複雑な文構造を適切に処理できず,詳細な条件のもとで属性の混同が生じやすいことが示された。
FRIREN:軌跡を超えて - 時間に対するスペクトルレンズ [cs.LG, cs.AI]目的:長期時系列予測における動的ニュートラルな基盤モデルの構築
- 長期予測は,気象,金融,物理学など,様々な分野で重要な役割を果たす。
- 既存の長期時系列予測モデルは,データが点ごとに予測可能であると暗黙的に仮定している点が課題である。
- 幾何学的構造を捉え,スペクトル解析と生成モデルを組み合わせることで,より正確で解釈可能な予測を目指す。
- 提案手法FRIRENは,Wasserstein-2距離を最小化し,動的ニュートラルな予測を実現する。
- Lorenz-63やRosslerなどのカオスシステムにおいて,既存手法TimeMixerを大幅に上回る性能を示す。
- FRIRENは,有限なKoopman作用素として機能するグローバルなスペクトル表現を提供し,動的なモードの解析を可能にする。
進化する機械学習:サーベイ [cs.LG]目的:変化するデータ環境への適応
- データ量が急増する現代において,機械学習の重要性は増している。
- 従来の機械学習モデルは,データの変化に追従することが難しい。
- リアルタイムでの学習と適応を実現する進化機械学習の課題を明確化する。
- 本サーベイは,データドリフト,概念ドリフトなど,進化機械学習における5つの主要な課題を分析している。
- 100件以上の研究を網羅的にレビューし,教師あり,教師なし,半教師ありアプローチにおける最新手法を分類した。
- 適応型ニューラルアーキテクチャ,メタ学習,アンサンブル戦略が,進化するデータ複雑性に対処する上で重要な役割を果たすことが示された。
AI効率のモデル中心圧縮からデータ中心圧縮への移行 [cs.CL, cs.CL, cs.AI, cs.CV]目的:AI効率化のための圧縮手法のパラダイムシフト
- 大規模言語モデルの発展はAI応用の拡大に不可欠であり,その効率化が求められている。
- モデルの規模拡大に限界が見え,長文脈処理における計算コストがボトルネックとなっている。
- データ圧縮による効率化が新たな方向性として注目されており,本研究はその枠組みを提示する。
- 本研究は,AI効率化の焦点がモデル中心からデータ中心へと移行しつつあると論じる。
- 既存の効率化戦略を統一的なフレームワークとして整理し,そのパラダイムシフトの重要性を示す。
- データ中心圧縮手法の現状を分析し,今後の研究課題と方向性を提示する。
LLaDA 1.5:大規模言語拡散モデルに対する分散低減型選好最適化 [cs.LG]目的:大規模言語拡散モデルと人間の選好の整合
- 言語モデルの性能向上には,モデルと人間の意図の整合が不可欠である。近年,拡散モデルが注目されている。
- 拡散モデルの選好最適化には,ELBO推定値の高い分散が課題となっていた。
- ELBO推定値の分散を低減し,より安定した選好最適化を実現することを目指す。
- VRPOという分散低減型選好最適化フレームワークを提案し,理論的な解析に基づき,バイアスと分散を制御する手法を開発した。
- LLaDAにVRPOを適用した結果,LLaDA 1.5は,数学,コード,整合性評価において,従来のSFTモデルを大幅に上回る性能を示した。
- LLaDA 1.5は,他の強力な言語モデルや自己回帰モデルと比較しても,数学的性能において競争力があることが示された。
ローリングボールオプティマイザ:損失地形の皺を平らにして学習する [cs.LG, cs.AI, math.OC]目的:大規模ニューラルネットワークの損失関数最適化手法の提案
- 深層学習では,高次元かつデータ依存な損失関数を最適化する必要がある。
- 損失地形が複雑で,多数の局所的最小値や鞍点などにより最適化が困難である。
- データノイズに起因する損失地形の微細構造が学習の妨げになる問題を解決する。
- 提案手法RBOは,損失地形の広範囲の情報を取り入れることで,局所的な影響を抑制する。
- 損失関数の平滑化効果が理論的に証明された。
- MNISTおよびCIFAR-10/100での評価で,収束速度,学習精度,汎化性能の向上が確認された。
STRAP:分布外汎化のための時空間パターン検索 [cs.LG, cs.AI]目的:分布外の時空間データに対する汎化性能の向上
- 動的なグラフ構造データを扱う上で,時空間グラフニューラルネットワークは重要なツールである。
- 学習分布外の時空間データに対しては,既存の時空間グラフニューラルネットワークは汎化性能が低下する。
- 学習時に獲得した時空間パターンを検索し活用することで,分布外のデータに対する汎化性能を向上させる。
- 提案手法STRAPは,時空間パターンを保存したライブラリを構築し,入力データとの類似性に基づき関連パターンを検索・注入する。
- これにより,時空間表現が強化され,破滅的忘却が軽減される。
- 複数の実データセットでの実験により,STRAPは既存手法を凌駕し,高い汎化能力と適応性を示すことが確認された。
時間制約に基づく計画立案のベンチマーク:TCP [cs.AI]目的:時間制約に基づく計画立案能力の評価
- 大規模言語モデルにおいて,時間的推論と計画立案は不可欠な能力である。
- 既存のベンチマークは,これらの能力を個別に,また限定的な複雑さで評価している。
- 時間制約と計画立案能力を総合的に評価するベンチマークを提供し,LLMの限界を明らかにする。
- 本研究で開発したTCPベンチマークは,自然な対話形式で時間制約を含む協調的なプロジェクトのスケジュール最適化を評価する。
- 最先端のLLMの評価の結果,強力なモデルでもTCPに苦戦することが示され,時間制約に基づく計画立案能力の課題が浮き彫りになった。
- 失敗事例の分析,ベンチマークのオープンソース化を通じて,今後の研究を促進することを期待する。
MA-RAG:協調的思考連鎖によるマルチエージェント検索拡張生成 [cs.CL, cs.AI]目的:複雑な情報探索タスクにおける曖昧性および推論の課題への対処
- 高度な情報検索と知識統合が,より正確で信頼性の高いAIシステムの構築に不可欠である。
- 従来の検索拡張生成(RAG)は,複雑な質問への対応や,曖昧性の解消に課題を抱えている。
- マルチエージェントシステムによる協調的な推論を通じて,RAGの性能向上と解釈可能性の向上を目指す。
- MA-RAGは,NQ,HotpotQA,2WikimQA,TriviaQAを含む複数のベンチマークで,既存のRAG手法や単独のLLMを凌駕する性能を示した。
- 小規模モデル(LLaMA3-8B)でも大規模モデルを上回り,大規模モデル(LLaMA3-70B,GPT-4o-mini)は最新の性能を達成した。
- プランナーと抽出エージェントがマルチホップ推論に重要であり,大規模モデルは回答の合成において特に効果的であることが示された。
大規模言語モデル解釈のための多スケール多様体アラインメント:統一された情報幾何学的フレームワーク [cs.CL, cs.CL, cs.AI]目的:大規模言語モデル表現の多スケールアラインメントによる解釈
- 言語モデルの性能向上に伴い,その内部メカニズムの理解が不可欠となっている。
- 言語モデルの表現は複雑であり,その構造や情報フローの解明が困難である。
- 異なるスケールの表現間の幾何学的構造を保全し,情報フローを分析すること。
- 提案手法Multi-Scale Manifold Alignment(MSMA)は,GPT-2, BERT, RoBERTa, T5において一貫した階層構造を示した。
- MSMAは,複数の評価指標においてアラインメントの改善を示し,統計的な有意差が確認された。
- 異なるスケールへの介入は,語彙の多様性,文構造,談話の一貫性に影響を与え,アーキテクチャ依存的な効果が観察された。
大規模言語モデルにおける潜在的表現力学の実証的探求:多様体進化の視点 [cs.CL, cs.AI]目的:大規模言語モデルの生成過程における潜在的表現力学の解明
- 自然言語処理の発展に伴い,大規模言語モデルの理解と制御が重要となっている。
- 大規模言語モデルの内部表現がどのように進化し,テキスト品質に影響を与えるか不明な点が多い。
- 潜在的表現の力学を定量化し,テキスト品質との関係性を明らかにすること。
- 本研究で提唱する多様体進化理論(DMET)は,LLMの生成を低次元意味多様体上での連続的な軌跡として捉える。
- 軌跡の滑らかさ,安定性,構造を特徴づける指標(C, Q, P)とテキスト品質の間には一貫した相関関係が認められた。
- デコードパラメータが軌跡の形状に影響を与え,流暢性と創造性のバランスを調整できることが示された。
TabAttackBench: 表形式データの敵対的攻撃に関するベンチマーク [cs.LG, cs.AI]目的:表形式データに対する敵対的攻撃の有効性と知覚不能性の評価
- 機械学習は広く利用されているが,その安全性に対する懸念が高まっている。
- 画像データとは異なり,表形式データにおける敵対的攻撃の研究は遅れている。
- 表形式データにおける敵対的攻撃の脆弱性をより深く理解することを目指す。
- ベンチマークにより,攻撃手法とモデルの組み合わせによる攻撃成功率と知覚不能性のトレードオフが定量的に評価された。
- $\ell_\infty$に基づく攻撃は高い成功率を示す一方,知覚不能性は低い傾向にあった。
- $\ell_2$に基づく攻撃は,より現実的な摂動を提供することが示された。
ペアでないデータからの共有表現の学習 [cs.DC, cs.CL, cs.CV, cs.LG, stat.ML]目的:ペアでないデータからの共有表現学習の可能性
- マルチモーダル表現学習は重要であり,異なるモダリティ間の関係性を理解する上で不可欠である。
- 従来の学習手法はペアデータに依存しており,その収集にはコストがかかるという課題があった。
- 本研究は,ペアデータに頼らず,ペアでないデータのみから共有表現を学習することを試みる。
- ランダムウォーク行列のスペクトル埋め込みに基づき,ペアでないデータから共有表現を学習できることを示した。
- コンピュータビジョンと自然言語処理の実験結果から,ペアでないデータが意味のあるクロスモーダル関係を捉える効果が示された。
- 検索,生成,算術,ゼロショット,クロスドメイン分類といったタスクにおいて高い性能を達成した。
臨床データの包括的,差分プライバシーを保護する連合学習 [cs.LG, cs.AI, cs.CR, cs.DC]目的:臨床AIモデルの連合学習におけるプライバシー保護と性能向上
- 医療データの利用はAI発展に不可欠だが,個人情報保護が課題となる分野である。
- 既存の差分プライバシー手法は,一律のノイズ付加により,モデル性能を低下させる場合がある。
- クライアントのコンプライアンスに応じてノイズを調整し,プライバシー,コンプライアンス,性能のバランスを取る。
- 提案手法により,コンプライアンスの低い医療機関も参加できるようになり,学習データが拡充される。
- 公開データセットを用いた実験で,従来の連合学習と比較して最大15%の精度向上が確認された。
- プライバシー保護,コンプライアンス遵守,性能向上を両立し,現実的な臨床ワークフローへの応用が期待される。
文埋め込み予測による潜在的推論 [cs.CL, cs.AI]目的:文埋め込みの予測を通じた潜在的推論の可能性
- 言語モデルの推論能力向上は,自然言語処理の重要な課題である。より高度な思考能力をモデルに付与することが求められている。
- 従来の言語モデルはトークン単位で処理するため,文レベルでの抽象的な推論が苦手であるという課題があった。
- 学習済みの言語モデルを文埋め込み空間へと拡張し,抽象的な推論能力を獲得することを試みる。
- 文埋め込みの予測による手法は,数学,論理,常識,計画立案の4つの分野でChain-of-Thoughtと同等の性能を示した。
- 推論に必要な計算量をChain-of-Thoughtと比較して平均で半分に削減することに成功した。
- 中間状態を解釈可能な文に変換するSentenceLensという診断ツールを導入し,潜在的な推論過程の可視化を実現した。
機械的アンラーニングは本当に知識を削除するのか [cs.LG, cs.AI, cs.CL]目的:機械的アンラーニングの有効性評価
- 大規模言語モデルの発展に伴い,プライバシー保護の重要性が増している。
- 既存のアンラーニングアルゴリズムの有効性評価が困難である。
- アンラーニング手法の有効性と堅牢性を評価するフレームワークを提案する。
- 包括的な監査フレームワークを構築し,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,5つのプロンプトベース監査手法を適用した。
- プロンプトベース監査に加え,中間活性化の摂動を利用する新しい手法を提案し,入力と出力のみに依存する監査法の限界に対処した。
- 様々な監査アルゴリズムを用いた評価により,異なるアンラーニング戦略の有効性と堅牢性を検証した。
MGE-LDM:同時音楽生成と音源抽出のための結合潜在拡散モデル [cs.SD, cs.LG, eess.AS]目的:音楽生成,音源補完,およびクエリ駆動型音源分離の同時実行
- 音楽情報処理の分野において,音楽の自動生成や編集技術は重要な研究テーマである。
- 従来の音源分離や生成手法は,特定の楽器クラスに限定される場合が多く,柔軟性に欠ける。
- 任意の楽器音源に対して,柔軟かつカテゴリに依存しない操作を可能にすること。
- MGE-LDMは,単一のコンパクトな潜在拡散モデル内で,完全な混合物の生成,部分生成(音源補完),およびテキスト条件付きの音源抽出を可能にする。
- 分離と補完を潜在空間における条件付きインペインティングタスクとして定式化することにより,多様なマルチトラックデータセットに対して結合学習を実現する。
- 事前に定義された楽器カテゴリに依存することなく,Slakh2100,MUSDB18,MoisesDBなどの異質なデータセットで学習可能である。
ジグソーR1:ジグソーパズルを用いたルールベースの視覚的強化学習の研究 [cs.CV, cs.AI, cs.CL]目的:ルールベースの視覚的強化学習の有効性評価
- マルチモーダル大規模言語モデルの応用が拡大する中で,視覚情報処理能力の向上が不可欠である。
- 従来のテキストのみの環境では得られなかった知見が,マルチモーダル環境下では異なる可能性がある。
- ジグソーパズルという構造化された環境を用いて,ルールベースの視覚的強化学習の特性を明らかにすること。
- マルチモーダル大規模言語モデルは,ジグソーパズルにおいて,ファインチューニングにより高い精度を達成し,未学習の複雑な配置にも一般化できる。
- ジグソーパズルでの学習は他の視覚タスクへの一般化を促す可能性があり,その効果はタスク構成に依存する。
- 強化学習は,教師ありファインチューニングよりも効果的な一般化能力を示すことが示唆された。また,初期の教師あり学習段階は,その後の強化学習の最適化を阻害する可能性もある。
Muddit:テキスト・画像生成を超越する統一的な離散拡散モデル [cs.LG, cs.CV]目的:テキストと画像の多様な生成タスク
- 近年のマルチモーダル研究の発展に伴い,単一モデルでの多様なタスク処理が求められている。
- 既存の統一モデルは,推論速度や汎化性能において課題を抱えている。
- 強固な事前学習済みモデルを活用し,高速かつ高品質なマルチモーダル生成を実現する。
- Mudditは,テキストと画像の両方で高速かつ並列な生成を可能にする統一的な離散拡散トランスフォーマーである。
- 事前学習済みのテキスト・画像モデルの知識を活用することで,高い生成品質と効率性を実現している。
- 実験結果から,Mudditはより大規模な自己回帰モデルと比較して,同等以上の性能を示すことが確認された。
形式的な推論を活用:自然言語と形式言語のハイブリッド推論がLLMの数学能力を向上 [cs.AI, cs.CL]目的:LLMの数学的推論能力の向上
- LLMの数学能力向上は,数学とコンピュータ科学の分野で重要視されている。
- 強化学習は新たな能力を付与するのが難しく,形式言語の知識を自然言語推論に統合する必要がある。
- 自然言語と形式言語間の構造や形式の差異を克服し,効果的な統合を実現することを目指す。
- 提案手法NFL-HRは,MATH-500およびAMCベンチマークでそれぞれ89.80%,84.34%の正答率を達成した。
- これは自然言語ベースラインよりもそれぞれ4.60%,4.82%向上する結果である。
- フレームワークによって解決された問題の中には,自然言語ベースラインモデルではより多くの試行数でも解決できなかったものも存在する。
AMSbench:AMS回路におけるMLLM能力を評価するための包括的ベンチマーク [cs.IR, cs.CL, cs.LG, cs.AI]目的:AMS回路に関するMLLMの性能評価
- 集積回路産業においてAMS回路は不可欠であり,その重要性は高い。
- AMS回路設計の自動化は難易度が高く,長年の課題となっている。
- 多様なAMS回路関連の課題に対するMLLMの能力を体系的に評価する。
- AMSbenchは,回路図の理解,回路解析,回路設計といった重要なタスクを網羅する。
- 評価の結果,現在のMLLMには複雑なマルチモーダル推論や高度な回路設計において限界が明らかになった。
- AMS回路固有の知識をMLLMが理解し,効果的に応用することが重要であることが示された。
QiMeng-CodeV-R1: 推論能力強化型Verilog生成 [cs.LG, cs.AR, cs.PL]目的:Verilog生成LLMの学習フレームワーク
- EDA分野の自動化は,設計効率向上に不可欠であり,複雑化する現代の電子機器開発を支える。
- 自然言語からのVerilog自動生成は,検証環境の不足,高品質なデータペアの希少性,計算コストの高さが課題である。
- 本研究は,検証可能な報酬を用いた強化学習により,これらの課題を克服し,Verilog生成の精度向上を目指す。
- 提案手法CodeV-R1は,ルールベースのテストベンチ生成器とデータ合成法により,高品質なデータセットを構築した。
- Distill-then-RLパイプラインとDAPOアルゴリズムの導入により,学習コストを削減し,推論能力を強化した。
- VerilogEval v2とRTLLM v1.1において,既存技術を12~20%上回るpass@1を達成し,671B DeepSeek-R1を超える性能を示した。
大規模言語モデルの等価な線形写像 [cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの推論過程の解釈可能性向上
- Transformerの解釈可能性向上は重要だが,計算メカニズムの理解は依然として課題である。
- 既存手法では,隠れ表現の解釈は可能だが,その生成過程の解明が困難である。
- LLM推論を等価な線形システムにマッピングし,その計算過程を解釈することを試みる。
- 提示手法により,予測出力埋め込みを$10^{-13}$以下の相対誤差で再構成する等価な線形システムを構築可能。
- Transformerの各演算が入力依存線形変換$A(x) \cdot x$として表現される性質を利用し,勾配計算の一部を分離することで線形写像を抽出。
- 線形表現は低次元空間で意味概念を捉え,個々の層やモジュールが予測にどのように寄与するかを分析し,意味概念の挿入にも応用可能。
SMELLNET:現実世界の匂い認識のための大規模データセット [cs.AI]目的:現実世界の匂い認識に関するAIシステムの訓練と評価のための大規模ベンチマークの構築
- 匂い感知技術は,アレルゲン検出,製造プロセス監視,感情・健康状態の把握など,幅広い分野での応用が期待される
- 匂い認識AIの性能向上には,大規模なベンチマークデータセットが不可欠であるが,現状ではそのようなデータセットが不足している
- 多様な匂いをデジタル化し,匂い認識AIの学習・評価を可能にする大規模データセットを構築することで,この課題を解決する
- SmellNetは,50種類の単一匂いと43種類の混合匂いを網羅する約82万8千件のデータポイントを含む大規模データセットである
- ScentFormerは,SmellNetを用いた匂い分類タスクにおいて58.5%のTop-1精度,匂い混合分布予測タスクにおいて50.2%のTop-1@0.1精度を達成した
- ScentFormerは,時間的な変化を捉えることで高い汎化性能を示し,匂い認識AIの可能性を示唆している
Dyna-Think:AIエージェントにおける推論,行動,および世界モデルシミュレーションの相乗効果 [cs.AI, cs.CL, cs.LG]目的:AIエージェントの性能向上を目指した思考フレームワーク
- AI技術は,数学やコーディングなど多様な分野で急速に進歩しており,その応用範囲は広い。
- 長期的な課題を解決するAIエージェントにとって,どのような思考プロセスが効果的か不明確である。
- 推論,行動,世界モデルを統合することで,AIエージェントの性能を向上させることを目指す。
- Dyna-Thinkにより,OSWorldとWindowsAgentArenaにおけるAIエージェントの性能が向上した。
- Dyna-Thinkは,R1と同等の性能を達成しながら,平均トークン数を半分に削減した。
- 世界モデルの訓練における批判生成が,ポリシー性能の向上に効果的であることが示された。
AVROBUSTBENCH:テスト時のロバスト性評価ベンチマーク [cs.SD, cs.AI, cs.LG, eess.AS]目的:オーディオビジュアル認識モデルのテスト時におけるロバスト性の評価
- 実世界での応用において,モデルの信頼性は重要であり,様々な環境変化への対応が求められる。
- 既存のロバスト性評価は単一モダリティに偏っており,オーディオとビジュアル両方の変化への対応を評価できていない。
- 同時発生的なオーディオ・ビジュアル変化に対するモデルのロバスト性を包括的に評価するベンチマークの提供。
- 提示されたAVROBUSTBENCHを用いて,最先端のオーディオビジュアルモデルは,ノイズの強大化に伴いロバスト性が低下することが示された。
- VGGSOUND-2CとKINETICS-2Cにおいて,オンラインテスト時適応(TTA)手法は,バイモダルのノイズに対する性能改善が限定的であることがわかった。
- 提案手法AV2Cは,VGGSOUND-2Cにおいてクロスモーダル融合による性能向上を達成した。
拡散プランナーのための状態網羅的軌道縫合 [cs.LG, cs.AI]目的:拡散プランナーの性能と汎化能力の向上
- 強化学習における長期的計画の重要性が高まっているため。
- オフラインデータセットの質と多様性が,拡散モデルの性能を制限している。
- 学習分布外のタスクや,より長い計画期間への汎化を可能にすること。
- SCoTSは,短い軌道セグメントを段階的に縫合することで,多様かつ拡張された軌道を生成する。
- 環境の潜在的な時間構造を捉えた潜在表現を用いて,方向性探索と新規性に基づいて軌道セグメントを縫合する。
- SCoTSにより,オフラインゴール条件付きベンチマークにおける拡散プランナーの性能が大幅に向上する。
リアルワールドアプリケーションのための空間汎用オーディオ表現モデル [cs.SD, cs.AI, eess.AS]目的:リアルワールド環境における空間オーディオ表現の学習
- 音響環境の理解は,様々な現実世界アプリケーションにおいて不可欠である。
- 既存のオーディオ基盤モデルは,残響やノイズを含む現実環境への適応が課題である。
- 現実世界の音響シーンの空間的性質を考慮したモデル開発が求められている。
- 提案手法GRAMは,多チャンネルマスク自動エンコーダを用いて空間オーディオ表現を効率的に学習する。
- 公開したNat-HEARベンチマークにおいて,GRAMは最先端のモデルを大幅に上回る性能を示した。
- GRAMは,二チャンネルおよび四チャンネルのフォーマットに対応し,現実世界データへの堅牢な転移性も確認された。
不変性がLLMのアンラーニングを,予期せぬダウンストリームファインチューニングに対しても堅牢にする [cs.LG]目的:大規模言語モデルにおける選択的な知識削除
- プライバシー保護と安全性確保は,大規模言語モデルの利用において重要な課題である。
- 既存のアンラーニング手法は,その後のファインチューニングによって忘れられた情報が容易に復元される。
- 予期せぬファインチューニングに対しても堅牢なアンラーニング手法を開発すること。
- 本研究では,不変リスク最小化の考え方を応用し,不変性をアンラーニングに導入するILUを提案した。
- ILUは,多様なファインチューニングタスクに対して高い汎化性能を示し,単一のデータセットでの訓練でも効果を発揮する。
- WMDPとMUSEのベンチマークにおいて,ILUは最先端のアンラーニング手法を凌駕する性能を示すことが確認された。
MLorc:メモリ効率の良い大規模言語モデル適応のためのモーメンタム低ランク圧縮 [cs.LG, cs.IT, math.IT, math.OC]目的:大規模言語モデルの適応におけるメモリ効率の向上
- 近年,大規模言語モデルの規模が拡大しており,自然言語処理の様々なタスクで高い性能を発揮する。
- 大規模言語モデルのフルパラメータでのファインチューニングは,膨大なメモリを必要とするという課題がある。
- 本研究は,メモリ消費量を削減しつつ,フルパラメータ学習の性能を維持・向上させることを目指す。
- MLorcは,パラメータ行列のモーメンタムを圧縮・再構成することで,メモリ使用量を削減する新しい学習パラダイムである。
- LoRAと比較して,MLorcは重み更新行列に固定ランク制約を課さず,フルパラメータ学習を可能にする。
- GaLoreと比較して,勾配ではなくモーメンタムを直接圧縮することで,フルパラメータファインチューニングの学習ダイナミクスをより良く維持する。
自己アンサンブル:大規模言語モデルの信頼度誤校正の緩和 [cs.CL, cs.LG]目的:大規模言語モデルにおける信頼度誤校正の緩和手法
- 大規模言語モデルの応用範囲拡大に伴い,その性能評価と改善が重要である。
- 選択肢数が多い多肢選択問題において,大規模言語モデルの信頼度推定に歪みが生じやすい。
- 大規模言語モデルの信頼度歪みを修正し,より正確な予測を実現することを目指す。
- 自己アンサンブルは,選択肢をグループ化し,グループごとの予測を統合することで信頼度歪みを緩和する。
- 本手法は,既存の大規模言語モデルアーキテクチャに容易に組み込むことが可能である。
- 実験結果から,自己アンサンブルが標準的な推論およびベースライン手法を上回る性能を示すことが確認された。
嗜好を意識したGANによるマッチングベースのグラフ編集距離ソルバーの教師なし学習に向けた試み [cs.LG, cs.AI]目的:グラフ編集距離の計算
- グラフ構造の類似度評価は,様々な応用分野において重要である。
- グラフ編集距離の計算は計算量が多く,実用上の課題となっている。
- 教師データなしでグラフ編集距離ソルバーの性能向上を目指す。
- 提案手法GEDRankerは,GANを用いて高品質なノードマッチングを生成する。
- 編集パス長からの嗜好信号を用いて,識別器がソルバーを誘導する。
- 実験結果から,提案手法は教師データなしでほぼ最適な解を得られることが示された。
ニューラルODEとResNetの架け橋:安全性検証のための形式的な誤差限界 [cs.LG, cs.AI]目的:ニューラルODEとResNet間の近似誤差の上界
- 機械学習におけるモデルの安全性検証は,信頼性の高いシステム構築に不可欠である。
- ニューラルODEとResNetは関連が深いものの,誤差評価が明確でなかった。
- 両モデル間の誤差を形式的に評価し,検証の効率化を目指す。
- ニューラルODEとResNetの近似誤差に関する形式的な上界を導出した。
- 誤差限界を利用することで,一方のモデルの検証結果を他方に転用できる。
- 固定点アトラクタ系における数値例を通して,提案手法の有効性を確認した。
気分天使:精神疾患診断のための検索拡張型マルチエージェントフレームワーク [cs.SI, cs.AI]目的:精神疾患診断の精度向上
- 精神疾患の早期発見と適切な治療は,患者のQOL向上に不可欠である。
- 精神疾患の診断は主観的で,症状の重複やプライバシー保護の課題がある。
- AIを活用し,精神疾患診断の客観性と精度を高めることを目指す。
- MoodAngelsは,従来の診断手法よりも高い精度を実証し,GPT-4oより12.3%高い精度を達成した。
- MoodSynデータセットは,臨床的妥当性を維持しつつプライバシーを保護しており,機械学習に有用である。
- 本研究は,精神疾患診断におけるAI活用を促進する,重要なツールとリソースを提供する。
直接選好最適化におけるサンプリング品質の影響の理解 [cs.LG]目的:直接選好最適化におけるサンプリング品質の影響
- 強化学習と人間のフィードバックの統合は,AIの性能向上に不可欠である。
- 直接選好最適化は,データの質に大きく依存し,その影響は十分に理解されていない。
- 質の高いデータが,最適化の効率とAIモデルの学習をどのように改善するかを明らかにすること。
- 高品質なデータは,解空間と収束挙動に影響を与え,勾配シグナルを増幅する。
- 簡略化されたアラインメントモデルにより,可能性のずれを回避し,効果的なポリシー学習を促進する。
- 理論的知見と実験結果は,オンラインDPOフレームワークの正当性を裏付けている。
変革の主体:戦略的計画のための自己進化型LLMエージェント [cs.AI]目的:長期的な計画立案におけるLLMエージェントの能力向上
- 複雑な環境下での自律的な意思決定は,AI研究の重要な課題である。
- LLMエージェントは,コンテキストウィンドウの制限により,長期的な戦略の一貫性を保てない場合がある。
- LLMが逐次的な意思決定ではなく,安定した戦略設計を行えるようにすること。
- HexMachinaは,環境の発見と戦略の改善を分離することで,LLMの長期的な戦略の一貫性を維持する。
- Catanatronの実験では,HexMachinaは人間が設計したベースライン(AlphaBeta)を上回り,54%の勝率を達成した。
- アーティファクト中心の継続学習により,LLMは不安定な逐次的な意思決定者から,安定した戦略設計者へと変貌する。