arXiv雑要約
AI - 2026/02/04 公開
マルコフ決定過程における幾何学的整合性による価値表現の構造化 [cs.AI]目的:価値関数の推定における部分順序集合の学習
- 強化学習の安定化と高速化には,幾何学的特性の活用が重要である。
- 既存手法では,構造の制限やデータ拡張に留まり,価値関数自体の構造化は不十分である。
- 幾何学的整合性に基づき,価値関数を部分順序集合として学習することで,効率性と安定性を高める。
- 提案手法GCR-RLは,過去のステップで定義された部分順序集合を改良し,TD誤差から追加の順序関係を学習する。
- Q学習とActor-Critic法に基づいた2つのアルゴリズムを開発し,理論的性質と収束率を解析した。
- 様々なタスクで実験を行い,GCR-RLがサンプル効率と安定性において強力なベースラインを上回ることを実証した。
LLMは人間のように偏っているか?事前知識,無関係な情報,および推論予算としての因果的推論 [cs.CL, cs.HC, cs.AI]目的:LLMの因果的推論における判断メカニズムの解明
- 因果的推論は,AIの意思決定において不可欠であり,その信頼性と公平性が重要である。
- LLMの判断が規範的な因果計算に基づいているか,あるいは人間のようなショートカットや脆弱なパターンマッチングに依存するか不明である。
- LLMの因果的推論戦略を特徴づけ,安全かつ効果的な展開のための知見を得る。
- LLMの因果的判断は,解釈可能な小さなモデルでうまく圧縮され,人間よりもルールに基づいた推論戦略を示す。
- 多くのLLMは,人間が見落とす潜在的要因を考慮するのに対し,人間の特徴的なコライダーバイアス(弱い説明の放棄やマルコフの違反)を示さない。
- 思考の連鎖(CoT)は,多くのLLMにおいて,意味的抽象化やプロンプトの過負荷に対する頑健性を高める。
なぜ一部のモデルは学習の破棄に抵抗するか:線形安定性の視点 [cs.LG, stat.ML]目的:学習の破棄における安定性閾値の解明
- プライバシー保護,法規制遵守,効率化のため,特定の学習サンプルを削除する学習の破棄技術が重要である。
- 学習の破棄がいつ,なぜ機能するかについての理論的な理解が不足している。
- 最適化のダイナミクスとデータ形状の相互作用を捉え,学習の破棄の安定性を評価する。
- データコヒーレンスが安定性の重要な指標であり,保持セット内,忘却セット内,および両者間のコヒーレンスに分解できる。
- 信号対雑音比(SNR)が低いほど,忘却は容易になり,高いSNRではモデルが学習の破棄に抵抗する。
- ヘッセ行列のテストとCNNのヒートマップが予測境界と一致し,勾配ベースの学習の破棄の安定性限界がマッピングされた。
効率的なLLM推論のための非線形演算の非一様線形補間近似 [cs.DC, math.OC, cs.LG, cs.AI]目的:大規模言語モデルにおける非線形演算の効率化
- 大規模言語モデルは多様なタスクで高性能を示すが,メモリ消費量と計算コストが大きい。
- 線形層の圧縮・高速化は進んでいるが,非線形層は高精度な浮動小数点演算に依存している。
- 非線形関数を効率的に近似し,精度劣化を最小限に抑える手法を開発する。
- 提案手法であるNLIは,動的計画法を用いて最適な補間点を決定し,誤差を最小化する。
- NLIエンジンは,既存の設計と比較して4倍以上の計算効率の向上を達成した。
- NLIは,様々な非線形関数に対応可能であり,LLMや深層ニューラルネットワークへの統合が容易である。
コンパイラからのフィードバックを用いた Lean 証明の修復学習 [cs.LG]目的:Lean証明の修復と,その根拠となる自然言語の説明
- 近年,ニューラル定理証明器が自律的に動作する場面が増加しており,その能力向上は重要である。
- 既存のLeanデータセットは,正しい証明のみで構成されており,誤りの理解と修復のための学習データが不足している。
- コンパイラからのフィードバックを活用し,誤った証明を修正し,その理由を説明する能力を獲得することを目指す。
- 本研究で構築したAPRILデータセットを用いることで,言語モデルの証明修復精度とフィードバック条件付き推論が大幅に向上した。
- 40億パラメータのモデルをファインチューニングした結果,シングルショット修復評価において,既存のオープンソースベースラインを上回る性能を示した。
- 診断に基づいた教師あり学習は,フィードバックを利用する定理証明器にとって有用な訓練信号となる。
大規模言語モデルは推論時の計画において誤った第一歩を踏む可能性がある [cs.AI]目的:推論時の計画における大規模言語モデルの行動特性
- 自然言語処理の進展に伴い,大規模言語モデルの応用範囲は拡大している。
- モデルの計画能力は学習時と推論時で一貫性がなく,短視眼的になりやすい。
- 推論時に生成される文脈が計画行動に与える影響を解明し,そのメカニズムを明らかにすること。
- 大規模言語モデルの計画行動は,生成文脈の進化に起因する計画のシフトによって変化することが示された。
- 人間によるプロンプトと自己生成文脈の蓄積により,計画の制約と強度が変化することが実験的に確認された。
- 自己生成シーケンスを条件とした場合,初期のバイアスが軽減されることがガウスサンプリングタスクで示された。
エージェントα:生成,探索,評価を統合するGUI操作エージェントのための木探索 [cs.AI]目的:GUI操作エージェントにおける計画と実行の統合
- GUI自動化は,人間の介入なしにタスクを達成する上で重要であり,様々な分野での応用が期待される。
- 既存手法は,部分的な成功の再利用や初期の誤りからの回復が難しく,効率的な探索が課題である。
- 本研究は,探索と評価を統合した木探索フレームワークを開発し,より効率的なGUI操作を目指す。
- エージェントαは,ステップレベルのモンテカルロ木探索(MCTS)を用いることで,生成,探索,評価を統合したフレームワークを実現した。
- アルファUCTによる探索により,計画の早期枝刈りやプレフィックスの再利用が可能となり,計算効率が向上した。
- OSWorldベンチマークにおいて,既存手法を大幅に上回る約77%の成功率を達成し,高い有効性が示された。
非ユークリッド勾配ノイズ尺度を用いた確率的符号およびスペクトル降下の適応バッチサイズ [cs.DB, cs.LG, cs.AI]目的:確率的符号降下法およびスペクトル降下法における適応バッチサイズ戦略
- 機械学習の効率化が求められている。特に,ハードウェア資源の最大限活用が重要である。
- 既存のバッチサイズ調整は経験則に頼る部分が大きく,調整コストが高いという課題がある。
- 非ユークリッド幾何学に基づく勾配ノイズ尺度を用いて,バッチサイズを自動的に調整し,学習効率を向上させる。
- 非ユークリッド勾配ノイズ尺度を用いることで,SignumとMuonの学習ステップ数を最大66%削減できた。
- この適応バッチサイズ戦略は,定数バッチサイズベースラインと同等の検証損失を達成することを示した。
- 分散データ並列システムにおいて効率的な分散共分散推定手法を提案した。
微分可能な社会選択:メカニズム,意思決定,および整合性における手法と未解決問題 [cs.RO, cs.AI, cs.LG]目的:微分可能な社会選択における手法の整理と,未解決問題の特定
- 機械学習システムにおいて,多様な意見や判断を集約する重要性が増しているため。
- 既存の社会選択メカニズムは,多くの場合,明示的な規範的検討を欠いている。
- 機械学習,経済学,民主主義理論の交差点における新たな研究課題を定義する。
- 微分可能な社会選択は,投票規則や集約手続きをデータから最適化可能な微分可能なモデルとして定式化する。
- 古典的な公理や不可能性の結果が,目的関数,制約条件,最適化のトレードオフとして再登場する。
- オークション,投票,予算配分など,幅広い分野において応用可能性が示唆されている。
因果グラフ空間時間オートエンコーダによる信頼性と解釈可能性の高いプロセス監視 [cs.LG, cs.AI]目的:産業プロセス監視の信頼性と解釈性の向上
- 産業プロセスの効率的な運用には,異常を早期に検出し,原因を特定することが不可欠である。
- 従来のプロセス監視手法は,変数間の複雑な関係性を捉えきれず,誤検出や原因の特定が困難な場合がある。
- 変数間の因果関係を考慮した監視モデルを構築し,より正確な異常検出と原因究明を目指す。
- 提案手法CGSTAEは,空間自己注意機構とグラフ畳み込みLSTMを組み合わせたネットワーク構造を採用している。
- 相関グラフ構造学習モジュールは,変数間の動的な関係性を捉え,因果グラフ構造学習アルゴリズムは,相関関係の変化から不変の因果グラフを導き出す。
- Tennessee Eastmanプロセスと実世界の空気分離プロセスを用いて,CGSTAEの有効性が検証された。
LLMの推論を概念予測グラフに蒸留 [cs.AI]目的:LLMの推論能力を,概念予測グラフとして表現し,より効率的に学習させる手法
- LLMは高性能だが,推論速度や計算コストが高く,大規模な利用が課題となっている。
- 既存の蒸留手法では,推論過程を無視しており,モデルの弱点やエラーの原因特定が困難である。
- 推論過程を可視化し,重要な概念予測モジュールに焦点を当てて学習することで,効率と解釈性を向上させる。
- GCPは,教師モデルの意思決定プロセスを概念予測グラフとして外部化し,生徒モデルで模倣する。
- グラフ構造に着目したサンプリング戦略により,不確実性や意見の相違が大きい推論ノードを効率的に学習する。
- モジュール単位での再学習により,学習の安定性と効率を向上させ,解釈可能な学習ダイナミクスを実現する。
情報価値に基づく忠実度選択: コストを意識したマルチモーダル質問応答 [cs.CV, cs.AI, cs.LG]目的:コストを意識したマルチモーダル質問応答における忠実度選択の最適化
- 視覚情報処理コストが高いが,高忠実度入力が重要である。効率的な処理が求められる。
- 既存システムは固定忠実度で動作し,コストと精度のバランスが課題である。
- 情報価値に基づいて忠実度を動的に選択し,コストを削減しつつ精度を維持すること。
- VOILAは質問の特徴から各忠実度での正答率を予測し,コストと精度のバランスを最適化する。
- 5つのデータセットと6つのVLMsで実験した結果,50-60%のコスト削減と90-95%の精度維持を達成した。
- 事前検索における忠実度選択は,リソース制約下でのマルチモーダル推論に不可欠である。
CVE-Factory:コードセキュリティ脆弱性に対する高度なエージェントタスクのスケーリング [cs.CR, cs.AI]目的:コードセキュリティ脆弱性に関するエージェントタスクの自動生成と評価
- コードセキュリティは,ソフトウェアの信頼性と安全性を確保する上で不可欠であり,その重要性は増している。
- 既存の研究では,手動での脆弱性再現にコストがかかり,スケーラビリティに課題があった。
- 本研究は,高品質な脆弱性タスクを自動生成し,コードセキュリティにおけるエージェントタスクのスケーリングを可能にすることを目指す。
- CVE-Factoryは,人間の専門家による再現と比較して,95%の解の正しさと96%の環境忠実性を達成し,専門家レベルの品質を確立した。
- LiveCVEBenchは,190のタスクを含む継続的に更新されるベンチマークであり,最新の脅威(AIツール脆弱性を含む)を捉えている。
- Qwen3-32BをLiveCVEBenchでファインチューニングした結果,性能が5.3%から35.8%に向上し,Claude 4.5 Sonnetを上回る成果が得られた。
ゼロからヒーローへ:表形式データのアウトライア検知のためのゼロショット基盤モデルの進化 [cs.CY, cs.HC, cs.LG]目的:表形式データのアウトライア検知におけるゼロショット基盤モデルの性能向上
- アウトライア検知は実用性が高く,異常検知は様々な分野で重要である。
- ラベル付きのアウトライアデータが不足しており,アルゴリズム選択が困難である。
- ラベルなしデータで事前学習を行い,コンテキスト学習により未知のタスクに対応する。
- OUTFORMERは,合成事前知識と自己進化型カリキュラム訓練によりFoMo-0Dを強化する。
- ラベル付きデータを用いず,コンテキスト入力による推論が高速でゼロショットを実現する。
- AdBenchや新設のベンチマークにおいて,最先端の性能を達成した。
FedKRSO:大規模言語モデルの連合学習における通信・メモリ効率の良いファインチューニング [cs.LG, cs.AI]目的:大規模言語モデルの分散環境下における,通信・メモリ効率の良いファインチューニング手法
- LLMは汎用性が高い一方,特定領域への適応にはファインチューニングが不可欠である。
- 連合学習はプライバシーを保護しつつ分散データを活用できるが,通信コストが高い。
- FedKRSOは,通信・メモリ効率を改善しつつ,FFTの性能を維持することを目指す。
- FedKRSOは,サーバーが生成した低次元ランダム部分空間内でモデルを更新することで,メモリ使用量を削減する。
- クライアントは,全モデルパラメータではなく,部分空間上のモデル更新アキュムレータのみをサーバーに送信することで,通信オーバーヘッドを低減する。
- GLUEベンチマークにおける実験により,FedKRSOは優れた性能と低い通信・メモリコストを実現している。
STAR:類似度に基づいた教師支援による超小型関数呼び出しモデルの改良 [eess.SY, cs.SY, cs.AI]目的:超小型モデルへの大規模言語モデルの能力転移
- AIエージェント開発において,関数呼び出し能力は重要であり,大規模言語モデルがその鍵となる。
- 大規模モデルはリソース消費が大きく,小規模モデルへの転移には過学習や学習不安定性等の課題がある。
- 本研究は,類似度に基づく報酬と知識蒸留により,超小型モデルでも高性能な関数呼び出しを実現する。
- STARは,知識蒸留と教師あり強化学習を組み合わせた包括的なフレームワークであり,学習の安定性と探索能力を高める。
- 類似度に基づく報酬関数は,生成された出力と正解の類似度を評価し,より適切な方策最適化を可能にする。
- 実験の結果,STARモデルは同規模のモデルを大幅に上回り,特に0.6Bモデルは1B以下のオープンモデルで最高性能を達成した。
音楽メタデータLLMを用いた音楽キャプションの再考 [cs.SD, cs.LG]目的:音楽の記述生成
- 音楽理解と制御可能な音楽生成に応用可能な研究分野である。
- 高品質な音楽キャプションデータが不足しており,学習データ確保が課題である。
- 音楽メタデータから詳細な情報を推論し,多様なキャプション生成を可能にする。
- 本手法は,メタデータ由来のLLM生成キャプションで学習したモデルと同等の性能を,より短い学習時間で実現する。
- 学習後にキャプションのスタイルを容易に変更でき,特定の要件に合わせた出力が可能となる。
- 音声と部分的なメタデータを入力することで,メタデータの補完やデータ整理に貢献する。
一貫性深層平衡モデル [cs.LG, cs.AI]目的:深層平衡モデルの推論高速化
- 深層学習におけるモデルの表現力向上と計算資源の効率的利用が重要視される。
- 深層平衡モデルはメモリ効率が良い一方,反復計算による推論遅延が課題である。
- 一貫性蒸留を用いて,反復回数を減らしつつ推論速度を改善することを目指す。
- 一貫性深層平衡モデル(C-DEQ)は,深層平衡モデルの推論過程をODE軌道として捉え,中間状態から固定点への直接的な写像を学習する。
- C-DEQは,教師モデルと同等の性能を維持しつつ,少ないステップ数で推論が可能となる。
- 様々なタスクにおいて,C-DEQは同じステップ数での精度を2〜20倍向上させることを実証した。
報酬条件付きグループ相対方策最適化:複数ターンツール呼び出しエージェント向け [cs.AI, cs.CL]目的:複数ターンツール呼び出しにおける報酬の希薄性と探索コストの高さに対する改善策
- 大規模言語モデルの応用範囲拡大には,複雑なタスクの実行能力向上が不可欠である。
- 従来の強化学習手法では,グループ内報酬のばらつきが少ない場合に学習が停滞しやすい。
- 報酬条件に基づいた探索制御により,グループ内多様性を高め,学習効率を改善することを目指す。
- 提案手法RC-GRPOは,報酬目標を表す特殊トークンをプロンプトに注入することで,多様な品質の軌跡を生成する能力を獲得する。
- 強化学習時に,グループ内で報酬トークンをサンプリングし,条件付けを行うことで,グループ内多様性を向上させ,方策の更新を促進する。
- BFCLv4マルチターンベンチマークにおいて,提案手法は既存手法を上回り,Qwen-2.5-7B-InstructはクローズドソースAPIモデルを凌駕する性能を示した。
時系列データに対する多エージェントシステムによる視覚的推論 [cs.AI, cs.MA]目的:時系列データタスクにおける視覚的推論と適応的なツール利用の統合
- 時系列分析は多くの現実世界の応用を支える重要な分野である。
- 既存手法は,直感的な視覚的推論とタスク間の汎化性能に課題がある。
- 視覚的推論とツール利用を統合し,タスクに応じた適応性を実現すること。
- MAS4TSは,分析・推論・実行のパラダイムに基づいた多エージェントシステムである。
- 本研究では,時系列データの視覚的推論と潜在空間での予測軌道の再構成を行う。
- 複数のベンチマークテストにおいて,MAS4TSは最先端の性能を示し,高い汎化性と効率的な推論を実現した。
解釈性と不確実性に対応したニューロシンボリックフレームワーク KANFIS [cs.AI]目的:解釈可能で不確実性を考慮した学習のためのニューロシンボリックフレームワーク
- ニューラルネットワークとファジー論理の融合は,複雑な問題を解決するための有望なアプローチである。
- 従来のANFISアーキテクチャは,高次元空間においてルール数が指数関数的に増加するという課題があった。
- KANFISは,加法的な関数分解を用いてこの問題を解決し,モデルの複雑さを線形に抑えることを目指す。
- KANFISは,従来のニューロファジーシステムと比較して,モデルのパラメータ数とルール数を効果的に削減できる。
- 加法的な集約機構とスパースマスキングメカニズムにより,解釈性の高いコンパクトなルールセットを生成する。
- 実験結果は,KANFISがニューラルネットワークや他のニューロファジーシステムと同等以上の性能を発揮することを示している。
形状特徴と大規模言語モデルを用いた汎用性と解釈可能性の高いRFフィンガープリント [cs.CR, cs.LG]目的:RFフィンガープリントによる無線機器認証の効率化,解釈可能性向上,汎化性能の実現
- 無線機器のセキュリティは重要であり,認証技術はその根幹を担う。
- 深層学習モデルは環境変化に弱く,汎化性能が課題である。
- 形状特徴とLLMを組み合わせ,環境依存性を低減し解釈性を高める。
- 提案手法は,様々なプロトコルとドメインにわたる6つのデータセットで優れた性能を示した。
- 標準的な評価およびFew-Shot評価において,ソースドメインと未知ドメインの両方で高い性能を達成した。
- Few-Shot推論のためのプロトタイプ生成もサポートし,追加学習なしにクロスドメイン性能を向上させた。
潜在メモリ:マルチエージェントシステムのための潜在メモリのカスタマイズ [cs.CL, cs.LG, cs.MA]目的:マルチエージェントシステムにおける潜在メモリのカスタマイズ
- 大規模言語モデルを活用したMASは高度な協調性を示す。継続学習には,マルチエージェントメモリが不可欠である。
- 既存のメモリ設計は,役割に応じたカスタマイズの欠如による均質化と,細分化されたエントリによる情報過多に課題がある。
- LatentMemは,トークン効率の良い方法でエージェント固有のメモリをカスタマイズし,これらの課題を解決する。
- LatentMemは,生のインタラクション軌跡を軽量形式で保存する経験バンクと,抽出された経験とエージェント固有のコンテキストに基づいてコンパクトな潜在メモリを合成するメモリコンポーザーで構成される。
- タスクレベルの最適化信号を潜在メモリを通じてコンポーザーに伝播させるLMPOを導入し,コンパクトで有用な表現の生成を促す。
- 多様なベンチマークと主要なMASフレームワークを用いた実験の結果,LatentMemは既存のメモリアーキテクチャを安定して上回り,最大19.36%の性能向上を達成した。
知覚と推論の境界におけるボンガード問題:プログラムか言語か [cs.CV, cs.AI]目的:ボンガード問題解決のためのニューロシンボリックアプローチ
- 視覚的推論は人間にとって不可欠であり,そのメカニズム解明が重要である。
- 既存の視覚言語モデルは,未知の状況への適応能力に課題がある。
- ボンガード問題を通して,視覚的推論における言語とプログラムの役割を解明する。
- 提案手法では,LLMを用いてボンガード問題の仮説ルールをプログラム表現に変換し,ベイズ最適化でパラメータを調整する。
- 正解ルールが与えられた画像分類と,ルールなしでの問題解決の両方において有効性が確認された。
- このアプローチは,視覚的推論におけるニューロシンボリックな方法論の可能性を示す。
SAFE-KD:リスク制御型早期終了蒸留による視覚バックボーン [cs.LG, cs.AI, cs.CV]目的:視覚バックボーンにおけるリスク制御型早期終了蒸留手法
- 深層学習モデルの推論コスト削減が重要であり,特にエッジデバイスでの利用が求められている。
- 早期終了ネットワークでは,いつ早期終了させれば安全かが課題となっていた。
- 早期終了の安全性を保証しつつ,計算コストと精度のトレードオフを改善すること。
- SAFE-KDは,複数のデータセットとアーキテクチャにおいて,精度と計算量のトレードオフを改善した。
- 各出口におけるキャリブレーションを強化し,データ破損に対するロバスト性を向上させた。
- 交換可能性の仮定の下で,指定された選択的な誤分類リスクを保証する有限サンプルリスクを提供した。
図を描く前に明確化:堅牢なテキストからCAD生成のための能動的エージェント [cs.LG]目的:テキストからCAD生成における仕様の明確化と,それによるCADプログラム生成の堅牢性向上
- CAD技術は製品開発において不可欠であり,その自動化は効率化に繋がる。
- 自然言語による指示は曖昧さを持ちやすく,CAD生成時に寸法不足や制約の矛盾が生じやすい。
- 曖昧な指示に対しても,自己整合的な仕様を作り出すことで,堅牢なCAD生成を実現すること。
- 提案手法ProCADは,プロンプトを監査し,必要な場合にのみ明確化質問を行う能動的エージェントとCADコーディングエージェントを組み合わせる。
- ProCADは曖昧なプロンプトに対する耐性を大幅に向上させ,インタラクションのオーバーヘッドを低く抑える。
- Chamfer距離を79.9%削減し,無効なCADモデルの比率を4.8%から0.9%に低下させ,最先端のクローズドソースモデルを上回った。
CoBA-RL:LLMにおける強化学習のための能力指向予算配分 [cs.LG, cs.AI]目的:LLMにおける強化学習の予算配分戦略
- 大規模言語モデル(LLM)の推論能力向上は,AI研究において重要な課題である。
- 従来の予算配分法は一律的であり,効率が悪い。また,適応的な手法はタスクの合格率に依存し,学習状態を捉えきれない。
- モデルの能力進化に基づいた,効率的な予算配分メカニズムを確立すること。
- CoBA-RLは,モデルの潜在的な学習効果をマッピングする能力指向価値関数を用いる。
- 優先度付きキューを利用し,高い学習価値を持つサンプルに計算資源を効率的に配分する。
- 実験の結果,CoBA-RLは探索と活用のバランスを調整し,複数のベンチマークで汎化性能を向上させた。
Fedcompass:ハイブリッド古典-量子モデルのための連合クラスタリングおよび周期集約フレームワーク [cs.CL, cs.LG]目的:連合学習におけるハイブリッド古典-量子モデルの性能向上
- プライバシー保護が重要視される分散環境での機械学習の実現に不可欠である。
- 非IIDデータ下では,連合学習の性能が低下しやすいという課題がある。
- 非IIDデータ下での性能劣化を抑制し,学習の安定性を向上させることを目指す。
- 提案手法FEDCOMPASSは,クラス分布の類似性に基づきクライアントをクラスタリングする。
- 古典的特徴抽出器に対してクラスタ単位で集約を行い,量子パラメータに対しては円平均集約と適応的最適化を組み合わせる。
- ベンチマークデータセットを用いた実験で,最先端の連合学習手法と比較して最大10.22%のテスト精度向上と,収束性の安定化が確認された。
MAS-ProVe:マルチエージェントシステムのプロセス検証の理解 [cs.AI, cs.CL, cs.MA]目的:マルチエージェントシステムのプロセス検証に関する体系的な実験的研究
- 近年,大規模言語モデルを用いたマルチエージェントシステムが注目されている。協調行動の制御が課題である。
- 中間ステップの評価であるプロセス検証は有望視されるが,マルチエージェントシステムにおける有効性は不明である。
- プロセス検証の有効性と課題を明らかにすることで,マルチエージェントシステムの協調性を向上させる。
- プロセスレベルの検証は一貫して性能向上をもたらさず,高い分散性を示すことが判明した。
- LLMをジャッジとして用いる手法が,報酬モデルに基づく手法よりも一般的に優れた性能を示すことが示された。
- LLMをジャッジとして用いる場合と単一エージェントとして用いる場合の間には,わずかな性能差が見られた。
配慮ある具現化AIへ: 抽象概念から高忠実度プロトタイプへの,状況に即した医療用ロボットの共同設計 [cs.HC, cs.AI, cs.RO]目的:医療現場における,付加価値の低いタスク負担軽減のための具現化AIロボットの共同設計プロセス
- 高度な専門知識を要する医療分野において,AI技術の導入は効率化と質の向上に不可欠である。
- 従来の共同設計は,特定の状況や初期段階に限定され,汎用性やアイデアの発展過程が不明確であった。
- 本研究は,現実世界の制約を考慮した,より実用的なAIロボットの共同設計指針を提示することを目指す。
- 14週間のワークショップの結果,抽象的なブレインストーミングから高忠実度プロトタイプへの反復的なプロセスが,現実的なトレードオフの理解と,より導入可能なソリューションの創出を促進した。
- 参加者のアイデアが進化する過程を可視化し,現場の文脈,社会的な相互作用,期待への配慮,そして実際の導入を重視した設計の重要性が明らかになった。
- AIロボットの共同設計における8つの指針を提案し,配慮ある具現化AIの開発に貢献する。
LLMが解答不能な際の評価:比較信号による数学的推論の統計的評価 [cs.LG, cs.AI, math.ST, stat.ME, stat.ML, stat.TH]目的:大規模言語モデルの数学的推論能力評価手法
- LLMの性能向上は,その能力を正確に評価することに不可欠である。
- 既存の評価方法は,ベンチマークの規模やモデルの確率的挙動により,精度が不安定である。
- 比較信号を活用し,より安定した評価を実現することを目的とする。
- モデルが必ずしも正解を導き出せなくても,2つの候補解の比較による信頼性の高い信号が得られる点を活用する。
- 比較信号を対照変量として扱い,効率的影響関数に基づく半パラメータ推定器を開発し,分散を削減した。
- シミュレーションと実データ実験により,提案手法がランキング精度を向上させ,特に小規模データセットで効果的であることが示された。
JRDB-Pose3D:ロボットのための複数人物3D人体姿勢・形状推定データセット [cs.CV, cs.AI]目的:複数人物の3D人体姿勢および形状推定のためのデータセット
- 自動運転やロボットの知覚,ナビゲーション,人とロボットのインタラクションなど,多くの応用分野で重要である。
- 既存のデータセットは単一人物または制御された環境に限定され,現実世界への応用が難しい。
- 現実世界の複雑な環境における複数人物の姿勢推定に関する課題を解決する。
- JRDB-Pose3Dは,移動型ロボットから収集した屋内および屋外環境の複数人物の3D人体姿勢を記録したデータセットである。
- 各個人のSMPLベースの姿勢アノテーション,一貫性のある身体形状パラメータ,および時間経過に伴うトラックIDを含む。
- 本データセットは,頻繁なオクルージョン,身体の欠損,フレーム外の身体部位など,現実世界の課題を反映している。
NTKの固有関数としてのショートカット特徴:線形ニューラルネットワークの場合とそれ以上 [cs.LG, cs.AI]目的:ショートカット学習の特性
- 深層学習モデルの汎化性能向上は重要課題であり,学習データに偏りがある場合の挙動理解が不可欠である。
- ニューラルネットワークは,データセット内の特定の特徴に過度に依存し,汎化性能を損なうショートカット学習を起こしやすい。
- ニューラルタングентカーネル(NTK)の枠組みを用いて,ショートカット学習のメカニズムを明らかにし,その対策に貢献する。
- 線形ニューラルネットワークにおいて,ショートカット特徴はNTKの大きな固有値に対応することが示された。
- データ分布の偏りがショートカット学習の原因であり,クラスター内のデータ分散が学習後の影響を維持することが確認された。
- マージン最大化バイアス以外の要因がショートカット学習に関与している可能性が示唆された。より複雑なモデルでも同様の傾向が確認された。
FlashSinkhorn:IO効率を考慮したエントロピー最適輸送 [cs.LG, cs.AI, cs.NA, math.NA]目的:大規模機械学習におけるエントロピー最適輸送の効率化
- 機械学習の分野において,最適輸送は重要な役割を担う
- GPUソルバーの性能が,大規模データで課題となっていた
- HBM IOを削減し,計算効率を向上させる手法の提案
- FlashSinkhornは,Transformer attentionと同様の正規化により,効率的な計算を実現した
- A100 GPU上での実験で,既存のオンラインベースラインに対し,最大32倍の高速化を達成した
- 点群最適輸送や,それに基づくダウンストリームタスクにおいて,スケーラビリティが向上した
TMS:報酬不要なオンポリシーSFTのための軌道混合監督学習 [cs.LG]目的:大規模言語モデルのダウンストリームタスクにおける性能向上
- 言語モデルの性能向上は,自然言語処理分野における重要な課題である。
- SFTは効率的だが,モデルの進化と静的な訓練ラベルの乖離による忘却が課題となる。
- モデル自身の過去のチェックポイントから動的なカリキュラムを作成し,忘却を抑制する。
- TMSは,標準的なSFTや反復SFTを大幅に上回り,RLとの性能差を縮小する。
- TMSは,精度と保持率のパレート最適曲線を効果的にシフトさせる。
- ポリシーラベル間の乖離のドリフトが忘却を正確に予測し,TMSがそのドリフトを軽減することが確認された。
多様体上の境界を持つ幾何構造を保持するニューラルアーキテクチャ [cs.DC, cs.LG, cs.SY, eess.SY, math.OC]目的:多様体上の幾何学的構造を保持するニューラルアーキテクチャの提案
- 機械学習において幾何学的構造の保持は重要であり,より正確なモデル構築に不可欠である。
- 既存のニューラルネットワークは幾何学的構造を十分に考慮しておらず,制約のあるデータへの適用が難しい。
- 多様体上の制約付きニューラルODEに対する近似計算を可能にし,未知の制約条件に対処する手法を開発する。
- 提案アーキテクチャは,多様体上の射影層と指数写像更新を組み合わせることで,幾何学的構造を効果的に保持する。
- 制約付きニューラルODEに対する普遍近似定理が導かれ,出力でのみ幾何学的構造を強制するアーキテクチャとの比較が可能になった。
- データに基づいた射影学習に,小時間熱核極限を用いた拡散/フローマッチングが有効であることが示された。
干し草の中の引き金:LLMバックドアトリガーの抽出と再構築 [cs.CL, cs.CR, cs.AI]目的:LLMバックドアトリガーの抽出と再構築
- AIシステムの安全性確保は重要であり,特に悪意ある改ざんからの保護が不可欠である。
- AIモデルへのバックドア攻撃は検出が難しく,セキュリティ上の大きな脅威となっている。
- トリガーや標的行動に関する事前知識なしにバックドアを検出する手法の開発。
- 本研究では,因果言語モデルにおけるスリーパーエージェント型バックドアを特定するための実用的なスキャナーを開発した。
- スキャナーは,バックドアトリガーが存在する場合の出力分布やアテンションヘッドにおける特徴的なパターンを利用する。
- 提案手法は,様々なバックドアシナリオやモデル,ファインチューニング方法で有効にトリガーを復元できることを示した。
ニューラル予測子-修正子:強化学習によるホモトピー問題の解決 [cs.LG, cs.CV]目的:ホモトピー問題解決のためのニューラル予測子-修正子 (NPC) の提案
- ホモトピー原理は最適化,大域的最適化など広範な分野で応用され,問題解決の一般的な枠組みを提供する。
- 既存手法は手動で調整されたヒューリスティックに依存しており,汎用性に欠け,最適な性能を発揮できない場合がある。
- 本研究は,ヒューリスティックを自動学習された戦略に置き換えることで,汎用的なホモトピーソルバーの実現を目指す。
- 提案手法NPCは,多様なホモトピー問題に対して,従来の古典的および専門的なベースラインよりも効率的に問題を解決できる。
- NPCは,未学習のインスタンスに対しても高い汎化性能を示し,タスク間で優れた安定性を実現した。
- 一回のオフライン学習で問題クラス全体に対応可能であり,新たなインスタンスに対するオンライン推論を効率的に行うことができる。
適応的な階段昇降による四脚ロボットの訓練とシミュレーション:屋内消火活動向けエンドツーエンド強化学習アプローチ [cs.RO, cs.AI, cs.LG]目的:屋内消火活動における四脚ロボットの適応的な階段昇降能力の獲得
- 初期消火活動において,四脚ロボットは危険な環境下での迅速な人命捜索に活用が期待されている。
- 複雑な屋内環境下での状況把握と,様々な階段形状への対応が,ロボットによる人命捜索の課題となっている。
- エンドツーエンドの強化学習により,ナビゲーションとロコモーションを統合的に学習し,多様な階段形状への適応を目指す。
- 二段階のエンドツーエンド強化学習フレームワークを構築し,抽象的なピラミッド地形から現実的な屋内階段地形へのスキルの転移を実現した。
- ナビゲーションとロコモーションを階層的な計画なしで統合的に学習する,中心線に基づいたナビゲーション定式化を提案した。
- 局所的な高さマップの知覚のみを用いて,多様な階段形状に対してポリシーの汎化可能性を示した。
PRISM:異方性スペクトル整形による構造化最適化 [cs.CL, cs.HC, cs.LG, cs.AI]目的:スペクトル勾配降下法の最適化
- 深層学習の発展に伴い,効率的な最適化手法の重要性が増している。
- 勾配降下法は計算コストが高い場合があり,収束が遅いという課題がある。
- 高分散な空間での更新を抑制し,効率的な最適化を実現すること。
- PRISMは,Muonのような一次元スペクトル降下法に,部分的な二次の情報を組み込むことで最適化を改善する。
- 革新的な極分解を用いて効率的な低ランクの準二次元事前条件を構築し,異方性スペクトル整形を行う。
- PRISMは,計算オーバーヘッドと追加メモリを最小限に抑えつつ,曲率適応性を最適化パラダイムに統合する。
嗜好と資格要件の分離:大規模言語モデルを用いた求人推薦における制約付き二観点推論 [cs.AI]目的:求人推薦における嗜好と資格要件の分離
- 専門職の求人推薦は重要であり,候補者のスキルと企業のニーズを最適にマッチさせる必要がある。
- 既存の手法では,候補者の嗜好と企業の資格要件が混同され,推薦の質が低下する可能性がある。
- 本研究は,大規模言語モデルを用いて嗜好と資格要件を分離し,より効果的な求人推薦を目指す。
- 提案手法JobRecは,候補者と求人属性を構造化されたセマンティック層に整合させることで,嗜好と資格要件を分離する。
- 二段階の協調学習戦略により,嗜好と資格要件を個別に推論する専門家を学習し,推薦の精度を向上させる。
- ラグランジュ関数に基づくポリシー整合モジュールは,明示的な資格要件の下で推薦を最適化し,制御可能なトレードオフを可能にする。
TextME:テキスト記述による未知モダリティの橋渡し [cs.LG, cs.AI]目的:未知モダリティの拡張
- マルチモーダルな表現は重要性が増している。新しいモダリティへの対応が課題。
- 大規模なペアデータセットが必要で,専門知識を要する分野では構築が困難。
- テキストのみでモダリティを拡張し,ペアデータセットの必要性を解消する。
- TextMEは,様々なモダリティをLLMの埋め込み空間に投影するテキストのみのフレームワーク。
- 事前学習済みコントラストエンコーダの幾何学的構造を利用し,ペアデータなしでゼロショット転移を実現。
- テキストのみの学習でも,既存エンコーダの性能を維持し,異なるモダリティ間の検索が可能。
Risky-Bench:実世界展開下における主体的な安全性リスクの検証 [cs.AI]目的:実世界展開下におけるエージェントの安全性リスクの体系的な評価
- LLMエージェントの利用拡大に伴い,言語的危害を超えた安全性確保が重要となっている。
- 既存の安全性評価は特定の状況に特化し,網羅性が低く,複雑な環境での長期的な挙動評価が困難である。
- 汎用的な安全性原則に基づき,現実的な脅威下でのリスクを評価するフレームワークを構築し,安全性評価の拡張性を提供する。
- Risky-Benchは,ドメインに依存しない安全性原則に基づき,文脈に応じた評価基準を定義することで,安全性空間を明確化する。
- 生活支援エージェントへの適用により,最先端エージェントにおいて,現実的な条件下で著しい安全性リスクが明らかになった。
- 本フレームワークは,他の展開設定にも適応可能であり,環境固有の安全性評価を構築するための拡張性の高い手法を提供する。
テキスト生成のための合意グループ相対方策最適化 [cs.LG]目的:テキスト生成における合意に基づく効率的な方策学習
- 自然言語処理において,高品質なテキスト生成は重要な課題であり,多様な応用が期待されている。
- 従来のサンプリングと再ランク付け手法は計算コストが高く,効率的な推論が困難である。
- 高品質な報酬モデルや参照データなしで,推論コストを削減し,性能を向上させることを目指す。
- 提案手法C-GRPOは,MBRデコーディングを学習時に蒸留することで,推論時の計算コストを削減する。
- C-GRPOは,参照データや明示的な優先度ラベルを必要とせず,報酬関数と方策サンプルのみで学習が可能である。
- 機械翻訳とテキスト要約の実験で,C-GRPOはMBRデコーディングと同等の性能を,オーバーヘッドなしに達成した。
タスク特異性スコア:指示が監督学習にどれほど重要かを測定 [cs.CL, cs.AI]目的:指示が予測される出力にどれほど影響するかを定量化する指標
- 大規模言語モデルの訓練・適応において,指示チューニングが標準的な手法となっている。
- 指示,入力,出力のペアが曖昧で,複数の指示で同じ出力が妥当となりうる。
- 指示がターゲット出力一意に決定するかどうかを評価し,その重要性を測定すること。
- 提案するタスク特異性スコア(TSS)は,同じ入力に対して真の指示と代替指示を比較することで,指示の重要性を定量化する。
- TSS++は,困難な代替指示と品質項を用いることで,容易な負例の影響を軽減する。
- タスク特異性の高い例を選択することで,限られたトークン予算下での下流タスクの性能が向上し,PerplexityやIFDといった品質フィルタを補完する。
「リアルでなくても幸せ」:GenAI写真編集が想起体験となること [cs.HC, cs.AI]目的:GenAI写真編集の利用状況と,それが想起体験に与える影響
- 写真という記録媒体は,個人の記憶やアイデンティティの形成において重要な役割を担う。
- 写真編集技術の進化により,記憶内容の改変が容易になり,記憶の信頼性への懸念が生じている。
- GenAI写真編集が想起体験に及ぼす影響を明らかにすることで,責任あるGenAIのデザインに貢献する。
- 参加者は,事実の正確性よりも,編集後の写真が想起する感情や感覚を重視する傾向にあった。
- 人物のアイデンティティに関わる編集は許容されなかったが,背景などの環境編集は容易に行われた。
- 写真編集のプロセス自体が新たな想起体験となり,ポジティブ・ネガティブ両方の影響をもたらすことが示唆された。
AI時代における生涯学習:動向と考察 [cs.CL, cs.CL, cs.CL, cs.RO, cs.CY, cs.AI]目的:デジタル生涯学習の動向と学習者の特性
- AI技術の発展に伴い,教育のあり方が変化しており,生涯学習の重要性が増している。
- デジタル学習プラットフォームの利用状況と学習効果に関する詳細な分析が不足している。
- デジタル学習への関心変化と,AI技術の統合による学習効果の最適化を目指す。
- パンデミック以降,特に若年層と女性の間でデジタル学習の関連性が高まっていることが示された。
- LLMを活用したAIツールは,パーソナライズされた学習を支援し,デジタル学習の質を向上させる可能性がある。
- 本研究は,企業,政策立案者,教育者に対し,変化する労働力ニーズに対応するためのデジタル学習提供の最適化に役立つ知見を提供する。
大規模ビジョン言語モデルによる事前分布を用いた関数空間経験ベイズ正則化 [cs.LG, eess.SP]目的:大規模ビジョン言語モデルを用いた関数空間経験ベイズ正則化手法
- 深層学習の信頼性向上には,不確実性の定量化が不可欠であり,ベイズ深層学習はそのための原理的な枠組みを提供する。
- 高次元データへのスケーラビリティを持つ情報的な事前分布の設計は,ベイズ深層学習における重要な課題である。
- 本研究は,表現力に優れた事前分布を構築し,高次元データにおける予測性能と不確実性推定の精度向上を目指す。
- 提案手法VLM-FS-EBは,大規模ビジョン言語モデルを用いて意味的に妥当なコンテキストポイントを生成し,関数空間における事前分布を構築する。
- 実験結果から,提案手法は既存手法と比較して,予測性能と不確実性推定の信頼性を一貫して向上させることが示された。
- 特に,分布外検出やデータ不足の状況において,その効果が顕著である。
量子化進化戦略:低精度コストでの量子化LLMの高精度ファインチューニング [cs.LG, cs.AI]目的:量子化されたLLMのファインチューニング手法
- 大規模言語モデル(LLM)の利用拡大のためには,メモリ消費量の削減が不可欠である。
- 量子化はメモリ削減に有効だが,モデルが静的になり,ファインチューニングが困難となる。
- 量子化されたモデル空間での,勾配消失や不正確な勾配の問題を解決する。
- 量子化進化戦略(QES)は,量子化空間で直接パラメータをファインチューニングする手法である。
- QESは,誤差フィードバックの蓄積とステートレスシードリプレイにより,メモリ使用量を削減し,高性能を実現する。
- 算術推論タスクにおいて,既存のゼロ次ファインチューニング手法を大きく上回り,量子化されたモデルの直接的なファインチューニングを可能にする。
クロッピングと回転を超えて:生成モデルによる強力なタスク固有の拡張の自動進化 [cs.HC, cs.CV, cs.AI]目的:タスク固有の拡張の自動学習
- 画像認識モデルの過学習抑制にはデータ拡張が不可欠であり,性能向上に大きく貢献する。
- 従来の拡張では多様性やリアリティに限界があり,タスクとの適合性が低い場合がある。
- 生成モデルを活用し,タスクに最適化された拡張を自動的に進化させることで,モデルの汎化性能を高める。
- 提案手法EvoAugは,生成モデルと進化アルゴリズムを組み合わせ,最適な拡張を学習するパイプラインである。
- EvoAugは,階層的な拡張ツリーを学習することで,より構造化された適応的な変換を実現する。
- 微細分類や少量データ学習において,良好な性能を示し,少ないデータでもドメイン知識に基づいた拡張を発見した。
