arXiv雑要約
AI - 2026/05/06 公開
在庫管理のためのAIエージェント:人間,LLM,ORの補完性 [cs.AI, cs.HC, cs.LG]目的:複数期間にわたる在庫管理設定における,ORアルゴリズム,LLM,人間の相互作用と補完性
- 在庫管理は,サプライチェーンの効率化に不可欠であり,企業の収益性に大きく影響する。
- 従来のORアルゴリズムは,需要変動や状況変化への対応が難しく,現実の複雑な状況下で性能が低下する可能性がある。
- LLMの柔軟な推論能力とORの厳密性を組み合わせることで,よりロバストで高性能な在庫管理システムの構築を目指す。
- ORとLLMを組み合わせた手法は,単独で使用するよりも優れたパフォーマンスを発揮し,互いに補完的であることが示された。
- 人間とAIが協働する環境では,人間のみ,またはAIのみで運用する場合と比較して,より高い利益を達成できることが実験で確認された。
- AIとの協働によって利益を得られる個人の割合には,理論的な下限が存在し,実証的にその割合が高いことが示された。
擬微分作用素を用いた物理情報ニューラルネットワーク [cs.LG, cs.NA, math.NA]目的:物理情報ニューラルネットワークの学習精度向上
- 偏微分方程式の近似解法として,ニューラルネットワークの利用が注目されている。
- 従来の物理情報ニューラルネットワークは,高周波成分の学習が苦手な場合がある。
- フーリエ変換を利用し,擬微分作用素を導入することで学習効率と精度を改善する。
- 提案手法は,従来の物理情報ニューラルネットワークよりも少ない反復回数で,数値解に匹敵する精度を達成できる。
- ニューラル接線核のスペクトル固有値減衰を改善し,早期の学習における高周波数の学習を促進する。
- モンテカルロ法を用いることで,格子への依存性を軽減し,様々な領域への適用を可能にする。
DARTH-PUM:ハイブリッド処理・メモリアーキテクチャ [cs.AR, cs.CR, cs.ET, cs.LG]目的:アナログおよびデジタルPUMを統合する汎用ハイブリッドPUMアーキテクチャの設計
- 近年,メモリ内計算により,省電力な計算が期待されており,その重要性が増している。
- 従来のPUMはMVM演算に特化しており,汎用的なカーネル処理への応用が困難であった。
- アナログPUMとデジタルPUMを統合することで,汎用計算への応用範囲を拡大し,効率的な処理を実現することを目指す。
- DARTH-PUMは,アナログPUMとデジタルPUMを統合するための最適化された周辺回路とハードウェアを提案する。
- AES暗号化,CNN,大規模言語モデルの3つのアプリケーションにおいて,それぞれ59.4倍,14.8倍,40.8倍の高速化を達成した。
- 柔軟なデータ幅に対応し,組み込みアプリケーションから大規模データ駆動型コンピューティングまで,幅広い分野への展開が可能である。
スケーラブルな協調マルチエージェント学習のための勾配降下法による方策勾配 [cs.DB, cs.MA, cs.AI, cs.LG]目的:協調マルチエージェント強化学習のスケーラビリティ向上
- 協調マルチエージェント学習は,複雑なシステム制御に応用可能であり,社会実装への期待が高い。
- エージェント数が増加すると,他エージェントからのノイズが学習を不安定化させ,スケーラビリティが課題となる。
- 微分可能な解析モデルを利用し,ノイズの少ない勾配降下信号を導入することで,学習の安定化を図る。
- 提案手法DG-PGは,方策勾配推定量の分散をO(N)からO(1)に削減できることを理論的に証明した。
- DG-PGは,協調ゲームの均衡を維持しつつ,エージェント独立なサンプル複雑度を達成する。
- 1500エージェントまでのクラウド資源スケジューリングタスクにおいて,DG-PGは平均20エピソードで収束したが,MAPPOやIPPOは収束しなかった。
テスト時学習におけるKVバインディングは,実は線形Attentionである [cs.LG, cs.AI, cs.CV]目的:テスト時学習におけるKVバインディングのメカニズム解明
- 系列モデリングは,自然言語処理をはじめとする様々な分野で重要な役割を果たしている。
- テスト時学習は,計算コストが高いことや,そのメカニズムが十分に理解されていないという課題がある。
- テスト時学習の解釈を深め,効率的な学習手法を確立することを目的とする。
- 本研究により,テスト時学習が単なる記憶に基づいたものではなく,学習された線形Attentionとして表現できることが示された。
- この新たな視点により,モデルの構造簡略化や並列化が可能となり,計算効率の向上が期待できる。
- 多様なテスト時学習手法が,標準的な線形Attention形式に帰着できることが確認された。
S2O:オンライン置換によるスパース注意の早期停止 [cs.DC, cs.ET, cs.LG, cs.AI]目的:スパース注意の早期停止による効率化
- 長文脈推論において,注意機構の計算量がボトルネックとなり,性能向上を阻害している。
- 既存のブロック単位の疎化手法は,粗い粒度により疎化率の上限が存在し,さらなる改善が困難である。
- S2Oは,オンライン置換と早期停止により,注意機構の計算効率を向上させ,高性能な長文脈推論を実現する。
- S2Oは,既存手法と同程度の疎化率において,単一演算子のMSEを3.82倍削減することに成功した。
- 128Kの文脈長を持つLlama-3.1-8Bにおいて,S2Oはprefill計算密度を3.31倍削減し,エンドツーエンドの精度を維持した。
- S2Oは,注意機構とエンドツーエンドの処理速度をそれぞれ7.51倍,3.81倍に向上させた。
HiMAC:長視野LLMエージェントのための階層的マクロ・マイクロ学習 [eess.SY, cs.SY, cs.AI, cs.LG]目的:長視野タスクにおける構造化計画と信頼性の高い実行
- LLMエージェントは対話型意思決定で高い能力を示すが,長期的な計画が必要なタスクで限界がある。
- 既存手法は単一のトークンシーケンスで高レベルな推論と低レベルな行動を生成するため,探索が非効率でエラーが伝播しやすい。
- 階層的な計画と実行を通じて,LLMエージェントにおける堅牢な長視野計画を実現すること。
- HiMACは,長期的な意思決定をマクロレベルの計画とマイクロレベルの実行に明示的に分解する階層的RLフレームワークである。
- HiMACは,構造化されたブループリント生成と目標に基づいた行動実行をモデル化し,既存のベースラインを上回る性能とサンプル効率を実現した。
- 階層構造の導入は,モデル規模の拡大だけでは実現できない,堅牢な長視野エージェントインテリジェンスの鍵となる。
投機的推測の推測的デコード [cs.LG]目的:自己回帰デコードの高速化
- 大規模言語モデルの推論速度向上は,実用化において重要である。
- 自己回帰デコードは逐次的な処理のため,速度のボトルネックとなり得る。
- 推測と検証の並列化により,更なる高速化を目指す。
- 投機的推測の推測的デコード(SSD)は,既存の推測的デコードよりも平均30%高速である。
- オープンソース推論エンジンを用いた自己回帰デコードと比較して,最大5倍の高速化を達成した。
- 検証結果の予測と事前推測により,推測オーバーヘッドを削減するSaguaroアルゴリズムを提案した。
MOOSE-Star:複雑性の壁を打ち破り,科学的発見のための実現可能な学習を可能にする [cs.LG, cs.CE, cs.CL]目的:科学的発見における生成的な推論過程の直接モデリング
- 科学的発見の加速は,社会の進歩に不可欠である。
- 大規模知識ベースからのインスピレーションの検索と構成には指数関数的な計算量が必要となる。
- 複雑性の壁を打ち破り,スケーラブルな学習と推論を可能にすること。
- MOOSE-Starは,発見の確率的方程式から派生した分解されたサブタスクで学習することで,複雑さを大幅に軽減する。
- 動機付けられた階層的検索により,対数的な検索と無関係な部分空間の剪定を実現する。
- TOMATO-Starという108,717の分解された論文のデータセットを公開し,学習を促進する。
Vibe Code Bench: エンドツーエンドのWebアプリケーション開発におけるAIモデルの評価 [cs.SE, cs.AI, cs.CL]目的:エンドツーエンドのWebアプリケーション開発におけるAIモデルの性能評価
- AI技術の発展に伴い,コード生成は重要な応用分野となっている。
- 既存の評価指標は個別のタスクに焦点を当てており,アプリケーション全体の開発プロセスを評価できていない。
- 本研究は,ゼロからWebアプリケーションを構築する一連のプロセスを包括的に評価する。
- Vibe Code Benchは,100個のWebアプリケーション仕様と964のブラウザベースのワークフローから構成される。
- 最先端モデルのテスト分割における正答率は61.8%であり,信頼性の高いエンドツーエンド開発は依然として課題である。
- 生成中の自己テストが性能の重要な予測因子(ピアソンのr=0.72)であり,評価者の選択が結果に大きく影響することが示された。
MICA:長期的感情サポート対話のための多粒度時間的クレジット割当 [cs.CL, cs.AI]目的:多ターン感情サポート対話における効果的な強化学習
- 対話システムは人間との自然なコミュニケーションを実現し,精神的な支援を提供できるため重要である。
- 多ターン対話における報酬の希薄性とターンごとのクレジット割当の難しさが課題となっている。
- ユーザの状態変化を考慮した,より適切なクレジット割当手法を確立すること。
- MICAは,ユーザの構造化されたサポート状態に基づく潜在関数から即時および遅延のクレジットを導出する。
- MICAは,EMPA,EQ-Bench,EmoBenchにおいて,GRPOやREINFORCE++を安定的に上回り,EMPAで最大+43.2の性能向上を達成した。
- ターンを意識したクレジット割当により,インタラクティブなLLMのための実用的かつ効果的な多ターン強化学習が可能となった。
相関-複雑性マップによる生成量子実用化へ [cs.LG, quant-ph]目的:古典的データセットの生成量子モデルへの適合性事前判断
- 量子機械学習は,古典計算では困難な問題を解決する可能性を秘めている。
- 量子モデルが古典データに有効か,事前の評価方法が確立されていない。
- データセットが量子モデルに適しているかを事前に評価する手法を開発する。
- 相関-複雑性マップは,データセットのスペクトル相関と構造相関を評価する。
- 乱流データは,量子生成モデリングの有望な対象として特定された。
- 低データ・低パラメータ領域において,古典的ベースラインと同等の性能を示した。
RAMoEA-QA: 呼吸音質問応答におけるロバスト性のための階層的専門化 [cs.SD, cs.AI]目的:呼吸音質問応答システムのロバスト性向上
- 医療分野における会話型AIの重要性が増しており,多様な患者データと対話形式への対応が求められる。
- 既存の呼吸音質問応答システムは,録音条件や質問の種類が多様な状況下での堅牢性に課題がある。
- 異質な録音と質問タイプに対し,入力に依存した専門化を可能にするシステムを開発し,ロバスト性を向上させる。
- RAMoEA-QAは,臨床データと自己記録データを含む統一された呼吸音質問応答設定において,既存のモデルを上回る性能を示した。
- 識別タスクにおいて,インドメインテスト精度が0.72に達し,既存の単一パスベースライン(0.61,0.67)を上回った。
- COPDモダリティシフト設定では,最大23パーセントポイントの精度向上を含む,データセット,モダリティ,タスクのシフトに対する平均転送性能も向上した。
VLMと部分的な観測を用いた視点に依存しない把持パイプライン [cs.RO, cs.LG, cs.SY, eess.SY]目的:言語ガイダンスによる把持パイプライン
- ロボットによる複雑な環境での把持は,自動化において重要である。
- 遮蔽物による部分的な観測が,把持の信頼性を低下させる。
- 遮蔽物や不完全な情報下でも安全かつ確実な把持を実現する。
- 提案手法は,実機ロボットによる実験で,遮蔽物に対する高いロバスト性を示した。
- 従来の視点依存型手法と比較して,全体的な成功率が大幅に向上した(90% vs 30%)。
- 言語による指示に基づき,対象物の認識から把持計画,実行までを統合的に行う。
クライアントのローカル学習データ統計に基づく条件付き連合学習 [cs.FL, cs.RO, cs.LG]目的:データ異質性下における連合学習手法
- プライバシー保護が重要視される中,分散データを用いた機械学習への関心が高まっている。
- 既存手法はクライアント間の差異に対応できず,データが疎な場合に性能が低下する。
- クライアントごとのPCA統計に基づくグローバルモデルの条件付けにより,性能低下を改善する。
- 提案手法は,真のクラスタ割り当てを知るOracleベースラインと同等の性能を示す。
- 特に,複合的な異質性の設定において,Oracleベースラインを1〜6%上回る性能を達成した。
- 提案手法は,テストされた手法の中で唯一,スパースデータに対して頑健性を持つ。
テキストから音声生成システムにおける意味的脆弱性の評価:制御されたプロンプト摂動下での検証 [cs.NI, cs.SD, cs.AI]目的:テキストから音声生成システムの意味的脆弱性
- 近年の技術発展により,テキストから多様な音楽出力を生成可能となった。安定的な利用のためには,頑健性の評価が不可欠である。
- 意味的に等価なプロンプトの変化が,生成される音声に大きな変化をもたらす可能性がある。信頼性の評価が課題となっている。
- 意味を維持した微小なプロンプトの変化に対するシステムの頑健性を定量的に評価し,問題点を明確化する。
- 大規模モデルは,最小限の語彙置換や強度変化において,意味的一貫性が向上することが示された。
- しかし,音響的・時間的分析では,モデル間,さらには同一モデル内でも差異が残存し,脆弱性が確認された。
- 脆弱性は,マルチモーダル埋め込みの整合性よりも,意味から音響への実現段階で顕著に生じることが示唆された。
プロンプトと応答間の相互情報量の最大化による,追加データや人間の監督なしでのLLMパーソナライズの改善 [cs.LG, cs.AI, cs.CL]目的:プロンプトと応答間の相互情報量の最大化
- 大規模言語モデルの性能向上は重要だが,高品質なデータの収集コストが高い。
- 既存のデータは活用し尽くされており,新たなデータ収集は困難を極める。
- 外部の監督に頼らず,自己改善可能なフレームワークを確立することを目指す。
- MIPOは,プロンプトと正解応答,および無関係なプロンプトと応答のペアを生成する対照的なデータ拡張手法である。
- MIPOとDPOの組み合わせにより,プロンプトと応答間の相互情報量が最大化されることが示された。
- LlamaやQwenモデルを用いた実験で,MIPOは強固なプロンプトベースラインと比較して,3~40%のパーソナライズドな命令追従性能の向上が確認された。
順列合意によるリストワイズ判断:ロバストな事実性評価のために [cs.CL, cs.AI]目的:大規模言語モデルによる事実性評価における不安定性の軽減
- 大規模言語モデルの評価は重要であり,その信頼性が求められている。
- 提示順序に影響を受けやすく,評価結果が変動しやすいという問題がある。
- 候補の順列に対する感受性を抑制し,より安定した評価を実現すること。
- PCFJudgeは,候補の順序を複数回変更して評価し,その結果を統合することで,事実性評価の精度を向上させる。
- RewardBench 2 Factualityにおいて,直接判断と比較して最大7ポイントの改善が見られた。
- 順列合意自体が主な改善要因であり,複雑な仲裁層はそれほど重要ではないことが示唆された。
拡散に基づく手術煙除去のための物理・意味論誘導相対方策最適化 [cs.AI]目的:手術用ビデオの煙除去手法の開発
- 手術中の視覚情報確保は,安全かつ正確な手術遂行に不可欠である。
- 手術煙は視界を遮り,手術の正確性を損なう主要な問題である。
- 限られたペアデータから,ロバストな煙除去手法を確立すること。
- 提案手法PhySe-RPOは,物理・意味論に基づいた報酬関数を用いて拡散モデルを最適化する。
- これにより,照明・色彩の一貫性,および解剖学的構造の維持が実現され,臨床的に解釈可能な結果が得られる。
- 合成データと実際のロボット手術データセットで,既存手法を上回る性能を示す。
TCM-Serve:マルチモーダル大規模言語モデル推論のためのモダリティを意識したスケジューリング [cs.CL, cs.DC, cs.AI]目的:マルチモーダル大規模言語モデルの推論における,モダリティを意識したスケジューリング手法
- ChatGPT等,テキスト・画像・動画を扱うモデルが普及し,多様なデータ形式を処理する重要性が増している。
- 既存のLLM推論システムはテキストに最適化されており,マルチモーダル環境下ではリソースの偏りや遅延が発生しやすい。
- マルチモーダルなリクエストの特性を考慮し,効率的なリソース配分と応答性の向上を目指す。
- TCM-Serveは,リクエストをモダリティ別に分類し,動的に優先度を調整することで,応答性を高める。
- 評価実験の結果,TCM-Serveは平均して初回トークンまでの時間を54%削減し,特に重要度の高いリクエストに対しては78.5%の改善を示した。
- 本研究は,マルチモーダル大規模言語モデルにおいて,リソースを効率的に活用し,LLMと同等の応答性を実現する。
確率的注意:表現力豊かな線形時間注意のためのコネクトームに触発されたランダムルーティング [cs.CL, cs.LG]目的:効率的な注意機構の表現力向上
- 脳神経回路の構造は,効率的な情報伝達において重要である。
- 従来の注意機構は計算コストが高く,長距離依存関係の学習が難しい。
- コネクトームの特性に着想を得て,計算効率の良い注意機構を開発する。
- 確率的注意機構(SA)は,スライディングウィンドウ注意(SWA)の拡張として,トークン系列にランダムな順列を適用することで,効率的なグローバルな注意を実現する。
- SAは,深層化によって受容野を指数関数的に拡大させ,SWAよりも少ない計算量で系列全体のカバー率を高める。
- 言語モデルの事前学習およびQwenモデルにおける推論実験で,SAはSWAやMixture of Block Attentionと比較して優れた性能を示す。
信頼の定量化:信頼できるAIエージェントのための金融リスク管理 [cs.CL, cond-mat.stat-mech, physics.soc-ph, cs.HC, cs.AI, cs.CE]目的:AIエージェントの金融取引におけるリスク管理フレームワーク
- AI技術の社会実装が進む中で,ユーザーの信頼確保が不可欠である。
- AIの挙動は確率的であり,技術的保護だけではリスクを完全に排除できない。
- モデルレベルの信頼性から,ユーザー向けの保証へと信頼の概念を移行させる。
- 本研究では,金融アンダーライティングに着想を得た「エージェントリスクスタンダード(ARS)」を提案する。
- ARSは,リスク評価,引受,補償を統合し,AIを介した取引におけるユーザー保護を目的とする。
- シミュレーション研究により,ARSを適用することで,エージェント取引の社会的利益が向上することが示された。
ソフトトーナメント均衡 [cs.AI, cs.LG, cs.MA]目的:汎用人工知能エージェントの評価手法
- AIエージェントの性能評価は,AI開発において不可欠であり,その精度が発展を左右する。
- 従来のランキング手法は,エージェント間の循環的な関係に対応できず,不安定な評価結果を招く。
- エージェント間の非推移的な関係を考慮し,安定した評価を可能にする新しい評価枠組みを提供する。
- 提案手法STEは,ペアワイズ比較データから集合値のトーナメント解を直接学習する微分可能なフレームワークである。
- STEは,確率的なトーナメントモデルを学習し,Top CycleやUncovered Setといった古典的な解の連続的な類似解を計算する。
- 理論的な整合性,Condorcet包含特性,安定性,サンプル複雑性を数学的に証明し,評価の信頼性を保証している。
重い尾を持つ確率的凸最適化における純粋なε-微分プライバシーのための最適レート [cs.CL, cs.LG, cs.CR, stat.ML]目的:重い尾を持つ勾配を持つ確率的凸最適化問題に対する,純粋なε-微分プライバシーを保つ最適レートの決定
- 機械学習において,プライバシー保護は重要な課題であり,特に現実世界のデータセットでは,勾配分布が重い尾を持つ場合がある。
- 既存研究では,損失関数の最悪ケースのリプシッツ定数の上限を仮定していることが多く,より緩い上限しか得られない場合がある。
- 本研究では,リプシッツ定数の上限を仮定せず,より現実的な重い尾を持つ勾配分布の下で,最適レートを導出することを目指す。
- 重い尾を持つ確率的凸最適化における,純粋なε-微分プライバシー下でのミニマックス最適超過リスクレートを決定した。
- 提案アルゴリズムは,多項式時間でこのレートを達成し,高確率で動作する。
- 特定の構造化された問題クラス(ヒンジ損失,ReLU損失など)においては,最悪ケースのリプシッツ定数が無限大であっても,決定論的な多項式時間で動作する。
モデル固有表現のための変分特徴圧縮 [cs.CL, cs.CV, cs.LG]目的:モデル間での特徴転移抑制と指定分類器の精度維持
- 深層学習推論がクラウド環境で普及するにつれ,入力データの不正利用が懸念される。
- 既存のプライバシー保護はデータアクセス制限に偏っており,表現が持つ潜在的な利用を制御できない。
- 指定タスクの精度を維持しつつ,他のモデルへの特徴転移を抑制する手法を開発する。
- 提案手法は,タスク駆動型クロスエントロピーとKL正則化を用いた変分潜在ボトルネックを利用する。
- 潜在空間の次元を,意図しないモデルに対する勾配とKL divergenceに基づき動的にマスクする。
- CIFAR-100実験では,指定分類器の精度を維持しつつ,意図しない分類器の精度を2%以下に抑制することに成功した。
AEROS:具現化能力モジュールを備えた単一エージェント運用アーキテクチャ [cs.RO, cs.AI]目的:ロボット知能,能力,実行の一体的な構成に関する原理の抽象化
- ロボットの複雑化に伴い,高度な機能を実現するための体系的なアーキテクチャが不可欠である。
- 既存の手法では,能力と制御の整合性に欠け,拡張性や安全性の確保が課題となっている。
- 能力モジュールによる拡張性を持ち,安全性を確保する統一的な運用システムを構築すること。
- AEROSは,3つのタスクにおいて,ベースライン(BehaviorTree.CPPスタイル,ProgPromptスタイル,フラットパイプライン)と比較して100%のタスク成功率を達成した。
- ポリシー層は不正なアクションをすべてブロックし,誤受容はゼロであり,システムレベルの安全性が確認された。
- AEROSの実行時間上の利点はタスクに依存せず,ECMのホットスワップは100%の成功率で実行された。
HiL-Bench(人間ループベンチマーク):エージェントは助けを求めるタイミングを知っているか [cs.AI]目的:エージェントの選択的なエスカレーション能力の測定
- 複雑なタスク解決において,エージェントの判断能力が重要である。
- 既存のベンチマークは,曖昧な状況下でのエージェントの失敗を捉えられていない。
- 曖昧な状況下で適切なタイミングで支援を求める能力向上を目指す。
- HiL-Benchは,人間が検証した課題の妨害要因を利用し,エージェントがいつ支援を求めるかを評価する。
- 評価の結果,最先端モデルは,完全な情報が与えられた場合と比較して,支援を求める判断において大きなギャップが見られた。
- Ask-F1報酬を用いた強化学習により,モデルの判断能力を向上させることができた。
学習による忘却 -- 長期的なロボット運用における階層的エピソード記憶 [cs.RO, cs.RO, cs.AI]目的:長期的なロボット運用を可能にするための階層的エピソード記憶
- ロボットが人々と協調してタスクを遂行するためには,過去の経験を記憶し,必要に応じて想起することが重要である。
- 継続的なマルチモーダルな知覚からのエピソード記憶の維持は,ストレージ容量の限界とリアルタイムな検索の困難さという課題がある。
- ユーザーの関連性の概念に適応した選択的な忘却メカニズムを開発し,スケーラブルでパーソナライズされたエピソード記憶を実現する。
- 本研究で提案するH$^2$-EMVは,ユーザーとのインタラクションを通じてロボットが何を記憶すべきかを学習するフレームワークである。
- シミュレーションと実世界のデータによる評価の結果,H$^2$-EMVは質問応答の精度を維持しながら,メモリサイズを45%,クエリ時間を35%削減することを示した。
- さらに,ユーザー固有の優先順位への適応により,2回目の質問における精度が70%向上し,学習された忘却が長期的な人間とロボットの共同作業を可能にすることが示された。
HWE-Bench:実世界のハードウェアバグ修正タスクにおけるLLMエージェントのベンチマーク [cs.AI]目的:実世界のハードウェアバグ修正タスクに対するLLMエージェントの評価
- ハードウェア設計の自動化は,複雑化するシステム開発において不可欠であり,設計効率向上に繋がる。
- 既存のベンチマークは,コンポーネントレベルに限定され,大規模なリポジトリレベルでの評価が不足している。
- 大規模リポジトリにおけるLLMエージェントのバグ修正能力を評価し,ボトルネックを特定すること。
- HWE-Benchは,Verilog/SystemVerilogおよびChiselの6つのオープンソースプロジェクトから417のバグ修正タスクを含む大規模ベンチマークである。
- 最高のLLMエージェントは全体の70.7%のタスクを解決したが,SoCレベルのプロジェクトでは性能が低下した。
- 失敗分析から,故障局所化,ハードウェア意味推論,RTLと検証コンポーネント間の連携が課題であることが判明した。
Poly-EPO:探索的推論モデルの訓練 [cs.HC, cs.AI]目的:探索的推論モデルの訓練
- 経験からの学習において探索は重要であり,複雑な問題解決,新しい問題への汎化,テスト時の計算資源の活用に繋がる。
- 既存の手法では,探索と利用のバランスが難しく,汎化性能や多様性が十分に得られない場合がある。
- 本研究では,楽観的な探索を促し,探索と利用の相乗効果を高めることで,推論能力の向上を目指す。
- Poly-EPOは,セット強化学習を用いて言語モデルを最適化するフレームワークであり,探索と利用の相乗効果を明示的に促進する。
- 様々な推論ベンチマークにおいて,Poly-EPOは汎化性能を向上させ,pass@$k$カバレッジを高めることが示された。
- また,モデル生成の多様性を維持し,テスト時の計算資源の活用にも効果的に対応することが確認された。
明示的な物理的実現可能性はVLA学習に役立つか:実証研究 [cs.LG, cs.AI, cs.RO]目的:視覚,言語,行動(VLA)モデルの学習における,物理的実現可能性の明示的な指導の効果
- ロボットの行動計画において,物理的制約の遵守は安全かつ効率的な動作に不可欠である。
- 既存のVLA学習は,物理的制約を暗黙的に学習することに依存しており,信頼性に課題がある。
- 物理的実現可能性を明示的に指導することで,VLAモデルの性能と学習効率を向上させる。
- 物理的実現可能性の指導をVLA学習に組み込むことで,物理的な信頼性とタスク全体の性能が向上した。
- 特に,データ量が少ない状況下において,学習効率の向上が確認された。
- これらの結果は,明示的な物理的実現可能性信号が,模倣学習に基づくVLA学習を効果的に補完する可能性を示唆する。
フィッシャー装飾子:局所輸送写像によるフローポリシーの改良 [cs.LG, cs.RO]目的:フローポリシーの改良
- オフライン強化学習は,実世界のデータから効率的に学習する手段として重要である。
- 既存のフローポリシーは,最適性,表現力,効率性のトレードオフに直面している。
- 異方性最適化により,既存手法の近似誤差を制御し,性能向上を目指す。
- 本研究では,ポリシーの改良を局所輸送写像として定式化し,フィッシャー情報行列に基づく効率的な最適化を可能にした。
- 実験結果から,提案手法は既存手法と比較して,オフライン強化学習の様々なベンチマークにおいて最先端の性能を達成することが示された。
- 最適性のギャップは,既存手法の等方的な近似に起因すること,提案手法は制御可能な近似誤差を持つことが明らかになった。
Q学習に対する直接スイッチング理論:Lyapunov認証 [cs.CL, cs.LG, cs.AI, cs.SY, eess.SY]目的:Q学習の収束率解析
- 強化学習は,ロボット制御や意思決定など,幅広い分野で活用されている重要な技術である。
- Q学習の収束速度は,環境やパラメータ設定に依存し,理論的な保証が難しい。
- 直接スイッチングシステム表現を用いてQ学習の収束率を厳密に評価する。
- Q学習のエラーを,確率的スイッチングシステムとして正確に表現することに成功した。
- スイッチングシステムのジョイントスペクトル半径(JSR)を用いて,Q学習の収束率を解析する新しい手法を開発した。
- JSR誘導Lyapunov関数に基づく有限時間バウンドを導出し,マルコフ観測モデルへの拡張も示した。
生成レコメンデーションにおけるセマンティックID生成のためのクロスモーダルアラインメントを用いた深層興味マイニング [cs.IR, cs.AI]目的:生成レコメンデーションにおけるセマンティックID生成手法の改善
- レコメンデーションシステムは,情報過多な現代において,ユーザーに最適な情報を提供する上で不可欠である。
- 既存のセマンティックID生成手法は,情報損失やセマンティック劣化,モーダル歪みといった課題を抱えている。
- 本研究は,クロスモーダルアラインメントと深層興味マイニングにより,これらの課題を克服し,より高品質なセマンティックID生成を目指す。
- 提案手法は,Vision-Language Modelsを用いてテキストベースのセマンティック空間に非テキストモーダルをアラインメントし,モーダル歪みを軽減する。
- 深層興味マイニング機構を導入することで,広告コンテキストに存在する高レベルなセマンティック情報を暗黙的に捉え,セマンティックIDのコンテキスト情報保持を促進する。
- 品質を考慮した強化学習フレームワークを活用し,セマンティックに豊かなIDを奨励し,低品質なIDを抑制することで,全体的なパフォーマンスを向上させる。
SparKV:効率的なオンデバイスLLM推論のためのオーバーヘッドを考慮したKVキャッシュ読み込み [cs.DC, cs.NI, cs.AI, cs.PF]目的:オンデバイス大規模言語モデル(LLM)推論におけるKVキャッシュ読み込みの最適化
- モバイルデバイス等のリソース制約下でのLLM活用が拡大しており,効率的な推論技術が求められている。
- LLMの推論におけるKVキャッシュ構築は計算コストが高く,特に最初のトークン生成までの時間が課題となっている。
- クラウド連携とオンデバイス計算を組み合わせることで,KVキャッシュ読み込みの遅延とエネルギー消費を削減することを目指す。
- SparKVは,KVチャンクのコストをモデル化し,ストリーミングとローカル計算の最適な組み合わせを動的に決定する。
- 実験の結果,最初のトークンまでの時間(TTFT)を1.3倍~5.1倍短縮し,応答品質への影響は軽微であった。
- さらに,リクエストあたりのエネルギー消費量を1.5倍~3.3倍削減し,実用的なオンデバイス展開の可能性を示した。
SOC-ICNN:多面体から錐的幾何へ - 凸型代替関数の学習 [cs.RO, cs.LG, math.OC, stat.ML]目的:凸型代替関数の学習における表現能力の拡張
- 深層学習モデルの表現能力向上は,様々な応用分野において重要な課題である。
- 従来のICNNは線形計画法に基づくため,表現が多面体関数に制限されていた。
- SOCPに基づくSOC-ICNNを導入し,表現能力の限界を克服することを目的とする。
- SOC-ICNNは,ReLU-ICNNの表現空間を拡大し,計算複雑性を維持している。
- 陽に半正定値曲率とユークリッドノルムに基づく錐構造を導入することで,滑らかな曲率を表現に組み込んでいる。
- 実験により,関数近似能力が向上し,下流タスクにおける意思決定品質も競争力があることが示された。
歴史的アラビア写本の筆者特定 [cs.CV, cs.LG]目的:歴史的アラビア写本の筆者特定に関する研究
- アラビア写本はアラブ世界の知的・文化的遺産であり,その解読は重要である。
- 写本の筆者を特定する信頼性の高い手法が確立されていなかった。
- 写本の筆者を特定し,真正性検証や歴史的分析を支援すること。
- Muharafデータセットを用いて,行画像レベルとページ分割評価プロトコルで筆者特定を評価した。
- 拡張されたデータセットを用いて,注意機構付きCNNモデルが99.05%のTop-1精度を達成した。
- ページ分割評価では,78.61%のTop-1精度で,ページレベルの特徴量の重要性を示した。
説明可能,公平,かつ観察可能な入院後再入院予測のための統合フレームワーク:MIMIC-IVを用いた開発と検証 [cs.LG]目的:入院後再入院予測における説明可能性,信頼性,人口統計学的公平性の評価
- 患者ケアの質向上には,再入院予測モデルの実用化が不可欠である。
- 既存の予測モデルは,説明性や公平性の欠如により臨床現場での活用が難しい。
- 説明可能かつ公平な再入院予測フレームワークを開発し,臨床応用を促進する。
- XGBoostモデルは,AUC-ROC 0.696を達成し,LACEベースラインモデルを上回った。
- LightGBMモデルは,最も優れたキャリブレーション(Brierスコア0.146)を示した。
- すべてのサブグループにおいて,公平性の閾値(delta AUC <= 0.05, delta FNR <= 0.10)を満たした。
StackFeat RL: 反復二基準特徴選択による安定したバイオマーカー探索のための強化学習 [cs.LG]目的:高次元ゲノムデータにおける安定したバイオマーカー探索手法
- ゲノムデータ解析において,重要な遺伝子や特徴量を効率的に特定することは,疾患の理解と治療に不可欠である。
- 既存の特徴選択手法は,精度,スパース性,安定性のいずれか一つに偏りがちであり,十分な性能を発揮できない場合がある。
- 本研究では,強化学習を用いて反復二基準特徴選択のパラメータを最適化し,安定性と精度の高いバイオマーカー探索を目指す。
- StackFeat-RLは,COVID-19 miRNAデータおよびアルツハイマー病の分類タスクにおいて,他の既存手法よりも高い予測精度を達成した。
- StackFeat-RLは,他の手法と比較して,3〜4倍少ない特徴量で同等の,またはそれ以上の性能を示した。
- 二基準(係数の一貫性と選択頻度)を用いることで,単一基準では見逃される可能性のある不安定性を抑制し,安定した特徴選択を可能にした。
学生のコード提出に基づくパターン型知識コンポーネントを用いた個別化された解答例生成 [cs.HC, cs.AI, cs.CY, cs.ET, cs.LG]目的:学生のコードから抽出されたパターン型知識コンポーネントに基づく個別化された教育コンテンツの生成
- プログラミング学習において,効果的な指導は不可欠であり,個別化された学習コンテンツの提供が重要である。
- 既存の教育コンテンツは作成に手間がかかり,学生の具体的なエラーや部分的な解答に対応できない場合がある。
- 学生のコードパターンから知識コンポーネントを抽出し,それに基づいた解答例を生成することで,より個別化された学習を支援する。
- 知識コンポーネントに基づいた生成は,学生の誤りの根本原因に焦点を当てた,より適切な学習コンテンツの提供を可能にする。
- 専門家による評価の結果,知識コンポーネントで条件付けられた生成は,テーマの一貫性と学生のエラーへの関連性が向上することが示された。
- 生成モデルを知識コンポーネントによって制御することで,大規模な個別化学習をサポートできる可能性が示唆された。
Transformer におけるアーキテクチャ観測可能性の崩壊 [cs.LG, cs.AI]目的:Transformer の観測可能性の評価と崩壊のメカニズム解明
- Transformer は自然言語処理において重要な役割を担うが,その内部挙動の理解は困難である。
- Transformer の内部状態を監視することは重要だが,訓練によって観測可能性が失われる場合がある。
- Transformer のアーキテクチャが観測可能性に与える影響を分析し,監視しやすいアーキテクチャを特定する。
- Transformer の中間層活性化からトークンごとの意思決定品質の線形読み取り可能性である「観測可能性」を定義した。
- Pythia モデルにおいて,特定の構成では観測可能性が崩壊し,出力制御残差も同様に崩壊することが確認された。
- WikiText で訓練された観測者が,タスク固有の訓練なしで下流の QA タスクに転移し,高いエラー検出率を示した。
コンポジションロボットポリシーにおけるスキル更新のためのアトミックプローブガバナンス [cs.DC, cs.PF, cs.RO, cs.AI]目的:コンポジション型ロボットポリシーにおけるスキル更新の影響評価とガバナンス手法の開発
- ロボットの応用範囲拡大には,既存スキルの再利用と継続的なスキル更新が不可欠である。
- スキルライブラリ更新時の,コンポジション結果への影響が分析されておらず,予測が困難である。
- スキルの品質を評価し,更新時のコンポジション結果を効率的に予測する手法を確立することを目指す。
- スキル更新において,特定のスキルがコンポジション結果に大きな影響を与える「支配的スキル効果」が確認された。
- 既存の行動距離指標は支配的スキルを特定できないことが示され,低コストな予測器の限界が明らかになった。
- スキル品質プローブとハイブリッドセレクターを提案し,コストと性能のトレードオフを評価した結果,高い有効性が確認された。
構造的ガバナンスの機械化された基盤:ガバナンスされた知能のための機械検証された証明 [cs.AI]目的:認知ワークフローシステムにおける構造的ガバナンスの理論的成果
- AIシステムの安全性と信頼性確保は重要であり,形式手法による検証が不可欠である。
- 複雑なシステムにおけるガバナンスの形式的な定義と検証が困難である。
- 無限のプログラム挙動に対するガバナンスの安全性を形式的に証明する。
- 構造的ガバナンスの安全性を捉える共帰的性質(gov_safe)が機械的に検証された。
- ガバナンスはメタ再帰的な塔全体で一貫していることが形式的に証明された。
- 4つの基本的なプリミティブが離散的な知能システムの表現に十分であることが証明され,BEAMランタイムの検証も行われた。
二つの境界:行動AIガバナンスが構造的に失敗する理由 [cs.AI]目的:行動AIガバナンスにおける構造的な問題点とその解決策
- AI技術の発展に伴い,その影響範囲は拡大しており,安全性と倫理性の確保が不可欠である。
- AIシステムの機能とガバナンス範囲の乖離により,リスク管理が不十分になっている。
- AIシステムの機能とガバナンス範囲を一致させることで,構造的なリスクを回避する。
- AIシステムは「機能」「ガバナンス」という二つの境界を持ち,これらが独立して定義されることが問題である。
- Riceの定理に基づき,AIシステムの効果を行動的にガバナンスすることは原理的に決定不能であることが示された。
- 「機能境界」と「ガバナンス境界」を一致させる「coterminous governance」が,AIガバナンスシステムの重要な基準となる。
連続時間・空間における非マルコフ拡散ブリッジによる任意のサブセット自己回帰 [cs.LG, cs.AI]目的:連続時間・空間確率過程の生成
- 気象予測や動画生成など,時間と空間が連続的なデータのモデリングは重要である。
- 既存手法は,時間間隔の短い状態間の構造的類似性を捉えきれない問題がある。
- 不規則な時間間隔や未来の観測など,任意のサブセットによる条件付けを可能とする。
- 提案手法は,物理時間経過に応じたノイズ注入により,より自然なダイナミクスを生成する。
- 経路依存の条件付けにより,状態履歴や未来の観測の任意の部分集合を考慮できる。
- 動画生成や気象予測などの実験で,既存手法よりも優れていることを示した。
幻影から接地へ:信頼性の高いマルチモーダル回路-Verilogコード生成に向けて [cs.CL, cs.SE, cs.AI]目的:回路図からRTLコードへの変換を通じた,マルチモーダル大規模言語モデルの信頼性評価
- ハードウェア設計において,回路図はタイミングやビットレベルの情報を表現する重要な設計言語である。
- 既存の視覚-コード生成モデルは,視覚情報ではなく,識別子に依存する傾向があり,誤ったコード生成につながる。
- 視覚情報に基づいた正確なコード生成を実現し,モデルの信頼性を向上させることを目指す。
- モデルが回路図の代わりに空白画像を使用した場合でも性能が変わらない「幻影」現象を確認した。
- 識別子を匿名化した「Anonyモード」では,既存モデルの性能が大幅に低下し,性能向上が幻影によるものであることを示した。
- 識別子匿名化,拒否拡張,D-ORPOを用いて学習したVeriGround(4B)は,GPT-5.4と同等以上の性能を示し,視覚情報の接地を達成した。
脱獄された最先端モデルは能力を維持する [cs.AR, quant-ph, cs.LG, cs.AI, cs.CR]目的:最先端言語モデルに対する脱獄攻撃の性能劣化の程度
- 言語モデルの安全性確保は重要だが,攻撃者の巧妙化により,常に新たな脱獄手法が開発されている。
- 既存研究では,脱獄攻撃の複雑化がモデルの性能低下を引き起こす「脱獄税」が存在することが示されている。
- 本研究では,モデルの能力と脱獄税の関係性を明らかにし,高性能モデルにおける脱獄の影響を評価する。
- 脱獄攻撃による性能低下は,モデルの能力に反比例して小さくなることが示された。
- 特に高性能モデルであるOpus 4.6では,脱獄による性能低下はわずか7.7%に留まった。
- 推論能力を必要とするタスクは,知識想起タスクと比較して,脱獄による性能劣化が大きいことが確認された。
LLM生成コードにおける社会的な偏り:ベンチマークと緩和策 [cs.SE, cs.AI, cs.SI]目的:LLM生成コードの社会的な偏りの評価と軽減
- 人間中心のアプリケーションでは,人口統計学的公平性が重要であり,LLMの利用が拡大している。
- 既存の研究は機能的な正しさに焦点を当てており,LLM生成コードにおける社会的な偏りは十分に調査されていない。
- LLM生成コードに存在する社会的な偏りを検出し,それを軽減するための手法を開発すること。
- SocialBias-Benchを用いた評価の結果,主要なLLM全てに深刻な偏りが認められ,Code Bias Scoresは最大60.58%に達した。
- Chain-of-Thoughtや公平性ペルソナの割り当てといった標準的なプロンプトレベルの介入は,偏りを軽減するどころか,むしろ増幅させる傾向があることが示された。
- Fairness Monitor Agent (FMA)を導入することで,偏りを65.1%削減し,機能的な正しさを75.80%から83.97%に向上させることができた。
自分自身からクリック位置を学習:GUIグラウンディングのためのオンポリシー自己蒸留 [cs.AI, cs.CV]目的:GUIグラウンディングにおける自己蒸留による学習手法
- GUI操作エージェントの自律性を実現する上で,GUI要素と自然言語指示の対応付けが不可欠である。
- 強化学習は高性能だが,複数の試行が必要で,難易度の高いサンプルでは学習信号が疎になる。
- 単一の試行で密な教師信号を提供する自己蒸留をGUIグラウンディングに応用し,効率的な学習を目指す。
- 提案手法GUI-SDは,教師データ構築にターゲットのバウンディングボックスとガウスソフトマスクを用いることで,座標情報を漏洩することなく有益なガイダンスを提供する。
- エントロピーに基づいた蒸留により,学習の重点を重要な位置に集中させ,信頼性の高い最適化を実現する。
- 6つのGUIグラウンディングベンチマークにおいて,GUI-SDは既存手法や単純な自己蒸留と比較して,精度と学習効率の両方で優れていることを示した。
AIワークフローアーキテクチャにおける効果透明性のガバナンス:意味的保存,表現的最小性,および決定可能性境界 [cs.AI, cs.LO, cs.PL]目的:AIワークフローアーキテクチャにおける効果レベルのガバナンスの実現可能性
- AIの利用拡大に伴い,その安全性と信頼性の確保が重要課題となっている。
- AIシステムの挙動制御は複雑であり,表現力と安全性の両立が困難である。
- 効果透明性を保ちつつ,AIワークフローをガバナンスする方法を形式的に検証する。
- 構造的に管理されたAIワークフローアーキテクチャの形式化を行い,効果レベルのガバナンスが内部計算表現力を損なわないことを証明した。
- ガバナンス演算子Gを定義し,メモリアクセスや外部API呼び出しを含むすべての副作用を制御可能であることを示した。
- ガバナンスと計算表現力は直交する次元であり,ガバナンスはプログラムの効果境界を制約する一方で,内部計算に対しては意味的に透明であることを示した。
