arXiv雑要約
AI - 2026/05/19 公開
記憶の蓄積とリスクの増大:長期的なLLMエージェントの安全性リスク [cs.AI, cs.CL]目的:記憶機能を搭載したLLMエージェントにおける,長期的な安全性リスクの評価
- LLMエージェントの活用が拡大する中で,安全性確保は不可欠である。
- 従来の安全性評価は単一タスクに限定され,長期的な記憶の影響は考慮されていなかった。
- 複数タスク実行に伴う記憶の蓄積が安全性に及ぼす影響を定量的に評価すること。
- 記憶機能を備えたエージェントは,記憶を持たない場合に比べて安全性違反が発生しやすいことが確認された。
- 記憶による安全性リスクは,暴露時間が長くなるにつれて増加する傾向が明らかになった。
- 記憶内容自体がリスク要因であり,安全性評価は時間軸での長期的な視点が必要である。
知識蒸留を用いたビッグデータ分析のためのエージェント型コスト認識クエリ計画 [cs.LG, cs.DB]目的:ビッグデータ分析における効率的なクエリ計画
- ビッグデータ分析の重要性が増しており,高速なクエリ処理が求められている。
- リソース制約下では,従来のクエリオプティマイザが性能を発揮できない場合がある。
- リソース制約下でも効率的なクエリ計画を立案する手法を開発する。
- 提案手法は,デフォルトのプランナーと比較して23%のレイテンシ削減を達成した。
- 制約充足率は94%を維持し,高い性能を保っている。
- 軽量な学生プランナーは,最適なプランを89%の精度で再現し,推論時間が15倍高速化した。
ノイズ耐性学習におけるメタラベル修正のための効率的な双層最適化 [cs.LG, cs.AI]目的:ノイズラベル学習におけるメタラベル修正の効率化
- データアノテーションコスト削減のため,ノイズラベルを用いた深層学習が重要視されている。
- ノイズラベルは学習モデルに悪影響を及ぼす可能性があり,その修正が課題となっている。
- 双層最適化によるメタラベル修正の計算コストを削減し,学習効率を向上させる。
- 提案手法EBOMLCは,CIFAR-10およびCIFAR-100において,他のベースライン手法を上回る性能を示した。
- 特にノイズ率が高い条件下で,EBOMLCの優位性が顕著に現れた。
- また,EBOMLCはメタラベル修正アプローチの学習時間を大幅に削減することに成功した。
拡散ベースのビデオ生成における効率的な時間的認識プルーニング [cs.CV, cs.AI]目的:拡散ベースのビデオ生成における効率化
- ビデオ生成技術は,コンテンツ制作や表現の可能性を広げ,その重要性が増している。
- 既存のビデオ拡散モデルは計算コストが高く,実用的な応用には課題が残されている。
- 時間的な一貫性を維持しつつ,計算量を削減するプルーニング手法の開発が求められている。
- 提案手法TAPEは,時間的平滑化とトークン再選択により,ビデオ生成時の計算効率を大幅に向上させる。
- TAPEは,フレーム間の時間的一貫性を保ち,背景の一貫性,ちらつき,画質の低下を抑制する。
- 実験結果から,TAPEは既存のトークン削減手法を上回り,高画質を維持しながら高速化を実現することが示された。
不均衡学習のための知識蒸留のバランス調整:二重最適化によるアプローチ [cs.LG, cs.AI]目的:不均衡データにおける知識蒸留のハードロスとソフトロスの動的なバランス調整
- データ不均衡は機械学習の性能を大きく低下させるため,効果的な対処法の開発が重要である。
- 従来の知識蒸留では,不均衡データに対して固定の損失重みを使用することで学習が不安定になる。
- サンプルごとに損失重みを動的に調整することで,不均衡データにおける知識蒸留のロバスト性を向上させる。
- 提案手法BiKDは,二重最適化フレームワークを用いて,各サンプルに対するハードロスとソフトロスの重みを動的に調整する。
- 小さなバランスの取れた検証セットを用いて重み生成ネットワークを誘導し,学生モデルが両方の損失項を緩和できるよう学習させる。
- CIFAR-10/100における実験により,提案手法が既存のバランス調整蒸留法を上回る性能を示すことが確認された。
SNLP:構造化ニュートン補正による層並列推論 [cs.HC, cs.LG]目的:層並列推論の実現
- 大規模言語モデルの推論高速化は,実用上の重要な課題である。
- Transformer層の逐次処理が,推論のボトルネックとなっている。
- 非線形残差方程式の解法と並列ニュートン法を用いて,層間依存性を緩和する。
- SNLPは,層並列推論の互換性を向上させ,標準的な逐次推論のPerplexityを改善する。
- 0.5BのNanochatモデルにおいて,SNLPは推論速度を2.3倍に向上させ,同時にPerplexityを6.1%改善した。
- 層並列推論は,逐次実行の近似に留まらず,有用なソルバー誘導推論バイアスとして機能する可能性がある。
有機データからの事前学習トークン生成によるデータ制約のスケーリング [cs.CL, cs.AI, cs.LG]目的:データ制約のスケーリングにおける,有機データのより徹底的な学習
- 大規模言語モデルの性能向上には,大量のデータが不可欠である。しかし,利用可能な有機テキストは需要に追いつかない。
- 既存の方法では,限られた有機データを十分に活用できていない。同じデータの繰り返し学習に陥りやすい。
- 有機データから多様な形式を生成し,モデルがより深く学習できるよう支援することで,データ制約を克服する。
- SynProは,言い換えと再構成の2つの操作によって,有機データを多様な形で提示し,より深い学習を促進する。
- SynProは,質,忠実性,データ影響を報酬とする強化学習によって最適化され,学習の停滞に合わせて継続的に更新される。
- 実験結果から,SynProは従来の繰り返し学習よりも3.7〜5.2倍多くの有効トークンを活用でき,データ制約のスケーリングを維持することが示された。
正と負のエッジを用いたコントラスティブメッセージパッシング [cs.LG]目的:グラフにおけるノード表現学習の改善
- グラフ構造データは,ソーシャルネットワーク等に応用され,重要性が増している。
- 従来のグラフ学習手法は,存在するエッジのみに着目し,非存在のエッジの情報活用が不十分である。
- ラベル数が少ない状況下で,負のエッジ情報を活用し,ノード表現の学習精度を向上させる。
- コントラスティブメッセージパッシング(CMP)は,正と負のエッジを考慮する汎用的なメッセージパッシングアーキテクチャである。
- CMPは,学習可能な重みにソフトな半正定値制約を課すことで,正のエッジには類似性を保ち,負のエッジには相違を誘起する変換を適用する。
- シミュレーションおよび実データセットにおいて,ラベル数が少ない場合にCMPはベースラインを上回る性能を示した。
科学シミュレーションのための知識基盤:エージェント型地球科学のための足場 [cs.AI]目的:科学シミュレーションの利用可能性向上
- 地球科学のシミュレーションモデルは重要だが,その恩恵を受けられるのは限られた研究者のみである。
- 気候変動リスクや資源不足に直面する人々は,高度なシミュレーションモデルを利用できないという課題がある。
- 専門知識を抽出し,誰でも利用可能なシミュレーション環境を構築することで,その課題を解決する。
- 知識基盤(KI)を導入したエージェントは,84%の試行で物理的に妥当なシミュレーションを実行できた。
- KIは,117の追加の地球科学モデルでエージェントによるエンドツーエンド実行を可能にするツールキット(KDT)にパッケージ化された。
- 異なる物理法則を持つモデルにおいても,モデリングの決定と問題解決策に収束が見られ,専門知識の構造化と抽出可能性が示された。
複数サイトPPG:新興ウェアラブルデバイスからのリアルワールド生理データセット [cs.HC, cs.LG]目的:複数サイトでのウェアラブルデバイスからのリアルワールド生理データセット
- ウェアラブルデバイスは健康管理に広く利用されており,PPGは心拍数等の重要な生理指標を計測する手段である。
- リアルワールド環境におけるPPGデータセットは,手首に限定されるか,短期間の実験に限られており,新たなフォームファクタの研究を阻害している。
- 本研究は,多様な部位への装着が可能なウェアラブルデバイスから得られたデータセットを用いて,よりロバストな生理計測を目指す。
- 本データセットは,イヤリング,リング,ウォッチ,ネックレスの4つのウェアラブルデバイスから,350時間以上の生データと230-290時間のモデリング用データを収録している。
- 心拍数推定実験の結果,部位によって誤差が大きく異なり,イヤリングが最も低誤差(平均絶対誤差2.30 bpm)を示した。
- モーションの影響分析や,複数サイトおよびPPG-加速度計の融合による評価を行い,ウェアラブルデバイスの多様性に対応可能な生理センシングの価値を示した。
PAREDA:自然言語処理研究議論の多重アクセント音声データセット [cs.CL, cs.AI]目的:自然言語処理研究に関する議論の多重アクセント音声データセット
- 現代の音声認識技術の応用範囲拡大には,多様な発音環境下での性能向上が不可欠である。
- 既存の音声データセットでは,アクセント,自発性,専門用語といった現実的な変動要素が不足している。
- 本研究は,専門分野における多様なアクセントの音声データを収集し,音声認識モデルの汎化性能を向上させる。
- PAREDAデータセットは,オーストラリア,インド英語,中国英語のアクセントを持つ話者間の自然な議論を含み,高度な技術的課題を提供する。
- 事前学習済みの最先端の音声認識モデルは,PAREDAにおいてゼロショット条件下では性能が低下するものの,ファインチューニングにより大幅な単語誤り率の低減が確認された。
- PAREDAは,より堅牢で包括的な音声認識システムの開発と評価のための貴重なリソースとなる。
f-OPD:鮮度を考慮した制御による長期間オンポリシー蒸留の安定化 [cs.LG, cs.AI]目的:大規模言語モデルにおけるオンポリシー蒸留の安定化
- 言語モデルの規模拡大に伴い,効率的な学習手法が求められている。オンポリシー蒸留はその有力な選択肢である。
- 非同期実行は効率的だが,オンポリシーの理想的な目標からのずれが生じやすい。鮮度(staleness)が問題となる。
- ロールアウトのずれと教師データのずれを理論的に分解し,鮮度を考慮した制御により学習を安定化させる。
- f-OPDは,非同期実行の効率性を維持しつつ,同期最適化と同等のタスク性能を達成した。
- 鮮度スコアを用いて,古くなったサンプルの影響を適応的に調整し,ポリシーのずれを抑制する。
- 推論,ツール利用,コーディングエージェントといった様々なタスクで有効性が確認された。
小規模データにおける時系列予測のためのデータ拡張指向拡散モデル DAD4TS [cs.LG]目的:小規模データに対する時系列予測のためのデータ拡張手法
- 時系列予測は,需要予測や異常検知など,様々な分野で不可欠な技術である。
- 小規模データでは,モデルの汎化性能が低く,予測精度が向上しにくいという課題がある。
- 本研究は,拡散モデルと強化学習を組み合わせることで,より有益なデータを生成し,予測精度向上を目指す。
- DAD4TSは,6つの実データセットと8つの時系列モデルを用いた比較実験で有効性が確認された。
- 特に5つのデータセットにおいて,既存手法と比較して優れた性能を示した。
- 拡散モデルの学習には,VAEではなく幾何空間への射影という数学的な手法を採用し,小規模データへの対応を強化した。
HINT-SD:長視野エージェントのための標的型回顧的自己知識蒸留 [cs.LG, cs.AI, cs.CL]目的:長視野LLMエージェントの強化学習における課題解決
- 長視野エージェントは複雑なタスク遂行能力が期待されるため,その学習手法の確立が重要である。
- 報酬がスパースな場合,成功・失敗の判断はできるが,原因特定や修正が困難である。
- 失敗に関連する行動に焦点を当て,効率的な知識蒸留を実現することで学習を改善する。
- 提案手法HINT-SDは,失敗に関連する行動に選択的に知識蒸留を適用することで,学習効率を向上させた。
- BFCL v3とAppWorldの実験で,既存手法と比較して最大18.80%の性能向上を達成した。
- 学習ステップあたりの時間も2.26倍削減され,効果的かつ効率的な学習が可能となった。
Prefixを考慮した内部報酬モデル:多段階エージェント最適化 [cs.AI]目的:多段階タスク実行におけるエージェント最適化
- 大規模言語モデルの性能向上には,複雑なタスクを遂行する能力が不可欠である。
- 既存手法では,中間ステップにおける報酬配分が難しく,効率的な学習が阻害される。
- 内部状態の探査を利用し,効率的なステップレベルの報酬信号を生成することを目指す。
- 提案手法PAIRは,汚染された軌跡において最高のAUROCを達成した。
- 外部モデルの呼び出し,正解データの依存,完全な軌跡のロールアウトを必要としない。
- 隠れ状態プローブとアテンション機構を組み合わせることで,高い性能と低コストを実現した。
大規模訓練におけるストラグラー検出とノード健全性管理:Guard [cs.DC, cs.AI, cs.LG]目的:大規模訓練におけるストラグラー検出とノード健全性の維持
- 大規模モデル訓練は計算資源を大量に消費するため,効率的な運用が不可欠である。
- 従来の健全性チェックは機能的な正誤に偏り,性能低下を引き起こすfail-slow現象の検出が困難である。
- Guardは,fail-slow現象を検出し,安定・効率的な大規模訓練を実現することを目的とする。
- Guardは,訓練中のオンライン性能監視と,オフラインのノード評価機構を組み合わせることで,ストラグラーを検出する。
- 大規模モデルの事前学習において,GuardはFLOPs利用率を最大1.7倍向上させ,訓練ステップのばらつきを1%に削減した。
- また,Guardは平均故障時間(MTTF)を増加させ,運用・デバッグの負担を大幅に軽減した。
マルチエージェントAIシステムが人間のチームを凌駕する創造性 [cs.CL, cs.AI]目的:創造性におけるマルチエージェントAIシステムの性能
- AI技術は様々な認知タスクで人間の能力を超えつつあり,その応用範囲は広い。
- 創造性はAIにとって依然として難しい課題であり,その能力向上は重要である。
- マルチエージェントAIシステムの創造性を高めるためのメカニズム解明。
- マルチエージェントLLMチームは,単一のエージェントや人間のチームを大きく上回る創造性を示すことが示された。
- LLMチームと人間のチームでは,創造性を生み出す会話のパターンが異なっていることが明らかになった。
- モデル選択と議論の構造が,LLMチームの会話ダイナミクスに影響を与え,創造性を高める鍵となる。
アテンション残差におけるアテンションシンクと外れ値 [eess.SY, cs.SY, cs.LG, cs.AI]目的:アテンション残差構造におけるアテンションシンクと外れ値への対策
- 深層学習モデルの性能向上には,アテンション機構の安定性と頑健性が不可欠である。
- アテンション残差構造は柔軟性を持つ反面,アテンションシンクや外れ値の発生を悪化させる。
- アテンションシンクと外れ値の問題を軽減し,モデルの安定性と量子化耐性を高める。
- 提案手法OASISは,層間nullシグナリングを用いて,アテンションシンクと外れ値を考慮した設計となっている。
- OASISは,Softmax1に基づくnull空間を導入し,トークンレベルのnullエビデンスを層間ルーティングに結合することで,シンク支配的なルーティングを抑制する。
- 実験結果から,OASISは最大無限ノルムを平均9.26%削減し,平均尖度を2.60%改善し,W8A8下でperplexityを75.85%低下させ,W4A4下でGSM8K Pass@1を12.42%向上させる。
CoX-MoE:AMX対応CPU-GPU協調実行による高スループットMoE推論のための統合されたエキスパート実行 [cs.LG]目的:MoE推論のスループット向上
- 大規模言語モデルの効率的な推論は,実用化において重要な課題である。
- MoEモデルの巨大なパラメータサイズが,GPUメモリの圧迫や低スループットを引き起こす。
- CPUオフロードやマイクロバッチングでは,効率的なシステム利用が妨げられている。
- CoX-MoEは,AMXを活用したCPU-GPU協調システムにより,MoE推論を総合的に最適化する。
- 通常のバッチサイズと選択的なアテンションオフロードにより,リソース配分を最適化する。
- 頻繁に活性化されるエキスパートをGPUに事前割り当てし,PCIe転送オーバーヘッドを低減する。
インタラクティブAIエージェントにおける認知年齢の整合性評価 [cs.AR, cs.AI]目的:AIエージェントの認知年齢の整合性評価
- AI技術は日常生活から高度な研究まで幅広く応用されているが,人間知能との差は大きい。
- 最先端AIエージェントは,子供でも容易に解決できる基本的な課題に失敗することがある。
- AIエージェントの認知能力が,人間の発達段階とどの程度整合しているかを評価する。
- 本研究では,心理測定に基づいた新しいベンチマーク「ChildAgentEval」を導入した。
- ChildAgentEvalは,様々なAIエージェントの認知能力を,年齢別の人間発達段階と比較する。
- その結果,現在のAIシステムが,年齢特有の認知行動をどの程度模倣できるかを明らかにしている。
C++によるMetalとCUDA上の軽量ガウス過程推論 [cs.LG]目的:ガウス過程推論の高速化と効率化
- 機械学習におけるガウス過程は,確率的モデリングにおいて重要な役割を担う。
- Pythonライブラリは柔軟だが,ディープラーニングフレームワークへの依存やオーバーヘッドが大きい。
- MetalとCUDAを活用し,軽量なC++ライブラリによる高速な推論を実現する。
- LightGPは,CPU,Metal,CUDA上で高速なガウス過程推論を実現した。
- 特にApple M4では,GPyTorchと比較して最大8.7倍の速度向上を示した。
- Metal上の融合カーネルベクトル積により,メモリ効率と計算速度を大幅に向上させた。
DCFold:単一フォワードパスによる効率的なタンパク質構造生成 [cs.LG, cs.AI, q-bio.QM]目的:タンパク質構造の効率的な生成法
- タンパク質は生命活動の根幹を担うため,その構造解析は生物学研究において不可欠である。
- AlphaFold3は高精度だが,推論に時間がかかり,実用的な展開が課題となっていた。
- DCFoldは,推論速度を向上させつつ,AlphaFold3と同等の精度を実現することを目指す。
- DCFoldは,AlphaFold3と同等の精度を,15倍の高速化で達成した。
- Dual Consistency学習フレームワークと新規Temporal Geodesic Matching (TGM) スケジューラが,その高速化に貢献している。
- 構造予測およびバインダー設計のベンチマークにおいて,その有効性が確認された。
大規模POI属性獲得のためのLLMベースの対話型応答システムDuIVRS-2 [cs.AI]目的:大規模POI属性獲得
- 位置情報サービスにおいて,正確なPOI属性情報は不可欠であり,その重要性は増している。
- 従来のモジュール型IVRシステムは,エラーの蓄積や高いメンテナンスコストが課題であった。
- 本研究は,大規模なPOI属性獲得において,より堅牢でコスト効率の良いLLMエージェントの構築を目指す。
- DuIVRS-2は,大規模言語モデル(LLM)を基盤としたエンドツーエンドのフレームワークである。
- 実運用環境で2ヶ月間運用した結果,1日あたり40万件の通話を処理し,タスク成功率は83.9%を達成した。
- 前モデルと比較して4ポイントの性能向上を示し,応答時間は130msと低速に維持された。
LAST-RAG: 文献に基づいた確率的軌跡検索・拡張生成による知識条件付き劣化モデル選択 [cs.AI]目的:知識に基づいた劣化モデル選択
- 機械システムの信頼性評価において,残存有用寿命(RUL)の推定は不可欠である。
- 適切な確率過程の選択が重要だが,既存手法は観測データのみに依存し,不確実性が高い。
- 文献知識と観測データを統合し,より適切な劣化モデルの選択を目指す。
- 提案手法LAST-RAGは,文献から得られる理論的・機械的根拠を用いて,劣化モデルの候補空間を階層的に絞り込む。
- 不確実性に対するロバスト性を高めるため,不確実な状態におけるルールベースの確信推論(RCRUS)を導入した。
- シミュレーション実験の結果,LAST-RAGは既存手法と比較して,劣化モデルの分類精度において優れた性能を示した。
エージェントによるチャンキングとベイズによる非チャンキング:トゥキディデス罠のモデル [cs.AI, cs.CL, cs.HC, cs.IR]目的:AI生成されたファジー認知マップのチャンキングと非チャンキング手法
- 国際政治における紛争予測には,複雑な因果関係の理解が不可欠である。
- テキストデータからの因果関係抽出は,主観的解釈に左右されやすく,客観性に課題がある。
- 大規模言語モデルを活用し,テキストをチャンク化することで,客観的な因果関係マップを構築し,紛争予測の精度向上を目指す。
- 大規模言語モデルを用いてテキストをチャンク化し,それらを混合することで,因果関係を表現するファジー認知マップを生成することに成功した。
- 生成されたファジー認知マップは,ベイズ推論に基づき非チャンキング処理を施すことで,より洗練された因果関係を抽出できることを示した。
- トゥキディデス罠のモデルを分析した結果,8つのファジー認知マップのうち7つが戦争を予測する結果となった。
あらゆるものを翻訳する単一モデル:異種協調知覚のための汎用的な任意-任意翻訳 [cs.CV, cs.AI]目的:異種協調知覚における,任意の入力モダリティから任意の出力モダリティへの特徴量翻訳
- 協調知覚は,エージェントの感知能力を拡張する重要な技術である。
- 現実世界の異なる特徴量モダリティ間の不適合が,融合の大きな課題となっている。
- UniTransは,新たなモダリティへの再学習コストを削減し,スケーラビリティを向上させる。
- UniTransは,事前学習済みの翻訳専門家パラメータと,モダリティ間のマッピングに基づく組み合わせ係数を利用する。
- UniTransは,モダリティ固有かつシーン不変な潜在コードを抽出することで,ゼロショット翻訳を実現する。
- OPV2V-HとDAIR-V2Xの実験において,UniTransは最先端手法を上回る性能を示した。
エシカル・ハイパーベロシティ:エージェントシステム向け,証明可能な決定性ガバナンス対応JITコンパイラアーキテクチャ [cs.AI, cs.LO]目的:AIガバナンスポリシーの実行時検証のためのアーキテクチャフレームワーク
- 自律エージェントシステムが重要インフラで拡大する中,安全性確保が喫緊の課題となっている。
- 高頻度なポリシー更新のメカニズムに基づいたハードウェアレベルでの強制が不足している。
- ポリシー遵守をリアルタイムに強制し,デプロイ速度とガバナンスの整合性のトレードオフを解消する。
- EHVは,推論パイプラインにガバナンス対応JITコンパイラを統合することで,ポリシー強制時点を最適化した。
- CRDTとTEEを活用し,サブミリ秒の形式的決定性を実現し,非準拠な行動を計算的に不可能とした。
- ガバナンス遅延を従来のO(days)からO(1)に短縮し,デプロイ速度とガバナンス整合性を両立できることを証明した。
ドメイン転送は単一のアライメントによって識別可能になる [cs.LG, cs.AI, cs.CV]目的:ドメイン転送の識別可能性
- 画像変換や医療画像処理など,多様な分野でドメイン転送の応用が期待されている。
- ドメイン転送は本質的に未定義であり,対応関係が曖昧になりやすいという課題がある。
- ヤコビ行列の構造的疎性を利用し,少ない教師データで転送を特定する。
- 提案手法では,ヤコビ行列の疎性条件と単一ペアのアタッチメントサンプルでドメイン転送が識別可能になることを示した。
- ヤコビ行列を明示的に評価せずに疎性を誘導する効率的な正則化項を提案し,高次元学習への適用を可能にした。
- 合成データおよび実データを用いた実験により,理論的結果が検証された。
AdaptiveLoad:効率的なビデオ拡散Transformer訓練に向けて [cs.DC, cs.AI, cs.LG]目的:ビデオ拡散Transformer訓練における効率化
- ビデオ生成モデルは,現実世界の表現において重要な役割を担う。
- 既存のデータローディング戦略では,GPUリソースの非効率な利用が生じている。
- 計算負荷の分散とメモリ効率の向上による訓練スループットの改善。
- 提案手法AdaptiveLoadは,計算負荷の不均衡率を39%から18.9%に低減した。
- ピークVRAM利用効率を22.7%向上させ,GPUリソースを有効活用した。
- 全体的な訓練スループットを27.2%増加させることに成功した。
二値空間における安全な最適化のための適応的確率的自然勾配法 [cs.HC, cs.NE]目的:二値空間における安全な最適化手法の開発
- 医療や工学分野の最適化問題では,候補解の評価にリスクが伴う場合があるため,安全性の確保が重要である。
- 連続空間では安全な最適化手法が存在するが,二値空間における安全な最適化手法の開発は十分に進んでいない。
- 安全関数に基づき,安全領域を構築することで,安全でない解の評価を抑制し,効率的な最適化を実現することを目指す。
- 提案手法であるsafe ASNGは,ウォルシュ関数に基づく代理モデルを構築することで,安全関数のLipschitz定数を推定する。
- safe ASNGは,以前に評価された安全な解の周囲の安全な解からなる安全領域を計算し,新規に生成された解をその領域内に投影することで,安全でない解の評価を抑制する。
- 二値領域のベンチマーク問題実験により,safe ASNGが安全でない解の評価を効果的に抑制しつつ,効率的な最適化を達成することが確認された。
カスタマイズされたカーレース環境のための転移学習 [cs.RO, cs.RO, cs.LG]目的:カーレース環境における転移学習の有効性
- 深層学習の発展に伴い,学習効率の向上が重要視されている。
- 異なる環境への適応には,多くの試行錯誤と計算コストが必要となる。
- 既存の知識を活用し,効率的な環境適応を実現すること。
- 転移学習は,ターゲット環境での性能向上に寄与することが示された。
- モデルベースのアプローチが,モデルフリーのアプローチよりも優れた性能と収束速度を示した。
- 転移学習は,学習プロセスにおいても高い性能を発揮することが確認された。
InfoFlow:多層Transformer解析のためのフレームワーク [cs.RO, cs.LG]目的:多層Transformerの近似能力に関する理論的理解
- Transformerは自然言語処理において重要な役割を担い,その性能向上は不可欠である。
- 多層Transformerの近似能力については,単層Transformerと比較して理論的な理解が不足している。
- 多層Transformerの効率的な近似メカニズムを解明し,その能力を定量的に評価すること。
- 多層Transformerは,特定の検索タスクにおいて,単層Transformerよりも遥かに少ないパラメータで同等の精度を達成可能である。
- softmax attentionは最大スコアのトークンのみを効率的に検索できるが,上位k個のトークン検索には指数的なパラメータコストが発生する。
- InfoFlowフレームワークは,各トークンと層におけるアクセス可能な入力位置の情報を追跡し,情報伝播の近似レートを明示的に割り当てることで,多層Transformerの近似効率を分析する。
拡散大規模言語モデルにおけるプロンプト圧縮:LLaDAにおけるLLMLingua-2の評価 [cs.CL, cs.AI]目的:拡散大規模言語モデルにおけるプロンプト圧縮の有効性
- 大規模言語モデルの推論コストとコンテキスト長を削減することは,実用化に向けて重要である。
- 既存のプロンプト圧縮手法の評価は,主に自己回帰型アーキテクチャに焦点を当てている。
- 拡散大規模言語モデルへのプロンプト圧縮の適用可能性と課題を明らかにすること。
- プロンプト圧縮による意味保持と,拡散モデルにおける安定した下流タスクの性能との間には必ずしも一貫性がないことが示された。
- 要約タスクは比較的圧縮に対してロバストであった一方,数学的推論は意味的な類似度が高いにもかかわらず大幅に低下した。
- BERTScoreのリコールが常に精度を下回っており,圧縮の失敗は意味のずれよりも情報省略に起因することが示唆された。
普遍的敵対的トリガー [cs.CL, cs.LG]目的:自然なフレーズに近い敵対的トリガーの生成
- 自然言語処理モデルの安全性確保は重要であり,悪意のある攻撃への脆弱性を理解する必要がある。
- 既存の敵対的攻撃は,文法的に不自然で検出容易なトリガーを使用する問題がある。
- 検出が困難な,自然な敵対的トリガーを生成し,モデルの堅牢性を高めることを目指す。
- 感情分析タスクにおいて,提案手法は高い攻撃成功率(精度0.04, 0.12)を達成した。
- 生成されたトリガーを用いた敵対的学習により,モデルの精度が0.12から0.48へと向上した。
- 自然なトリガー生成は,攻撃の検知を困難にし,堅牢なモデル開発を促進する。
BacktestBench:自動定量的戦略バックテストのための大規模言語モデルのベンチマーク [cs.CL, cs.AI]目的:自動定量的戦略バックテストに関する大規模言語モデルの性能評価
- 金融市場における戦略評価には不可欠であり,投資判断の精度向上に貢献する。
- 技術的障壁が高く,大規模なバックテストの実施が困難であるという課題がある。
- 大規模言語モデルを活用し,自動化されたバックテスト環境を構築することでこの課題を解決する。
- BacktestBenchは,600万件以上の市場データに基づいた,自動定量的バックテストに特化した大規模ベンチマークである。
- 18,246の質問応答ペアから構成され,指標計算,銘柄選択,戦略選択,パラメータ確認の4つのタスクを網羅している。
- AutoBacktestは,要約,検索,コーダーの連携により,自然言語戦略を再現性のあるバックテストに変換する。
拡散モデルにおける鏡像的アンラーニングとノイズ整合性のある歪みによる訓練データ帰属 [cs.LG, cs.AI, stat.ML]目的:拡散モデルの訓練データ帰属手法
- 生成モデルの解釈可能性向上は,AIの信頼性向上に不可欠であり,そのための技術が求められている。
- 既存の訓練データ帰属手法は信頼性と頑健性に乏しく,実用化が困難である。
- 拡散モデルにおける信頼性と頑健性を向上させた訓練データ帰属手法を開発する。
- 鏡像的アンラーニングとノイズ整合性のある歪み(MUCS)が,既存手法と比較して大幅に性能が向上した。
- MUCSは,概念的に単純でありながら,様々なデータセットで高い性能を示した。
- 生成されたアイテム間の影響力のあるインスタンスの重複や,TDA手法のアンサンブルの可能性など,新たな知見が得られた。
SVFSearch:ゲーム分野における短尺動画フレーム検索のためのマルチモーダル知識集約型ベンチマーク [cs.AI, cs.CV, cs.LG]目的:短尺動画のフレーム検索におけるマルチモーダル大規模言語モデルの能力評価
- 動画理解は,コンテンツ検索やインタラクティブなアプリケーションにおいて不可欠であり,その重要性は増している。
- 既存のベンチマークは,短尺動画特有の視覚的曖昧さや,専門性の高いドメイン知識への対応が不十分である。
- ゲーム分野の短尺動画フレーム検索に特化したベンチマークを構築し,モデルの能力を詳細に評価することを目指す。
- SVFSearchは,5,000件の四択テストと4,198件の補助学習データを含む,初の中国語ゲームドメインに特化したフレーム検索ベンチマークである。
- 実験の結果,既存のモデルとオラクル知識の間には大きな差があり,最良のオープンソースQAモデルは66.4%,実用的なエージェントは79.1%,オラクル知識は95.4%の正答率を示した。
- 分析により,視覚的理解,検索品質,証拠に基づく推論,ツール利用におけるボトルネックが明らかになった。
MLLMのための,より単語らしい画像トークン化 [cs.CV, cs.AI, cs.LG]目的:画像トークン化手法
- 画像とテキストを統合するMLLMは,多様な応用を可能にする重要な技術である。
- 既存手法では,画像が連続的な埋め込みに変換され,言語モデルとの整合性が低い。
- DiVTは,画像を意味のある単位に分割し,言語モデルとの親和性を高める。
- 提案手法DiVTは,画像を明確な視覚概念に対応するトークンにクラスタリングする。
- DiVTは,画像複雑さに応じてトークン数を調整し,精度と計算量のトレードオフを実現する。
- 様々なベンチマークで,DiVTは少ないトークン数で既存手法を上回り,メモリコストと遅延を削減する。
一貫性に基づく強化学習によるLLMのコード推論能力の向上 [cs.LG, cs.PL]目的:LLMのコード推論能力の向上
- コード推論は,LLMの推論能力を測る上で重要であり,コード生成や数学的推論といった下流タスクに貢献する。
- 従来の強化学習手法は,最終的な出力や粗粒度の信号のみに基づいて報酬を設計しており,ステップごとの推論の一貫性を考慮していない。
- ステップごとの推論の一貫性を重視することで,報酬のスパース性や報酬ハッキングの問題を軽減し,学習能力を最大限に引き出すことを目指す。
- 提案手法CodeThinkerは,3つの主要コンポーネント(ステップワイズ推論を意識したモデル学習モジュール,動的ビームサンプリング戦略,一貫性報酬メカニズム)を備えている。
- 3つのベンチマークにおける実験により,CodeThinkerは複数のLLMで最先端の性能を達成し,Qwen2.5-Coder-7B-Instructでは最も強力なベースラインを4.3%上回る精度を示した。
- 追加学習なしで,CodeThinkerは数学的推論とコード推論タスクでそれぞれ平均5.33%と3.11%の精度向上を達成した。
BLAgent:ファイルレベルのバグ特定のためのエージェント的RAG [cs.DC, cs.CE, cs.SE, cs.AI]目的:ファイルレベルのバグ特定
- ソフトウェア保守において,バグ特定は根本原因分析やプログラム修復などの重要な課題である。
- 既存のRAGパイプラインは静的な検索に依存し,正確な誤りコードの特定に必要な推論が不足している。
- リポジトリの構造を考慮したRAGフレームワークを開発し,バグ特定精度とコスト効率を改善すること。
- BLAgentは,コード構造を考慮したエンコーディング,二重の視点からのクエリ変換,そして二段階のエージェント的再ランク付けを統合する。
- SWE-bench Liteにおいて,BLAgentはオープンソースモデルで78%以上のTop-1精度,クローズドソースモデルで86%以上の精度を達成した。
- BLAgentは最強のベースラインと比較して18倍以上コストが低く,APRフレームワークへの統合により,プログラム修復の成功率を20%以上向上させた。
LLMにおけるSFTの有効性に関する相反する見解の調和:相互作用の視点 [cs.AI]目的:大規模言語モデル(LLM)における教師ありファインチューニング(SFT)の有効性の不一致の説明
- LLMの性能向上はAI研究の重要課題であり,そのための効果的な学習方法の探求が求められている。
- SFTは小規模モデルでは有効だが,LLMでは効果が不安定であるという矛盾が課題となっていた。
- LLMにおけるSFTの有効性の不一致を相互作用の変化を通して説明し,より良い学習方法の指針を示す。
- SFTは主にノイズ的な相互作用を除去するが,新しい信頼性の高い相互作用を獲得することは稀である。
- このノイズ除去段階は非常に短く,継続的なファインチューニングは過学習した相互作用を導入する傾向にある。
- これらの発見は,様々なLLMとデータセットで検証されており,早期終了に関する新たな知見を提供する。
関数グラフ変換器による関数空間間の作用子の普遍的近似 [cs.LG]目的:関数空間間の非線形作用子の近似
- 機械学習における作用子学習の重要性が高まっているため,その理論的基盤の確立が求められている。
- 既存の理論的アプローチでは,多様な入力や出力に対応した汎用的な近似が困難であった。
- グラフ構造を保持しつつ,汎用的な近似能力を持つ新しい変換器モデルを開発し,作用子学習の理論的枠組みを明確化する。
- 関数をそのグラフ上の測度として表現することで,離散化の洗練を測度の収束として捉え,作用子学習のための自然な枠組みを提供する。
- 関数グラフ変換器は,グラフ構造を保持する変換器のサブクラスであり,標準的なsoftmax自己注意層と点ごとのMLPの有限合成によって近似可能である。
- このフレームワークは,従来の理論的アプローチでは困難であった,負のSobolev入力や異なる出力ドメインへのクエリにも対応可能である。
Babel:攪乱分布最適化サンプリングによる安全注意機構の脱獄 [cs.CR, cs.AI]目的:大規模言語モデルの安全注意機構における脆弱性の解明と,それを利用した効率的な脱獄攻撃手法の開発
- 大規模言語モデルの安全性確保は,社会実装において不可欠であり,その信頼性を高めることが重要である。
- 既存の脱獄攻撃手法は効率が悪く,メカニズムの解釈が困難であるという課題が存在する。
- 安全注意機構の弱点を特定し,それを突くことで,より効率的かつ信頼性の高い脱獄攻撃を実現することを目指す。
- 大規模言語モデルの安全対策は,少数の注意ヘッドに依存しており,その分布が希疎であることが示された。
- 提案手法Babelは,この弱点を突くため,テキストの攪乱サンプリングを反復的に行うことで,高い攻撃成功率を実現した。
- GPT-4oおよびClaude-3-5-haikuにおいて,既存手法と比較して攻撃成功率を大幅に向上させ,少ないクエリ数で脱獄を成功させた。
ベイズ最適化におけるLLMの活用:科学的発見のための嗜好性誘導フレームワーク [cs.AI, math.OC]目的:科学的発見のための効率的な最適化
- 科学研究における実験コスト増大と資源の制約から,AIによる効率的な最適化が不可欠である。
- ベイズ最適化は探索と利用のバランスを取るが,初期段階の性能が低く,高次元問題への適用が困難である。
- LLMの知識を活用し,ベイズ最適化の初期性能とスケーラビリティを向上させることを目指す。
- LLM-Guided Bayesian Optimization (LGBO)は,LLMの推論能力を最適化ループに組み込む新たなフレームワークである。
- LGBOは,従来のベイズ最適化と同程度の性能を理論的に保証しつつ,嗜好性が一致すればより高速な収束を実現する。
- Fe-Cr電池電解質の実験最適化において,LGBOは6回の反復で最適値の90%を達成し,従来のBOやLLM拡張ベースラインよりも優れた性能を示した。
SAFE-SVD:感度を考慮した忠実度維持SVD法 - 物理学基礎モデル向け [cs.LG, cs.AI]目的:物理学基礎モデルの圧縮手法
- 科学分野におけるAI応用の基盤として,物理学基礎モデルの重要性が高まっている。
- 大規模モデルのメモリ使用量と推論速度の改善が課題だが,物理学的忠実度を維持することが難しい。
- 物理データの特性を考慮し,高精度な圧縮を可能にすることで,実用的なモデル開発を目指す。
- 提案手法は,既存手法と比較して,大幅に高い圧縮率を維持しながら,精度を向上させることを実証した。
- 出力関数空間における損失と感度を明示的にモデル化することで,物理学的忠実度を保ちながら圧縮を実現した。
- 本研究は,効率的で持続可能な科学基礎モデルの新たな方向性を示唆する。
LivePI:間接的なプロンプトインジェクションに対するエージェントのより現実的なベンチマーク [cs.CR, cs.AI]目的:間接的なプロンプトインジェクション(IPI)リスクのベンチマーク
- AIエージェントの利用拡大に伴い,外部ツールへのアクセスセキュリティが重要視されている。
- 既存の評価は規模が小さく,現実世界の複雑な環境を十分に再現できていない。
- 実環境に近いテスト環境で,IPIリスクを包括的に評価し,対策を検証すること。
- LivePIベンチマークは,メール,チャット,ウェブなど7つの入力経路と12の攻撃手法を網羅する。
- GPT-5.3-Codexを含む5つのLLMで評価した結果,攻撃成功率は10.7%から29.6%の範囲であった。
- プロンプトフィルタリングとツールコール認可による二層防御は,GPT-5.3-Codexにおいて高い防御効果を示した。
検索拡張生成のための予測プリフェッチング [cs.CL, cs.AI]目的:検索拡張生成における遅延削減
- 大規模言語モデルの知識の正確性を高めるため,検索拡張生成が重要視されている。
- 従来の検索拡張生成は,検索処理の同期性により遅延が大きくなるという課題があった。
- 生成過程における情報要求の変化を予測し,非同期的な検索を可能にすることで遅延を削減する。
- 提案手法は,生成ダイナミクスにおける意味的先行事象を利用し,検索のタイミングと内容を予測する。
- 複数のベンチマークにおいて,エンドツーエンドの遅延を最大43.5%削減し,最初のトークンまでの時間を62.4%改善した。
- 回答の質は,同期型検索拡張生成のベースラインと同等レベルを維持した。
Stable Audio 3 [cs.SD, cs.AI]目的:可変長オーディオ生成と編集のための高速潜在拡散モデル
- 音声生成技術は,音楽制作やコンテンツ制作において重要な役割を担う。
- 長尺のオーディオ生成には計算コストが高く,短い音源の生成に非効率な点が存在する。
- 効率的な潜在空間での拡散生成により,高品質なオーディオを低コストで実現することを目指す。
- Stable Audio 3は,小・中・大のモデルファミリーであり,数分間のオーディオを生成できる。
- 潜在拡散モデルは,高密度な潜在空間において,音質とセマンティック構造を維持しながら効率的な生成を可能にする。
- 敵対的後学習により,推論速度を向上させ,生成品質とプロンプトへの適合性を改善する。
持続的成長に向けて:Eコマース検索のための多価値認識検索フレームワーク [cs.OS, cs.DB, cs.IR, cs.AI]目的:Eコマース検索における新規アイテムの成長促進
- Eコマースプラットフォームにおいて,新規アイテムの成長はエコシステムの健全性を維持する上で不可欠である。
- 既存システムは人気アイテムを優先し,「マシュー効果」が生じ,新規アイテムの露出機会が限られている。
- 検索におけるコールドスタート問題の解決と,アイテムの成長潜在能力の正確な測定を目指す。
- 本フレームワークGrowthGRは,検索システムの各段階におけるオンライン価値を考慮し,短期的なコンバージョンと長期的なアイテム成長のバランスを取る。
- ItemLTVモジュールを用いて,単一のユーザーインタラクションによる長期的な価値増加量を定量化する。
- Taobaoの実運用環境での導入により,新規アイテムのGMVが5.3%大幅に増加し,全体的な検索GMVも0.3%増加した。
モジュール適応残差再構成による低ビットポストトレーニング量子化 [cs.LG, cs.AI, cs.CV]目的:低ビットポストトレーニング量子化における性能向上
- モデルの効率化が,大規模モデルの普及に不可欠である。
- 量子化に伴う精度低下が,依然として大きな課題となっている。
- 残差再構成のバイアスを軽減し,モジュールごとに最適化すること。
- 提案手法MARRは,LLMにおいて最大20.2%の性能向上を達成した。
- ViTにおいても最大4.6%の相対的な性能向上を示した。
- モジュールごとに残差の強さを調整することで,バイアスと補正のバランスを取った。
