arXiv雑要約
AI - 2026/06/03 公開
Gate AI:LLMセキュリティベンチマーク評価手法と結果 [cs.LG, cs.CR]目的:大規模言語モデルのプロンプトインジェクションおよび脱獄検出器の評価
- LLMの普及に伴い,そのセキュリティ確保は重要性を増している。
- 既存の評価手法は,データセットごとの閾値調整や非公開の動作点に問題がある。
- データセット依存性を排除し,公平な評価基準を確立することを目的とする。
- 本研究では,16の公開ベンチマークを用いて,5分割交差検証による評価基盤を構築した。
- 検出器の性能は,誤検出率1%以下でF1スコアが最大となるグローバルな動作点で評価された。
- 様々な診断テストにより,汎化性能を検証し,閾値の転移可能性についても評価した。
一人称視点における自然言語クエリの groundeding のための手の軌跡の融合 [cs.CV, cs.AI, cs.HC, eess.IV]目的:一人称視点ビデオにおける自然言語クエリに対する正解となる時間間隔の特定
- 日常生活の理解と支援に不可欠であり,ロボットやアシスタント技術の発展に貢献する。
- 既存手法は視覚情報とクエリを融合するが,手の動きという重要な情報を無視している。
- 手の軌跡情報を活用し,より正確なクエリの groundeding を実現することを目指す。
- 提案手法は,手の軌跡を意味的に豊かな特徴に変換し,ビデオ・テキスト特徴と融合する。
- Ego4D NLQ v2 の検証結果,特に「手と物体の相互作用」や「数量/状態」クエリにおいて性能が向上した。
- 手の軌跡は,視覚情報だけでは捉えきれない groundeding の手がかりを提供することを示唆する。
KForge:AIアクセラレータ向けクロスプラットフォームカーネル生成 [cs.LG]目的:AIアクセラレータにおけるカーネル生成の自動化
- AI推論の多様なハードウェアへの対応が不可欠であり,高性能なカーネルが求められている。
- 手動でのカーネル開発は時間と専門知識を要し,複雑化に伴い限界がある。
- LLMを活用し,コンパイルと性能分析に基づく反復的な改善によりカーネル生成を効率化する。
- NVIDIA B200では,KForgeはgpt-oss-20b推論ベンチマークにおいてTensorRT-LLMと比較して2.12%のスループット改善を達成した。
- Intel Arc B580では,KForgeはKernelBench Level 2の37のGEMM + tail-opsワークロードで,PyTorch eagerおよびtorch.compileよりも5.13倍の高速化を実現した。
- KForgeは,演算子融合や混合精度実行を通じて性能向上を実現している。
マルチセグメント注意:大規模言語モデルの高速なサービングのための効率的なKVキャッシュ管理 [cs.AR, cs.CL, cs.LG]目的:大規模言語モデルの高速サービングのためのKVキャッシュ管理手法
- 大規模言語モデルの推論は計算資源を大量に消費するため,効率的な管理が重要である。
- 既存のKVキャッシュ管理システムは,GPUの注意カーネルの効率を考慮していない。
- GPUの注意カーネル性能に合わせてキャッシュの保持を決定し,推論速度を向上させる。
- AsymCacheは,最新のベースラインと比較してTTFTを最大2.03倍,TPOTを1.71倍削減することを示した。
- マルチセグメント注意(MSA)により,非連続なKVコンテキストの効率的な処理を可能にした。
- AsymCacheは,Continuumのようなエージェントサービングシステムにシームレスに統合され,ジョブの平均レイテンシを最大18.1%削減した。
ベンチマークが測れないもの:自律エージェントにおける抑制能力評価の必要性 [cs.AI]目的:自律エージェントの抑制能力の評価
- 自律エージェントの安全性確保は重要であり,人間社会への応用が期待されている。
- 既存のベンチマークはタスク遂行に偏重し,行動の是非を評価できていない。
- 安全な行動のための事前条件が満たされていない場合の抑制能力評価を確立する。
- 人間フィードバックによる学習が,安全でない状況でも行動を開始する傾向を生じさせることを示した。
- 情報不足,状態確認不能,権限不足といった抑制が必要な状況の分類を提案した。
- 抑制メカニズムの導入により,危険な行動を最大89.2%ブロックし,利用可能性を87.5%に向上させた。
軌道上のブラックボックス:信頼性の高い自律型CubeSatインテリジェンスのための憲法AI検証フレームワーク [cs.ET, cs.AI, cs.AR, cs.SY, eess.SY]目的:軌道上データセンターにおける自律型AIシステムの誤作動を防止するための憲法AI検証手法の開発
- 宇宙産業におけるAI活用が拡大する中,その安全性確保は喫緊の課題となっている。
- 軌道上のAIシステムは人間による監視が難しく,誤った判断が不可逆的な事態を引き起こす可能性がある。
- 本研究は,軌道上のAIシステムの行動をリアルタイムで検証し,安全性を保証することを目的とする。
- Glass Boxは,AIポリシーの各候補行動を6つの物理法則に基づく憲法制約と7つのLTL安全不変量で評価する。
- 検証オーバーヘッドは憲法ルールの数に比例し,モデルサイズや宇宙船の状態次元には依存しないことが証明された。
- Glass Boxは,日食進入時にバッテリー状態が低下した際に,危険な推論要求を捕捉する実例を示した。
WiFi を用いたヒューマンアクティビティ認識のための汎用的なアンサンブル深層学習フレームワーク WISE-HAR [cs.RO, math.OC, cs.HC, cs.CL, cs.CL, cs.AI, cs.HC, cs.LG]目的:WiFi 信号を用いたヒューマンアクティビティ認識手法
- スマートホーム,ヘルスケア,セキュリティなど,多様な分野での応用が期待されている
- プライバシー侵害の懸念や,暗所での動作限界,装着への負担といった課題が存在する
- WiFi 信号の特性を生かし,よりロバストで汎用性の高い認識手法を確立する
- 提案手法は,ロスシナリオかつバイクワッドアンテナを用いた評価で 94.87% の高い正解率を達成した
- データ拡張により,ランダムフォレストの性能は 60% から 95% へ大幅に向上した
- クロスシナリオ評価ではわずかな精度低下にとどまり,高い汎化性能が確認された
バランスのとれた学習とマルチセンサーフュージョンによるコンパクトな自律運転知覚 [cs.CV, cs.AI, cs.RO]目的:自律運転知覚タスクの効率的な処理
- 自動運転技術の発展には,周囲環境の正確な認識が不可欠である。
- 複数の知覚タスクを個別に実行すると,計算コストが増大し,リアルタイム処理が困難となる。
- 複数の知覚タスクを単一モデルで処理することで,計算効率と認識精度を向上させる。
- 提案手法は,セマンティックセグメンテーション,深度推定,LiDARセグメンテーションなどを単一のモデルで同時に処理する。
- 適応的な損失重み付けアルゴリズムにより,複数のタスク間の学習バランスを改善する。
- RGBカメラ,DVS,LiDARなどのマルチセンサー情報を統合し,動的な環境変化に対する理解を深める。
DriftSched:実行時トークンドリフトに対応した多租用GPU推論のための適応型QoS認識スケジューリング [cs.CL, cs.PF, cs.DC, cs.LG]目的:多租用GPU推論におけるQoSを考慮した適応型スケジューリング手法
- 大規模言語モデルの推論サービスが急速に拡大し,効率的なGPUスケジューリングの重要性が増している。
- 推論要求の実行コストを正確に推定することが難しく,実行時トークンドリフトが発生しやすい。
- トークンドリフトによるワークロードの誤分類やQoS低下を改善し,スケジューリング精度を高める。
- 実験により,ワークロードカテゴリ間で顕著な実行時トークンドリフトが確認された。
- 適応的バイアス補正により,ワークロード推定誤差が平均38.8%(MAE)と40.5%(RMSE)減少した。
- SJFスケジューラが最も優れた性能を示し,FIFOと比較して中央値レイテンシが約42%,P99レイテンシが約16%低減した。
歴史的テキストによる言語モデルの事前学習 [cs.CL, cs.CL, cs.AI]目的:歴史的言語モデルの開発
- 歴史研究において,過去のテキストを分析する上で言語モデルは重要な役割を果たす。
- 歴史的テキストのデータ品質や可用性が低く,時間的な情報の漏洩を防ぐことが課題である。
- 歴史的テキストに特化した言語モデルを構築し,その評価方法を確立すること。
- TypewriterLMという72億4千万パラメータの歴史的言語モデルを開発した。
- 540億トークンからなる歴史的コーパスTypewriterCorpusを構築し,データの品質向上と情報漏洩対策を行った。
- 歴史的文書に基づいた応答を生成するlexically grounded instructing tuningという学習手法を導入した。
ニューラルネットワークによる群合成のスペクトル表現の学習可能性 [cs.IR, cs.LG, math.OC, math.RT, math.ST, stat.ML, stat.TH]目的:群合成タスクにおけるニューラルネットワークの学習メカニズムの解明
- 深層学習の内部構造の理解は,その理論的基盤を確立する上で不可欠である。
- ニューラルネットワークの学習過程における特徴表現の形成原理が未だ不明確である。
- 群合成タスクを通じて,ニューラルネットワークがどのように表現を学習するかを理論的に示す。
- ニューロンは,初期化状態からほぼ確実に単一の既約表現に収束することが証明された。
- 層間におけるフーリエ係数は,回転的ランク1アラインメントを実現することが示された。
- アーベル群においては,多様な表現の利用とハー分布による位相の近似が,多数決メカニズムを介して実現されることが明らかになった。
エージェントの行動履歴からの推論素因子の誘起 [cs.AI, cs.CL]目的:推論素因子のライブラリの構築
- 大規模言語モデル(LLM)エージェントの推論能力向上は,複雑な問題解決に不可欠である。
- ReActエージェントは,問題間で同じ推論ルーチンを再発見するが,それが一時的なメモに留まる。
- 行動履歴から推論素因子を抽出し,再利用可能なライブラリとして構築することで,性能向上を目指す。
- 誘起されたライブラリは,元のエージェントよりも高い性能を示した(RuleArena NBAで30→74)。
- MuSRチーム割り当て(38→68)およびNatPlan会議計画(7→29)においても性能が向上した。
- 複数のサブタスクで,Chain-of-ThoughtやAWMよりも優れた結果が得られた。
Patcher:バックドア化された大規模言語モデルの事後パッチング [cs.CR, cs.AI, cs.IR, cs.LG]目的:大規模言語モデルにおけるバックドア攻撃への防御
- 大規模言語モデルの安全性は重要であり,悪意ある攻撃からの保護が不可欠である。
- バックドア攻撃は検知が難しく,攻撃情報なしでは対処が困難である。
- 単一の失敗事例からバックドアを特定し,モデルを修正することを目指す。
- Patcherは,応答に基づいた勾配と適応クラスタリングにより,バックドアトリガーを局所化する。
- 制約付きファインチューニングにより,トリガーと応答の関連性を解除し,有用性を維持する。
- 複数の攻撃戦略に対して有効であり,適応攻撃に対する耐性も示す。
CoughSense:Whisperエンコーダのファインチューニングと二重エンコーダクロスアテンション融合による5クラスの呼吸器疾患分類 [cs.LG, eess.AS]目的:呼吸器疾患の5クラス分類
- 呼吸器疾患の早期発見と迅速な対応は,公衆衛生において重要である。
- 既存の咳分析技術は,主に二値分類(COVID-19検出)に留まっており,多様な疾患の識別が困難である。
- スマートフォンを用いた,複数の呼吸器疾患を区別できる低コストなスクリーニングシステムの開発。
- CoughSenseは,Whisperエンコーダを基盤とし,5クラスの呼吸器疾患を高い精度で分類することに成功した。
- 特に,アクティブフレームQKVアテンションプーリングが,性能向上に大きく貢献している。
- 二重エンコーダモデルは,さらなる精度向上を示し,実用的な呼吸器疾患スクリーニングツールとしての可能性を示唆する。
量子化が解釈可能な特徴に与える影響:言語モデルのスパースオートエンコーダによる分析 [cs.DC, cs.LG, cs.AI]目的:言語モデルの量子化が,解釈可能な特徴に及ぼす影響の評価
- 大規模言語モデルの利用拡大に伴い,モデルの効率的な実装が重要となっている。
- 量子化によるモデル圧縮は性能劣化を引き起こす可能性があり,その影響評価が課題である。
- 量子化後のモデルにおける解釈可能な特徴の保持状況を明らかにし,安全な展開を支援する。
- 量子化により,特徴は完全に消失するのではなく,段階的に劣化していくことが示された。
- Pythia-70MではINT6で約62.4%の特徴が生存し,Gemma-2-2Bでは約51.3%が生存した。
- 特徴の生存率は,量子化前の統計量から予測可能であり,タスク指標だけでは特徴劣化を捉えきれない場合がある。
訓練を通じて維持される厳密な等変性:対称群全体でのゼロショット汎化性能 [cs.LG, cs.AI, cs.RO]目的:対称群におけるゼロショット汎化性能の向上
- 機械学習モデルの汎化性能向上が重要な課題である。特に,未知の状況への対応が求められる。
- 従来のモデルでは,データの分布外における性能が著しく低下することが多い。
- 等変性を維持することで,分布外のデータに対しても安定した性能を発揮することを目指す。
- 等変性エンコーダーと等変性予測子から構築された潜在的世界モデルは,訓練損失において証明可能な対称性を有する。
- 実Muon/AdamW + EMA + VICReg実行においても,最適化後も残差が約10^-6で保たれ,等変性が維持されることが確認された。
- 等変性モデルは,閉ループ制御においても群全体で誤差が不変であり,ベースラインモデルと比較して4.5〜7.4倍小さい。
MUSE:MLLMのための統一的なエージェント的ハーネス [cs.CV, cs.AI]目的:MLLMの性能向上
- 画像とテキストを扱えるMLLMは,AI研究の重要な進展である。
- MLLMは,人間が容易に行えるタスクで依然として失敗することがある。
- MLLM自体の再学習ではなく,実行環境の改善で性能向上を目指す。
- MUSEは,タスク表現,視覚処理,ツール利用など複数のモジュールでMLLMを囲む構造化実行ハーネスである。
- 多様なベンチマークにおいて,MUSEはMLLMの性能を常に向上させ,特に難しい問題で大きな改善が見られた。
- MLLMの失敗は,モデルの欠陥よりもハーネス側の問題に起因することが多く,検証者による修正で解決できる。
MOSAIC:適応的集約と推論並行性による効率的なエージェント混合スケジューリング [cs.LG, cs.AR]目的:エージェント混合システムにおけるワークロードの高速化
- 大規模言語モデルの推論精度向上には,複数モデルの利用が有効である。
- GPUリソースの制約下では,エージェント間の需要の偏りや生成時間のばらつきがボトルネックとなる。
- 負荷の偏りを解消し,GPUのアイドル時間を削減することで,MoAシステムの効率化を目指す。
- MOSAICは,オフラインプロファイルに基づいたILPによるエージェント配置とプロンプト割り当てを最適化する。
- 専門家間の合意度に応じて最終集約LLMをバイパスする適応的集約により,処理を高速化する。
- 4-GPUシステムにおいて,専門家段階で最大2.5倍,集約段階で4.23倍の高速化を達成し,精度は±0.1ppで維持される。
ConTraIRL:転移可能なIRLのための因数分解された対照的な抽象化 [cs.LG, cs.AI, cs.RO]目的:転移可能なIRLのための因数分解された対照的な抽象化の学習
- 環境ダイナミクスとタスク目標の組み合わせに対応した方策の汎化が求められる
- 従来のIRLでは,未知の組み合わせに対して報酬の転移が不安定であるという課題がある
- 環境ダイナミクスとタスク目標を分離した潜在表現を学習することで,報酬転移のロバスト性を高める
- ConTraIRLは,環境ダイナミクスとタスク目標の2つの要素を分離し,それぞれを異なる潜在空間にマッピングする二重エンコーダ構造を採用している
- 実験結果から,ConTraIRLは未知のダイナミクスと目標のペアへの少ないサンプルでの転移において,既存の転移IRL手法と比較して,サンプル効率と報酬の復元において優れた性能を示した
- 時間的整合性を促すことで,ダイナミクスエンコーダが目標に依存しない構造を学習し,目標エンコーダはダイナミクスに依存しない特徴を捉えることを可能にしている
再現性が新たなコピーレフト:AGI指向型再現可能ビルドの定義 [cs.CY, cs.AI]目的:AGI指向型再現可能ビルドの要件定義
- ソフトウェアの自由な利用・配布を保証するコピーレフトの根幹を支える技術的基盤が重要である。
- 大規模言語モデル等のAIシステムが,コピーレフトの前提とするソースコードと実行ファイルの間の再現性を損なっている。
- AGIにおいてもコピーレフトの精神を維持するため,再現可能ビルドによる技術的解決を目指す。
- コピーレフトの法的ハック的性格と,AIシステムのコード書き換えによる義務回避の問題点を指摘した。
- AGI再現性の担保には,ソースコードの共有だけでなく,データ,重み,ハードウェア等の全ての要素の再現性が不可欠であると論じた。
- OSAID,MOF等の既存のフレームワークを踏まえ,AGI指向型再現可能ビルドの7つの要件を定義した。
幻覚を直交ノイズとして:動的文脈直交化による推論時の多様体アラインメント [cs.HC, cs.CL, cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚の抑制と文脈の忠実性向上
- 大規模言語モデルの信頼性は重要であり,その応用範囲を広げる上で不可欠である。
- 大規模言語モデルは,文脈や論理と矛盾する内容を生成する幻覚を起こしやすく,実用上の課題となっている。
- 本研究は,幻覚を幾何学的に解釈し,推論時にそれを抑制する効率的な手法を提案する。
- 提案手法DCOは,Llama-3-8Bと70Bにおいて,XSum,NQ-Swap,IFEvalなどのベンチマークで最先端の介入手法と比較して優れた文脈忠実性を示した。
- DCOは,TriviaQAやTruthfulQAなどの知識集約型タスクにおいても高い性能を維持し,幻覚抑制と知識保持のトレードオフを効果的に軽減した。
- 本研究は,幻覚の幾何学的解釈を検証し,多様体アラインメントを効率的に実施するDCOの有効性を示した。
スパイクを考慮したC++ INT8推論:汎用CPUにおける疎なスパイク言語モデル [cs.NE, cs.AI, cs.LG]目的:疎なスパイク言語モデルのCPU推論効率の向上
- 言語モデルは自然言語処理において中心的であり,その効率的な推論は重要である。
- スパイク言語モデルの持つ疎性を活かした推論手法が不足している。
- スパイク状態を直接扱う推論実行環境を構築し,推論速度とメモリ使用量の改善を目指す。
- AMD Ryzen 7 5800X環境で,FP32ベースラインと比較して,INT8推論で約19.9トークン/秒の速度向上を達成した。
- シングルスレッドでの推論性能は,既存のQ8_0量子化モデルよりも優れており,スループットは最大で47.90トークン/秒に達した。
- 推論速度は向上する一方で,WikiText-2のパープレキシティは疎なモデル特有の課題として残る。
LLMベースのテキスト分析における条件付き仮説生成:研究者指定の共変量を用いた手法 [cs.CL, cs.AI]目的:LLMを用いたテキスト分析における仮説生成の枠組み
- 社会科学研究において,言語の多様性が結果にどのように影響するかを理解することの重要性。
- 既存手法では,研究者の知識に基づく共変量を考慮せず,結果が交絡因子による可能性。
- 共変量を考慮した仮説生成により,より実質的な差異を発見すること。
- 条件付き仮説生成フレームワークを提案し,研究者が指定した共変量を組み込むことで,関連サブグループ内での差異に焦点を当てた仮説発見を可能にした。
- 層化不均衡や符号反転といった課題に対し,特徴量-共変量交互作用や層内平均化,逆頻度重み付けといった計量経済学的手法を導入した。
- 合成実験と実データ評価の結果,提案手法は特定の状況下で既存手法を凌駕し,有用な仮説を生成することが確認された。
監査フロー:構造化財務報告検証のための実行可能な記号的環境 [cs.AI, cs.MA, cs.SC]目的:構造化財務報告の検証
- 財務報告の正確性は企業の透明性と投資家の信頼に不可欠である。
- 従来の言語モデルは,構造化された証拠に基づいた検証が困難である。
- 記号的環境を構築し,正確な検証を可能にすること。
- AuditFlowは,US-GAAPタクソノミグラフとXBRLファイリンググラフから記号的環境を構築する。
- GPT-5.5を用いた場合,FinMRサンプルで82.09%の合同監査精度を達成し,既存の最高性能モデルを14.93ポイント上回った。
- 検証ステップにおける記号的環境の重要性が示された。
レモン市場としての能力広告:異種エージェントネットワークのための信頼層 [cs.MA, cs.AI]目的:LLMエージェント間の能力広告メカニズムにおける信頼性の確保
- LLMエージェントの連携が発展する中で,能力広告は重要な役割を担う。
- 現在の能力広告は,自己申告に基づき,信頼性の検証が困難である。
- 信頼性の低いエージェントによる質の低下を防ぎ,健全な市場を構築すること。
- 本研究では,能力広告市場を「レモン市場」として捉え,信頼性の問題を分析した。
- 能力広告に確率的な記述子,スクリーニング,レピュテーションを導入する「信頼層」を提案した。
- 提案手法は,モデルの再学習を必要とせず,信頼アンカーの欠如に対しても堅牢である。
TriEval:LLMのバイアス,有害性,真実性の評価のための効率的なパイプライン [cs.AI]目的:LLMのバイアス,有害性,真実性の評価
- LLMはAIエコシステムの基盤となり,社会への浸透が進んでいるため,安全性と公平性の評価が不可欠である。
- 既存のLLM評価ツールは,単一パラメータに限定されるか,計算資源を大量に必要とするという課題がある。
- 本研究は,限られた計算資源で,バイアス,有害性,真実性を同時に評価できるパイプラインを構築し,その課題を解決する。
- TriEvalは,オープンソースとクローズドソースの両方のモデルに対応し,GPUクラスターなしで標準的なラップトップで動作する。
- Llama 3 8B,Mistral 7B,Gemma 2 9B,Claude Haikuの評価により,オープンソースモデルとクローズドソースモデルの明確な違いが明らかになった。
- 特に有害性と真実性において,その差が顕著であった。TriEvalは,計算資源の限られた研究者へのアクセスを広げるため,オープンソースとして公開される。
正確な場がフォトニック設計を誤解させるか?:グローバル精度からポート読み出しへ [cs.LG, physics.comp-ph, physics.optics]目的:フォトニック設計におけるニューラル場の代理モデルと,その設計における出力ポート読み出しの不一致
- フォトニックデバイス設計は,高度な計算資源を必要とし,最適化に時間がかかる。
- ニューラル場代理モデルは高速化に有効だが,グローバルな場誤差が小さくても,ポート読み出しで誤った結果になる可能性がある。
- 伝搬特性と出力窓誤差に焦点を当て,代理モデルの精度向上を目指す。
- 提案手法PaNOは,NeurOLightと比較してポート電力誤差を大幅に低減した。
- PaNOは,グローバルな場精度だけでなく,設計に関連する読み出し精度を向上させることを示した。
- PaNO-R2は,すべての評価指標においてNeurOLightを上回り,ポート電力誤差と出力プロファイル誤差をそれぞれ72.7%と72.5%削減した。
関係データベースにおけるオートコンプリートのための関係グラフTransformer (RelGT-AC) [cs.AI, cs.LG]目的:関係データベースのオートコンプリート課題に対するモデルの性能向上
- 現代の企業,科学,医療システムを支える関係データベースの活用が重要視されている。
- 関係データベースの多表構造,異質性,時間的変化が,機械学習の適用を困難にしている。
- 既存のモデルでは,データベースの構造とテキスト情報を効果的に活用できていない点を解消する。
- RelGT-ACは,RelBench v2の7つの課題において,GraphSAGEを上回る性能を示した。
- 特に,回帰オートコンプリート課題では全ての課題で,テキストデータが多い課題では最大で+10 AUROCポイントの改善が見られた。
- カラムマスキング戦略とTF-IDFテキストエンコーダーが性能向上に貢献している。
学生は何を学ぶのか:特徴レベルでの暗黙的知識の分析 [cs.LG]目的:特徴表現の獲得メカニズムに関する研究
- モデル圧縮は,計算資源の制約がある環境で深層学習モデルを実用化するために不可欠である。
- 知識蒸留における学生モデルの学習メカニズムは十分に解明されていない。
- 教師モデルに依存せず,効率的に知識蒸留を行う手法の確立。
- 知識蒸留は,低頻度でサンプル固有の特徴を削減し,再利用可能な特徴への依存性を高める正則化として機能する。
- データセットレベルの混同行列には,教師モデルの「暗黙的知識」と類似した構造情報が含まれていることが明らかになった。
- 提案手法であるConfusion Distillation (CD) は,既存の自己蒸留法を上回り,CIFAR-100において高い性能を発揮した。
ToolGate:ツール拡張型ビジョン言語エージェントのための効率的な事前呼び出し制御 [cs.AI]目的:ツール拡張型ビジョン言語エージェントにおける,ツールの呼び出し実行の有無の判断
- 視覚情報と言語を組み合わせたエージェントは,様々なタスクにおいて高い性能を示すため,注目されている。
- ツール呼び出しは計算コストがかかるため,不要な呼び出しを抑制する必要がある。
- 有用なツール呼び出しと不要なツール呼び出しを識別し,効率的な制御を実現すること。
- ToolGateは,軌跡テキストと構造的特徴からツール呼び出しの実行/スキップを予測する軽量な外部コントローラーである。
- 2つのQwen3-VLバックボーンにおいて,ToolGateはトークンコストを64-69%に削減し,クロスドメイン設定での平均精度を維持した。
- Qwen3-VL-30Bでのドメイン適応型軌跡学習により,平均精度がさらに1.65ポイント向上した。
SkillDAG:大規模LLMスキル選択のための自己進化型型付けスキルグラフ [cs.AI]目的:LLMのスキル選択における大規模なスキルライブラリの構造化
- LLMエージェントの能力向上には,多様なスキルの活用が不可欠である。
- スキル間の依存関係や競合が無視され,単純な類似度マッチングに頼っている。
- スキル間の関係性をグラフ構造で明示的にモデル化し,LLMによる効率的なスキル選択を実現する。
- SkillDAGは,ALFWorldおよびSkillsBenchで,既存のGraph-of-Skillsベースラインを大きく上回る成果を達成した。
- 候補ランキングの安定性向上と,想起率の向上により,パフォーマンス改善に貢献している。
- 提案・承認プロトコルによるオンライン編集により,グラフ構造がエピソードを通じて進化し,知識が蓄積される。
LLMのための分子テキスト表現の再検討:実証的研究 [cs.LG, cs.AI]目的:LLMにおける分子表現の性能評価
- 創薬など化学分野でLLMの応用が期待される中で,適切な分子表現法の選択が重要となる。
- 分子表現によってLLMの性能が大きく左右されるものの,最適な表現法は明確ではない。
- 多様な分子表現とLLMを用いて,タスクに応じた最適な表現法の選択指針を提示する。
- 分子タスクにおいて,CML,MolJSON,InChI,canonical SMILESの順に性能が高いことが示された。
- 構造タスクでは構造化テキスト表現(CML, MolJSON)が,意味タスクではIUPACが優位性を示した。
- 専門モデルはSMILESに対して高い性能を示す一方,構造化テキスト表現では性能が低下し,汎化性能の限界が示唆された。
分散コンピューティングシステムのための生成マルコフモデル [cs.DC, cs.AI, cs.LG, cs.NI, cs.SY, eess.SY]目的:分散コンピューティングシステムのモデリング手法
- 計算資源の多様性が増し,複雑化する現代のコンピューティング環境において重要である。
- 既存の手法では,分散システムの不確実性や複雑さを捉えきれない問題がある。
- マルコフモデルを用いて分散システムの状態を効率的に表現し,最適化を図ることを目指す。
- 提案手法は,分散システムの構造化された状態を考慮した生成マルコフモデルとして定式化された。
- 協調型AI推論のケーススタディから,集中型スケジューリングがボトルネックとなることが示された。
- ユーザーデバイスへの分散処理が,遅延時間とサーバー資源消費を削減できることが確認された。
汎用マルチモーダル操作検出のための対立志向推論 [cs.AI]目的:マルチモーダルな偽情報操作の検出
- 生成AIの急速な発展に伴い,偽情報が社会に及ぼす影響が深刻化しているため。
- 既存手法は特定の操作に依存し,大規模なラベル付きデータが必要であり,汎化性能が低い。
- 対立に着目し,少量のデータやゼロショットでも未知の操作に対応できる検出手法を開発する。
- 本研究では,対立志向推論(CORE)フレームワークを提案し,マルチモーダル大規模言語モデル(MLLM)に明示的な対立捕捉能力を付与した。
- 詳細な対立要因と発生源のアノテーションを含むConflict Attribution Corpus(CAC)を構築し,対立認識トレーニングに利用した。
- 実験の結果,COREは最先端モデルを凌駕し,高い汎化性能と適応性を示すことが確認された。
グラフにおける動的なメッセージパッシングのための適応型仮想ノード [cs.LG, cs.AI]目的:グラフ上の動的なメッセージパッシングのための適応型仮想ノードの学習
- グラフ構造データは,社会ネットワークや分子構造など様々な分野で現れ,その分析が重要である。
- 既存のMPNNは,計算効率や表現力に課題があり,大規模グラフにおける性能向上が求められている。
- ノード間の接続パターンを動的に学習することで,MPNNの性能を向上させることを目指す。
- MAVNは,ノードと仮想ノード間の接続を制約せず,必要に応じて仮想ノードを動的に導入する。
- MAVNは,ノードと仮想ノードの重要度に基づいて,接続を適応的に決定する二重のスコアリングメカニズムを用いる。
- 9つの実データセットでの実験により,MAVNがベースラインモデルを大幅に上回り,最先端の性能を達成することが示された。
ROBUST-WT:ホワイトニングと学習改善によるロバストな不確実性認識セグメンテーション変換 [cs.CV, cs.AI, cs.LG]目的:医療画像における汎化されたセグメンテーション性能の向上
- 異なる画像装置や臨床プロトコル間での性能劣化を防ぐことは,医療画像解析において重要である。
- 既存手法は,画像データのドメイン間の差異に弱く,汎化性能が低いという課題がある。
- 本研究は,学習レベルの改善により,ドメイン間のロバスト性を高めることを目指す。
- 提案手法は,fundus optic discセグメンテーションにおいて,Diceスコア0.956,ASDスコア13.31を達成した。
- これは,ベースラインのepoch-5 Diceスコア0.939を上回る結果であり,学習改善の効果を示す。
- 提案手法は,WT-PSEアーキテクチャを変更することなく,性能向上を実現した。
非同期LLMポストトレーニングのための非対称スケール方策最適化 [cs.LG, cs.AI]目的:非同期LLMポストトレーニングにおける方策最適化手法
- 大規模言語モデルの性能向上は,様々な分野での応用を促進する上で重要である。
- 非同期型強化学習では,鮮度の低い応答による分布のずれが課題となる。
- 現在の方策確率のみを用いて,非同期型強化学習を安定化させる。
- 提案手法ASymPOは,トークンごとの損失を現在の平均負対数確率で正規化することで,鮮度の低い応答による分布のずれを抑制する。
- ASymPOは,行動方策の確率を必要とせず,応答レベルでのゼロサムバランスを回復し,学習信号を維持する。
- 数学的推論のポストトレーニングにおける実験で,ASymPOおよびSPOの有効性が確認された。
大規模言語モデル強化学習における効率的なハイパーパラメータ最適化 [cs.LG, cs.AI]目的:大規模言語モデル強化学習のためのハイパーパラメータ最適化
- 大規模言語モデルの性能はハイパーパラメータに大きく依存し,その最適化は重要である。
- 大規模言語モデルの訓練は計算コストが高く,効率的なハイパーパラメータ最適化が課題である。
- 計算効率を向上させつつ,より良い性能を達成できるハイパーパラメータ最適化手法を提案する。
- 提案手法JF-HPOは,モデルサイズと訓練予算を同時に調整することで,計算効率を大幅に向上させる。
- 各試行の計算効率は最大14.9倍に向上し,予測精度も同等またはそれ以上の結果が得られた。
- VeRL Recipeからのハイパーパラメータ設定と比較して,5.8%から111.6%の性能向上を実現した。
RMPrior: 効率的な無線マップ構築のための伝播事前情報と拡散洗練の統合 [cs.LG, cs.SY, eess.SY]目的:効率的な無線マップ構築手法の開発
- 無線環境の理解と最適化には,高精度な無線マップが不可欠である。
- 従来の拡散モデルは計算コストが高く,動的な環境でのリアルタイムな無線マップ更新が困難である。
- 伝播事前情報を活用し,拡散モデルの計算量を削減することで,無線マップ構築の効率化を目指す。
- 提案手法は,伝播事前情報に基づき拡散モデルの初期ステップを調整することで,計算速度を2.01倍に向上させた。
- その結果,NMSE,RMSE,SSIM,PSNRといった評価指標においても,従来の全ステップベースラインを上回る性能を示した。
- 異なる精度の伝播モデルを用いた実験により,再構成品質が事前情報の品質に依存することが確認された。
エージェント型強化学習ポストトレーニングのための効率的なリソース管理:Libra [cs.LG, cs.AI, cs.DC]目的:エージェント型強化学習におけるリソース管理の効率化
- 大規模言語モデルの能力拡張に強化学習が不可欠であり,複雑なタスク実行を可能にする。
- エージェント型強化学習のワークロードは,長尺で変動が大きく,従来の管理手法では非効率となる。
- ワークロードの特性を考慮し,ロールアウトとトレーニング間のリソース配分を最適化することで効率化を図る。
- Libraは,ロールアウトとトレーニング間のGPU割り当てを共同最適化するグローバルリソースプランナーを導入した。
- ツールリターンの因果信号に基づき,リクエストを異質なロールアウトバケットにルーティングするC-MLFQスケジューラを開発した。
- A800 GPU 48基を用いた評価で,Libraはスループットを最大3.0倍,報酬収束を最大2.5倍高速化した。
後悔事前学習:知識の根拠強化のための事前と事後の視点の架橋 [cs.CL, cs.CL, cs.AI]目的:因果言語モデルにおける知識の根拠強化
- 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
- 従来の因果言語モデルは過去の文脈のみを使用し,将来の情報が活用されていない。
- 将来の文脈情報を活用し,言語モデルの表現力を高めることを目指す。
- 後悔事前学習フレームワークは,教師あり学習パラダイムLUPIに基づいている。
- LocalRegretとGlobalRegretの2つの教師モデル構成で実験を行った結果,どちらもベースラインを上回る性能を示した。
- 特にGlobalRegretはBoolQの性能を18.1%向上させ,61.0%の精度を達成した。
デルタMEM:LLMエージェントのための残差木による漸進的経験記憶 [eess.SY, cs.SY, cs.AI]目的:LLMエージェントにおける経験記憶の効率的な構造化
- LLMエージェントは対話を通じて学習するため,経験記憶が重要である。
- 従来の記憶方法は冗長性が高く,類似エピソード間の競合が生じやすい。
- 残差木を用いて経験の重複を避け,効率的な記憶と検索を実現する。
- デルタMEMは,経験を目標条件付きのタスク経験と環境知識の2つの残差木に整理する。
- 残差木は,汎用的な基本経験と,その後の変化を表現するデルタノードで構成される。
- 実験により,デルタMEMは既存のベースラインを常に上回る性能を示すことが確認された。
大規模言語モデルにおける多要素因果追跡 [cs.LG, cs.CL]目的:大規模言語モデルの因果経路の特定と定量化
- 言語モデルの挙動理解は,AIの信頼性向上に不可欠である。
- 既存研究は単一要素に焦点を当て,複雑な相互作用の解明が課題であった。
- モデル内の重要要素を効率的に特定し,性能への影響を明らかにすること。
- 提案手法は,既存手法よりも効率的にターゲット指標に影響する要素群を特定できる。
- ソフト介入と指標変換を用いることで,組合せ最適化問題を連続的な問題に変換している。
- 注意機構や多層パーセプトロンなど,多様な要素群を同時に追跡する統一的なフレームワークである。
問題を解決する学習,保持を忘れる:RLVRにおける正解集合の転換 [cs.LG]目的:正解集合の獲得と,習得済み集合における回帰という連動するダイナミクス
- 大規模言語モデルの能力向上は重要であり,特に検証可能な報酬を用いた強化学習は有効な手段となる。
- 学習が進むにつれて,過去に解決できた問題が再び解けなくなるという問題が存在する。
- 過去の解決策を維持し,獲得と維持のバランスを取ることで,モデルの性能を安定化させる。
- 正解集合の転換現象を分析的に,そして経験的に確立した。回帰したプロンプトの復元コストは,レビューの遅延とともに急増する。
- 提案手法は,習得済みのプロンプトを追跡し,定期的に再提示することで,過去の解決策をモデルに想起させる。
- Qwen3-VLとQwen2.5-Mathを用いた評価で,既存手法を上回り,様々なタスクやアルゴリズムへの汎用性を示した。
安全性を考慮したオンポリシー安全蒸留 [cs.LG, cs.AI]目的:安全性と有用性のトレードオフ改善
- 大規模言語モデルの安全性確保は,社会実装において不可欠である。
- 安全性を重視した蒸留では,表現力が低下しやすいという課題がある。
- 安全性を維持しつつ,言語モデルの表現力を向上させることを目指す。
- 提案手法COPSDは,既存手法と比較して安全性と有用性のバランスが改善された。
- COPSDは,教師モデルの事前調整により,表現力の低下を抑制することに成功した。
- 12のベンチマークにおいて,COPSDが安全性に関する性能低下を大幅に削減した。
LLMベースの自動採点システムに対するプロンプトインジェクション攻撃の調査 [cs.CR, cs.AI]目的:LLMベースの自動採点システムにおけるプロンプトインジェクション攻撃の効果と対策
- 教育評価の効率化と公平性の確保は重要であり,自動採点システムの活用が期待されている。
- LLMの強力な機能ゆえに,悪意のあるプロンプトによる採点操作のリスクが存在する。
- 自動採点システムの脆弱性を明らかにし,教育評価の信頼性を守ることを目指す。
- 現在のLLMベースの自動採点システムは,プロンプトインジェクション攻撃に対して高い脆弱性を示すことが確認された。
- 攻撃者は,悪意のあるプロンプトを通じて,本来の評価とは異なる高いスコアをシステムに付与できる可能性がある。
- 本研究は,教育におけるLLM活用のセキュリティリスクを認識し,より安全なシステムの開発を促す。
BAHSD:ブラックボックス型シーケンシャル推薦における適応蒸留によるロングテールギャップの解消 [cs.IR, cs.AI]目的:ブラックボックス型シーケンシャル推薦システムの能力をローカルで再現するためのモデル抽出
- シーケンシャル推薦は広く利用されており,ユーザーの行動履歴に基づく精度の高い推薦が可能。
- ロングテール分布のデータは信号の不均一性を引き起こし,モデル抽出の精度を低下させる。
- 信号の信頼性に応じた適応的な蒸留により,ロングテールデータの取り扱いを改善し,推薦精度を向上させる。
- BAHSDは,マルチスケール一貫性プローブメカニズムを用いて信号信頼性を評価し,適応的な階層的目標を設計した。
- 提案手法は,既存手法と比較して一貫して優れた性能を示し,教師モデルを最大4.98%上回った。
- 特にロングテールユーザーに対して80%以上の改善が見られ,高精度なブラックボックス推薦抽出ソリューションを提供する。
推論の影の価格:LLMに対する最適予算配分の経済的視点 [cs.AI]目的:LLMの予算配分最適化に関する経済原理に基づく研究
- LLMの性能向上は重要だが,現実的な計算資源の制約がある。
- 限られた計算資源下での効率的な予算配分方法が課題である。
- 資源不足下で,全体的な精度を最大化する配分方法を確立すること。
- 推論時の予算配分を経済学的な制約最適化問題として定式化した。
- Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR)を提案し,無効なクエリからの資源再配分を行う。
- CLEARは,資源が限られた状況で,一様配分と比較して全体的な精度を最大3倍に向上させる。
プロンプトがどのように振る舞いを誘導するか:その分解 [cs.AI]目的:プロンプトによる振る舞い誘導のメカニズム解明
- 大規模言語モデルの活用が広がる中で,プロンプトの効果を理解することは重要である。
- プロンプトが内部表現をどのように変化させ,振る舞いに影響を与えるか不明確である。
- プロンプトによる内部表現の変化を幾何学的に分解し,振る舞い誘導のメカニズムを明らかにする。
- プロンプトは,指示されたタスク構造に向けて表現を再構成することが示された。
- 活性化の変化の多くは,形状を保持する変換(特に並進と一様スケーリング)によって捉えられる。
- アフィン変換は,タスク幾何構造の回復と振る舞い向上の両方において重要な役割を果たす。
FGRPO:非IIDデータにおける適応的集約を用いた連合型GRPO [cs.LG]目的:非IIDデータにおける推論モデルの分散型ファインチューニング
- 言語モデルの進展により,自己修正と長鎖推論に強化学習が不可欠となっている。
- 中央集権的なインフラでのGRPO利用は,データ所有者のプライバシーリスクを高める。
- 異質なタスク間の報酬スケールの違いによる不安定性を軽減し,プライバシーを保護する。
- FGRPOは,各クライアントの改善度を相対的なパフォーマンス向上で評価する適応的集約メカニズムを用いる。
- これにより,ローカルタスクの難易度に関わらず,効果的な学習経路を動的に優先する。
- FGRPOは,非IIDデータ上で堅牢な収束を保証しつつ,データプライバシーを保護する。
