arXiv雑要約
AI - 2026/06/16 公開
FORTIS:エージェントのスキルにおける過剰権限のベンチマーク [cs.AI]目的:エージェントのスキルにおける過剰権限の評価
- 大規模言語モデルエージェントの普及に伴い,安全な行動範囲の確保が重要になっている。
- スキル層は権限境界として機能するはずだが,現在のモデルはそれを逸脱しやすい。
- 過剰権限行動を定量的に評価し,その原因と対策を検討することを目指す。
- 大規模言語モデル10種類と3つのドメインにおいて,過剰権限行動が一般的な現象であることが判明した。
- モデルは,タスクに必要な最小限のスキルを選択できず,許可された範囲を超えたツールやアクションを実行することが多い。
- 特に,不完全な指示,利便性重視,スキル境界への近接性といった通常の条件下で,その傾向が顕著になる。
予測ボトルネックは因果構造を発見しない(しかし,その実際の機能はこれである) [cs.LG, cs.AI]目的:因果構造の特定における予測ボトルネックの限界と機能の解明
- 因果推論は,科学的発見や意思決定において重要な役割を果たすため,その正確な手法開発が不可欠である。
- 既存の因果推論手法は,モデルの複雑性やデータへの依存性が高く,頑健性に課題が残されている。
- 予測ボトルネックの有効性を検証し,その限界と真の機能を明らかにすることで,より信頼性の高い因果推論手法の構築に寄与する。
- Mambaモデルを用いた実験では,予測ボトルネックが必ずしも因果構造を正確に回復するとは限らないことが示された。
- シンプルな線形ボトルネックやLasso法が,合成データを用いたベンチマークテストにおいて,予測ボトルネックと同等またはそれ以上の性能を示した。
- 予測ボトルネックに認められた介入データによる優位性は,主にサンプルサイズの偏りに起因することが示唆され,標準的な介入下では消失した。
検出から復旧まで:504 GPUを用いたLLM事前学習の運用分析 [cs.DC, cs.AI]目的:大規模言語モデルの事前学習における運用状況の分析
- AIの大規模学習は分散システムの問題であり,安定運用が重要である。
- 本番環境での大規模学習の運用データは限られており,問題の特定が困難である。
- 本研究は,本番環境の運用データに基づき,大規模学習の問題解決を目指す。
- 本研究では,63ノード(504 GPU)のNVIDIA B200クラスタにおける55日間の時系列データと73日間の運用ログを分析した。
- 単一の指標では故障の種類を特定できず,多指標による検出の必要性が示唆された。
- 自動再試行は,手動再試行の2.7倍の成功率を示し,効率的な復旧に貢献することが示された。
識別的なスパンの活用による,合成データ有用性の予測:分類器再構築を介して [cs.HC, cs.CV, cs.LG]目的:合成データの有用性予測
- 現実の画像認識応用では,正例が不足しがちである。データ拡張による解決が期待される。
- 合成データの品質評価が困難であり,モデル性能向上に繋がるか判断が難しい。
- 合成データの品質を,モデル訓練なしに予測する指標を提案し,評価する。
- 提案手法は,事前学習済みモデルの埋め込み空間でデータセットを差分ベクトルとして表現する。
- 線形分類器の重みベクトルが,これらの差分ベクトルが張る部分空間内に表現可能かどうかを評価する。
- 実験の結果,提案指標は,実データと合成データを混合して訓練したCNNの分類性能と強い相関があることが示された。
LLMの不均一性が科学的創造性を解き放つ [cs.AI]目的:大規模言語モデルの科学的創造性の評価
- AI技術は急速に進歩するが,その能力向上は均一ではない。
- モデルの能力がタスクや分野によって異なり,一貫した性能改善が課題。
- LLMの不均一性を活用し,科学的創造性を高める方法を模索する。
- SciAidanBenchという科学的質問のベンチマークを導入し,LLMの創造性を測定した。
- モデルの性能はタスクや分野によって異なり,汎用的な創造性の向上が科学的創造性の向上に繋がらない場合がある。
- 推論時の計算資源,知識の統合,ブレインストーミングを組み合わせることで,単一モデルを上回る性能を実現できる。
Red-Teamingエージェント実行コンテキスト:OpenClawを用いたオープンワールドセキュリティ評価 [cs.CR, cs.AI]目的:エージェント実行コンテキストにおける脆弱性の発見
- AIエージェントの利用拡大に伴い,セキュリティリスクの評価が重要となっている。
- エージェントの実行コンテキストに潜む脆弱性が,プロンプト評価だけでは不十分である。
- 実行コンテキストを操作し,潜在的なセキュリティリスクを自動的に特定すること。
- DeepTrapフレームワークにより,OpenClaw環境においてコンテキスト脆弱性を効率的に発見できる。
- コンテキストの悪用は,ユーザーへの影響を隠蔽しつつ,危険な挙動を引き起こす可能性がある。
- 最終応答の評価だけでは不十分であり,実行時におけるセキュリティ評価の必要性が示唆される。
TERMS-Bench:LLM交渉エージェントの評価における取引成功率以上の診断 [cs.GT, cs.AI]目的:LLM交渉エージェントの経済的推論能力と戦略的多様性の診断
- 交渉は経済活動の根幹であり,市場形成,調達,労働協定など多岐にわたる分野で重要である。
- 従来のLLM交渉エージェントの評価は,取引成功率などの集約的な指標に依存し,失敗の原因特定が困難であった。
- 隠れた情報や戦略的コミュニケーションを考慮した環境下で,エージェントの失敗要因を詳細に分析し,改善点を見出す。
- TERMS-Benchは,相手方の潜在的なタイプ,戦略,報酬構造を明示的に定義することで,環境自体を検証者として機能させる。
- 13のLLMエージェントの評価から,最先端モデルでも取引成功率は飽和するものの,利益最大化,手がかりの利用,信念の較正,遵守において差異が見られた。
- この結果は,既存のベンチマークでは隠されていたエージェント固有の交渉上のボトルネックを明らかにし,改善の方向性を示唆する。
HyDRA:異種LLMプール向けハイブリッド動的ルーティングアーキテクチャ [cs.CL, cs.LG]目的:異種LLMプールの効率的なルーティング手法
- LLMの利用拡大に伴い,コストと性能のバランスが重要課題となっている。
- 既存のルーティング手法は,モデル変更時に再学習が必要であり,柔軟性に欠ける。
- モデルカタログの変更に柔軟に対応し,コストと性能を最適化するルーティング手法を開発する。
- HyDRAは,クエリの多次元的な能力要件を予測し,設定されたモデルプロファイルと照合することでルーティングを実現する。
- SWE-Bench Verifiedにおける評価で,HyDRAはコストを最大72.5%削減しつつ,性能を維持または向上させることを示した。
- HyDRAは,CJK,ヨーロッパなど,様々な文字セットに対応した言語非依存ルーティングを初めて実現した。
信頼性の高い医療画像質問応答のためのWasserstein均衡デコーディング [cs.IR, cs.CV, cs.AI]目的:医療画像質問応答における信頼性向上
- 医療現場では,プライバシー保護と低遅延が重要であり,小型言語モデルの活用が求められている。
- 小型モデルは,容量の制約から,妥当だが誤った回答を生成しやすいという課題がある。
- 意味的な合意に基づくデコーディングにより,誤った回答を抑制し,効率的な推論を実現することを目指す。
- VQA-RADとPathVQAにおいて,貪欲法や識別的ベースラインと比較して,一貫した統計的に有意な改善が確認された。
- VQA-RADでは,Qwen3-VL-2Bの精度を3.5%向上させ,4Bモデルの貪欲法による性能を上回った。
- PathVQAでは,ドメイン特化型ファインチューニングなしでGemma-3-4BがMedGemma-4Bに匹敵する性能を示し,Wasserstein基準により平均収束イテレーション数を約20%削減した。
表現自動符号化器の改善されたベースライン [cs.CV, cs.AI, cs.GR, cs.LG, stat.ML]目的:表現自動符号化器の設計選択の系統的な調査
- 画像生成モデルの性能向上は,多様な応用において重要である。
- 従来のVAEでは,十分な表現学習が困難であり,学習効率が低い場合がある。
- RAEの改良により,より効率的で高性能な画像生成を実現することを目指す。
- RAEv2は,オリジナルRAEと比較して10倍以上の高速な収束を実現した。
- ImageNet-256において,わずか80エポックで最先端のgFID 1.06を達成した。
- FDr6においても,最先端の2.17を80エポックで実現し,訓練効率の指標EPFID@2で35エポックを達成した。
スキル投票:エージェントスキル収集,推薦,進化のライフサイクルガバナンス [cs.CL, cs.AI]目的:エージェントスキルのライフサイクルガバナンスの枠組み
- 長期的な行動計画を持つLLMエージェントの活用が重要視されている。
- 既存のエージェントスキルは,冗長性,品質のばらつき,環境依存性などの課題がある。
- エージェントスキルの収集から進化までを管理し,再利用可能な経験を効率的に蓄積すること。
- SkillsVoteは,大規模なオープンソースコーパスの環境要件,品質,検証可能性をプロファイルする。
- 難易度の高いコーディングベンチマークにおいて,エージェントのパフォーマンスが向上した。
- オンラインでのタスクストリームによる進化と,オフラインでの履歴やキュレーションされたスキルによる転移が,その向上に寄与している。
EvoMemBench:自己進化の視点からのエージェントメモリのベンチマーク [cs.CL, cs.AI, cs.LG]目的:エージェントメモリの評価
- LLMエージェントの性能向上には,推論能力に加え,長期的な情報保持が不可欠である。
- 既存のベンチマークはメモリ機構を体系的に評価する手段を提供していない。
- メモリのスコープと内容に基づいた統一的な評価基準を確立すること。
- 現在のメモリシステムは汎用的な解決策には程遠く,長文脈ベースラインと遜色ない。
- メモリは,文脈が不十分な場合や難易度の高いタスクにおいて有効性が高い。
- 知識集約型タスクには検索ベースの手法,実行指向型タスクには手続き的・長期記憶が有効である。
有界予測システムにおける記述的不確実性と規制的不確実性 [cs.LG, cs.SY, eess.SY]目的:有限な表現能力を持つ世界モデルにおける不確実性の構造的区別
- 世界をモデル化するシステムは,必然的に圧縮とバイアスを持つ。そのバイアスがシステムに及ぼす影響は重要。
- 既存のシステムでは,不確実性が将来の行動に影響を与えるのか,単に出力分布を記述するだけなのかが不明。
- 不確実性の種類(記述的か規制的か)を区別し,現在のTransformerアーキテクチャの限界を明らかにすること。
- 現在のTransformerアーキテクチャは,推論時に記述的不確実性に限定されていることが証明された。
- トークンレベルのShannonエントロピーは,タスク間で統計的に不変であり,精度は大きく変動する。
- エントロピーと精度の間には相関関係がなく,モデルの規模拡大でも構造的な限界は解消されない。
テキスト超え:ガバナンスされた企業分析APIのためのエージェント型LLMシステム [cs.AR, cs.CL, cs.AI]目的:企業分析APIとの安全な連携
- 組織のデータ活用は重要だが,専門知識がないユーザーには障壁が多い。
- 従来のText-to-SQLは,複雑なビジネスロジックを内包するAPIに対応できない。
- LLMの信頼性とコンプライアンスリスクを軽減し,安全なデータ分析を実現する。
- Analytic Agentは,自然言語の意図を安全なAPI連携に変換するエージェント型システムである。
- 90の実際のユースケースで,ユーザーの目標解釈,権限検証,クエリ実行,コンプライアンス準拠の可視化が確認された。
- 複数ステップの推論とポリシーに配慮したオーケストレーションにより,高い信頼性が実現された。
DySink:自己回帰的長尺ビデオ生成のための動的フレームシンク [cs.CV, cs.AI]目的:長尺ビデオ生成における動的フレームシンクのメカニズム
- ビデオ生成の効率化には,メモリ使用量の制約が重要となる。長尺ビデオ生成では特にその課題が顕著。
- 従来のフレームシンクは固定されており,状況変化への適応性が低い。古い情報に偏り,生成品質を損なう可能性。
- 視覚的に関連性の高い過去のフレームを動的に選択し,コンテキストの崩壊を防ぐことで,生成品質の向上を目指す。
- DySinkは,コンパクトなメモリバンクと適応的検索を組み合わせ,動的なフレームシンクを実現。
- シンクアノマリゲートにより,過剰なヘッド間の一致を検出し,崩壊しやすいコンテキストを抑制。
- 実験の結果,DySinkは既存手法と比較して,動的度合いと時間的品質を向上させることを実証。
フロンティア:包括的かつ正確なLLM推論シミュレーションに向けて [cs.DC, cs.AI, cs.LG]目的:現代的なLLM推論サービングのシミュレーション
- LLMの普及に伴い,効率的な推論サービングシステムの構築が重要になっている。
- 既存のシミュレータは,分散サービングや複雑な最適化を正確に捉えられていない。
- 分散環境下でのLLM推論サービングの性能評価と最適化を可能にすること。
- フロンティアは,分散アーキテクチャを考慮したLLM推論シミュレータである。
- 16-H800 GPUテストベッドにおいて,平均スループット誤差は4%以下を達成した。
- 既存のシミュレータと比較して,エンドツーエンド遅延誤差を大幅に低減した。
生成AIによる学習時間の短縮と,それによって構築される知識 [cs.CY, cs.AI, cs.HC]目的:生成AIが数学の問題解決における学習プロセスと,その学習成果に与える影響
- 教育現場における学習効果の最大化は重要であり,学習方法の変遷を把握する必要がある。
- 生成AIの普及により,学生の学習行動が変化している可能性が指摘されているが,大規模なデータによる検証が不足している。
- 生成AIが学生の学習時間や知識習得に及ぼす影響を定量的に明らかにすること。
- ChatGPTのリリース後,大学生のAI利用しやすい問題における学習時間は四半期あたり2.8%減少,11四半期で26.9%減少した。
- プロクター試験下では学習時間の減少は解消され,AIによる効率化ではない可能性が示唆された。
- プロクター試験における正答率は25%累積的に低下し,非プロクター試験では逆の結果が見られ,認知的な放棄を示唆する。
ACC:長文脈学習のためのエージェント軌跡のコンパイル [cs.CL, cs.AI]目的:長文脈推論能力を持つLLMの学習データ作成
- LLMはエージェント開発の進展に伴い,長文脈推論能力が求められている。
- 長文脈学習には高コストなデータ収集やヒューリスティックな手法が必要とされる。
- エージェントの行動軌跡から長文脈QAペアを生成し,直接的な長文脈推論学習を目指す。
- ACCにより生成されたデータでQwen3-30B-A3Bを学習した結果,MRCRで68.3,GraphWalksで77.5を達成し,Qwen3-235B-A22Bと同等の性能を示した。
- 一般的な能力評価(GPQA,MMLU-Pro等)においても性能を維持した。
- 学習モデルはタスクに適応した注意機構の再構成と専門化を示すことが明らかになった。
視覚的プリミティブに基づく行動 [cs.RO, cs.AI]目的:ロボット操作における汎用性の高い視覚-言語-行動モデルのアーキテクチャ
- ロボット工学において,人間の指示を理解し,環境を認識し,行動を計画する能力は重要である。
- 既存のモデルは,認知・知覚能力と運動制御を同時に学習するため,効率や汎化性能が低い。
- 視覚的プリミティブを用いることで,学習効率と汎化性能の向上を目指す。
- 提案手法AVPは,既存手法pi_0.5と比較して,ピックアンドプレイス作業の成功率を37.04%向上させた。
- データ効率,空間的な構成の一般化,そして物体レベルの転移学習において,一貫した改善が見られた。
- 視覚的プリミティブを中心としたインターフェースにより,認知・知覚能力の再学習を抑制する。
MBABench:金融におけるエンドツーエンドのスプレッドシートタスクにおけるLLMエージェントの評価 [cs.AI]目的:金融分野におけるLLMエージェントのスプレッドシートタスク遂行能力の評価
- 金融分野では,財務モデリング等の業務にスプレッドシートが不可欠であり,その自動化が求められている。
- 既存のベンチマークは,質疑応答や単一の数式編集に焦点を当てており,スプレッドシートの完全な作成能力を評価していない。
- 高度なスプレッドシート作成能力を評価し,実際の金融業務に必要な品質レベルを明らかにすること。
- Claudeファミリーがベンチマークで最も高い性能を示したが,専門的な水準には及ばず,難易度が上がると著しく低下した。
- 現在のLLMエージェントは,現実世界の複雑な金融業務に必要な品質のスプレッドシートを信頼性をもって作成できないことが示唆された。
- 評価分類として,正確性,数式,書式という3つの側面から,プロフェッショナルな基準を反映した細分化された基準を開発した。
LLMはいつ推論するか:エントロピー相転移を通じた動的システムの見解 [cs.LG, cs.AI, cs.CL]目的:LLMにおける推論の動的解碼状態の分析と,それに基づいた効率的な推論戦略の確立
- 大規模言語モデル(LLM)の能力向上は重要であり,そのための推論手法の最適化が求められている。
- CoT推論は必ずしも性能向上に繋がらず,タスクによっては逆効果になる場合がある。
- 解碼初期のエントロピー変化を指標に,CoTの適用を判断することで,効率的な推論を実現する。
- 解碼初期のエントロピーダイナミクスが,CoTの有効性を予測する信頼できる指標であることが示された。
- 提案手法EDRMは,15のベンチマークと4つのLLMで,従来の静的ベースラインを上回る性能を発揮した。
- EDRMは,トークン消費量を41~55%削減しつつ,精度を向上させ,さらにはインスタンスレベルでの精度向上も実現した。
移動パターンに基づく予測モデルの公平性評価 [cs.LG, cs.CY]目的:予測モデルの公平性評価における移動パターンの考慮
- 予測モデルの公平性は,社会における機会均等や差別解消に不可欠であるため重要性が増している。
- 既存研究では,個人の居住地を単一の地理的位置として扱っており,移動パターンを考慮した公平性評価が不足している。
- 個人の移動パターンに着目し,より包括的な公平性評価手法を確立することで,新たな不公平の検出を目指す。
- 本研究では,個人の移動パターンを地理的領域と関連付け,多解像度空間分割を用いる手法を提案した。
- 提案手法は,合成データを用いた実験により,移動パターンに基づく新たな不公平を効果的に検出できることを示した。
- 位置特定性能は,空間解像度に応じて一貫したトレードオフを示すことが確認された。
SAMark:段落レベルの言い換え耐性を持つ自己アンカー型テキスト透かし [cs.CR, cs.AI, cs.CL]目的:テキスト透かしの段落レベルの言い換え耐性向上
- テキスト生成AIの悪用防止が重要視される中,生成された文章の出所を追跡する技術が求められている。
- 従来のテキスト透かしは文単位での処理が主流であり,段落レベルの言い換え攻撃に弱いという課題があった。
- 文の順序に依存しない,よりロバストなテキスト透かし手法を開発し,言い換え攻撃への耐性を高める。
- SAMarkは,意味空間におけるグリーン領域を確立することで,文の順序への依存性を排除し,透かしの埋め込みを可能にした。
- マルチチャンネル双曲線スコアリング機構により,透かし信号を増幅し,ノイズを抑制することで,検出精度を向上させた。
- 多様性を考慮したフィルタリング戦略により,意味的な冗長性を低減し,従来の透かし手法における頑健性と品質のトレードオフを解消した。
時間的特徴を強化した符号付きグラフニューラルネットワークによる動的なリンク予測 [cs.LG]目的:動的なリンク予測における符号付きグラフニューラルネットワークの性能向上
- ソーシャルメディア分析等に応用され,協力・対立関係の理解に不可欠な研究分野である。
- 符号付きグラフの構造変化と,平衡理論的制約により,効果的な学習が困難である。
- 過去の文脈を統合し,時間経過に伴う符号付き相互作用を捉えることで,この課題を解決する。
- 提案手法は,過去の文脈を組み込むためのモジュール構造を採用し,既存の静的アーキテクチャを拡張する。
- ビットコイン取引やReddit等の実データ,合成データを用いた実験で,既存手法を上回る性能が確認された。
- 時間的特徴の統合により,短期・長期的な相互作用ダイナミクスを効果的に捉えることが示された。
深層強化学習はいつキャリブレーションされたベースラインを上回すか?適応型リソース制御に関するベンチマーク研究 [cs.LG, cs.AI, cs.DC]目的:適応型リソース制御における深層強化学習の有効性評価
- クラウド環境におけるリソース効率は,コスト削減とサービス品質維持の観点から重要である。
- 従来のルールベースの自動スケーリングは,調整が難しく,複雑なワークロードに最適化が困難である。
- 深層強化学習の導入による,リソース制御の自動化と性能向上を目指す。
- キャリブレーションされたルールベースの自動スケーラは,テストした6つの主要な深層強化学習アルゴリズムを全てのワークロードにおいてコスト面で上回った。
- 離散行動アルゴリズムは,行動空間の不一致により,制約違反の点で連続行動アルゴリズムを1~2桁上回る性能を示した。
- 単一のアルゴリズムが全てのワークロードで優位性を示すことはなく,ランキングは最大で4つ変動した。
コーデクセプス:データ汚染によるLLMへの隠蔽的制御攻撃 [cs.CR, cs.AI, cs.LG]目的:LLMに対する隠蔽的制御攻撃
- LLMは多様なデータで学習され,その安全性は重要である。悪意のあるデータによる攻撃を防ぐ必要性が高い。
- 既存の攻撃はトリガーフレーズに依存し,検知や防御が比較的容易であるという課題がある。
- 意味的な関連性を利用し,検知困難な隠蔽的制御攻撃を実現することで,LLMの脆弱性を明らかにする。
- 提案手法は,事実や概念と攻撃者が選択したフレーズ間の意味的関連性を利用して,LLMに情報隠蔽スキームを学習させる。
- このスキームにより,任意の悪意のある命令をエンコード・デコードでき,新たな脆弱性である隠蔽的制御攻撃を可能にする。
- 実験結果から,本手法は既存のプロンプトインジェクション攻撃よりも約40%高い攻撃成功率を示し,防御機構を回避できることが示された。
知識グラフ基盤モデルの性能向上:強化された負例サンプリングによる [cs.AI]目的:知識グラフ基盤モデルの性能向上
- 知識グラフは,質問応答や推薦システムなど,多様な下流タスクの基盤として不可欠である。
- 既存の知識グラフは不完全であることが多く,ゼロショット知識グラフ補完が課題となっている。
- 既存の知識グラフ基盤モデルの訓練における負例サンプリングの質を向上させる。
- 提案手法KMASは,既存の知識グラフ基盤モデルの関係エンコーダから生成される更新された関係埋め込みを用いて,困難な負例を構築する。
- 訓練プロセス全体を通して,困難な負例の割合を動的に調整することで,モデルの進化する能力に適応する。
- 44のデータセットを用いた実験により,提案手法が既存の最先端知識グラフ基盤モデルの性能を向上させることが示された。
FineVLA:制御可能な視覚-言語-行動ポリシーのための細粒度な指示アライメント [cs.RO, cs.AI]目的:ロボットタスク実行における,細粒度な指示への対応
- ロボットの自律性と人間との協調にとって,自然言語による指示理解は不可欠である。
- 既存のロボットデータセットは,タスク全体の目標レベルの言語情報しか含まず,詳細な実行指示が不足している。
- 本研究は,より詳細な指示に基づいてロボットの行動を制御し,性能向上を目指す。
- 細粒度の指示のみを用いた場合でも,目標レベルの指示のみの場合と比較して成功率が向上する。
- 細粒度と目標レベルの指示を組み合わせることで,より高い性能が得られることが示された。
- 特に,目標レベルの指示では情報が不足する姿勢,色,アプローチ方向などの制御において,細粒度な指示が有効であることが確認された。
エネルギーの盲点:NVIDIAのフラッグシップエッジAIハードウェアは,プロセスレベルのエネルギー帰属をサポートできない [cs.LG, cs.AI, cs.AR, cs.DC, cs.PF]目的:エージェントAIワークロードにおけるエネルギー消費の可視化と,プロセスレベルでのエネルギー帰属の実現
- エッジAIの普及に伴い,エネルギー効率の最適化が重要課題となっている。
- 既存のエッジAIハードウェアでは,CPU側のエネルギー消費を正確に計測できないという課題がある。
- エネルギー帰属のためのハードウェア要件を定義し,エネルギー可視化の重要性を訴える。
- NVIDIAのGB10 SoC搭載機(ASUS Ascent GX10)において,CPUエネルギーカウンター等の必要なインターフェースが提供されていないことが確認された。
- MediaTekファームウェアは内部的にレールごとのエネルギー消費量を計算しているが,NVIDIAはCPUレール情報の公開予定がないと回答した。
- エネルギー帰属AIのハードウェア要件仕様を策定し,Acer Veriton GN100で検証したドメインごとのエネルギー分解の暫定的なブリッジを提案した。
表形式データに対する機械学習モデルの局所的な説明可能性指標の評価 [cs.LG]目的:機械学習モデルの説明可能性指標の信頼性
- AI利用拡大に伴い,その判断根拠の説明が求められる場面が増加している。
- 既存の説明手法では,人間には理解できてもモデルの内部挙動を正確に反映していない場合がある。
- 表形式データにおける局所的な説明手法の信頼性評価を通して,問題点を明らかにすること。
- LIME,SHAP,Feature Ablationといった手法を32データセットで比較した結果,説明の質はモデルの予測性能と必ずしも相関しないことが示された。
- データセットの複雑さや特徴量の分布が,説明の質と信頼性に大きく影響することが明らかになった。
- 予測正答率が高いサンプル群と低いサンプル群で説明の信頼性に差が見られ,モデルの性能が低いほど説明の信頼性も低い傾向にある。
コードを兵器として:悪意のあるコード要求へのコーディングモデルの準拠性を測定するための合意ベースのプロンプトバンク [cs.CR, cs.CL, cs.LG]目的:悪意のあるコード要求へのコーディングモデルの準拠性を測定するためのプロンプトバンク
- 汎用言語モデルと異なり,コーディングモデルは実行可能な悪意のあるコードを生成可能であり,その危険性は比較にならない。
- 既存の悪意のあるコードに関する拒否ベンチマークは断片的で,比較可能性に欠ける。
- プロンプトと評価者の変更による影響を受けない,信頼性の高い分類軸の確立を目指す。
- CODEとKNOWLEDGEの分類軸が,大幅に拡張されたコーパスと独立した評価者パネルにおいて安定していることが確認された。
- 8つのコーパスを5人の評価者による合意プロトコルで分類した結果,Fleiss' kappa = 0.767という高い合意度が得られた。
- 4,748件のCODEプロンプトと1,923件のKNOWLEDGEプロンプトから構成される,信頼性評価済みのベンチマークを公開する。
libhmm:隠れマルコフモデルのための最新C++20ライブラリ。正しい最尤推定放出Mステップを実装 [cs.MS, cs.LG]目的:隠れマルコフモデルのパラメータ推定,系列デコード,モデル選択
- 隠れマルコフモデルは,音声認識,バイオインフォマティクス等,多様な分野で広く利用されている。
- 既存のC++ライブラリはメンテナンス不足,依存関係が多い,または最尤推定法を用いない近似解法に頼っている場合が多い。
- 正確な最尤推定によるパラメータ推定と,組み込みやすいライブラリを提供し,精度と利便性を向上させる。
- libhmmは,16種類のスカラー放出分布に対して正しい最尤推定量を実装し,ECMEアルゴリズムやニュートン・ラプソン法を使用。
- SIMDアクセラレーションにより,AVX-512,AVX2,SSE2,ARM NEONなどの環境で高速化を実現。
- 実データを用いたベンチマークテストにおいて,既存のC/C++ライブラリやRパッケージと比較して良好な性能を示した。
SAAS:エージェント検索における過剰検索の軽減のための自己認識型強化学習 [cs.AI, cs.CL, cs.LG]目的:エージェント検索における過剰検索の軽減
- 大規模言語モデルによる複雑な質問解決が期待されるが,計算コストが課題となる。
- 既存のエージェント検索システムは,知識の限界を認識できず,無駄な検索を引き起こす。
- 自己認識型強化学習を通じて,検索行動を適切に制御し,過剰検索を抑制すること。
- 提案手法SAASは,検索境界のモデリング,境界を考慮した報酬モジュール,段階的最適化戦略により過剰検索を大幅に削減する。
- 検索境界のモデリングにより,検索の必要性と限界を特定し,不要な検索を抑制する。
- 実験結果から,SAASは精度を維持しつつ,過剰検索を効果的に軽減することが示された。
次世代LLMエージェントシステムにおける協力の進化力学:クロスプロバイダー実証的拡張 [cs.MA, cs.AI, cs.GT]目的:次世代LLMエージェントにおける協力行動の傾向
- LLMエージェントの発展は,社会実装において重要であり,その協力性理解が不可欠である。
- 既存研究ではLLMエージェントの協力バイアスが確認されるも,大規模化やプロバイダーの多様性が行動に与える影響は不明確である。
- 異なるプロバイダーの次世代LLMエージェントにおける協力行動の傾向を比較し,影響要因を特定すること。
- ChatGPT-4oとClaude 3.5 Sonnetにおいて協力バイアスが確認されていたが,次世代モデルでも同様の傾向が認められた。
- Gemini 2.5 Flashは偏った条件で攻撃的な均衡に達する一方,GPT-5.4 Miniは自己修正プロンプト下で協力的な均衡が高い傾向を示した。
- プロバイダーの特性が均衡結果に最も強く影響し,ノイズはモデルサイズに関わらず普遍的な課題として残る。
Metaにおける低リスクなコードレビューの自動化:RADAR,リスク調整,レビュー効率 [cs.SE, cs.AI]目的:AI支援によるコードレビュー自動化システムの開発と評価
- ソフトウェア開発の効率化が重要であり,AIの活用がその鍵となる。
- AIによるコード生成量の増加に伴い,レビューリソースが逼迫している。
- レビュー遅延を解消し,AI生成コードの安全性を確保すること。
- RADARは535,000件以上のdiffをレビューし,331,000件以上を承認した。
- Diff Risk Scoreの閾値を緩和することで,承認率は60.31%に向上した。
- RADARでレビューされたdiffのリバート率は非RADARdiffの1/3,本番環境でのインシデント発生率は1/50に減少した。
まず偵察を送る:プロンプトインジェクション対策における適応型検出器割り当てのための事前推論 [cs.CR, cs.LG]目的:プロンプトインジェクション攻撃に対する検出器の動的な割り当て
- プロンプトインジェクション攻撃はLLMの安全性を脅かす深刻な問題であり,堅牢な防御策が不可欠である。
- 既存のシステムは単一の検出器に依存しており,攻撃の種類によっては検出性能が低下する可能性がある。
- 複数の検出器の特性を考慮し,各リクエストに最適な検出器を動的に割り当てることで,防御性能を向上させる。
- 提案手法SCOUTは,過去の入力データに基づいて各検出器の信頼性と遅延時間を予測し,安全性と有用性のバランスを調整する。
- 評価ベンチマークSCOUT-450において,攻撃成功率を46%削減し,処理時間を40%短縮した。
- 他のベンチマークにおいても有効性が確認され,安全と有用性のトレードオフを改善した。
高周波偏微分方程式を解くための多重スケール分離可能フーリエニューラルネットワーク [cs.MM, cs.LG]目的:高周波偏微分方程式の正確かつ効率的な解法
- 科学技術計算において,偏微分方程式の数値解法は不可欠であり,その効率化は重要な課題である。
- 従来の数値解法は,高周波現象に対して計算コストが増大し,大規模問題への適用が困難となる場合がある。
- 本研究は,ニューラルネットワークを用いて,高周波偏微分方程式を効率的に解く手法を開発し,その精度向上を目指す。
- 提案手法であるMS-SFNNは,従来のPINNやSV-SNNと比較して,様々な偏微分方程式において,より高い精度を達成した。
- MS-SFNNは,フーリエ特徴を明示的に組み込むことで,強力なスペクトル近似能力を実現している。
- 大規模問題に対応するため,メモリ効率の良いバッチQR分解アルゴリズムと解析的に導出された基底関数微分を導入した。
モデルネイティブコンピューティングアーキテクチャ:コンピュータアーキテクチャの視点を通じた将来のシステムアーキテクチャの構想 [cs.AI]目的:大規模言語モデルをCPU,KVキャッシュをプロセッサキャッシュ,コンテキストウィンドウをメインメモリ,エージェントフレームワークをOSと捉え,コンピュータアーキテクチャの知見を応用したモデルネイティブシステムの構築
- 大規模言語モデルは技術的な側面からシステム技術へと移行しており,そのシステム設計は重要性を増している。
- LLMをOS,メモリ管理,エージェントなど,各層が独立して議論されており,統一的なモデルが存在しない。
- LLMシステムを体系化し,各層間のインターフェースと設計原則を定義することで,効率的なシステム構築を目指す。
- インテリジェントコンピューティングアーキテクチャ(ICA)を提案し,確率的実行平面と決定論的制御平面の二重平面アーキテクチャを提示した。
- セマンティック局所性,コンテキスト予算,エージェント高速化という3つの設計ヒューリスティクスを提案し,パラメータ範囲を概算した。
- LLMと従来のシリコンアーキテクチャの違いを指摘し,今後の研究ロードマップを提案することで,今後の研究の方向性を示した。
飛ぶ前に見極める:ビジョン言語モデルにおける蜃気楼の検出 [cs.CV, cs.AI]目的:ビジョン言語モデルにおける蜃気楼検出の事前実施
- ビジョン言語モデルは多様な応用が期待されるが,誤った情報に基づく回答は重大な問題を引き起こす可能性がある。
- ビジョン言語モデルは,視覚的証拠がない,または不適切であるにも関わらず,自信のある回答を生成することがある。
- 視覚的証拠の有無を事前に判断し,回答を控えることで,誤った回答のリスクを軽減することを目指す。
- 提案手法TC-LIAは,CLIP ViT-H/14の各層におけるパッチトークン表現を解析し,質問との関連性を評価する。
- Qwen2.5-VL-32Bは,5つのVQAドメインにおいて94.7%の検出精度と3.0%の蜃気楼発生率を達成した。
- Qwen2.5-VL-72Bは,94.6%の精度と2.8%の発生率を示し,既存手法と比較して大幅な改善が見られた。
半教師ありノイズ適応:ノイズ領域からの知識転移 [cs.LG]目的:半教師あり設定におけるノイズ領域の活用によるターゲット領域の汎化性能向上
- 知識転移は,ターゲット領域の学習を促進する重要な手法である。豊富なデータを持つソース領域の知識を活用する。
- 従来の知識転移は意味のあるサンプルをソース領域とするが,ラベルなしデータが多い場合に課題が残る。
- 合成ノイズ領域を活用し,ターゲット領域の汎化性能を向上させる新たなアプローチを提案する。
- 提案手法NAFは,ノイズ領域の効果を汎化誤差の上界に反映させ,それをタイト化することで性能向上を実現した。
- 実験結果から,NAFがノイズ領域を効果的に活用し,ターゲット領域の汎化性能を向上させることが示された。
- NAFは半教師あり学習において,ノイズ領域という新たなソース領域の可能性を示唆している。
マルチエージェントLLMシステムにおける無駄な計算の早期診断:障害を意識した可観測性 [cs.AI]目的:マルチエージェントLLMシステムにおける無駄な計算の診断
- LLMの高度化に伴い,複雑なタスクを複数のエージェントで連携して処理するシステムが増加している。
- マルチエージェントシステムでは,各エージェントの処理状況を把握し,無駄な計算を早期に発見することが課題である。
- 本研究は,障害を意識した可観測性によって,無駄な計算を早期に検出し,システム効率を改善することを目指す。
- 提案手法では,オーケストレーター,検索エージェント,実行エージェントの3層構造において,オンラインシグナルとオフラインセマンティック評価を組み合わせる。
- GAIA検証データを用いて実験した結果,警告を発した失敗事例では,警告後にも平均で58.1%のトークンが消費されていることが示された。
- 警告に基づいて検索の多様化や証拠の要求を行うことで,警告後のトークン消費比率を0.638から0.304に低減することに成功した。
S-SPPO:意味的校正を用いた自己対戦型選好最適化 [cs.HC, cs.AI, cs.LG]目的:大規模言語モデルと人間の選好の整合化
- LLMの性能向上には,人間の価値観との整合が不可欠であるため,選好最適化研究は重要。
- 従来のDPOは,人間の選好の非推移性に対応できず,最適化が不安定になる場合がある。
- S-SPPOは,意味的校正によりSPPOの不安定性を解消し,性能劣化を防ぐことを目指す。
- S-SPPOは,意味的ゲートによる監視校正と潜在的反発による表現校正を導入した。
- これにより,定常和ゲームの構造を維持し,ナッシュ均衡への収束を可能にした。
- Llama-3-8Bを用いたAlpacaEval 2.0において,52.19%の勝率と47.46%の長さ制御勝率を達成した。
時系列と時間イベントシーケンス間の相互情報量の多様な分析タスクにおける推定 [cs.LG, cs.AI, cs.IT, math.IT]目的:時系列と時間イベントシーケンス間の依存性の定量化
- 時間データマイニングにおいて,相関や因果関係といったペアワイズ依存性尺度は基礎的である。
- 異種データ型,特に連続時系列と離散時間イベントシーケンス間の依存性を定量化する原理的で堅牢な方法が存在しない。
- 既存手法の偏りや不安定性を克服し,時系列とイベントシーケンス間の依存性を直接定量化すること。
- 提案手法は,データ変換,学習,または恣意的な離散化なしに,時系列とイベントシーケンス間の依存性を直接測定する。
- 連続-離散の二重性をモデル化することで,量子化や繰り返し値の影響を処理し,イベントの共起と冗長性によるバイアスを軽減する。
- 実験結果は,既存手法と比較して,精度,堅牢性,解釈可能性において一貫した改善を示した。
TechRAG:証拠ゲートを用いた技術文献推論のためのマルチモーダルエージェント型RAG [cs.IR, cs.AI, cs.MA]目的:技術文献の推論のためのマルチモーダルエージェント型RAGフレームワーク
- 専門分野の知識は技術発展に不可欠であり,効率的な情報アクセスが重要である。
- 従来のRAGシステムでは,複雑な技術文献の理解と正確な推論に課題があった。
- 専門知識を含む文献から,証拠に基づいた正確な推論を可能とするシステムを構築する。
- 提案手法は,テキスト,グラフ,視覚的証拠を組み合わせたスケーラブルなマルチモーダル検索アーキテクチャを実現した。
- 証拠の十分性を評価し,必要に応じて検索を再試行するメカニズムを組み込んだことで,推論の信頼性を高めた。
- プランナー,リサーチャー,ライター,クリティックのエージェントを活用した生成パイプラインにより,証拠に基づいた回答の生成と自己修正を実現した。
多変量時系列ベンチマークにおける異常は主に単変量である [cs.LG, cs.AI]目的:多変量時系列異常検知における異常構造の特性の評価
- 時系列データ分析は,金融,医療,製造など,幅広い分野で重要視されている。
- 多変量時系列異常検知において,チャネル間の相互関係を考慮するモデルが多いが,その有効性が検証されていない。
- 既存のベンチマークが,チャネル間モデリングの能力を評価するのに適していないという問題を指摘する。
- 8つの公開ベンチマークを用いた評価により,異常箇所において,チャネル間の相関構造の変化が見られない場合,少なくとも1つのチャネルが単独で異常を示すことが確認された。
- 6つのベンチマークにおいて,異常セグメントの少なくとも半分で,全タイムステップの89%から100%で単変量的な逸脱が見られた。
- 合成データを用いた実験では,チャネル依存モデルがチャネル間信号を効果的に利用する一方で,チャネル独立モデルは失敗した。実データでの比較も同様の結果を示した。
Fast-dLLM++:より高速な拡散LLM推論のためのFréchetプロファイルデコーディング [cs.CL, cs.AI, cs.LG]目的:拡散LLMの推論速度向上
- LLMは文章生成において重要な役割を担う。高速化は実用上の課題である。
- 従来のLLM推論は逐次処理が中心であり,並列化による高速化が求められていた。
- 候補トークンの信頼度分布を考慮し,より効率的な並列化を実現する。
- Fréchetプロファイルデコーディングにより,既存のFast-dLLMよりも高いスループットを実現した。
- GSM8K,MATH,HumanEval,MBPPのベンチマークで,同程度の精度を維持しつつ,最大37%のスループット向上を達成した。
- Fast-dLLM++は既存のFast-dLLMのドロップイン置換が可能であり,容易に導入できる。
拡散モデル事前分布を用いたベイジアンテンソル分解 [cs.CY, cs.LG]目的:テンソル分解における事前分布の導入
- データ解析において,高次元データの効率的な表現と解析が重要であるため,テンソル分解が活用されている。
- 欠損やノイズが多いデータに対して,従来のテンソル分解は性能が低下するという課題がある。
- 拡散モデルというデータ駆動型の事前分布をテンソル分解に導入し,頑健性を高めることを目指す。
- 提案手法DiffBCPは,CP分解の自動ランク選択と,事前学習済みの拡散モデルを組み合わせたベイジアンCP分解フレームワークである。
- DiffBCPでは,CP因子は共役更新が可能であり,拡散モデルブロックは低ランク制約付きノイズ除去によってサンプリングすることで,効率的な推論を実現している。
- 画像補完やノイズ除去の実験により,既存のテンソル分解手法と比較して,一貫した性能向上が確認された。
間違いから学ぶ:安全なコードLLMのための木構造自己対戦 [cs.SI, cs.CR, cs.AI]目的:安全なコード生成におけるLLMの脆弱性軽減
- LLMはコード生成に優れるが,訓練データ由来の脆弱性を再現しやすい。
- 既存手法はシーケンスレベルでの最適化に偏り,局所的なセキュリティ flawへの対処が困難。
- 木構造自己対戦により,LLMが自身の誤りを認識し,修正する能力を獲得することを目指す。
- 木構造自己対戦は,CodeLlama-7BのPythonセキュリティベンチマークにおける合格率を75.8%に向上させた。
- 従来のSFT(57.0%)や無構造の自己対戦と比較して,大幅な性能向上を示した。
- C/C++で学習したセキュリティ原則を,Python, Go, JavaScriptなど多様な言語へ転移することに成功した。
EvalStop:マルチテナントRLHFプラットフォームにおける報酬の過剰最適化を検出し修正するためのワールドフィードバックの利用 [cs.LG, cs.AI, cs.DC]目的:マルチテナントRLHFプラットフォームにおける報酬の過剰最適化の検出と修正
- クラウドLLMのファインチューニング需要が高まる中,人間の品質評価の代替として報酬モデルが最適化される。
- 報酬モデルの最適化が進むと,実際の評価指標との乖離(報酬の過剰最適化)が発生する可能性がある。
- この報酬の過剰最適化を検出し,効率的にリソースを解放することで,プラットフォーム全体のパフォーマンス向上を目指す。
- EvalStopは,評価スコアの連続する低下をトリガーにジョブを終了し,GPUを解放するシンプルな手法である。
- シミュレーション実験の結果,EvalStopは高い精度(98%)と再現率(99%)を示し,JCTを9%改善,無駄な計算を22%削減した。
- EvalStopは様々なベーススケジューラと組み合わせることができ,評価ノイズや報酬ハッキングの割合に強い安定性を示した。
テスト時計算量のスケーリング:深さ条件付きループトランスフォーマーを用いたASR [cs.LG]目的:ASRにおけるテスト時計算量スケーリング手法
- 自動音声認識は,人間と機械のコミュニケーションを円滑にする上で不可欠な技術である。
- 推論時に計算量を増やすことが困難であり,モデルサイズを大きくする必要がある。
- テスト時の計算量を調整することで,認識精度を向上させることを目指す。
- LARMは,推論時のループ回数を増やすことでWERを改善する。
- LARMは,より深いモデルと同等の性能を達成する。
- テスト時計算量のスケーリングは,自己回帰言語モデルだけでなく,非自己回帰音声認識にも適用可能である。
