arXiv雑要約

セキュリティ - 2026/03/25 公開

CyberGym：大規模な評価によるAIエージェントの現実世界のサイバーセキュリティ能力 [cs.CR, cs.AI, cs.LG]目的：AIエージェントのサイバーセキュリティ能力の評価
- サイバーセキュリティは，社会インフラや個人情報を守る上で不可欠であり，その重要性は増している。
- 既存の評価手法は規模が小さく，動的なセキュリティ課題を捉えきれていない。
- AIのサイバーセキュリティ能力を正確に測定し，現実世界への影響を創出すること。
- CyberGymは，1507件の脆弱性を含む大規模ベンチマークであり，AIエージェントの能力を効果的に識別できる。
- 最先端の組み合わせでも成功率は約20%にとどまり，課題の難易度が高いことが示された。
- CyberGymによって34件のゼロデイ脆弱性と18件の未完成パッチが発見され，実用的なセキュリティインパクトが確認された。
Link: https://arxiv.org/abs/2506.02548
Torネットワークのディレクトリプロトコルに対するDDoS攻撃と対策 [cs.CR]目的：Torネットワークのディレクトリプロトコルの脆弱性とその対策
- Torネットワークは匿名性を提供する重要なインフラであり，その可用性は利用者にとって不可欠である。
- Torのディレクトリプロトコルは同期性を強く仮定しており，現実のネットワーク環境下で脆弱性が存在する。
- 本研究は，TorディレクトリプロトコルのDDoS攻撃による停止を防ぐための対策を提案する。
- 本研究により，Torディレクトリプロトコルはわずか5分間のDDoS攻撃で停止可能であることが示された。攻撃コストは月額53.28ドル程度と安価である。
- 本研究では，部分同期性を仮定した新しいTorディレクトリプロトコルを設計し，その安全性を証明した。
- Rustでプロトタイプを実装し，既存プロトコルと同等の性能を示すことができた。
Link: https://arxiv.org/abs/2509.10755
LLMエージェントにおけるモデルコンテキストプロトコルに対する攻撃ベンチマーク (MSB) [cs.CR, cs.AI]目的：LLMエージェントにおけるモデルコンテキストプロトコル(MCP)特有の攻撃に対する耐性を，ツール利用パイプライン全体を通して測定すること
- LLMエージェントの普及に伴い，外部ツールとの連携が不可欠となり，その安全性が重要視されている。
- MCPはツール連携を標準化する一方で，自然言語メタデータや標準I/Oを通じて攻撃対象領域を拡大する。
- MCPエージェント特有の攻撃に対する脆弱性を評価し，その対策の基盤を提供すること。
- MSBは，名称衝突，プロンプトインジェクションなど12種類の攻撃を分類し，実環境でのツール実行に基づいた評価を実現した。
- 性能の高いモデルほど，ツール呼び出し能力と指示追従能力が高いため，攻撃に対して脆弱である傾向が示された。
- Net Resilient Performance(NRP)という指標を用いて，セキュリティとパフォーマンスのトレードオフを定量的に評価した。
Link: https://arxiv.org/abs/2510.15994
虚偽の注入：LLMにおける事実の想起を損なう中間者攻撃 [cs.CR, cs.AI, cs.CL]目的：LLMにおける事実の想起に対するプロンプトインジェクションによる中間者攻撃の評価
- LLMは情報検索の重要な要素となり，その正確性が重要視されている。
- LLMは敵対的攻撃に対して脆弱であり，誤った情報を提供する可能性がある。
- LLMへの攻撃を評価し，その脆弱性を明らかにし，防御策を提案すること。
- 本研究では，Xmeraという新しい中間者攻撃フレームワークを用いて，LLMの事実記憶に対する攻撃を評価した。
- 簡単な指示に基づく攻撃で高い成功率（最大約85.3%）が得られ，誤った回答に対する不確実性も高いことが示された。
- 応答の不確実性レベルに基づいて学習させたランダムフォレスト分類器を用いて，攻撃の検出が可能であることが示された（平均AUC最大約94.8%）。
Link: https://arxiv.org/abs/2511.05919
AIアルゴリズムにデータを開示せずに販売：準同型暗号化による安全なデータ評価と共有 [cs.CR, econ.GN, q-fin.EC]目的：データの有用性を検証するためのプライバシー保護メカニズム
- AIの発展には質の高いデータが不可欠だが，データ市場の摩擦が大きい。
- データの有用性の検証とプライバシー保護は相反する課題であり，データ共有を阻害する。
- 準同型暗号化と影響関数を用いて，データの有用性を評価する新しい枠組みを提案する。
- 提案手法（TIP）は，暗号化されたデータに対してAIモデルの性能を評価できる。
- 大規模言語モデルへの適用性を高めるため，低ランク勾配射影を用いることで計算コストを削減した。
- ヘルスケアや生成AIのシミュレーションにより，暗号化された評価値と実際の有用性の高い相関関係が確認された。
Link: https://arxiv.org/abs/2512.06033
メタファーに基づくテキスト-画像モデルへの脱獄攻撃 [cs.CR, cs.AI, cs.CV]目的：テキスト-画像モデルの安全性脆弱性の解明と，多様な防御機構に対する攻撃手法の開発
- テキスト-画像モデルの安全性確保は重要であり，悪意のある画像生成を防ぐ必要がある。
- 既存の攻撃手法は，防御機構の種類を事前に知っていることを前提としており，未知の防御に対しては有効性が低い。
- 本研究では，防御機構の種類を事前に知らずとも攻撃可能なメタファーに基づく攻撃手法を提案する。
- メタファーに基づく脱獄攻撃（MJA）は，多様な防御機構を持つテキスト-画像モデルに対し，高い攻撃性能を発揮する。
- MJAは，既存の6つのベースライン手法と比較して，少ないクエリ数でより強力な攻撃を実現する。
- メタファーは意味の曖昧性を生み出し，モデルの潜在的な意味解釈を通してセンシティブな画像生成を誘発する。
Link: https://arxiv.org/abs/2512.10766
NOWA：見えないキャプチャ指紋認証と改ざん局在化のための零空間光ウォーターマーク [cs.CR, eess.IV]目的：デジタル画像の真正性と所有権の保証
- デジタルフォレンジックの重要性が増しており，画像の改ざん検出が課題となっている。
- 従来のデジタルウォーターマークは，高度な攻撃に対して脆弱であるという問題がある。
- 画像の生成過程で物理的な認証情報を組み込み，改ざんを局在化することを目指す。
- 提案手法は，カメラの光学系に位相マスクを導入し，人間の目に知覚できないウォーターマークを埋め込む。
- 零空間ネットワークを用いて画像再構成を行うことで，高画質を維持しつつ，ウォーターマークの情報を保護する。
- 画像の零空間への投影により，ピクセルレベルでの不整合を検出し，改ざん箇所を特定できる。
Link: https://arxiv.org/abs/2512.22501
DP-FedSOFIM：正則化されたフィッシャー情報行列を用いた差分プライバシー連合確率的最適化 [cs.RO, cs.LG, cs.CR, cs.DC]目的：差分プライバシー連合学習における収束加速と精度向上
- データプライバシー保護と機械学習の活用が重要視される中，連合学習が注目されている。
- 差分プライバシーを適用した連合学習は，プライバシー保護のためにノイズを加える必要があり，収束が遅れるという課題がある。
- 本研究では，ヘッセ行列の計算や特徴量の共分散推定を必要とせず，効率的な二階最適化手法を提案する。
- 提案手法DP-FedSOFIMは，サーバー側で正則化されたフィッシャー情報行列を構築することで，勾配の質を向上させる。
- DP-FedSOFIMは，CIFAR-10とPathMNISTの実験において，DP-FedGD，DP-SCAFFOLD，DP-FedFCよりも高速に収束し，高い精度を達成した。
- 特に，厳しいプライバシー制約下において，DP-FedSOFIMの優位性が顕著に示された。
Link: https://arxiv.org/abs/2601.09166
効果はあるが不可解：生体触発探索による古典中国語脱獄プロンプト最適化 [cs.AI, cs.CR]目的：大規模言語モデルに対する古典中国語を用いた脱獄プロンプトの自動生成
- 大規模言語モデルの利用拡大に伴い，そのセキュリティリスクへの関心が高まっている。
- 既存の手法では，言語環境によって脱獄攻撃の有効性が異なり，十分な対策がなされていない。
- 古典中国語の簡潔さと難解さを利用し，言語モデルの安全対策を回避する手法を開発する。
- 提案手法CC-BOSは，多次元のフルーツフライ最適化に基づき，効率的な脱獄プロンプトを自動生成する。
- プロンプトは，役割，行動，メカニズムなど8つの次元で表現され，探索空間を効率的に探索する。
- 実験の結果，CC-BOSは最先端の脱獄攻撃手法を凌駕する有効性を示すことが確認された。
Link: https://arxiv.org/abs/2602.22983
エコシステム信頼プロファイル [eess.SY, cs.SY, cs.AR, cs.HC, cs.CR]目的：デジタルエコシステムにおける信頼プロファイル定義と活用
- データ利活用において，エコシステム間の相互運用性と信頼関係の確立が不可欠である。
- エコシステムは，それぞれ独自に信頼関係を定義するため，相互信頼の確立が困難である。
- エコシステム主権を保ちつつ，エコシステム間の信頼関係を構築する手法を確立すること。
- エコシステム信頼プロファイルを用いて，エコシステムが信頼する資格情報を定義・共有する手法を提案した。
- 異なるエコシステムの信頼フレームワークを利用し，エコシステム間の最小限の信頼関係を定義した。
- データ空間における相互運用性は，エコシステム信頼プロファイルの共通性に比例することが示された。
Link: https://arxiv.org/abs/2603.05521
エージェント制御プロトコル：エージェントアクションの許可制御 [cs.CR, cs.AI]目的：B2B環境における自律エージェントの許可制御に関する技術仕様
- 企業間取引における自動化が進む中で，エージェントの安全な動作を保証する必要性が高まっている。
- 既存のRBACやZero Trustモデルでは，エージェントの具体的な行動を統制し，追跡することが困難である。
- エージェントの行動範囲，条件，制限を統制し，組織境界を越えた完全な追跡可能性を確保すること。
- エージェント制御プロトコル（ACP）は，暗号化による許可チェックを導入し，エージェントの識別，能力，委任，ポリシー遵守を検証する。
- ACPは，Ed25519などの暗号化技術，能力ベースの認可，決定論的なリスク評価，検証可能な委任チェーンなどを定義する。
- バージョン1.17では，38の技術文書，Goによる参照実装，テストベクトル，OpenAPI仕様，TLA+形式モデルなどが提供されている。
Link: https://arxiv.org/abs/2603.18829
DeepXplain：XAI誘導による多段階APTキャンペーンに対する自律的防御 [cs.CR, cs.AI]目的：多段階APTキャンペーンに対する自律的防御のための説明可能な強化学習フレームワーク
- サイバー攻撃は巧妙化の一途をたどっており，組織への被害が深刻化している。
- 従来の防御手法では，未知のAPT攻撃に対応しきれないという課題がある。
- 強化学習による自律的防御の信頼性と解釈性を向上させる。
- DeepXplainは，攻撃の段階を考慮した防御を実現し，F1スコアと成功率を向上させた。
- 説明信号を強化学習に組み込むことで，防御の透明性と信頼性を高めた。
- DeepXplainは，APT防御における説明可能な強化学習の第一歩となる。
Link: https://arxiv.org/abs/2603.21296
TALUS：境界クリアランスとキャリー除去によるワンラウンドオンライン署名を用いた閾値ML-DSA [cs.CR]目的：閾値ML-DSAの実現
- デジタル署名における閾値方式は，秘密鍵を分割管理し，セキュリティと可用性を高める上で重要である。
- ML-DSAは非線形な丸め処理を含むため，既存の閾値方式への適用が困難であった。
- ML-DSAの丸め処理による問題を解決し，効率的な閾値方式を実現することを目指す。
- 本研究では，TALUSと呼ばれる新しい閾値ML-DSAを提案し，99%以上のオンライン成功率を達成した。
- TALUSは，境界クリアランス条件（BCC）とキャリー除去フレームワーク（CEF）という2つの技術を用いることで，オンライン署名を単一のブロードキャストラウンドに削減した。
- 実装結果は，TALUS-TEEおよびTALUS-MPCが実用的なパフォーマンスを示すことを示しており，既存の競合手法に匹敵する速度を実現した。
Link: https://arxiv.org/abs/2603.22109