arXiv雑要約

セキュリティ - 2026/05/27 公開

  • MemMorph:LLMエージェントにおける記憶汚染を通じたツール乗っ取り [cs.CR, cs.AI]目的:LLMエージェントのツール選択の偏り
    • LLMエージェントはツールを活用してタスクを完遂するが,セキュリティ上の脆弱性が存在する。
    • 既存研究はツールメタデータの改ざんが中心で,検知されやすく,効果が限定的になりつつある。
    • エージェントの長期記憶を汚染することで,ツール選択を巧妙に誘導する攻撃手法を提案する。
    • MemMorphは,わずか3件の改ざん記録で最大85.9%の攻撃成功率を達成した。
    • 既存の強固なベースラインを最大25%上回る性能を示し,3つの代表的な防御策下でも有効性を維持する。
    • 長期記憶がツール拡張エージェントにおける重要な攻撃対象領域であり,メモリレベルのセキュリティ対策の必要性を訴える。

    Link: https://arxiv.org/abs/2605.26154

  • バイアスをバグに変える:LLMジャッジへのバンディット誘導スタイル操作攻撃 [cs.CR, cs.AI, cs.LG]目的:LLMジャッジを欺き,スコアを人為的に上昇させる意味を保持した編集の学習
    • LLMの普及に伴い,LLMを評価者として活用するケースが増加している。
    • LLMジャッジには文体に関するバイアスが存在し,評価の公平性を損なう可能性がある。
    • LLMジャッジのバイアスを悪用し,攻撃によって評価を操作することを目指す。
    • 提案手法BITEは,LLMジャッジのバイアスを利用して,スコアを最大化するスタイル編集を適応的に選択する。
    • 様々なLLMジャッジとタスクにおいて,65%を超える攻撃成功率と,9点満点中1-2点のスコア上昇を達成した。
    • BITEは標準的なスタイル制御手法や検出基盤を回避できることが示され,LLMを評価者とする際の脆弱性が明らかになった。

    Link: https://arxiv.org/abs/2605.26156

  • Furina:断片化された不確実性駆動型拒否不安定性攻撃 [cs.CR, cs.AI, cs.LG]目的:大規模言語モデルの安全性脆弱性の解明
    • LLM/MLLMの安全性確保は重要であり,その評価手法の確立が求められている。
    • 既存の安全性評価は,二値的な閾値で判断されると考えられており,その限界がある。
    • 不確実性の増幅を利用し,モデル固有の最適化なしに安全性脆弱性を引き起こす攻撃手法の提案。
    • 安全性は,確率的な拒否決定を引き起こす不安定領域によって支配されることが示された。
    • 外部・内部信号を組み合わせた診断フレームワークにより,不安定領域の特性が明らかになった。
    • Furinaは,HarmBenchやMM-SafetyBenchにおいて強力なベースラインを上回り,不確実性の増幅が有効であることが示された。

    Link: https://arxiv.org/abs/2605.26158

  • デバイスコンテキストプロトコル:LLM駆動型制約デバイス制御のためのコンパクトで安全優先のアーキテクチャ [cs.NI, cs.CR, cs.LG]目的:LLMによる制約デバイスの制御のための,コンパクトかつ安全性の高いプロトコルアーキテクチャ
    • IoTデバイスの普及に伴い,LLMを用いた制御の重要性が増している。
    • 既存のプロトコルはリソース制約のあるマイクロコントローラには適用が難しく,安全性の問題も存在する。
    • LLMの誤動作や不正な操作からデバイスを保護しつつ,LLMによる制御を可能にすること。
    • DCPは,50バイト未満のフレームサイズと,機能制限,範囲チェックなどの安全機能をプロトコル層に実装した。
    • DCPは,ESP32上で27.6KBのフラッシュと0.6KBのRAMという小さなフットプリントで動作する。
    • 実験結果から,DCPは機能エスカレーションの試みを100%,プロンプトインジェクションの78%を阻止し,既存プロトコルより大幅に安全性が向上することが示された。

    Link: https://arxiv.org/abs/2605.26159

  • IoT向け自律型オンライン侵入検知の性能向上:バランス学習,信頼性の高い疑似ラベル,軽量アーキテクチャ [cs.CR, cs.AI, cs.LG]目的:IoT環境における侵入検知システムの性能向上
    • IoTデバイスの急増により,動的なサイバー脅威に対応可能な侵入検知システムの需要が高まっている。
    • 既存のシステムは,クラス不均衡,不安定な疑似ラベル,汎化性能の限界,計算コストなどの課題を抱えている。
    • 本研究は,これらの課題に対処し,IoT環境への実用的な展開を可能とする。
    • 提案手法XGBoost-BalSampは,UNSW-NB15ベンチマークにおいて89.19%だったベースラインに対し,95.45%の精度を達成した。
    • 深層学習アプローチ(PseudoFilter, MixupAug, LiteAE)は,ベース論文の性能を上回り,モデルパラメータを55%削減した。
    • これらの結果は,AOC-IDSへの的を絞った改良が,精度向上とIoTエッジデバイスへの展開可能性向上に繋がることを示している。

    Link: https://arxiv.org/abs/2605.26166

  • CyberEvolver:サイバーセキュリティエージェントの構造化自己進化 [cs.CR, cs.AI]目的:サイバーセキュリティエージェントの自己進化フレームワーク
    • サイバー攻撃は高度化しており,自動化された防御システムの重要性が増している。
    • 既存のシステムは固定的な構造に依存し,多様な標的や状況への適応が困難である。
    • エージェント自身が経験から学習し,構造を改善することで,適応性と性能向上を目指す。
    • CyberEvolverは,失敗から得られた経験に基づいて,エージェントの構造を反復的に修正する自己進化フレームワークである。
    • CTFチャレンジ,脆弱性攻撃,侵入テストにおいて,ベースラインエージェントの成功率を平均13.6%向上させた。
    • また,人間が設計したエージェントや他の自己改善手法と比較しても優れた性能を示した。

    Link: https://arxiv.org/abs/2605.26195

  • 「人々は技術を信頼していないことを理解しているはずだ」:専門家以外へのTrusted Execution Environmentsの説明 [cs.HC, cs.CR]目的:非専門家向けTrusted Execution Environmentsの説明に関する理解度向上策
    • デジタル社会の進展に伴い,情報セキュリティの重要性が増している。
    • Trusted Execution Environmentsは高度な技術であり,一般利用者の理解が不足している。
    • 一般利用者がTEEを理解し,安心して利用できる説明方法を模索する。
    • 特定の脅威を具体的に示す,技術的な説明でない説明が理解度向上に最も効果的であることが示された。
    • 理解度が向上したとしても,TEE技術の利用意欲に大きな影響は見られなかった。
    • セキュリティ技術の説明だけでは,ユーザーのプライバシーに関する懸念を解消するには不十分な可能性がある。

    Link: https://arxiv.org/abs/2605.26196

  • AgentSecBench:LLMエージェントにおけるプロンプトインジェクション,プライバシー漏洩,およびツール利用の完全性の測定 [cs.CR]目的:LLMエージェントのセキュリティ評価手法
    • LLMエージェントの利用拡大に伴い,セキュリティ確保が重要となっている。
    • LLMエージェントは,信頼できない入力によって機密情報漏洩や不正な操作のリスクがある。
    • LLMエージェントのセキュリティリスクを定量的に評価し,対策の効果を検証する。
    • AgentSecBenchは,LLMエージェントのセキュリティを評価するためのフレームワークと評価方法を提案する。
    • Qwen3モデルに対する6種類の防御策を評価し,リスク軽減とチャネル閉鎖の関係を明らかにした。
    • 境界記述,プロビナンス投影,機能制限,出力検証などのセキュリティ対策の有効性を示唆する結果を得た。

    Link: https://arxiv.org/abs/2605.26269

  • Sandlock:特権なしLinuxプリミティブによるAIエージェントコードの隔離 [cs.DC, cs.CR, cs.OS]目的:AIエージェントコードの隔離機構
    • AIエージェントの利用拡大に伴い,開発環境のセキュリティ確保が重要となっている。
    • 既存の隔離機構は,AIエージェントの特性に合致せず,オーバーヘッドやセキュリティの弱点がある。
    • AIエージェントのコード実行を安全かつ効率的に隔離し,セキュリティリスクを低減すること。
    • Sandlockは,カーネルで強制される静的なポリシーと,実行時に動的な決定を行う狭い範囲のスーパーバイザーを組み合わせた軽量なサンドボックスである。
    • root権限,cgroups,イメージ,必須のネームスペースを必要とせず,ファイルシステム,ネットワーク,IPC,システムコールポリシーを適用できる。
    • ワークステーション上での起動オーバーヘッドは約5msで,Redisのパフォーマンスはほぼネイティブレベルを維持する。

    Link: https://arxiv.org/abs/2605.26298

  • SDN環境における検索拡張生成と大規模言語モデルを用いたカーペット爆撃型DDoS攻撃のインテリジェントな検知と軽減 [cs.CR, cs.AI, cs.NI]目的:カーペット爆撃型DDoS攻撃のリアルタイム検知と軽減
    • SDNは柔軟なネットワーク管理を可能にするが,集中制御アーキテクチャはDDoS攻撃に脆弱である。
    • 従来の検知メカニズムを回避するため,複数のターゲットに分散するカーペット爆撃型DDoS攻撃の検知が困難である。
    • 検索拡張生成と大規模言語モデルを用いて,学習や再学習なしにカーペット爆撃型DDoS攻撃を検知・軽減する。
    • 提案手法は,高い精度と安定した攻撃検知性能を達成した。
    • Gemma-4-31B-ITモデルを用いた構成が,全体として最も優れた検知結果を示した。
    • リアルタイム実験により,提案手法がカーペット爆撃型DDoS攻撃を迅速に検知・軽減し,安定したSDNネットワーク運用を維持できることが確認された。

    Link: https://arxiv.org/abs/2605.26307

  • 文脈を考慮した車両軌跡データに対する距離的差分プライバシー [cs.CR]目的:車両軌跡データのプライバシー保護
    • 車両行動データの利用は交通管理や都市計画に不可欠であり,その安全な利用が重要である。
    • 既存の差分プライバシー手法は文脈情報を考慮せず,データ利用時の品質低下を招く可能性がある。
    • 文脈情報を考慮することで,プライバシー保護とデータ利便性の両立を目指す。
    • 提案手法C-mDPは,文脈情報を考慮したプライバシー保護とデータ有用性の向上を実現する。
    • C-mDPは,線形計画法を用いて最適なメカニズム設計を行い,期待される有用性の損失を最小限に抑える。
    • 実データを用いた評価により,C-mDPが標準的なmDPよりも高い有用性を達成することが示された。

    Link: https://arxiv.org/abs/2605.26351

  • モデルの行動幾何学による脱獄耐性予測と緩和 [cs.CR, cs.AI, cs.LG]目的:生成システムの脱獄攻撃に対する耐性の予測と緩和
    • 生成AIの安全性確保は,社会実装において不可欠である。大規模なモデル群を評価・最適化する必要がある。
    • 全設定での評価・最適化は現実的ではない。効率的な予測・防御転移手法が求められている。
    • 既存モデルの評価を活用し,効率的な耐性予測と防御転移を実現する。
    • モデル群の行動幾何学を利用した予測精度はAUPRC 0.94に達し,全評価に比べて約98%少ないプローブ数で実現された。
    • 最適化された防御を転移するモデル選択において,行動幾何学に基づく手法は,同じプロバイダからの選択より2%向上した(p=0.03)。
    • 3モデルの集合で,モデル群全体を網羅し,安定した結果が得られた。

    Link: https://arxiv.org/abs/2605.26409

  • イプシロンを超えて:Local Differential Privacyのための原理に基づいたQIFフレームワーク [cs.CR]目的:Local Differential Privacyプロトコルの比較・分類
    • 大規模システムにおけるプライバシー保護データ収集の標準手法であり,その重要性は高い。
    • 既存研究では,プロトコルの比較が体系的・原理的に行われていない。
    • 定量的な情報フロー(QIF)を用いて,より厳密なプライバシー保護プロトコルの評価を実現する。
    • QIFフレームワークを用いることで,異なるLDPプロトコルの優劣を,攻撃モデルに依存せず判断可能となった。
    • 従来「最適」とされていたプロトコルが,他のプロトコルに劣る,または比較不可能であることが判明した。
    • 七つの最先端プロトコル(GRR,BLH, OLH, SUE, OUE, THE)に対し,QIFに基づいた形式的な分析を行った。

    Link: https://arxiv.org/abs/2605.26465

  • LLMエージェントのための二重グラフによるProvenanceと認可の整合化防御 [cs.CR]目的:LLMベースのエージェントに対する,Provenanceと認可の整合化に基づく防御フレームワークの提案
    • LLMエージェントの利用拡大に伴い,セキュリティリスクへの対策が急務となっている。
    • 外部データソースを介した間接的なプロンプトインジェクション攻撃が深刻化している。
    • Provenanceと認可の構造的比較により,より詳細なインジェクション検出を実現する。
    • 提案手法AuthGraphは,AgentDojoにおいて攻撃成功率を40%から1%に大幅に削減した。
    • AgentDynにおいても,攻撃成功率を39%から2%に低減し,既存の手法を上回る性能を示した。
    • AuthGraphは,パラメータソースレベルでのProvenanceと認可の比較を構造的に行う最初の防御策である。

    Link: https://arxiv.org/abs/2605.26497

  • オープンウェイトLLMのファインチューニング防御は単純な攻撃に脆弱である [cs.LG, cs.CR]目的:オープンウェイト大規模言語モデル(LLM)の安全対策における脆弱性の検証
    • LLMの悪用を防ぐことは,社会に安全で信頼できるAIシステムを導入するために不可欠である。
    • 既存の安全対策は,ファインチューニングによる有害な学習に焦点を当てており,プロンプトによる脆弱性評価が不十分である。
    • 既存の安全対策では見過ごされている,プロンプトベースの攻撃に対するLLMの脆弱性を明らかにする。
    • オープンウェイトの安全対策は,勾配ベースの最適化を必要としない,abliterationやprefillingといった単純な攻撃に対して脆弱であることが示された。
    • これらの攻撃により,安全対策が施されたモデルに対する攻撃成功率が16%から96%の範囲に増加した。
    • abliterationに強いチューニング(ART)を導入することで,abliterationとprefillingの攻撃成功率を10-20%削減できた。

    Link: https://arxiv.org/abs/2605.26526

  • FuzzPilot:プラトー駆動型レシピ検証による構造化テキストファジング [cs.SE, cs.CR]目的:構造化テキストファジングにおけるレシピ検証手法
    • ソフトウェアの脆弱性発見において,ファジングは重要な役割を担う。効率的なファジング手法の開発が求められている。
    • 従来のファジングでは,探索空間が広大であり,効率的な探索が課題となっている。特に,カバレッジが停滞するプラトー状態が頻発する。
    • プラトー状態の早期解決と,ファジング効率の向上を目指す。
    • FuzzPilotは,AFL++のコントローラとして,高コストな推論処理をホットパスから分離し,効率的なファジングを実現する。
    • cJSONライブラリを用いた評価実験では,FuzzPilotはベースラインAFL++と同程度のスループットを維持しつつ,プラトー期間の短縮を示したが,統計的な有意差は認められなかった。
    • 言語モデルによるレシピ提案は,今回の実験範囲ではカバレッジ向上には貢献せず,プラトー短縮はコントローラのスナップショットと再起動機能に起因する可能性が高い。

    Link: https://arxiv.org/abs/2605.26539

  • ChainCaps:単調な能力減衰による安全なツール利用エージェント [cs.CR, cs.AI]目的:ツール利用エージェントにおける権限洗濯の防止
    • 近年のエージェントは多様なツールを組み合わせて運用され,その安全性確保が重要である。
    • 個々のツールに対する権限チェックを通過しても,全体として安全でない結果を招く可能性がある。
    • 値が持つ権限を追跡し,ツール間の組み合わせで権限が増加しないようにする。
    • ChainCapsは,値の権限を管理し,ツール連携時に権限の減少のみを許可することで権限洗濯を防止する。
    • 82のタスクにおいて,攻撃成功率を25-68%から0-4.8%に大幅に低減し,正常な処理能力を維持した。
    • マニフェストの品質が攻撃防御に大きく影響し,専門家作成のマニフェストは100%の防御率を達成した。

    Link: https://arxiv.org/abs/2605.26542

  • SEC-bench Pro:言語モデルは長期的なソフトウェアセキュリティタスクを解決できるか [cs.CR, cs.LG]目的:ソフトウェアセキュリティにおけるエージェント型バグハンティングの能力評価
    • ソフトウェアの脆弱性は,深刻なセキュリティリスクをもたらすため,その発見と修正は不可欠である。
    • 既存のベンチマークは,現実世界のバグハンティングシナリオを十分に再現できていないという課題がある。
    • 高複雑なソフトウェアシステムにおける,言語モデルを用いたバグハンティングの限界を明らかにする。
    • SEC-bench Proは,V8とSpiderMonkeyの183件の脆弱性を検証済みのタスクとして提供する。
    • 最先端モデルを用いたコーディングエージェントは,両エンジンにおいて40%以下の成功率にとどまる。
    • ClaudeCodeとCodexの連携により,V8では37.9%,SpiderMonkeyでは48.8%の成功率を達成した。

    Link: https://arxiv.org/abs/2605.26548

  • GradSentry:大規模言語モデルのファインチューニングにおけるバックドアサンプルフィルタリングのための勾配スペクトルエントロピー [cs.CR]目的:バックドアサンプルのフィルタリング
    • 大規模言語モデルの利用拡大に伴い,データの信頼性確保が重要となっている。
    • 悪意のあるデータによるバックドア攻撃が深刻化しており,既存の防御策では十分な対策が難しい。
    • 勾配スペクトルエントロピーを用いて,バックドアサンプルを高精度かつ効率的に検出する。
    • GradSentryは,サンプルの勾配スペクトルエントロピーを分析することで,バックドアサンプルを識別する。
    • 本手法は,クラスタリングを必要とせず,様々なポイズン比率(1%~90%)で有効に機能する。
    • LoRAなどのパラメータ効率的なファインチューニング手法や,フルパラメータチューニングにも適用可能である。

    Link: https://arxiv.org/abs/2605.26574

  • コードセプス:データ汚染によるLLMへの隠蔽的制御攻撃 [cs.CR, cs.AI, cs.LG]目的:LLMに対する隠蔽的制御攻撃の実現
    • LLMは広範に利用され,その安全性確保は重要である。特に,学習データへの攻撃は深刻な脅威となる。
    • 既存のデータ汚染攻撃は,検知しやすいトリガーフレーズに依存しており,防御策によって抑制されることが多い。
    • 意味的な関連性を用いた,より巧妙かつ隠蔽性の高いデータ汚染攻撃による脆弱性を明らかにする。
    • 本研究では,事実や概念といった共有知識と攻撃者が選択したフレーズの間に意味的関連性を学習させることで,LLMに情報隠蔽スキームを教える手法を提案した。
    • 提案手法は,任意の悪意のある命令をエンコード・デコードすることが可能であり,従来のプロンプトインジェクション攻撃よりも約40%高い成功率を達成した。
    • また,バックドア防御やプロンプトインジェクション防御といった既存の防御策を回避し,高い攻撃成功率を維持することを示した。

    Link: https://arxiv.org/abs/2605.26595

  • 制御生理学:FAIR-CAMダイナミクスのエージェントベースモデル [cs.CR, cs.MA]目的:FAIR-CAMダイナミクスの運用化
    • サイバーセキュリティリスク分析において,対策の効果を正確に評価することは不可欠である。
    • 既存の研究では,対策の効果が時間とともに変化する点や,予算制約が対策に与える影響が十分に考慮されていない。
    • 本研究は,FAIR-CAMのダイナミクスをエージェントベースモデルで再現し,対策の効果変化を定量的に評価する。
    • シミュレーションの結果,実効的な対策効果は,静的な分析結果から約17%程度乖離することが明らかになった。この乖離は,外的要因の変動に起因する。
    • 是正措置の遅延が発生した場合,予想損失額が約2.8倍に増加する,明確な閾値が存在することが示された。
    • 監視システムの障害が連鎖的に発生し,対策の効果を低下させる可能性があることが確認された。

    Link: https://arxiv.org/abs/2605.26597

  • バッチで試せばできる:カバレッジ誘導型RPKIファジングの大規模化 [cs.RO, cs.RO, cs.CR]目的:RPKIバリデータにおける脆弱性の発見
    • インターネットルーティングのセキュリティ確保において,RPKIは不可欠な役割を果たしている。
    • 従来のファジング手法は,RPKIリポジトリの複雑な依存関係に対応できず,効果的なカバレッジ計測が困難である。
    • 本研究は,大規模なRPKIリポジトリに対する効率的なファジング手法を開発し,未発見の脆弱性を明らかにすることを目的とする。
    • 新しいファジング技術により,従来のファジング手法と比較して66倍の処理能力向上と24~47%のコードパス探索率向上を達成した。
    • RPKIバリデータに対する評価により,8つのCVE(CVSS 7.5 - 9.8)を含む21個の未発表の脆弱性を発見した。バッファオーバーフローやDoS攻撃,リポジトリ汚染などが含まれる。
    • 開発したファジングツールCATをオープンソースとして公開し,再現性とさらなる研究を促進する。

    Link: https://arxiv.org/abs/2605.26651

  • 共有ライブラリの正しい解決:共有オブジェクトハイジャックに対するローダーレベル防御策 [cs.CR]目的:共有ライブラリハイジャック攻撃の防止
    • Linux環境におけるセキュリティ確保は重要であり,特に組み込みLinuxシステムでは脆弱性が深刻化しやすい。
    • 従来の防御策では,ライブラリ解決の真正性を検証できておらず,根本的なハイジャック攻撃を防げていない。
    • ローダーのライブラリ解決プロセスにおける真正性を保証することで,ハイジャック攻撃の根本原因を解決する。
    • 提案手法は,パス制約とBuild-IDに基づくIDモデルを組み合わせ,暗号学的ハッシュを用いてライブラリの真正性を検証する。
    • GNU libc (glibc) システム上で実装し,汎用Linux (Ubuntu) および組み込みLinux (Buildroot) 環境で評価した。
    • 評価の結果,提案メカニズムが共有ライブラリハイジャック攻撃を効果的に防止できることを示した。

    Link: https://arxiv.org/abs/2605.26665

  • 6Gネットワークスライシングにおけるリアルタイム攻撃フォレンジックのための確証的因果帰属 [cs.CL, cs.CR, cs.AI]目的:6Gネットワークにおけるクロススライス攻撃帰属の実現
    • 6Gネットワークでは,多様なサービスをスライスとして提供するため,スライス間攻撃の特定が重要となる。
    • 共有インフラにおけるリソース競合が,因果関係の誤認を招き,正確な攻撃帰属を困難にしている。
    • リソース競合の影響を除去し,厳格なSLAを満たしつつ,正確な攻撃帰属を可能にすることを目指す。
    • 提案手法DA-GCは,リソース条件付きGranger因果性およびリソース競合モデル(RCM)を統合し,リソース媒介の交絡を系統的に排除する。
    • 15スライス構成の6Gテストベッドにおいて,1,100の攻撃シナリオで89.2%の帰属精度を87msで達成した。
    • 既存手法と比較して,精度が7.9%向上し,レイテンシが2.7倍低減され,安全性とプライバシーも保証された。

    Link: https://arxiv.org/abs/2605.26679

  • 第三次SO(3)表現の結合による回転不変球面ウォーターマーキング [cs.CV, cs.AI, cs.CR, cs.LG]目的:全天球画像に対する信頼性の高いウォーターマーク埋め込み
    • 全天球画像は広く利用され,その保護が重要となっている。
    • 従来のウォーターマーク技術は,全天球画像の回転に対する脆弱性が課題である。
    • SO(3)群の表現論に基づき,回転不変な特徴量を構築し,ウォーターマークの信頼性を高める。
    • 本研究では,テンソル積を用いて高次のSO(3)既約表現を結合し,回転不変な二分光スペクトルを導出した。
    • これにより,位相情報を保持しつつ,任意の3D回転に対して厳密に不変なウォーターマーク埋め込みが可能となった。
    • 理論的証明と実験結果から,提案手法が連続的な回転に対して高いロバスト性を示すことが確認された。

    Link: https://arxiv.org/abs/2605.26702

  • Cordon-MAS:情報フロー制御による知識汚染に対するRAGの防御 [cs.CR, cs.AI]目的:RAGにおける知識汚染への防御策
    • RAGは重要な応用分野で利用が増加しており,その信頼性確保が不可欠である。
    • RAGは,悪意のある文書による知識汚染攻撃に対して脆弱であるという問題がある。
    • 本研究では,情報フロー制御によりRAGの知識汚染を防ぐことを目指す。
    • 既存の防御策は,汚染された証拠の検出が有害性を防ぐと仮定するが,本研究でその仮定が誤りであることが示された。
    • Cordon Principleに基づき,信頼できない情報へのアクセスを制限するフレームワーク「CORDON-MAS」を提案した。
    • 実験結果から,CORDON-MASは攻撃成功率を92.4%削減し,RAGの知識汚染防御に有効であることが示された。

    Link: https://arxiv.org/abs/2605.26754

  • 匿名YARAルールは匿名ではない [cs.CR]目的:YARAルールから得られるスタイロメトリクス情報による情報漏洩の評価
    • マルウェア対策において,YARAルールは脅威インテリジェンス共有の基盤であり,集団防御に不可欠である。
    • YARAルールの共有は,貢献組織の匿名性を保つためにメタデータ削除に依存しているが,その有効性は不明である。
    • YARAルールのテキスト内容のみから,作者や情報源を特定できる可能性を検証し,情報漏洩リスクを明確化する。
    • YARAルールは,その起源リポジトリがほぼ完璧に特定可能であり(最大99%の精度),作者の再特定も偶然水準を大きく上回る(76%)。
    • マルウェアファミリーの分類精度は95%に達し,リポジトリの指紋は時間経過とともに変化することを示す証拠が得られた。
    • 同じマルウェアファミリーのルールであっても,作者の再特定が可能であり(平均74.6%),YARAルール共有がOPSEC上のリスクとなることを実証した。

    Link: https://arxiv.org/abs/2605.26791

  • 低高度ワイヤレスネットワークにおける安全なUAV群:課題と解決策 [cs.CR]目的:UAV群のセキュリティ確保
    • UAV群は分散センシング等に有用であり,低高度での利用が拡大している。
    • オープンな環境下でGPS欺瞞,内部脅威,多段攻撃等のセキュリティリスクが存在する。
    • UAV群特有の課題に対応する協調的な防御フレームワークを提案し,セキュリティを向上させる。
    • クラウド・エッジ・エンド連携による防御フレームワークを提案した。
    • 協調的知覚スキームは,インタラクティブな攻撃防御ゲームモデルによりGPS欺瞞に抵抗する。
    • 行動駆動型認証は,信頼評価を用いて内部脅威を軽減し,多段攻撃の追跡フレームワークは攻撃経路を特定する。

    Link: https://arxiv.org/abs/2605.26876

  • プライバシー保護型レコードリンケージのスクリーニング [cs.CR]目的:プライバシー保護型レコードリンケージにおける効率的なスクリーニング手法の開発
    • ビッグデータと機械学習の時代において,データ連携は価値創造に不可欠である。
    • プライバシー保護とセキュリティ確保が求められるため,レコードリンケージの利用が制限されている。
    • 多数の参加者間での効率的なデータ連携を可能にするスクリーニング手法を確立すること。
    • 提案手法 Appraisal は,既存のPPRSシステムSFourと比較して,850倍多くのレコードを処理可能である。
    • Appraisal は,最先端のPPRLシステムと比較して,165倍高速に計算を完了できる。
    • 効率的な安全な置換と属性/特徴アライメントプロトコルにより,通信コストを大幅に削減した。

    Link: https://arxiv.org/abs/2605.26882

  • 実用的な匿名化二者間勾配ブースティング決定木 [cs.CR, cs.AI]目的:匿名化された勾配ブースティング決定木学習のためのプロトコル
    • 金融や医療など,解釈性と高速性が求められる分野で勾配ブースティング決定木が広く利用されている。
    • 分散環境での安全な学習には,記録IDの共有による情報漏洩のリスクが存在する。
    • 記録IDの共有を隠蔽しつつ,効率的な分散学習を実現することを目的とする。
    • 提案手法では,デュアルサーキットPSIを利用し,IDの隠蔽と効率的な集約を両立している。
    • 暗号文パッキングのコストを半減させることで,既存の安全な勾配ブースティング学習との効率性を維持している。
    • 本技術は,他の垂直分割された分析にも応用可能である。

    Link: https://arxiv.org/abs/2605.26903

  • RPKI仕様とソフトウェアの脆弱性:欠陥の根源 [cs.CR]目的:RPKI仕様と実装における脆弱性の因果関係の分析
    • インターネットのルーティングセキュリティ確保は,現代社会における情報通信の基盤であり重要である。
    • RPKI RFCの曖昧さや矛盾が,実装の不整合や運用上の問題を引き起こす可能性がある。
    • RPKI RFCの欠陥と,それによって生じる実装・運用上の脆弱性を特定し,改善策を提案すること。
    • 本研究により,50のRPKI RFCに存在する曖昧,矛盾,不十分な要件が,実装の不整合と運用上の失敗につながることが明らかになった。
    • 61の検証動作における一貫性のない挙動を新たに発見し,そのうち23をRFCの欠陥に直接結び付け,2つの新しい脆弱性を特定した。
    • 発見された問題は単なるコーディングエラーではなく,RPKI標準の記述,解釈,実装に内在する体系的な問題であることを示唆する。

    Link: https://arxiv.org/abs/2605.26986

  • プロンプトインジェクション検出は状況依存的である:解釈可能な構造的シグナルを用いた展開を意識した評価 [cs.CL, cs.CR]目的:プロンプトインジェクション検出の状況依存性に関する評価
    • 大規模言語モデルの安全な利用には,プロンプトインジェクション対策が不可欠である。
    • 既存の検出手法は,現実的な運用制約を考慮した評価が不足している。
    • 現実的な運用状況下でのプロンプトインジェクション検出の課題を明確にすること。
    • 検出性能は状況に大きく依存し,閾値選択に敏感であることが示された。
    • Transformerベースのモデルが全体的に最も高い性能を示したが,構造的シグナルも一定の改善をもたらした。
    • ランキング性能と実際の展開効果の乖離が明らかになり,現実的な制約下での評価の重要性が示唆された。

    Link: https://arxiv.org/abs/2605.26999

  • 大規模エージェントシステムに対するペネトレーションテストからの教訓 [cs.RO, cs.CR, cs.AI]目的:大規模エージェントシステムにおけるセキュリティ脆弱性の現状把握
    • AIシステムの自律性と実行能力が向上するにつれ,セキュリティの重要性が増している。
    • 既存のコンピューティングシステムで長年見られる脆弱性がAIエージェントにも存在する。
    • プロプライエタリなエージェントシステムのセキュリティ体制が改善されているか検証する。
    • 2025年に実施された2つのペネトレーションテストの結果,プロプライエタリなエージェントシステムにも脆弱性が存在することが判明した。
    • セキュリティ体制の改善は限定的であり,従来の脆弱性が依然として見られる。
    • AIエージェントのセキュリティ対策には,クロスレイヤーな複雑な振る舞いへの対応が不可欠である。

    Link: https://arxiv.org/abs/2605.27042

  • LLMにおける反実仮想知識学習の隠れたコスト [cs.CL, cs.CR]目的:大規模言語モデルのアンラーニングにおける反実仮想知識学習の課題
    • LLMは多様なタスクで高い性能を示す一方,不適切な知識の除去が課題である。
    • 従来のアンラーニング手法では,性能低下や学習の不安定性が問題となる場合がある。
    • 反実仮想知識学習の潜在的な問題点を明らかにし,改善策の指針を示すこと。
    • 反実仮想知識学習において,知識の矛盾による学習阻害と,幻覚の拡散という新たな問題点が確認された。
    • 新たな評価指標と勾配レベルの診断ツールを導入することで,問題点の詳細な分析を行った。
    • 反実仮想知識学習の限界とオーバーヘッドを提示し,より堅牢なLLMアンラーニング研究への貢献を目指した。

    Link: https://arxiv.org/abs/2605.27083

  • 境界誘導型開示エスカレーション:自己条件付き推論によるBAIT [cs.CR, cs.CL]目的:大規模言語モデルに対する攻撃成功率の向上
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • 既存の手法では,言語モデルの保護機構を回避し,有害な情報を引き出すことが困難である。
    • 言語モデル自身の推論と整合性に着目し,有害な情報を段階的に開示させることで,攻撃成功率を高める。
    • 提案手法BAITは,AdvBench等のベンチマークにおいて,既存手法を大幅に上回る攻撃成功率を達成した。
    • 防御的な表現が直接的な知識要求よりも有効であり,境界の洗練ステップが情報開示のエスカレーションにおいて重要な役割を果たすことが示された。
    • 初期段階で有害な情報を引き出す可能性がある一方で,フィルタリングは限定的であることが明らかになった。

    Link: https://arxiv.org/abs/2605.27110

  • 最新のウォーターマーキング手法はBroken-Arrowsに勝てるか [cs.CR, cs.CV]目的:AI生成画像識別に関するウォーターマーキング手法の比較
    • 生成モデルの急速な普及に伴い,AI生成画像の識別が重要になっている。
    • 最新手法は誤検知率の低さに重点を置き,実用的な堅牢性・安全性評価が不足している。
    • 現実的なシナリオ下での堅牢性と安全性に着目し,古典的手法との比較を行う。
    • 実験の結果,古典的なウォーターマーキング手法は,現実的なシナリオにおいて,安全性に関して最新の手法を上回る性能を示した。
    • 古典的手法は,最新の手法と同程度の堅牢性を維持しながら,より高い安全性を実現できることが示唆された。

    Link: https://arxiv.org/abs/2605.27135

  • Landseer:機械学習防御の現状探索 [cs.CR]目的:機械学習防御の統合と評価
    • 機械学習システムの信頼性確保は,社会実装において不可欠である。
    • 単独の防御策では対処しきれない,多岐にわたる脅威が存在する。
    • 複数の防御策の組み合わせがもたらす影響を明らかにすること。
    • 機械学習防御35種類を調査し,再現性を確認した。
    • 防御策の統合における課題と機会を特定した。
    • 機械学習システムの信頼性向上に向けた基盤を構築した。

    Link: https://arxiv.org/abs/2605.27148

  • IDSにおけるリスク回避型アラート優先度付け:準正規ガウスファジーモデルの利用 [cs.CL, cs.CL, cs.CR, cs.AI, cs.HC, cs.LG, cs.SY, eess.SY]目的:IDSアラートの優先度付け手法
    • サイバー攻撃の増加に伴い,IDSの重要性が増している。大量のアラートから重要度の高いものを特定する必要がある。
    • IDSは誤検知が多く,セキュリティ担当者のアラート疲労を引き起こし,対応能力が低下している。
    • アラートの重要度,検出信頼性,組織のリスク許容度を考慮し,優先度付けを自動化することで,対応能力の向上を目指す。
    • 提案手法は,脅威の深刻度,検出信頼性,組織のリスク態度という3つの不確実性を準正規ガウスファジー数で明示的にモデル化する。
    • CIC-IDS2017およびNSL-KDDデータセットを用いた実験で,検出器の性能劣化下において既存手法よりも高いロバスト性を示した(NDCGrel@100で0.9963 vs 0.8215)。
    • 手法は理論的に厳密であり,計算効率が高く,解釈可能な推論を提供し,様々な検出器や誤調整シナリオで安定した結果を得られる。

    Link: https://arxiv.org/abs/2605.27299

  • サブノーマルガウス型ファジーコストにおける最短経路問題 [cs.CR, cs.NA, cs.NI, math.NA]目的:有向グラフにおけるファジー最短経路問題の解決
    • 経路探索は,物流,交通,ネットワークなど,様々な分野で重要な役割を果たす
    • 従来の最短経路問題では,コストの不確実性や信頼性の考慮が不十分であった
    • ファジー理論を用いて,コストの不確実性と信頼性を考慮した最短経路探索手法を提案する
    • 提案手法では,ガウス型メンバーシップ関数を持つ一般化されたファジー数を用いてエッジコストをモデル化する。
    • 信頼性を考慮したランキングにより,中心傾向,信頼性,変動性を捉え,Dijkstra法と同等の計算量で最短経路を特定する。
    • FAA航空交通ネットワークの大規模ケーススタディにより,提案手法のスケーラビリティと安定性が確認された。

    Link: https://arxiv.org/abs/2605.27317

  • SolarChain:都市エネルギーレジリエンスのための物理法則,検証可能な信頼,持続可能な市場の架け橋 [cs.CY, cs.CR, cs.DC, cs.ET, econ.GN, q-fin.EC]目的:都市部における太陽光発電の導入促進と,エネルギーデータの信頼性確保,投機的行動の抑制
    • 都市の脱炭素化には屋根上太陽光発電の普及が不可欠であり,エネルギー効率向上が重要である。
    • エネルギーデータの改ざんが容易であり,投機的な行動がインフラ整備よりも優先される傾向がある。
    • 太陽光発電の物理的限界に基づいた検証システムを構築し,信頼性の高いエネルギー市場を創出すること。
    • SolarChainは,太陽光発電の熱力学的限界に基づき,データの改ざんを防止する検証システムである。
    • このシステムにより,ピアツーピアのマーケットプレイスが実現し,持続可能な投資が促進される。
    • プロトタイプは,データ注入攻撃に対する耐性と,地域レベルの太陽光発電の拡大への貢献を示す。

    Link: https://arxiv.org/abs/2605.23162

  • 二重指数計算アルゴリズム:有限素体における離散対数問題の高速解法 [cs.CY, cs.CL, cs.IR, cs.CR]目的:有限素体における離散対数問題の解法
    • 現代暗号技術の安全性は,有限素体における離散対数問題の困難性に依存しているため重要である。
    • 既存の指数計算アルゴリズムは,計算量が多く,特に大きな素体に対しては実用的ではないという課題がある。
    • 本研究は,既存手法よりも高速かつ汎用的な離散対数問題の解法を確立することを目的とする。
    • 提案する二重指数計算アルゴリズムは,既存の指数計算アルゴリズムよりも高速に離散対数問題を解くことが示された。
    • 70ビットの素体位数に対して,30倍以上の計算速度向上が実験的に確認された。
    • 特に,乗算生成子でない基点に対しても解を導き出すことができるなど,汎用性も高い。

    Link: https://arxiv.org/abs/2409.08784

  • 行動する前に二度考える:思考修正によるエージェントの行動安全性の向上 [cs.AI, cs.CR]目的:エージェントの行動安全性の向上
    • 大規模言語モデルを活用したエージェントの応用が拡大しており,安全性の確保が重要である。
    • エージェントの思考のわずかな逸脱が,危険な行動につながる可能性がある。
    • 思考段階で安全性を修正することで,エージェントの行動を安全な方向に導くことを目指す。
    • Thought-Alignerは,エージェントの思考を修正することで,行動安全性を約50%から90%に向上させた。
    • 既存の安全対策を約23%上回る性能を示し,有用性も約5%向上した。
    • Thought-Alignerは,モデルに依存せず,多様なエージェントフレームワークに統合可能である。

    Link: https://arxiv.org/abs/2505.11063

  • ネットワークと攻撃グラフの統合によるサービス中心の影響分析 [cs.CR, cs.SI]目的:サービス中心の影響分析
    • 企業ネットワークのセキュリティ確保は重要であり,インフラ,サービス,アプリケーション間の複雑な依存関係を考慮する必要がある。
    • 従来の分析手法は,攻撃経路またはネットワークトポロジーを個別に焦点を当てており,複雑な依存関係を捉えきれない。
    • ネットワークと攻撃グラフを統合し,サービスへの攻撃影響を総合的に評価することで,リスク評価と軽減策の策定を支援する。
    • 提案手法は,ネットワークにおける影響伝播を基盤とし,攻撃グラフと通信ネットワークトポロジーを統合する確率的多層モデリングフレームワークである。
    • 脆弱性の悪用可能性とネットワーク接続性を考慮することで,攻撃の伝播確率と相互接続されたサービスへの累積的な影響を評価できる。
    • 実環境の企業ネットワークにおけるケーススタディにより,重要なノード,脆弱性,サービス依存関係を特定し,リスク評価と軽減計画に役立つ知見を提供する。

    Link: https://arxiv.org/abs/2507.00637

  • VERA-V:Vision-Languageモデルの脱獄のための変分推論フレームワーク [cs.CR, cs.CL, cs.CV, cs.LG, stat.ML]目的:Vision-Languageモデルの脱獄プロンプトの学習と生成
    • 画像とテキストを扱うVLMsは,LLMsの能力を拡張する一方,新たな脆弱性を持ちうる。
    • 既存の手法は,脆弱なテンプレートに依存し,単一攻撃に焦点を当て,検出できる脆弱性の範囲が限定的である。
    • 多様な脱獄プロンプトを効率的に生成し,VLMsの脆弱性に関する分布的な知見を得ることを目指す。
    • VERA-Vは,テキストと画像のペアを組み合わせた,よりステルス性の高い攻撃を可能にする。
    • HarmBenchおよびHADESベンチマークにおいて,オープンソースおよび最先端のVLMsに対して,最先端の手法を上回る性能を示した。
    • GPT-4oに対しては,最高性能のベースラインを最大53.75%上回る攻撃成功率(ASR)を達成した。

    Link: https://arxiv.org/abs/2510.17759

  • ノード貢献度逆伝播によるマルチエージェントシステムの堅牢化 [cs.CR, cs.AI, cs.LG, cs.MA, math.OC]目的:マルチエージェントシステムにおける不正に対する堅牢性
    • 大規模言語モデル応用の主要なパラダイムであり,複雑な問題解決に有効である。
    • 悪意のあるエージェントによる誤情報の注入と伝播が,システム全体を腐敗させる危険性がある。
    • 動的な環境下で,悪意のあるエージェントを特定・隔離し,システム全体の信頼性を確保すること。
    • 提案手法は,マルチエージェントシステムの通信を符号付き有向非巡回グラフとしてモデル化する。
    • 最終決定への各エージェントの貢献度を逆伝播によって算出し,悪意のあるエージェントを高精度に特定する。
    • 複雑かつ動的な環境下での実験結果から,既存の手法と比較して優れた性能が確認された。

    Link: https://arxiv.org/abs/2510.19420

  • SWAP: 逐次ウォーターマークによるソフトプロンプトの著作権監査 [cs.CR, cs.AI, cs.LG]目的:ソフトプロンプトの著作権保護のための監査手法
    • 大規模言語モデルの利用拡大に伴い,知的財産の保護が重要になっている。
    • 既存のモデル監査技術は,ソフトプロンプトの特性上,誤検知が多いという課題がある。
    • ソフトプロンプトに埋め込まれたウォーターマークを用いて,著作権侵害を検出することを目指す。
    • 提案手法SWAPは,防御者が指定した分布外クラスの順序を用いてウォーターマークを埋め込む。
    • これにより,元の予測ラベルを変更することなく,ウォーターマークをより複雑な空間に埋め込むことができる。
    • 実験結果から,SWAPは有効性,無害性,および潜在的な攻撃に対する頑健性を示すことが示された。

    Link: https://arxiv.org/abs/2511.04711

  • 信頼できる分散型AIのための技術ポリシーブループリント [cs.CL, cs.CY, cs.CR]目的:分散型AIシステムの信頼性確保に向けた技術的ポリシーの設計
    • AI資産市場の発展には,データプライバシー保護が不可欠であり,分散型AIはその重要な役割を担う。
    • 既存のガバナンス手法は,システム固有のポリシーに依存し,資産の相互運用性や信頼性を阻害している。
    • ポリシーと機能の分離により,インフラ変更なくガバナンスを進め,透明性・監査性・堅牢性を高める。
    • 提案する技術ポリシーブループリントは,ガバナンス要件をコードとして記述し,ポリシー検証と実行を分離する。
    • ポリシーエンジンは証拠を検証し,機能パッケージを発行,資産ガーディアンはそれに基づいてアクセスや実行を制御する。
    • この分離により,AIインフラの再設定なしにガバナンスを進化させることが可能となる。

    Link: https://arxiv.org/abs/2512.11878

  • シャドウアンラーニング:LLMにおける忠実度を維持する顔のない忘却に対する神経意味的アプローチ [cs.CR, cs.AI, cs.CL]目的:LLMにおける,個人の特定情報(PII)を露出させることなく,匿名化された忘却データ上で機械アンラーニングを行うこと
    • プライバシー保護の重要性が増す中,GDPR等の法規制に対応したデータ削除技術が求められている。
    • 既存のアンラーニング手法は削除対象データへのアクセスが必要であり,情報漏洩や悪用のリスクがある。
    • PIIを保護しつつ,モデルの有用性を維持した効率的なアンラーニング手法を開発すること。
    • 提案手法NSPUは,様々なLLMにおいて,優れたアンラーニング性能とモデルの有用性の維持を実現した。
    • NSPUは,従来のアンラーニング手法と比較して,少なくとも10倍の計算効率向上を達成した。
    • 本研究は,データ保護とモデル忠実性のバランスをとる,プライバシーを重視した機械アンラーニングの新たな方向性を示唆する。

    Link: https://arxiv.org/abs/2601.04275

  • エネルギー取引とカーボン資産管理におけるハイブリッドチェーンストレージフレームワークの応用 [cs.CR, cs.CY]目的:エネルギー取引とカーボン資産管理のためのハイブリッドチェーンストレージフレームワーク
    • 分散型エネルギー取引は,電力システムの効率化と再生可能エネルギーの普及に不可欠である。
    • ブロックチェーンの完全オンチェーン化はコストが高く,オフチェーンのみでは透明性と信頼性が低い。
    • コストを抑えつつ,取引の信頼性と監査可能性を確保するフレームワークを開発すること。
    • 本フレームワークは,オンチェーンとオフチェーンのハイブリッド設計により,コストを大幅に削減し,監査可能性を維持する。
    • 公開された制約下での実験結果から,フレームワークがオンチェーン処理とストレージコストを顕著に低減することが示された。
    • 重要な制約と決済コミットメントをオンチェーンに固定することで,検証可能な整合性を実現している。

    Link: https://arxiv.org/abs/2601.04512

  • オープンソースサプライチェーンセキュリティのための運用時挙動マイニング [cs.CL, cs.CR]目的:オープンソースソフトウェアのサプライチェーンセキュリティにおける脅威調査の支援
    • 現代のソフトウェアシステムにおいて,オープンソースソフトウェアは不可欠であり,セキュリティ確保が重要である。
    • ソースコードが入手困難または難読化されているため,サプライチェーンセキュリティの確保は困難である。
    • 実行時の挙動分析を通じて,セキュリティチームによる脅威調査を支援し,具体的な手がかりを提供する。
    • HeteroGAT-Rankは,OSSパッケージの実行時挙動を軽量な異種グラフとしてモデル化し,注意機構に基づいたグラフ学習を用いて,セキュリティ分析に関連する挙動パターンをランク付けする。
    • 本システムは,完全な自動検出を目指すのではなく,ファイル,ネットワーク,コマンドなどの具体的な実行時シグナルを提示することで,手動による調査と脅威ハンティングを支援する。
    • 大規模なOSS実行データセットを用いた評価により,HeteroGAT-Rankが現実世界の脆弱性および攻撃傾向と整合性の高い,解釈可能な挙動指標を効果的に提示することが示された。

    Link: https://arxiv.org/abs/2601.06948

  • 1
  • 2