arXiv雑要約

セキュリティ - 2026/03/12 公開

  • 「ばかげた質問はない」:トルコ語の視点からのオフラインLLM能力の評価 [cs.CL, cs.AI, cs.CR, cs.LG]目的:トルコ語継承言語教育におけるオフラインLLMの堅牢性と教育的安全性
    • 教育分野におけるLLM活用は,データプライバシーや信頼性の確保が重要である。
    • 特にトルコ語継承言語教育のような脆弱な状況下では,LLMの安全性に懸念がある。
    • オフラインLLMの能力を評価し,教育的リスクを軽減するための知見を提供する。
    • モデルの規模だけでは異常への耐性が決まらず,大規模モデルでも迎合バイアスが生じることが示された。
    • 8B~14Bパラメータの推論重視モデルが,コストと安全性のバランスが最も良いと判明した。
    • 10の異常ケースを含むトルコ語異常スイート(TAS)を用いて,モデルの性能を評価した。

    Link: https://arxiv.org/abs/2603.09996

  • 自律型サイバー攻撃エージェントにおける汎化メカニズムの評価 [cs.CR, cs.LG]目的:自律型サイバー攻撃エージェントの汎化能力の評価
    • サイバー攻撃は高度化しており,防御側の対応が追いつかない状況が続いている。
    • 攻撃エージェントは学習環境に依存し,未知のネットワークへの適応が課題である。
    • IPアドレス再割り当てのような環境変化に対する攻撃エージェントの脆弱性を検証する。
    • 従来の強化学習エージェントや適応エージェントは,IP再割り当てにより攻撃性能が著しく低下した。
    • プロンプト駆動型事前学習済みLLMエージェントは,最も高い成功率を示したが,計算コストや透明性の問題がある。
    • LLMエージェントは,繰り返しや無効な行動ループといった実用上の欠点も抱えている。

    Link: https://arxiv.org/abs/2603.10041

  • LLMベースエージェントに対する標的型ビットフリップ攻撃 [cs.CR, cs.AI]目的:LLMベースエージェントに対する標的型ビットフリップ攻撃の実現
    • LLMの利用拡大に伴い,そのセキュリティ確保が重要課題となっている。
    • 既存研究は単一ステップ推論モデルに偏っており,複雑なエージェントシステムへの対応が遅れている。
    • LLMベースエージェント特有の脆弱性を明らかにし,対策を検討する。
    • Flip-Agentは,LLMベースエージェントに対する初の標的型ビットフリップ攻撃フレームワークである。
    • 実験結果から,Flip-Agentは既存の手法よりも高い攻撃成功率を示した。
    • LLMベースエージェントシステムにおける重大な脆弱性が明らかになった。

    Link: https://arxiv.org/abs/2603.10042

  • フロー意味はどこに存在するのか?暗号化通信分類のためのプロトコルネイティブなテーブル前学習パラダイム [cs.NI, cs.AI, cs.CR, cs.LG]目的:暗号化通信分類におけるフロー意味の所在と,プロトコルネイティブなテーブル前学習パラダイムの提案
    • 通信の暗号化が進む中,暗号化された通信内容を正確に分類する技術の重要性が増している。
    • 既存手法では,ラベル付きデータの依存度が高く,大規模な前学習の効果が十分に活かされていない。
    • プロトコルで定義された意味を構造に組み込み,テーブル形式での学習を通じてこの問題を解決する。
    • 提案手法FlowSem-MAEは,既存の最先端手法と比較して,様々なデータセットで優れた性能を示した。
    • ラベル付きデータの半分のみを用いて,フルデータで学習した既存手法の多くを上回る性能を実現した。
    • プロトコル固有の意味を考慮することで,通信の構造をより適切に捉え,分類精度を向上させた。

    Link: https://arxiv.org/abs/2603.10051

  • OAuthHub:ローカルデータハブによるOAuthデータ過剰アクセス緩和 [cs.CR, cs.NI, cs.SE]目的:OAuthベースのデータ共有における過剰アクセス問題の解決
    • ユーザーのプライバシー保護は重要であり,最小限のデータアクセスが求められる。
    • 既存のOAuthプロバイダーは粒度の粗いデータアクセスしか提供せず,不要なデータアクセスが発生しやすい。
    • OAuthHubは,ユーザーのデバイスを介してデータアクセスを制御し,過剰なデータアクセスを抑制する。
    • OAuthHubを用いることで,開発者は意図したデータアクセスを明示的に宣言し,3つの一般的なアクセスパターンに対応できる。
    • OAuthHubは,従来のOAuth APIと比較して,アプリケーションコードの変更を最小限に抑え,性能への影響も少ない。
    • 開発者実験の結果,OAuthHubを使用することで,プログラミングタスクの完了時間が大幅に短縮され,コード量も削減された。

    Link: https://arxiv.org/abs/2603.10056

  • SBOMからエージェント型AIBOMへ:スキーマ拡張,エージェントによるオーケストレーション,再現性評価 [cs.CR, cs.AI, cs.SE]目的:ソフトウェアサプライチェーンセキュリティにおける,再現性と脆弱性評価を支援するProvenanceメカニズム
    • ソフトウェアサプライチェーン攻撃の増加により,ソフトウェアの構成要素と依存関係の透明性が不可欠となっている。
    • 従来のSBOMは静的な依存関係リストであり,実行時の挙動や環境の変化,脆弱性の状況を捉えられないという課題がある。
    • 実行時の情報を組み込み,脆弱性評価を可能にする,より動的でインテリジェントなProvenanceメカニズムを構築すること。
    • 本研究では,自律的かつポリシー制約された推論を通じて,SBOMをアクティブなProvenanceアーティファクトであるAIBOMへと拡張するフレームワークを提案した。
    • 提案フレームワークは,実行時の依存関係や環境の変化を監視し,脆弱性に関するコンテキストに基づいた判断を行う複数のエージェントで構成される。
    • 実験結果から,本フレームワークは,既存のProvenanceシステムと比較して,実行時の依存関係の把握,再現性の忠実度,脆弱性解釈の安定性を向上させることが示された。

    Link: https://arxiv.org/abs/2603.10057

  • ツールレシート,ゼロ知識証明ではない:AIエージェントのための実用的な幻覚検出 [cs.RO, cs.CR, cs.AI, cs.CL]目的:AIエージェントにおける幻覚検出の実現
    • AIエージェントの利用拡大に伴い,その信頼性確保が重要課題となっている。
    • 既存の検証手法は計算コストが高く,インタラクティブなエージェントには不向きである。
    • 低コストで高精度な幻覚検出を実現し,エージェントの信頼性を向上させる。
    • NabaOSは,ツール実行レシートを用いてリアルタイムに幻覚を検出し,高い検出率を示した。
    • ツール参照の捏造検出率は94.2%,数値の誤り検出率は87.6%,誤った否定検出率は91.3%である。
    • ゼロ知識証明と比較して,大幅に低い遅延時間で同等の信頼性を提供することが示された。

    Link: https://arxiv.org/abs/2603.10060

  • グローバル多施設医療研究のためのプライバシーとセキュリティに焦点を当てた連合学習基盤の構築 [cs.CR, cs.SE]目的:国際的な多施設医療研究における連合学習基盤
    • 医療研究の発展には,多様な臨床データが不可欠である。しかし,データ共有には法的制約がある。
    • 既存の連合学習フレームワークは,不正アクセスや濫用を防ぐためのガバナンス機能が不十分である。
    • 本研究は,法的義務を遵守し,制度の独立性を保護するガバナンス機能を連合学習に組み込むことを目指す。
    • FLA$^3$は,認証,認可,会計(AAA)機能を連合学習のオーケストレーション層に統合することで,実行時のポリシー施行を実現した。
    • 5カ国の5つのBloodCounts!コンソーシアム機関にインフラストラクチャを導入し,運用可能性を実証した。
    • INTERVALスタディの54,446サンプルを用いて臨床的有用性を評価した結果,中央集権的な学習と同等の予測性能を維持しながらガバナンス制約を厳格に施行できた。

    Link: https://arxiv.org/abs/2603.10063

  • 大規模言語モデルにおける多段階防御機能の劣化と判断信頼性の測定:ADVERSA [cs.CR, cs.AI, cs.CL]目的:大規模言語モデルの安全性評価における,多段階の敵対的対話を通じた防御機能の劣化と,判断者の信頼性を測定すること。
    • 言語モデルの安全性は,社会実装において不可欠であり,その評価手法の確立が急務である。
    • 従来の安全性評価は単一のプロンプトに依存し,継続的な対話における防御機能の変化を捉えられていない。
    • 本研究は,継続的な敵対的対話を通じて,防御機能の劣化を定量的に測定するフレームワークを提案する。
    • 提示されたフレームワークADVERSAは,防御機能の劣化をラウンドごとのコンプライアンス軌跡として連続的に測定できる。
    • 3つの最先端モデル(Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.2)を用いた実験で,15回の会話において26.7%の脱獄率が確認された。
    • 脱獄は初期ラウンドに集中する傾向があり,持続的な攻撃では脱獄率が累積的に上昇するとは限らないことが示唆された。

    Link: https://arxiv.org/abs/2603.10068

  • LLMの失敗要因:自動セキュリティパッチ生成の失敗分析と部分的な成功測定 [cs.CR, cs.AI]目的:自動セキュリティパッチ生成における失敗要因の分析と,その成功度合いの測定
    • ソフトウェアの脆弱性は常に存在する。自動化された修正技術は,迅速な対応に不可欠である。
    • LLMによるセキュリティ脆弱性の修正は有望視されているものの,その有効性は十分に評価されていない。
    • LLMが生成するセキュリティパッチの信頼性を高めるための評価指標と改善策を提示する。
    • 生成されたパッチの約24.8%のみが完全な正しさを示し,約51.4%はセキュリティと機能性の両方で失敗する。
    • 主な失敗原因は,LLMのセマンティックな理解の不足であり,構文的には正しいが不適切な修正戦略を適用する。
    • 提案されたSecurity Repair Score(SRS)は,LLMが機能性は維持するものの,セキュリティ面で課題を抱えていることを定量的に示している。

    Link: https://arxiv.org/abs/2603.10072

  • TASER:UAV群分散型連合学習におけるバックドア抑制のためのタスク認識スペクトルエネルギー洗練 [cs.CR, cs.AI]目的:UAV群分散型連合学習におけるステルス性の高いバックドア攻撃に対する防御
    • UAVを用いた分散型連合学習は,プライバシー保護と効率的な学習を両立できるため重要性が高まっている。
    • バックドア攻撃は巧妙化しており,既存の防御策は複雑化し,依然として脆弱性が残されている。
    • スペクトル集中を利用し,複雑な外れ値検出に頼らずに,ステルス性の高いバックドア攻撃を抑制することを目指す。
    • 提案手法TASERは,バックドア攻撃のスペクトル特性に着目し,タスクに応じた周波数係数の選択により,バックドアタスクの構造を破壊する。
    • 理論的な保証と実験により,TASERは外れ値検出を回避するステルス性の高いバックドア攻撃に対しても有効であることが示された。
    • 攻撃成功率を20%以下,精度低下を5%以下に抑えることができた。

    Link: https://arxiv.org/abs/2603.10075

  • 大規模言語モデルにおける敵対的意味層特定活性操縦:健忘症 [cs.CR, cs.AI, cs.LG]目的:大規模言語モデルの安全性機構を回避する軽量な活性空間敵対的攻撃手法
    • 大規模言語モデルは強力な能力を持つ一方,悪意のあるコンテンツ生成のリスクがあり,安全性の確保が重要である。
    • 既存の安全対策は不十分であり,大規模言語モデルが有害な応答を生成する可能性が残されている。
    • 本研究は,既存の安全対策を回避し,有害なコンテンツを生成する敵対的攻撃手法の開発と評価を目的とする。
    • 提案手法「健忘症」は,大規模言語モデルの内部状態を操作することで,ファインチューニングや追加学習なしに安全対策を回避できる。
    • 実験結果は,提案手法が様々な反社会的な行動を大規模言語モデルに誘発できることを示している。
    • オープンウェイトLLMのセキュリティ対策の強化と,潜在的な悪用を防ぐための継続的な研究の必要性が示唆される。

    Link: https://arxiv.org/abs/2603.10080

  • マルチストリーム摂動攻撃:同時タスク干渉による思考型LLMの安全性アライメント破壊 [cs.CR, cs.AI]目的:思考型LLMの安全性アライメントを破壊する手法
    • LLMの思考モードは複雑なタスク処理能力を高める一方,新たなセキュリティリスクも生じている。
    • 思考モードは複数のタスクを同時に処理する際に特有の脆弱性を持つ。
    • 同時タスク干渉により思考プロセスを混乱させ,安全性メカニズムを回避する。
    • 提案手法は,JailbreakBench,AdvBench,HarmBenchデータセットにおいて,Qwen3シリーズを含む主要モデルで高い攻撃成功率を達成した。
    • 実験により,思考崩壊率は最大17%,応答の繰り返し率は最大60%に達し,安全性メカニズムの回避に加え,思考プロセスの崩壊や反復的な出力が生じることが示された。
    • マルチストリーム摂動攻撃は,複数のタスクストリームを重ね合わせることで干渉を誘発する,3つの摂動戦略(タスクの相互挿入,反転摂動,形状変換)を用いる。

    Link: https://arxiv.org/abs/2603.10091

  • 実行が新たな攻撃対象領域となる:OpenClaw様式ローカル実行器を用いた生存可能性を考慮したエージェント型暗号資産取引 [cs.CR, cs.AI]目的:OpenClaw様式システムおよびスキル対応エージェントにおける実行層の生存可能性標準の提案
    • 近年,LLMを活用したエージェント型取引システムが注目を集めており,その安全性確保が重要課題となっている。
    • 従来の「誤った回答」による安全性問題に加え,悪意のあるプロンプトやスキルによる実取引上の損失リスクが顕在化している。
    • サプライチェーンリスク下でのテスト可能性を確保し,意図されたポリシーと実際の挙動の乖離(Delegation Gap)を定量化することを目指す。
    • 提案手法(SAE)は,実行層における生存可能性を向上させ,最大ドローダウン(MDD)を大幅に低減することを示した。
    • SAEは,VaR(Value at Risk)も大幅に改善し,攻撃成功率を低下させ,誤検知はゼロであった。
    • SAEは,エージェント型取引の安全性を再定義し,上流の意図とスキルを信頼せず,行動が副作用となる箇所で生存可能性を強化する。

    Link: https://arxiv.org/abs/2603.10092

  • 時間的ブレイド群を用いた権限昇格の検出 [cs.CR]目的:クラウド権限グラフの時間的進化における権限昇格の検出
    • クラウド環境のセキュリティ確保は重要であり,権限管理の脆弱性が大きなリスクとなる。
    • クラウド権限フローのリスク評価は複雑であり,既存の手法では十分な識別が困難である。
    • 時間的ブレイド群を用いて,分散型と集中型の2つのリスク領域を識別し,自動化されたリスク管理を実現する。
    • 強連結成分におけるブローの Lyapunov 指数(LE)が,リスク領域の境界を特定する有効な指標となることが示された。
    • エッジ数や権限フローといったアベル統計量ではLEを特定できないことが証明された。非可換性の利点を活用し,リスク領域の識別が可能である。
    • 分散型と集中型の2つのリスク領域を判別することで,クラウド権限フローのリスク評価と対策の自動化に貢献する。

    Link: https://arxiv.org/abs/2603.10094

  • 米国国勢調査データのノイズ除去:簡潔なブロック階層回帰 [cs.LG, cs.CR]目的:米国国勢調査データのノイズ除去と精度向上
    • 国勢調査データは,立法区割り,資金配分,都市計画,科学研究等,社会基盤に不可欠である。
    • 既存のノイズ除去手法では,特に郡や地区レベルでの集計精度に課題が残る。
    • 本研究は,より高精度で一貫性のある推定値を効率的に得ることを目指す。
    • 本研究で開発したBlueDownは,既存手法(TopDown)と同等のプライバシー保護と構造的制約を満たしつつ,より高い精度を実現する。
    • 特に郡および地区レベルの集計において,米国国勢調査局が提案する評価指標で顕著な精度向上が確認された。
    • ブロック階層回帰と簡潔な線形代数演算により,計算効率を大幅に向上させ,大規模データへの適用を可能にした。

    Link: https://arxiv.org/abs/2603.10099

  • 互換性の代償:MCP句への準拠脆弱性の体系的な発見と悪用 [cs.CR, cs.AI]目的:AIエージェントと外部ツール間の相互運用性を向上させるMCPの準拠脆弱性の分析と悪用手法
    • AIエージェントの発展には,多様なツールやデータソースとの連携が不可欠である。
    • 既存の連携は断片的であり,標準化されたフレームワークの必要性が高まっている。
    • MCPの柔軟性を悪用した攻撃からシステムを保護する手段を確立する必要がある。
    • 本研究では,多言語MCP SDKに対する新たな攻撃対象領域を体系的に分析するフレームワークを提案した。
    • 異なる言語のSDKを正規化する中間表現生成器と,LLMを活用した静的解析手法を開発した。
    • MCP句の攻撃セマンティクスを形式化し,3種類の攻撃モダリティを用いて悪用可能な不適合問題を特定した。

    Link: https://arxiv.org/abs/2603.10163

  • MCP-in-SoS:オープンソースMCPサーバーのリスク評価フレームワーク [cs.CR, cs.AI]目的:オープンソースMCPサーバーにおける脆弱性の評価とリスクの定量化
    • LLMエージェントの普及に伴い,外部ツールへのアクセス手段としてのMCPサーバーの重要性が高まっている。
    • オープンソースMCPサーバーのセキュリティリスク評価が十分ではなく,安全な運用を阻害する要因となっている。
    • 脆弱性分析とリスク評価フレームワークを構築し,MCPサーバーの安全な開発を支援すること。
    • 静的コード解析により,多くのオープンソースMCPサーバーに機密性,完全性,可用性を損なう可能性のある脆弱性が存在することが示された。
    • 脆弱性は,MITRE CAPECに基づき,具体的な攻撃パターンと脅威カテゴリにマッピングされた。
    • リスク評価フレームワークは,脆弱性の可能性と影響を多角的に評価し,定量的なリスクスコアを提供する。

    Link: https://arxiv.org/abs/2603.10194

  • 類似度に基づく検出を用いた多言語AI駆動型パスワード強度推定 [cs.CR, cs.AI]目的:パスワード強度推定の性能向上
    • サイバー攻撃の増加に伴い,安全なパスワード設定の重要性が高まっている。
    • 既存のパスワード強度メーターは,多様な言語や類似パスワードへの対応が不十分である。
    • 非英語圏のデータを取り入れ,AI生成データと類似度検出を組み合わせることで,より高精度なパスワード強度推定を目指す。
    • 非英語圏(インド)のデータを取り入れることで,パスワード強度メーターの性能向上が確認された。
    • ChatGPTで生成されたデータは,既存のPassGANよりも高い性能を示し,PassGANのようなツールの必要性が低下する可能性が示唆された。
    • Jaro類似度に基づくマッチング機構により,既知の脆弱なパスワードとの類似度が高いパスワードの分類が可能となり,検出精度が向上した。

    Link: https://arxiv.org/abs/2603.10217

  • クラウドAPIを保護するためのポリシーフレームワークPaladin:アプリケーションコンテキストと生成AIの組み合わせ [cs.RO, cs.CR]目的:クラウドAPIのセキュリティ確保
    • クラウド利用の拡大に伴い,APIを介した攻撃が増加しており,その保護が重要である。
    • 既存のセキュリティ対策はアプリケーションの構造を理解する必要があり,柔軟性に欠ける。
    • アプリケーションの構造に依存せず,容易にポリシーを定義・適用できるフレームワークの実現。
    • Paladinは,大規模言語モデルを活用し,APIリクエストから意味情報を抽出し,アプリケーションに依存しないポリシー定義を可能にする。
    • プロトタイプの評価により,Paladinは様々なアプリケーションに適用でき,高いポリシー識別精度と合理的なオーバーヘッドを示すことが確認された。
    • Paladinは,クラウドAPIのセキュリティポリシー定義と適用を大幅に容易にすると期待される。

    Link: https://arxiv.org/abs/2603.10228

  • ACE Runtime - ゼロ知識証明を活用したサブセカンドレベルの暗号的確定性を持つブロックチェーン実行環境 [cs.CR, cs.DC]目的:高速ブロックチェーンにおける検証コスト削減と,量子コンピュータ耐性向上のためのアーキテクチャ
    • ブロックチェーン技術は,分散型システムの基盤として重要であり,その性能向上が求められている。
    • 従来方式では,トランザクションごとに署名検証を行うため,計算コストが高く,スケーラビリティが課題となっている。
    • 本研究は,ゼロ知識証明を用いることで,トランザクションごとの署名検証を削減し,高速かつ安全なブロックチェーンを実現する。
    • ACE Runtimeは,アイデンティティ認証分離に基づき,軽量なHMACアテステーションをホットパスに導入することで,検証コストを削減する。
    • ブロックごとに集約されたゼロ知識証明による最終確定証明を非同期に生成するAttest Execute Proveパイプラインを採用する。
    • プロトタイプの測定とモデル分析の結果,検証コストの定数化,バリデーターのハードウェア要件の低減,帯域幅効率の改善が示唆された。

    Link: https://arxiv.org/abs/2603.10242

  • 組み込みシステムのための量子エントロピー・アズ・ア・サービス [cs.DB, cs.CR]目的:組み込みシステム向け量子エントロピー供給システム
    • 組み込みシステムにおける暗号化の安全性はエントロピーの質に左右される。しかし,信頼できるエントロピー源が限られている。
    • 小型デバイスでは,重たいプロトコルを扱う余裕がなく,高品質なエントロピーの確保が課題である。
    • 量子乱数生成器(QRNG)由来のエントロピーを安全に供給し,組み込みシステムにおける暗号化を強化することを目指す。
    • QuantisデバイスからESP32クラスのクライアントへ,ポスト量子暗号化されたチャネルを通じて量子エントロピーを供給するシステムを構築した。
    • ML-KEM-512を用いたDTLS 1.3ハンドシェイクは,証明書検証なしで平均313msで完了し,ECDHE P-256よりも35%高速であった。
    • ML-KEM-512とML-DSA-44を組み合わせることで,更なる高速化を実現し,完全な検証下でもECDHE P-256より63%高速であった。

    Link: https://arxiv.org/abs/2603.10274

  • PRoADS:潜在的最適化と後退オイラー反転を用いた,証明可能な安全でロバストな音声拡散ステガノグラフィ [cs.RO, cs.HC, cs.CL, cs.CR, cs.MM, cs.SD]目的:音声拡散モデルを用いた,安全かつロバストな音声ステガノグラフィフレームワーク
    • デジタルコンテンツの秘匿は重要であり,盗聴や改ざんから保護する必要がある。
    • 従来のステガノグラフィ手法は,圧縮やノイズに対して脆弱であることが課題である。
    • 拡散モデルの再構成誤差を低減し,高いビット誤り率を抑制することを目的とする。
    • PRoADSは,初期ノイズに秘密メッセージを埋め込むことでステガノグラフィを実現している。
    • 潜在的最適化と後退オイラー反転により,潜像空間の再構成誤差と拡散反転誤差を最小化している。
    • 64kbps MP3圧縮下で0.15%という低いビット誤り率を達成し,既存手法を大幅に上回る堅牢性を示した。

    Link: https://arxiv.org/abs/2603.10314

  • 生成AIウォーターマークの直交的脆弱性:空間および潜在的Provenanceの比較実験的ベンチマーク [cs.CR, cs.CV]目的:生成AIウォーターマークの空間的および潜在的なProvenanceにおける脆弱性の比較検証
    • 生成AIの急速な普及により,デジタルコンテンツの信頼性確保が重要課題となっている。
    • 既存のウォーターマーク技術は,最新の生成AI編集ツールに対する堅牢な評価が不足している。
    • 本研究は,単一ドメインのウォーターマーク技術の脆弱性を明らかにし,マルチドメイン暗号アーキテクチャの必要性を示す。
    • 空間的ウォーターマークは,Img2Img変換などのピクセル書き換えアルゴリズムに対して高い脆弱性を示す。
    • 潜在的ウォーターマークは,静的クロッピングなどの幾何学的歪みに対して高い脆弱性を示す。
    • 空間的・潜在的ウォーターマークは,互いに排他的な脆弱性を有しており,単一ドメインのウォーターマーク技術では十分な防御が困難である。

    Link: https://arxiv.org/abs/2603.10323

  • OpenClawにおけるセキュリティ分析と防御フレームワーク:鉤爪が手をつかまないように [cs.CE, cs.CR]目的:OpenClawプラットフォームのセキュリティ脆弱性の分析と防御フレームワークの提案
    • 大規模言語モデルを活用したコードエージェントの利用拡大に伴い,セキュリティリスクの評価が重要となっている。
    • 既存のコードエージェントフレームワークは,セキュリティ機能が不十分であり,悪意のある命令実行のリスクを抱えている。
    • OpenClawの脆弱性を明らかにし,人間とエージェントの協調による防御戦略の有効性を示すことを目指す。
    • OpenClawは,ネイティブなセキュリティ機能が低く,バックエンドLLMのセキュリティに依存していることが示された。
    • MITRE ATLASおよびATT&CKフレームワークに基づいた47の攻撃シナリオにおいて,平均防御率はわずか17%であった。
    • 提案する人間介入型(HITL)防御層は,OpenClawのネイティブ防御をバイパスする重大な攻撃を最大8件検出し,全体的な防御率を19%から92%に向上させた。

    Link: https://arxiv.org/abs/2603.10387

  • 衛星システムにおけるサプライチェーンインプラントを通じたサイレントな欺瞞:センサー詐欺攻撃 [cs.CR]目的:衛星システムに対するサプライチェーンを介したセンサー詐欺攻撃の検証
    • 宇宙インフラは重要であり,サイバー攻撃による影響は甚大。地上システム以上に深刻化する可能性を秘めている。
    • 従来の攻撃対策は地上からの攻撃に焦点が当たっており,衛星内部からの攻撃という脆弱性が看過されてきた。
    • サプライチェーンを悪用した衛星内部からの詐欺攻撃のリスクを明らかにし,対策を検討することを目的とする。
    • 本研究では,NASAのNOS3シミュレーション環境において,サプライヤーが提供するコンポーネントを悪用した内部衛星詐欺攻撃の実現可能性を実証した。
    • 不正なCore Flight Softwareアプリケーションは,COSMOS地上局に正当なデータとして認識され,オンボード推定器と地上オペレーターの判断を誤らせることに成功した。
    • この攻撃はミッションの完全性と可用性を直接脅かし,認証されたテレメトリ,コンポーネント認証,Provenanceトラッキングなどの対策の重要性を示唆する。

    Link: https://arxiv.org/abs/2603.10388

  • ネットワーク侵入検知システムの強化:敵対的攻撃を緩和するための多層アンサンブルアプローチ [cs.CR, cs.AI]目的:敵対的攻撃に対するネットワーク侵入検知システムの堅牢性向上
    • 機械学習の活用はネットワークセキュリティの自動化に不可欠であり,その重要性は増している。
    • 機械学習を用いた侵入検知システムは,敵対的サンプルによって容易に欺瞞される脆弱性を抱えている。
    • 敵対的攻撃に対する耐性を高めることで,機械学習ベースの侵入検知システムの信頼性を確保することを目指す。
    • 提案手法は,スタッキング分類器とオートエンコーダーの二層構造により,敵対的攻撃に対する耐性を高める。
    • GANとFGSMという二つの敵対的サンプル生成手法を用いて評価を行い,提案手法の有効性を検証した。
    • UNSW-NB15とNSL-KDDのデータセットを用いた実験により,提案手法が敵対的攻撃への耐性を向上させることが示された。

    Link: https://arxiv.org/abs/2603.10413

  • 生成AIの能力の無防備な露出がディープフェイク検出を損なう [cs.CR, cs.AI, cs.CV]目的:生成AIの能力の露出とディープフェイク検出の脆弱性
    • AI技術の進化は社会に大きな変革をもたらす一方,悪用のリスクも伴う。
    • ディープフェイク技術の巧妙化により,検出が困難になっている。
    • 生成AIが持つ能力を悪用したディープフェイクの検出回避手法を解明する。
    • 生成AIの推論能力と画像改良能力が,ディープフェイク検出を容易に回避しうることを示した。
    • 生成AIが示す「信頼性」の基準を悪用することで,高画質で検出を回避したディープフェイクを生成できた。
    • 商用チャットボットサービスは,そのリアリズムと操作性から,より大きなセキュリティリスクをもたらす。

    Link: https://arxiv.org/abs/2603.10504

  • IHチャレンジ:最先端LLMにおける指示階層を改善するための訓練データセット [cs.AI, cs.CL, cs.CR, cs.LG]目的:LLMにおける指示階層の訓練
    • LLMの安全性の確保は重要であり,特に悪意のあるプロンプトへの対策が求められている。
    • 指示の衝突時にLLMがどのように優先順位をつけるか(指示階層)の評価と訓練が困難である。
    • LLMの指示階層のロバスト性を向上させ,安全性を高めることを目指す。
    • IHチャレンジデータセットを用いてGPT-5-Miniをファインチューニングすることで,指示階層のロバスト性が平均+10.0%向上した。
    • 有害な応答が6.6%から0.7%に減少し,一般的な安全性評価における有用性も向上した。
    • 内部的な静的エージェント型プロンプトインジェクション評価において飽和し,能力の低下は最小限に抑えられた。

    Link: https://arxiv.org/abs/2603.10521

  • シンボリック実行を支援した安全・確実なソフトウェア保護手法 [cs.CR]目的:産業用制御ソフトウェアのコピー保護
    • 産業用制御システムは社会インフラを支えるため,セキュリティ確保が不可欠である。
    • ソフトウェアの不正コピーや改ざんによるリスクが高まっており,対策が急務である。
    • 特定のハードウェアでのみ正しく動作するソフトウェア保護を実現し,セキュリティを高める。
    • 本手法では,PUFを用いてハードウェアとソフトウェアを紐付け,不正な環境での実行を阻止する。
    • シンボリック実行により,異なる環境やPUFの応答異常時においても安全性が保証される。
    • また,リバースエンジニアリングに対する防御策も講じられており,セキュリティ強度が高い。

    Link: https://arxiv.org/abs/2603.10608

  • ニューラルネットワークにおけるアクティブパスを用いたバックドアの検出と除去:侵入検知への応用 [cs.CL, cs.CR, cs.AI, cs.LG]目的:ニューラルネットワークのバックドア検出と除去
    • 機械学習の安全性確保は重要であり,悪意のある改ざんからシステムを保護する必要がある。
    • バックドア攻撃は検知が難しく,正常な入力データに潜んで影響を及ぼす可能性がある。
    • アクティブパスを利用し,バックドアトリガーを特定・除去することで安全性を向上させる。
    • 本研究では,ニューラルネットワークの活性パスに基づき,バックドアトリガーの検出と除去を可能にする新しい手法を提案した。
    • 提案手法は,侵入検知用機械学習モデルにバックドアを埋め込む実験により有効性が確認された。
    • このアプローチは,バックドアの仕組みを説明可能であり,より信頼性の高いシステム構築に貢献する。

    Link: https://arxiv.org/abs/2603.10641

  • クロスサイロ連合学習における検証可能な集約のための,バックドアの再利用:一時的な内在的証明 [cs.CR, cs.AI]目的:クロスサイロ連合学習における集約の完全性保証
    • 連合学習は分散データを活用するが,データの機密性・完全性の確保が重要。
    • 既存の検証可能集約は計算コストが高く,大規模モデルへの適用が困難。
    • 内在的証明を利用し,軽量かつスケーラブルな集約の完全性保証を実現。
    • 悪意のあるサーバーによる更新の改ざん・削除を高精度に検出可能。
    • ResNet-18において,従来の暗号化ベースラインと比較して1000倍以上の高速化を達成。
    • クライアントの匿名性を保ちつつ,信頼された第三者なしで信号衝突を防止。

    Link: https://arxiv.org/abs/2603.10692

  • CacheSolidarity:マルチテナントLLMサービングシステムにおけるプレフィックスキャッシュサイドチャネルの防止 [cs.CR, cs.DC, cs.LG]目的:マルチテナントLLMサービングシステムにおけるプレフィックスキャッシュサイドチャネルに対するセキュリティ確保
    • LLMの効率的な推論は重要であり,キャッシュ技術はその性能を大きく左右する。
    • 自動プレフィックスキャッシュは高速化に貢献する一方,タイミングサイドチャネルを引き起こす可能性がある。
    • キャッシュ共有を維持しつつ,サイドチャネル攻撃から情報を保護することを目的とする。
    • CacheSolidarityは,キャッシュ再利用を監視し,疑わしい共有を特定し,必要な場合にのみプレフィックスを隔離する。
    • 既存の防御策と比較して,最大70%高いキャッシュ再利用率と30%低い推論レイテンシを実現する。
    • LLMサービングにおけるセキュリティとパフォーマンスの両立が可能であることを示す軽量設計である。

    Link: https://arxiv.org/abs/2603.10726

  • AttriGuard:LLMエージェントにおけるツール呼び出しの因果的帰属による間接的なプロンプトインジェクションの防御 [cs.CR]目的:間接的なプロンプトインジェクションに対する防御
    • LLMエージェントの利用拡大に伴い,セキュリティ対策の重要性が増している。
    • 既存の防御策は,未知のペイロードへの対応が難しく,汎化性能に課題がある。
    • ツール呼び出しの因果関係を分析し,悪意のある指示による操作を検知・阻止する。
    • AttriGuardは,ツール呼び出しの必要性を検証するため,外部観測を制御的に減衰させた環境下でエージェントを再実行する。
    • 4つのLLMと2つのエージェントベンチマークにおいて,静的攻撃に対して0%の攻撃成功率を達成し,実用的な性能を維持した。
    • 既存の防御策が劣化する最適化ベースの適応型攻撃に対しても,高い耐性を示した。

    Link: https://arxiv.org/abs/2603.10749

  • ニューラルネットワークモデルにおける知的財産のコピー保護のためのPUFベースのアプローチ [cs.CR, cs.LG]目的:ニューラルネットワークモデルにおける知的財産のコピー保護
    • 企業における知的財産は価値が高く,その保護は不可欠である。特に,機械学習モデルに埋め込まれた知的財産は保護が重要となる。
    • 複製されたハードウェアへのソフトウェアやモデルの不正コピーが容易に行われる可能性がある。ハードウェアとソフトウェアの紐付けが不十分である。
    • ハードウェア固有の特性を利用し,ニューラルネットワークモデルの重みをハードウェアに紐付け,不正なコピーを困難にすることを目指す。
    • 提案手法により,複製されたハードウェア上ではニューラルネットワークモデルの精度が低下することが確認された。
    • 物理的に複製不可能な関数(PUF)を活用することで,モデルの重みをハードウェアに強く紐付けることが可能となった。
    • 本研究は,ニューラルネットワークモデルに組み込まれた知的財産の保護に貢献すると考えられる。

    Link: https://arxiv.org/abs/2603.10753

  • 進化する脅威環境下におけるIoTネットワーク向けIncremental Federated Learningによる侵入検知 [cs.CL, cs.HC, cs.CL, cs.CR]目的:IoTネットワークにおける侵入検知の長期的な性能向上
    • IoT機器の普及により攻撃対象領域が拡大し,堅牢な侵入検知システムの重要性が増している。
    • 攻撃手法の進化により,既存の侵入検知システムは時間経過とともに性能が低下する可能性がある。
    • 変化する環境下でも性能を維持し,リソース制約のあるIoTデバイスに適した手法を確立すること。
    • Incremental Federated Learningを用いることで,非定常なIDSモデルの長期的な性能向上が確認された。
    • 累積Incremental Learningと代表学習が,ドリフト環境下で最も安定した性能を示した。
    • 保持ベースの手法は,高い精度と低い遅延のトレードオフを提供する。

    Link: https://arxiv.org/abs/2603.10776

  • EVMBenchの再評価:AIエージェントはスマートコントラクトセキュリティの準備が整っているか [cs.CL, cs.CL, cs.CR, cs.ET]目的:AIエージェントのスマートコントラクトセキュリティにおける能力の再評価
    • スマートコントラクトは分散型アプリケーションの基盤であり,セキュリティは極めて重要である。
    • 既存の脆弱性検出は手作業に頼る部分が多く,効率性と網羅性に課題がある。
    • AIエージェントによる自動化されたセキュリティ監査の可能性と限界を明確にすること。
    • AIエージェントの脆弱性検出率は設定,タスク,データセットによって変動し,安定性がないことが判明した。
    • 実際のセキュリティインシデントにおいては,脆弱性を検出しても,全エージェントでエンドツーエンドの攻撃に成功するものは存在しなかった。
    • オープンソースの環境構築ツールがベンダー提供のものよりも高い性能を示すことが示され,環境構築の影響が無視できないことが明らかになった。

    Link: https://arxiv.org/abs/2603.10795

  • Vision Transformer におけるバックドア方向 [cs.CV, cs.CR]目的:Vision Transformerにおけるバックドア攻撃の表現
    • 画像認識の応用拡大に伴い,AIセキュリティの重要性が高まっている。
    • バックドア攻撃は検知が難しく,AIシステムの信頼性を脅かす深刻な問題である。
    • バックドア攻撃のメカニズム解明と,それに対する防御手法の開発が求められている。
    • バックドア攻撃は,モデルの活性化空間における特定の「トリガー方向」として表現されることが明らかになった。
    • この方向に対する介入は,様々なデータセットや攻撃手法において,バックドア挙動を一貫して制御できることが確認された。
    • 静的パッチトリガーと分散型トリガーでは,内部的な処理ロジックに明確な違いが存在することが示された。

    Link: https://arxiv.org/abs/2603.10806

  • MAD:メモリ割り当てとソフトウェア多様性の融合 [eess.SY, cs.SY, cs.CR]目的:DRAMエラーに起因する脆弱性への対策
    • DRAMエラーは無視できない深刻な問題であり,システム信頼性確保の要である。
    • 既存の対策は特定のRowHammer攻撃に特化し,汎用性に欠ける。
    • メモリ割り当てとソフトウェア多様性を組み合わせ,RowHammer攻撃の遅延化を目指す。
    • 本研究では,メモリ割り当ての多様化により,RowHammer攻撃を遅延させる新しいアプローチ「MAD」を提案する。
    • MADは,空間的多様化技術を組み合わせることで,メモリサブシステムの低いエントロピーという課題を克服する。
    • 実装が容易で,性能への影響が少なく,ハードウェア・ソフトウェアに依存しない。

    Link: https://arxiv.org/abs/2603.10840

  • TOSSS:大規模言語モデルのためのCVEベースのソフトウェアセキュリティベンチマーク [cs.LG, cs.CL, cs.CR, cs.SE]目的:大規模言語モデルの,安全なコードと脆弱なコードの選択能力の測定
    • LLMは様々な分野で活用され,ソフトウェア開発を支援するツールとして重要性が増している。
    • LLMを開発ワークフローに組み込むことで,新たな脆弱性が生じる可能性があり,セキュリティが懸念される。
    • 既存のベンチマークの限界を克服し,CVEデータベースに基づいた,より包括的なセキュリティ評価を行う。
    • TOSSSは,LLMに安全なコードと脆弱なコードの選択を促し,その性能を0から1のセキュリティスコアで評価する。
    • C/C++およびJavaコードにおいて14のLLMを評価した結果,スコアは0.48から0.89の範囲であった。
    • TOSSSは,LLMプロバイダが公開するベンチマークスコアにセキュリティの観点を加えるための補完的な指標となりうる。

    Link: https://arxiv.org/abs/2603.10969

  • TLS 1.3ハンドシェイクの階層的性能分析:古典的,ハイブリッド,純粋なポスト量子鍵交換 [cs.CR]目的:TLS 1.3ハンドシェイクにおけるポスト量子暗号アルゴリズムの性能影響
    • 暗号プロトコルは,インターネット通信の安全性とプライバシーを確保する上で不可欠である。
    • ポスト量子暗号への移行は急務だが,性能への影響が明確になっていない。
    • TLS 1.3における古典的,ハイブリッド,純粋なポスト量子鍵交換の性能を定量的に評価する。
    • 実験結果から,ポスト量子鍵交換はTCPハンドシェイク,TLSハンドシェイクの両レイヤーで遅延を増加させる。
    • ハイブリッド鍵交換は,純粋なポスト量子鍵交換よりも比較的低い遅延で済むことが示された。
    • バックエンドの応答サイズが大きいほど,ポスト量子アルゴリズムによる性能低下が顕著になる。

    Link: https://arxiv.org/abs/2603.11006

  • 継続観測下における,気付かないDPと適応的DPの分離 [cs.MA, cs.IR, cs.CL, cs.CR, cs.DS]目的:気付かないDPと適応的DPの分離問題
    • データプライバシー保護は,個人情報を取り扱う現代社会において不可欠な課題である。
    • ストリーミングアルゴリズムにおけるプライバシー保護の理論的限界が明確でなかった。
    • 気付かないDPと適応的DPの間のプライバシー保護能力の差を明確にすること。
    • 気付かないDPアルゴリズムは,入力次元の指数関数的な数の時間ステップにおいて正確性を維持する。
    • 適応的DPアルゴリズムは,定数個の時間ステップの出力公開後には正確性を失う。
    • Jainらの未解決問題に対し,気付かないDPと適応的DPの分離問題を示す問題例を提示した。

    Link: https://arxiv.org/abs/2603.11029

  • 偽造不可能な偽造:バックドアに基づくデータセット所有権検証における偽造ウォーターマークの実現可能性について [cs.CR]目的:バックドアウォーターマークの脆弱性と,その偽造可能性に関する調査
    • 公開データセットの保護は,AI研究の発展と公平性を維持する上で不可欠である。
    • 既存のウォーターマーク技術は,攻撃者による偽造が比較的容易であるという課題を抱えている。
    • 本研究は,既存技術の脆弱性を明らかにし,より強固なデータセット保護策の必要性を示すことを目指す。
    • 提案手法FW-Genは,元のウォーターマークの統計的特性を維持しつつ,視覚的に異なる偽造ウォーターマークを生成する。
    • 実験結果から,偽造ウォーターマークは元のウォーターマークと同等またはそれ以上の統計的有意性を示すことが明らかになった。
    • 現在のデータセット所有権検証メカニズムは,著作権紛争における単独の証拠として不十分であることが示唆される。

    Link: https://arxiv.org/abs/2411.15450

  • テキスト画像生成モデルの脱獄に対するトークンレベル制約境界探索 [cs.HC, cs.CL, cs.CV, cs.CR]目的:テキスト画像生成モデルの脱獄攻撃手法
    • 画像生成技術の発展に伴い,有害コンテンツ生成のリスクが顕在化してきた。
    • 既存の防御システムを回避する脱獄攻撃は,探索空間が広大で効率的な手法が課題である。
    • テキストと画像チェッカーの境界付近のトークン探索により,効率的な脱獄攻撃を実現する。
    • 提案手法TCBS-Attackは,トークンレベルでの制約境界探索を通じて,従来の攻撃手法よりも優れた性能を示す。
    • オープンソースモデルおよびDALL-E 3などの商用サービスに対し,高い攻撃成功率を達成した。
    • ASR-4で52.5%,ASR-1で22.0%という高い攻撃成功率を記録し,既存手法を大きく上回る結果が得られた。

    Link: https://arxiv.org/abs/2504.11106

  • グラフへのクラスタ認識攻撃 [cs.CR]目的:グラフウォーターマークに対するクラスタを意識した攻撃の評価
    • グラフ構造データは,社会ネットワークやバイオメディカル研究など重要な応用分野で利用が拡大している。
    • データ共有時の不正再配布を防ぐ必要があるが,既存のウォーターマーク手法の堅牢性評価は不十分である。
    • 現実世界のグラフに存在するコミュニティ構造を悪用する攻撃に対する脆弱性を明らかにする。
    • クラスタを意識した攻撃は,ランダムな摂動攻撃と比較して,現実世界のデータセットとクラスタリングアルゴリズムにおいて優れた性能を示す。
    • これらの攻撃は,帰属性の正確性を低下させながら,構造的な歪みをランダム攻撃と同程度に抑えることで,高い攻撃効率を実現する。
    • 現状のウォーターマーク手法は,コミュニティ構造を悪用する攻撃に対して脆弱であり,堅牢な防御策が求められる。

    Link: https://arxiv.org/abs/2504.17971

  • 機械学習における差分プライバシー:記号AIからLLMまで [cs.CR, cs.AI, cs.LG, cs.NE]目的:機械学習における差分プライバシーの包括的概観
    • 個人情報保護はAI技術の社会実装において不可欠であり,プライバシー保護とデータ活用を両立させる必要がある。
    • 機械学習モデルは,学習データに含まれる個人の情報を漏洩するリスクがあり,プライバシー侵害が懸念されている。
    • 差分プライバシーの理論的枠組みと応用を整理し,プライバシー保護された機械学習システムの開発を促進する。
    • 差分プライバシーは,個人のデータを含めるか除外するかによってアルゴリズムの出力が大きく変化しないことを保証することで,プライバシーリスクを軽減する。
    • 本調査では,差分プライバシーの基礎的な定義から,主要な理論的・応用的な貢献までの変遷を辿る。
    • また,機械学習モデルへの差分プライバシーの統合方法を詳細に検討し,実用的な評価手法についても解説する。

    Link: https://arxiv.org/abs/2506.11687

  • キャッシュ内の影:LLM推論におけるKVキャッシュのプライバシーリスクの解明と軽減 [cs.CR, cs.AI, cs.CL]目的:LLM推論におけるKVキャッシュのプライバシーリスク
    • LLMの普及に伴い,推論速度向上は重要な課題である。KVキャッシュはその鍵となる技術。
    • KVキャッシュは効率化に貢献するが,その内部に機密情報が残留する可能性が懸念される。
    • KVキャッシュに保存された情報から,ユーザーの入力情報を復元される問題を解決する。
    • KVキャッシュからユーザー入力が直接再構成可能であることを示した。3種類の攻撃手法(Inversion, Collision, Injection)を提案。
    • 提案手法KV-Cloakは,可逆行列を用いた難読化と演算融合により,KVキャッシュを保護する。
    • KV-Cloakは全ての攻撃を効果的に防御し,モデル精度と性能への影響を最小限に抑える。

    Link: https://arxiv.org/abs/2508.09442

  • 生体医用・医療インテリジェンスのための不完全かつプライバシー保護された医療データを用いた階層的二重戦略アンラーニング [cs.RO, cs.LG, cs.AI, cs.CR]目的:生体医用・医療分野における知識の選択的アンラーニング
    • 医療データは機密性が高く,LLMのプライバシーリスク軽減が重要である。
    • LLMは学習データ記憶によりプライバシー侵害の危険性がある。
    • 医療知識の専門性を損なわずに,特定の知識を選択的に削除すること。
    • 本手法は,MedMCQAとMHQAデータセットにおいて高い忘却率(82.7%)と知識保持率(88.5%)を達成した。
    • パラメータの0.1%の変更のみで高いプライバシー保護を保証し,臨床研究の規制遵守を支援する。
    • 幾何学的制約勾配更新と概念認識トークンレベル介入を組み合わせることで,効果的なアンラーニングを実現した。

    Link: https://arxiv.org/abs/2511.19498

  • 企業LLMにおける安全なマルチテナントアーキテクチャのための使い捨て型データ保護 [cs.CR, cs.AI]目的:企業LLM環境におけるデータ漏洩の防止
    • 組織でのLLM利用拡大に伴い,データ漏洩リスクが重要なセキュリティ課題となっている。
    • マルチテナント環境における,テナント間の情報漏洩を防ぐ仕組みが不十分である。
    • セッション情報を自動破棄する使い捨て型データ保護メカニズムを導入し,データ漏洩を抑制する。
    • 提案するSMTAは,部門間のLLMインスタンスを分離し,厳格なコンテキスト所有権境界を適用することで,高いセマンティックな分離を実現した。
    • BAUメカニズムは,クライアント,サーバー,アプリケーション,インフラ,キャッシュ層において,セッション後の漏洩脅威を76.75%の確率で軽減することに成功した。
    • SMTAとBAUの組み合わせにより,厳格な分離,完全なセッションの一時性,強力な機密性,非永続性,ポリシーに準拠した動作が実現された。

    Link: https://arxiv.org/abs/2601.06627

  • 最大トークンを超えて:LLMエージェントにおけるツール呼び出しチェーンによる隠密なリソース増幅 [cs.CL, cs.CR, cs.AI]目的:LLMエージェントにおけるツール層を標的とした,経済的DoS攻撃手法の提案と評価
    • LLMエージェントは多様なタスクを自動化する強力なツールだが,セキュリティ上の脆弱性が存在する
    • 従来のDoS攻撃は単一ターンであり,コスト増幅や隠密性に限界があった
    • 複数ターンのツール呼び出しチェーンを悪用し,コストを増幅させつつ検知を回避する攻撃手法を確立する
    • 提案手法は,LLMエージェントを60Kトークン以上の長大な処理に誘導し,コストを最大658倍に増加させる
    • エネルギー消費量も100~560倍に増加し,GPUのKVキャッシュ占有率も35~74%に上昇した
    • 標準的なプロンプトフィルタや出力監視では検知が難しく,エージェント処理全体の保護が必要であることが示唆された

    Link: https://arxiv.org/abs/2601.10955

  • 1
  • 2