arXiv雑要約
セキュリティ - 2026/05/15 公開
UAVIDS-2025データセットにおける信頼性の高い侵入検知のためのXAIと統計分析:木構造からハイブリッド,表形式DNNアンサンブルへ [cs.CR, cs.LG, stat.CO]目的:UAV侵入検知システムにおける侵入検知モデルの構築と解釈
- UAVの利用拡大に伴い,UAVシステムに対するセキュリティ確保が重要となっている。
- 複雑な機械学習モデルの判断根拠が不明確であり,誤検知や見逃しが発生する可能性がある。
- 攻撃の特徴を特定し,誤予測の原因を統計的に明らかにすることで,より堅牢な検知モデルの構築を目指す。
- 本研究では,様々な機械学習モデル(XGBoost等)を用いてUAV侵入検知を行い,高い性能を達成した。
- SHAP値を用いた特徴量の重要度分析により,各攻撃が標的とする特徴と,誤分類が発生する箇所を特定した。
- 統計分析(Westfall-Young検定等)により,Wormhole攻撃やBlackhole攻撃における誤予測の真の原因を解明した。
AgentTrap:第三者エージェントスキルにおける実行時トラスト障害の測定 [cs.CR, cs.AI]目的:LLMエージェントが第三者スキルを使用する際の悪意のある実行時挙動への耐性を評価するための動的ベンチマーク
- LLMエージェントの能力拡張に第三者スキルが利用され,その普及が著しい。
- 悪意のあるスキルが,危険な動作を通常のワークフローに偽装し実行されるリスクがある。
- 第三者スキル利用時のセキュリティ脆弱性を明らかにし,より安全なエージェント開発を促す。
- AgentTrapは,16のセキュリティ影響次元を網羅する141のタスク(91の悪意のあるタスクと50の有用なタスク)で構成されている。
- 単純な脱獄よりも,モデルが危険な副作用を通常のワークフローの一部として処理するケースが,より多くの情報を提供することが示された。
- モデル,フレームワーク,ワークスペース環境における実行時の評価が重要であることが示唆された。
Goマルウェアの自動検出・分析のためのメモリフォレンジック技術 [cs.CR]目的:Goマルウェアの実行時分析
- マルウェア分析において,静的解析だけでは不十分な場合があり,実行時の振る舞い把握が重要である。
- Go言語で記述されたマルウェアは,静的解析が難しく,メモリ上に残る実行時情報を解析する必要がある。
- Goマルウェアのメモリ情報を解析し,静的解析では得られない情報を抽出すること。
- 本研究では,Goバイナリの実行時解析のための初のメモリフォレンジックフレームワークを開発した。
- フレームワークは,Goの内部構造を解析し,型や関数のメタデータを復元,ヒープ上の文字列や静的文字列を特定した。
- BRICKSTORMやObscura等の実際のマルウェアを用いて評価を行い,C2エンドポイントや暗号化キー等の情報を復元できた。
StormShield:O-RAN 5G RANにおけるRRCシグナリングストームのフィンガープリントに基づく検知と軽減 [cs.NI, cs.CR]目的:RRCシグナリングストームの検知と軽減手法
- 5Gネットワークは高速・大容量だが,制御プレーンはセキュリティ上の脅威に晒されている。
- RRCシグナリングストーム攻撃は検知・軽減が難しく,既存の防御策はシミュレーションに限定される。
- 本研究は,O-RAN環境におけるRRCシグナリングストーム攻撃を検知し,gNBリソースの枯渇を防ぐことを目指す。
- StormShieldは,O-RAN RICに実装されたxAppとして,悪意のあるUEをフィンガープリント化し,リソース枯渇前にブロックする。
- OTAテストベッド実験により,StormShieldがgNBリソースの枯渇を効果的に防ぎ,攻撃開始から106.5ms以内にMUEを97.6%の精度で検知・ブロックできることが示された。
- USRP X410 SDRとFoxconn RUを含む異なるgNB設定で検証され,その有効性が確認された。
ROK-FORTRESS:国家安全保障と公共の安全に対する地政学的トランスクリエーションの影響測定 [cs.CL, cs.AI, cs.CR, cs.CY]目的:大規模言語モデルの国家安全保障および公共の安全に関する安全性評価
- 国家安全保障と公共の安全は,社会の安定と国民の保護に不可欠であるため,高度な評価が求められる。
- 多言語における安全性評価は翻訳のみに依存し,言語と地政学的文脈の相互作用が十分に考慮されていない。
- 本研究は,言語と地政学的背景の影響を分離し,安全性評価の精度向上を目指す。
- 英語と韓国語,そして米韓関係を対象とした実験により,韓国語のモデルでは抑制効果が確認された。
- 地政学的背景は言語と相互作用し,モデルによってその影響は異なることが示された。
- 韓国語の地政学的背景は,言語による抑制効果を軽減する傾向にあり,翻訳のみの評価では見落とされる要素があることが示唆された。
ExploitBench:LLMセキュリティエージェントのための能力段階評価ベンチマーク [cs.CR, cs.AI]目的:LLMセキュリティエージェントの能力段階評価
- サイバーセキュリティ分野において,脆弱性攻撃の高度化に対応できるAIエージェントの育成が重要である。
- 既存のセキュリティベンチマークは,脆弱性の悪用を単純な成功/失敗で評価しており,攻撃の段階的なプロセスを捉えられていない。
- 本研究は,脆弱性攻撃の各段階を定量的に評価することで,LLMセキュリティエージェントの能力向上を目指す。
- ExploitBenchは,脆弱性攻撃を16段階の能力レベルに分解し,各段階を客観的に評価する。
- 公開されている最先端モデルは,脆弱なコードへの到達やクラッシュの発生は可能だが,任意のコード実行には至らないことが多い。
- 一方,非公開の最先端モデルは,約半数のケースで任意のコード実行に成功しており,攻撃の能力差が明確に示された。
DSTAN-Med:生理学的妥当性フィルタリングを用いたIoT医療機器に対する誤データ注入攻撃検知のための二重チャネル時空間的注意機構 [cs.CR]目的:IoT医療機器における誤データ注入攻撃の検知
- 医療機器のIoT化が進む中,患者の安全確保が重要となっている。
- 既存の異常検知システムは,サイバー物理的な異常検出能力に乏しい。
- 空間的相関と時間的依存関係を分離し,生理学的に不可能な攻撃パターンを抑制する。
- DSTAN-Medは,Transformerベースライン(TranAD)と比較して,平均感度を7.4~8.3%向上させた。
- 生理学的妥当性フィルタ(PPF)は,感度をほとんど損なうことなく,精度を3.1~4.2%向上させた。
- 各コンポーネントは,個別に必要であり,残差接続の削除は感度を14.0%低下させた。
経路誘導情報の誤り下における日常的な交通ネットワークモデル:CAV環境における内生的な信頼と回復力 [eess.SY, cs.CR, cs.SY, math.OC]目的:経路誘導情報の誤り下における交通ネットワークの信頼と回復力のモデル化
- コネクテッド・オートノマスビークル(CAV)の普及に伴い,交通管理におけるデジタル経路誘導の重要性が増している。
- 経路誘導情報が信頼性を失う場合,交通ネットワークの予測と制御が困難になるという課題がある。
- 本研究は,経路誘導情報の誤りが交通ネットワークに与える影響を,信頼進化モデルを用いて分析し,回復力を評価することを目的とする。
- 経路誘導情報の信頼度と交通流動は相互に影響し,信頼度が低い場合,攻撃の影響は小さく抑えられることが示された。
- 一定の信頼度を超えると,信頼度の低下が攻撃による影響を大幅に軽減するメカニズムが確認された(スーフォールズで91%,アナハイムで85%)。
- CAVの普及は固定信頼時の脆弱性を高める一方,動的な減衰効果は維持され,交通状況は信頼度の回復よりも早く改善する可能性がある。
ダークネットデータにおけるAI支援型ボットトラフィックの特性:ICS/IIoTセキュリティへの示唆 [cs.HC, cs.CR, cs.NI]目的:AI支援型ボットトラフィックの特性
- 重要インフラのサイバー攻撃が増加しており,脅威の早期発見が不可欠である。
- 既存のIDSは,変化するボットトラフィックのパターンに対応できていない。
- AI支援型ボットトラフィックの特性を把握し,検知能力を向上させる。
- 2021年から2025年にかけてのダークネットデータ分析により,ICS関連ポートへのトラフィックがほぼ倍増した。
- ボットネットは,微小な遅延を導入することで,全体的なトラフィック量を滑らかにし,検知を回避している。
- 標準的なIDSでは97.47%のボットトラフィックが検知されず,誤検知率を上げると68.10%の誤報が発生した。
暗号化されたコントローラに対する隠蔽攻撃の(非)耐性について [cs.CR, cs.SY, eess.SY]目的:ネットワーク制御システムの隠蔽攻撃に対する耐性
- ネットワーク制御システムのセキュリティは重要であり,サイバーセキュリティとシステム理論の両方の観点から注目されている。
- 暗号化された制御システムにおいても,公開鍵暗号の持つ本質的な可変性により,完全性の問題が解決困難である。
- 本研究は,暗号化された制御システムに対する隠蔽攻撃の脆弱性を明らかにし,その対策を提案する。
- 暗号化されたコントローラであっても,隠蔽攻撃に対して脆弱であり,暗号化モデルの知識がなくても攻撃が可能である。
- 検証可能な計算に基づく手法を提示することで,現代的な暗号システムと統合し,漸近的に安全性を確保できる。
- 提案手法は,通信オーバーヘッドを発生させない。
完全情報拡張形式ゲームにおけるゲームエージェントの水印 [eess.SY, cs.SY, cs.GT, cs.AI, cs.CR]目的:ゲームエージェントの水印埋め込み手法
- AI技術の不正利用検出は,公平な競争環境維持や知的財産保護に不可欠である。
- ゲームプラットフォームにおけるAIツールの不正使用(チート行為)の検出が課題である。
- ゲーム戦略に水印を埋め込み,不正利用を検出する手法を確立すること。
- LLMの水印技術KGWを拡張し,完全情報拡張形式ゲームのエージェントに適用可能であることを示した。
- 水印埋め込みによる戦略プロファイルの品質低下は限定的であり,検出可能性とのトレードオフが存在する。
- チェスエンジンへの適用実験で,品質への影響が無視できず,少数のゲームで水印を検出できることを確認した。
MetaMoE:プライバシー保護混合エキスパートの統合のための多様性を考慮したプロキシ選択 [cs.LG, cs.AI, cs.CL, cs.CR]目的:プライバシー保護混合エキスパート統合におけるプロキシ選択
- 大規模言語モデルの性能向上のために,モデルの専門化と拡張が重要視されている。
- データプライバシーの制約により,分散環境下での混合エキスパートモデルの統合が困難である。
- 公開データを用いてプライベートデータの分布を近似し,専門家の学習を調整することで統合を可能にする。
- MetaMoEは,公開プロキシデータを用いて独立して学習された専門家を統合する新しいフレームワークである。
- 多様性を考慮したプロキシ選択により,プライベートデータの分布を効果的に近似し,ルーター学習を監督する。
- コンピュータビジョンと自然言語処理のベンチマークにおいて,既存のプライバシー保護MoE統合手法を上回る性能を示した。
Webエージェントは計画・実行パラダイムを採用すべきである [cs.CR, cs.AI, cs.CL, cs.SE]目的:Webエージェントにおける計画・実行パラダイムの採用
- Webエージェントは複雑なタスクを自動化する上で重要であり,その性能向上は社会に大きな便益をもたらす。
- 現在のLLMエージェントの多くはReActアーキテクチャを採用しているが,Web環境においては脆弱性や効率性の問題がある。
- Webエージェントにおける計画・実行パラダイムの有効性を検証し,安全かつ効率的なWebタスク実行を目指す。
- WebArenaのタスク分析の結果,計画・実行パラダイムは全てのタスクに対応可能であり,80%のタスクは純粋なプログラム計画で完了することが示された。
- ReActアーキテクチャと比較して,計画・実行パラダイムはプロンプトインジェクションに対する耐性が高く,より安全なWebエージェントを実現できる。
- Web環境における計画・実行パラダイムの普及には,セマンティックなアクションにマッピングされ,実行前に効果が予測できるツール群の整備が不可欠である。
見ることは学習ではない:大規模視覚言語モデルの不正なファインチューニングからマルチモーダルデータを保護する [cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的:マルチモーダルデータの不正なファインチューニングからの保護
- 大規模視覚言語モデルの発展は目覚ましいが,データ利用に関する権利侵害のリスクが存在する。
- 既存の対策は事後的なものが多く,権利侵害が発生した後の対応に限られる。
- データ所有者が,未然に不正なファインチューニングを防止するための防御策を提案する。
- MMGuardは,人間には知覚できない摂動を注入することで,学習不可能なサンプルを生成する。
- この摂動はLVLMの学習ダイナミクスを利用し,モデルがノイズに過学習することで,推論時の性能を低下させる。
- クロスモーダル結合の破壊により,ノイズと学習ターゲットの間に誤った相関関係を強制し,防御効果を高める。
AIネイティブ無線ネットワークにおけるモデルフォレンジック:分類,応用,事例研究 [cs.CR, eess.SP]目的:AIネイティブ無線ネットワークにおけるモデルフォレンジックの分類と応用
- 無線ネットワークへのAI活用が拡大する中,その安全性確保が重要課題となっている。
- AIモデルの改ざんや悪意のある機能は新たなセキュリティリスクとなりうる。
- AIモデルの信頼性を検証し,不正な操作を検知・追跡する手法を確立すること。
- モデルフォレンジックは,モデルの真正性確認,悪意のある機能の特定,責任追跡において重要な役割を果たす。
- RFフィンガープリンティングを用いた事例研究により,ウォーターマーク認証とバックドア検出の実用的なワークフローが示された。
- モデルフォレンジックは,異常評価,出所追跡,AIネイティブ無線ネットワークの信頼性向上に貢献する。
条件付き拡散によるオンライン地図構築における意味的攻撃の体系的発見 [cs.CV, cs.CR, cs.LG, cs.RO]目的:オンライン地図構築における意味的攻撃の体系的な発見
- 自動運転の安全性確保に不可欠な高精度地図作成技術の信頼性向上は喫緊の課題である。
- 既存の画像摂動攻撃は防御されやすく,意味レベルでの攻撃に対する脆弱性が課題となっていた。
- 拡散モデルを利用し,現実的な環境変化を装った意味的攻撃による地図誤認識を誘発する手法を開発する。
- MIRAGEは,既存の防御策を回避し,道路境界の検出を57.7%抑制し,96%の計画軌道を誤らせる境界削除攻撃に成功した。
- 境界注入攻撃は,他の攻撃手法(pixel PGD, AdvPatch)が失敗する中で,架空の境界を注入することに成功した。
- 生成された攻撃画像は,VLMによる判断で80-84%の確率で現実的と判定され,既存手法よりも高いリアリティを実現した。
大いなる詐欺師:LLM脱獄における確率的課題 [cs.CR, cs.AI]目的:LLM脱獄攻撃の評価指標の信頼性に関する問題点の検証
- LLMの安全性確保は,その社会実装において不可欠であり,脱獄攻撃への対策は重要な研究課題である。
- LLM脱獄攻撃の評価指標であるASR(攻撃成功率)は,再現性や比較可能性に課題が残されている。
- 攻撃生成と評価における確率的影響を分析し,ASRの信頼性を高めるための手法を提案する。
- ASRは安定した指標ではなく,論文間の比較が困難であることが示された。
- 提案された評価フレームワークCAS-evalにより,ASRが最大30%低下する可能性があることが明らかになった。
- 新たな攻撃生成フレームワークCAS-genにより,ASRの低下を改善し,攻撃性能を向上させることができた。
MemLineage:系統情報に基づいたLLMエージェントメモリの保護 [cs.CR, cs.AI]目的:LLMエージェントメモリに対する保護機構
- LLMエージェントは有用だが,悪意のあるコンテンツが混入するリスクがある。
- エージェントの状態が改ざんされ,機密性の高い操作を正当化される可能性がある。
- 信頼性の高いメモリの再現性を維持しつつ,不正な状態による操作を防止すること。
- MemLineageは,各エントリに暗号学的ProvenanceとLLMによる派生系統情報を付与する。
- RFC-6962 MerkleログとEd25519署名を用いた6つのモジュールで構成され,外部由来の情報を遮断する。
- 3つのメモリ汚染ワークロードにおいて,ASRをゼロに成功させ,オーバーヘッドも最小限に抑える。
FuzzAgent:進化型ライブラリファジングのためのマルチエージェントシステム [cs.SE, cs.CR]目的:ライブラリファジングの進化プロセス
- ソフトウェアサプライチェーンのセキュリティ確保は重要であり,ライブラリの脆弱性発見が不可欠である。
- 大規模なライブラリファジングにはコストがかかり,環境構築やAPI制約への対応が課題である。
- ランタイムフィードバックを活用し,ハーネスを反復的に改善することで,より深遠な脆弱性を発見する。
- FuzzAgentは,20のC/C++ライブラリに対し,OSS-Fuzz等の既存手法を凌駕し,より多くのブランチを網羅した。
- 全ライブラリのファジングライフサイクルを自動で完遂し,OSS-Fuzzと比較して45.1%のブランチ網羅率向上を達成した。
- 102件の真のライブラリバグを特定し,そのうち78件が既に修正された。
I2Pピア選択における地理的パターン:経験的ネットワークトポロジー分析 [cs.NI, cs.CR]目的:I2Pのルーティングトポロジーに対する地理的要因の影響
- 匿名性とセキュリティ確保のため,分散型ネットワークの構造理解が不可欠である。
- I2Pのような匿名ネットワークでは,地理的偏りが匿名性を損なう可能性がある。
- I2Pにおけるピア選択の地理的偏りを評価し,匿名性とのトレードオフを考察する。
- I2Pネットワーク全体として,有意な地理的同質性は認められなかった。
- 同一国間の接続数は,ランダムな期待値と統計的にほぼ一致していた。
- コミュニティ検出の結果,地理的な配置との相関は中程度にとどまった。
LiSA:保守的ポリシー誘導による継続的な安全性適応 [cs.LG, cs.CL, cs.CR]目的:AIエージェントの安全性適応機構
- AI利用拡大に伴い,機密漏洩や不正行為といった実害を防ぐ安全性確保が重要である。
- 既存のガードレールは,状況に応じた判断が難しく,事前の仕様化が困難である。
- LiSAは,希薄なフィードバックから安全性向上を可能にし,実環境でのリスクに対応する。
- LiSAは,構造化されたメモリを通じてガードレールを改善し,既存手法を上回る性能を示した。
- ノイズの多いフィードバックに対してもロバストであり,ラベル反転率20%でも高い性能を維持した。
- LiSAは,AIエージェントの安全性向上に貢献し,現実世界の様々なリスクに対応できる道筋を示す。
LLMエージェントサプライチェーンにおけるペイロード不要型スキルの悪用 [cs.CR, cs.SE]目的:LLMエージェントサプライチェーンにおける新たな攻撃手法の検証
- LLMエージェントの利用拡大に伴い,外部スキルによる機能拡張が一般化している。
- 既存のセキュリティ監査は,明示的なコードペイロードに焦点を当てており,動的に生成される悪意のある行為への対応が遅れている。
- 本研究は,ペイロードを伴わない攻撃手法「Semantic Compliance Hijacking」による脆弱性を明らかにする。
- Semantic Compliance Hijacking (SCH)は,自然言語による指示を通じて,エージェントに不正なコードを生成・実行させる。
- 主要なエージェントフレームワークと基盤モデルを用いた実験で,機密情報漏洩やリモートコード実行の成功率がそれぞれ最大77.67%と67.33%に達した。
- Multi-Skill Automated Optimization (MS-AO)の導入により攻撃効果が向上し,既存のスキャンツールによる検出を回避した。
言語モデルにおける防御の衝突:大規模言語モデルにおける防御の衝突の測定と説明 [cs.CR]目的:大規模言語モデルにおける防御の衝突の測定と説明
- 大規模言語モデルは重要な応用分野で複数のリスクを管理する必要があり,その安全性確保が重要である。
- 既存の研究では防御策が単独で評価されることが多く,段階的な導入における相互作用が未解明である。
- この研究は,段階的な防御の導入におけるリスク増大を測定し,そのメカニズムを解明することを目的とする。
- 防御の導入順序によってリスクが増大するケースが存在することが明らかになった(38.9%)。
- 衝突する防御は,重要な層において反発するパラメータ更新を示すことが判明した。
- 層ごとの衝突スコアと層の固定による緩和策を提案し,既存の防御性能を維持しつつリスクを軽減できることを示した。
天使か悪魔か:深層強化学習における可塑性介入がバックドア攻撃に与える影響の調査 [cs.LG, cs.AI, cs.CR]目的:深層強化学習における可塑性介入とバックドア攻撃の影響に関する調査
- 深層強化学習は,様々な分野で実用化が進んでおり,その安全性確保が重要である。
- 深層強化学習はバックドア攻撃に脆弱であり,実用環境での脅威となっている。
- 可塑性介入がバックドア攻撃に与える影響を明らかにすることで,安全な強化学習エージェントの構築を目指す。
- 多くの可塑性介入はバックドア攻撃に対する脆弱性を軽減することが示された。
- SAMという介入のみがバックドア攻撃を悪化させることが判明し,その原因は勾配の増幅にある。
- 可塑性介入とバックドアの関係を説明するSCCという概念的フレームワークと,バックドア検出の指標となる損失地形の鋭さを示すことができた。
ゼロ回のトレーニング実行によるプライバシー監査 [cs.CR]目的:学習アルゴリズムの差分プライバシーパラメータの下限を経験的に評価すること
- プライバシー保護は,機械学習モデルの利用において不可欠であり,データ漏洩リスクの軽減が求められる。
- 従来のプライバシー監査手法は,トレーニングパイプラインへの介入が必要であり,大規模モデルへの適用が困難であった。
- トレーニングの再実行やデータ挿入なしに,実用的なプライバシー評価を可能にすることを目指す。
- ゼロ回のトレーニング実行によるプライバシー監査フレームワークを提案し,トレーニングデータメンバーと非メンバーの固定データセットを用いて監査を行う。
- 分布シフトとアルゴリズムの漏洩を考慮した因果推論に基づき,2つの補完的な修正を提案し,有効なプライバシー監査を実現する。
- 合成データおよび大規模モデルを用いた実験により,再トレーニングや制御されたデータ挿入が不可能な状況下でのプライバシー評価の有効性を示す。
少しの横道:悪意のあるファインチューニングに対する防御が,適応的な攻撃者によって失敗する理由 [cs.CR, cs.AI, cs.LG]目的:悪意のあるファインチューニングに対する防御の限界
- 基盤モデルのオープン化が進み,安全性の確保が重要になっている。
- ファインチューニングによって安全対策が容易に回避されてしまうという課題がある。
- 既存の防御メカニズムの弱点を特定し,それを克服する攻撃手法を提案する。
- 既存の防御は,有害な行動自体を取り除くのではなく,その経路を隠蔽または誤誘導していることが示された。
- 統一された適応攻撃により,15の防御メカニズムすべてを破ることができた。
- 現在の防御は,設計された攻撃に対してのみ有効であり,頑健なセキュリティを提供しない。
静電式タッチスクリーンに対するリスク:スマートフォンにおける電磁波漏洩を利用した実用的なサイドチャネル攻撃 [cs.CR]目的:スマートフォンにおける静電式タッチスクリーンから漏洩する電磁波を利用したサイドチャネル攻撃手法の検証
- スマートフォンの普及に伴い,タッチスクリーンを介した情報漏洩リスクが重要となっている。
- 既存のサイドチャネル攻撃は,制約の多い条件や侵襲的な測定が必要とされる場合が多い。
- 本研究は,より現実的な条件下で,タッチ操作から機密情報を窃取する手法を確立する。
- 本研究で提案するTESLAは,タッチスクリーンのスキャン時に発生する電磁波を非接触で解析することで,タッチ操作の情報を高精度に復元する。
- iPhone X,Xiaomi 10 Pro,Samsung S10,Huawei Mate 30 Pro等の実機を用いた評価により,TESLAの有効性が確認された。
- PINコードの認識率99.3%,キーボード入力の再構成率97.6%,アプリケーションの推測精度95.0%といった高い精度を達成した。
TPU向けフル準同型暗号の最適化にAlphaEvolveを適用 [cs.CR]目的:フル準同型暗号のTPU上での効率的な実装
- フル準同型暗号は秘匿計算を実現する技術であり,プライバシー保護への貢献が期待される。
- 計算コストが非常に高く,実用的な規模での展開が困難であるという課題がある。
- AlphaEvolveを用いて,ハードウェアを意識した暗号カーネルの最適化を自動化し,効率化を目指す。
- AlphaEvolveは,TFHEのブートストラップ遅延を2.5倍改善する実装レベルの最適化を発見した。
- CKKSのローテーションと乗算遅延をそれぞれ1.31倍と1.18倍改善した。
- 暗号,コンパイラ,ハードウェアアクセラレータ間の最適化トレードオフの探索を可能にする。
EVA:脱獄攻撃に対する汎用的な調整のための編集 [cs.CR, cs.AI]目的:大規模言語モデルと視覚言語モデルにおける安全性調整
- 大規模言語モデルの能力向上に伴い,悪意のある利用を防ぐ安全性確保が不可欠である。
- 既存の安全性対策は計算コストが高く,安全性と性能のトレードオフが生じやすい。
- モデル全体の再学習ではなく,特定のニューロンを編集することで効率的な安全性調整を実現する。
- EVAは,大規模言語モデルと視覚言語モデルの両方において,従来のベースライン手法を上回る脱獄攻撃の軽減効果を示した。
- EVAは,モデルの大部分を変更せずに特定のニューロンを外科的に編集することで,有害な行動を効果的に中和する。
- EVAは,デプロイ後の安全性調整のための,正確かつ効率的なソリューションを提供する。
行動から知る:UIトレースによるLLMブラウザエージェントのフィンガープリント [cs.CR, cs.AI, cs.HC, cs.LG]目的:LLMブラウザエージェントの識別可能性
- LLMエージェントの利用拡大に伴い,セキュリティリスクの評価が重要となる。
- LLMエージェントを特定され,脆弱性を突く標的型攻撃を受ける可能性がある。
- UIトレースからLLMエージェントを識別する攻撃手法とその対策を検討する。
- 14種類のLLMと4つのウェブ環境において,UIトレースからエージェントの基盤モデルを最大96%のF1スコアで識別可能であることが示された。
- モデルサイズや系列に関わらず,エージェントの行動から学習した分類器は高い汎化性能を持つ。
- 行動間のランダムな遅延挿入は分類精度を低下させるものの,再学習によって性能が回復することから,堅牢な防御策とはなり得ない。
Visual MambaはAI生成画像検出を改善できるか:詳細な調査 [cs.CV, cs.CR, cs.SI]目的:AI生成画像検出におけるVision Mambaモデルの評価と分析
- 画像生成技術の進歩は,情報操作やプライバシー侵害のリスクを高めている。
- 既存のAI生成画像検出手法では,多様な生成モデルや画像タイプへの対応が課題である。
- Vision MambaのAI生成画像検出能力を評価し,実用性,精度,効率を明らかにすること。
- Vision Mambaモデルは,代表的なCNN,ViT,VLMベースの検出器と比較して,AI生成画像検出において競争力のある性能を示した。
- Vision Mambaは,データセットや生成モデルの多様性に対する汎化性能において,いくつかの課題も明らかになった。
- 本研究は,現実とAI生成のコンテンツを区別するための検出技術向上に貢献し,その重要性が増している。
コーディングエージェントは最小権限の認可を理解しているか [cs.CR, cs.AI]目的:コーディングエージェントにおける最小権限の認可の理解度評価
- エージェントの普及に伴い,安全な展開には最小権限の認可が不可欠となる。
- 既存モデルはタスクに必要な権限と不要な権限の境界を自律的に推論できない。
- エージェントの権限付与における過不足を解消し,安全性を高めることを目指す。
- AuthBenchを用いての評価により,既存モデルは必要な権限を省略し,不要なアクセスを許可する傾向があることが示された。
- Sufficiency-Tightness Decompositionにより,機密性の高いタスクの成功率が最大15.8%向上し,攻撃成功率が低下した。
- 直接的なポリシー生成がボトルネックであり,推論時間の増加だけでは課題は解決しない。
AIエージェントのオペレーティングシステムのような保護に向けて [cs.CR]目的:LLMベースのAIエージェントのセキュリティ確保
- AIエージェントは汎用技術として急速に発展しており,社会への影響が拡大している。
- AIエージェントは強力な機能と機密データへのアクセスを併せ持つため,セキュリティリスクが大きい。
- オペレーティングシステムのセキュリティ技術を応用し,AIエージェントの脆弱性を軽減すること。
- LLMベースのエージェントは,リソースの分離,権限の分離,通信の仲介において,オペレーティングシステムと類似の課題に直面している。
- 現在のオープンソースエージェントの分析から,脆弱性が存在し,安全な運用には詳細な知識と慎重な設定が必要であることが判明した。
- オペレーティングシステムのセキュリティ技術を用いることで,AIエージェントの多くの脆弱性を緩和できる可能性がある。
WARD:プロンプトインジェクションに対するWebエージェントの敵対的堅牢性防御 [cs.MA, cs.CR, cs.AI]目的:Webエージェントに対するプロンプトインジェクション攻撃への堅牢な防御
- Webエージェントの活用が拡大する中で,セキュリティ確保は不可欠である。
- 既存の防御モデルは,未知のドメインや攻撃パターンへの対応が課題である。
- 分布シフトや敵対的攻撃に対しても堅牢な防御モデルを開発すること。
- WARDは,大規模データセットと適応的敵対的攻撃訓練フレームワークを活用し,高い防御性能を実現した。
- 未知のベンチマークにおいてほぼ完璧な再現率を達成し,誤検知率を低く抑え,Webエージェントの有用性を維持する。
- 分布の変化や,防御モデルを直接標的とした攻撃に対しても堅牢であり,遅延なく効率的に動作する。
ビデオゲームにおけるオンライン安全のための行動規範の規模分析 [cs.CR, cs.HC]目的:ビデオゲームにおけるオンライン安全のための行動規範の現状と内容
- オンラインゲームは社会交流の場として拡大し,利用者の安全確保が重要となっている。
- ゲーム内のハラスメントや不適切なコンテンツ等,オンライン上のリスクが課題となっている。
- 行動規範の普及状況と内容を分析し,オンライン安全の改善に貢献する。
- Steamの調査で,9,586タイトルのマルチプレイヤーゲームのうち,350タイトルで行動規範が確認された。
- 行動規範は人気ゲームや成人向けゲーム,コミュニティ主導型ゲームでより多く見られた。
- ゲームプレイに関する違反よりも,対人関係や未成年者保護に関する記述が具体性に欠ける傾向が見られた。
PickleFuzzer:Python Pickle実装間の差異に対するファジングの事例研究 [cs.CR]目的:Python Pickle実装間の差異の特定
- PythonのPickleは広く利用されているが,セキュリティ上の脆弱性が指摘されている。
- Pickle仮想マシンのopcode解釈の誤りにより,悪意のあるペイロードの検出が困難になりやすい。
- Pickle実装間の差異を効率的に特定し,セキュリティ対策の改善に貢献する。
- PickleFuzzerは,Pickleオブジェクトを生成し,各実装に渡して挙動を比較することで差異を検出する。
- 14個の新たな差異が発見され,そのうち4つはセキュリティツールを回避可能な重大なものであった。
- 発見された問題はPython Software Foundationに報告され,バグバウンティプラットフォームを通じて750ドルの報奨金を得た。
バイナリにおけるメモリ破壊脆弱性検出のためのセマンティクスに基づくエージェント的フレームワークVeritas [cs.SE, cs.CR]目的:バイナリファイルのメモリ破壊脆弱性検出
- ソフトウェアの安全性確保は重要であり,メモリ破壊脆弱性は深刻な脅威となるため。
- バイナリファイルの解析は,シンボル情報が失われていることが多く,解析が困難である。
- セマンティクスに基づいた解析と実行可能性検証により,高精度な脆弱性検出を目指す。
- Veritasは,RetDecで生成されたLLVM IRを静的にスライスし,ステップごとに推論を行うデュアルビューLLM検出器と,デバッガによる検証を行うマルチエージェント検証器を組み合わせる。
- 評価の結果,90%のリコール率を達成し,詳細な検証により偽陽性は確認されなかった。
- 実際に,Veritasは既知の脆弱性だけでなく,新たにAppleの脆弱性を発見し,CVEが割り当てられた。
LLM攻撃の分類とベンチマーク網羅性の監査 [cs.CR, cs.CL]目的:LLM攻撃ベンチマークの網羅性を評価するためのフレームワーク
- LLMの利用拡大に伴い,そのセキュリティリスクの理解と対策が不可欠となっている。
- 既存のベンチマークは,攻撃手法の全体像を捉えきれていない可能性がある。
- LLM攻撃の脅威範囲を体系的に分類し,ベンチマークの網羅性を評価すること。
- 6つの公開ベンチマークの調査から,主要なフレームワークは攻撃手法の25%程度しか網羅していないことが判明した。
- サービス妨害やモデル内部への攻撃など,標準的な評価が不足している脅威カテゴリーが存在することが明らかになった。
- 攻撃手法の命名のばらつきや,安全性・整合性バイパスへの集中といった構造的な課題が確認された。
MetaBackdoor:LLMにおける位置エンコーディングを悪用した裏口攻撃 [cs.CR, cs.CL]目的:大規模言語モデル(LLM)に対する位置情報に基づく裏口攻撃手法
- LLMは安全性・プライバシーが求められる様々な用途で利用され,セキュリティ脅威への対策が重要である。
- 既存のLLM裏口攻撃は主に内容に基づき,入力テキストの変更が必要となる点が課題であった。
- 位置情報をトリガーとした新たな裏口攻撃手法を提示し,より巧妙な攻撃への対策を目指す。
- Transformer型LLMの位置エンコーディングに着目し,テキスト内容を変更せずに裏口攻撃が可能なことを示した。
- 入力長さに依存するトリガーによって,LLMが機密情報(システムプロンプトなど)を漏洩させることを実証した。
- 複数回の対話によってトリガー条件が満たされ,攻撃者が意図しないツール呼び出しが発生する自己活性化シナリオも確認した。
静電式タッチスクリーンにおけるリスク:スマートフォンからの電磁波を利用した筆跡軌道の復元 [cs.CR, cs.AI]目的:スマートフォンから発せられる電磁波による筆跡軌道の復元
- タッチスクリーンは現代のスマートフォンにおける主要な入力手段であり,そのセキュリティは重要である。
- タッチスクリーンのセキュリティ脆弱性は,個人情報漏洩のリスクにつながる可能性がある。
- 本研究は,タッチスクリーンの電磁波から筆跡情報を盗み出す攻撃手法とその有効性を検証する。
- 提案手法TESLAは,タッチスクリーンから発生する電磁波を非接触で捕捉し,リアルタイムで筆跡軌道を復元する。
- 様々なスマートフォンを用いた評価により,77%の文字認識精度と0.74のジャカード指数を達成した。
- 本研究の結果は,タッチスクリーンのセキュリティ脆弱性とその対策の必要性を示唆している。
秘密裏量子計算へ向けて [quant-ph, cs.CR]目的:マルチテナント環境における量子計算の秘匿性確保
- 量子計算の普及に伴い,クラウド環境での情報保護が重要となる。
- 共有量子コンピュータにおいて,他の利用者による計算の検出を防ぐ手段が不足している。
- 量子計算の秘匿性を実現し,他利用者による計算検出を困難にすること。
- 秘密裏量子計算の概念を提唱し,情報理論に基づいた秘匿性の分析フレームワークを確立した。
- 平面グラフ回路における検出情報の伝搬範囲は,回路規模の平方根に比例することが示された。
- 実機実験により,期待される近接結合だけでなく,長距離結合による新たなサイドチャネルが存在することが明らかになった。
組織に対するサイバー脅威の標的予測のためのベンダー条件付き対照学習 [cs.CR, cs.LG]目的:組織に対するサイバー脅威の標的予測
- サイバー攻撃は年間数十億ドルの損害をもたらし,その対策は喫緊の課題である。
- サイバー脅威インテリジェンス(CTI)において,攻撃対象組織の特定が困難である。
- 大規模データを用いた組織の標的分類と,時間的変化へのロバスト性を実現する。
- 提案手法TRACEは,9つのエクスプロイトデータベースとハッカーフォーラムのデータを用いて高い性能を発揮した。
- 時間的分布シフトに対する評価において,TRACEはマクロF1=97.00%を達成し,既存手法を大幅に上回った。
- ベンダー条件付き対照学習により,組織の標的分類とベンダー整合性の高い表現を同時に最適化した。
マルチモーダル検索における敵対的ハブ性 [cs.MM, cs.CR, cs.IR]目的:敵対的ハブ性の存在と,それがマルチモーダル検索システムに及ぼす影響の検証
- 高次元ベクトル空間における情報検索の性能向上は重要であり,効率的な類似度検索が求められる。
- 自然なハブ性という問題が存在し,検索結果の精度を低下させ,誤った関連性を生み出す可能性がある。
- 敵対的ハブ性を悪用した攻撃を防ぎ,マルチモーダル検索システムの堅牢性を高めることを目指す。
- 敵対的ハブは,数千もの異なるクエリに対して普遍的な敵対的コンテンツ(スパム等)を注入できる。
- 特定の概念に関連するクエリに対する標的型攻撃も可能であり,ハブ性の悪用リスクが示唆される。
- 敵対的ハブは,自然なハブと比較して遥かに高い汎化能力を示し,既存のハブ性軽減策は有効でないことが確認された。
Progent:AIエージェントに対する権限制御による保護 [cs.CR, cs.AI]目的:AIエージェントの権限制御を通じた保護
- AIエージェントの利用拡大に伴い,外部環境とのインタラクションにおけるセキュリティ確保が重要となっている。
- AIエージェントは自律的に行動するため,不正な操作や攻撃に対する脆弱性が存在する。
- 本研究は,AIエージェントが実行可能な操作を制限することで,セキュリティと実用性の両立を目指す。
- Progentは,ツール名と引数に基づいた記号規則によるセキュリティポリシーを用いて,AIエージェントを保護するフレームワークである。
- ポリシーは,LLMによってタスク内容から自動生成され,実行状況に応じて更新される。更新は安全性を損なわないように厳密に制御される。
- 評価実験の結果,Progentは攻撃成功率を大幅に低減しつつ,高い実用性を維持することが示された。
Big Bird: 不信頼なウェブドメインにおける堅牢なプライバシー予算管理 [cs.CR]目的:不信頼なウェブドメインにおけるプライバシー予算管理の実現
- 広告測定におけるプライバシー保護は,ユーザーの信頼を得る上で不可欠である。
- 既存のシステムでは,ドメインごとに独立してプライバシー保護が行われ,脆弱性が存在する。
- ウェブドメインのサイビル攻撃に対する耐性を持ち,グローバルなプライバシー保護を可能にすること。
- Big Birdは,すべてのドメインを対象としたグローバルなプライバシー予算管理を可能にする。
- 本手法は,広告インプレッションとコンバージョンを組み合わせることで,サイビル攻撃への耐性を高める。
- Rustで実装し,Firefoxのプロトタイプに統合した結果,理論的および実験的に有効性が確認された。
RLCracker: 適応的RL攻撃を用いたLLMウォーターマークの最悪ケース脆弱性の評価 [cs.CR]目的:LLMウォーターマークの最悪ケースにおける脆弱性評価
- AI生成コンテンツの検出と悪用防止において,LLMウォーターマークは重要な役割を担う。
- 既存の評価は十分に対抗的ではなく,ウォーターマークの真の脆弱性を隠蔽している可能性がある。
- 適応的な攻撃に対するウォーターマークの耐性を定量化し,脆弱性を明らかにする。
- 適応的頑健性半径という指標を導入し,攻撃コンテキストとモデルパラメータの最適化がウォーターマークの脆弱性を高めることを理論的に示した。
- RLCrackerという強化学習に基づく適応的攻撃を提案し,わずかなウォーターマーク付きサンプルと検出器への限定的なアクセスでウォーターマーク信号を消去できることを示した。
- 3Bモデルで98.5%の除去成功率を達成し,GPT-4oの6.75%を大幅に上回り,様々なモデルサイズとウォーターマーク方式で汎化することが確認された。
大規模言語モデル時代における引用の妥当性に関する大規模分析:GhostCite [cs.CR, cs.AI]目的:引用の妥当性の評価と,大規模言語モデルによる幻覚的な引用の脅威の定量化
- 科学的根拠の信頼性は引用に依存するため,引用の正確性は研究の質を保証する上で不可欠である。
- 大規模言語モデルの利用増加に伴い,捏造された引用(ゴースト引用)のリスクが増大している。
- 大規模言語モデルによる幻覚的な引用が学術の信頼性に及ぼす影響を明らかにし,対策を促す。
- 13種類のLLMを様々な分野で評価した結果,全てのモデルで引用の幻覚が発生し,その割合は14.23%から94.93%に及んだ。
- AI/MLおよびセキュリティ分野の56,381論文(2020-2025年)220万件の引用を分析した結果,1.07%の論文に無効な引用が含まれており,2025年には80.9%増加した。
- 97人の研究者を対象とした調査では,87.2%がAIツールを使用し,76.7%の査読者は参考文献を十分にチェックせず,74.5%が査読の効果に疑問を感じていることが示された。
AI統合IDEにおける次候補提案のセキュリティ上の落とし穴:「Tab, Tab, Bug」 [cs.CR, cs.HC]目的:AI統合IDEにおける次候補提案(NES)のセキュリティ脆弱性
- AI統合IDEは開発効率を向上させる重要なツールであり,そのセキュリティ確保は不可欠である。
- 従来のコード補完とは異なり,NESは広範なコンテキストを利用するため,新たな攻撃対象領域が生まれている。
- NESの仕組みを詳細に分析し,セキュリティリスクを明らかにすることで,対策の必要性を訴える。
- NESは,ユーザーの意図しない入力や広範なコードベースからの情報取得によって,攻撃対象領域が拡大していることが判明した。
- 実験により,NESはコンテキストポイズニングや編集履歴への攻撃に対して脆弱であることが示された。
- 開発者へのアンケート調査の結果,NESのセキュリティリスクに対する認識が不足していることが明らかになった。
長文脈における推論LLMは,推論した内容を拒否するのか? [cs.CL, cs.CR]目的:長文脈LLMにおける隠れた有害な意図の検出と拒否
- LLMの応用範囲拡大に伴い,長文脈処理能力の安全性評価が重要となっている。
- 既存の安全性評価は明示的な有害要求に焦点を当て,文脈から推論される間接的な有害性を見落としている。
- 長文脈から有害な意図を再構成する攻撃に対するLLMの脆弱性を明らかにし,安全性向上策を検討する。
- 長文脈LLMは,直接的な有害要求は比較的高い確率で拒否する。
- しかし,文脈から有害な意図を推論する必要がある場合,拒否率は大幅に低下する。
- 推論時の思考プロセスを強化することで拒否率は向上するが,完全ではなくコストもかかる。
機械学習ベースのネットワーク侵入検知システムに対する学習の役割 [cs.NI, cs.CR]目的:機械学習ベースのネットワーク侵入検知システムの攻撃可能性評価
- ネットワークセキュリティにおいて,機械学習を活用した侵入検知は重要性が増している。
- 機械学習モデルは,巧妙に細工された攻撃により欺瞞される脆弱性を抱えている。
- 既存評価手法の効率性と適用範囲の限界を克服し,継続的な評価を可能にすること。
- 本研究では,強化学習を用いた軽量な敵対的エージェントを開発し,効率的な攻撃評価を実現した。
- エージェントは,様々な環境とモデルに対して最大58.1%の攻撃成功率を達成し,勾配ベースの手法を最大1,042倍上回るスループットを示した。
- 非微分可能なモデルに対しても,エージェントは直接評価を行い,勾配ベースの手法の性能低下を克服した。
- 1
- 2
