arXiv雑要約

セキュリティ - 2026/05/29 公開

AI攻撃者の信頼性：固定された脆弱な標的に対する400回の実験的LLMペネトレーションテストの一貫性 [cs.CR, cs.AI]目的：LLMを用いたサイバー攻撃の一貫性に関する大規模な実証的測定
- サイバー攻撃は巧妙化しており，防御側の対策が追いつかない状況である。
- LLMによる攻撃の再現性や安定性が不明であり，実用上の信頼性に懸念がある。
- LLM攻撃の一貫性と信頼性を定量的に評価し，セキュリティ対策に役立てること。
- 複数のLLMを対象とした実験の結果，攻撃成功率にはモデル間で統計的に有意な差が見られた。
- Claude Sonnet 4はAPIの制限により攻撃が中断される事例が見られたが，それでも高い攻撃成功率を示した。
- 攻撃戦略の多様性や，資格情報の再利用といった攻撃パターンにもモデルごとの特徴が認められた。
Link: https://arxiv.org/abs/2605.30096
無線チャネルにおけるxMK-CKKSを用いたプライバシー強化ゼロ次連邦学習 [cs.CR, cs.LG]目的：無線チャネルを通じたプライバシー保護連邦学習の実現
- プライバシー保護は重要であり，特に機密性の高いデータを取り扱う連邦学習においては不可欠である。
- 既存手法はシングルキー暗号に依存し，ワイヤレスフェージングへの対策が必要であり，セキュリティ上の脆弱性も存在する。
- マルチキー暗号方式を用いて，チャネル推定なしで安全な集約を可能にし，セキュリティレベルの向上を目指す。
- 提案プロトコルは，xMK-CKKSを用いて，無線チャネル上での安全な集約を実現し，公钥と暗号文の再送達により，暗号化項の代数的な打ち消しを実現する。
- 本プロトコルは，遅変するLOS優勢チャネル上でのゼロ次連邦学習と統合され，デバイスあたりの通信/暗号化オーバーヘッドをモデル次元に依存させない。
- 復号化された暗号化ノイズは$O(1/\sqrt{K})$の収束率を維持し，サーバーとN-1個のクライアントの共謀に対するセキュリティを保証する。
Link: https://arxiv.org/abs/2605.30123
BioRefusalAudit：スパースオートエンコーダを用いたバイオセキュリティ拒否深さの監査 [cs.AI, cs.CR, cs.LG]目的：言語モデルのバイオセキュリティ拒否の深さの評価
- 言語モデルの発展に伴い，バイオセキュリティリスクの評価が重要になっている。
- 言語モデルの拒否応答は必ずしも一貫しておらず，些細な変更で容易に回避される場合がある。
- モデルの拒否応答の信頼性を内部表現（スパースオートエンコーダ）を用いて評価する。
- 5種類のモデルにおいて，有害な内容と無害な内容を明確に区別できないことが示された。
- Gemma 4 E2B-ITでは，チャットテンプレート形式で拒否応答が65/75件，形式がないと0/75件であった。
- モデルの拒否応答は，CBRNハザードよりも合法性や文化的影響に左右される可能性があることが示唆された。
Link: https://arxiv.org/abs/2605.30162
LoRAアダプターのバックドア：攻撃の特性評価と行動検出 [cs.CR, cs.AI, cs.CL, cs.LG]目的：LoRAアダプターにおけるトークンレベルでの汎化性を持つバックドア攻撃の特性評価と，その行動検出手法の開発
- 大規模言語モデルの利用拡大に伴い，そのセキュリティ確保が重要課題となっている。
- ファインチューニングされたLLMの流通形式であるLoRAアダプターへの攻撃に対する脆弱性が懸念されている。
- LoRAアダプターに潜むバックドア攻撃を検出し，安全なLLM利用環境を構築すること。
- LoRAアダプターは，訓練データ汚染によって信頼性高くバックドア攻撃を受けやすく，ベースライン性能を維持したまま攻撃が成功する。
- このバックドアは，構造的なパターンではなくトークンレベルで汎化し，攻撃者は防御側の検出を回避しやすい。
- 提案手法は，2つの統計量に基づき，バックドア攻撃を受けたアダプターを高精度に検出可能であり，アダプターのサプライチェーンスキャンに有効である。
Link: https://arxiv.org/abs/2605.30189
統計的公開のためのメンバーシップ推論へのベイズアプローチ [cs.CL, cs.CR, cs.PL]目的：統計的公開データに対するメンバーシップ推論
- プライバシー保護は重要であり，データの統計的公開に伴うリスク評価が不可欠である。
- 既存の攻撃手法は，データ分布の複雑さを十分に考慮できていない場合がある。
- 本研究は，属性間の依存関係を考慮したより効果的な攻撃手法を開発する。
- 本研究では，人口をベイズネットワークとして表現し，攻撃者が属性間の依存構造に関する追加情報を持つ状況を考慮した。
- 提案手法は，ベイズ決定に基づき，人口に関する事前情報を組み込み，より効果的な攻撃を可能にする。
- 実験的に，提案手法は，既存の攻撃手法よりも複雑なベイズネットワーク上で優れた性能を示した。
Link: https://arxiv.org/abs/2605.30203
委任可能な仮名と国家eIDシステムへの応用 [cs.CR]目的：委任可能な仮名システムに関する形式的な枠組みと，その具体的な構成
- デジタル化が進む現代において，電子IDは不可欠であり，プライバシー保護が重要課題である。
- 既存の仮名システムは，中央集権的な設計により，可用性，プライバシー，真正性に課題がある。
- 中央機関への依存を軽減し，プライバシーを強化する分散型アーキテクチャを提案し，問題を解決する。
- 本研究では，委任可能な仮名システムの形式的な枠組みを初めて提示し，その安全性に関する証明を提供した。
- 提案アーキテクチャは，中央機関に開示されるメタデータを最小限に抑え，可用性の要件も軽減する。
- 具体的な構成と参照実装を提案することで，実用的な効率性も示した。
Link: https://arxiv.org/abs/2605.30212
DP-SAPF：差分プライバシー画像合成のための公開モデルの顕著度を意識したパラメータファインチューニング [cs.CR]目的：差分プライバシーを考慮した画像合成における，公開モデルの効率的なパラメータファインチューニング
- 機密データ分析と利用を可能にする画像合成技術であり，プライバシー保護の重要性が増している。
- 公開モデル全体のファインチューニングは計算コストが高く，LoRAもすべてのパラメータに適用するのは非効率である。
- 顕著度を意識したパラメータ選択により，計算コストを削減しつつ，合成画像の品質を向上させる。
- DP-SAPFは，勾配の大きさを指標として重要なパラメータを特定し，LoRAによるファインチューニングを最適化する。
- 4つの機密画像データセットでの実験により，DP-SAPFが既存手法よりも高い有用性と忠実度を実現することが示された。
- DP-SAPFは，計算資源を削減しつつ，合成画像の品質向上に貢献する。
Link: https://arxiv.org/abs/2605.30312
堅牢なネットワーク侵入検知のためのメタ量子アンサンブルフレームワーク [quant-ph, cs.CR]目的：ネットワーク侵入検知システムの堅牢性の向上
- IoTデバイスの普及に伴い，ネットワークセキュリティの重要性が増している。
- クラス不均衡や多様なIoTトラフィックにより，誤検知率を抑えつつ高精度な検知が困難である。
- 量子学習モデルの融合により，検知性能と信頼性を高めることを目指す。
- 提案手法であるMQEは，QSVMとQNNという異なる量子学習モデルを組み合わせることで，単独の量子学習モデルよりも優れた性能を発揮する。
- TON IoTおよびCICIDS2017データセットを用いた実験により，MQEが選択された性能指標，低い誤検知率，および信頼性に関して改善が見られた。
- メタレベルでの融合が，より信頼性の高い量子機械学習に基づく侵入検知システムの構築に有効であることが示された。
Link: https://arxiv.org/abs/2605.28879
一般化可能なロバスト性を持つ検証可能な因果的防御 [cs.LG, cs.CR, stat.ME]目的：機械学習モデルの一般化性能とロバスト性の向上
- 機械学習は多様な分野で成功を収めているが，敵対的攻撃への脆弱性は大きな課題である。
- 既存の検証可能な防御法は，分布のシフトによって他のデータドメインへの一般化が困難である。
- この研究は，因果的視点を取り入れ，不要な相関の影響を排除することで，一般化性能を高めることを目指す。
- 本研究では，因果的要因学習と，潜在的な因果的要因に対する防御戦略を統合した新たなフレームワークGLEANを提案する。
- GLEANは，学習データに対するロバスト性だけでなく，分布のシフトがあるデータドメイン間でのロバスト性の一般化を実現する。
- ベンチマークデータセットを用いた実験により，提案手法が検証可能なロバスト性の一般化において優れていることが確認された。
Link: https://arxiv.org/abs/2408.15451
大規模言語モデルの脆弱性と対策：脱獄と緩和策 [cs.CR, cs.AI, cs.LG]目的：大規模言語モデルの脆弱性と防御戦略に関する研究の現状分析
- 自然言語処理技術の発展により，医療，ソフトウェア開発など多岐にわたる分野で活用が拡大している。
- プロンプトインジェクションや脱獄攻撃に対して脆弱であり，悪意のある操作や情報漏洩のリスクが存在する。
- LLMの安全性と堅牢性を高め，安全な展開を保証するための研究の方向性を示すことを目指す。
- 攻撃手法として，プロンプトベース，モデルベース，マルチモーダル，多言語のカテゴリに分類し，その技術的詳細を整理した。
- プロンプトフィルタリングやアライメント技術を含む様々な防御メカニズムを評価し，その長所と短所を比較検討した。
- LLMの安全性を評価するための指標やベンチマークにおける課題を指摘し，今後の研究の方向性を示唆した。
Link: https://arxiv.org/abs/2410.15236
拡散モデルにおける周波数領域からのメンバーシップ推論攻撃の強化 [cs.CR, cs.LG]目的：拡散モデルのプライバシーと著作権に関する懸念
- 画像生成AIの普及に伴い，プライバシー保護と著作権侵害のリスクが重要視されている。
- 拡散モデルに対するメンバーシップ推論攻撃は，その脆弱性を明らかにする必要がある。
- 高周波情報の処理における拡散モデルの欠点を改善し，攻撃の精度向上を目指す。
- 拡散モデルは高周波情報の処理に課題があり，それがメンバーシップ推論攻撃の精度を低下させていることが示された。
- 提案手法は，高周波フィルタモジュールを導入することで，この問題を緩和し，既存の攻撃手法の性能を大幅に向上させる。
- 様々なデータセットとモデルにおいて，提案手法の有効性が実験的に確認された。
Link: https://arxiv.org/abs/2505.20955
機械学習ベースのセキュリティタスクにおける生成AIを用いたデータ課題の克服 [cs.CR, cs.AI, cs.LG]目的：機械学習ベースのセキュリティ分類器の性能向上
- セキュリティ分野では，機械学習の活用が不可欠であり，その性能向上が重要視されている。
- 既存研究では，アルゴリズム改善に焦点が当たり，データ課題への対応が不足していた。
- 生成AIを用いてデータ課題を克服し，セキュリティ分類器の汎化性能を高める。
- 生成AIを用いたデータ拡張により，セキュリティ分類器の性能が大幅に向上することが確認された。
- 特に，データが限られた環境下（約180サンプル）において，最大32.6%の性能改善が見られた。
- 生成AIは，導入後の概念ドリフトへの迅速な適応を支援し，最小限のラベル付けで調整が可能となった。
Link: https://arxiv.org/abs/2507.06092
拡散モデルに対する低コストで隠蔽性の高いバックドア攻撃：BadBlocks [cs.CR, cs.CV]目的：テキスト画像拡散モデルに対するバックドア攻撃手法の開発
- 画像生成AIの安全性確保は，社会実装において不可欠である。
- 既存のバックドア攻撃は検知されつつあり，より巧妙な攻撃手法が求められている。
- 低コストで検知を回避するバックドア攻撃手法を確立し，リスクを明らかにする。
- BadBlocksは，UNetアーキテクチャの一部のブロックのみを汚染することで，既存の手法よりも低コストでバックドア攻撃を実現する。
- 攻撃成功率は高く，知覚的な品質劣化はほとんどないことが実証された。
- 特に注意機構に基づく防御策を回避し，セキュリティ上の重要なリスクを提示する。
Link: https://arxiv.org/abs/2508.03221
LLM支援によるレッドチーム対策のベンチマーク：標準化された脅威ハンティングを通じて [cs.CR, cs.AI]目的：サイバー脅威ハンティングにおけるLLMの性能評価のためのベンチマーク
- サイバー攻撃は巧妙化・大規模化しており，防御側の高度なツールが求められている。
- LLMの脅威分析能力は期待されるものの，実環境での有効性が十分に検証されていない。
- 標準化されたワークフローを通じて，LLMによる現実的な脅威ハンティング能力を評価する。
- 本研究では，脅威アトリビューションからインシデントレスポンスまでの一連の流れを標準化し，ベンチマーク「CyberTeam」を構築した。
- CyberTeamは，30のタスクと9つの運用モジュールで構成され，LLMを段階的に脅威分析へと導く。
- 実験結果から，標準化された設計が有効であり，従来の自由形式の推論には限界があることが示唆された。
Link: https://arxiv.org/abs/2509.23571
LLMを活用したサイバー脅威インテリジェンスの脆弱性の解明 [cs.CR, cs.AI]目的：LLMを活用したサイバー脅威インテリジェンスにおける脆弱性の実態把握
- サイバー脅威は増加の一途を辿っており，セキュリティ対策の自動化が急務となっている。
- LLMは誤情報を生成しやすく，特にサイバー脅威インテリジェンスのような複雑な分野では信頼性が課題となっている。
- サイバー脅威インテリジェンス固有の特性に対応したLLMの脆弱性要因を特定し，対策を示す。
- 本研究では，サイバー脅威インテリジェンスのライフサイクル全体にわたるLLMの誤りの分類フレームワークを開発した。
- その結果，表層的なメタデータからの誤った相関関係，矛盾する情報源からの知識の衝突，そして新興脅威への一般化の制約という３つの認知的な失敗メカニズムを特定した。
- これらのメカニズムに対する介入実験により，ターゲットを絞った防御策が誤り率を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2509.23573
SafeSearch：LLMベースの検索エージェントに対する自動的な敵対的テスト [cs.AI, cs.CL, cs.CR]目的：LLMベースの検索エージェントの安全性評価
- LLMの能力拡張として検索エージェントが注目されている。より広範で最新の情報アクセスを可能とする。
- 検索結果の信頼性に問題があり，エージェントが安全でない出力を生成するリスクが存在する。
- 検索エージェントの安全性評価を自動化し，脆弱性を特定・改善すること。
- SafeSearchは，スケーラブルでコスト効率の高い敵対的テストフレームワークである。
- 300件のテストケースを用いて17種類のLLMを評価した結果，LLMベースの検索エージェントに重大な脆弱性が存在することが明らかになった。
- GPT-4.1-miniでは，攻撃成功率が90.5%に達し，一般的な防御策の効果は限定的であった。
Link: https://arxiv.org/abs/2509.23694
同じ係数が異なる場所に到達するとき：大規模言語モデル間のトークナイザー移植における非対称な実現可能性 [cs.CL, cs.LG, cs.CL, cs.CR]目的：トークナイザー移植における非対称な実現可能性
- 言語モデルの性能は語彙とトークナイザーに大きく依存する。
- 異なる言語モデル間でトークナイザーを移植する際，語彙のずれが問題となる。
- トークナイザー移植時の係数の挙動に着目し，潜在的な脆弱性を明らかにすること。
- トークナイザー移植において，同じ係数ベクトルがドナーモデルとベースモデルで異なる表現を生成する「非対称な実現可能性」を特定。
- 特定の「ブレーカートークン」が存在し，ドナーモデルでは影響が小さくても，ベースモデルでは顕著な再構成を生成することを確認。
- 標準的なLoRAファインチューニングでは，この脆弱性を完全に軽減できない可能性が示唆された。
Link: https://arxiv.org/abs/2601.00065
パリティの効率的な複製学習と応用 [cs.LG, cs.CR]目的：パリティの実用的な学習アルゴリズムの開発
- 機械学習の安定性や汎化性能を理論的に理解する上で重要である。
- 複製学習と統計的クエリ学習の計算能力に差があることが課題であった。
- 一般的な分布における効率的な複製学習の可能性を示すことを目指す。
- 本研究では，任意の分布におけるパリティの実用的な複製学習アルゴリズムを初めて提示した。
- この結果は，効率的な複製学習が効率的な統計的クエリ学習よりも強力であることを示す証拠となる。
- また，複製学習から純粋な差分プライバシーへの変換にはサンプル複雑さの損失が伴うことを示した。
Link: https://arxiv.org/abs/2602.09499
Space-Control：CXLベースの分散メモリ共有のためのプロセスレベルの分離 [cs.AR, cs.CR, cs.SY, eess.SY]目的：CXLベースの分散メモリ共有におけるプロセスレベルの分離機構
- データセンターにおけるリソース利用効率向上のため，メモリ分散技術への注目が高まっている。
- 既存のCXL共有機構はホストレベルの権限のみを適用し，プロセスレベルの分離が不十分である。
- 共有分散メモリにおけるプロセスレベルのセキュリティギャップを解消し，安全なメモリ共有を実現する。
- Space-Controlは，クロスホストアイデンティティを導入し，機密性と完全性を保証するアーキテクチャ抽象化である。
- 信頼できないOSから認可を分離し，ハードウェアベースの検証エンジンを用いて不変なプロセスIDを確立する。
- 127プロセス，255ホスト環境で1.56%のストレージオーバーヘッド，3.3%の性能低下で実現可能である。
Link: https://arxiv.org/abs/2603.06951
ZK-ACE：ポスト量子ブロックチェーンシステムのためのアイデンティティ中心ゼロ知識認証 [cs.CR, cs.DC]目的：ポスト量子暗号を用いたブロックチェーンにおける，アイデンティティに基づくゼロ知識認証方式
- ブロックチェーンのセキュリティは，署名方式に依存する。量子コンピュータの登場により，従来の署名方式の安全性が脅かされている。
- ポスト量子署名方式は，オンチェーンに大きなデータサイズをもたらし，ゼロ知識証明回路での検証コストが高いという課題がある。
- トランザクションに署名オブジェクトを含めるのではなく，アイデンティティに基づくゼロ知識証明を用いることで，コストとデータサイズを削減する。
- ZK-ACEは，DIDP (決定論的アイデンティティ導出プリミティブ) を利用し，アイデンティティの一貫性をゼロ知識で証明することで，署名オブジェクトを必要としない。
- 構造的データ計測の結果，トランザクションごとの認証データ量は，直接的なPQC展開と比較して10分の1に削減された。
- Circle STARKとGroth16/BN254の2つのバックエンドで実装されており，いずれも従来のPQC署名検証と比較して，証明サイズを大幅に削減できる。
Link: https://arxiv.org/abs/2603.07974
P$^2$RAG：効率的なプライバシー保護RAGサービス：任意のTop-$k$検索のサポート [cs.CR, cs.AI]目的：プライバシーを保護しつつ，任意のTop-$k$検索を可能とするRAGサービスの効率化
- 大規模言語モデルの知識拡張にRAGが不可欠。外部知識利用時のプライバシー保護が課題。
- 既存のプライバシー保護RAGは，$k$値の固定，セキュリティ問題，大規模$k$時の効率低下に課題。
- 任意の$k$に対応し，効率とセキュリティを両立するプライバシー保護RAGサービスの実現。
- P$^2$RAGは，候補ドキュメントのソートを回避し，インタラクティブな二分探索法を用いることで効率化を実現。
- 秘密分散技術により，データベースとプロンプトを保護し，悪意のあるユーザーへの対策と情報漏洩の抑制を実現。
- 実験により，P$^2$RAGが最先端のPRAGよりも3～300倍高速であることが示された（$k$ = 16～1024）。
Link: https://arxiv.org/abs/2603.14778
Pythonアプリケーションのクロスエコシステム脆弱性分析 [cs.CL, cs.CL, cs.CR, cs.SE]目的：Pythonアプリケーションにおける脆弱性分析手法
- Pythonは広く利用されており，そのセキュリティは重要である。サードパーティライブラリの脆弱性は重大な脅威となり得る。
- 既存の脆弱性スキャンツールは，バンドルされたライブラリやOSのセキュリティパッチを考慮せず，誤検知や見逃しが発生しやすい。
- クロスエコシステムにわたる脆弱性分析により，より正確な脆弱性特定と影響範囲の把握を目指す。
- 提案手法は，バンドルされたライブラリをOSパッケージバージョンに紐付け，脆弱性分析の精度を向上させる。
- 10万件のPythonパッケージと10件のCVEを対象とした評価で，直接的に脆弱なパッケージ39件と，依存関係を通じて影響を受けるパッケージ312件を特定した。
- 既存手法と比較して，平均52%の誤検知削減を実現し，特にパッチの適用が進んだライブラリでは最大97%の削減となった。
Link: https://arxiv.org/abs/2603.18693
すべてのエンティティは等しく作られるものではない：プライバシー保護RAGのための動的匿名化フレームワーク [cs.CR]目的：プライバシー保護RAGのための動的匿名化フレームワーク
- LLMの性能向上に外部知識が重要となる中，クラウド利用時の情報漏洩リスクが懸念される。
- 既存研究では，個々のエンティティのリスクを線形的に重ね合わせるため，過剰な匿名化処理となり，有用性が低下する。
- 文脈に応じたエンティティ評価により，リスクと有用性のバランスを取り，効率的な匿名化を実現する。
- 提案手法TRIP-RAGは，文脈を考慮したエンティティ評価により，プライバシーリスクを効果的に低減する。
- TRIP-RAGは，完全匿名化と同程度のプライバシー保護を維持しつつ，Recall@kの低下を35%未満に抑える。
- 既存手法と比較して，TRIP-RAGは生成品質を最大56%向上させる。
Link: https://arxiv.org/abs/2603.26074
SelfGrader：アンカー付きトークンレベルロジットによるLLM脱獄検出 [cs.DC, cs.ET, cs.CL, cs.CR, cs.AI]目的：LLM脱獄の検出
- LLMの安全な利用は重要であり，悪意のある攻撃からの保護が不可欠である。
- 既存の防御策は遅延が大きいか，テキスト生成のランダム性に左右される。
- トークンレベルのロジットを用いて，軽量かつ安定した脱獄検出を実現する。
- SelfGraderは，数値トークン(0-9)のロジット分布を安全性の指標として利用する。
- PACガイド付きICLアンカー事例と二重の視点によるスコアリングルールにより，誤検知率を低減。
- 多様なベンチマークにおいて，堅牢性と低遅延，低メモリ消費量を確認した。
Link: https://arxiv.org/abs/2604.01473
LLMトレーニングにおけるデータ洗濯への対抗 [cs.CR, cs.AI]目的：LLMトレーニングにおけるデータ洗濯の検出と対策
- LLMの発展は目覚ましいが，学習データの権利侵害が懸念されている。
- データ洗濯という技術により，権利侵害の検出が困難になっている。
- データ洗濯されたデータでも，権利侵害を検出する手法を確立すること。
- 提案手法SDRは，標的LLMへのブラックボックスアクセスからデータ洗濯の変換を推論する。
- SDRは，権利者がオリジナルデータのみを保有していても，データ洗濯されたデータを模倣するクエリを生成する。
- MIMIRベンチマークにおいて，SDRは様々なデータ洗濯手法に対してデータ不正利用の検出能力を向上させた。
Link: https://arxiv.org/abs/2604.01904
スキルトロイアン：スキルベースエージェントシステムに対するバックドア攻撃 [cs.CE, cs.CL, cs.CR, cs.AI]目的：スキルベースエージェントシステムへのバックドア攻撃手法
- 複雑なタスクを処理するため，スキルベースエージェントの利用が拡大している。
- スキルベースシステムはモジュール性が高い反面，セキュリティ上の脆弱性が懸念される。
- スキル実装を標的としたバックドア攻撃のリスクとその対策を明らかにすること。
- スキルに悪意のあるロジックを埋め込み，標準的なスキル合成を通じて攻撃ペイロードを実行可能。
- 暗号化されたペイロードを複数のスキル呼び出しに分割し，特定のトリガー条件でのみ起動する。
- EHR SQLタスクにおいて，97.2%の攻撃成功率と89.3%の正常タスク精度を達成した。
Link: https://arxiv.org/abs/2604.06811
SafeReview：LLMベースの査読システムに対する敵対的隠れプロンプトからの防御 [cs.CL, cs.CR]目的：LLMベースの査読システムに対する敵対的攻撃の防御
- 学術査読の公正性維持は，科学研究の信頼性を確保する上で極めて重要である。
- LLM査読システムは，悪意のあるプロンプトによって操作される脆弱性を持つ。
- 敵対的プロンプト攻撃に対する堅牢性を高め，査読の公正性を保つことを目指す。
- SafeReviewは，攻撃プロンプト生成モデルと防御モデルを共同で訓練する枠組みである。
- 攻撃モデルはより効果的なプロンプト注入を生成し，防御モデルは一貫した査読を維持する。
- 実験結果から，SafeReviewは適応的な攻撃に対する堅牢性を向上させ，論文ランキングをより適切に維持することが示された。
Link: https://arxiv.org/abs/2604.26506
SecGoal：プロトコル文書からの形式化可能なセキュリティ目標抽出のためのベンチマーク [cs.CR]目的：プロトコル文書からの形式化可能なセキュリティ目標抽出のためのデータセットとベンチマーク
- 暗号セキュリティの厳密な保証には形式検証が不可欠であり，その利用拡大が求められている。
- 自然言語で記述されたプロトコル文書から形式化可能なセキュリティ目標を抽出する作業は，手作業に頼る部分が多い。
- セキュリティ目標の自動抽出を可能にし，形式検証プロセスを効率化することを目的とする。
- SecGoal データセットと AIFG フレームワークにより，セキュリティ目標抽出とプロパティ生成のための基盤が提供される。
- SecGoal でファインチューニングされた Gemma2-9B-FT は，大規模な LLM やエンコーダベースラインと比較して，セキュリティ目標抽出の精度が大幅に向上した。
- AIFG は，簡潔な目標入力が，高再現率の構造化プロパティ生成を支援し，抽出入力の品質が生成のボトルネックであることを示した。
Link: https://arxiv.org/abs/2604.27601
KYA：検証可能な系統と階層的ポリシー合成を備えた自律システムのためのフレームワーク非依存型信頼層 [cs.CR, cs.AI, cs.CY, cs.MA, cs.SE]目的：自律システムにおける信頼とガバナンスの層
- 近年，自律システムの重要性が増しており，安全性の確保が不可欠である。
- 既存システムでは，信頼性やポリシーの遵守を検証することが困難である。
- 本研究は，自律システムの行動の正当性，準拠性，検証可能性を向上させることを目指す。
- KYAは，15以上のエージェントフレームワークとネイティブに連携する。
- 36個のバックエンドの検証マトリックスにおいて，全てのセルで正常に動作することを確認した。
- PyRITとGarakからの1,200回の敵対的プローブの89%を検出可能であり，セキュリティの有効性が示された。
Link: https://arxiv.org/abs/2605.25376
能力と頑健性はトレードオフの関係にある：視覚-言語-行動モデルに対する情報理論的限界 [cs.CR, cs.LG]目的：視覚-言語-行動モデルの能力と頑健性の間の情報理論的限界の導出
- 視覚-言語-行動モデルは様々なタスクで高い性能を示すが，その信頼性は脆弱である。
- わずかな摂動に対して性能が急激に低下するため，実用的な応用において頑健性の向上が課題である。
- 能力と頑健性のトレードオフを理論的に明らかにし，その限界を定めることを目指す。
- 能力（行動と理想的な行動の相互情報量）と頑健性（攻撃下で保持される相互情報量）の合計には上限があることを証明した。
- 上限はタスクのエントロピーと敵対的チャネル容量によって決定され，行動空間における信号漏洩が重要な役割を果たす。
- 実験結果は，様々なモデルと攻撃手法において，導出された限界と一致しており，モデルの評価や防御戦略の検討に役立つ診断指標も提供する。
Link: https://arxiv.org/abs/2605.25889
バイアスをバグに変える：LLM判定器に対するバンディット誘導型スタイル操作攻撃 [cs.CR, cs.AI, cs.LG]目的：LLM判定器を欺き，スコアを人為的に高めるための，意味を保持する編集の学習
- LLMは評価の自動化に利用されるが，その評価の公平性・信頼性が重要である。
- LLM判定器には，冗長性や特定の文構造を好むといったスタイルに関するバイアスが存在する。
- LLM判定器のバイアスを利用し，攻撃によって評価を操作する手法を開発すること。
- 提案手法BITEは，LLM判定器を欺くための編集を，コンテキストバンディット問題として学習する。
- 多様なLLM判定器とタスクにおいて，65%を超える攻撃成功率と，9段階スケールで1-2ポイントのスコア向上を達成した。
- BITEは，標準的なスタイル制御手法や検知基盤を回避し，攻撃の隠蔽性に優れていることが示された。
Link: https://arxiv.org/abs/2605.26156
密度を考慮したサンプル特異的な攻撃 [cs.NI, cs.ET, cs.SY, eess.SP, eess.SY, cs.LG, cs.CR]目的：バックドア攻撃における最適なサンプル特異的トリガー構築
- 機械学習モデルのセキュリティ確保は重要であり，特にバックドア攻撃からの防御が不可欠である。
- 既存のバックドア攻撃手法は，ファインチューニングやプルーニングといった事後防御に対して脆弱である。
- クリーンデータの低密度領域にトリガーサンプルを配置することで，攻撃成功率と正解率を両立させる。
- 本研究では，条件時間スコアマッチングを用いて密度比を推定する二層最適化フレームワークを提案した。
- MNIST，CIFAR-10，GTSRB，TinyImageNetを用いた評価で，防御前には99%以上の攻撃成功率を達成した。
- ファインチューニング防御下では，既存の最良手法よりも50-85%高い攻撃成功率を維持し，ニューロンプルーニング防御に対しては完全な耐性を示した。
Link: https://arxiv.org/abs/2605.27809
生成器に届くか？現実的なRAG環境におけるプロンプトインジェクション攻撃の生存可能性調査 [cs.CR, cs.IR]目的：RAG環境におけるプロンプトインジェクション攻撃の有効性評価
- 大規模言語モデル(LLM)を用いたRAGシステムは，情報検索と生成の組み合わせにより高度な情報提供を実現する。
- RAGシステムはプロンプトインジェクション攻撃に対して脆弱であり，悪意のある情報が生成されるリスクがある。
- 現実的なRAGパイプラインにおける攻撃の生存率を評価し，攻撃の有効性を正確に把握すること。
- 先行研究ではプロンプトインジェクション攻撃の成功率が高く報告されているが，本研究ではRAGパイプライン全体での評価により，その有効性が大幅に低下することが示された。
- 勾配ベースや命令上書きといった攻撃手法は，リトリーバーやLLMによる再ランク付けの段階でほぼ効果を失い，LLM駆動型のプロンプトインジェクションのみが最終的に生成器に到達することが判明した。
- また，本研究で開発した軽量なプロンプトインジェクションガードは，小規模な攻撃データセットでファインチューニングするだけで，全ての攻撃を検出できることが示された。
Link: https://arxiv.org/abs/2605.28017
ノイズを考慮した差分プライバシーに基づく変分推論 [stat.ML, cs.CR, cs.LG]目的：差分プライバシーを考慮した変分推論手法
- 統計的推論において，プライバシー保護は重要である。しかし，プライバシー保護と精度維持はトレードオフの関係にある。
- 既存の差分プライバシー手法は，単純な確率モデルに限定されており，高次元モデルへの適用が困難である。
- 高次元かつ非共役モデルにも適用可能な，ノイズを考慮した変分推論手法を開発し，精度向上を目指す。
- 提案手法は，既存手法が適用可能な範囲では同等の性能を示す。
- 高次元ベイズ線形回帰において正確なカバレッジが得られた。
- UCI Adultデータセットを用いたベイズロジスティック回帰において，校正された予測確率が得られた。
Link: https://arxiv.org/abs/2410.19371
軌道角運動量多重化量子鍵配送に関する展望：基礎，実験，そして最近の動向 [quant-ph, cs.CR]目的：軌道角運動量多重化量子鍵配送の現状と課題
- 情報効率と耐ノイズ性を向上させ，より安全な通信を可能にするため。
- 状態生成，伝送，検出における技術的な課題が実用化を妨げている。
- 実用的なシステム構築に向けた進展と限界を明らかにすること。
- 軌道角運動量を用いた高次元量子鍵配送の基礎原理と実験例をまとめた。
- ハイブリッド符号化，モードソーター，適応光学などの最近の進歩を紹介した。
- TF, CV, MDI, DIフレームワークにおける実用化の可能性についても議論した。
Link: https://arxiv.org/abs/2512.11286