背景

  1. 论文地址:https://ai.meta.com/research/publications/llamafirewall-an-open-source-guardrail-system-for-building-secure-ai-agents/
  2. 代码地址: https://github.com/meta-llama/PurpleLlama/tree/main/LlamaFirewall
  3. blog: https://ai.meta.com/blog/ai-defenders-program-llama-protection-tools/

摘要

  1. Meta公司正式发布开源框架LlamaFirewall,该框架旨在保护人工智能(A)系统免受即时注入(promptinjection)、越狱攻击(iailbreak)及不安全代码等新兴网络安全威胁。
  2. LlamaFirewall包含三大核心防护组件:PromptGuard2、Agent Alignment Checks和CodeShield,分别负责实时监测攻击尝试、监控AI代理的推理过程以及阻止不安全代码的生成。
  3. Meta还推出了LlamaGuard和CyberSecEval的升级版本,以更精准地检测违规内容和评估AI系统的网络安全防御能力。
  4. Meta启动了“Llama for Defenders”计划,旨在通过提供开放、早期测试及封闭式AI解决方案,帮助合作组织和AI开发者应对特定安全挑战,如检测AI生成的诈骗和钓鱼内容。

框架组件

四大防护组件:PromptGuard 2、Alignment Checks和CodeShield、Regex + Custom Scanners。其中PromptGuard 2可实时检测直接的越狱攻击和即时注入尝试;Agent Alignment Checks则能监测AI代理的推理过程,识别潜在的目标劫持和间接即时注入攻击场景。CodeShield是一个在线静态分析引擎,专门用于阻止AI代理生成不安全或危险的代码。Regex + Custom Scanners,一个可配置的扫描层,用于应用正则表达式或简单的LLM提示来检测跨输入、计划或输出的已知模式、关键字或行为。

PromptGuard 2

PromptGuard 2是一种微调的BERT风格模型,旨在实时检测直接越狱尝试,具有高精度和低延迟。它对用户提示和不受信任的数据源进行操作,与其他扫描仪配对时提供额外的防御层。该模型针对通用越狱尝试,这些尝试可能表现为源自用户输入或工具输出的提示注入。

PromptGuard 2已在扩展数据集上进行了训练,该数据集具有各种良性和恶意输入,使模型能够更好地区分合法和恶意代码,并提高其越狱检测能力。训练目标还通过基于能量的损失函数进行了优化,增强了模型的学习效率和泛化到新数据的能力。

适用场景

场景1:防止目标劫持和数据泄露

场景2:防止代码生成中的意外SQL注入

场景3:对齐检查

对齐检查是一个开创性的开源护栏,它利用少量提示实时审计代理的推理,检测目标劫持或提示注入引起的错位迹象。这种创新方法允许检查LLM决策或行动背后的整个思维链,标记矛盾、目标分歧和注入引起的其他指标misalignment.AsLlamaFirewall套件的一部分,对齐检查作为运行时推理审计员,提供针对恶意行为的关键防御层。它与PromptGuard分层的能力使其能够提供额外的保护,检测围绕危险代理行为的错位,并确保系统的完整性。

场景4:码盾(类似gan网络的检测模块)