背景

摘要

Meta公司正式发布开源框架LlamaFirewall，该框架旨在保护人工智能(A)系统免受即时注入(promptinjection)、越狱攻击(iailbreak)及不安全代码等新兴网络安全威胁。
LlamaFirewall包含三大核心防护组件:PromptGuard2、Agent Alignment Checks和CodeShield，分别负责实时监测攻击尝试、监控AI代理的推理过程以及阻止不安全代码的生成。
Meta还推出了LlamaGuard和CyberSecEval的升级版本，以更精准地检测违规内容和评估AI系统的网络安全防御能力。
Meta启动了“Llama for Defenders”计划，旨在通过提供开放、早期测试及封闭式AI解决方案，帮助合作组织和AI开发者应对特定安全挑战，如检测AI生成的诈骗和钓鱼内容。

框架组件

四大防护组件：PromptGuard 2、Alignment Checks和CodeShield、Regex + Custom Scanners。其中PromptGuard 2可实时检测直接的越狱攻击和即时注入尝试；Agent Alignment Checks则能监测AI代理的推理过程，识别潜在的目标劫持和间接即时注入攻击场景。CodeShield是一个在线静态分析引擎，专门用于阻止AI代理生成不安全或危险的代码。Regex + Custom Scanners，一个可配置的扫描层，用于应用正则表达式或简单的LLM提示来检测跨输入、计划或输出的已知模式、关键字或行为。

PromptGuard 2

PromptGuard 2是一种微调的BERT风格模型，旨在实时检测直接越狱尝试，具有高精度和低延迟。它对用户提示和不受信任的数据源进行操作，与其他扫描仪配对时提供额外的防御层。该模型针对通用越狱尝试，这些尝试可能表现为源自用户输入或工具输出的提示注入。

PromptGuard 2已在扩展数据集上进行了训练，该数据集具有各种良性和恶意输入，使模型能够更好地区分合法和恶意代码，并提高其越狱检测能力。训练目标还通过基于能量的损失函数进行了优化，增强了模型的学习效率和泛化到新数据的能力。

适用场景

场景1：防止目标劫持和数据泄露

场景2：防止代码生成中的意外SQL注入

场景3：对齐检查

对齐检查是一个开创性的开源护栏，它利用少量提示实时审计代理的推理，检测目标劫持或提示注入引起的错位迹象。这种创新方法允许检查LLM决策或行动背后的整个思维链，标记矛盾、目标分歧和注入引起的其他指标misalignment.AsLlamaFirewall套件的一部分，对齐检查作为运行时推理审计员，提供针对恶意行为的关键防御层。它与PromptGuard分层的能力使其能够提供额外的保护，检测围绕危险代理行为的错位，并确保系统的完整性。

背景