四大防护组件:PromptGuard 2、Alignment Checks和CodeShield、Regex + Custom Scanners。其中PromptGuard 2可实时检测直接的越狱攻击和即时注入尝试;Agent Alignment Checks则能监测AI代理的推理过程,识别潜在的目标劫持和间接即时注入攻击场景。CodeShield是一个在线静态分析引擎,专门用于阻止AI代理生成不安全或危险的代码。Regex + Custom Scanners,一个可配置的扫描层,用于应用正则表达式或简单的LLM提示来检测跨输入、计划或输出的已知模式、关键字或行为。
PromptGuard 2是一种微调的BERT风格模型,旨在实时检测直接越狱尝试,具有高精度和低延迟。它对用户提示和不受信任的数据源进行操作,与其他扫描仪配对时提供额外的防御层。该模型针对通用越狱尝试,这些尝试可能表现为源自用户输入或工具输出的提示注入。
PromptGuard 2已在扩展数据集上进行了训练,该数据集具有各种良性和恶意输入,使模型能够更好地区分合法和恶意代码,并提高其越狱检测能力。训练目标还通过基于能量的损失函数进行了优化,增强了模型的学习效率和泛化到新数据的能力。
对齐检查是一个开创性的开源护栏,它利用少量提示实时审计代理的推理,检测目标劫持或提示注入引起的错位迹象。这种创新方法允许检查LLM决策或行动背后的整个思维链,标记矛盾、目标分歧和注入引起的其他指标misalignment.AsLlamaFirewall套件的一部分,对齐检查作为运行时推理审计员,提供针对恶意行为的关键防御层。它与PromptGuard分层的能力使其能够提供额外的保护,检测围绕危险代理行为的错位,并确保系统的完整性。