Anthropic 刚刚开源了一款极具实用价值的 AI 安全评估工具——Bloom。这是一套智能体驱动的框架,能够为前沿 AI 模型自动生成行为评估方案。它并非又一个静态基准测试工具,而是一套可规模化生成对抗性测试场景、并输出量化安全指标的动态系统。
Bloom 在每次运行时,都会生成全新的评估场景,同时确保对模型核心行为的衡量标准保持一致。
我在自己的苹果电脑上,不到 30 分钟就完成了部署,还搭建好了定制化的可视化仪表盘。接下来,我将分享用它测试 Claude Sonnet 4.5 模型“妄想性谄媚”行为的全过程。
Bloom 通过四个自动化阶段,将一项行为描述转化为一套完整的评估方案:
按下回车或点击查看完整尺寸图片
其核心输出指标是诱发率——即模型表现出目标行为、且评分≥7/10 的测试案例占比。该数值越低,说明模型出现行为失准的倾向越小。
作为一款科研级工具,Bloom 的搭建流程却出乎意料地简单。
git clone <https://github.com/safety-research/bloom.git>
cd bloom
uv venv --python=python3.11
source .venv/bin/activate
uv pip install -r requirements.txt
在项目根目录下创建 .env 文件,填入你的 API 密钥:
ANTHROPIC_API_KEY=你的密钥
OPENAI_API_KEY=你的密钥
核心配置在 seed.yaml 文件中完成。你需要在文件中定义待评估的目标行为、测试模型,以及场景多样性、评估总量等参数。代码库中已提供示例配置文件,可直接参考使用。
python bloom.py --debug