第 4 章　评测、系统与安全

GAIA/AgentBench/τ-bench/SWE-bench · 长程/可复现/成本(CPS) · 编排/记忆/可观测 · prompt injection/沙箱/HITL/护栏

传统 LLM 评测看"一次前向给出的答案"；Agentic LLM 在多轮中调用工具、读写记忆、与环境交互，以任务是否完成论成败。这带来三个转变：从答案正确性到轨迹有效性、从静态数据集到可交互环境、从单点指标到分布指标。

7　Agent 评测

7.1　主流基准概览

基准	评测什么	任务域	核心指标	评估方式
GAIA	综合助手：推理+多模态+浏览+工具	真实开放问题(466)	Exact-match（三级难度）	标准答案匹配
AgentBench	LLM-as-Agent 推理/决策	8 环境(OS/DB/KG/游戏/Web…)	各环境成功率→总分	交互式环境
τ-bench / τ²-bench	工具调用+用户交互+策略遵循	零售、航空(含双控)	成功率 + pass^k(可靠性)	终态数据库比对
WebArena	Web 操作(文本)	电商/论坛/GitLab/CMS	功能性成功率	自托管站点执行
VisualWebArena	多模态 Web 操作	Classifieds/Shopping/Reddit(910)	功能性成功率	自托管站点执行
SWE-bench Verified	真实代码修复	GitHub Python 仓库(500)	% Resolved + 成本	单元测试
ToolBench	多步工具规划/泛化	16k+ RapidAPI	ToolEval 通过率/胜率	API 执行 + 自动评判
GPQA	研究生级科学推理	生/物/化(448)	多选准确率	标准答案匹配
AIME	数学推理	竞赛数学	准确率(多次采样均值)	整数答案匹配

7.2　评测难点

长程任务：单步成功率会指数衰减为整体成功率（0.95³⁰≈0.21），误差累积、难恢复。可复现性：Web/工具环境会漂移，故 WebArena/τ-bench 坚持自托管、可重置，并需固定 seed/温度多次重跑。过拟合/数据污染：公开题易进训练语料 → 用人工净化子集（SWE-bench Verified）、私有/滚动测试集、按年更新（AIME）。成本指标：把每成功任务成本（CPS）、token、步数、延迟作为一等指标，与质量并列（SWE-bench 排行榜已支持"解决率 vs 成本"散点）。过程 vs 结果评估：结果评估（终态/答案对错）客观易自动化但对"侥幸成功/有害中间动作"不敏感；过程评估（rubric、LLM-as-judge、Process Reward Model）能定位失败但成本高、判官有偏。实践：结果定优劣、过程做诊断。

8　系统、部署与安全

图 4.1　Agent 生产系统参考架构：流水线 + 记忆/护栏/可观测三大基座

8.1　系统工程

编排：单 Agent ReAct 循环、planner-executor、多 Agent 协作(supervisor/handoff)、图/状态机；关键是步数与预算上限、确定性状态转移、结构化工具调用。记忆与存储：短期(对话/工作记忆，配摘要压缩) + 长期(向量库语义检索、KV/文档库、业务数据库)；注意写入策略、召回质量、陈旧/冲突、隐私隔离。可观测性：多步 Agent 是"黑箱套黑箱"，一条 trace 应记录每步 prompt/工具入参出参/token/延迟/错误（LangSmith、OpenLLMetry、Langfuse、Arize Phoenix）。并发与重试：批量并行降延迟；瞬时错误用指数退避+抖动；格式错误做校验-重提示；保证工具幂等避免重试副作用（重复下单）。

8.2　成本与延迟

成本来源：输入/输出 token、采样次数、长轨迹上下文累积、工具开销。手段：模型分级路由（简单步用小模型）、prompt/上下文压缩与缓存、限制最大步数、并行化、缓存可复用的工具结果。延迟 ≈ Σ(每步模型延迟 + 工具延迟)，可用流式输出、并行执行、异步+进度反馈。务必把成本/延迟与质量一起看（CPS 与帕累托曲线）。

8.3　安全与对齐

Agent 能"采取真实行动"，把安全从"说错话"升级为"做错事"。可对照 OWASP Top 10 for LLM Applications：

Prompt Injection（LLM01）：直接注入("忽略以上指令") + 间接注入（恶意指令藏在 Agent 读取的网页/邮件/文档/工具返回里）——Web/邮件类 Agent 最现实的威胁。缓解：可信/不可信内容分离、把工具返回"当数据不当指令"、动作前策略校验、最小权限、敏感动作确认。目前没有 100% 可靠的防注入方案，需纵深防御。
工具滥用 / 过度自主（LLM08/07）：权限过大(删库/转账/任意代码执行)易被诱导滥用。缓解：最小权限、按身份做授权而非仅认证、危险动作走审批、参数白名单。
沙箱化：代码执行/文件/网络在隔离环境(容器/微 VM/受限出网)中运行。
人类在环(HITL)：不可逆/高风险动作(支付/发送/删除)插入确认或审批门，可中断、可回滚。
护栏：输入(注入/越狱检测)/输出(格式、PII)/动作(策略权限)三处加策略层，且独立于主模型以免被同一注入绕过。

8.4　可靠性与失败模式

循环/卡死→步数预算+循环检测；幻觉工具/参数→schema 校验+报错回灌；错误累积不可恢复→检查点+自我校验+子目标验收；级联失败→超时/熔断/降级/幂等重试；过度自信/不求助→校准的求助/弃权策略+HITL 兜底。用 pass^k 等分布指标衡量稳定性，上线后用可观测管线持续监控与回归。

关键论文 / 资源（已核实）

GAIA 2311.12983 ｜ AgentBench 2308.03688 ｜ τ-bench 2406.12045
WebArena 2307.13854 ｜ VisualWebArena 2401.13649 ｜ SWE-bench 2310.06770（榜单 swebench.com）
ToolLLM/ToolBench 2307.16789 ｜ GPQA 2311.12022
OWASP Top 10 for LLM Applications genai.owasp.org
LangSmith Observability（官方文档）docs.langchain.com

第 4 章 评测、系统与安全

7 Agent 评测

7.1 主流基准概览

7.2 评测难点

8 系统、部署与安全

8.1 系统工程

8.2 成本与延迟

8.3 安全与对齐

8.4 可靠性与失败模式