第 4 章 评测、系统与安全

GAIA/AgentBench/τ-bench/SWE-bench · 长程/可复现/成本(CPS) · 编排/记忆/可观测 · prompt injection/沙箱/HITL/护栏

传统 LLM 评测看"一次前向给出的答案";Agentic LLM 在多轮中调用工具、读写记忆、与环境交互,以任务是否完成论成败。这带来三个转变:从答案正确性到轨迹有效性、从静态数据集到可交互环境、从单点指标到分布指标

7 Agent 评测

7.1 主流基准概览

基准评测什么任务域核心指标评估方式
GAIA综合助手:推理+多模态+浏览+工具真实开放问题(466)Exact-match(三级难度)标准答案匹配
AgentBenchLLM-as-Agent 推理/决策8 环境(OS/DB/KG/游戏/Web…)各环境成功率→总分交互式环境
τ-bench / τ²-bench工具调用+用户交互+策略遵循零售、航空(含双控)成功率 + pass^k(可靠性)终态数据库比对
WebArenaWeb 操作(文本)电商/论坛/GitLab/CMS功能性成功率自托管站点执行
VisualWebArena多模态 Web 操作Classifieds/Shopping/Reddit(910)功能性成功率自托管站点执行
SWE-bench Verified真实代码修复GitHub Python 仓库(500)% Resolved + 成本单元测试
ToolBench多步工具规划/泛化16k+ RapidAPIToolEval 通过率/胜率API 执行 + 自动评判
GPQA研究生级科学推理生/物/化(448)多选准确率标准答案匹配
AIME数学推理竞赛数学准确率(多次采样均值)整数答案匹配

7.2 评测难点

长程任务:单步成功率会指数衰减为整体成功率(0.95³⁰≈0.21),误差累积、难恢复。可复现性:Web/工具环境会漂移,故 WebArena/τ-bench 坚持自托管、可重置,并需固定 seed/温度多次重跑。过拟合/数据污染:公开题易进训练语料 → 用人工净化子集(SWE-bench Verified)、私有/滚动测试集、按年更新(AIME)。成本指标:把每成功任务成本(CPS)、token、步数、延迟作为一等指标,与质量并列(SWE-bench 排行榜已支持"解决率 vs 成本"散点)。过程 vs 结果评估:结果评估(终态/答案对错)客观易自动化但对"侥幸成功/有害中间动作"不敏感;过程评估(rubric、LLM-as-judge、Process Reward Model)能定位失败但成本高、判官有偏。实践:结果定优劣、过程做诊断

8 系统、部署与安全

用户 / 客户端 编排 Orchestrator 控制流/状态机 模型 LLM + 模型路由(大/小) 工具/检索/代码 外部 API/数据 Sandbox 边界(受限文件/网络/资源) 记忆 短期上下文 + 长期向量库/KV 护栏 Guardrails 输入过滤 / 输出校验 / 动作授权 + HITL 可观测性 Tracing / 指标 / 评测回归(LangSmith) 不可信输入(网页/邮件/工具返回)是 prompt injection 主入口 → 须"数据≠指令"地处理
图 4.1 Agent 生产系统参考架构:流水线 + 记忆/护栏/可观测三大基座

8.1 系统工程

编排:单 Agent ReAct 循环、planner-executor、多 Agent 协作(supervisor/handoff)、图/状态机;关键是步数与预算上限、确定性状态转移、结构化工具调用。记忆与存储:短期(对话/工作记忆,配摘要压缩) + 长期(向量库语义检索、KV/文档库、业务数据库);注意写入策略、召回质量、陈旧/冲突、隐私隔离。可观测性:多步 Agent 是"黑箱套黑箱",一条 trace 应记录每步 prompt/工具入参出参/token/延迟/错误(LangSmith、OpenLLMetry、Langfuse、Arize Phoenix)。并发与重试:批量并行降延迟;瞬时错误用指数退避+抖动;格式错误做校验-重提示;保证工具幂等避免重试副作用(重复下单)。

8.2 成本与延迟

成本来源:输入/输出 token、采样次数、长轨迹上下文累积、工具开销。手段:模型分级路由(简单步用小模型)、prompt/上下文压缩与缓存、限制最大步数、并行化、缓存可复用的工具结果。延迟 ≈ Σ(每步模型延迟 + 工具延迟),可用流式输出、并行执行、异步+进度反馈。务必把成本/延迟与质量一起看(CPS 与帕累托曲线)。

8.3 安全与对齐

Agent 能"采取真实行动",把安全从"说错话"升级为"做错事"。可对照 OWASP Top 10 for LLM Applications

8.4 可靠性与失败模式

循环/卡死→步数预算+循环检测;幻觉工具/参数→schema 校验+报错回灌;错误累积不可恢复→检查点+自我校验+子目标验收;级联失败→超时/熔断/降级/幂等重试;过度自信/不求助→校准的求助/弃权策略+HITL 兜底。用 pass^k 等分布指标衡量稳定性,上线后用可观测管线持续监控与回归。

关键论文 / 资源(已核实)

  1. GAIA 2311.12983 | AgentBench 2308.03688 | τ-bench 2406.12045
  2. WebArena 2307.13854 | VisualWebArena 2401.13649 | SWE-bench 2310.06770(榜单 swebench.com
  3. ToolLLM/ToolBench 2307.16789 | GPQA 2311.12022
  4. OWASP Top 10 for LLM Applications genai.owasp.org
  5. LangSmith Observability(官方文档)docs.langchain.com
← Agent 架构与多智能体 下一章:小模型 Agent(专题)→