第 4 章 评测、系统与安全
传统 LLM 评测看"一次前向给出的答案";Agentic LLM 在多轮中调用工具、读写记忆、与环境交互,以任务是否完成论成败。这带来三个转变:从答案正确性到轨迹有效性、从静态数据集到可交互环境、从单点指标到分布指标。
7 Agent 评测
7.1 主流基准概览
| 基准 | 评测什么 | 任务域 | 核心指标 | 评估方式 |
|---|---|---|---|---|
| GAIA | 综合助手:推理+多模态+浏览+工具 | 真实开放问题(466) | Exact-match(三级难度) | 标准答案匹配 |
| AgentBench | LLM-as-Agent 推理/决策 | 8 环境(OS/DB/KG/游戏/Web…) | 各环境成功率→总分 | 交互式环境 |
| τ-bench / τ²-bench | 工具调用+用户交互+策略遵循 | 零售、航空(含双控) | 成功率 + pass^k(可靠性) | 终态数据库比对 |
| WebArena | Web 操作(文本) | 电商/论坛/GitLab/CMS | 功能性成功率 | 自托管站点执行 |
| VisualWebArena | 多模态 Web 操作 | Classifieds/Shopping/Reddit(910) | 功能性成功率 | 自托管站点执行 |
| SWE-bench Verified | 真实代码修复 | GitHub Python 仓库(500) | % Resolved + 成本 | 单元测试 |
| ToolBench | 多步工具规划/泛化 | 16k+ RapidAPI | ToolEval 通过率/胜率 | API 执行 + 自动评判 |
| GPQA | 研究生级科学推理 | 生/物/化(448) | 多选准确率 | 标准答案匹配 |
| AIME | 数学推理 | 竞赛数学 | 准确率(多次采样均值) | 整数答案匹配 |
7.2 评测难点
长程任务:单步成功率会指数衰减为整体成功率(0.95³⁰≈0.21),误差累积、难恢复。可复现性:Web/工具环境会漂移,故 WebArena/τ-bench 坚持自托管、可重置,并需固定 seed/温度多次重跑。过拟合/数据污染:公开题易进训练语料 → 用人工净化子集(SWE-bench Verified)、私有/滚动测试集、按年更新(AIME)。成本指标:把每成功任务成本(CPS)、token、步数、延迟作为一等指标,与质量并列(SWE-bench 排行榜已支持"解决率 vs 成本"散点)。过程 vs 结果评估:结果评估(终态/答案对错)客观易自动化但对"侥幸成功/有害中间动作"不敏感;过程评估(rubric、LLM-as-judge、Process Reward Model)能定位失败但成本高、判官有偏。实践:结果定优劣、过程做诊断。
8 系统、部署与安全
8.1 系统工程
编排:单 Agent ReAct 循环、planner-executor、多 Agent 协作(supervisor/handoff)、图/状态机;关键是步数与预算上限、确定性状态转移、结构化工具调用。记忆与存储:短期(对话/工作记忆,配摘要压缩) + 长期(向量库语义检索、KV/文档库、业务数据库);注意写入策略、召回质量、陈旧/冲突、隐私隔离。可观测性:多步 Agent 是"黑箱套黑箱",一条 trace 应记录每步 prompt/工具入参出参/token/延迟/错误(LangSmith、OpenLLMetry、Langfuse、Arize Phoenix)。并发与重试:批量并行降延迟;瞬时错误用指数退避+抖动;格式错误做校验-重提示;保证工具幂等避免重试副作用(重复下单)。
8.2 成本与延迟
成本来源:输入/输出 token、采样次数、长轨迹上下文累积、工具开销。手段:模型分级路由(简单步用小模型)、prompt/上下文压缩与缓存、限制最大步数、并行化、缓存可复用的工具结果。延迟 ≈ Σ(每步模型延迟 + 工具延迟),可用流式输出、并行执行、异步+进度反馈。务必把成本/延迟与质量一起看(CPS 与帕累托曲线)。
8.3 安全与对齐
Agent 能"采取真实行动",把安全从"说错话"升级为"做错事"。可对照 OWASP Top 10 for LLM Applications:
- Prompt Injection(LLM01):直接注入("忽略以上指令") + 间接注入(恶意指令藏在 Agent 读取的网页/邮件/文档/工具返回里)——Web/邮件类 Agent 最现实的威胁。缓解:可信/不可信内容分离、把工具返回"当数据不当指令"、动作前策略校验、最小权限、敏感动作确认。目前没有 100% 可靠的防注入方案,需纵深防御。
- 工具滥用 / 过度自主(LLM08/07):权限过大(删库/转账/任意代码执行)易被诱导滥用。缓解:最小权限、按身份做授权而非仅认证、危险动作走审批、参数白名单。
- 沙箱化:代码执行/文件/网络在隔离环境(容器/微 VM/受限出网)中运行。
- 人类在环(HITL):不可逆/高风险动作(支付/发送/删除)插入确认或审批门,可中断、可回滚。
- 护栏:输入(注入/越狱检测)/输出(格式、PII)/动作(策略权限)三处加策略层,且独立于主模型以免被同一注入绕过。
8.4 可靠性与失败模式
循环/卡死→步数预算+循环检测;幻觉工具/参数→schema 校验+报错回灌;错误累积不可恢复→检查点+自我校验+子目标验收;级联失败→超时/熔断/降级/幂等重试;过度自信/不求助→校准的求助/弃权策略+HITL 兜底。用 pass^k 等分布指标衡量稳定性,上线后用可观测管线持续监控与回归。
关键论文 / 资源(已核实)
- GAIA 2311.12983 | AgentBench 2308.03688 | τ-bench 2406.12045
- WebArena 2307.13854 | VisualWebArena 2401.13649 | SWE-bench 2310.06770(榜单 swebench.com)
- ToolLLM/ToolBench 2307.16789 | GPQA 2311.12022
- OWASP Top 10 for LLM Applications genai.owasp.org
- LangSmith Observability(官方文档)docs.langchain.com