第 7 章 综述与延伸阅读(Surveys & Further Reading)

按主题整理的权威综述 + 课程教程 + 评测基准 + 聚合清单 · 经 Chrome 实时检索 arXiv / GitHub 汇编
说明:本页清单于 2026-06-27 通过浏览器实时检索 arXiv 与 GitHub 汇编、链接逐条核对。其中大量为 2025–2026 预印本(编号 25xx/26xx),部分尚未同行评审,引用前请回原文复核版本与口径。各条按"主题 → 标题 + 一句话 + 链接"组织,便于按需深读。

7.1 总体 / Agent 架构与设计模式(综述)

7.2 推理(综述)

7.3 记忆 / 工具 / 技能 / 环境(综述)

7.4 多智能体(综述)

7.5 评测(综述)

7.6 安全 / 可信 / 隐私 / 溯源(综述)

7.7 系统 / 经济性 / 效率(综述)

7.8 领域应用(综述)

7.9 课程与教程

系统课程

概念指南(官方/经典)

框架教程

7.10 评测基准(速查)

基准测什么规模/形式
GAIA通用助手:推理+检索+工具+多模态~450 短答,三级难度
AgentBenchLLM-as-Agent 多域8 环境(OS/SQL/Web/游戏…)
WebArena / VisualWebArena真实 Web 操作(文本/多模态)自托管 4 站,800+/910 任务
OSWorld真实桌面/Web GUI 操作350+ 任务,按执行轨迹判分
SWE-bench (Verified/Lite/MM)真实代码修复2k+ GitHub issue(Verified 500)
ToolBench真实 API 工具调用16k+ RapidAPI
τ-bench / τ²-bench工具+用户交互+策略(pass^k)零售/航空(含双控)
BrowseComp难定位信息的网页检索1200+ 人造题
GPQA / AIME研究生科学 / 数学推理448 / 竞赛题

7.11 聚合清单(持续更新源)

想要持续跟踪?可把"每周拉取 arXiv 最新 agent 综述并汇总"做成定时任务(每周一早上自动检索 + 生成增量清单)。需要的话我可以帮你建。
← 学习资源与署名 返回首页 →