第 5 章 小模型 Agent(专题)
README。)"小模型 agent" 指以小语言模型(SLM,多指 ≤约 10B)作为决策大脑的智能体。结论:在可分解、可调工具、输出结构化、领域窄的任务上,3–8B 乃至 0.5B 的小模型经恰当蒸馏/微调已能匹配甚至超过大其 4–100 倍的模型,且成本/延迟/隐私具数量级优势;但长程规划、开放域推理、跨域泛化仍系统性落后,且增益很大程度来自编排/工程/教师模型而非小模型本身。
5.1 四个子方向总览
| 子方向 | 核心判断 | 标志性结果 |
|---|---|---|
| ① 训练 / 蒸馏 | 从蒸馏 CoT 转向蒸馏含工具调用的完整 agentic 轨迹;从 off-policy 模仿转向 on-policy 纠错(SFT+RL) | 1.5B 学生≈3B、7B>32B 教师;SCoRe 7B≈72B |
| ② 多智能体协作 | 小模型组队可超大数倍单体,但关键是编排器能力而非子智能体规模;纯辩论近乎无效 | 8B 系统 AIME 55 vs 32B 的 45;投票贡献几乎全部增益 |
| ③ 端侧部署 | 函数调用类已可落地且超 GPT-4;长程导航/硬件功耗是硬约束 → 端云协作 | Octopus v2(2B) 99.5%;TinyAgent 超 GPT-4-Turbo |
| ④ 领域专用 | "窗口内更锋利" + 工具外接压制幻觉,反复"小超大";强依赖教师、易过拟合 | CyberPal-20B 超 GPT-4o;SWE-Protégé-7B 超 32B |
5.2 各方向要点
① 训练 / 蒸馏
代表作:Agent Distillation(NeurIPS'25,蒸馏完整轨迹 + FTP/SAG,1.5B≈3B、7B>32B)、AgentDistill(training-free,复用 MCP-Box)、SCoRe(教师只纠最早错误步,7B≈72B)、SOD(步级 on-policy 蒸馏,0.6B 在 AIME'25 达 26.13%)、Fine-tuning with RAG(把检索内化)。头号失败模式是误差级联。
② 多智能体协作
《Can Small Agents Beat a Single LLM?》用 Qwen3:8B 编排器 + 3 子智能体,AIME 55 vs 32B 的 45、延迟快 4.2×、token 省 ~43%。核心发现"规划受限,而非执行受限"——投资编排器 > 扩子智能体。Mixture-of-Agents、辩论 vs 投票见第 3 章。
③ 端侧 / 边缘部署
TinyAgent(1.1B/7B,MacBook M3,成功率 80–85% 超 GPT-4-Turbo)、Octopus v2(2B,functional token,99.5%,端侧 1–2s)已证可行;Ferret-UI Lite(Apple 3B GUI agent)grounding 强但导航弱。硬件内存/功耗/发热是硬约束,主流是 SLM 默认 + 云端 LLM 兜底。
④ 领域专用
基因组 NBA(3–10B+工具,GeneTuring 98%)、安全 CyberPal 2.0(4–20B,20B 超 GPT-4o/o1)、软工 SWE-Protégé(7B 超 32B、成本省 4–8×)、工具调用 OPT-350M(ToolBench 77.55%,过拟合警示)。共性:窗口内更锋利、工具外接、教师合成数据;局限:强依赖教师/专家、易过拟合。
5.3 潜力评估(速览)
高可行:工具/函数调用、结构化输出、窄域问答(配工具)——可匹配甚至超越前沿 LLM。中等可行:中等多步、需路由的混合负载、需 Oracle 兜底的生成。低可行(天花板):长程规划/导航、开放域推理、跨域强泛化。经济性是最强卖点:推理便宜 10–30×、token 成本低 10–100×、微调从"数周"降到"数 GPU 小时"。最大陷阱:把系统/编排/教师带来的增益误记为小模型本身的能力。
5.4 完整报告与图表
本专题的完整版(含 10 张框图:方向总览、蒸馏两范式、多智能体架构、端云协作、领域闭环、时间线、NVIDIA 六步转换、可行性分级、潜力评分、落地决策流程,以及术语表与 38 篇参考文献)见: