第 5 章 小模型 Agent(专题)

SLM 作为 agent 的四方向:蒸馏/微调 · 多智能体协作 · 端侧部署 · 领域专用 · 潜力评估
本章是专题深度报告的精简版。完整版含 10 张框图、横向对比、潜力评分与 38 篇 arXiv 引用,见 👉 《小模型 Agent 方向研究综述与潜力评估》(完整报告)。(部署时请把该 HTML 一并放入站点目录;详见 README。)

"小模型 agent" 指以小语言模型(SLM,多指 ≤约 10B)作为决策大脑的智能体。结论:在可分解、可调工具、输出结构化、领域窄的任务上,3–8B 乃至 0.5B 的小模型经恰当蒸馏/微调已能匹配甚至超过大其 4–100 倍的模型,且成本/延迟/隐私具数量级优势;但长程规划、开放域推理、跨域泛化仍系统性落后,且增益很大程度来自编排/工程/教师模型而非小模型本身。

5.1 四个子方向总览

子方向核心判断标志性结果
① 训练 / 蒸馏从蒸馏 CoT 转向蒸馏含工具调用的完整 agentic 轨迹;从 off-policy 模仿转向 on-policy 纠错(SFT+RL)1.5B 学生≈3B、7B>32B 教师;SCoRe 7B≈72B
② 多智能体协作小模型组队可超大数倍单体,但关键是编排器能力而非子智能体规模;纯辩论近乎无效8B 系统 AIME 55 vs 32B 的 45;投票贡献几乎全部增益
③ 端侧部署函数调用类已可落地且超 GPT-4;长程导航/硬件功耗是硬约束 → 端云协作Octopus v2(2B) 99.5%;TinyAgent 超 GPT-4-Turbo
④ 领域专用"窗口内更锋利" + 工具外接压制幻觉,反复"小超大";强依赖教师、易过拟合CyberPal-20B 超 GPT-4o;SWE-Protégé-7B 超 32B

5.2 各方向要点

① 训练 / 蒸馏

代表作:Agent Distillation(NeurIPS'25,蒸馏完整轨迹 + FTP/SAG,1.5B≈3B、7B>32B)、AgentDistill(training-free,复用 MCP-Box)、SCoRe(教师只纠最早错误步,7B≈72B)、SOD(步级 on-policy 蒸馏,0.6B 在 AIME'25 达 26.13%)、Fine-tuning with RAG(把检索内化)。头号失败模式是误差级联

② 多智能体协作

《Can Small Agents Beat a Single LLM?》用 Qwen3:8B 编排器 + 3 子智能体,AIME 55 vs 32B 的 45、延迟快 4.2×、token 省 ~43%。核心发现"规划受限,而非执行受限"——投资编排器 > 扩子智能体。Mixture-of-Agents、辩论 vs 投票见第 3 章

③ 端侧 / 边缘部署

TinyAgent(1.1B/7B,MacBook M3,成功率 80–85% 超 GPT-4-Turbo)、Octopus v2(2B,functional token,99.5%,端侧 1–2s)已证可行;Ferret-UI Lite(Apple 3B GUI agent)grounding 强但导航弱。硬件内存/功耗/发热是硬约束,主流是 SLM 默认 + 云端 LLM 兜底

④ 领域专用

基因组 NBA(3–10B+工具,GeneTuring 98%)、安全 CyberPal 2.0(4–20B,20B 超 GPT-4o/o1)、软工 SWE-Protégé(7B 超 32B、成本省 4–8×)、工具调用 OPT-350M(ToolBench 77.55%,过拟合警示)。共性:窗口内更锋利、工具外接、教师合成数据;局限:强依赖教师/专家、易过拟合。

5.3 潜力评估(速览)

高可行:工具/函数调用、结构化输出、窄域问答(配工具)——可匹配甚至超越前沿 LLM。中等可行:中等多步、需路由的混合负载、需 Oracle 兜底的生成。低可行(天花板):长程规划/导航、开放域推理、跨域强泛化。经济性是最强卖点:推理便宜 10–30×、token 成本低 10–100×、微调从"数周"降到"数 GPU 小时"。最大陷阱:把系统/编排/教师带来的增益误记为小模型本身的能力。

潜力评分(1–5):技术可行性(窄任务) ★★★★☆ / 技术可行性(通用长程) ★★☆☆☆ / 经济性 ★★★★★ / 工程落地确定性 ★★★★☆ / 基础研究新颖度 ★★★☆☆ / 整体 ★★★★☆

5.4 完整报告与图表

本专题的完整版(含 10 张框图:方向总览、蒸馏两范式、多智能体架构、端云协作、领域闭环、时间线、NVIDIA 六步转换、可行性分级、潜力评分、落地决策流程,以及术语表与 38 篇参考文献)见:

📄 《小模型 Agent 方向研究综述与潜力评估》完整报告 →

← 评测、系统与安全 下一章:学习资源与署名 →