小模型 Agent(Small Language Model Agents)
方向研究综述与潜力评估
本报告系统检索并核实"小语言模型(SLM)作为智能体(agent)"方向的最新论文,逐篇分析方法设定与关键实验数字,配以 10 张框图,并对方向潜力做出评估。所有 arXiv 编号、标题、关键数字均经抓取核实;对极新预印本、立场性论文与表述偏夸张的工作均已标注,引用前请回原文复核。
执行摘要
一句话结论:"小模型 agent" 不是单一技术,而是一束相互支撑的方向。在可分解、可调用工具、输出结构化、领域窄的任务上,3–8B 乃至 0.5B 级别的小模型经恰当蒸馏/微调,已能匹配甚至超过大其 4–100 倍的模型,且在成本、延迟、隐私、端侧部署上具备数量级优势;但在长程规划、开放域推理、跨域泛化上仍系统性落后,且能力增益很大程度来自编排 / 工程 / 教师模型而非小模型本身。因此该方向是"工程与系统驱动的高确定性红利 + 基础能力受限的明确边界"并存。
下图给出全方向的总览与四个子方向的关系。
四个子方向的核心判断
| 子方向 | 成熟度 | 核心判断 | 标志性结果 |
|---|---|---|---|
| ① 训练 / 蒸馏 | 最成熟、论文最密集 | 重心从"蒸馏 CoT 推理"转向"蒸馏含工具调用的完整 agentic 轨迹";从 off-policy 模仿转向 on-policy 纠错(SFT+RL) | 1.5B 学生 ≈ 3B、7B 学生 > 32B 教师;SCoRe 7B ≈ 72B |
| ② 多智能体协作 | 结论被"证伪式修正" | 小模型组队可超过大数倍单体模型,但关键变量是编排器能力而非子智能体规模;纯辩论近乎无效 | 8B 系统 AIME 55 vs 32B 的 45;投票贡献几乎全部增益 |
| ③ 端侧部署 | 窄域可落地,通用待端云协作 | 函数调用类已能超 GPT-4 且 1–3s 延迟;长程导航/硬件功耗是硬约束 | Octopus v2(2B)99.5%;TinyAgent 超 GPT-4-Turbo |
| ④ 领域专用 | 性价比最高、最易出成果 | 窄域微调 + 工具外接反复出现"小超大";强依赖教师/专家、易过拟合 | CyberPal-20B 超 GPT-4o;SWE-Protégé-7B 超 32B |
1 引言:方向定义与研究框架
1.1 什么是"小模型 agent"
"小模型 agent" 指以小语言模型(SLM)作为决策大脑、通过工具调用 / 规划 / 多步交互完成任务的智能体系统,其反面是当前主流的"用前沿大模型(GPT-4o / Claude / Gemini 级)驱动 agent"。
关于 SLM 的定义,本方向最具影响力的立场论文——NVIDIA《Small Language Models are the Future of Agentic AI》(arXiv:2506.02153)——刻意不用固定参数阈值,而以硬件 / 延迟定义:"能装入普通消费级电子设备、且以足够低的延迟服务单个用户 agentic 请求的语言模型"。作为年份相关的经验阈值,作者写道"截至 2025 年,可将 100 亿参数(10B)以下的多数模型视作 SLM"。不同综述对边界略有放宽(如 1–12B,偶尔上探 20B)。本报告采用"≤约 10B 为主、个别工作上探 24B"的宽口径。
1.2 为什么值得关注:NVIDIA 立场论文的三大支柱
| 支柱 | 主张 | 关键依据 |
|---|---|---|
| V1 能力足够 | SLM 已足以处理 agent 中绝大多数语言子任务 | "约束是能力而非参数量";Phi-2(2.7B) 推理/代码比肩 30B 且快 ~15×;DeepSeek-R1-Distill-Qwen-7B 在推理上超过 Claude-3.5-Sonnet 与 GPT-4o;xLAM-2-8B 工具调用 SOTA |
| V2 更适配 | agent 任务多为重复、范围窄、非对话的"小活儿",看重可靠性/格式一致性而非创造力,小模型更易微调对齐 | 可固定 JSON Schema 与字段顺序;LoRA 可"一夜"修正行为 |
| V3 更经济 | 服务 7B 比 70–175B 便宜 10–30×(延迟/能耗/FLOPs) | 微调仅需"数个 GPU 小时";可在消费级 GPU/设备本地部署 |
论文进一步主张:当确需通用对话能力时,异构 agent 系统(同一系统大小模型混调)是自然形态,并给出一套六步 LLM→SLM 转换算法(图 7)。其案例研究估计 MetaGPT 约 60%、Open Operator 约 40%、Cradle 约 70% 的 LLM 调用可由专用 SLM 可靠替代。
1.3 检索范围与方法
本报告通过扇出式网络检索 + 对 arXiv 原始页面(/abs/、/pdf/、/html/)逐篇抓取完成,重点覆盖 2025–2026 年预印本,并保留少数奠基性的 2024 年工作(TinyAgent、Octopus v2、Mixture-of-Agents 等)。对每篇关键论文提取:模型规模、训练范式、数据构造、benchmark 与具体数字、局限。下文按四个子方向展开,每个方向配一张框图。
2 方向一:大模型 agent 能力的蒸馏与微调
这是论文最密集、技术最成熟的子方向。核心问题:如何把强 LLM agent 的"完整任务求解能力"(含工具调用、检索、代码执行、推理)转移到小模型上。图 2 概括了从 off-policy 模仿到 on-policy 纠错的两类范式。
2.1 代表性方法与设定
(1) Agent Distillation(arXiv:2505.17612,NeurIPS 2025 Spotlight)
核心思想是不只蒸馏 CoT,而是蒸馏含检索 + 代码工具调用的完整 Thought–Action–Observation 轨迹。Teacher = Qwen2.5-32B-Instruct,Student = Qwen2.5 系列 0.5B / 1.5B / 3B / 7B。两项关键技术:① First-thought Prefix(FTP)——用 CoT 第一步作为 agent 首个 thought 的前缀,提升教师轨迹质量(仅用于造数据);② Self-consistent Action Generation(SAG)——测试时生成多个候选 action 并保留与观测一致者,降低无效代码。训练数据仅 1000 条 HotpotQA + 2000 条 MATH。结果:32B→1.5B 蒸馏 agent 在 8 个事实/数学基准上平均分 30.55(vs 1.5B CoT+RAG 的 24.6),并呈现清晰"越级"规律:0.5B agent ≈ 1.5B CoT 模型、1.5B ≈ 3B、3B > 7B CoT、7B > 32B CoT。
(2) AgentDistill(arXiv:2506.14728)
Training-Free(无需训练)蒸馏:不重放教师轨迹,而是复用教师 agent 自主生成的可复用任务求解模块 MCP(Model-Context-Protocol),固化为 MCP-Box 挂载到学生。Game of 24 上 GPT-3.5-turbo 34.3%→82.7%、LLaMA3.1-8B 21.7%→64%;医学 VQA(SLAKE)装备 MCP 的学生达 65.1%,逼近 GPT-4o 系统(66%)。增益高度依赖任务可模块化程度。
(3) AdvDistill — Reward Guided Dataset Distillation(arXiv:2507.00054)
奖励引导的数据集蒸馏:教师对每个 prompt 生成多条回答,用 rule-based verifier 给奖励,奖励作为学生训练时的样本权重,突破"学生只复制教师 in-distribution 回答"的局限。在数学与复杂推理上显著优于普通 KD,但依赖可验证信号。
(4) Fine-tuning with RAG(arXiv:2510.01375,ICLR 2026 在审)
把推理时检索内化为模型能力:从 agent 失败中抽取紧凑 hints → 用 hints 生成更好的教师轨迹 → 训练时去掉 hint 字符串强制学生内化。跨 7B/14B、跨 ReAct/StateAct 架构验证:ALFWorld 成功率最高 91%(基线 79%)、WebShop 提升到 72(基线 61),且比 RAG 教师少用 10–60% tokens。
(5) SCoRe — Reinforced Distillation of LLM Agents(arXiv:2509.14257)
以学生为中心的蒸馏:不让学生模仿完整教师轨迹(会因 teacher-student gap 误差累积),而是让学生自跑、教师只纠正最早出错的那一步。两阶段 = 纠正轨迹上 SFT + 从最早错误前缀起的短时域 RL。结果:12 个挑战性基准上,7B 学生匹配 72B 教师的 agentic 性能。
(6) SOD — Step-wise On-policy Distillation(arXiv:2605.07725,腾讯)
针对工具集成推理(TIR)的 on-policy 蒸馏。发现普通 OPD 的失败模式——错误工具调用会跨步级联放大 student–teacher 散度——故按步级散度自适应重加权蒸馏强度(高散度处削弱教师信号),结合 GRPO。结果:数学/科学/代码基准最高提升 20.86%;0.6B 学生在 AIME 2025 上达 26.13%。
(7) MoRAgent — PEFT with Mixture-of-Roles(arXiv:2512.21708)
LoRA/PEFT 用于 agent 的代表作:把 agent 能力按 Reason+Action 分解为 reasoner / executor / summarizer 三个角色,对应三组专门 LoRA 协作,配套多角色数据生成与验证 pipeline。
(8) CMAT / TinyAgent(arXiv:2404.01663)
较早期(2024)的多智能体协作微调:基于环境反馈的自适应权重更新 + 长期记忆。TinyAgent-7B 性能与 GPT-3.5 相当(AgentBench OS 任务 41.3 vs GPT-3.5 的 15.7)。
(9) EffGen — SLM 原生 agent 框架(arXiv:2602.00887,ICML 2026)
面向 SLM 的原生 agent 框架(非蒸馏,但与训练方法互补):prompt 压缩平均 57%(最高 70–80%)。关键观察是框架优化对小模型增益更大——1.5B 模型经 EffGen 提升 11.2% 并超过 LangChain/AutoGen/Smolagents,而 32B 仅提升 2.4%。提示在小模型上,"系统/框架"与"模型本身"同等重要。
2.2 共性技术趋势
| 趋势 | 说明 | 代表工作 |
|---|---|---|
| 蒸馏对象升级 | 从"蒸馏 CoT 推理"到"蒸馏含工具调用/检索/代码执行的完整 agentic 行为" | 2505.17612 / 2506.14728 / 2509.14257 |
| 轨迹质量工程化 | 轨迹质量 > 数量;FTP 前缀、奖励加权多采样、失败抽 hint、多角色补全,均为解决分布失配 | 2505.17612 / 2507.00054 / 2510.01375 |
| off → on-policy | 直接模仿完整轨迹会误差级联;新范式让学生自跑、教师只纠最早错误或按步级散度加权,并普遍 SFT+RL | 2509.14257 / 2605.07725 |
| 学生可极小 | 学生下探 0.5B/0.6B;分类/工具调用任务甚至 135M/350M | 2505.17612 / 2605.07725 / 2512.15943 |
| 成本两极化 | 一端 Training-Free(零训练),一端 on-policy RL(重但好);LoRA/PEFT 成落地标配 | 2506.14728 / 2512.21708 |
2.3 局限与失败模式
误差级联(compounding errors)是头号失败模式——小模型一步工具调用出错会沿轨迹放大。其余:增益高度任务依赖(结构化/可验证任务增益巨大,开放式/in-domain 任务有限甚至退化);强依赖教师选择;依赖可验证信号(rule-based verifier 或可定位"最早错误步");代码/工具动作有效性随规模下降(需 SAG 等补救);泛化与评测范围窄(多数仅 1–2 个域/基准验证)。
3 方向二:小模型多智能体协作
核心问题:多个小模型协作能否逼近/超过单个大模型?2025–2026 的证据呈现"乐观主张 + 系统性证伪"的张力。综合结论:能,但前提是 (a) 任务可分解、可调工具;(b) 有足够强的编排器做规划;(c) 用集成/投票或异构组队,而非寄望纯辩论的"涌现智能"。图 3 给出最具代表性的架构与关键发现。
3.1 关键证据
(1) Can Small Agents Collaborate to Beat a Single LLM?(arXiv:2601.11327)
最贴题、最新的对照研究(阿姆斯特丹大学等)。全部用 Qwen3 系列(1.7B–32B):8B 编排器 + 3 个专长子智能体,纯推理无微调,对手为 32B 单模型(带工具)。
| 基准 | 8B 多智能体系统 | 32B 单模型 + 工具 | 说明 |
|---|---|---|---|
| GAIA(端到端工具使用) | 23.0 | 23.0 | 打平 |
| AIME(数学) | 55.0 | 45.0 | 系统胜 +10 |
| GPQA Diamond(研究生科学) | 58.6 | 60.1 | 略低 |
| MuSiQue(多跳检索) | 14.0 | 15.0 | 略低 |
| HLE(前沿专家知识) | ~4.0 | ~4.0 | 均未攻克 |
最重要发现见图 3:"规划受限,而非执行受限"——投资编排器推理的收益 > 投资子智能体规模,且多智能体在成本上反而更优。
(2) Mixture-of-Agents(arXiv:2406.04692)
"弱模型层层聚合 > 单个最强模型"的经典证据:仅用开源模型的 MoA 在 AlpacaEval 2.0 上 65.1% vs GPT-4 Omni 57.5%。其改进与质疑见 Attention-MoA(2601.16596)与 Rethinking MoA(2502.00674,质疑"混不同 LLM 是否真有益")。
(3) CMAT / TinyAgent(arXiv:2404.01663)
协作式微调把 7B 抬到 GPT-3.5 档位(对比对象是 GPT-3.5 而非最强模型)。
3.2 辩论的祛魅:投票 vs 辩论
Stop Overvaluing Multi-Agent Debate(arXiv:2502.08788):系统评测 5 种 MAD × 9 基准 × 4 基座,发现 MAD 常打不过单智能体的 CoT/Self-Consistency,却耗费多得多算力;模型异构性是普遍有效的"解药"。Debate or Vote(arXiv:2508.17536,NeurIPS 2025 Spotlight):把 MAD 拆为"多数投票"与"辩论",证明多数投票贡献几乎全部增益;并从理论上证明辩论在信念轨迹上构成鞅(martingale),即纯辩论不提升期望正确率。
3.3 局限
编排器是单点瓶颈(系统"规划受限");子智能体思考/智能体间通信会显著抬高延迟与 token;多跳任务存在错误传播;MAD 文献普遍基准窄、基线弱、设置不一致;核心对照仅用单一模型家族、仅推理/知识任务;多数投票在"全体共享偏见或正确答案是少数意见"时失灵。
4 方向三:端侧 / 本地 / 边缘部署
核心问题:小模型 agent 能否真正跑在手机/笔记本/边缘设备上?结论:窄域、任务专一的函数调用类 agent 已可落地,且能达到/超过 GPT-4 级准确率;但长程多步推理/导航、开放域规划仍做不到,硬件内存/功耗/发热是硬约束。主流落地路线是 SLM 默认执行 + 云端 LLM 兜底(device-cloud collaboration),见图 4。
4.1 端侧 agent 框架与函数调用(可行性证明)
| 工作 | 模型 / 硬件 | 方法 | 关键数字 |
|---|---|---|---|
| TinyAgent(2409.00608,UC Berkeley) | 1.1B/7B · MacBook M3 | LoRA + Tool RAG(DeBERTa 筛工具)+ 4-bit 量化 | 成功率 1.1B 80.06%、7B 84.95%,均 > GPT-4-Turbo 79.08%;4-bit 后 2.9s/0.68GB |
| Octopus v2(2404.01744,Nexa AI) | 2B(Gemma)· Android 手机 | functional token(函数→单 token,上下文减 95%) | 准确率 99.524% > GPT-4 的 98.571%;端侧 1.1–1.7s/次,比 7B+RAG 快 35× |
| TinyLLM(2511.22138) | SLM 在 BFCL 上系统评测 | 对比 SFT/PEFT/RL/DPO 混合 | 1–3B 显著优于 <1B;最佳混合整体 65.74%、多轮 55.62% |
4.2 手机 GUI agent(把"操作手机的 agent"跑在端侧)
Ferret-UI Lite(2509.26539,Apple):3B 端到端多模态 GUI agent,SFT+RLVR(GRPO)。Grounding 强(ScreenSpot-V2 91.6),但导航弱——AndroidWorld 28.0%、OSWorld 17.3%→19.8%(对比 Claude-4-Sonnet 约 43.9%)。论文明说长程导航/推理是最大短板,且未给端侧硬件实测。LightAgent / OpenPhone(2510.22009):device-cloud 协作,端侧 Qwen2.5-VL-3B(两阶段 SFT→GRPO),实时复杂度评估后把困难子任务上交云端;论文直陈困境——≤4B 性能不足、≥7B 对手机太大太贵。
4.3 推理优化与硬件实测
| 工作 | 关键技术 | 实测数字 |
|---|---|---|
| mllm-NPU(2407.05858) | 手机 NPU 卸载(高通 Hexagon) | 十亿级模型 prefill >1000 tokens/s;prefill 快 22.4×、省电 30.7× |
| QuantSpec(2502.10424,ICML'25) | 自推测解码 + 4-bit 量化 KV cache | 接受率 >90%;端到端约 2.5× 加速 |
| Edge SLM CPU/GPU/NPU(2511.22334) | 三类后端能效对比 | NPU 以大幅优势夺最高性能/能效(EDP) |
| Agent.xpu(2506.24045,北大/港大) | 异构 SoC(Intel Core Ultra)调度,3B/8B | 亚 100ms 抢占;reactive 延迟降 91–97%;0.30 J/token |
| PalmBench(2410.05315) | 量化 LLM 手机基准 | iPhone 16 Pro 跑 Qwen2.5-1.5B(4-bit) ~23.7 tok/s;Galaxy S24 Ultra ~10 tok/s |
5 方向四:领域专用 / 垂直领域小模型 agent
核心问题:针对特定领域微调的小模型 agent 表现如何,为何垂直领域适合小模型?图 5 给出该方向通用的"教师合成数据 + 工具外接"闭环配方。
5.1 代表性工作
| 领域 | 工作 | 模型 | 关键数字 |
|---|---|---|---|
| 基因组学 | Nano Bio-Agents(2509.19566) | 3–10B + NCBI/AlphaGenome | GeneTuring 最佳 98%,3–10B 稳定 85–97%,多数任务追平/超大模型方法 |
| 网络安全(情报/调查) | CyberPal 2.0(2510.14113,IBM) | 4B–20B + SecKnowledge 2.0 | 威胁调查 20B 超 GPT-4o、o1、o3-mini 排第一,4B 排第二 |
| SOC 日志查询 | SOC NL→KQL(2512.06660) | DeepSeek Coder 6.7B + Oracle | 两阶段语法 0.987/语义 0.906,比 Gemini 2.0 Flash 方案省 10–15× |
| 钓鱼短信检测 | Agentic KD(2602.10869) | Qwen2.5-0.5B / SmolLM2-135M,LoRA | 最佳 94.31% acc / 96.25% recall;闭环反馈是关键(vs DPO 50–80%) |
| 软件工程 | SWE-Protégé(2602.22124,Meta) | Qwen2.5-Coder 7B + 稀疏专家求助 | SWE-bench Verified 42.4% Pass@1,超 32B(40.2%);成本省 4–8× |
| 代码 agent | Devstral(2509.25193,Mistral) | 24B | "100B 以下最佳代码 agent",对比大一个数量级模型仍有竞争力 |
| 工具调用 | OPT-350M(2512.15943,AWS,AAAI'26) | 350M,SFT 1 epoch | ToolBench pass rate 77.55%(过拟合警示) |
5.2 为什么垂直领域适合小模型
① "窗口内更锋利"胜过"通用更博学"——领域任务空间窄,3–7B 微调后常超过零样本前沿大模型;通用大模型多数参数被"稀释"于无关知识。② 工具外接补足知识短板——靠任务分解 + 工具/API 调用获取权威事实,直接压制幻觉。③ 结构化输出天然适配。④ 成本/延迟/隐私/端侧——满足金融/安全/医疗的数据保密与实时需求。⑤ 数据稀缺有解——强 LLM 当教师自主合成 + 闭环蒸馏/拒绝采样 + 专家在环,绕开昂贵人工标注。
5.3 局限
强依赖教师/专家前沿大模型(本质是把成本/能力转移到训练或在线协作阶段,而非摆脱大模型);领域泛化弱、易过拟合评测口径;长程鲁棒性差(需反死循环、外接 Oracle);微调未必优于提示/RAG(SOC 论文中 LoRA 反而不如精心提示);部分论文评测严谨性参差、表述夸张。
6 评测、基准与指标
该方向的一个系统性弱点是评测尚不成熟:通用 benchmark 衡量的是通用能力,而 agent 实用性需要新的指标。综述(2510.03847)提出以"SLM 默认 + LLM 兜底 + 不确定性路由 + 验证器级联"为工程范式,并主张用面向实用性的新指标取代通用分数。
| 类别 | 常用基准 / 指标 |
|---|---|
| 工具/函数调用 | ToolBench、Berkeley Function Calling Leaderboard (BFCL)、API-Bank |
| 数学/推理 | GSM-Hard、MATH500、AIME 2025、Game of 24、OlympiadMath、GPQA Diamond |
| 事实/多跳 | HotpotQA、MuSiQue、2WikiQA、Bamboogle |
| 交互 / 长程 | GAIA、HLE、ALFWorld、WebShop、AgentBench |
| GUI agent | ScreenSpot-V2/Pro、AndroidWorld、OSWorld、Android Control |
| 软件工程 | SWE-bench Verified |
| 领域 | GeneTuring(基因组)、SLAKE/PathVQA(医学 VQA)、KQL 语法/语义分 |
| 实用性新指标 | CPS(每成功任务成本)、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗、J/token |
7 横向对比与时间线
7.1 关键论文一览
| 子方向 | 论文 | 规模 | 关键结果 | arXiv |
|---|---|---|---|---|
| 立场/框架 | SLM are the Future of Agentic AI | 定义 <10B | 7B 比 70–175B 便宜 10–30×;40–70% 调用可替代 | 2506.02153 |
| 蒸馏 | Agent Distillation (NeurIPS'25) | 0.5–7B | 1.5B≈3B CoT;7B>32B CoT | 2505.17612 |
| 蒸馏 | SCoRe | 7B | 7B 匹配 72B 教师(12 基准) | 2509.14257 |
| 蒸馏 | SOD (on-policy) | 0.6B | AIME 2025 26.13%;+20.86% | 2605.07725 |
| 蒸馏 | Fine-tuning with RAG (ICLR'26) | 7B/14B | ALFWorld 91%、省 10–60% token | 2510.01375 |
| 多智能体 | Can Small Agents Beat a Single LLM? | 1.7–32B | 8B 系统 AIME 55 vs 32B 的 45;快 4.2× | 2601.11327 |
| 多智能体 | Mixture-of-Agents | 开源组队 | AlpacaEval 65.1% vs GPT-4o 57.5% | 2406.04692 |
| 多智能体 | Debate or Vote (NeurIPS'25) | — | 投票贡献全部增益;辩论=鞅 | 2508.17536 |
| 端侧 | TinyAgent | 1.1B/7B | 成功率 80–85% > GPT-4-Turbo 79% | 2409.00608 |
| 端侧 | Octopus v2 | 2B | 99.524% > GPT-4;端侧 1.1–1.7s | 2404.01744 |
| 端侧 | Agent.xpu | 3B/8B | 0.30 J/token;亚 100ms 抢占 | 2506.24045 |
| 领域 | Nano Bio-Agents(基因组) | 3–10B | GeneTuring 98% | 2509.19566 |
| 领域 | CyberPal 2.0(安全) | 4–20B | 20B 威胁调查超 GPT-4o/o1 | 2510.14113 |
| 领域 | SWE-Protégé(软工) | 7B | SWE-bench 42.4% > 32B;省 4–8× | 2602.22124 |
| 领域 | OPT-350M tool calling (AAAI'26) | 350M | ToolBench 77.55%(过拟合警示) | 2512.15943 |
7.2 关键论文时间线
7.3 NVIDIA 的 LLM→SLM 六步转换算法
8 方向潜力评估
8.1 技术可行性分级
8.2 经济性(方向最强的卖点)
经济性证据高度一致且显著:推理成本 7B vs 70–175B 便宜 10–30×;token 成本可低 10–100×;微调从"数周"降到"数 GPU 小时";端侧部署消除云推理成本与数据出域风险;垂直 agent 单任务成本省 4–8×。这是该方向确定性最高的红利。
8.3 潜力评分
8.4 主要风险
| 风险 | 说明 |
|---|---|
| 能力来自系统而非模型 | 多智能体增益主要源于编排器;"换上 SLM"≠自动变好,需可观工程(路由、验证器、微调数据) |
| 幻觉随规模缩小加重 | agent 链式调用放大错误(误差级联是头号失败模式) |
| 强依赖教师/专家 | 成本/能力被转移到训练或在线协作阶段,而非摆脱大模型;换教师结果大幅波动 |
| 泛化与过拟合 | 窄域微调易过拟合评测口径;API/威胁/库演进需频繁重训 |
| 评测不可靠 + 立场偏置 | 基准窄、基线弱;旗舰立场论文有 vendor interest;部分论文表述夸张 |
| 硬件物理约束 | 端侧内存/功耗/发热限制持续推理与模型规模 |
| 前沿 LLM 也在变小变便宜 | 蚕食 SLM 的相对成本优势,是方向的外部威胁 |
8.5 趋势研判(未来 12–24 个月)
① 蒸馏全面转向 on-policy / 学生中心 + SFT-RL 混合;② 异构 agent 系统(SLM 默认、LLM 稀疏兜底)成为工程默认;③ 端云协作 + 端侧 NPU 推理(Agent.xpu 类异构 SoC 调度)成主流端侧形态;④ 垂直领域"教师合成数据 + 专家在环 + 工具外接"配方被快速复制;⑤ 面向 agent 实用性的新基准/指标(CPS 等)取代通用 benchmark——这本身可能改变"SLM 是否够用"的结论。
9 落地决策与选型
图 10 给出一个把 agent 子任务映射到"该用 SLM 还是 LLM、怎么用"的实用决策流程。
10 研究空白与选题建议
| 方向 | 开放问题 |
|---|---|
| 降低教师依赖 | 几乎所有蒸馏/协作都把成本转移给强 LLM。"弱教师/无教师/自举式"agent 蒸馏是高价值开放问题 |
| 小模型的长程能力 | 长程规划/导航是一致天花板。面向小模型的记忆、回溯、子目标分解、错误恢复机制值得专攻 |
| 端侧 GUI agent 实测 | 现有 3B GUI agent 论文几乎都缺端侧延迟/内存/功耗实测,是明显空白 |
| 编排器理论与自动化 | "规划受限"意味着编排器是杠杆;其训练、规模律、与子智能体的协同分配缺乏系统理论 |
| 标准化 SLM-agent 评测 | 建立面向实用性(CPS、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗)的标准评测,可能重塑全方向结论 |
| 跨域泛化 | 把窄域微调的小 agent 推广到多域而不过拟合,是落地的关键瓶颈 |
结论
"小模型 agent" 是一个经济性红利确定、工程可行性高、但基础能力边界清晰的方向。它最稳妥的价值不在于"用小模型替代大模型做一切",而在于异构系统中的角色分工——让 3–8B(乃至 0.5B)的专用小模型承担 agent 中大量重复、结构化、可工具化的"小活儿",把昂贵的前沿大模型留给规划、兜底与跨域推理。对研究者而言,训练方法(on-policy 蒸馏、PEFT)与领域专用 agent 是最易出成果的切入点;多智能体协作的"编排器主导"与端侧的"长程能力/硬件实测"则是更难但更有原创空间的硬骨头。最大的认知陷阱是:把系统/编排/教师带来的增益误记为小模型本身的能力——这也是评估任何"小模型 agent"成果时应首先追问的问题。
11 术语表
| 术语 | 含义 |
|---|---|
| SLM | Small Language Model,小语言模型;本方向多指 ≤约 10B(个别上探 24B),或"能在消费级设备低延迟服务单用户"的模型 |
| agentic trajectory | agent 求解轨迹,通常为 Thought(思考)→ Action(工具/检索/代码调用)→ Observation(观测)的序列 |
| off-policy / on-policy 蒸馏 | 前者让学生模仿教师生成的轨迹;后者让学生先自跑、再由教师纠错,缓解分布失配与误差级联 |
| FTP / SAG | First-thought Prefix(用 CoT 首步作前缀提升教师轨迹质量)/ Self-consistent Action Generation(测试时多候选取一致动作) |
| MCP-Box | AgentDistill 中可复用的模块化任务求解单元(Model-Context-Protocol),训练-free 挂载到学生 |
| LoRA / QLoRA / DoRA / PEFT | 参数高效微调技术,只训练少量低秩/旁路参数,几个 GPU 小时即可特化小模型 |
| SFT / RL / GRPO / RLVR | 监督微调 / 强化学习 / Group Relative Policy Optimization / 带可验证奖励的 RL |
| RAG | 检索增强生成;本方向出现"把 RAG 内化进模型"的蒸馏变体 |
| KV cache / 推测解码 / 量化 | 端侧推理优化:缓存注意力键值、用小草稿模型加速、降精度(4-bit 等)压缩内存与算力 |
| NPU / EDP / J/token | 神经网络处理器 / 能量-延迟积 / 每 token 能耗,端侧能效核心指标 |
| CPS | Cost Per Successful task,每成功任务成本——面向 agent 实用性的新评测指标 |
| orchestrator | 编排器/规划器,多智能体系统中负责任务分解、工具选择与子智能体调度的核心 |
| MoA / MAD | Mixture-of-Agents(多智能体分层聚合)/ Multi-Agent Debate(多智能体辩论) |
| device-cloud collaboration | 端云协作:端侧 SLM 默认执行,复杂子任务路由到云端 LLM 兜底 |
| function/tool calling | 函数/工具调用:模型按结构化格式选择并调用外部工具/API,是 SLM 最擅长的 agent 能力 |
12 参考文献(全部为可核实 arXiv 链接)
立场与综述
- Small Language Models are the Future of Agentic AI (NVIDIA). arxiv.org/abs/2506.02153 | 勘误页 correspondence
- Small Language Models for Agentic Systems: A Survey. 2510.03847
- A Survey on Collaborating Small and Large Language Models. 2510.13890
- A Comprehensive Survey of Small Language Models (KDD'25). 2411.03350
- On-Device Language Models: A Comprehensive Review. 2409.00088
- Cognitive Edge Computing: A Comprehensive Survey. 2501.03265
训练方法(蒸馏/微调)
- Distilling LLM Agent into Small Models with Retrieval and Code Tools (NeurIPS'25 Spotlight). 2505.17612
- AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes. 2506.14728
- Enhancing Reasoning in SLMs with Reward Guided Dataset Distillation (AdvDistill). 2507.00054
- Fine-tuning with RAG for Improving LLM Learning of New Skills (ICLR'26). 2510.01375
- SCoRe: Reinforced Distillation of LLM Agents. 2509.14257
- SOD: Step-wise On-policy Distillation for Small Language Model Agents. 2605.07725
- MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles. 2512.21708
- CMAT: A Multi-Agent Collaboration Tuning Framework (TinyAgent). 2404.01663
- EffGen: Efficient Agent Framework for Small Language Models (ICML'26). 2602.00887
多智能体协作
- Can Small Agents Collaborate to Beat a Single Large Language Model? 2601.11327
- Mixture-of-Agents Enhances Large Language Model Capabilities. 2406.04692
- Stop Overvaluing Multi-Agent Debate. 2502.08788
- Debate or Vote: Which Yields Better Decisions in Multi-Agent LLMs? (NeurIPS'25 Spotlight). 2508.17536
- Rethinking Mixture-of-Agents: Is Mixing Different LLMs Beneficial? 2502.00674
- Attention-MoA: Enhancing Mixture-of-Agents. 2601.16596
端侧 / 边缘部署
- TinyAgent: Function Calling at the Edge. 2409.00608
- Octopus v2: On-device language model for super agent. 2404.01744
- TinyLLM: Evaluation and Optimization of SLMs for Agentic Tasks on Edge. 2511.22138
- Ferret-UI Lite: Building Small On-Device GUI Agents (Apple). 2509.26539
- LightAgent: Mobile Agentic Foundation Models. 2510.22009
- mllm-NPU: 1000 tokens/second on-device LLM prefilling. 2407.05858
- QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache (ICML'25). 2502.10424
- Edge Deployment of SLMs: CPU vs GPU vs NPU. 2511.22334
- Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC. 2506.24045
- PalmBench: Benchmark of Compressed LLMs on Mobile Platforms. 2410.05315
领域专用小 agent
- Nano Bio-Agents (NBA): SLM Agents for Genomics. 2509.19566
- Toward Cybersecurity-Expert Small Language Models (CyberPal 2.0). 2510.14113
- Towards SLMs for Security Query Generation in SOC Workflows. 2512.06660
- Agentic Knowledge Distillation: SLMs for SMS Threat Detection. 2602.10869
- SWE-Protégé: Selectively Collaborate With an Expert as SE Agents. 2602.22124
- Devstral: Fine-tuning Language Models for Coding Agent Applications. 2509.25193
- Small Language Models for Efficient Agentic Tool Calling (AAAI'26). 2512.15943
说明:报告中标注的"NeurIPS'25 / ICLR'26 / ICML'25 / AAAI'26"为各论文自述的投稿/接收状态;2026 年编号(26xx.xxxxx)预印本为非常新的工作,部分尚未同行评审,结论宜审慎引用。个别论文(如 OPT-350M tool calling)表述偏营销化,引用其具体数字前建议回原文核对版本与口径。本报告由自动化检索 + 多源抓取核实生成,可作为方向综述与选题起点,不构成对任何论文结论的背书。