小模型 Agent 研究综述 v2 · 2026-06

小模型 Agent(Small Language Model Agents)
方向研究综述与潜力评估

面向研究者的技术报告 · 含框图 · 检索窗口 2024–2026(聚焦 2025–2026 最新预印本)
编制日期:2026 年 6 月
训练/蒸馏 多智能体协作 端侧部署 领域专用 潜力评估 36+ 篇 arXiv 引用

本报告系统检索并核实"小语言模型(SLM)作为智能体(agent)"方向的最新论文,逐篇分析方法设定与关键实验数字,配以 10 张框图,并对方向潜力做出评估。所有 arXiv 编号、标题、关键数字均经抓取核实;对极新预印本、立场性论文与表述偏夸张的工作均已标注,引用前请回原文复核。

执行摘要

一句话结论:"小模型 agent" 不是单一技术,而是一束相互支撑的方向。在可分解、可调用工具、输出结构化、领域窄的任务上,3–8B 乃至 0.5B 级别的小模型经恰当蒸馏/微调,已能匹配甚至超过大其 4–100 倍的模型,且在成本、延迟、隐私、端侧部署上具备数量级优势;但在长程规划、开放域推理、跨域泛化上仍系统性落后,且能力增益很大程度来自编排 / 工程 / 教师模型而非小模型本身。因此该方向是"工程与系统驱动的高确定性红利 + 基础能力受限的明确边界"并存。

下图给出全方向的总览与四个子方向的关系。

小模型 Agent SLM as Agent(≤约 10B 为主) ① 训练 / 蒸馏 · 蒸馏完整 agentic 轨迹 · off-policy → on-policy · SFT + RL(GRPO) · LoRA / PEFT 标配 学生 0.5–7B; 7B 可达 72B 教师水平 ② 多智能体协作 · 编排器主导(planner) · 投票/集成 > 纯辩论 · 模型异构是关键 8B 系统可平/超 32B 单模型,且更省 ③ 端侧 / 边缘 · 函数调用已可落地 · 量化 / NPU / KV cache · 端云协作为主流 手机端 1–3s/次; 长程导航仍弱 ④ 领域专用 · "窗口内更锋利" · 工具外接压制幻觉 · 教师合成数据 基因组/安全/软工/ 工具调用,性价比最高 贯穿全方向的四条主线 异构系统(SLM 默认执行 + LLM 稀疏兜底) · 成本-性能数量级优势(10–30× 推理、10–100× token) 长程 / 开放域是一致能力天花板 · 评测标准尚不成熟(基准窄、基线弱、口径不一)
图 1 小模型 Agent 方向总览:四个子方向与四条贯穿主线

四个子方向的核心判断

子方向成熟度核心判断标志性结果
① 训练 / 蒸馏最成熟、论文最密集重心从"蒸馏 CoT 推理"转向"蒸馏含工具调用的完整 agentic 轨迹";从 off-policy 模仿转向 on-policy 纠错(SFT+RL)1.5B 学生 ≈ 3B、7B 学生 > 32B 教师;SCoRe 7B ≈ 72B
② 多智能体协作结论被"证伪式修正"小模型组队可超过大数倍单体模型,但关键变量是编排器能力而非子智能体规模;纯辩论近乎无效8B 系统 AIME 55 vs 32B 的 45;投票贡献几乎全部增益
③ 端侧部署窄域可落地,通用待端云协作函数调用类已能超 GPT-4 且 1–3s 延迟;长程导航/硬件功耗是硬约束Octopus v2(2B)99.5%;TinyAgent 超 GPT-4-Turbo
④ 领域专用性价比最高、最易出成果窄域微调 + 工具外接反复出现"小超大";强依赖教师/专家、易过拟合CyberPal-20B 超 GPT-4o;SWE-Protégé-7B 超 32B
潜力评分(本报告综合判断,1–5):技术可行性(窄任务)★★★★☆ / 技术可行性(通用长程)★★☆☆☆ / 经济性 ★★★★★ / 工程落地确定性 ★★★★☆ / 基础研究新颖度 ★★★☆☆ / 整体方向潜力 ★★★★☆。详见第 8 节

1 引言:方向定义与研究框架

1.1 什么是"小模型 agent"

"小模型 agent" 指以小语言模型(SLM)作为决策大脑、通过工具调用 / 规划 / 多步交互完成任务的智能体系统,其反面是当前主流的"用前沿大模型(GPT-4o / Claude / Gemini 级)驱动 agent"。

关于 SLM 的定义,本方向最具影响力的立场论文——NVIDIA《Small Language Models are the Future of Agentic AI》(arXiv:2506.02153)——刻意不用固定参数阈值,而以硬件 / 延迟定义:"能装入普通消费级电子设备、且以足够低的延迟服务单个用户 agentic 请求的语言模型"。作为年份相关的经验阈值,作者写道"截至 2025 年,可将 100 亿参数(10B)以下的多数模型视作 SLM"。不同综述对边界略有放宽(如 1–12B,偶尔上探 20B)。本报告采用"≤约 10B 为主、个别工作上探 24B"的宽口径。

1.2 为什么值得关注:NVIDIA 立场论文的三大支柱

支柱主张关键依据
V1 能力足够SLM 已足以处理 agent 中绝大多数语言子任务"约束是能力而非参数量";Phi-2(2.7B) 推理/代码比肩 30B 且快 ~15×;DeepSeek-R1-Distill-Qwen-7B 在推理上超过 Claude-3.5-Sonnet 与 GPT-4o;xLAM-2-8B 工具调用 SOTA
V2 更适配agent 任务多为重复、范围窄、非对话的"小活儿",看重可靠性/格式一致性而非创造力,小模型更易微调对齐可固定 JSON Schema 与字段顺序;LoRA 可"一夜"修正行为
V3 更经济服务 7B 比 70–175B 便宜 10–30×(延迟/能耗/FLOPs)微调仅需"数个 GPU 小时";可在消费级 GPU/设备本地部署

论文进一步主张:当确需通用对话能力时,异构 agent 系统(同一系统大小模型混调)是自然形态,并给出一套六步 LLM→SLM 转换算法(图 7)。其案例研究估计 MetaGPT 约 60%、Open Operator 约 40%、Cradle 约 70% 的 LLM 调用可由专用 SLM 可靠替代。

立场偏置提示:该文是立场论文(position paper)而非实证研究,作者主动征集反驳;第一作者团队属 NVIDIA(边缘/本地推理硬件利益相关方)。其官网公开的实质性批评目前很少——唯一公开往来是 Opplane 的 A. Novikov 指出论文低估了"推理型 LLM 作为 agent 替代品"的论点,Belcak 基本认同"reasoning 被过度推崇"。当前"争议"主要来自后续论文对其结论的限定(架构 > 规模、长程/幻觉短板),而非直接驳斥。引用其论断时应注意这一背景。

1.3 检索范围与方法

本报告通过扇出式网络检索 + 对 arXiv 原始页面(/abs/、/pdf/、/html/)逐篇抓取完成,重点覆盖 2025–2026 年预印本,并保留少数奠基性的 2024 年工作(TinyAgent、Octopus v2、Mixture-of-Agents 等)。对每篇关键论文提取:模型规模、训练范式、数据构造、benchmark 与具体数字、局限。下文按四个子方向展开,每个方向配一张框图。

2 方向一:大模型 agent 能力的蒸馏与微调

这是论文最密集、技术最成熟的子方向。核心问题:如何把强 LLM agent 的"完整任务求解能力"(含工具调用、检索、代码执行、推理)转移到小模型上。图 2 概括了从 off-policy 模仿到 on-policy 纠错的两类范式。

① off-policy 模仿(早期主流) 教师 LLM 32B / 72B 生成 agentic 轨迹 Thought → Action(工具/检索 /代码)→ Observation 数据工程 FTP 前缀 / 奖励加权 / 失败抽 hint / 多角色 学生 SLM 0.5–7B SFT 模仿轨迹 ② on-policy / 学生中心(SCoRe · SOD,新主流) 学生 SLM 自跑轨迹 (on-policy 采样) 教师只纠正 最早错误步 SFT + 短时域 RL (GRPO,步级加权) on-policy 循环:缓解误差级联与分布失配
图 2 agent 能力蒸馏的两类范式:off-policy 模仿(上)vs on-policy 学生中心纠错(下)

2.1 代表性方法与设定

(1) Agent Distillation(arXiv:2505.17612,NeurIPS 2025 Spotlight)

核心思想是不只蒸馏 CoT,而是蒸馏含检索 + 代码工具调用的完整 Thought–Action–Observation 轨迹。Teacher = Qwen2.5-32B-Instruct,Student = Qwen2.5 系列 0.5B / 1.5B / 3B / 7B。两项关键技术:① First-thought Prefix(FTP)——用 CoT 第一步作为 agent 首个 thought 的前缀,提升教师轨迹质量(仅用于造数据);② Self-consistent Action Generation(SAG)——测试时生成多个候选 action 并保留与观测一致者,降低无效代码。训练数据仅 1000 条 HotpotQA + 2000 条 MATH。结果:32B→1.5B 蒸馏 agent 在 8 个事实/数学基准上平均分 30.55(vs 1.5B CoT+RAG 的 24.6),并呈现清晰"越级"规律:0.5B agent ≈ 1.5B CoT 模型、1.5B ≈ 3B、3B > 7B CoT、7B > 32B CoT

(2) AgentDistill(arXiv:2506.14728)

Training-Free(无需训练)蒸馏:不重放教师轨迹,而是复用教师 agent 自主生成的可复用任务求解模块 MCP(Model-Context-Protocol),固化为 MCP-Box 挂载到学生。Game of 24 上 GPT-3.5-turbo 34.3%→82.7%、LLaMA3.1-8B 21.7%→64%;医学 VQA(SLAKE)装备 MCP 的学生达 65.1%,逼近 GPT-4o 系统(66%)。增益高度依赖任务可模块化程度。

(3) AdvDistill — Reward Guided Dataset Distillation(arXiv:2507.00054)

奖励引导的数据集蒸馏:教师对每个 prompt 生成多条回答,用 rule-based verifier 给奖励,奖励作为学生训练时的样本权重,突破"学生只复制教师 in-distribution 回答"的局限。在数学与复杂推理上显著优于普通 KD,但依赖可验证信号。

(4) Fine-tuning with RAG(arXiv:2510.01375,ICLR 2026 在审)

推理时检索内化为模型能力:从 agent 失败中抽取紧凑 hints → 用 hints 生成更好的教师轨迹 → 训练时去掉 hint 字符串强制学生内化。跨 7B/14B、跨 ReAct/StateAct 架构验证:ALFWorld 成功率最高 91%(基线 79%)、WebShop 提升到 72(基线 61),且比 RAG 教师少用 10–60% tokens

(5) SCoRe — Reinforced Distillation of LLM Agents(arXiv:2509.14257)

以学生为中心的蒸馏:不让学生模仿完整教师轨迹(会因 teacher-student gap 误差累积),而是让学生自跑、教师只纠正最早出错的那一步。两阶段 = 纠正轨迹上 SFT + 从最早错误前缀起的短时域 RL。结果:12 个挑战性基准上,7B 学生匹配 72B 教师的 agentic 性能。

(6) SOD — Step-wise On-policy Distillation(arXiv:2605.07725,腾讯)

针对工具集成推理(TIR)的 on-policy 蒸馏。发现普通 OPD 的失败模式——错误工具调用会跨步级联放大 student–teacher 散度——故按步级散度自适应重加权蒸馏强度(高散度处削弱教师信号),结合 GRPO。结果:数学/科学/代码基准最高提升 20.86%0.6B 学生在 AIME 2025 上达 26.13%

(7) MoRAgent — PEFT with Mixture-of-Roles(arXiv:2512.21708)

LoRA/PEFT 用于 agent 的代表作:把 agent 能力按 Reason+Action 分解为 reasoner / executor / summarizer 三个角色,对应三组专门 LoRA 协作,配套多角色数据生成与验证 pipeline。

(8) CMAT / TinyAgent(arXiv:2404.01663)

较早期(2024)的多智能体协作微调:基于环境反馈的自适应权重更新 + 长期记忆。TinyAgent-7B 性能与 GPT-3.5 相当(AgentBench OS 任务 41.3 vs GPT-3.5 的 15.7)。

(9) EffGen — SLM 原生 agent 框架(arXiv:2602.00887,ICML 2026)

面向 SLM 的原生 agent 框架(非蒸馏,但与训练方法互补):prompt 压缩平均 57%(最高 70–80%)。关键观察是框架优化对小模型增益更大——1.5B 模型经 EffGen 提升 11.2% 并超过 LangChain/AutoGen/Smolagents,而 32B 仅提升 2.4%。提示在小模型上,"系统/框架"与"模型本身"同等重要。

2.2 共性技术趋势

趋势说明代表工作
蒸馏对象升级从"蒸馏 CoT 推理"到"蒸馏含工具调用/检索/代码执行的完整 agentic 行为"2505.17612 / 2506.14728 / 2509.14257
轨迹质量工程化轨迹质量 > 数量;FTP 前缀、奖励加权多采样、失败抽 hint、多角色补全,均为解决分布失配2505.17612 / 2507.00054 / 2510.01375
off → on-policy直接模仿完整轨迹会误差级联;新范式让学生自跑、教师只纠最早错误或按步级散度加权,并普遍 SFT+RL2509.14257 / 2605.07725
学生可极小学生下探 0.5B/0.6B;分类/工具调用任务甚至 135M/350M2505.17612 / 2605.07725 / 2512.15943
成本两极化一端 Training-Free(零训练),一端 on-policy RL(重但好);LoRA/PEFT 成落地标配2506.14728 / 2512.21708

2.3 局限与失败模式

误差级联(compounding errors)是头号失败模式——小模型一步工具调用出错会沿轨迹放大。其余:增益高度任务依赖(结构化/可验证任务增益巨大,开放式/in-domain 任务有限甚至退化);强依赖教师选择依赖可验证信号(rule-based verifier 或可定位"最早错误步");代码/工具动作有效性随规模下降(需 SAG 等补救);泛化与评测范围窄(多数仅 1–2 个域/基准验证)。

3 方向二:小模型多智能体协作

核心问题:多个小模型协作能否逼近/超过单个大模型?2025–2026 的证据呈现"乐观主张 + 系统性证伪"的张力。综合结论:能,但前提是 (a) 任务可分解、可调工具;(b) 有足够强的编排器做规划;(c) 用集成/投票或异构组队,而非寄望纯辩论的"涌现智能"。图 3 给出最具代表性的架构与关键发现。

编排器 Orchestrator 规划器(planner),8B · 唯一读取记忆 结构化共享记忆 查询分析 / 历史 / 工具结果 / 子目标 Web Searcher 网络搜索 Coder 沙箱跑 Python File Inspector 解析 txt/CSV/PDF 通信受限:仅"编排器↔子智能体",子智能体间不通信 关键发现:规划受限,而非执行受限(planner-limited, not executor-limited) · 开编排器思考后,子智能体 1.7B→8B→32B,GAIA 几乎不变(23.0 / 23.0 / 23.6);扩子智能体规模 ≈ 无增益,甚至变差。 · 编排器思考 = 高价值(+0.6s,反而减少轮数);子智能体思考 = 高成本低价值(+6.1s ≈ +77% 延迟)。 · 成本:8B 多智能体延迟 7.9s(比 32B 单模型快 4.2×),token 省约 43%,工具调用少 32%,准确率相当。 · 辩论 vs 投票:多数投票贡献几乎全部增益;纯辩论是鞅过程,不提升期望正确率。
图 3 小模型多智能体协作架构(编排器 + 受限通信 + 共享记忆)与核心发现

3.1 关键证据

(1) Can Small Agents Collaborate to Beat a Single LLM?(arXiv:2601.11327)

最贴题、最新的对照研究(阿姆斯特丹大学等)。全部用 Qwen3 系列(1.7B–32B):8B 编排器 + 3 个专长子智能体,纯推理无微调,对手为 32B 单模型(带工具)。

基准8B 多智能体系统32B 单模型 + 工具说明
GAIA(端到端工具使用)23.023.0打平
AIME(数学)55.045.0系统胜 +10
GPQA Diamond(研究生科学)58.660.1略低
MuSiQue(多跳检索)14.015.0略低
HLE(前沿专家知识)~4.0~4.0均未攻克

最重要发现见图 3:"规划受限,而非执行受限"——投资编排器推理的收益 > 投资子智能体规模,且多智能体在成本上反而更优。

(2) Mixture-of-Agents(arXiv:2406.04692)

"弱模型层层聚合 > 单个最强模型"的经典证据:仅用开源模型的 MoA 在 AlpacaEval 2.0 上 65.1% vs GPT-4 Omni 57.5%。其改进与质疑见 Attention-MoA(2601.16596)与 Rethinking MoA(2502.00674,质疑"混不同 LLM 是否真有益")。

(3) CMAT / TinyAgent(arXiv:2404.01663)

协作式微调把 7B 抬到 GPT-3.5 档位(对比对象是 GPT-3.5 而非最强模型)。

3.2 辩论的祛魅:投票 vs 辩论

Stop Overvaluing Multi-Agent Debate(arXiv:2502.08788):系统评测 5 种 MAD × 9 基准 × 4 基座,发现 MAD 常打不过单智能体的 CoT/Self-Consistency,却耗费多得多算力;模型异构性是普遍有效的"解药"。Debate or Vote(arXiv:2508.17536,NeurIPS 2025 Spotlight):把 MAD 拆为"多数投票"与"辩论",证明多数投票贡献几乎全部增益;并从理论上证明辩论在信念轨迹上构成鞅(martingale),即纯辩论不提升期望正确率。

3.3 局限

编排器是单点瓶颈(系统"规划受限");子智能体思考/智能体间通信会显著抬高延迟与 token;多跳任务存在错误传播;MAD 文献普遍基准窄、基线弱、设置不一致;核心对照仅用单一模型家族、仅推理/知识任务;多数投票在"全体共享偏见或正确答案是少数意见"时失灵。

4 方向三:端侧 / 本地 / 边缘部署

核心问题:小模型 agent 能否真正跑在手机/笔记本/边缘设备上?结论:窄域、任务专一的函数调用类 agent 已可落地,且能达到/超过 GPT-4 级准确率;但长程多步推理/导航、开放域规划仍做不到,硬件内存/功耗/发热是硬约束。主流落地路线是 SLM 默认执行 + 云端 LLM 兜底(device-cloud collaboration),见图 4。

端侧 On-device 手机 / 笔记本 / NPU · SLM 1–7B ✓ 函数/工具调用 Octopus v2 99.5% · TinyAgent 80–85%(>GPT-4) ✓ 固定 GUI 序列 / 低层 grounding / 结构化输出 优化:4-bit 量化 · NPU 卸载 · 量化 KV cache mllm-NPU >1000 tok/s prefill · QuantSpec ~2.5× 优势:低延迟(1–3s) · 隐私/合规 · 离线 · 省电 Agent.xpu 0.30 J/token · 亚 100ms 抢占 复杂度 评估路由 困难子任务上交 云端 LLM 兜底 ✗ 长程多步规划 / GUI 导航 ✗ 开放域通用推理 ✗ 复杂错误处理 / 架构推理 ← 当前端侧可行 当前能力天花板 → 能力边界(device-cloud 的分工依据:≤4B 性能不足,≥7B 对手机太大太贵)
图 4 端云协作架构与端侧能力边界

4.1 端侧 agent 框架与函数调用(可行性证明)

工作模型 / 硬件方法关键数字
TinyAgent(2409.00608,UC Berkeley)1.1B/7B · MacBook M3LoRA + Tool RAG(DeBERTa 筛工具)+ 4-bit 量化成功率 1.1B 80.06%、7B 84.95%,均 > GPT-4-Turbo 79.08%;4-bit 后 2.9s/0.68GB
Octopus v2(2404.01744,Nexa AI)2B(Gemma)· Android 手机functional token(函数→单 token,上下文减 95%)准确率 99.524% > GPT-4 的 98.571%;端侧 1.1–1.7s/次,比 7B+RAG 快 35×
TinyLLM(2511.22138)SLM 在 BFCL 上系统评测对比 SFT/PEFT/RL/DPO 混合1–3B 显著优于 <1B;最佳混合整体 65.74%、多轮 55.62%

4.2 手机 GUI agent(把"操作手机的 agent"跑在端侧)

Ferret-UI Lite(2509.26539,Apple):3B 端到端多模态 GUI agent,SFT+RLVR(GRPO)。Grounding 强(ScreenSpot-V2 91.6),但导航弱——AndroidWorld 28.0%、OSWorld 17.3%→19.8%(对比 Claude-4-Sonnet 约 43.9%)。论文明说长程导航/推理是最大短板,且未给端侧硬件实测LightAgent / OpenPhone(2510.22009):device-cloud 协作,端侧 Qwen2.5-VL-3B(两阶段 SFT→GRPO),实时复杂度评估后把困难子任务上交云端;论文直陈困境——≤4B 性能不足、≥7B 对手机太大太贵

4.3 推理优化与硬件实测

工作关键技术实测数字
mllm-NPU(2407.05858)手机 NPU 卸载(高通 Hexagon)十亿级模型 prefill >1000 tokens/s;prefill 快 22.4×、省电 30.7×
QuantSpec(2502.10424,ICML'25)自推测解码 + 4-bit 量化 KV cache接受率 >90%;端到端约 2.5× 加速
Edge SLM CPU/GPU/NPU(2511.22334)三类后端能效对比NPU 以大幅优势夺最高性能/能效(EDP)
Agent.xpu(2506.24045,北大/港大)异构 SoC(Intel Core Ultra)调度,3B/8B亚 100ms 抢占;reactive 延迟降 91–97%;0.30 J/token
PalmBench(2410.05315)量化 LLM 手机基准iPhone 16 Pro 跑 Qwen2.5-1.5B(4-bit) ~23.7 tok/s;Galaxy S24 Ultra ~10 tok/s
硬件物理约束:INT8 下 10B 模型需约 20GB 内存,而高端手机仅 6–12GB DRAM,量化后仍超端侧内存 2–10×;agent 还会因环境状态/历史上下文/规划图/多模态缓冲额外放大内存需求;持续推理受功耗与发热降频(thermal throttling)限制。最完整的"端侧硬件实测 + agent 能力"双重证据来自 TinyAgent、Octopus v2、Agent.xpu、mllm-NPU;手机 GUI agent 的端侧硬件实测仍是明显空白

5 方向四:领域专用 / 垂直领域小模型 agent

核心问题:针对特定领域微调的小模型 agent 表现如何,为何垂直领域适合小模型?图 5 给出该方向通用的"教师合成数据 + 工具外接"闭环配方。

教师 LLM (Claude/GPT/Gemini…) 合成领域数据 CoT / 拒绝采样 / 专家在环 微调学生 SLM LoRA · 0.1–20B 学生 SLM 作为 agent 任务分解 + 工具编排 调用领域工具/API NCBI / KQL解析器 / 沙箱 评估 / 闭环反馈 合成验证集 · 迭代到饱和 工具外接 → 压制幻觉;"窗口内更锋利" 小模型不靠记忆答题,而靠检索/工具获取权威事实 实例:NBA 基因组 98% · CyberPal2.0 安全 4–20B · SWE-Protégé 7B>32B · OPT-350M ToolBench 77.55%
图 5 领域专用小 agent 的通用闭环:教师合成数据 → 微调 → 工具外接 → 闭环反馈

5.1 代表性工作

领域工作模型关键数字
基因组学Nano Bio-Agents(2509.19566)3–10B + NCBI/AlphaGenomeGeneTuring 最佳 98%,3–10B 稳定 85–97%,多数任务追平/超大模型方法
网络安全(情报/调查)CyberPal 2.0(2510.14113,IBM)4B–20B + SecKnowledge 2.0威胁调查 20B 超 GPT-4o、o1、o3-mini 排第一,4B 排第二
SOC 日志查询SOC NL→KQL(2512.06660)DeepSeek Coder 6.7B + Oracle两阶段语法 0.987/语义 0.906,比 Gemini 2.0 Flash 方案省 10–15×
钓鱼短信检测Agentic KD(2602.10869)Qwen2.5-0.5B / SmolLM2-135M,LoRA最佳 94.31% acc / 96.25% recall;闭环反馈是关键(vs DPO 50–80%)
软件工程SWE-Protégé(2602.22124,Meta)Qwen2.5-Coder 7B + 稀疏专家求助SWE-bench Verified 42.4% Pass@1,超 32B(40.2%);成本省 4–8×
代码 agentDevstral(2509.25193,Mistral)24B"100B 以下最佳代码 agent",对比大一个数量级模型仍有竞争力
工具调用OPT-350M(2512.15943,AWS,AAAI'26)350M,SFT 1 epochToolBench pass rate 77.55%(过拟合警示)

5.2 为什么垂直领域适合小模型

"窗口内更锋利"胜过"通用更博学"——领域任务空间窄,3–7B 微调后常超过零样本前沿大模型;通用大模型多数参数被"稀释"于无关知识。② 工具外接补足知识短板——靠任务分解 + 工具/API 调用获取权威事实,直接压制幻觉。③ 结构化输出天然适配。④ 成本/延迟/隐私/端侧——满足金融/安全/医疗的数据保密与实时需求。⑤ 数据稀缺有解——强 LLM 当教师自主合成 + 闭环蒸馏/拒绝采样 + 专家在环,绕开昂贵人工标注。

5.3 局限

强依赖教师/专家前沿大模型(本质是把成本/能力转移到训练或在线协作阶段,而非摆脱大模型);领域泛化弱、易过拟合评测口径;长程鲁棒性差(需反死循环、外接 Oracle);微调未必优于提示/RAG(SOC 论文中 LoRA 反而不如精心提示);部分论文评测严谨性参差、表述夸张。

覆盖度补充:化学/材料(ChemAgent、ChemCrow、ChemToolAgent)、金融(TradingAgents、FinGPT)、医疗诊断(Doctor-R1)等方向 2025–2026 的代表作仍以"大模型 + 工具/多智能体"为主,真正"小模型微调成 agent"的纯粹工作较少,是潜在研究空白。

6 评测、基准与指标

该方向的一个系统性弱点是评测尚不成熟:通用 benchmark 衡量的是通用能力,而 agent 实用性需要新的指标。综述(2510.03847)提出以"SLM 默认 + LLM 兜底 + 不确定性路由 + 验证器级联"为工程范式,并主张用面向实用性的新指标取代通用分数。

类别常用基准 / 指标
工具/函数调用ToolBench、Berkeley Function Calling Leaderboard (BFCL)、API-Bank
数学/推理GSM-Hard、MATH500、AIME 2025、Game of 24、OlympiadMath、GPQA Diamond
事实/多跳HotpotQA、MuSiQue、2WikiQA、Bamboogle
交互 / 长程GAIA、HLE、ALFWorld、WebShop、AgentBench
GUI agentScreenSpot-V2/Pro、AndroidWorld、OSWorld、Android Control
软件工程SWE-bench Verified
领域GeneTuring(基因组)、SLAKE/PathVQA(医学 VQA)、KQL 语法/语义分
实用性新指标CPS(每成功任务成本)、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗、J/token
评测可信度警示:① MAD/SLM 文献普遍基准窄、基线弱、设置不一致(2502.08788 明确指出);② 2026 编号预印本多未同行评审;③ 个别论文(如 OPT-350M tool calling)作者自陈强过拟合评测口径、表述偏营销化。引用具体数字前请回原文核对版本与口径。

7 横向对比与时间线

7.1 关键论文一览

子方向论文规模关键结果arXiv
立场/框架SLM are the Future of Agentic AI定义 <10B7B 比 70–175B 便宜 10–30×;40–70% 调用可替代2506.02153
蒸馏Agent Distillation (NeurIPS'25)0.5–7B1.5B≈3B CoT;7B>32B CoT2505.17612
蒸馏SCoRe7B7B 匹配 72B 教师(12 基准)2509.14257
蒸馏SOD (on-policy)0.6BAIME 2025 26.13%;+20.86%2605.07725
蒸馏Fine-tuning with RAG (ICLR'26)7B/14BALFWorld 91%、省 10–60% token2510.01375
多智能体Can Small Agents Beat a Single LLM?1.7–32B8B 系统 AIME 55 vs 32B 的 45;快 4.2×2601.11327
多智能体Mixture-of-Agents开源组队AlpacaEval 65.1% vs GPT-4o 57.5%2406.04692
多智能体Debate or Vote (NeurIPS'25)投票贡献全部增益;辩论=鞅2508.17536
端侧TinyAgent1.1B/7B成功率 80–85% > GPT-4-Turbo 79%2409.00608
端侧Octopus v22B99.524% > GPT-4;端侧 1.1–1.7s2404.01744
端侧Agent.xpu3B/8B0.30 J/token;亚 100ms 抢占2506.24045
领域Nano Bio-Agents(基因组)3–10BGeneTuring 98%2509.19566
领域CyberPal 2.0(安全)4–20B20B 威胁调查超 GPT-4o/o12510.14113
领域SWE-Protégé(软工)7BSWE-bench 42.4% > 32B;省 4–8×2602.22124
领域OPT-350M tool calling (AAAI'26)350MToolBench 77.55%(过拟合警示)2512.15943

7.2 关键论文时间线

2024 2025 H1 2025 H2 2026 Octopus v2 · TinyAgent CMAT · Mixture-of-Agents NVIDIA SLM 立场 · Agent Distillation AgentDistill · AdvDistill · Agent.xpu SCoRe · Ferret-UI Lite CyberPal2.0 · Fine-tuning+RAG TinyLLM · SOC-KQL · Devstral Can Small Agents… · SOD SMS Agentic KD · SWE-Protégé EffGen · OPT-350M(AAAI)
图 6 关键论文时间线(2024–2026):方向从"端侧函数调用 + 立场论文"走向"on-policy 蒸馏 + 领域专用 + 协作证伪"

7.3 NVIDIA 的 LLM→SLM 六步转换算法

S1 采集非 HCI 调用日志 S2 脱敏清洗 (10k–100k) S3 任务聚类 识别可专门化 S4 SLM 选型 能力/许可/占用 S5 专用微调 LoRA / 蒸馏 S6 迭代优化 周期性重训 持续改进闭环(回到 S2 / S4) 把现有 LLM-agent 逐步替换为 SLM 的工程流程(NVIDIA, 2506.02153)
图 7 NVIDIA 提出的 LLM→SLM agent 六步转换算法

8 方向潜力评估

8.1 技术可行性分级

高可行(已被多源证据支持) 工具/函数调用 · 结构化输出(JSON/查询语言) · 意图识别/抽取/摘要 固定 GUI 序列 · 窄域领域问答(配工具)→ SLM 可匹配甚至超越前沿 LLM 中等可行(需强工程 / 端云协作) 中等长度多步任务 · 需路由的混合负载 需 Oracle / 验证器兜底的生成任务 低可行(当前天花板) 长程多步规划与导航 · 开放域通用推理 需深层单体推理的前沿任务(HLE) · 跨域强泛化 小模型当前可行性(低 → 高)
图 8 按任务类型的小模型可行性分级

8.2 经济性(方向最强的卖点)

经济性证据高度一致且显著:推理成本 7B vs 70–175B 便宜 10–30×;token 成本可低 10–100×;微调从"数周"降到"数 GPU 小时";端侧部署消除云推理成本与数据出域风险;垂直 agent 单任务成本省 4–8×。这是该方向确定性最高的红利。

8.3 潜力评分

技术可行性(窄任务) 技术可行性(通用长程) 经济性 工程落地确定性 基础研究新颖度 整体方向潜力 4/5 2/5 5/5 4/5 3/5 4/5 评分为本报告综合判断,用于相对比较,非精确度量。
图 9 方向潜力多维评分(1–5)

8.4 主要风险

风险说明
能力来自系统而非模型多智能体增益主要源于编排器;"换上 SLM"≠自动变好,需可观工程(路由、验证器、微调数据)
幻觉随规模缩小加重agent 链式调用放大错误(误差级联是头号失败模式)
强依赖教师/专家成本/能力被转移到训练或在线协作阶段,而非摆脱大模型;换教师结果大幅波动
泛化与过拟合窄域微调易过拟合评测口径;API/威胁/库演进需频繁重训
评测不可靠 + 立场偏置基准窄、基线弱;旗舰立场论文有 vendor interest;部分论文表述夸张
硬件物理约束端侧内存/功耗/发热限制持续推理与模型规模
前沿 LLM 也在变小变便宜蚕食 SLM 的相对成本优势,是方向的外部威胁

8.5 趋势研判(未来 12–24 个月)

① 蒸馏全面转向 on-policy / 学生中心 + SFT-RL 混合;② 异构 agent 系统(SLM 默认、LLM 稀疏兜底)成为工程默认;③ 端云协作 + 端侧 NPU 推理(Agent.xpu 类异构 SoC 调度)成主流端侧形态;④ 垂直领域"教师合成数据 + 专家在环 + 工具外接"配方被快速复制;⑤ 面向 agent 实用性的新基准/指标(CPS 等)取代通用 benchmark——这本身可能改变"SLM 是否够用"的结论。

9 落地决策与选型

图 10 给出一个把 agent 子任务映射到"该用 SLM 还是 LLM、怎么用"的实用决策流程。

agent 子任务 可分解 & 可调工具? 保留 LLM 规划 / 兜底 / 开放推理 窄域/重复 /结构化? 否,需多步 强编排器 + 小模型子智能体(异构) 需端侧 /隐私? 端侧专用 SLM 微调+量化+工具 云端专用 SLM 蒸馏 / LoRA 核心原则:用专用小模型承担重复、结构化、可工具化的"小活儿",把昂贵大模型留给规划、兜底与跨域推理。
图 10 小模型 agent 落地决策流程

10 研究空白与选题建议

方向开放问题
降低教师依赖几乎所有蒸馏/协作都把成本转移给强 LLM。"弱教师/无教师/自举式"agent 蒸馏是高价值开放问题
小模型的长程能力长程规划/导航是一致天花板。面向小模型的记忆、回溯、子目标分解、错误恢复机制值得专攻
端侧 GUI agent 实测现有 3B GUI agent 论文几乎都缺端侧延迟/内存/功耗实测,是明显空白
编排器理论与自动化"规划受限"意味着编排器是杠杆;其训练、规模律、与子智能体的协同分配缺乏系统理论
标准化 SLM-agent 评测建立面向实用性(CPS、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗)的标准评测,可能重塑全方向结论
跨域泛化把窄域微调的小 agent 推广到多域而不过拟合,是落地的关键瓶颈

结论

"小模型 agent" 是一个经济性红利确定、工程可行性高、但基础能力边界清晰的方向。它最稳妥的价值不在于"用小模型替代大模型做一切",而在于异构系统中的角色分工——让 3–8B(乃至 0.5B)的专用小模型承担 agent 中大量重复、结构化、可工具化的"小活儿",把昂贵的前沿大模型留给规划、兜底与跨域推理。对研究者而言,训练方法(on-policy 蒸馏、PEFT)与领域专用 agent 是最易出成果的切入点;多智能体协作的"编排器主导"与端侧的"长程能力/硬件实测"则是更难但更有原创空间的硬骨头。最大的认知陷阱是:把系统/编排/教师带来的增益误记为小模型本身的能力——这也是评估任何"小模型 agent"成果时应首先追问的问题。

11 术语表

术语含义
SLMSmall Language Model,小语言模型;本方向多指 ≤约 10B(个别上探 24B),或"能在消费级设备低延迟服务单用户"的模型
agentic trajectoryagent 求解轨迹,通常为 Thought(思考)→ Action(工具/检索/代码调用)→ Observation(观测)的序列
off-policy / on-policy 蒸馏前者让学生模仿教师生成的轨迹;后者让学生先自跑、再由教师纠错,缓解分布失配与误差级联
FTP / SAGFirst-thought Prefix(用 CoT 首步作前缀提升教师轨迹质量)/ Self-consistent Action Generation(测试时多候选取一致动作)
MCP-BoxAgentDistill 中可复用的模块化任务求解单元(Model-Context-Protocol),训练-free 挂载到学生
LoRA / QLoRA / DoRA / PEFT参数高效微调技术,只训练少量低秩/旁路参数,几个 GPU 小时即可特化小模型
SFT / RL / GRPO / RLVR监督微调 / 强化学习 / Group Relative Policy Optimization / 带可验证奖励的 RL
RAG检索增强生成;本方向出现"把 RAG 内化进模型"的蒸馏变体
KV cache / 推测解码 / 量化端侧推理优化:缓存注意力键值、用小草稿模型加速、降精度(4-bit 等)压缩内存与算力
NPU / EDP / J/token神经网络处理器 / 能量-延迟积 / 每 token 能耗,端侧能效核心指标
CPSCost Per Successful task,每成功任务成本——面向 agent 实用性的新评测指标
orchestrator编排器/规划器,多智能体系统中负责任务分解、工具选择与子智能体调度的核心
MoA / MADMixture-of-Agents(多智能体分层聚合)/ Multi-Agent Debate(多智能体辩论)
device-cloud collaboration端云协作:端侧 SLM 默认执行,复杂子任务路由到云端 LLM 兜底
function/tool calling函数/工具调用:模型按结构化格式选择并调用外部工具/API,是 SLM 最擅长的 agent 能力

12 参考文献(全部为可核实 arXiv 链接)

立场与综述

  1. Small Language Models are the Future of Agentic AI (NVIDIA). arxiv.org/abs/2506.02153 | 勘误页 correspondence
  2. Small Language Models for Agentic Systems: A Survey. 2510.03847
  3. A Survey on Collaborating Small and Large Language Models. 2510.13890
  4. A Comprehensive Survey of Small Language Models (KDD'25). 2411.03350
  5. On-Device Language Models: A Comprehensive Review. 2409.00088
  6. Cognitive Edge Computing: A Comprehensive Survey. 2501.03265

训练方法(蒸馏/微调)

  1. Distilling LLM Agent into Small Models with Retrieval and Code Tools (NeurIPS'25 Spotlight). 2505.17612
  2. AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes. 2506.14728
  3. Enhancing Reasoning in SLMs with Reward Guided Dataset Distillation (AdvDistill). 2507.00054
  4. Fine-tuning with RAG for Improving LLM Learning of New Skills (ICLR'26). 2510.01375
  5. SCoRe: Reinforced Distillation of LLM Agents. 2509.14257
  6. SOD: Step-wise On-policy Distillation for Small Language Model Agents. 2605.07725
  7. MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles. 2512.21708
  8. CMAT: A Multi-Agent Collaboration Tuning Framework (TinyAgent). 2404.01663
  9. EffGen: Efficient Agent Framework for Small Language Models (ICML'26). 2602.00887

多智能体协作

  1. Can Small Agents Collaborate to Beat a Single Large Language Model? 2601.11327
  2. Mixture-of-Agents Enhances Large Language Model Capabilities. 2406.04692
  3. Stop Overvaluing Multi-Agent Debate. 2502.08788
  4. Debate or Vote: Which Yields Better Decisions in Multi-Agent LLMs? (NeurIPS'25 Spotlight). 2508.17536
  5. Rethinking Mixture-of-Agents: Is Mixing Different LLMs Beneficial? 2502.00674
  6. Attention-MoA: Enhancing Mixture-of-Agents. 2601.16596

端侧 / 边缘部署

  1. TinyAgent: Function Calling at the Edge. 2409.00608
  2. Octopus v2: On-device language model for super agent. 2404.01744
  3. TinyLLM: Evaluation and Optimization of SLMs for Agentic Tasks on Edge. 2511.22138
  4. Ferret-UI Lite: Building Small On-Device GUI Agents (Apple). 2509.26539
  5. LightAgent: Mobile Agentic Foundation Models. 2510.22009
  6. mllm-NPU: 1000 tokens/second on-device LLM prefilling. 2407.05858
  7. QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache (ICML'25). 2502.10424
  8. Edge Deployment of SLMs: CPU vs GPU vs NPU. 2511.22334
  9. Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC. 2506.24045
  10. PalmBench: Benchmark of Compressed LLMs on Mobile Platforms. 2410.05315

领域专用小 agent

  1. Nano Bio-Agents (NBA): SLM Agents for Genomics. 2509.19566
  2. Toward Cybersecurity-Expert Small Language Models (CyberPal 2.0). 2510.14113
  3. Towards SLMs for Security Query Generation in SOC Workflows. 2512.06660
  4. Agentic Knowledge Distillation: SLMs for SMS Threat Detection. 2602.10869
  5. SWE-Protégé: Selectively Collaborate With an Expert as SE Agents. 2602.22124
  6. Devstral: Fine-tuning Language Models for Coding Agent Applications. 2509.25193
  7. Small Language Models for Efficient Agentic Tool Calling (AAAI'26). 2512.15943

说明:报告中标注的"NeurIPS'25 / ICLR'26 / ICML'25 / AAAI'26"为各论文自述的投稿/接收状态;2026 年编号(26xx.xxxxx)预印本为非常新的工作,部分尚未同行评审,结论宜审慎引用。个别论文(如 OPT-350M tool calling)表述偏营销化,引用其具体数字前建议回原文核对版本与口径。本报告由自动化检索 + 多源抓取核实生成,可作为方向综述与选题起点,不构成对任何论文结论的背书。