小模型 Agent（Small Language Model Agents）
方向研究综述与潜力评估

面向研究者的技术报告 · 含框图 · 检索窗口 2024–2026（聚焦 2025–2026 最新预印本）

编制日期：2026 年 6 月

训练/蒸馏多智能体协作端侧部署领域专用潜力评估 36+ 篇 arXiv 引用

本报告系统检索并核实"小语言模型（SLM）作为智能体（agent）"方向的最新论文，逐篇分析方法设定与关键实验数字，配以 10 张框图，并对方向潜力做出评估。所有 arXiv 编号、标题、关键数字均经抓取核实；对极新预印本、立场性论文与表述偏夸张的工作均已标注，引用前请回原文复核。

执行摘要

一句话结论："小模型 agent" 不是单一技术，而是一束相互支撑的方向。在可分解、可调用工具、输出结构化、领域窄的任务上，3–8B 乃至 0.5B 级别的小模型经恰当蒸馏/微调，已能匹配甚至超过大其 4–100 倍的模型，且在成本、延迟、隐私、端侧部署上具备数量级优势；但在长程规划、开放域推理、跨域泛化上仍系统性落后，且能力增益很大程度来自编排 / 工程 / 教师模型而非小模型本身。因此该方向是"工程与系统驱动的高确定性红利 + 基础能力受限的明确边界"并存。

下图给出全方向的总览与四个子方向的关系。

图 1　小模型 Agent 方向总览：四个子方向与四条贯穿主线

四个子方向的核心判断

子方向	成熟度	核心判断	标志性结果
① 训练 / 蒸馏	最成熟、论文最密集	重心从"蒸馏 CoT 推理"转向"蒸馏含工具调用的完整 agentic 轨迹"；从 off-policy 模仿转向 on-policy 纠错（SFT+RL）	1.5B 学生 ≈ 3B、7B 学生 > 32B 教师；SCoRe 7B ≈ 72B
② 多智能体协作	结论被"证伪式修正"	小模型组队可超过大数倍单体模型，但关键变量是编排器能力而非子智能体规模；纯辩论近乎无效	8B 系统 AIME 55 vs 32B 的 45；投票贡献几乎全部增益
③ 端侧部署	窄域可落地，通用待端云协作	函数调用类已能超 GPT-4 且 1–3s 延迟；长程导航/硬件功耗是硬约束	Octopus v2（2B）99.5%；TinyAgent 超 GPT-4-Turbo
④ 领域专用	性价比最高、最易出成果	窄域微调 + 工具外接反复出现"小超大"；强依赖教师/专家、易过拟合	CyberPal-20B 超 GPT-4o；SWE-Protégé-7B 超 32B

潜力评分（本报告综合判断，1–5）：技术可行性（窄任务）★★★★☆ ／技术可行性（通用长程）★★☆☆☆ ／经济性 ★★★★★ ／工程落地确定性 ★★★★☆ ／基础研究新颖度 ★★★☆☆ ／ 整体方向潜力 ★★★★☆。详见第 8 节。

1　引言：方向定义与研究框架

1.1　什么是"小模型 agent"

"小模型 agent" 指以小语言模型（SLM）作为决策大脑、通过工具调用 / 规划 / 多步交互完成任务的智能体系统，其反面是当前主流的"用前沿大模型（GPT-4o / Claude / Gemini 级）驱动 agent"。

关于 SLM 的定义，本方向最具影响力的立场论文——NVIDIA《Small Language Models are the Future of Agentic AI》（arXiv:2506.02153）——刻意不用固定参数阈值，而以硬件 / 延迟定义："能装入普通消费级电子设备、且以足够低的延迟服务单个用户 agentic 请求的语言模型"。作为年份相关的经验阈值，作者写道"截至 2025 年，可将 100 亿参数（10B）以下的多数模型视作 SLM"。不同综述对边界略有放宽（如 1–12B，偶尔上探 20B）。本报告采用"≤约 10B 为主、个别工作上探 24B"的宽口径。

1.2　为什么值得关注：NVIDIA 立场论文的三大支柱

支柱	主张	关键依据
V1 能力足够	SLM 已足以处理 agent 中绝大多数语言子任务	"约束是能力而非参数量"；Phi-2(2.7B) 推理/代码比肩 30B 且快 ~15×；DeepSeek-R1-Distill-Qwen-7B 在推理上超过 Claude-3.5-Sonnet 与 GPT-4o；xLAM-2-8B 工具调用 SOTA
V2 更适配	agent 任务多为重复、范围窄、非对话的"小活儿"，看重可靠性/格式一致性而非创造力，小模型更易微调对齐	可固定 JSON Schema 与字段顺序；LoRA 可"一夜"修正行为
V3 更经济	服务 7B 比 70–175B 便宜 10–30×（延迟/能耗/FLOPs）	微调仅需"数个 GPU 小时"；可在消费级 GPU/设备本地部署

论文进一步主张：当确需通用对话能力时，异构 agent 系统（同一系统大小模型混调）是自然形态，并给出一套六步 LLM→SLM 转换算法（图 7）。其案例研究估计 MetaGPT 约 60%、Open Operator 约 40%、Cradle 约 70% 的 LLM 调用可由专用 SLM 可靠替代。

立场偏置提示：该文是立场论文（position paper）而非实证研究，作者主动征集反驳；第一作者团队属 NVIDIA（边缘/本地推理硬件利益相关方）。其官网公开的实质性批评目前很少——唯一公开往来是 Opplane 的 A. Novikov 指出论文低估了"推理型 LLM 作为 agent 替代品"的论点，Belcak 基本认同"reasoning 被过度推崇"。当前"争议"主要来自后续论文对其结论的限定（架构 > 规模、长程/幻觉短板），而非直接驳斥。引用其论断时应注意这一背景。

1.3　检索范围与方法

本报告通过扇出式网络检索 + 对 arXiv 原始页面（/abs/、/pdf/、/html/）逐篇抓取完成，重点覆盖 2025–2026 年预印本，并保留少数奠基性的 2024 年工作（TinyAgent、Octopus v2、Mixture-of-Agents 等）。对每篇关键论文提取：模型规模、训练范式、数据构造、benchmark 与具体数字、局限。下文按四个子方向展开，每个方向配一张框图。

2　方向一：大模型 agent 能力的蒸馏与微调

这是论文最密集、技术最成熟的子方向。核心问题：如何把强 LLM agent 的"完整任务求解能力"（含工具调用、检索、代码执行、推理）转移到小模型上。图 2 概括了从 off-policy 模仿到 on-policy 纠错的两类范式。

图 2　agent 能力蒸馏的两类范式：off-policy 模仿（上）vs on-policy 学生中心纠错（下）

2.1　代表性方法与设定

(1) Agent Distillation（arXiv:2505.17612，NeurIPS 2025 Spotlight）

核心思想是不只蒸馏 CoT，而是蒸馏含检索 + 代码工具调用的完整 Thought–Action–Observation 轨迹。Teacher = Qwen2.5-32B-Instruct，Student = Qwen2.5 系列 0.5B / 1.5B / 3B / 7B。两项关键技术：① First-thought Prefix（FTP）——用 CoT 第一步作为 agent 首个 thought 的前缀，提升教师轨迹质量（仅用于造数据）；② Self-consistent Action Generation（SAG）——测试时生成多个候选 action 并保留与观测一致者，降低无效代码。训练数据仅 1000 条 HotpotQA + 2000 条 MATH。结果：32B→1.5B 蒸馏 agent 在 8 个事实/数学基准上平均分 30.55（vs 1.5B CoT+RAG 的 24.6），并呈现清晰"越级"规律：0.5B agent ≈ 1.5B CoT 模型、1.5B ≈ 3B、3B > 7B CoT、7B > 32B CoT。

(2) AgentDistill（arXiv:2506.14728）

Training-Free（无需训练）蒸馏：不重放教师轨迹，而是复用教师 agent 自主生成的可复用任务求解模块 MCP（Model-Context-Protocol），固化为 MCP-Box 挂载到学生。Game of 24 上 GPT-3.5-turbo 34.3%→82.7%、LLaMA3.1-8B 21.7%→64%；医学 VQA（SLAKE）装备 MCP 的学生达 65.1%，逼近 GPT-4o 系统（66%）。增益高度依赖任务可模块化程度。

(3) AdvDistill — Reward Guided Dataset Distillation（arXiv:2507.00054）

奖励引导的数据集蒸馏：教师对每个 prompt 生成多条回答，用 rule-based verifier 给奖励，奖励作为学生训练时的样本权重，突破"学生只复制教师 in-distribution 回答"的局限。在数学与复杂推理上显著优于普通 KD，但依赖可验证信号。

(4) Fine-tuning with RAG（arXiv:2510.01375，ICLR 2026 在审）

把推理时检索内化为模型能力：从 agent 失败中抽取紧凑 hints → 用 hints 生成更好的教师轨迹 → 训练时去掉 hint 字符串强制学生内化。跨 7B/14B、跨 ReAct/StateAct 架构验证：ALFWorld 成功率最高 91%（基线 79%）、WebShop 提升到 72（基线 61），且比 RAG 教师少用 10–60% tokens。

(5) SCoRe — Reinforced Distillation of LLM Agents（arXiv:2509.14257）

以学生为中心的蒸馏：不让学生模仿完整教师轨迹（会因 teacher-student gap 误差累积），而是让学生自跑、教师只纠正最早出错的那一步。两阶段 = 纠正轨迹上 SFT + 从最早错误前缀起的短时域 RL。结果：12 个挑战性基准上，7B 学生匹配 72B 教师的 agentic 性能。

(6) SOD — Step-wise On-policy Distillation（arXiv:2605.07725，腾讯）

针对工具集成推理（TIR）的 on-policy 蒸馏。发现普通 OPD 的失败模式——错误工具调用会跨步级联放大 student–teacher 散度——故按步级散度自适应重加权蒸馏强度（高散度处削弱教师信号），结合 GRPO。结果：数学/科学/代码基准最高提升 20.86%；0.6B 学生在 AIME 2025 上达 26.13%。

(7) MoRAgent — PEFT with Mixture-of-Roles（arXiv:2512.21708）

LoRA/PEFT 用于 agent 的代表作：把 agent 能力按 Reason+Action 分解为 reasoner / executor / summarizer 三个角色，对应三组专门 LoRA 协作，配套多角色数据生成与验证 pipeline。

(8) CMAT / TinyAgent（arXiv:2404.01663）

较早期（2024）的多智能体协作微调：基于环境反馈的自适应权重更新 + 长期记忆。TinyAgent-7B 性能与 GPT-3.5 相当（AgentBench OS 任务 41.3 vs GPT-3.5 的 15.7）。

(9) EffGen — SLM 原生 agent 框架（arXiv:2602.00887，ICML 2026）

面向 SLM 的原生 agent 框架（非蒸馏，但与训练方法互补）：prompt 压缩平均 57%（最高 70–80%）。关键观察是框架优化对小模型增益更大——1.5B 模型经 EffGen 提升 11.2% 并超过 LangChain/AutoGen/Smolagents，而 32B 仅提升 2.4%。提示在小模型上，"系统/框架"与"模型本身"同等重要。

2.2　共性技术趋势

趋势	说明	代表工作
蒸馏对象升级	从"蒸馏 CoT 推理"到"蒸馏含工具调用/检索/代码执行的完整 agentic 行为"	2505.17612 / 2506.14728 / 2509.14257
轨迹质量工程化	轨迹质量 > 数量；FTP 前缀、奖励加权多采样、失败抽 hint、多角色补全，均为解决分布失配	2505.17612 / 2507.00054 / 2510.01375
off → on-policy	直接模仿完整轨迹会误差级联；新范式让学生自跑、教师只纠最早错误或按步级散度加权，并普遍 SFT+RL	2509.14257 / 2605.07725
学生可极小	学生下探 0.5B/0.6B；分类/工具调用任务甚至 135M/350M	2505.17612 / 2605.07725 / 2512.15943
成本两极化	一端 Training-Free（零训练），一端 on-policy RL（重但好）；LoRA/PEFT 成落地标配	2506.14728 / 2512.21708

2.3　局限与失败模式

误差级联（compounding errors）是头号失败模式——小模型一步工具调用出错会沿轨迹放大。其余：增益高度任务依赖（结构化/可验证任务增益巨大，开放式/in-domain 任务有限甚至退化）；强依赖教师选择；依赖可验证信号（rule-based verifier 或可定位"最早错误步"）；代码/工具动作有效性随规模下降（需 SAG 等补救）；泛化与评测范围窄（多数仅 1–2 个域/基准验证）。

3　方向二：小模型多智能体协作

核心问题：多个小模型协作能否逼近/超过单个大模型？2025–2026 的证据呈现"乐观主张 + 系统性证伪"的张力。综合结论：能，但前提是 (a) 任务可分解、可调工具；(b) 有足够强的编排器做规划；(c) 用集成/投票或异构组队，而非寄望纯辩论的"涌现智能"。图 3 给出最具代表性的架构与关键发现。

图 3　小模型多智能体协作架构（编排器 + 受限通信 + 共享记忆）与核心发现

3.1　关键证据

(1) Can Small Agents Collaborate to Beat a Single LLM?（arXiv:2601.11327）

最贴题、最新的对照研究（阿姆斯特丹大学等）。全部用 Qwen3 系列（1.7B–32B）：8B 编排器 + 3 个专长子智能体，纯推理无微调，对手为 32B 单模型（带工具）。

基准	8B 多智能体系统	32B 单模型 + 工具	说明
GAIA（端到端工具使用）	23.0	23.0	打平
AIME（数学）	55.0	45.0	系统胜 +10
GPQA Diamond（研究生科学）	58.6	60.1	略低
MuSiQue（多跳检索）	14.0	15.0	略低
HLE（前沿专家知识）	~4.0	~4.0	均未攻克

最重要发现见图 3："规划受限，而非执行受限"——投资编排器推理的收益 > 投资子智能体规模，且多智能体在成本上反而更优。

(2) Mixture-of-Agents（arXiv:2406.04692）

"弱模型层层聚合 > 单个最强模型"的经典证据：仅用开源模型的 MoA 在 AlpacaEval 2.0 上 65.1% vs GPT-4 Omni 57.5%。其改进与质疑见 Attention-MoA（2601.16596）与 Rethinking MoA（2502.00674，质疑"混不同 LLM 是否真有益"）。

(3) CMAT / TinyAgent（arXiv:2404.01663）

协作式微调把 7B 抬到 GPT-3.5 档位（对比对象是 GPT-3.5 而非最强模型）。

3.2　辩论的祛魅：投票 vs 辩论

Stop Overvaluing Multi-Agent Debate（arXiv:2502.08788）：系统评测 5 种 MAD × 9 基准 × 4 基座，发现 MAD 常打不过单智能体的 CoT/Self-Consistency，却耗费多得多算力；模型异构性是普遍有效的"解药"。Debate or Vote（arXiv:2508.17536，NeurIPS 2025 Spotlight）：把 MAD 拆为"多数投票"与"辩论"，证明多数投票贡献几乎全部增益；并从理论上证明辩论在信念轨迹上构成鞅（martingale），即纯辩论不提升期望正确率。

3.3　局限

编排器是单点瓶颈（系统"规划受限"）；子智能体思考/智能体间通信会显著抬高延迟与 token；多跳任务存在错误传播；MAD 文献普遍基准窄、基线弱、设置不一致；核心对照仅用单一模型家族、仅推理/知识任务；多数投票在"全体共享偏见或正确答案是少数意见"时失灵。

4　方向三：端侧 / 本地 / 边缘部署

核心问题：小模型 agent 能否真正跑在手机/笔记本/边缘设备上？结论：窄域、任务专一的函数调用类 agent 已可落地，且能达到/超过 GPT-4 级准确率；但长程多步推理/导航、开放域规划仍做不到，硬件内存/功耗/发热是硬约束。主流落地路线是 SLM 默认执行 + 云端 LLM 兜底（device-cloud collaboration），见图 4。

图 4　端云协作架构与端侧能力边界

4.1　端侧 agent 框架与函数调用（可行性证明）

工作	模型 / 硬件	方法	关键数字
TinyAgent（2409.00608，UC Berkeley）	1.1B/7B · MacBook M3	LoRA + Tool RAG（DeBERTa 筛工具）+ 4-bit 量化	成功率 1.1B 80.06%、7B 84.95%，均 > GPT-4-Turbo 79.08%；4-bit 后 2.9s/0.68GB
Octopus v2（2404.01744，Nexa AI）	2B（Gemma）· Android 手机	functional token（函数→单 token，上下文减 95%）	准确率 99.524% > GPT-4 的 98.571%；端侧 1.1–1.7s/次，比 7B+RAG 快 35×
TinyLLM（2511.22138）	SLM 在 BFCL 上系统评测	对比 SFT/PEFT/RL/DPO 混合	1–3B 显著优于 <1B；最佳混合整体 65.74%、多轮 55.62%

4.2　手机 GUI agent（把"操作手机的 agent"跑在端侧）

Ferret-UI Lite（2509.26539，Apple）：3B 端到端多模态 GUI agent，SFT+RLVR（GRPO）。Grounding 强（ScreenSpot-V2 91.6），但导航弱——AndroidWorld 28.0%、OSWorld 17.3%→19.8%（对比 Claude-4-Sonnet 约 43.9%）。论文明说长程导航/推理是最大短板，且未给端侧硬件实测。LightAgent / OpenPhone（2510.22009）：device-cloud 协作，端侧 Qwen2.5-VL-3B（两阶段 SFT→GRPO），实时复杂度评估后把困难子任务上交云端；论文直陈困境——≤4B 性能不足、≥7B 对手机太大太贵。

4.3　推理优化与硬件实测

工作	关键技术	实测数字
mllm-NPU（2407.05858）	手机 NPU 卸载（高通 Hexagon）	十亿级模型 prefill >1000 tokens/s；prefill 快 22.4×、省电 30.7×
QuantSpec（2502.10424，ICML'25）	自推测解码 + 4-bit 量化 KV cache	接受率 >90%；端到端约 2.5× 加速
Edge SLM CPU/GPU/NPU（2511.22334）	三类后端能效对比	NPU 以大幅优势夺最高性能/能效（EDP）
Agent.xpu（2506.24045，北大/港大）	异构 SoC（Intel Core Ultra）调度，3B/8B	亚 100ms 抢占；reactive 延迟降 91–97%；0.30 J/token
PalmBench（2410.05315）	量化 LLM 手机基准	iPhone 16 Pro 跑 Qwen2.5-1.5B(4-bit) ~23.7 tok/s；Galaxy S24 Ultra ~10 tok/s

硬件物理约束：INT8 下 10B 模型需约 20GB 内存，而高端手机仅 6–12GB DRAM，量化后仍超端侧内存 2–10×；agent 还会因环境状态/历史上下文/规划图/多模态缓冲额外放大内存需求；持续推理受功耗与发热降频（thermal throttling）限制。最完整的"端侧硬件实测 + agent 能力"双重证据来自 TinyAgent、Octopus v2、Agent.xpu、mllm-NPU；手机 GUI agent 的端侧硬件实测仍是明显空白。

5　方向四：领域专用 / 垂直领域小模型 agent

核心问题：针对特定领域微调的小模型 agent 表现如何，为何垂直领域适合小模型？图 5 给出该方向通用的"教师合成数据 + 工具外接"闭环配方。

图 5　领域专用小 agent 的通用闭环：教师合成数据 → 微调 → 工具外接 → 闭环反馈

5.1　代表性工作

领域	工作	模型	关键数字
基因组学	Nano Bio-Agents（2509.19566）	3–10B + NCBI/AlphaGenome	GeneTuring 最佳 98%，3–10B 稳定 85–97%，多数任务追平/超大模型方法
网络安全（情报/调查）	CyberPal 2.0（2510.14113，IBM）	4B–20B + SecKnowledge 2.0	威胁调查 20B 超 GPT-4o、o1、o3-mini 排第一，4B 排第二
SOC 日志查询	SOC NL→KQL（2512.06660）	DeepSeek Coder 6.7B + Oracle	两阶段语法 0.987/语义 0.906，比 Gemini 2.0 Flash 方案省 10–15×
钓鱼短信检测	Agentic KD（2602.10869）	Qwen2.5-0.5B / SmolLM2-135M，LoRA	最佳 94.31% acc / 96.25% recall；闭环反馈是关键（vs DPO 50–80%）
软件工程	SWE-Protégé（2602.22124，Meta）	Qwen2.5-Coder 7B + 稀疏专家求助	SWE-bench Verified 42.4% Pass@1，超 32B（40.2%）；成本省 4–8×
代码 agent	Devstral（2509.25193，Mistral）	24B	"100B 以下最佳代码 agent"，对比大一个数量级模型仍有竞争力
工具调用	OPT-350M（2512.15943，AWS，AAAI'26）	350M，SFT 1 epoch	ToolBench pass rate 77.55%（过拟合警示）

5.2　为什么垂直领域适合小模型

① "窗口内更锋利"胜过"通用更博学"——领域任务空间窄，3–7B 微调后常超过零样本前沿大模型；通用大模型多数参数被"稀释"于无关知识。② 工具外接补足知识短板——靠任务分解 + 工具/API 调用获取权威事实，直接压制幻觉。③ 结构化输出天然适配。④ 成本/延迟/隐私/端侧——满足金融/安全/医疗的数据保密与实时需求。⑤ 数据稀缺有解——强 LLM 当教师自主合成 + 闭环蒸馏/拒绝采样 + 专家在环，绕开昂贵人工标注。

5.3　局限

强依赖教师/专家前沿大模型（本质是把成本/能力转移到训练或在线协作阶段，而非摆脱大模型）；领域泛化弱、易过拟合评测口径；长程鲁棒性差（需反死循环、外接 Oracle）；微调未必优于提示/RAG（SOC 论文中 LoRA 反而不如精心提示）；部分论文评测严谨性参差、表述夸张。

覆盖度补充：化学/材料（ChemAgent、ChemCrow、ChemToolAgent）、金融（TradingAgents、FinGPT）、医疗诊断（Doctor-R1）等方向 2025–2026 的代表作仍以"大模型 + 工具/多智能体"为主，真正"小模型微调成 agent"的纯粹工作较少，是潜在研究空白。

6　评测、基准与指标

该方向的一个系统性弱点是评测尚不成熟：通用 benchmark 衡量的是通用能力，而 agent 实用性需要新的指标。综述（2510.03847）提出以"SLM 默认 + LLM 兜底 + 不确定性路由 + 验证器级联"为工程范式，并主张用面向实用性的新指标取代通用分数。

类别	常用基准 / 指标
工具/函数调用	ToolBench、Berkeley Function Calling Leaderboard (BFCL)、API-Bank
数学/推理	GSM-Hard、MATH500、AIME 2025、Game of 24、OlympiadMath、GPQA Diamond
事实/多跳	HotpotQA、MuSiQue、2WikiQA、Bamboogle
交互 / 长程	GAIA、HLE、ALFWorld、WebShop、AgentBench
GUI agent	ScreenSpot-V2/Pro、AndroidWorld、OSWorld、Android Control
软件工程	SWE-bench Verified
领域	GeneTuring（基因组）、SLAKE/PathVQA（医学 VQA）、KQL 语法/语义分
实用性新指标	CPS（每成功任务成本）、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗、J/token

评测可信度警示：① MAD/SLM 文献普遍基准窄、基线弱、设置不一致（2502.08788 明确指出）；② 2026 编号预印本多未同行评审；③ 个别论文（如 OPT-350M tool calling）作者自陈强过拟合评测口径、表述偏营销化。引用具体数字前请回原文核对版本与口径。

7　横向对比与时间线

7.1　关键论文一览

子方向	论文	规模	关键结果	arXiv
立场/框架	SLM are the Future of Agentic AI	定义 <10B	7B 比 70–175B 便宜 10–30×；40–70% 调用可替代	2506.02153
蒸馏	Agent Distillation (NeurIPS'25)	0.5–7B	1.5B≈3B CoT；7B>32B CoT	2505.17612
蒸馏	SCoRe	7B	7B 匹配 72B 教师（12 基准）	2509.14257
蒸馏	SOD (on-policy)	0.6B	AIME 2025 26.13%；+20.86%	2605.07725
蒸馏	Fine-tuning with RAG (ICLR'26)	7B/14B	ALFWorld 91%、省 10–60% token	2510.01375
多智能体	Can Small Agents Beat a Single LLM?	1.7–32B	8B 系统 AIME 55 vs 32B 的 45；快 4.2×	2601.11327
多智能体	Mixture-of-Agents	开源组队	AlpacaEval 65.1% vs GPT-4o 57.5%	2406.04692
多智能体	Debate or Vote (NeurIPS'25)	—	投票贡献全部增益；辩论=鞅	2508.17536
端侧	TinyAgent	1.1B/7B	成功率 80–85% > GPT-4-Turbo 79%	2409.00608
端侧	Octopus v2	2B	99.524% > GPT-4；端侧 1.1–1.7s	2404.01744
端侧	Agent.xpu	3B/8B	0.30 J/token；亚 100ms 抢占	2506.24045
领域	Nano Bio-Agents（基因组）	3–10B	GeneTuring 98%	2509.19566
领域	CyberPal 2.0（安全）	4–20B	20B 威胁调查超 GPT-4o/o1	2510.14113
领域	SWE-Protégé（软工）	7B	SWE-bench 42.4% > 32B；省 4–8×	2602.22124
领域	OPT-350M tool calling (AAAI'26)	350M	ToolBench 77.55%（过拟合警示）	2512.15943

7.2　关键论文时间线

图 6　关键论文时间线（2024–2026）：方向从"端侧函数调用 + 立场论文"走向"on-policy 蒸馏 + 领域专用 + 协作证伪"

7.3　NVIDIA 的 LLM→SLM 六步转换算法

图 7　NVIDIA 提出的 LLM→SLM agent 六步转换算法

8　方向潜力评估

8.1　技术可行性分级

图 8　按任务类型的小模型可行性分级

8.2　经济性（方向最强的卖点）

经济性证据高度一致且显著：推理成本 7B vs 70–175B 便宜 10–30×；token 成本可低 10–100×；微调从"数周"降到"数 GPU 小时"；端侧部署消除云推理成本与数据出域风险；垂直 agent 单任务成本省 4–8×。这是该方向确定性最高的红利。

8.3　潜力评分

图 9　方向潜力多维评分（1–5）

8.4　主要风险

风险	说明
能力来自系统而非模型	多智能体增益主要源于编排器；"换上 SLM"≠自动变好，需可观工程（路由、验证器、微调数据）
幻觉随规模缩小加重	agent 链式调用放大错误（误差级联是头号失败模式）
强依赖教师/专家	成本/能力被转移到训练或在线协作阶段，而非摆脱大模型；换教师结果大幅波动
泛化与过拟合	窄域微调易过拟合评测口径；API/威胁/库演进需频繁重训
评测不可靠 + 立场偏置	基准窄、基线弱；旗舰立场论文有 vendor interest；部分论文表述夸张
硬件物理约束	端侧内存/功耗/发热限制持续推理与模型规模
前沿 LLM 也在变小变便宜	蚕食 SLM 的相对成本优势，是方向的外部威胁

8.5　趋势研判（未来 12–24 个月）

① 蒸馏全面转向 on-policy / 学生中心 + SFT-RL 混合；② 异构 agent 系统（SLM 默认、LLM 稀疏兜底）成为工程默认；③ 端云协作 + 端侧 NPU 推理（Agent.xpu 类异构 SoC 调度）成主流端侧形态；④ 垂直领域"教师合成数据 + 专家在环 + 工具外接"配方被快速复制；⑤ 面向 agent 实用性的新基准/指标（CPS 等）取代通用 benchmark——这本身可能改变"SLM 是否够用"的结论。

9　落地决策与选型

图 10 给出一个把 agent 子任务映射到"该用 SLM 还是 LLM、怎么用"的实用决策流程。

图 10　小模型 agent 落地决策流程

10　研究空白与选题建议

方向	开放问题
降低教师依赖	几乎所有蒸馏/协作都把成本转移给强 LLM。"弱教师/无教师/自举式"agent 蒸馏是高价值开放问题
小模型的长程能力	长程规划/导航是一致天花板。面向小模型的记忆、回溯、子目标分解、错误恢复机制值得专攻
端侧 GUI agent 实测	现有 3B GUI agent 论文几乎都缺端侧延迟/内存/功耗实测，是明显空白
编排器理论与自动化	"规划受限"意味着编排器是杠杆；其训练、规模律、与子智能体的协同分配缺乏系统理论
标准化 SLM-agent 评测	建立面向实用性（CPS、schema 有效率、可执行调用率、p50/p95 延迟、单请求能耗）的标准评测，可能重塑全方向结论
跨域泛化	把窄域微调的小 agent 推广到多域而不过拟合，是落地的关键瓶颈

结论

"小模型 agent" 是一个经济性红利确定、工程可行性高、但基础能力边界清晰的方向。它最稳妥的价值不在于"用小模型替代大模型做一切"，而在于异构系统中的角色分工——让 3–8B（乃至 0.5B）的专用小模型承担 agent 中大量重复、结构化、可工具化的"小活儿"，把昂贵的前沿大模型留给规划、兜底与跨域推理。对研究者而言，训练方法（on-policy 蒸馏、PEFT）与领域专用 agent 是最易出成果的切入点；多智能体协作的"编排器主导"与端侧的"长程能力/硬件实测"则是更难但更有原创空间的硬骨头。最大的认知陷阱是：把系统/编排/教师带来的增益误记为小模型本身的能力——这也是评估任何"小模型 agent"成果时应首先追问的问题。

11　术语表

术语	含义
SLM	Small Language Model，小语言模型；本方向多指 ≤约 10B（个别上探 24B），或"能在消费级设备低延迟服务单用户"的模型
agentic trajectory	agent 求解轨迹，通常为 Thought（思考）→ Action（工具/检索/代码调用）→ Observation（观测）的序列
off-policy / on-policy 蒸馏	前者让学生模仿教师生成的轨迹；后者让学生先自跑、再由教师纠错，缓解分布失配与误差级联
FTP / SAG	First-thought Prefix（用 CoT 首步作前缀提升教师轨迹质量）/ Self-consistent Action Generation（测试时多候选取一致动作）
MCP-Box	AgentDistill 中可复用的模块化任务求解单元（Model-Context-Protocol），训练-free 挂载到学生
LoRA / QLoRA / DoRA / PEFT	参数高效微调技术，只训练少量低秩/旁路参数，几个 GPU 小时即可特化小模型
SFT / RL / GRPO / RLVR	监督微调 / 强化学习 / Group Relative Policy Optimization / 带可验证奖励的 RL
RAG	检索增强生成；本方向出现"把 RAG 内化进模型"的蒸馏变体
KV cache / 推测解码 / 量化	端侧推理优化：缓存注意力键值、用小草稿模型加速、降精度（4-bit 等）压缩内存与算力
NPU / EDP / J/token	神经网络处理器 / 能量-延迟积 / 每 token 能耗，端侧能效核心指标
CPS	Cost Per Successful task，每成功任务成本——面向 agent 实用性的新评测指标
orchestrator	编排器/规划器，多智能体系统中负责任务分解、工具选择与子智能体调度的核心
MoA / MAD	Mixture-of-Agents（多智能体分层聚合）/ Multi-Agent Debate（多智能体辩论）
device-cloud collaboration	端云协作：端侧 SLM 默认执行，复杂子任务路由到云端 LLM 兜底
function/tool calling	函数/工具调用：模型按结构化格式选择并调用外部工具/API，是 SLM 最擅长的 agent 能力

12　参考文献（全部为可核实 arXiv 链接）

立场与综述

Small Language Models are the Future of Agentic AI (NVIDIA). arxiv.org/abs/2506.02153 ｜勘误页 correspondence
Small Language Models for Agentic Systems: A Survey. 2510.03847
A Survey on Collaborating Small and Large Language Models. 2510.13890
A Comprehensive Survey of Small Language Models (KDD'25). 2411.03350
On-Device Language Models: A Comprehensive Review. 2409.00088
Cognitive Edge Computing: A Comprehensive Survey. 2501.03265

训练方法（蒸馏/微调）

Distilling LLM Agent into Small Models with Retrieval and Code Tools (NeurIPS'25 Spotlight). 2505.17612
AgentDistill: Training-Free Agent Distillation with Generalizable MCP Boxes. 2506.14728
Enhancing Reasoning in SLMs with Reward Guided Dataset Distillation (AdvDistill). 2507.00054
Fine-tuning with RAG for Improving LLM Learning of New Skills (ICLR'26). 2510.01375
SCoRe: Reinforced Distillation of LLM Agents. 2509.14257
SOD: Step-wise On-policy Distillation for Small Language Model Agents. 2605.07725
MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles. 2512.21708
CMAT: A Multi-Agent Collaboration Tuning Framework (TinyAgent). 2404.01663
EffGen: Efficient Agent Framework for Small Language Models (ICML'26). 2602.00887

多智能体协作

Can Small Agents Collaborate to Beat a Single Large Language Model? 2601.11327
Mixture-of-Agents Enhances Large Language Model Capabilities. 2406.04692
Stop Overvaluing Multi-Agent Debate. 2502.08788
Debate or Vote: Which Yields Better Decisions in Multi-Agent LLMs? (NeurIPS'25 Spotlight). 2508.17536
Rethinking Mixture-of-Agents: Is Mixing Different LLMs Beneficial? 2502.00674
Attention-MoA: Enhancing Mixture-of-Agents. 2601.16596

端侧 / 边缘部署

TinyAgent: Function Calling at the Edge. 2409.00608
Octopus v2: On-device language model for super agent. 2404.01744
TinyLLM: Evaluation and Optimization of SLMs for Agentic Tasks on Edge. 2511.22138
Ferret-UI Lite: Building Small On-Device GUI Agents (Apple). 2509.26539
LightAgent: Mobile Agentic Foundation Models. 2510.22009
mllm-NPU: 1000 tokens/second on-device LLM prefilling. 2407.05858
QuantSpec: Self-Speculative Decoding with Hierarchical Quantized KV Cache (ICML'25). 2502.10424
Edge Deployment of SLMs: CPU vs GPU vs NPU. 2511.22334
Agent.xpu: Efficient Scheduling of Agentic LLM Workloads on Heterogeneous SoC. 2506.24045
PalmBench: Benchmark of Compressed LLMs on Mobile Platforms. 2410.05315

领域专用小 agent

Nano Bio-Agents (NBA): SLM Agents for Genomics. 2509.19566
Toward Cybersecurity-Expert Small Language Models (CyberPal 2.0). 2510.14113
Towards SLMs for Security Query Generation in SOC Workflows. 2512.06660
Agentic Knowledge Distillation: SLMs for SMS Threat Detection. 2602.10869
SWE-Protégé: Selectively Collaborate With an Expert as SE Agents. 2602.22124
Devstral: Fine-tuning Language Models for Coding Agent Applications. 2509.25193
Small Language Models for Efficient Agentic Tool Calling (AAAI'26). 2512.15943

说明：报告中标注的"NeurIPS'25 / ICLR'26 / ICML'25 / AAAI'26"为各论文自述的投稿/接收状态；2026 年编号（26xx.xxxxx）预印本为非常新的工作，部分尚未同行评审，结论宜审慎引用。个别论文（如 OPT-350M tool calling）表述偏营销化，引用其具体数字前建议回原文核对版本与口径。本报告由自动化检索 + 多源抓取核实生成，可作为方向综述与选题起点，不构成对任何论文结论的背书。

执行摘要

四个子方向的核心判断

1 引言：方向定义与研究框架

1.1 什么是"小模型 agent"

1.2 为什么值得关注：NVIDIA 立场论文的三大支柱

1.3 检索范围与方法

2 方向一：大模型 agent 能力的蒸馏与微调

2.1 代表性方法与设定

(1) Agent Distillation（arXiv:2505.17612，NeurIPS 2025 Spotlight）

(2) AgentDistill（arXiv:2506.14728）

(3) AdvDistill — Reward Guided Dataset Distillation（arXiv:2507.00054）

(4) Fine-tuning with RAG（arXiv:2510.01375，ICLR 2026 在审）

(5) SCoRe — Reinforced Distillation of LLM Agents（arXiv:2509.14257）

(6) SOD — Step-wise On-policy Distillation（arXiv:2605.07725，腾讯）

(7) MoRAgent — PEFT with Mixture-of-Roles（arXiv:2512.21708）

(8) CMAT / TinyAgent（arXiv:2404.01663）

(9) EffGen — SLM 原生 agent 框架（arXiv:2602.00887，ICML 2026）

2.2 共性技术趋势

2.3 局限与失败模式

3 方向二：小模型多智能体协作

3.1 关键证据

(1) Can Small Agents Collaborate to Beat a Single LLM?（arXiv:2601.11327）

(2) Mixture-of-Agents（arXiv:2406.04692）

(3) CMAT / TinyAgent（arXiv:2404.01663）

3.2 辩论的祛魅：投票 vs 辩论

3.3 局限

4 方向三：端侧 / 本地 / 边缘部署

4.1 端侧 agent 框架与函数调用（可行性证明）

4.2 手机 GUI agent（把"操作手机的 agent"跑在端侧）

4.3 推理优化与硬件实测

5 方向四：领域专用 / 垂直领域小模型 agent

5.1 代表性工作

5.2 为什么垂直领域适合小模型

5.3 局限

6 评测、基准与指标

7 横向对比与时间线

7.1 关键论文一览

7.2 关键论文时间线

7.3 NVIDIA 的 LLM→SLM 六步转换算法

8 方向潜力评估

8.1 技术可行性分级

8.2 经济性（方向最强的卖点）

8.3 潜力评分

8.4 主要风险

8.5 趋势研判（未来 12–24 个月）

9 落地决策与选型

10 研究空白与选题建议

结论

11 术语表

12 参考文献（全部为可核实 arXiv 链接）

立场与综述

训练方法（蒸馏/微调）

多智能体协作

端侧 / 边缘部署

领域专用小 agent

1　引言：方向定义与研究框架

1.1　什么是"小模型 agent"

1.2　为什么值得关注：NVIDIA 立场论文的三大支柱

1.3　检索范围与方法

2　方向一：大模型 agent 能力的蒸馏与微调

2.1　代表性方法与设定

2.2　共性技术趋势

2.3　局限与失败模式

3　方向二：小模型多智能体协作

3.1　关键证据

3.2　辩论的祛魅：投票 vs 辩论

3.3　局限

4　方向三：端侧 / 本地 / 边缘部署

4.1　端侧 agent 框架与函数调用（可行性证明）

4.2　手机 GUI agent（把"操作手机的 agent"跑在端侧）

4.3　推理优化与硬件实测

5　方向四：领域专用 / 垂直领域小模型 agent

5.1　代表性工作

5.2　为什么垂直领域适合小模型

5.3　局限

6　评测、基准与指标

7　横向对比与时间线

7.1　关键论文一览

7.2　关键论文时间线

7.3　NVIDIA 的 LLM→SLM 六步转换算法

8　方向潜力评估

8.1　技术可行性分级

8.2　经济性（方向最强的卖点）

8.3　潜力评分

8.4　主要风险

8.5　趋势研判（未来 12–24 个月）

9　落地决策与选型

10　研究空白与选题建议

11　术语表

12　参考文献（全部为可核实 arXiv 链接）