第 1 章　LLM 基础与适配

Transformer 与注意力 · 预训练与 Scaling Law · 后训练(RLHF/DPO) · 提示/RAG/微调的取舍

本章把"现代 LLM 为什么长这样、训练成什么样、又如何被适配到下游与 agent"梳理成一条可追溯的主线。下图给出 LLM 全生命周期：语料 → 预训练（基座）→ 后训练（对齐）→ 适配 → Agentic 应用。

图 1.1　LLM 全生命周期：从语料到 Agentic 应用

1　LLM 基础

1.1　Transformer 与注意力

现代 LLM 几乎全部建立在 Transformer（Vaswani et al., 2017）之上：用自注意力（self-attention）完全替代循环与卷积，把长程依赖的路径长度压到 O(1) 并高度并行。要点：Scaled Dot-Product Attention（softmax(QKᵀ/√d_k)·V，除以 √d_k 防梯度饱和）、多头注意力（在不同表征子空间并行关注不同关系）、位置编码（原文正弦/余弦，现代多用 RoPE/ALiBi 以利长度外推）、以及"注意力 + 逐位置 FFN + 残差 + LayerNorm（现代多 Pre-LN）"的 block 结构。

架构分化为 encoder-only（BERT，理解）、encoder-decoder（T5，seq2seq）与当今主流 LLM 的 decoder-only（GPT，自回归）。工程瓶颈是注意力的 O(n²) 复杂度，常用 FlashAttention（IO 感知精确注意力）、GQA/MQA（缩小 KV cache）、滑动窗口注意力缓解。

1.2　预训练与 Scaling Law

主流目标是自回归（next-token prediction）的自监督学习，可吃下互联网级语料。GPT-3（Brown et al., 2020）证明仅靠扩大预训练，模型即可通过提示完成下游任务（in-context learning）。Scaling law 指性能随参数 N、数据 D、算力 C 呈幂律改善。转折点是 Chinchilla（Hoffmann et al., 2022）：当时大模型严重训练不足，固定算力下"参数与训练 token 应近似等比例增长"——70B 的 Chinchilla 全面超过 280B 的 Gopher。

工程含义：Chinchilla 优化的是训练算力；若把推理成本计入（模型部署后被调用无数次），实践常倾向"更小但喂更多数据"的模型——这正是 LLaMA、Mistral 等可在消费级硬件运行的小模型路线的理论支撑（亦呼应第 5 章小模型 Agent）。

涌现能力及其争议

涌现能力（Wei et al., 2022）指小模型近乎为零、规模越过阈值后"突然"出现且不可外推的能力。反方代表作 Are Emergent Abilities a Mirage?（Schaeffer et al., 2023）论证：所谓涌现很大程度是非线性评测指标的产物，换用连续指标后同一批模型呈平滑、可预测的提升。折中看法：阈值化指标定义的"涌现"应谨慎，但某些下游能力确随规模快速改善；结论高度依赖"用什么指标度量"——这是评测方法论的重要警示。

1.3　后训练（对齐）

基座模型只会续写文本，后训练把它对齐到人类意图。第一步是监督微调（SFT / 指令微调）。InstructGPT（Ouyang et al., 2022）确立经典 RLHF 三阶段：SFT → 训练奖励模型(RM，对输出排序) → 用 PPO 优化策略并加 KL 惩罚约束。标志性结果：1.3B 的 InstructGPT 在人类偏好上胜过 175B GPT-3——对齐的价值可顶过 100 倍参数。

DPO（Rafailov et al., 2023）是重要简化：把 LLM 本身重参数化为隐式奖励模型，用类分类损失直接在偏好对（chosen vs rejected）上微调，省去显式 RM 与 RL 采样，稳定轻量。主要变体：

变体	一句话改进点
IPO	加正则，缓解对确定性偏好的过拟合
KTO	只需"好/坏"二元标签（无需成对排序），更贴近业务数据
ORPO	把 SFT 与偏好对齐合并为单阶段
SimPO	去参考模型、长度归一化奖励，进一步降显存

趋势：RLHF(PPO) → DPO → 各类无参考/单阶段变体，方向是"尽量不掉对齐质量的前提下持续降低工程复杂度"。前沿模型仍保留在线 RLHF，因其上限通常更高。

1.4　解码与上下文窗口

解码：Greedy/Beam 适合确定性任务；开放生成用 Temperature + Top-k/Top-p(nucleus) 采样兼顾多样性与连贯。Agent 场景（需可解析、可复现的工具调用）通常用低温甚至 temperature=0，并越来越依赖约束解码（强制合法 JSON/受限语法）。

上下文窗口从 GPT-3 的 2K 扩到主流 128K 乃至 1M+。但 Lost in the Middle（Liu et al., 2023）发现模型对中段信息利用率显著下降（U 形）——最相关证据应放 prompt 首尾。叠加 O(n²) 的延迟与费用，"把一切塞进超长 prompt"常不如"精准检索 + 短上下文"经济（见 2.3/2.4）。

2　适配为下游 / Agent 用

拿到通用 LLM 后，把它变得"在你的任务/数据/agent 流程里好用"主要有三条路径：提示工程、RAG、参数高效微调。三者并非互斥，生产系统常组合使用。

2.1　提示工程与上下文学习（ICL）

In-Context Learning（GPT-3 揭示）不更新参数，仅靠 prompt 中的指令/示例"现学现用"：Zero-shot（只给指令）、Few-shot（给"输入→输出"示范，对格式敏感任务尤其有效；示例的选择/顺序/数量都显著影响结果）、Chain-of-Thought（提示"一步步思考"，是 agent 推理的基础，详见第 2 章）。优点是零训练、迭代极快；局限是受窗口限制、稳定性不如微调、无法注入大规模私有知识、对措辞敏感。

2.2　参数高效微调（PEFT：LoRA / QLoRA）

全参数微调成本高昂（每任务存一份完整权重）。PEFT 只训练极小部分参数、冻结主干：

LoRA（Hu et al., 2021）：冻结预训练权重，在各层注入可训练的低秩矩阵 ΔW=BA。相比对 GPT-3 175B 全量微调，可训练参数约降 1 万倍、显存约降 3 倍，质量持平或更好；推理时可把 ΔW 合并回原权重，零额外延迟，多任务只切换小 adapter。
QLoRA（Dettmers et al., 2023）：在 LoRA 上叠加 4-bit 量化主干（NF4/双重量化/分页优化器），把门槛压到单张 48GB GPU 微调 65B 模型，质量基本不掉。

优点：成本远低于全量微调、行为比提示更稳定可控、可压缩推理 prompt（把指令内化进权重）。局限：需标注数据与工程投入；知识更新不及时（学到的知识冻结在微调那一刻），不擅长引入大规模、频繁变动的事实——后者是 RAG 的强项。

2.3　检索增强生成（RAG）

RAG（Lewis et al., 2020）把参数化记忆（权重里的知识）与非参数化记忆（可检索的外部库）结合，直接对症 LLM 的幻觉、知识过时、不可追溯。综述（Gao et al., 2023）归纳三代：Naive（检索→拼接→生成）、Advanced（检索前查询改写/路由 + 检索后重排/压缩）、Modular（组件化、可迭代检索/自反思，与 agent 融合）。核心组件：索引（切块→embedding→向量库）、检索（稠密/稀疏/混合）、重排（cross-encoder 精排，把最相关放首尾）、生成（带依据、可引用）。优点：知识可实时更新、答案可溯源、显著降幻觉；局限：系统更复杂、受检索质量上限制约、增加检索延迟。

2.4　何时选提示 vs RAG vs 微调

常见决策顺序：先用提示打样 → 知识缺口用 RAG 补 → 行为/风格/格式缺口用微调固化。

维度	提示 / ICL	RAG	微调 (SFT/PEFT)
前期成本	极低	中（建检索管线）	中–高（PEFT 显著降低）
单次推理成本	低–中	中（检索+长上下文）	低（知识内化，prompt 更短）
知识时效性	受训练截止限制	最强：改库即更新	弱：需重训才更新
可控性/稳定性	较弱，对措辞敏感	中	最强：风格/格式最稳
抗幻觉/可溯源	弱	强：可引用来源	中
迭代速度	最快	较快	慢（需重训）
典型场景	快速原型、通用任务、CoT	企业知识库、需引用与实时数据	固定领域风格、严格格式、专有行为

组合实践：生产级 agent 常见栈 = 指令微调的基座 + RAG 提供知识 + 精心设计的提示/工具调用协议。先用 LoRA 对齐到固定输出格式与领域语气，再用 RAG 注入实时知识，最后用提示编排多步推理与工具调用。

关键论文（已核实链接）

Attention Is All You Need (Vaswani et al., 2017) — Transformer 与自注意力的奠基。 arxiv 1706.03762
Language Models are Few-Shot Learners / GPT-3 (Brown et al., 2020) — 扩大预训练解锁 in-context learning。 2005.14165
Training Compute-Optimal LLMs / Chinchilla (Hoffmann et al., 2022) — 参数与数据应等比扩展。 2203.15556
Emergent Abilities of LLMs (Wei et al., 2022)。 2206.07682 ｜反方 Are Emergent Abilities a Mirage? (Schaeffer et al., 2023) 2304.15004
InstructGPT / RLHF (Ouyang et al., 2022) — SFT+RM+PPO 三阶段；1.3B 胜 175B。 2203.02155
Direct Preference Optimization / DPO (Rafailov et al., 2023)。 2305.18290
Lost in the Middle (Liu et al., 2023) — 长上下文中段利用率骤降。 2307.03172
LoRA (Hu et al., 2021) 2106.09685 ｜ QLoRA (Dettmers et al., 2023) 2305.14314
RAG for Knowledge-Intensive NLP (Lewis et al., 2020) 2005.11401 ｜ RAG: A Survey (Gao et al., 2023) 2312.10997

第 1 章 LLM 基础与适配

1 LLM 基础

1.1 Transformer 与注意力

1.2 预训练与 Scaling Law

涌现能力及其争议

1.3 后训练（对齐）

1.4 解码与上下文窗口

2 适配为下游 / Agent 用

2.1 提示工程与上下文学习（ICL）

2.2 参数高效微调（PEFT：LoRA / QLoRA）

2.3 检索增强生成（RAG）

2.4 何时选 提示 vs RAG vs 微调

关键论文（已核实链接）

第 1 章　LLM 基础与适配

1　LLM 基础

1.1　Transformer 与注意力

1.2　预训练与 Scaling Law

1.3　后训练（对齐）

1.4　解码与上下文窗口

2　适配为下游 / Agent 用

2.1　提示工程与上下文学习（ICL）

2.2　参数高效微调（PEFT：LoRA / QLoRA）

2.3　检索增强生成（RAG）

2.4　何时选提示 vs RAG vs 微调