第 10 章　面试题与求职（LLM / Agent 岗）

高频面试题 + 精炼参考答案 · 覆盖 LLM/推理/RAG/Agent/工具/多智能体/评测/安全/Coding Agent/系统工程 · 含行为面与求职 tips

用法：先自答再看答案；答案是"采分点指针"，深入展开见各章正文链接

本章把前 9 章的知识转成面试可用形态：按主题列高频问题与简明参考答案（采分点而非长篇）。适合 LLM 应用 / Agent / 大模型算法 / AI 工程岗的笔面突击。每节末给出对应正文链接深读。免责：答案为通用要点，面试请结合岗位与你的项目展开。

怎么用：① 盖住答案自述 30 秒；② 对照采分点补缺；③ 用自己的项目替换示例，准备一个能讲 3 分钟的故事。系统设计/开放题没有标准答案，考的是判断力与权衡。

10.1　LLM 基础

Q：Transformer 为什么用自注意力，相比 RNN 好在哪？ 任意两 token 间路径长度 O(1)、可并行训练；RNN 串行且长程依赖衰减。代价是序列长度的 O(n²) 复杂度。
Q：自注意力复杂度多少？如何缓解长序列开销？ O(n²·d)。缓解：FlashAttention（IO 感知、不显式存注意力矩阵）、稀疏/滑动窗口注意力、GQA/MQA（减少 KV 头以压 KV cache）。
Q：位置编码有哪些？为什么 RoPE 流行？ 绝对正弦 / 可学习 / 相对位置 / RoPE / ALiBi。RoPE 以旋转方式注入相对位置，利于长度外推与长上下文。
Q：KV cache 是什么，为何是推理瓶颈？ 自回归时缓存历史 token 的 K/V 避免重复计算；显存随上下文线性增长 → 用 GQA/MQA、PagedAttention（vLLM 分页）缓解。
Q：decoder-only 为何成主流？ 统一自回归目标、规模化简单、少样本/上下文学习强；当今主流（GPT/Claude/LLaMA 系）。
Q：temperature / top-p / top-k 区别？ 都控采样多样性：温度缩放 logits；top-k 取前 k；top-p（nucleus）取累积概率 p 的最小集合。

深读 → 第 1 章 LLM 基础与适配。

10.2　训练与对齐

Q：预训练目标是什么？ next-token prediction 的自监督，吃互联网级语料。
Q：Scaling Law 与 Chinchilla 结论？ 性能随参数 N、数据 D、算力 C 幂律改善；Chinchilla 指出固定算力下"参数与训练 token 近似等比"最优——当时大模型普遍训练不足（70B Chinchilla 胜 280B Gopher）。
Q：SFT / RLHF / DPO 区别？ SFT=指令微调；RLHF=用人类偏好训奖励模型再 PPO 对齐；DPO 用偏好数据直接优化策略，省去显式奖励模型与在线 RL，更稳更省。
Q：RLHF 三步？ ① SFT；② 收集偏好、训练奖励模型；③ 用 RL（PPO）针对奖励优化、并加 KL 约束防漂移。
Q：LoRA / QLoRA 原理？ 冻结主干，仅训练低秩增量 ΔW=BA（参数量大降）；QLoRA 在 4-bit 量化主干上做 LoRA，单卡微调大模型。
Q：幻觉成因与缓解？ 模型对缺乏接地的内容"自信编造"。缓解：RAG 接地、要求引用、自洽采样、工具核实、降低无依据生成的激励。

10.3　推理与提示

Q：CoT 为什么有效？ 把答案拆成显式中间步骤，给模型"思考预算"，提升多步推理；对复杂任务尤甚。
Q：Self-Consistency？ 采样多条 CoT，对最终答案投票，降方差提准确率。
Q：o1 / DeepSeek-R1 这类推理模型怎么来的？ 用大规模 RL激励长思维链（test-time compute），R1 证明纯规则奖励即可激发推理并可蒸馏到小模型。R1
Q：长 CoT 的代价？ 过度思考/冗长、token 贵；趋势是自适应/简洁思考（按难度决定推理深度，如 adaptive thinking）。
Q：测试时计算（test-time compute）？ 推理阶段花更多算力（更长 CoT、搜索、多候选+验证）换取更高质量，与训练时扩展互补。

深读 → 第 2 章推理与工具。

10.4　RAG 与检索

Q：RAG 解决什么问题？三段结构？ 解决知识过时/幻觉/不可溯源。三元：检索-生成-增强；范式 Naive → Advanced → Modular。
Q：dense 检索 vs 关键词(BM25)？ 语义召回 vs 字面匹配；实务常 hybrid + rerank（重排）。
Q：chunking 怎么切？ 兼顾"召回完整"与"噪声小"：固定大小+重叠、按结构/语义切；过大稀释、过小断义。
Q：怎么评 RAG？ 检索侧召回/精度；生成侧忠实度(faithfulness)、答案相关性、是否引用；端到端 EM/F1 或人评。
Q：Agentic RAG 与传统 RAG 区别？ 让模型自主决定何时检索、检索什么、是否多跳/改写，把检索嵌入推理回路（Deep Research 类）。
Q：RAG 常见失败与对策？ 检索不到→改写/多查询；噪声→rerank；不忠实→引用约束/self-RAG/校验。

10.5　Agent 架构

Q：Agent 的核心闭环？ 感知-决策-行动-记忆；ReAct=推理(Reason)与行动(Act)交替，边想边调工具。
Q：Reflexion 是什么？ 失败后用语言形式的自我反馈写入记忆，下一轮改进。
Q：规划有哪些套路？ 任务分解、计划-执行(Plan-and-Execute)、ReWOO（先规划后并行取证）、树搜索/多方案。
Q：记忆怎么分类？ 短期=上下文窗口；长期=向量库/文件/知识图；关注写入、检索、遗忘策略。
Q：Anthropic 的 workflow/agent 五种模式？ Prompt chaining、Routing、Parallelization、Orchestrator-workers、Evaluator-optimizer；外加"自主 agent"。Building Effective Agents
Q：什么时候才该上 Agent（而非工作流）？ 任务复杂、难一次性规格化、错误可被发现/恢复、且价值足以覆盖更高成本与延迟时。

深读 → 第 3 章 Agent 架构与多智能体。

10.6　工具调用与 MCP

Q：function calling 怎么工作的？ 模型按工具 schema 产出结构化调用 → 你的代码执行 → 结果作为 tool_result 回灌 → 模型续推，循环到结束。
Q：MCP 是什么，解决什么？ Model Context Protocol：标准化"模型↔外部工具/数据"的接口（host-client-server），用一套协议替代 N×M 的定制集成。
Q：并行工具调用要注意什么？ 一条 assistant 消息可含多个 tool_use；所有 tool_result 要放进同一条 user 消息回灌，否则会"训练"模型不再并行。
Q：工具设计原则？ 名称/描述清晰、说明何时调用、参数 schema 严格、少而精；危险/不可逆动作做门控。
Q：bash 工具 vs 专用工具？ bash 给广度；专用工具便于门控、审计、渲染、并行——按是否需要这些来"提拔"。

10.7　多智能体

Q：何时用多 Agent？ 子任务可并行/独立，或需要不同角色/视角（写-审、辩论）。否则单 agent + 工具通常更稳更省。
Q：协作机制有哪些维度？ 参与者/类型(合作/竞争/coopetition)/结构(中心化 vs P2P)/策略/协调协议。
Q：辩论 vs 投票？ 辩论靠交互纠错、成本高；投票（self-consistency 式）简单稳。
Q：多 Agent 的风险？ 成本叠加、错误传播、协调开销、难复现与归因。

10.8　评测

Q：为什么 Agent 评测比 LLM 难？ 长程、依赖环境、不可复现、成本高、轨迹多样难判分。
Q：列几个主流基准及侧重？ GAIA(通用助手)、AgentBench(多域)、τ-bench(工具+用户+策略)、SWE-bench(改代码)、WebArena/OSWorld(GUI 操作)。
Q：pass@k 和 pass^k 区别？ pass@k=k 次至少一次成功；pass^k=k 次每次都成功，衡量可靠性（τ-bench 用）。
Q：LLM-as-judge 的坑？ 位置/长度/自我偏好等偏置、可被操纵；需多评、打乱顺序、给 rubric、必要时人校准。

深读 → 第 4 章评测、系统与安全。

10.9　安全与可信

Q：什么是 prompt injection？直接 vs 间接？ 外部内容劫持模型指令。直接=用户直接注入；间接=被读取的网页/文件/工具返回里藏指令。缓解：内容与指令隔离、最小权限、关键动作人确认、输出校验、护栏。
Q：Agent 比 Chatbot 多了哪些风险？ 会"做错"而非只"说错"：越权工具调用、数据外泄、不可逆操作。对策：沙箱、工具白名单、HITL、不可逆动作确认。
Q：怎么防数据泄露？ 记忆/日志不存密钥与敏感 PII；遵守 GDPR/CCPA；多租户隔离。
Q：列一个权威清单？ OWASP Top 10 for LLM Applications。

10.10　Coding Agent 专题

Q：coding agent 与 Copilot 补全的本质区别？ 自主闭环：读仓库→改多文件→跑测试→看报错→迭代；补全只预测下一段。
Q：SWE-bench 测什么？为何是标尺？ 真实 GitHub issue 改代码、过测试通过率，贴近真实工程。
Q：agentic vs agentless？ 自主决策 vs 固定"定位-修复-验证"流水线；Agentless 证明简单流水线也能很强。
Q：为什么"定位"是成败关键？ 大仓库找对该改的地方；手段：检索/grep、AST 结构检索、谱系故障定位(SBFL)。
Q：怎么提升通过率？ 复现-修复-验证、生成多候选并用测试筛、ACI 容错动作集、逐改动人审。

深读 → 第 9 章编程 Agent。

10.11　系统与工程

Q：LLM 推理优化手段？ 量化(INT8/4)、KV cache、PagedAttention(vLLM)、连续批处理(continuous batching)、投机解码(speculative decoding)、张量/流水并行。
Q：怎么降本？ prompt caching（缓存稳定前缀，命中约 0.1×）、模型分级/路由（简单任务用小模型）、批处理 API、限制 max_tokens/effort。
Q：prompt cache 为何老不命中？ 前缀里有易变内容（时间戳/UUID/未排序 JSON/每请求变化的工具集）破坏前缀匹配；把易变内容后置。
Q：长输出为什么要流式？ 大 max_tokens 非流式易触发 HTTP 超时；流式边出边收并可显示进度。
Q：上线一个 Agent 要监控什么？ trace/轨迹回放、token 与成本、工具调用成功率与延迟、失败归因、护栏命中。
Q：端侧/小模型何时合适？ 重复、专一、低延迟、隐私敏感的子任务——异构系统里用 SLM 承接（见第 5 章）。

10.12　行为面与求职 tips

讲项目用 STAR + 量化： 情境-任务-行动-结果，给出数字（准确率/延迟/成本下降）、你的关键决策与权衡、踩过的坑与如何定位。
八股 vs 项目： 两手抓，但面试官更看判断力——能否在约束下做合理取舍、说清"为什么这么选"。
系统设计题套路： 例"设计一个客服 Agent / 企业 RAG"——按需求与边界 → 数据与检索 → 工具与动作 → 护栏与权限 → 评测与回归 → 成本与延迟 → 迭代上线展开。
诚实优于硬撑： 不会的题，说清已知边界 + 给出排查思路，比编造更得分。
展示"跟得上前沿"： 用本站第 7 章综述建体系、第 8 章每日新论文跟动态、关注 arXiv 与厂商工程博客。
作品集 > 简历堆叠： 一个能跑、有评测、讲得清取舍的 Agent/RAG demo，胜过十个名词。

速记口诀：基础看注意力/KV/RoPE；对齐看SFT→RLHF/DPO + LoRA；推理看CoT/自洽/测试时计算；RAG 看检索-生成-增强 + 忠实度；Agent 看ReAct/规划/记忆/工具 + 何时该上；工程看缓存/批处理/投机解码/可观测；安全看prompt injection + 最小权限 + HITL。

第 10 章 面试题与求职（LLM / Agent 岗）

10.1 LLM 基础

10.2 训练与对齐

10.3 推理与提示

10.4 RAG 与检索

10.5 Agent 架构

10.6 工具调用与 MCP

10.7 多智能体

10.8 评测

10.9 安全与可信

10.10 Coding Agent 专题

10.11 系统与工程

10.12 行为面与求职 tips

第 10 章　面试题与求职（LLM / Agent 岗）

10.1　LLM 基础

10.2　训练与对齐

10.3　推理与提示

10.4　RAG 与检索

10.5　Agent 架构

10.6　工具调用与 MCP

10.7　多智能体

10.8　评测

10.9　安全与可信

10.10　Coding Agent 专题

10.11　系统与工程

10.12　行为面与求职 tips