第 10 章 面试题与求职(LLM / Agent 岗)
高频面试题 + 精炼参考答案 · 覆盖 LLM/推理/RAG/Agent/工具/多智能体/评测/安全/Coding Agent/系统工程 · 含行为面与求职 tips
用法:先自答再看答案;答案是"采分点指针",深入展开见各章正文链接
本章把前 9 章的知识转成面试可用形态:按主题列高频问题与简明参考答案(采分点而非长篇)。适合 LLM 应用 / Agent / 大模型算法 / AI 工程岗的笔面突击。每节末给出对应正文链接深读。免责:答案为通用要点,面试请结合岗位与你的项目展开。
怎么用:① 盖住答案自述 30 秒;② 对照采分点补缺;③ 用自己的项目替换示例,准备一个能讲 3 分钟的故事。系统设计/开放题没有标准答案,考的是判断力与权衡。
10.1 LLM 基础
- Q:Transformer 为什么用自注意力,相比 RNN 好在哪? 任意两 token 间路径长度 O(1)、可并行训练;RNN 串行且长程依赖衰减。代价是序列长度的 O(n²) 复杂度。
- Q:自注意力复杂度多少?如何缓解长序列开销? O(n²·d)。缓解:FlashAttention(IO 感知、不显式存注意力矩阵)、稀疏/滑动窗口注意力、GQA/MQA(减少 KV 头以压 KV cache)。
- Q:位置编码有哪些?为什么 RoPE 流行? 绝对正弦 / 可学习 / 相对位置 / RoPE / ALiBi。RoPE 以旋转方式注入相对位置,利于长度外推与长上下文。
- Q:KV cache 是什么,为何是推理瓶颈? 自回归时缓存历史 token 的 K/V 避免重复计算;显存随上下文线性增长 → 用 GQA/MQA、PagedAttention(vLLM 分页)缓解。
- Q:decoder-only 为何成主流? 统一自回归目标、规模化简单、少样本/上下文学习强;当今主流(GPT/Claude/LLaMA 系)。
- Q:temperature / top-p / top-k 区别? 都控采样多样性:温度缩放 logits;top-k 取前 k;top-p(nucleus)取累积概率 p 的最小集合。
深读 → 第 1 章 LLM 基础与适配。
10.2 训练与对齐
- Q:预训练目标是什么? next-token prediction 的自监督,吃互联网级语料。
- Q:Scaling Law 与 Chinchilla 结论? 性能随参数 N、数据 D、算力 C 幂律改善;Chinchilla 指出固定算力下"参数与训练 token 近似等比"最优——当时大模型普遍训练不足(70B Chinchilla 胜 280B Gopher)。
- Q:SFT / RLHF / DPO 区别? SFT=指令微调;RLHF=用人类偏好训奖励模型再 PPO 对齐;DPO 用偏好数据直接优化策略,省去显式奖励模型与在线 RL,更稳更省。
- Q:RLHF 三步? ① SFT;② 收集偏好、训练奖励模型;③ 用 RL(PPO)针对奖励优化、并加 KL 约束防漂移。
- Q:LoRA / QLoRA 原理? 冻结主干,仅训练低秩增量 ΔW=BA(参数量大降);QLoRA 在 4-bit 量化主干上做 LoRA,单卡微调大模型。
- Q:幻觉成因与缓解? 模型对缺乏接地的内容"自信编造"。缓解:RAG 接地、要求引用、自洽采样、工具核实、降低无依据生成的激励。
10.3 推理与提示
- Q:CoT 为什么有效? 把答案拆成显式中间步骤,给模型"思考预算",提升多步推理;对复杂任务尤甚。
- Q:Self-Consistency? 采样多条 CoT,对最终答案投票,降方差提准确率。
- Q:o1 / DeepSeek-R1 这类推理模型怎么来的? 用大规模 RL激励长思维链(test-time compute),R1 证明纯规则奖励即可激发推理并可蒸馏到小模型。R1
- Q:长 CoT 的代价? 过度思考/冗长、token 贵;趋势是自适应/简洁思考(按难度决定推理深度,如 adaptive thinking)。
- Q:测试时计算(test-time compute)? 推理阶段花更多算力(更长 CoT、搜索、多候选+验证)换取更高质量,与训练时扩展互补。
深读 → 第 2 章 推理与工具。
10.4 RAG 与检索
- Q:RAG 解决什么问题?三段结构? 解决知识过时/幻觉/不可溯源。三元:检索-生成-增强;范式 Naive → Advanced → Modular。
- Q:dense 检索 vs 关键词(BM25)? 语义召回 vs 字面匹配;实务常 hybrid + rerank(重排)。
- Q:chunking 怎么切? 兼顾"召回完整"与"噪声小":固定大小+重叠、按结构/语义切;过大稀释、过小断义。
- Q:怎么评 RAG? 检索侧召回/精度;生成侧忠实度(faithfulness)、答案相关性、是否引用;端到端 EM/F1 或人评。
- Q:Agentic RAG 与传统 RAG 区别? 让模型自主决定何时检索、检索什么、是否多跳/改写,把检索嵌入推理回路(Deep Research 类)。
- Q:RAG 常见失败与对策? 检索不到→改写/多查询;噪声→rerank;不忠实→引用约束/self-RAG/校验。
10.5 Agent 架构
- Q:Agent 的核心闭环? 感知-决策-行动-记忆;ReAct=推理(Reason)与行动(Act)交替,边想边调工具。
- Q:Reflexion 是什么? 失败后用语言形式的自我反馈写入记忆,下一轮改进。
- Q:规划有哪些套路? 任务分解、计划-执行(Plan-and-Execute)、ReWOO(先规划后并行取证)、树搜索/多方案。
- Q:记忆怎么分类? 短期=上下文窗口;长期=向量库/文件/知识图;关注写入、检索、遗忘策略。
- Q:Anthropic 的 workflow/agent 五种模式? Prompt chaining、Routing、Parallelization、Orchestrator-workers、Evaluator-optimizer;外加"自主 agent"。Building Effective Agents
- Q:什么时候才该上 Agent(而非工作流)? 任务复杂、难一次性规格化、错误可被发现/恢复、且价值足以覆盖更高成本与延迟时。
深读 → 第 3 章 Agent 架构与多智能体。
10.6 工具调用与 MCP
- Q:function calling 怎么工作的? 模型按工具 schema 产出结构化调用 → 你的代码执行 → 结果作为 tool_result 回灌 → 模型续推,循环到结束。
- Q:MCP 是什么,解决什么? Model Context Protocol:标准化"模型↔外部工具/数据"的接口(host-client-server),用一套协议替代 N×M 的定制集成。
- Q:并行工具调用要注意什么? 一条 assistant 消息可含多个 tool_use;所有 tool_result 要放进同一条 user 消息回灌,否则会"训练"模型不再并行。
- Q:工具设计原则? 名称/描述清晰、说明何时调用、参数 schema 严格、少而精;危险/不可逆动作做门控。
- Q:bash 工具 vs 专用工具? bash 给广度;专用工具便于门控、审计、渲染、并行——按是否需要这些来"提拔"。
10.7 多智能体
- Q:何时用多 Agent? 子任务可并行/独立,或需要不同角色/视角(写-审、辩论)。否则单 agent + 工具通常更稳更省。
- Q:协作机制有哪些维度? 参与者/类型(合作/竞争/coopetition)/结构(中心化 vs P2P)/策略/协调协议。
- Q:辩论 vs 投票? 辩论靠交互纠错、成本高;投票(self-consistency 式)简单稳。
- Q:多 Agent 的风险? 成本叠加、错误传播、协调开销、难复现与归因。
10.8 评测
- Q:为什么 Agent 评测比 LLM 难? 长程、依赖环境、不可复现、成本高、轨迹多样难判分。
- Q:列几个主流基准及侧重? GAIA(通用助手)、AgentBench(多域)、τ-bench(工具+用户+策略)、SWE-bench(改代码)、WebArena/OSWorld(GUI 操作)。
- Q:pass@k 和 pass^k 区别? pass@k=k 次至少一次成功;pass^k=k 次每次都成功,衡量可靠性(τ-bench 用)。
- Q:LLM-as-judge 的坑? 位置/长度/自我偏好等偏置、可被操纵;需多评、打乱顺序、给 rubric、必要时人校准。
深读 → 第 4 章 评测、系统与安全。
10.9 安全与可信
- Q:什么是 prompt injection?直接 vs 间接? 外部内容劫持模型指令。直接=用户直接注入;间接=被读取的网页/文件/工具返回里藏指令。缓解:内容与指令隔离、最小权限、关键动作人确认、输出校验、护栏。
- Q:Agent 比 Chatbot 多了哪些风险? 会"做错"而非只"说错":越权工具调用、数据外泄、不可逆操作。对策:沙箱、工具白名单、HITL、不可逆动作确认。
- Q:怎么防数据泄露? 记忆/日志不存密钥与敏感 PII;遵守 GDPR/CCPA;多租户隔离。
- Q:列一个权威清单? OWASP Top 10 for LLM Applications。
10.10 Coding Agent 专题
- Q:coding agent 与 Copilot 补全的本质区别? 自主闭环:读仓库→改多文件→跑测试→看报错→迭代;补全只预测下一段。
- Q:SWE-bench 测什么?为何是标尺? 真实 GitHub issue 改代码、过测试通过率,贴近真实工程。
- Q:agentic vs agentless? 自主决策 vs 固定"定位-修复-验证"流水线;Agentless 证明简单流水线也能很强。
- Q:为什么"定位"是成败关键? 大仓库找对该改的地方;手段:检索/grep、AST 结构检索、谱系故障定位(SBFL)。
- Q:怎么提升通过率? 复现-修复-验证、生成多候选并用测试筛、ACI 容错动作集、逐改动人审。
深读 → 第 9 章 编程 Agent。
10.11 系统与工程
- Q:LLM 推理优化手段? 量化(INT8/4)、KV cache、PagedAttention(vLLM)、连续批处理(continuous batching)、投机解码(speculative decoding)、张量/流水并行。
- Q:怎么降本? prompt caching(缓存稳定前缀,命中约 0.1×)、模型分级/路由(简单任务用小模型)、批处理 API、限制 max_tokens/effort。
- Q:prompt cache 为何老不命中? 前缀里有易变内容(时间戳/UUID/未排序 JSON/每请求变化的工具集)破坏前缀匹配;把易变内容后置。
- Q:长输出为什么要流式? 大 max_tokens 非流式易触发 HTTP 超时;流式边出边收并可显示进度。
- Q:上线一个 Agent 要监控什么? trace/轨迹回放、token 与成本、工具调用成功率与延迟、失败归因、护栏命中。
- Q:端侧/小模型何时合适? 重复、专一、低延迟、隐私敏感的子任务——异构系统里用 SLM 承接(见 第 5 章)。
10.12 行为面与求职 tips
- 讲项目用 STAR + 量化: 情境-任务-行动-结果,给出数字(准确率/延迟/成本下降)、你的关键决策与权衡、踩过的坑与如何定位。
- 八股 vs 项目: 两手抓,但面试官更看判断力——能否在约束下做合理取舍、说清"为什么这么选"。
- 系统设计题套路: 例"设计一个客服 Agent / 企业 RAG"——按 需求与边界 → 数据与检索 → 工具与动作 → 护栏与权限 → 评测与回归 → 成本与延迟 → 迭代上线 展开。
- 诚实优于硬撑: 不会的题,说清已知边界 + 给出排查思路,比编造更得分。
- 展示"跟得上前沿": 用本站 第 7 章 综述 建体系、第 8 章 每日新论文 跟动态、关注 arXiv 与厂商工程博客。
- 作品集 > 简历堆叠: 一个能跑、有评测、讲得清取舍的 Agent/RAG demo,胜过十个名词。
速记口诀:基础看注意力/KV/RoPE;对齐看SFT→RLHF/DPO + LoRA;推理看CoT/自洽/测试时计算;RAG 看检索-生成-增强 + 忠实度;Agent 看ReAct/规划/记忆/工具 + 何时该上;工程看缓存/批处理/投机解码/可观测;安全看prompt injection + 最小权限 + HITL。