第一层:基础认知(Why / What)【5 题】

Q1. 你如何用工程视角解释 Transformer 为什么能成为 LLM 的核心架构?

面试官为什么问这个问题:
这题不是考论文细节,而是看你是否真正理解 Transformer 相比 RNN/CNN 的工程优势。

参考口语化回答:
从工程角度看,Transformer 最大优势是并行友好。
RNN 天生是串行的,算力吃不满;Transformer 用自注意力,一次就能看全局。
这使得大规模训练和推理在工程上可行,是它能成为 LLM 基础的关键原因。

Q2. 在 LLM 语境下,你如何区分”模型架构能力”和”参数规模效应”?

面试官为什么问这个问题:
考察你是否把”模型大”当成唯一答案。

参考口语化回答:
架构决定上限,规模决定逼近程度。
Transformer 提供了足够强的表达能力,
参数规模更多是在逼近这个能力边界。
没有合适架构,堆参数意义不大。

Q3. 为什么 Transformer 能比传统模型更好地建模长文本?

面试官为什么问这个问题:
这是对自注意力本质理解的考察。

参考口语化回答:
因为自注意力让每个 token 都能直接看到其他 token。
不像 RNN 需要一步步传递信息,
距离越远信息越衰减。
Transformer 在结构上就避免了这个问题。

Q4. 在你看来,LLM 本质上在”学什么”?

面试官为什么问这个问题:
这题考你对 LLM 能力边界的认知。

参考口语化回答:
本质上是在学条件概率分布。
给定上下文,下一个 token 最可能是什么。
所谓推理、总结、对话能力,
都是在这个基础上涌现出来的。

Q5. 为什么说 Transformer 更像”信息路由器”,而不是传统意义的规则系统?

面试官为什么问这个问题:
考察你是否理解模型内部机制,而不是神秘化 LLM。

参考口语化回答:
自注意力本质是在给不同 token 分配权重。
模型不是按规则推理,而是在动态选择”哪些信息更重要”。
从这个角度看,它更像一个复杂的信息路由系统。

第二层:核心结构理解(How)【8 题】

Q6. 你如何用通俗语言解释 Self-Attention 的计算过程?

面试官为什么问这个问题:
这是 Transformer 的核心概念,考察你是否能讲清楚。

参考口语化回答:
可以理解成:
每个 token 都在问”当前我应该重点关注谁”。
通过 Q、K 计算相关性,再用 V 聚合信息。
最后得到一个”融合了上下文”的新表示。

Q7. 为什么 Attention 需要除以 √d?

面试官为什么问这个问题:
这是一个细节题,但能明显区分理解深度。

参考口语化回答:
维度一大,点积结果会变得很大,
softmax 容易饱和,梯度会变小。
除以 √d 是为了保持数值稳定,
这是一个很工程化的设计。

Q8. Multi-Head Attention 的价值到底是什么?

面试官为什么问这个问题:
很多人会背定义,但理解不深。

参考口语化回答:
多头不是为了算得更复杂,
而是让模型能从不同子空间看问题。
有的头关注语义,有的关注句法,
信息表达会更丰富。

Q9. 为什么 Transformer 需要 Position Encoding?

面试官为什么问这个问题:
这是序列建模的核心问题。

参考口语化回答:
因为 Attention 本身对顺序不敏感。
如果不加位置编码,
模型根本不知道”谁在前谁在后”。
Position Encoding 本质上是在补序列信息。

Q10. 在 LLM 中,Encoder-only、Decoder-only、Encoder-Decoder 有什么本质区别?

面试官为什么问这个问题:
考察你是否理解架构与任务的关系。

参考口语化回答:
Encoder 更擅长理解,
Decoder 更擅长生成。
LLM 以生成任务为主,
所以主流基本都是 Decoder-only 架构。

Q11. 为什么 Decoder 中需要 Masked Self-Attention?

面试官为什么问这个问题:
这是生成模型的关键机制。

参考口语化回答:
因为生成是一步步来的,
当前 token 不能看到未来信息。
Mask 保证了因果性,
否则训练和推理都会出问题。

Q12. Feed Forward Network 在 Transformer 中的真实作用是什么?

面试官为什么问这个问题:
很多人会忽略 FFN 的重要性。

参考口语化回答:
Attention 负责信息交互,
FFN 负责非线性变换和表达能力提升。
没有 FFN,模型的表示能力会明显受限。

Q13. LayerNorm 在 Transformer 中解决了什么问题?

面试官为什么问这个问题:
这是训练稳定性的关键。

参考口语化回答:
它能稳定激活分布,
避免深层网络训练发散。
在大模型中,没有 LayerNorm,
基本很难训稳。

第三层:训练与推理机制【8 题】

Q14. Transformer 训练阶段和推理阶段最大的差异是什么?

面试官为什么问这个问题:
这是工程落地的基础问题。

参考口语化回答:
训练时是并行算所有 token,
推理时是自回归,一个 token 一个 token 来。
这也是为什么推理阶段性能瓶颈非常明显。

Q15. 为什么 LLM 推理速度往往比训练更难优化?

面试官为什么问这个问题:
考察你是否有实际部署经验。

参考口语化回答:
因为推理是串行依赖的。
训练可以并行,推理不行。
工程优化更多集中在 KV Cache、并行策略上。

Q16. 你如何理解 KV Cache 的作用?

面试官为什么问这个问题:
这是 LLM 推理优化的必考点。

参考口语化回答:
KV Cache 是把历史 token 的 Key、Value 缓存起来。
避免每一步都重复计算。
否则长文本推理成本会指数级增长。

Q17. KV Cache 带来的工程代价是什么?

面试官为什么问这个问题:
这是权衡问题。

参考口语化回答:
显存占用会明显增加。
上下文越长,Cache 越大。
所以在工程上要在速度和显存之间取平衡。

Q18. Transformer 的时间复杂度瓶颈主要在哪里?

面试官为什么问这个问题:
这是性能意识问题。

参考口语化回答:
Self-Attention 是 O(n²)。
上下文一长,计算和显存都会爆。
这也是长上下文优化一直很难的原因。

Q19. 你如何理解 LLM 的”上下文窗口限制”?

面试官为什么问这个问题:
考察你是否理解模型边界。

参考口语化回答:
上下文窗口本质上是模型一次能处理的 token 数。
超过这个范围,模型就”看不到”了。
工程上只能通过截断、摘要或 RAG 解决。

Q20. 为什么长上下文训练比短上下文难得多?

面试官为什么问这个问题:
这是工程与算法结合的问题。

参考口语化回答:
不仅算力成本高,
梯度稳定性、显存、优化难度都会上升。
这不是简单把长度调大就能解决的。

Q21. Transformer 中你如何理解”参数共享”的价值?

面试官为什么问这个问题:
这是模型设计哲学问题。

参考口语化回答:
同一套参数在不同位置重复使用,
提升了泛化能力,也降低了参数量。
这也是 Transformer 能规模化的重要原因。

第四层:能力、局限与工程应对【6 题】

Q22. Transformer 架构本身是否具备”逻辑推理能力”?

面试官为什么问这个问题:
这是对 LLM 认知理性的考察。

参考口语化回答:
它本身不具备显式逻辑推理机制。
更多是通过模式匹配和统计关联。
看起来像推理,本质是高维空间中的映射。

Q23. 为什么 LLM 在长链路推理中容易出错?

面试官为什么问这个问题:
这是幻觉问题的结构性原因。

参考口语化回答:
因为每一步都是基于前一步的概率输出。
误差会逐步累积。
链路越长,不确定性越大。

Q24. Transformer 对”世界模型”的表达能力有什么局限?

面试官为什么问这个问题:
这是能力边界问题。

参考口语化回答:
它没有真实感知和因果反馈。
世界知识来自文本统计,而不是交互。
这决定了它对现实世界的理解是间接的。

Q25. 在工程上,如何弥补 Transformer 的事实不确定性?

面试官为什么问这个问题:
这是 LLM 应用落地的关键。

参考口语化回答:
通过 RAG、规则约束、人工校验。
不要让模型凭空生成事实。
工程手段比模型本身更重要。

Q26. Transformer 架构为什么容易”自信地胡说”?

面试官为什么问这个问题:
这是幻觉本质问题。

参考口语化回答:
模型目标是生成最可能的 token,
而不是验证真实性。
它不知道”自己不知道”,
所以会自然生成看似合理的内容。

Q27. 你如何在系统设计中限制 Transformer 的”自由度”?

面试官为什么问这个问题:
这是工程控制能力问题。

参考口语化回答:
通过限定上下文来源、
限制输出格式、
增加校验与兜底。
自由度越大,风险越高。

第五层:进阶视野与判断力【3 题】

Q28. 你如何看待 Transformer 是否会被”下一代架构”取代?

面试官为什么问这个问题:
这是技术趋势判断题。

参考口语化回答:
短期内很难完全取代。
更多可能是在 Attention 上做改进,
而不是彻底推翻 Transformer。

Q29. 对 AI 应用工程师来说,理解 Transformer 的”哪一层”最重要?

面试官为什么问这个问题:
这是岗位匹配度问题。

参考口语化回答:
不是所有数学细节,
而是 Attention、上下文、推理机制。
这些直接影响系统设计和效果。

Q30. 面试官通过 Transformer 问题,最想判断你什么?

面试官为什么问这个问题:
这是综合心理判断题。

参考口语化回答:
是否理解 LLM 的能力边界,
是否知道该依赖模型,还是该用工程兜底。
这是能否把 LLM 用到生产环境的关键。


第一层:基础认知(Why / What)【5 题】

Q1. 【为什么 Transformer 能成为大模型的基础架构,而不是 RNN / CNN?】

面试官为什么问这个问题:
这个问题不是在考历史,而是在判断你是否真正理解 Transformer 在工程层面解决了哪些”卡脖子”的问题。初级候选人往往停留在”并行””效果好”,中高级候选人会主动谈训练、推理、规模化的现实约束。

参考口语化回答:
如果从工程角度看,Transformer 最大的价值不是”更聪明”,而是”更好扩”。RNN 在工程上最大的问题是时序依赖太强,训练和推理都没法并行,模型一大就直接崩。Transformer 用 Attention 把时序依赖变成矩阵计算,GPU 吃得下、并行度高,这一点对大规模训练是决定性的。
另外一个关键点是可控性。Transformer 的每一层结构高度一致,堆层、裁剪、并行切分都比较友好,这让它在分布式训练、推理加速、显存优化上空间很大。所以它不是”理论更优”,而是”工程上更适合做成 LLM”。

Q2. 【你怎么区分 Transformer 架构 和 GPT / BERT 这些具体模型?】

面试官为什么问这个问题:
这是一个典型的”区分概念层级”的问题,用来过滤只背模型名、不懂架构抽象的人。能说清这一点,说明你具备做架构和系统设计的基础能力。

参考口语化回答:
我一般会把 Transformer 当成”发动机”,GPT、BERT 这些是”整车方案”。Transformer 定义的是一套通用的计算结构,比如 Attention、FFN、残差、LayerNorm,而 GPT、BERT 是在这套结构上做了不同的裁剪和组合。
比如 GPT 本质是 Decoder-only Transformer,服务于生成;BERT 是 Encoder-only,更偏理解;T5 是 Encoder-Decoder,用在输入输出结构明确的任务。工程上这点很重要,因为不同结构直接决定了推理方式、KV Cache 用不用、并发能力怎么样,而不是简单的”模型效果差异”。

Q3. 【从工程视角看,Transformer 解决的是”建模问题”还是”系统问题”?】

面试官为什么问这个问题:
这是一个区分”研究型思维”和”工程型思维”的问题。面试官想听你是否意识到 Transformer 成功的真正原因不只在模型能力上。

参考口语化回答:
如果放在真实业务里,我更倾向说 Transformer 首先解决的是系统问题,其次才是建模问题。它把复杂的序列建模,转化成了高度规则、可堆叠、易并行的计算图,这对训练系统、推理服务是质变。
很多模型在论文上也能 work,但一旦上到百亿参数、上百卡训练,系统就先撑不住。Transformer 的成功,很大一部分原因是它让”模型能力增长”和”工程规模扩展”第一次对齐了。

Q4. 【为什么说 Transformer 是”架构”,而不是一种具体算法?】

面试官为什么问这个问题:
这个问题在考你有没有抽象能力。真正做过系统设计的人,往往会主动用”架构”这个词,而不是纠结某个 Attention 公式。

参考口语化回答:
我理解 Transformer 更像一套可复用的计算范式,而不是单一算法。它定义了模块边界,比如 Attention、FFN、Norm、残差,这些模块可以被替换、裁剪、重排。
在工程里,我们经常根据业务目标做取舍,比如换 Attention 形式、缩 FFN、改位置编码,只要整体结构不变,系统还能稳定运行。这种”可插拔、可演进”的特性,更符合架构的定义。

Q5. 【如果不用”注意力机制”这个词,你会怎么向产品或业务解释 Transformer?】

面试官为什么问这个问题:
这是一个”向非技术角色解释复杂系统”的能力测试,能反映你是否真的理解,而不是靠术语堆砌。

参考口语化回答:
我一般会说,Transformer 的核心能力是:它在处理一句话或一段文档时,可以同时看全局,而不是一个字一个字地猜。
工程上可以理解为,它在每一步都能动态决定”哪些信息值得重点参考”,而不是固定规则。这让模型在复杂语境、长文档、多轮对话中更稳定,也更容易扩展到不同任务。

第二层:核心技术能力(How)【8 题】

Q6. 【Self-Attention 在工程上解决了什么”实际问题”?】

面试官为什么问这个问题:
面试官不想听公式,而是想听你是否理解 Attention 的工程价值。回答是否落地,区分度非常明显。

参考口语化回答:
从工程角度看,Self-Attention 最大的价值是把”依赖关系”变成可计算、可并行的权重分配问题。
在传统序列模型里,远距离依赖很难建模,而且代价很高;Self-Attention 直接用矩阵算全局关系,代价是 O(n²),但好处是结构清晰、算子标准化,GPU、TPU 都能很好支持。对工程来说,这是一个”可控的复杂度”,而不是不可控的时序瓶颈。

Q7. 【Multi-Head Attention 在真实项目中带来的价值是什么?】

面试官为什么问这个问题:
这是一个典型的”你用没用过”的问题。只背概念的人很容易翻车。

参考口语化回答:
我理解 Multi-Head Attention 本质上是把单一注意力空间拆成多个子空间,让模型在同一层里学到不同关注视角。
工程上,它带来的不是线性能力提升,而是稳定性和表达多样性。比如在复杂指令或长上下文中,多头 Attention 更不容易被单一模式”带偏”。当然代价也很明显,就是显存和算力成本上升,所以在推理侧有时会适当减头数。

Q8. 【Encoder 和 Decoder 的核心差异,在工程上体现在哪?】

面试官为什么问这个问题:
这不是在问结构,而是在问你是否理解不同架构对推理路径的影响。

参考口语化回答:
Encoder 更像一次性全量计算,输入给完就结束,适合理解型任务;Decoder 是逐 token 生成,每一步都依赖历史输出。
工程上差异非常大:Encoder 适合批量、高吞吐;Decoder 则必须考虑 KV Cache、延迟、并发策略。所以在做系统设计时,选哪种架构,本质上是在选”算一次”还是”算很多次”。

Q9. 【Masked Attention 在 LLM 推理阶段到底起了什么作用?】

面试官为什么问这个问题:
这是一个典型的”你是否真正理解生成过程”的问题。

参考口语化回答:
Masked Attention 本质上是为了保证因果性,让模型在生成第 n 个 token 时,只能看到前面的内容。
工程上,这个设计让 Decoder 可以安全地做自回归生成,同时也为 KV Cache 打下基础。没有 Mask,就没法在推理阶段做高效缓存,整个生成性能会直接崩掉。

Q10. 【位置编码在 Transformer 中为什么是”必需但不完美”的?】

面试官为什么问这个问题:
这个问题在考你是否意识到 Transformer 的天然缺陷。

参考口语化回答:
Transformer 天生对顺序不敏感,位置编码是”补丁”。它让模型知道 token 的相对或绝对位置,但本身不是序列建模的原生能力。
工程上这会带来问题,比如长上下文泛化、跨窗口推理不稳定。所以现在很多系统会结合 RoPE、窗口滑动、分段处理,而不是指望位置编码一次性解决所有问题。

Q11. 【RoPE 相比传统位置编码,在工程上改善了什么?】

面试官为什么问这个问题:
这是在区分”知道名词”和”理解动机”。

参考口语化回答:
RoPE 的核心优势是相对位置建模更自然,对长上下文的外推能力更好。
工程上最大的价值是:模型在没见过的长度上不容易彻底失效,这对长文档、RAG 场景非常关键。否则上下文一拉长,效果会断崖式下降。

Q12. 【Transformer 的上下文窗口,本质上限制的是什么?】

面试官为什么问这个问题:
这是一个”识别能力边界”的问题。

参考口语化回答:
表面看是 token 数限制,实际限制的是注意力计算的可控性。
上下文越长,Attention 计算和 KV Cache 成本就越高,显存、延迟都会线性甚至平方级增长。所以窗口不是”能不能看”,而是”值不值得看”,这也是为什么工程上一定要配合检索、摘要,而不是无脑拉长上下文。

Q13. 【Prompt 设计为什么本质上是在”顺着 Transformer 的工作方式走”?】

面试官为什么问这个问题:
这个问题在考你是否理解 Prompt 和模型结构的关系。

参考口语化回答:
Prompt 本质上是对上下文分布的工程控制。Transformer 会对输入序列整体做注意力建模,所以 Prompt 的结构、顺序、信息密度,会直接影响注意力分配。
做得好的 Prompt,其实是在帮模型减少无效注意力,把算力集中在关键信息上,而不是”玄学调参”。

第三层:工程化与系统能力【8 题】

Q14. 【Transformer 推理阶段最大的性能瓶颈通常在哪里?】

面试官为什么问这个问题:
这是典型的”上线经验题”,没有实战很难答好。

参考口语化回答:
在 Decoder 类模型里,最大瓶颈通常不是算力,而是显存和访存。尤其是长上下文 + 多并发时,KV Cache 会迅速膨胀。
很多时候 GPU 算力还有余量,但显存已经顶死了,所以工程优化往往从 Cache 管理、Batch 策略下手,而不是单纯换卡。

Q15. 【KV Cache 的本质是什么?为什么它对 Transformer 推理这么关键?】

面试官为什么问这个问题:
这是区分”用过”和”调过”的关键问题。

参考口语化回答:
KV Cache 本质上是把历史 token 的 Key、Value 存下来,避免每一步重复算 Attention。
工程上,它把推理复杂度从”全量重算”变成”增量计算”,这是 Decoder 能在实际业务里跑得动的前提。但代价是显存压力大,所以必须精细管理。

Q16. 【长上下文下,Attention 开销为什么会成为系统问题?】

面试官为什么问这个问题:
这是在考你是否具备系统级思维。

参考口语化回答:
因为 Attention 是 O(n²) 的,一旦上下文拉长,计算量和显存都会非线性增长。
在真实系统里,这不仅影响延迟,还会拖垮并发能力。所以工程上通常会通过分段、检索、窗口滑动来”限制注意力范围”,而不是盲目追求超长上下文。

Q17. 【批量推理(Batching)对 Transformer 服务意味着什么权衡?】

面试官为什么问这个问题:
这是一个”吞吐 vs 延迟”的经典问题。

参考口语化回答:
Batch 能显著提高吞吐,但会牺牲单请求延迟。
在 Transformer 推理中,这个权衡尤其明显,因为 Decoder 是逐 token 的。工程上通常会区分场景,比如内部任务偏吞吐,在线交互偏低延迟,而不是一刀切。

Q18. 【Transformer 服务化时,为什么常常需要请求队列和调度?】

面试官为什么问这个问题:
这是在考你是否做过生产系统。

参考口语化回答:
因为 Transformer 推理成本高、资源占用重,直接并发会把系统打爆。
通过队列和调度,可以控制批量大小、合并请求、平滑负载,这是保证稳定性的关键。否则高峰期延迟和错误率都会不可控。

Q19. 【你如何理解 Transformer 输出”漂移”或不稳定的问题?】

面试官为什么问这个问题:
这是在考你对模型行为的工程认知。

参考口语化回答:
输出漂移本质上是概率分布敏感性问题,和 Attention、上下文噪声都有关系。
工程上通常通过温度、top-p 控制输出空间,同时用 Prompt 约束、结果校验来兜底,而不是指望模型”自己稳定”。

Q20. 【Transformer 在 Docker / API 化部署时,最容易被忽视的点是什么?】

面试官为什么问这个问题:
这是一个”踩坑经验题”。

参考口语化回答:
最容易忽视的是资源隔离和并发控制。
Transformer 不是传统 Web 服务,一个容器里几个并发请求,就可能把显存打满。工程上必须明确 GPU 绑定、并发上限、异常降级策略,否则稳定性很难保证。

Q21. 【为什么说 Transformer 系统必须”以失败为前提设计”?】

面试官为什么问这个问题:
这是高级工程师常见的思维方式。

参考口语化回答:
因为 Transformer 推理不可预测性强,输入稍有变化,资源占用和输出就可能失控。
所以系统设计时,一定要考虑超时、截断、fallback,而不是假设模型永远正常工作。

第四层:真实项目与业务场景能力【6 题】

Q22. 【在真实业务中,你通常如何判断”该不该用 Transformer”?】

面试官为什么问这个问题:
这是在考你是否具备技术选型能力。

参考口语化回答:
我一般会先看问题是否需要复杂语义建模。如果规则、模板就能解决,用 Transformer 反而是负担。
其次看成本和风险,如果业务对稳定性要求极高,我会优先考虑 Transformer + 强约束,而不是纯生成。

Q23. 【Transformer 在企业知识库 / RAG 中的真实角色是什么?】

面试官为什么问这个问题:
这是在考你是否理解 RAG 的本质。

参考口语化回答:
在 RAG 里,Transformer 更像”表达和推理引擎”,而不是知识本身。
真正的知识来自检索,Transformer 的任务是基于受控上下文做总结和推理。工程上一定要限制它”自由发挥”的空间。

Q24. 【在医疗或金融场景中,Transformer 最大的风险点是什么?】

面试官为什么问这个问题:
这是在考风险意识。

参考口语化回答:
最大风险是幻觉被当成事实。
这些场景里,Transformer 的语言能力很强,但不等于可靠。所以工程上必须有来源标注、规则校验、人机审核,而不是直接输出结果。

Q25. 【你在项目中是如何降低 Transformer 幻觉的?】

面试官为什么问这个问题:
这是一个非常实战的问题。

参考口语化回答:
我通常从三层入手:输入层通过 RAG 和 Prompt 约束信息来源;生成层通过参数控制和结构化输出;结果层通过校验和回退策略。
核心思想是:不相信模型的”自信语气”,只相信可验证的信息。

Q26. 【有没有遇到过 Transformer”答非所问”的情况?你怎么处理?】

面试官为什么问这个问题:
这是在考你是否真的踩过坑。

参考口语化回答:
很常见,尤其是上下文复杂时。
工程上我会拆任务、缩上下文、明确输出格式,而不是反复调 Prompt。很多时候不是模型不行,而是输入任务过于模糊。

Q27. 【你如何向业务解释 Transformer 的”能力边界”?】

面试官为什么问这个问题:
这是技术与业务沟通能力的体现。

参考口语化回答:
我会明确说,它擅长总结、生成、推理,但不擅长保证事实正确性。
把它定位成”高级助手”,而不是”自动决策系统”,这样预期对齐,项目才走得下去。


Q31. 【Transformer 里”残差连接”不是装饰,它在工程上到底救了什么?】

面试官为什么问这个问题:
很多人会把残差当成”深度网络常规操作”,但在 Transformer 这种可堆叠结构里,残差直接决定训练能不能稳定收敛。面试官想看你是否理解:为什么同样的模块堆到几十层还能训得动,以及你是否踩过梯度不稳、发散的坑。

参考口语化回答:
我会把残差理解成”给信息和梯度开了一条高速路”。Transformer 每一层都在做 Attention 和 FFN 的非线性变换,如果没有残差,深层训练很容易梯度衰减或发散,尤其在大 batch、混合精度、长序列下更明显。
工程上残差让模型既能学到复杂变换,又能在必要时退回到”近似恒等映射”,这就是它能稳定堆深的关键。真到线上出问题时,很多稳定性改动(比如改 Norm 位置、改初始化)背后其实也是在保护这条”高速路”。

Q32. 【为什么 Transformer 的 FFN(MLP)层看起来”很笨重”,但又不能轻易砍掉?】

面试官为什么问这个问题:
这个问题用来区分”只盯 Attention”的候选人和真正理解 Transformer 计算分配的人。很多工程同学优化性能时只想着动 Attention,但面试官更关心你是否知道 FFN 在表达能力、容量和推理成本上的真实作用。

参考口语化回答:
FFN 看起来就是两层线性加激活,但它其实是 Transformer 里”容量大户”,负责把注意力聚合到的特征做非线性变换和重表达。很多任务里,Attention 更像”信息路由”,FFN 才是”算力干活”的地方。
所以你不能简单把 FFN 缩得很小,否则模型会出现一种很典型的退化:能找对信息,但表达不出来,回答变得空、泛、复读。工程上要做性能取舍,我会优先用更高效的 FFN 结构(比如门控类)或做量化/并行优化,而不是粗暴砍掉。

Q33. 【你怎么解释”Transformer 结构很统一”这件事,对工业落地有什么直接好处?】

面试官为什么问这个问题:
面试官在看你有没有系统化思维:同构结构如何影响训练并行、推理优化、故障定位与可维护性。初级回答往往只说”易扩展”,中高级会落到具体工程收益。

参考口语化回答:
Transformer 的优势之一是 block 级别高度同构:一层一层几乎是同样的算子组合。工程上这意味着优化一次可以复用很多层,比如 kernel 融合、并行切分、量化策略、监控指标都能模块化。
另外对定位问题也很友好:线上出现某类数值不稳、延迟抖动,你可以按 block 维度去拆解,不需要面对一堆异构结构。说白了,它更像标准化工业件,适合规模化生产和运维。

第二层:核心技术能力(How)【6 题】

Q34. 【Pre-Norm 和 Post-Norm 的差异,你在工程上会怎么选?】

面试官为什么问这个问题:
这是一个很典型的”训练稳定性”考点,能直接区分有没有训过大模型或改过结构的人。面试官想听你是否理解:Norm 放哪里会影响梯度路径、收敛速度和深层稳定性。

参考口语化回答:
我更倾向 Pre-Norm,原因很工程化:深层训练更稳,梯度更不容易炸或消失,尤其在层数上去以后差异很明显。Post-Norm 有时在浅层或特定配置下效果也不错,但一旦规模上来,训练调参成本会明显变高。
我会把它理解成:Pre-Norm 让残差路径更”干净”,信息和梯度通过的阻力更小。真实项目里我宁愿选一个更稳、可预期的结构,再在别的地方追指标。

Q35. 【LayerNorm、RMSNorm 这类归一化选择,为什么会影响推理性能和稳定性?】

面试官为什么问这个问题:
这题看起来像细节,但很能暴露工程素养。面试官想知道你是否理解 Norm 不只是”数学处理”,它会影响数值范围、溢出风险、以及算子成本,从而影响线上稳定性。

参考口语化回答:
Norm 直接控制每层激活的尺度,尺度一旦飘了,Attention 的 softmax 就会更敏感,输出容易不稳,甚至出现某些输入触发”异常偏置”的情况。
从性能角度,Norm 是高频算子,放在每层、每 token 都要算,选择更轻量的形式会在大并发下体现得很明显。工程上我会把 Norm 当成”数值工程”的核心组件来对待,而不是一个可有可无的层。

Q36. 【GELU、SwiGLU 这类激活/门控设计,在 Transformer 里为什么值得面试官问?】

面试官为什么问这个问题:
面试官并不指望你背公式,而是想看你是否理解:FFN 的非线性形式会影响模型容量、训练效率和推理成本。能把”为什么这么设计”讲清楚,说明你理解到结构层面的动机。

参考口语化回答:
我会从两个点说:表达能力和算力利用率。门控类(比如 SwiGLU)本质上是在 FFN 里加了”选择通道”的能力,让网络不是所有特征都一股脑往前推,而是按上下文开关一些通路。
工程上它常见的收益是:同等参数量下效果更好,或者同等效果下可以省一些宽度,最终反映到推理成本。代价是算子更复杂一些,所以线上要看 kernel 支持和吞吐是否合算。

Q37. 【Multi-Query / Grouped-Query Attention(MQA/GQA)为什么在工程上很重要?】

面试官为什么问这个问题:
这题用来判断你是否理解 Attention 的”显存结构”,而不是只理解概念。面试官想看你是否能从架构角度解释:为什么一些模型能在更高并发下跑得动。

参考口语化回答:
MQA/GQA 的核心价值是减少 KV 相关的存储与带宽开销。传统多头 Attention 每个 head 都有自己的 K/V,推理时缓存和读写压力很大;MQA/GQA 通过共享或分组共享 K/V,显著降低缓存体积。
工程上这会直接提升可承载并发,尤其在长序列和多请求同时生成时效果很明显。它不是为了”更聪明”,而是为了”更跑得动”。

Q38. 【Attention 的 softmax 为什么在数值上容易出问题?你怎么做工程兜底?】

面试官为什么问这个问题:
这是在考数值稳定性意识。很多线上问题不是”模型不会”,而是溢出、NaN、精度抖动导致输出异常或服务崩溃。

参考口语化回答:
softmax 对输入尺度非常敏感,QK 的点积一大,指数项就容易溢出,混合精度下更明显。工程兜底我通常会从两端做:一端保证尺度可控,比如合适的缩放、稳定的 Norm、必要时做 clamp;另一端在算子实现上用稳定 softmax(先减 max)并监控 NaN/Inf。
我会强调一点:这类问题不解决,线上表现会很”玄学”,同一请求偶发异常,最难排查。

Q39. 【为什么说”输出层的 logits 处理”也是 Transformer 系统的一部分工程能力?】

面试官为什么问这个问题:
面试官想看你是否理解生成模型的最后一公里:模型结构输出的是分布,不是答案。候选人如果只会讲 Transformer block,忽略 logits 到 token 的决策链路,往往做不好可控生成。

参考口语化回答:
Transformer 最终给的是 logits 分布,真正的生成行为取决于你怎么采样或解码。工程上这一步决定了稳定性、重复、发散和安全边界,比如是否需要重复惩罚、是否需要强约束解码、是否要走 beam 或者受限采样。
我会把它当成”模型能力的执行策略”,同一个模型,解码策略不同,线上体验可能完全不一样,这也是面试官爱问的点。

第三层:工程化与系统能力【6 题】

Q40. 【FlashAttention 这类优化,本质上在优化 Transformer 的哪一块成本?】

面试官为什么问这个问题:
这是典型的”你有没有做过性能优化”的分水岭题。面试官想听到你能说清楚瓶颈在算力还是带宽,以及为什么优化能生效。

参考口语化回答:
FlashAttention 这类优化核心是减少显存读写,把 Attention 的中间结果尽量留在片上或用更好的访问模式处理。很多时候 Attention 不是算不动,而是被内存带宽卡住。
工程上它能显著降低显存占用和提升吞吐,尤其在长序列时更明显。我会强调:它不是”换了公式”,而是把同样的计算用更工程化的方式做出来。

Q41. 【Tensor Parallel / Pipeline Parallel 在 Transformer 上为什么好用?你怎么选切分点?】

面试官为什么问这个问题:
这题考的是规模化训练/推理的并行策略理解。面试官在看你是否能把 Transformer 的结构映射到系统切分上。

参考口语化回答:
Transformer 好并行,是因为每层结构一致、矩阵乘占比高。Tensor Parallel 适合切大矩阵,比如 QKV 投影和 FFN;Pipeline Parallel 适合按层切,把 block 分到不同 GPU。
切分点我会优先选通信开销可控、形状规则的地方,比如线性层的权重分片;同时要考虑激活/缓存在哪边,避免 pipeline 气泡太大。工程上没有绝对最优,通常要结合模型规模、网络带宽、batch 形态做压测再定。

Q42. 【为什么量化对 Transformer 的影响常常”不是均匀的”?你会优先保护哪部分?】

面试官为什么问这个问题:
这题在考你有没有做过线上成本优化,并且是否理解 Transformer 各模块对精度的敏感度不同。只会说”量化省显存”通常不够。

参考口语化回答:
量化带来的误差在 Transformer 里会被多层叠加,但敏感度确实不均匀。一般来说,Attention 相关的投影、以及输出 logits 附近对误差更敏感,容易导致回答质量和稳定性下降;而部分 FFN 在一些配置下相对更耐量化。
工程上我会先做分模块评估,必要时做混合策略,比如关键层保更高精度,其他层用更激进的量化,从而在成本和质量之间拿到可控的平衡。

Q43. 【为什么推理延迟常常呈现”首 token 慢、后续 token 快”或反过来?你怎么定位?】

面试官为什么问这个问题:
这是非常贴近线上监控的题,面试官想看你是否能把延迟形态映射到 Transformer 推理链路上,定位是预填充、解码、还是 IO/调度问题。

参考口语化回答:
我会把推理拆成两段:prefill(把输入上下文过一遍)和 decode(逐 token 生成)。prefill 往往是大矩阵计算,输入越长越慢;decode 每步算得少但步数多,容易被调度、同步、采样逻辑放大。
定位时我会分别打点 prefill 和 decode 的耗时,再看是不是被 batch 合并、队列等待或 CPU 侧采样拖慢。很多”首 token 慢”其实是 prefill 或排队;很多”后续 token 慢”则是 decode 被并发和同步拖住。

Q44. 【Speculative Decoding 这类”推理加速”思路,为什么对 Transformer 特别有效?】

面试官为什么问这个问题:
这是加速视野题,面试官想看你是否理解 Transformer 自回归生成的结构性成本,以及如何用工程手段绕开部分串行瓶颈。

参考口语化回答:
Transformer 的瓶颈在 decode 阶段必须逐 token 串行,这个结构性限制很难靠堆算力完全解决。Speculative Decoding 的思路是用一个更小更快的模型先提议一段 token,再用大模型一次性验证并接受一部分,从而减少大模型调用次数。
它之所以对 Transformer 有效,是因为验证阶段可以更并行、更批量化,把原本串行的生成成本部分转成批处理成本。工程上我会看两个条件:小模型提议质量是否够高,以及验证开销是否被 kernel/并发策略吃掉。

Q45. 【MoE(Mixture-of-Experts)放在 Transformer 里,工程上最难的点是什么?】

面试官为什么问这个问题:
MoE 是典型的”参数规模上去但算力不同比例增长”的路线,面试官用它考察你对架构演进的工程判断。核心不是原理,而是系统难点。

参考口语化回答:
MoE 的难点不在”加专家”这件事,而在路由带来的系统复杂度:负载不均、通信开销、以及专家并行的调度。你很容易出现某些专家被打爆、某些专家闲着,吞吐反而下降。
工程上要解决它,需要从路由策略、容量因子、并行切分、以及线上流量形态共同设计,不然 MoE 的”省算力”很可能只停留在理论上。

第四层:真实项目与业务场景能力【4 题】

Q46. 【你在 RAG 项目里遇到过”检索命中但回答仍然偏”的情况吗?你会从 Transformer 视角怎么排查?】

面试官为什么问这个问题:
面试官想看你是否能把问题归因到”检索侧”之外,理解 Transformer 在融合上下文时的行为特征。只会说”再调召回”通常说明经验不够。

参考口语化回答:
我遇到过,检索命中不等于模型会用。Transformer 在融合上下文时,会受信息位置、重复度、冲突信息的影响,有时注意力会被噪声或更”像答案”的句子吸走。
排查我会先看上下文编排:关键证据是否靠近问题、是否有冲突段落、是否过长导致稀释;然后用结构化提示让模型必须引用证据片段再回答,逼它把注意力落到可验证内容上。很多时候问题不在检索,而在”上下文喂法”和”约束方式”。

Q47. 【做企业问答时,你怎么用”结构化输出”去约束 Transformer,而不是靠口头要求?】

面试官为什么问这个问题:
这是一个非常现实的可控性考点。面试官想看你是否理解:Transformer 是按概率生成,不会自动遵守”请务必”,必须用工程手段约束输出空间。

参考口语化回答:
我会用明确 schema 去约束,比如固定字段、固定枚举、固定引用格式,并且在解码侧做校验,失败就重试或降级。这样做的本质是把生成从”自由文本”压缩到”受限语言”,让 Transformer 更像在填表。
如果业务要求强一致性,比如金融解释或合规话术,我会把生成拆成两步:先生成结构化要点,再渲染成自然语言,减少模型一次性自由发挥导致的跑偏。

Q48. 【当业务方要求”必须可追溯、必须可解释”时,你如何从 Transformer 架构角度给出可落地方案?】

面试官为什么问这个问题:
面试官在看你是否能把”解释性”落到工程可交付,而不是抽象讨论注意力可解释性。真实工业里,解释性通常是流程与证据链的产物。

参考口语化回答:
我不会把”注意力权重”当作解释性主方案,因为它在工程上很难稳定、也不一定符合业务理解。更可落地的方式是把解释性做成”证据链”:模型的每个结论必须绑定到输入片段或检索片段,并输出引用。
从 Transformer 视角,这相当于控制它的上下文来源和回答范围,让模型在一个可审计的上下文闭环里推理。再配合日志记录、输入输出版本化,就能满足大部分企业对可追溯的要求。

Q49. 【你怎么判断一个候选人是不是”只会调 Prompt 的 Transformer 使用者”?】

面试官为什么问这个问题:
这题是”心理博弈题”,面试官想看你是否理解行业真实分工:会调 Prompt 不等于能把 Transformer 系统上线。你给出的判断标准,也能反映你对工程边界的认知。

参考口语化回答:
我会看他能不能把问题拆到结构层面:比如为什么这个现象和 Attention 稀释、解码策略、上下文编排有关,而不是一句”我再调一下提示词”。
真正能落地的人,往往会主动提监控、约束、降级、评估集,能说清楚”怎么让系统稳定地复现效果”。只会调 Prompt 的人,通常解释不清失败模式,也说不出上线后的治理方案。

第五层:进阶与加分项(架构 / 视野)【1 题】

Q50. 【在 LangChain / LangGraph 的 Agent 或 Workflow 里,你如何定位 Transformer 的职责边界?哪些必须交给系统而不是模型?】

面试官为什么问这个问题:
这题考察候选人是否具备”架构边界感”。潜力型选手通常能明确:Transformer 擅长语言与推理,但不应该承担状态机、权限、事务一致性等系统职责。

参考口语化回答:
我会把 Transformer 定位成”决策与生成组件”,负责理解意图、生成计划、生成工具参数草案,但不负责最终执行的正确性。Workflow 里真正必须系统兜底的是:状态管理、幂等、重试、超时、权限、以及工具结果的校验与回滚。
简单说,模型给建议,系统做裁判。这样即使 Transformer 偶发跑偏,系统也能把风险关在笼子里,整体可控、可运维,这才是生产级的 Agent。