发布于：2026-01-01更新于：2026-01-01

AI面试题 - Transformer 架构原理

第一层：基础认知（Why / What）【5 题】

Q1. 你如何用工程视角解释 Transformer 为什么能成为 LLM 的核心架构？

面试官为什么问这个问题：
这题不是考论文细节，而是看你是否真正理解 Transformer 相比 RNN/CNN 的工程优势。

参考口语化回答：
从工程角度看，Transformer 最大优势是并行友好。
RNN 天生是串行的，算力吃不满；Transformer 用自注意力，一次就能看全局。
这使得大规模训练和推理在工程上可行，是它能成为 LLM 基础的关键原因。

Q2. 在 LLM 语境下，你如何区分”模型架构能力”和”参数规模效应”？

面试官为什么问这个问题：
考察你是否把”模型大”当成唯一答案。

参考口语化回答：
架构决定上限，规模决定逼近程度。
Transformer 提供了足够强的表达能力，
参数规模更多是在逼近这个能力边界。
没有合适架构，堆参数意义不大。

Q3. 为什么 Transformer 能比传统模型更好地建模长文本？

面试官为什么问这个问题：
这是对自注意力本质理解的考察。

参考口语化回答：
因为自注意力让每个 token 都能直接看到其他 token。
不像 RNN 需要一步步传递信息，
距离越远信息越衰减。
Transformer 在结构上就避免了这个问题。

Q4. 在你看来，LLM 本质上在”学什么”？

面试官为什么问这个问题：
这题考你对 LLM 能力边界的认知。

参考口语化回答：
本质上是在学条件概率分布。
给定上下文，下一个 token 最可能是什么。
所谓推理、总结、对话能力，
都是在这个基础上涌现出来的。

Q5. 为什么说 Transformer 更像”信息路由器”，而不是传统意义的规则系统？

面试官为什么问这个问题：
考察你是否理解模型内部机制，而不是神秘化 LLM。

参考口语化回答：
自注意力本质是在给不同 token 分配权重。
模型不是按规则推理，而是在动态选择”哪些信息更重要”。
从这个角度看，它更像一个复杂的信息路由系统。

第二层：核心结构理解（How）【8 题】

Q6. 你如何用通俗语言解释 Self-Attention 的计算过程？

面试官为什么问这个问题：
这是 Transformer 的核心概念，考察你是否能讲清楚。

参考口语化回答：
可以理解成：
每个 token 都在问”当前我应该重点关注谁”。
通过 Q、K 计算相关性，再用 V 聚合信息。
最后得到一个”融合了上下文”的新表示。

Q7. 为什么 Attention 需要除以 √d？

面试官为什么问这个问题：
这是一个细节题，但能明显区分理解深度。

参考口语化回答：
维度一大，点积结果会变得很大，
softmax 容易饱和，梯度会变小。
除以 √d 是为了保持数值稳定，
这是一个很工程化的设计。

Q8. Multi-Head Attention 的价值到底是什么？

面试官为什么问这个问题：
很多人会背定义，但理解不深。

参考口语化回答：
多头不是为了算得更复杂，
而是让模型能从不同子空间看问题。
有的头关注语义，有的关注句法，
信息表达会更丰富。

Q9. 为什么 Transformer 需要 Position Encoding？

面试官为什么问这个问题：
这是序列建模的核心问题。

参考口语化回答：
因为 Attention 本身对顺序不敏感。
如果不加位置编码，
模型根本不知道”谁在前谁在后”。
Position Encoding 本质上是在补序列信息。

Q10. 在 LLM 中，Encoder-only、Decoder-only、Encoder-Decoder 有什么本质区别？

面试官为什么问这个问题：
考察你是否理解架构与任务的关系。

参考口语化回答：
Encoder 更擅长理解，
Decoder 更擅长生成。
LLM 以生成任务为主，
所以主流基本都是 Decoder-only 架构。

Q11. 为什么 Decoder 中需要 Masked Self-Attention？

面试官为什么问这个问题：
这是生成模型的关键机制。

参考口语化回答：
因为生成是一步步来的，
当前 token 不能看到未来信息。
Mask 保证了因果性，
否则训练和推理都会出问题。

Q12. Feed Forward Network 在 Transformer 中的真实作用是什么？

面试官为什么问这个问题：
很多人会忽略 FFN 的重要性。

参考口语化回答：
Attention 负责信息交互，
FFN 负责非线性变换和表达能力提升。
没有 FFN，模型的表示能力会明显受限。

Q13. LayerNorm 在 Transformer 中解决了什么问题？

面试官为什么问这个问题：
这是训练稳定性的关键。

参考口语化回答：
它能稳定激活分布，
避免深层网络训练发散。
在大模型中，没有 LayerNorm，
基本很难训稳。

第三层：训练与推理机制【8 题】

Q14. Transformer 训练阶段和推理阶段最大的差异是什么？

面试官为什么问这个问题：
这是工程落地的基础问题。

参考口语化回答：
训练时是并行算所有 token，
推理时是自回归，一个 token 一个 token 来。
这也是为什么推理阶段性能瓶颈非常明显。

Q15. 为什么 LLM 推理速度往往比训练更难优化？

面试官为什么问这个问题：
考察你是否有实际部署经验。

参考口语化回答：
因为推理是串行依赖的。
训练可以并行，推理不行。
工程优化更多集中在 KV Cache、并行策略上。

Q16. 你如何理解 KV Cache 的作用？

面试官为什么问这个问题：
这是 LLM 推理优化的必考点。

参考口语化回答：
KV Cache 是把历史 token 的 Key、Value 缓存起来。
避免每一步都重复计算。
否则长文本推理成本会指数级增长。

Q17. KV Cache 带来的工程代价是什么？

面试官为什么问这个问题：
这是权衡问题。

参考口语化回答：
显存占用会明显增加。
上下文越长，Cache 越大。
所以在工程上要在速度和显存之间取平衡。

Q18. Transformer 的时间复杂度瓶颈主要在哪里？

面试官为什么问这个问题：
这是性能意识问题。

参考口语化回答：
Self-Attention 是 O(n²)。
上下文一长，计算和显存都会爆。
这也是长上下文优化一直很难的原因。

Q19. 你如何理解 LLM 的”上下文窗口限制”？

面试官为什么问这个问题：
考察你是否理解模型边界。

参考口语化回答：
上下文窗口本质上是模型一次能处理的 token 数。
超过这个范围，模型就”看不到”了。
工程上只能通过截断、摘要或 RAG 解决。

Q20. 为什么长上下文训练比短上下文难得多？

面试官为什么问这个问题：
这是工程与算法结合的问题。

参考口语化回答：
不仅算力成本高，
梯度稳定性、显存、优化难度都会上升。
这不是简单把长度调大就能解决的。

Q21. Transformer 中你如何理解”参数共享”的价值？

面试官为什么问这个问题：
这是模型设计哲学问题。

参考口语化回答：
同一套参数在不同位置重复使用，
提升了泛化能力，也降低了参数量。
这也是 Transformer 能规模化的重要原因。

第四层：能力、局限与工程应对【6 题】

Q22. Transformer 架构本身是否具备”逻辑推理能力”？

面试官为什么问这个问题：
这是对 LLM 认知理性的考察。

参考口语化回答：
它本身不具备显式逻辑推理机制。
更多是通过模式匹配和统计关联。
看起来像推理，本质是高维空间中的映射。

Q23. 为什么 LLM 在长链路推理中容易出错？

面试官为什么问这个问题：
这是幻觉问题的结构性原因。

参考口语化回答：
因为每一步都是基于前一步的概率输出。
误差会逐步累积。
链路越长，不确定性越大。

Q24. Transformer 对”世界模型”的表达能力有什么局限？

面试官为什么问这个问题：
这是能力边界问题。

参考口语化回答：
它没有真实感知和因果反馈。
世界知识来自文本统计，而不是交互。
这决定了它对现实世界的理解是间接的。

Q25. 在工程上，如何弥补 Transformer 的事实不确定性？

面试官为什么问这个问题：
这是 LLM 应用落地的关键。

参考口语化回答：
通过 RAG、规则约束、人工校验。
不要让模型凭空生成事实。
工程手段比模型本身更重要。

Q26. Transformer 架构为什么容易”自信地胡说”？

面试官为什么问这个问题：
这是幻觉本质问题。

参考口语化回答：
模型目标是生成最可能的 token，
而不是验证真实性。
它不知道”自己不知道”，
所以会自然生成看似合理的内容。

Q27. 你如何在系统设计中限制 Transformer 的”自由度”？

面试官为什么问这个问题：
这是工程控制能力问题。

参考口语化回答：
通过限定上下文来源、
限制输出格式、
增加校验与兜底。
自由度越大，风险越高。

第五层：进阶视野与判断力【3 题】

Q28. 你如何看待 Transformer 是否会被”下一代架构”取代？

面试官为什么问这个问题：
这是技术趋势判断题。

参考口语化回答：
短期内很难完全取代。
更多可能是在 Attention 上做改进，
而不是彻底推翻 Transformer。

Q29. 对 AI 应用工程师来说，理解 Transformer 的”哪一层”最重要？

面试官为什么问这个问题：
这是岗位匹配度问题。

参考口语化回答：
不是所有数学细节，
而是 Attention、上下文、推理机制。
这些直接影响系统设计和效果。

Q30. 面试官通过 Transformer 问题，最想判断你什么？

面试官为什么问这个问题：
这是综合心理判断题。

参考口语化回答：
是否理解 LLM 的能力边界，
是否知道该依赖模型，还是该用工程兜底。
这是能否把 LLM 用到生产环境的关键。

第一层：基础认知（Why / What）【5 题】

Q1. 【为什么 Transformer 能成为大模型的基础架构，而不是 RNN / CNN？】

面试官为什么问这个问题：
这个问题不是在考历史，而是在判断你是否真正理解 Transformer 在工程层面解决了哪些”卡脖子”的问题。初级候选人往往停留在”并行””效果好”，中高级候选人会主动谈训练、推理、规模化的现实约束。

参考口语化回答：
如果从工程角度看，Transformer 最大的价值不是”更聪明”，而是”更好扩”。RNN 在工程上最大的问题是时序依赖太强，训练和推理都没法并行，模型一大就直接崩。Transformer 用 Attention 把时序依赖变成矩阵计算，GPU 吃得下、并行度高，这一点对大规模训练是决定性的。
另外一个关键点是可控性。Transformer 的每一层结构高度一致，堆层、裁剪、并行切分都比较友好，这让它在分布式训练、推理加速、显存优化上空间很大。所以它不是”理论更优”，而是”工程上更适合做成 LLM”。

Q2. 【你怎么区分 Transformer 架构和 GPT / BERT 这些具体模型？】

面试官为什么问这个问题：
这是一个典型的”区分概念层级”的问题，用来过滤只背模型名、不懂架构抽象的人。能说清这一点，说明你具备做架构和系统设计的基础能力。

参考口语化回答：
我一般会把 Transformer 当成”发动机”，GPT、BERT 这些是”整车方案”。Transformer 定义的是一套通用的计算结构，比如 Attention、FFN、残差、LayerNorm，而 GPT、BERT 是在这套结构上做了不同的裁剪和组合。
比如 GPT 本质是 Decoder-only Transformer，服务于生成；BERT 是 Encoder-only，更偏理解；T5 是 Encoder-Decoder，用在输入输出结构明确的任务。工程上这点很重要，因为不同结构直接决定了推理方式、KV Cache 用不用、并发能力怎么样，而不是简单的”模型效果差异”。

Q3. 【从工程视角看，Transformer 解决的是”建模问题”还是”系统问题”？】

面试官为什么问这个问题：
这是一个区分”研究型思维”和”工程型思维”的问题。面试官想听你是否意识到 Transformer 成功的真正原因不只在模型能力上。

参考口语化回答：
如果放在真实业务里，我更倾向说 Transformer 首先解决的是系统问题，其次才是建模问题。它把复杂的序列建模，转化成了高度规则、可堆叠、易并行的计算图，这对训练系统、推理服务是质变。
很多模型在论文上也能 work，但一旦上到百亿参数、上百卡训练，系统就先撑不住。Transformer 的成功，很大一部分原因是它让”模型能力增长”和”工程规模扩展”第一次对齐了。

Q4. 【为什么说 Transformer 是”架构”，而不是一种具体算法？】

面试官为什么问这个问题：
这个问题在考你有没有抽象能力。真正做过系统设计的人，往往会主动用”架构”这个词，而不是纠结某个 Attention 公式。

参考口语化回答：
我理解 Transformer 更像一套可复用的计算范式，而不是单一算法。它定义了模块边界，比如 Attention、FFN、Norm、残差，这些模块可以被替换、裁剪、重排。
在工程里，我们经常根据业务目标做取舍，比如换 Attention 形式、缩 FFN、改位置编码，只要整体结构不变，系统还能稳定运行。这种”可插拔、可演进”的特性，更符合架构的定义。

Q5. 【如果不用”注意力机制”这个词，你会怎么向产品或业务解释 Transformer？】

面试官为什么问这个问题：
这是一个”向非技术角色解释复杂系统”的能力测试，能反映你是否真的理解，而不是靠术语堆砌。

参考口语化回答：
我一般会说，Transformer 的核心能力是：它在处理一句话或一段文档时，可以同时看全局，而不是一个字一个字地猜。
工程上可以理解为，它在每一步都能动态决定”哪些信息值得重点参考”，而不是固定规则。这让模型在复杂语境、长文档、多轮对话中更稳定，也更容易扩展到不同任务。

第二层：核心技术能力（How）【8 题】

Q6. 【Self-Attention 在工程上解决了什么”实际问题”？】

面试官为什么问这个问题：
面试官不想听公式，而是想听你是否理解 Attention 的工程价值。回答是否落地，区分度非常明显。

参考口语化回答：
从工程角度看，Self-Attention 最大的价值是把”依赖关系”变成可计算、可并行的权重分配问题。
在传统序列模型里，远距离依赖很难建模，而且代价很高；Self-Attention 直接用矩阵算全局关系，代价是 O(n²)，但好处是结构清晰、算子标准化，GPU、TPU 都能很好支持。对工程来说，这是一个”可控的复杂度”，而不是不可控的时序瓶颈。

Q7. 【Multi-Head Attention 在真实项目中带来的价值是什么？】

面试官为什么问这个问题：
这是一个典型的”你用没用过”的问题。只背概念的人很容易翻车。

参考口语化回答：
我理解 Multi-Head Attention 本质上是把单一注意力空间拆成多个子空间，让模型在同一层里学到不同关注视角。
工程上，它带来的不是线性能力提升，而是稳定性和表达多样性。比如在复杂指令或长上下文中，多头 Attention 更不容易被单一模式”带偏”。当然代价也很明显，就是显存和算力成本上升，所以在推理侧有时会适当减头数。

Q8. 【Encoder 和 Decoder 的核心差异，在工程上体现在哪？】

面试官为什么问这个问题：
这不是在问结构，而是在问你是否理解不同架构对推理路径的影响。

参考口语化回答：
Encoder 更像一次性全量计算，输入给完就结束，适合理解型任务；Decoder 是逐 token 生成，每一步都依赖历史输出。
工程上差异非常大：Encoder 适合批量、高吞吐；Decoder 则必须考虑 KV Cache、延迟、并发策略。所以在做系统设计时，选哪种架构，本质上是在选”算一次”还是”算很多次”。

Q9. 【Masked Attention 在 LLM 推理阶段到底起了什么作用？】

面试官为什么问这个问题：
这是一个典型的”你是否真正理解生成过程”的问题。

参考口语化回答：
Masked Attention 本质上是为了保证因果性，让模型在生成第 n 个 token 时，只能看到前面的内容。
工程上，这个设计让 Decoder 可以安全地做自回归生成，同时也为 KV Cache 打下基础。没有 Mask，就没法在推理阶段做高效缓存，整个生成性能会直接崩掉。

Q10. 【位置编码在 Transformer 中为什么是”必需但不完美”的？】

面试官为什么问这个问题：
这个问题在考你是否意识到 Transformer 的天然缺陷。

参考口语化回答：
Transformer 天生对顺序不敏感，位置编码是”补丁”。它让模型知道 token 的相对或绝对位置，但本身不是序列建模的原生能力。
工程上这会带来问题，比如长上下文泛化、跨窗口推理不稳定。所以现在很多系统会结合 RoPE、窗口滑动、分段处理，而不是指望位置编码一次性解决所有问题。

Q11. 【RoPE 相比传统位置编码，在工程上改善了什么？】

面试官为什么问这个问题：
这是在区分”知道名词”和”理解动机”。

参考口语化回答：
RoPE 的核心优势是相对位置建模更自然，对长上下文的外推能力更好。
工程上最大的价值是：模型在没见过的长度上不容易彻底失效，这对长文档、RAG 场景非常关键。否则上下文一拉长，效果会断崖式下降。

Q12. 【Transformer 的上下文窗口，本质上限制的是什么？】

面试官为什么问这个问题：
这是一个”识别能力边界”的问题。

参考口语化回答：
表面看是 token 数限制，实际限制的是注意力计算的可控性。
上下文越长，Attention 计算和 KV Cache 成本就越高，显存、延迟都会线性甚至平方级增长。所以窗口不是”能不能看”，而是”值不值得看”，这也是为什么工程上一定要配合检索、摘要，而不是无脑拉长上下文。

Q13. 【Prompt 设计为什么本质上是在”顺着 Transformer 的工作方式走”？】

面试官为什么问这个问题：
这个问题在考你是否理解 Prompt 和模型结构的关系。

参考口语化回答：
Prompt 本质上是对上下文分布的工程控制。Transformer 会对输入序列整体做注意力建模，所以 Prompt 的结构、顺序、信息密度，会直接影响注意力分配。
做得好的 Prompt，其实是在帮模型减少无效注意力，把算力集中在关键信息上，而不是”玄学调参”。

第三层：工程化与系统能力【8 题】

Q14. 【Transformer 推理阶段最大的性能瓶颈通常在哪里？】

面试官为什么问这个问题：
这是典型的”上线经验题”，没有实战很难答好。

参考口语化回答：
在 Decoder 类模型里，最大瓶颈通常不是算力，而是显存和访存。尤其是长上下文 + 多并发时，KV Cache 会迅速膨胀。
很多时候 GPU 算力还有余量，但显存已经顶死了，所以工程优化往往从 Cache 管理、Batch 策略下手，而不是单纯换卡。

Q15. 【KV Cache 的本质是什么？为什么它对 Transformer 推理这么关键？】

面试官为什么问这个问题：
这是区分”用过”和”调过”的关键问题。

参考口语化回答：
KV Cache 本质上是把历史 token 的 Key、Value 存下来，避免每一步重复算 Attention。
工程上，它把推理复杂度从”全量重算”变成”增量计算”，这是 Decoder 能在实际业务里跑得动的前提。但代价是显存压力大，所以必须精细管理。

Q16. 【长上下文下，Attention 开销为什么会成为系统问题？】

面试官为什么问这个问题：
这是在考你是否具备系统级思维。

参考口语化回答：
因为 Attention 是 O(n²) 的，一旦上下文拉长，计算量和显存都会非线性增长。
在真实系统里，这不仅影响延迟，还会拖垮并发能力。所以工程上通常会通过分段、检索、窗口滑动来”限制注意力范围”，而不是盲目追求超长上下文。

Q17. 【批量推理（Batching）对 Transformer 服务意味着什么权衡？】

面试官为什么问这个问题：
这是一个”吞吐 vs 延迟”的经典问题。

参考口语化回答：
Batch 能显著提高吞吐，但会牺牲单请求延迟。
在 Transformer 推理中，这个权衡尤其明显，因为 Decoder 是逐 token 的。工程上通常会区分场景，比如内部任务偏吞吐，在线交互偏低延迟，而不是一刀切。

Q18. 【Transformer 服务化时，为什么常常需要请求队列和调度？】

面试官为什么问这个问题：
这是在考你是否做过生产系统。

参考口语化回答：
因为 Transformer 推理成本高、资源占用重，直接并发会把系统打爆。
通过队列和调度，可以控制批量大小、合并请求、平滑负载，这是保证稳定性的关键。否则高峰期延迟和错误率都会不可控。

Q19. 【你如何理解 Transformer 输出”漂移”或不稳定的问题？】

面试官为什么问这个问题：
这是在考你对模型行为的工程认知。

参考口语化回答：
输出漂移本质上是概率分布敏感性问题，和 Attention、上下文噪声都有关系。
工程上通常通过温度、top-p 控制输出空间，同时用 Prompt 约束、结果校验来兜底，而不是指望模型”自己稳定”。

Q20. 【Transformer 在 Docker / API 化部署时，最容易被忽视的点是什么？】

面试官为什么问这个问题：
这是一个”踩坑经验题”。

参考口语化回答：
最容易忽视的是资源隔离和并发控制。
Transformer 不是传统 Web 服务，一个容器里几个并发请求，就可能把显存打满。工程上必须明确 GPU 绑定、并发上限、异常降级策略，否则稳定性很难保证。

Q21. 【为什么说 Transformer 系统必须”以失败为前提设计”？】

面试官为什么问这个问题：
这是高级工程师常见的思维方式。

参考口语化回答：
因为 Transformer 推理不可预测性强，输入稍有变化，资源占用和输出就可能失控。
所以系统设计时，一定要考虑超时、截断、fallback，而不是假设模型永远正常工作。

第四层：真实项目与业务场景能力【6 题】

Q22. 【在真实业务中，你通常如何判断”该不该用 Transformer”？】

面试官为什么问这个问题：
这是在考你是否具备技术选型能力。

参考口语化回答：
我一般会先看问题是否需要复杂语义建模。如果规则、模板就能解决，用 Transformer 反而是负担。
其次看成本和风险，如果业务对稳定性要求极高，我会优先考虑 Transformer + 强约束，而不是纯生成。

Q23. 【Transformer 在企业知识库 / RAG 中的真实角色是什么？】

面试官为什么问这个问题：
这是在考你是否理解 RAG 的本质。

参考口语化回答：
在 RAG 里，Transformer 更像”表达和推理引擎”，而不是知识本身。
真正的知识来自检索，Transformer 的任务是基于受控上下文做总结和推理。工程上一定要限制它”自由发挥”的空间。

Q24. 【在医疗或金融场景中，Transformer 最大的风险点是什么？】

面试官为什么问这个问题：
这是在考风险意识。

参考口语化回答：
最大风险是幻觉被当成事实。
这些场景里，Transformer 的语言能力很强，但不等于可靠。所以工程上必须有来源标注、规则校验、人机审核，而不是直接输出结果。

Q25. 【你在项目中是如何降低 Transformer 幻觉的？】

面试官为什么问这个问题：
这是一个非常实战的问题。

参考口语化回答：
我通常从三层入手：输入层通过 RAG 和 Prompt 约束信息来源；生成层通过参数控制和结构化输出；结果层通过校验和回退策略。
核心思想是：不相信模型的”自信语气”，只相信可验证的信息。

Q26. 【有没有遇到过 Transformer”答非所问”的情况？你怎么处理？】

面试官为什么问这个问题：
这是在考你是否真的踩过坑。

参考口语化回答：
很常见，尤其是上下文复杂时。
工程上我会拆任务、缩上下文、明确输出格式，而不是反复调 Prompt。很多时候不是模型不行，而是输入任务过于模糊。

Q27. 【你如何向业务解释 Transformer 的”能力边界”？】

面试官为什么问这个问题：
这是技术与业务沟通能力的体现。

参考口语化回答：
我会明确说，它擅长总结、生成、推理，但不擅长保证事实正确性。
把它定位成”高级助手”，而不是”自动决策系统”，这样预期对齐，项目才走得下去。

Q31. 【Transformer 里”残差连接”不是装饰，它在工程上到底救了什么？】

面试官为什么问这个问题：
很多人会把残差当成”深度网络常规操作”，但在 Transformer 这种可堆叠结构里，残差直接决定训练能不能稳定收敛。面试官想看你是否理解：为什么同样的模块堆到几十层还能训得动，以及你是否踩过梯度不稳、发散的坑。

参考口语化回答：
我会把残差理解成”给信息和梯度开了一条高速路”。Transformer 每一层都在做 Attention 和 FFN 的非线性变换，如果没有残差，深层训练很容易梯度衰减或发散，尤其在大 batch、混合精度、长序列下更明显。
工程上残差让模型既能学到复杂变换，又能在必要时退回到”近似恒等映射”，这就是它能稳定堆深的关键。真到线上出问题时，很多稳定性改动（比如改 Norm 位置、改初始化）背后其实也是在保护这条”高速路”。

Q32. 【为什么 Transformer 的 FFN（MLP）层看起来”很笨重”，但又不能轻易砍掉？】

面试官为什么问这个问题：
这个问题用来区分”只盯 Attention”的候选人和真正理解 Transformer 计算分配的人。很多工程同学优化性能时只想着动 Attention，但面试官更关心你是否知道 FFN 在表达能力、容量和推理成本上的真实作用。

参考口语化回答：
FFN 看起来就是两层线性加激活，但它其实是 Transformer 里”容量大户”，负责把注意力聚合到的特征做非线性变换和重表达。很多任务里，Attention 更像”信息路由”，FFN 才是”算力干活”的地方。
所以你不能简单把 FFN 缩得很小，否则模型会出现一种很典型的退化：能找对信息，但表达不出来，回答变得空、泛、复读。工程上要做性能取舍，我会优先用更高效的 FFN 结构（比如门控类）或做量化/并行优化，而不是粗暴砍掉。

Q33. 【你怎么解释”Transformer 结构很统一”这件事，对工业落地有什么直接好处？】

面试官为什么问这个问题：
面试官在看你有没有系统化思维：同构结构如何影响训练并行、推理优化、故障定位与可维护性。初级回答往往只说”易扩展”，中高级会落到具体工程收益。

参考口语化回答：
Transformer 的优势之一是 block 级别高度同构：一层一层几乎是同样的算子组合。工程上这意味着优化一次可以复用很多层，比如 kernel 融合、并行切分、量化策略、监控指标都能模块化。
另外对定位问题也很友好：线上出现某类数值不稳、延迟抖动，你可以按 block 维度去拆解，不需要面对一堆异构结构。说白了，它更像标准化工业件，适合规模化生产和运维。

第二层：核心技术能力（How）【6 题】

Q34. 【Pre-Norm 和 Post-Norm 的差异，你在工程上会怎么选？】

面试官为什么问这个问题：
这是一个很典型的”训练稳定性”考点，能直接区分有没有训过大模型或改过结构的人。面试官想听你是否理解：Norm 放哪里会影响梯度路径、收敛速度和深层稳定性。

参考口语化回答：
我更倾向 Pre-Norm，原因很工程化：深层训练更稳，梯度更不容易炸或消失，尤其在层数上去以后差异很明显。Post-Norm 有时在浅层或特定配置下效果也不错，但一旦规模上来，训练调参成本会明显变高。
我会把它理解成：Pre-Norm 让残差路径更”干净”，信息和梯度通过的阻力更小。真实项目里我宁愿选一个更稳、可预期的结构，再在别的地方追指标。

Q35. 【LayerNorm、RMSNorm 这类归一化选择，为什么会影响推理性能和稳定性？】

面试官为什么问这个问题：
这题看起来像细节，但很能暴露工程素养。面试官想知道你是否理解 Norm 不只是”数学处理”，它会影响数值范围、溢出风险、以及算子成本，从而影响线上稳定性。

参考口语化回答：
Norm 直接控制每层激活的尺度，尺度一旦飘了，Attention 的 softmax 就会更敏感，输出容易不稳，甚至出现某些输入触发”异常偏置”的情况。
从性能角度，Norm 是高频算子，放在每层、每 token 都要算，选择更轻量的形式会在大并发下体现得很明显。工程上我会把 Norm 当成”数值工程”的核心组件来对待，而不是一个可有可无的层。

Q36. 【GELU、SwiGLU 这类激活/门控设计，在 Transformer 里为什么值得面试官问？】

面试官为什么问这个问题：
面试官并不指望你背公式，而是想看你是否理解：FFN 的非线性形式会影响模型容量、训练效率和推理成本。能把”为什么这么设计”讲清楚，说明你理解到结构层面的动机。

参考口语化回答：
我会从两个点说：表达能力和算力利用率。门控类（比如 SwiGLU）本质上是在 FFN 里加了”选择通道”的能力，让网络不是所有特征都一股脑往前推，而是按上下文开关一些通路。
工程上它常见的收益是：同等参数量下效果更好，或者同等效果下可以省一些宽度，最终反映到推理成本。代价是算子更复杂一些，所以线上要看 kernel 支持和吞吐是否合算。

Q37. 【Multi-Query / Grouped-Query Attention（MQA/GQA）为什么在工程上很重要？】

面试官为什么问这个问题：
这题用来判断你是否理解 Attention 的”显存结构”，而不是只理解概念。面试官想看你是否能从架构角度解释：为什么一些模型能在更高并发下跑得动。

参考口语化回答：
MQA/GQA 的核心价值是减少 KV 相关的存储与带宽开销。传统多头 Attention 每个 head 都有自己的 K/V，推理时缓存和读写压力很大；MQA/GQA 通过共享或分组共享 K/V，显著降低缓存体积。
工程上这会直接提升可承载并发，尤其在长序列和多请求同时生成时效果很明显。它不是为了”更聪明”，而是为了”更跑得动”。

Q38. 【Attention 的 softmax 为什么在数值上容易出问题？你怎么做工程兜底？】

面试官为什么问这个问题：
这是在考数值稳定性意识。很多线上问题不是”模型不会”，而是溢出、NaN、精度抖动导致输出异常或服务崩溃。

参考口语化回答：
softmax 对输入尺度非常敏感，QK 的点积一大，指数项就容易溢出，混合精度下更明显。工程兜底我通常会从两端做：一端保证尺度可控，比如合适的缩放、稳定的 Norm、必要时做 clamp；另一端在算子实现上用稳定 softmax（先减 max）并监控 NaN/Inf。
我会强调一点：这类问题不解决，线上表现会很”玄学”，同一请求偶发异常，最难排查。

Q39. 【为什么说”输出层的 logits 处理”也是 Transformer 系统的一部分工程能力？】

面试官为什么问这个问题：
面试官想看你是否理解生成模型的最后一公里：模型结构输出的是分布，不是答案。候选人如果只会讲 Transformer block，忽略 logits 到 token 的决策链路，往往做不好可控生成。

参考口语化回答：
Transformer 最终给的是 logits 分布，真正的生成行为取决于你怎么采样或解码。工程上这一步决定了稳定性、重复、发散和安全边界，比如是否需要重复惩罚、是否需要强约束解码、是否要走 beam 或者受限采样。
我会把它当成”模型能力的执行策略”，同一个模型，解码策略不同，线上体验可能完全不一样，这也是面试官爱问的点。

第三层：工程化与系统能力【6 题】

Q40. 【FlashAttention 这类优化，本质上在优化 Transformer 的哪一块成本？】

面试官为什么问这个问题：
这是典型的”你有没有做过性能优化”的分水岭题。面试官想听到你能说清楚瓶颈在算力还是带宽，以及为什么优化能生效。

参考口语化回答：
FlashAttention 这类优化核心是减少显存读写，把 Attention 的中间结果尽量留在片上或用更好的访问模式处理。很多时候 Attention 不是算不动，而是被内存带宽卡住。
工程上它能显著降低显存占用和提升吞吐，尤其在长序列时更明显。我会强调：它不是”换了公式”，而是把同样的计算用更工程化的方式做出来。

Q41. 【Tensor Parallel / Pipeline Parallel 在 Transformer 上为什么好用？你怎么选切分点？】

面试官为什么问这个问题：
这题考的是规模化训练/推理的并行策略理解。面试官在看你是否能把 Transformer 的结构映射到系统切分上。

参考口语化回答：
Transformer 好并行，是因为每层结构一致、矩阵乘占比高。Tensor Parallel 适合切大矩阵，比如 QKV 投影和 FFN；Pipeline Parallel 适合按层切，把 block 分到不同 GPU。
切分点我会优先选通信开销可控、形状规则的地方，比如线性层的权重分片；同时要考虑激活/缓存在哪边，避免 pipeline 气泡太大。工程上没有绝对最优，通常要结合模型规模、网络带宽、batch 形态做压测再定。

Q42. 【为什么量化对 Transformer 的影响常常”不是均匀的”？你会优先保护哪部分？】

面试官为什么问这个问题：
这题在考你有没有做过线上成本优化，并且是否理解 Transformer 各模块对精度的敏感度不同。只会说”量化省显存”通常不够。

参考口语化回答：
量化带来的误差在 Transformer 里会被多层叠加，但敏感度确实不均匀。一般来说，Attention 相关的投影、以及输出 logits 附近对误差更敏感，容易导致回答质量和稳定性下降；而部分 FFN 在一些配置下相对更耐量化。
工程上我会先做分模块评估，必要时做混合策略，比如关键层保更高精度，其他层用更激进的量化，从而在成本和质量之间拿到可控的平衡。

Q43. 【为什么推理延迟常常呈现”首 token 慢、后续 token 快”或反过来？你怎么定位？】

面试官为什么问这个问题：
这是非常贴近线上监控的题，面试官想看你是否能把延迟形态映射到 Transformer 推理链路上，定位是预填充、解码、还是 IO/调度问题。

参考口语化回答：
我会把推理拆成两段：prefill（把输入上下文过一遍）和 decode（逐 token 生成）。prefill 往往是大矩阵计算，输入越长越慢；decode 每步算得少但步数多，容易被调度、同步、采样逻辑放大。
定位时我会分别打点 prefill 和 decode 的耗时，再看是不是被 batch 合并、队列等待或 CPU 侧采样拖慢。很多”首 token 慢”其实是 prefill 或排队；很多”后续 token 慢”则是 decode 被并发和同步拖住。

Q44. 【Speculative Decoding 这类”推理加速”思路，为什么对 Transformer 特别有效？】

面试官为什么问这个问题：
这是加速视野题，面试官想看你是否理解 Transformer 自回归生成的结构性成本，以及如何用工程手段绕开部分串行瓶颈。

参考口语化回答：
Transformer 的瓶颈在 decode 阶段必须逐 token 串行，这个结构性限制很难靠堆算力完全解决。Speculative Decoding 的思路是用一个更小更快的模型先提议一段 token，再用大模型一次性验证并接受一部分，从而减少大模型调用次数。
它之所以对 Transformer 有效，是因为验证阶段可以更并行、更批量化，把原本串行的生成成本部分转成批处理成本。工程上我会看两个条件：小模型提议质量是否够高，以及验证开销是否被 kernel/并发策略吃掉。

Q45. 【MoE（Mixture-of-Experts）放在 Transformer 里，工程上最难的点是什么？】

面试官为什么问这个问题：
MoE 是典型的”参数规模上去但算力不同比例增长”的路线，面试官用它考察你对架构演进的工程判断。核心不是原理，而是系统难点。

参考口语化回答：
MoE 的难点不在”加专家”这件事，而在路由带来的系统复杂度：负载不均、通信开销、以及专家并行的调度。你很容易出现某些专家被打爆、某些专家闲着，吞吐反而下降。
工程上要解决它，需要从路由策略、容量因子、并行切分、以及线上流量形态共同设计，不然 MoE 的”省算力”很可能只停留在理论上。

第四层：真实项目与业务场景能力【4 题】

Q46. 【你在 RAG 项目里遇到过”检索命中但回答仍然偏”的情况吗？你会从 Transformer 视角怎么排查？】

面试官为什么问这个问题：
面试官想看你是否能把问题归因到”检索侧”之外，理解 Transformer 在融合上下文时的行为特征。只会说”再调召回”通常说明经验不够。

参考口语化回答：
我遇到过，检索命中不等于模型会用。Transformer 在融合上下文时，会受信息位置、重复度、冲突信息的影响，有时注意力会被噪声或更”像答案”的句子吸走。
排查我会先看上下文编排：关键证据是否靠近问题、是否有冲突段落、是否过长导致稀释；然后用结构化提示让模型必须引用证据片段再回答，逼它把注意力落到可验证内容上。很多时候问题不在检索，而在”上下文喂法”和”约束方式”。

Q47. 【做企业问答时，你怎么用”结构化输出”去约束 Transformer，而不是靠口头要求？】

面试官为什么问这个问题：
这是一个非常现实的可控性考点。面试官想看你是否理解：Transformer 是按概率生成，不会自动遵守”请务必”，必须用工程手段约束输出空间。

参考口语化回答：
我会用明确 schema 去约束，比如固定字段、固定枚举、固定引用格式，并且在解码侧做校验，失败就重试或降级。这样做的本质是把生成从”自由文本”压缩到”受限语言”，让 Transformer 更像在填表。
如果业务要求强一致性，比如金融解释或合规话术，我会把生成拆成两步：先生成结构化要点，再渲染成自然语言，减少模型一次性自由发挥导致的跑偏。

Q48. 【当业务方要求”必须可追溯、必须可解释”时，你如何从 Transformer 架构角度给出可落地方案？】

面试官为什么问这个问题：
面试官在看你是否能把”解释性”落到工程可交付，而不是抽象讨论注意力可解释性。真实工业里，解释性通常是流程与证据链的产物。

参考口语化回答：
我不会把”注意力权重”当作解释性主方案，因为它在工程上很难稳定、也不一定符合业务理解。更可落地的方式是把解释性做成”证据链”：模型的每个结论必须绑定到输入片段或检索片段，并输出引用。
从 Transformer 视角，这相当于控制它的上下文来源和回答范围，让模型在一个可审计的上下文闭环里推理。再配合日志记录、输入输出版本化，就能满足大部分企业对可追溯的要求。

Q49. 【你怎么判断一个候选人是不是”只会调 Prompt 的 Transformer 使用者”？】

面试官为什么问这个问题：
这题是”心理博弈题”，面试官想看你是否理解行业真实分工：会调 Prompt 不等于能把 Transformer 系统上线。你给出的判断标准，也能反映你对工程边界的认知。

参考口语化回答：
我会看他能不能把问题拆到结构层面：比如为什么这个现象和 Attention 稀释、解码策略、上下文编排有关，而不是一句”我再调一下提示词”。
真正能落地的人，往往会主动提监控、约束、降级、评估集，能说清楚”怎么让系统稳定地复现效果”。只会调 Prompt 的人，通常解释不清失败模式，也说不出上线后的治理方案。

第五层：进阶与加分项（架构 / 视野）【1 题】

Q50. 【在 LangChain / LangGraph 的 Agent 或 Workflow 里，你如何定位 Transformer 的职责边界？哪些必须交给系统而不是模型？】

面试官为什么问这个问题：
这题考察候选人是否具备”架构边界感”。潜力型选手通常能明确：Transformer 擅长语言与推理，但不应该承担状态机、权限、事务一致性等系统职责。

参考口语化回答：
我会把 Transformer 定位成”决策与生成组件”，负责理解意图、生成计划、生成工具参数草案，但不负责最终执行的正确性。Workflow 里真正必须系统兜底的是：状态管理、幂等、重试、超时、权限、以及工具结果的校验与回滚。
简单说，模型给建议，系统做裁判。这样即使 Transformer 偶发跑偏，系统也能把风险关在笼子里，整体可控、可运维，这才是生产级的 Agent。

本文采用署名-非商业性使用-相同方式共享 4.0 国际许可协议，转载请注明出处。

AI面试题 - Transformer 架构原理

第一层：基础认知（Why / What）【5 题】

Q1. 你如何用工程视角解释 Transformer 为什么能成为 LLM 的核心架构？

Q2. 在 LLM 语境下，你如何区分”模型架构能力”和”参数规模效应”？

Q3. 为什么 Transformer 能比传统模型更好地建模长文本？

Q4. 在你看来，LLM 本质上在”学什么”？

Q5. 为什么说 Transformer 更像”信息路由器”，而不是传统意义的规则系统？

第二层：核心结构理解（How）【8 题】

Q6. 你如何用通俗语言解释 Self-Attention 的计算过程？

Q7. 为什么 Attention 需要除以 √d？

Q8. Multi-Head Attention 的价值到底是什么？

Q9. 为什么 Transformer 需要 Position Encoding？

Q10. 在 LLM 中，Encoder-only、Decoder-only、Encoder-Decoder 有什么本质区别？

Q11. 为什么 Decoder 中需要 Masked Self-Attention？

Q12. Feed Forward Network 在 Transformer 中的真实作用是什么？

Q13. LayerNorm 在 Transformer 中解决了什么问题？

第三层：训练与推理机制【8 题】

Q14. Transformer 训练阶段和推理阶段最大的差异是什么？

Q15. 为什么 LLM 推理速度往往比训练更难优化？

Q16. 你如何理解 KV Cache 的作用？

Q17. KV Cache 带来的工程代价是什么？

Q18. Transformer 的时间复杂度瓶颈主要在哪里？

Q19. 你如何理解 LLM 的”上下文窗口限制”？

Q20. 为什么长上下文训练比短上下文难得多？

Q21. Transformer 中你如何理解”参数共享”的价值？

第四层：能力、局限与工程应对【6 题】

Q22. Transformer 架构本身是否具备”逻辑推理能力”？

Q23. 为什么 LLM 在长链路推理中容易出错？

Q24. Transformer 对”世界模型”的表达能力有什么局限？

Q25. 在工程上，如何弥补 Transformer 的事实不确定性？

Q26. Transformer 架构为什么容易”自信地胡说”？

Q27. 你如何在系统设计中限制 Transformer 的”自由度”？

第五层：进阶视野与判断力【3 题】

Q28. 你如何看待 Transformer 是否会被”下一代架构”取代？

Q29. 对 AI 应用工程师来说，理解 Transformer 的”哪一层”最重要？

Q30. 面试官通过 Transformer 问题，最想判断你什么？

第一层：基础认知（Why / What）【5 题】

Q1. 【为什么 Transformer 能成为大模型的基础架构，而不是 RNN / CNN？】

Q2. 【你怎么区分 Transformer 架构 和 GPT / BERT 这些具体模型？】

Q3. 【从工程视角看，Transformer 解决的是”建模问题”还是”系统问题”？】

Q4. 【为什么说 Transformer 是”架构”，而不是一种具体算法？】

Q5. 【如果不用”注意力机制”这个词，你会怎么向产品或业务解释 Transformer？】

第二层：核心技术能力（How）【8 题】

Q6. 【Self-Attention 在工程上解决了什么”实际问题”？】

Q7. 【Multi-Head Attention 在真实项目中带来的价值是什么？】

Q8. 【Encoder 和 Decoder 的核心差异，在工程上体现在哪？】

Q9. 【Masked Attention 在 LLM 推理阶段到底起了什么作用？】

Q10. 【位置编码在 Transformer 中为什么是”必需但不完美”的？】

Q11. 【RoPE 相比传统位置编码，在工程上改善了什么？】

Q12. 【Transformer 的上下文窗口，本质上限制的是什么？】

Q13. 【Prompt 设计为什么本质上是在”顺着 Transformer 的工作方式走”？】

第三层：工程化与系统能力【8 题】

Q14. 【Transformer 推理阶段最大的性能瓶颈通常在哪里？】

Q15. 【KV Cache 的本质是什么？为什么它对 Transformer 推理这么关键？】

Q16. 【长上下文下，Attention 开销为什么会成为系统问题？】

Q17. 【批量推理（Batching）对 Transformer 服务意味着什么权衡？】

Q18. 【Transformer 服务化时，为什么常常需要请求队列和调度？】

Q19. 【你如何理解 Transformer 输出”漂移”或不稳定的问题？】

Q20. 【Transformer 在 Docker / API 化部署时，最容易被忽视的点是什么？】

Q21. 【为什么说 Transformer 系统必须”以失败为前提设计”？】

第四层：真实项目与业务场景能力【6 题】

Q22. 【在真实业务中，你通常如何判断”该不该用 Transformer”？】

Q23. 【Transformer 在企业知识库 / RAG 中的真实角色是什么？】

Q24. 【在医疗或金融场景中，Transformer 最大的风险点是什么？】

Q25. 【你在项目中是如何降低 Transformer 幻觉的？】

Q26. 【有没有遇到过 Transformer”答非所问”的情况？你怎么处理？】

Q27. 【你如何向业务解释 Transformer 的”能力边界”？】

Q31. 【Transformer 里”残差连接”不是装饰，它在工程上到底救了什么？】

Q32. 【为什么 Transformer 的 FFN（MLP）层看起来”很笨重”，但又不能轻易砍掉？】

Q33. 【你怎么解释”Transformer 结构很统一”这件事，对工业落地有什么直接好处？】

第二层：核心技术能力（How）【6 题】

Q34. 【Pre-Norm 和 Post-Norm 的差异，你在工程上会怎么选？】

Q35. 【LayerNorm、RMSNorm 这类归一化选择，为什么会影响推理性能和稳定性？】

Q36. 【GELU、SwiGLU 这类激活/门控设计，在 Transformer 里为什么值得面试官问？】

Q37. 【Multi-Query / Grouped-Query Attention（MQA/GQA）为什么在工程上很重要？】

Q38. 【Attention 的 softmax 为什么在数值上容易出问题？你怎么做工程兜底？】

Q39. 【为什么说”输出层的 logits 处理”也是 Transformer 系统的一部分工程能力？】

第三层：工程化与系统能力【6 题】

Q40. 【FlashAttention 这类优化，本质上在优化 Transformer 的哪一块成本？】

Q41. 【Tensor Parallel / Pipeline Parallel 在 Transformer 上为什么好用？你怎么选切分点？】

Q2. 【你怎么区分 Transformer 架构和 GPT / BERT 这些具体模型？】