第一层:基础认知(Why / What)【5 题】

Q1. 【你怎么向业务或产品解释:什么是多模态 LLM,而不是”多接几个模型”】

面试官为什么问这个问题:
这个问题用来区分候选人是否真正理解多模态的”系统本质”,而不是把 OCR、ASR、CV 模型简单拼接。很多候选人会停留在”输入多种数据”的层面,但企业更关心的是语义是否真正融合。

参考口语化回答:
我一般不会说”多模态就是文本加图像”,而是强调一点:多模态 LLM 的关键不是多输入,而是统一语义空间。
如果只是 OCR→文本→LLM,本质还是单模态,只是前面多了一层转换。真正的多模态,是图像、语音这些信息在进入模型时,参与了同一个推理过程,而不是事后补充。
工程上差别很大:前者好拆、好调、可控,但能力有限;后者效果更强,但成本、延迟、显存占用和调试复杂度都会明显上升,这也是我在项目里非常谨慎用多模态 LLM 的原因。

Q2. 【多模态 LLM 解决的是”新问题”,还是”把老问题做得更自然”】【

面试官为什么问这个问题:
这个问题考察候选人是否理解多模态的真实业务价值,而不是被 Demo 效果带偏。初级候选人容易夸大”能力突破”,而忽视投入产出比。

参考口语化回答:
从我做过的项目看,多模态更多是把原来很别扭的问题变自然,而不是凭空创造新场景。
比如以前做票据或医疗影像,要人先结构化,再进系统;多模态之后,是”人怎么给,系统就怎么理解”。
但我也会强调,多模态不是免费升级:算力贵、链路长、失败点多。如果一个问题用规则 + OCR 就能稳定解决,我一般不会上多模态 LLM,这是工程现实。

Q3. 【你如何区分”模态感知””模态对齐”和”多模态推理”】【

面试官为什么问这个问题:
这是一个典型的”概念区分题”,但真正想听的是候选人是否在工程中踩过坑。很多人能背定义,但没意识到三者在系统中的责任边界不同。

参考口语化回答:
我理解这三层是逐级加复杂度的。
模态感知解决的是”看得到、听得到”,比如图像编码、语音转特征;
模态对齐解决的是”这些信息能不能放在一起说人话”,比如图像区域和文本描述是否一致;
多模态推理才是最贵的,意味着模型要基于多种模态一起做判断。
工程上我会尽量把系统卡在前两层,只有在业务确实需要”跨模态推理”时,才会上真正的多模态 LLM。

Q4. 【多模态 LLM 的能力是不是”模型一升级就自然拥有”】【

面试官为什么问这个问题:
这个问题用来判断候选人是否理解多模态能力背后的成本与限制,而不是把能力当成”版本红利”。

参考口语化回答:
不是,而且这是很多项目翻车的原因。
模型支持多模态,不代表你的系统、链路、预算都支持。图像一加,显存直接翻倍;视频一来,延迟和带宽直接失控。
我在项目里经常遇到”模型能做,但系统跑不动”的情况,所以我更关注能不能长期稳定跑,而不是模型发布了什么新能力。

Q5. 【为什么多模态 LLM 特别容易”看起来很聪明,但不可靠”】【

面试官为什么问这个问题:
这是对风险意识的考察。高级工程师一定会对”错但很自信”的输出保持警惕。

参考口语化回答:
因为多模态一旦错,你很难定位它是哪里错了。
是图像编码丢信息,还是对齐阶段偏了,还是 LLM 自己补全幻想?
相比纯文本,多模态的错误链路更长,所以我在真实系统里一定会加人工确认、置信度判断,或者回退到单模态逻辑,否则业务风险不可控。

第二层:核心技术能力(How)【8 题】

Q6. 【多模态输入在工程上是怎么”真正进入”LLM 的】

面试官为什么问这个问题:
考察候选人是否理解多模态不是”直接丢给模型”,而是有明确的编码与拼接策略 know-how。

参考口语化回答:
工程上我从不把它理解成”直接输入图像”。
实际是:图像或音频先过 Encoder,变成高维 embedding,再按一定顺序、位置或标记拼进 LLM 的上下文。
这一步的代价是:上下文变长、显存变大、推理变慢,所以我会非常控制输入规模,比如裁剪区域、降采样、分阶段推理。

Q7. 【Vision Encoder 在系统里通常是瓶颈还是工具】

面试官为什么问这个问题:
判断候选人是否真正跑过多模态推理,而不是只用 API。

参考口语化回答:
在我做过的系统里,Vision Encoder 往往是瓶颈。
它吃显存、耗时长,而且对并发极其不友好。
所以工程上我会把它当成”昂贵资源”,尽量缓存、复用、异步处理,而不是每个请求都全量跑一遍。

Q8. 【多模态 Prompt 和纯文本 Prompt 最大的工程差异是什么】

面试官为什么问这个问题:
考察候选人是否意识到 Prompt 在多模态场景下不再是”写提示词”那么简单。

参考口语化回答:
最大差异是:你要告诉模型”该信哪种模态”。
如果不说清楚,模型会在文本和图像之间随意补全,幻觉非常严重。
我在 Prompt 里通常会明确优先级,比如”以图像为准,文本只做辅助”,这是踩坑踩出来的经验。

Q9. 【多模态 RAG 和文本 RAG 在工程上最大的不同】

面试官为什么问这个问题:
判断候选人是否真正做过多模态检索,而不是停留在概念层。

参考口语化回答:
最大不同是:向量不再好管理。
文本向量还能解释,图像向量基本是黑盒。
所以我一般不会直接做”图像向量 RAG”,而是先结构化、打标签,再让多模态 LLM参与理解,否则效果不可控。

Q10. 【模态缺失或质量很差时,你会怎么设计系统】

面试官为什么问这个问题:
真实业务中输入永远不完美,这道题考察防御式设计能力。

参考口语化回答:
我一定不会假设”输入是干净的”。
系统上会做模态检测和降级策略,比如图像不清晰就回退到文本流程。
这是多模态项目能不能活下来的关键,而不是模型选型。

Q11. 【当不同模态给出冲突信息时,你信谁】

面试官为什么问这个问题:
考察候选人的决策能力和业务意识。

参考口语化回答:
我不会让模型自己”自由判断”。
工程上一定有业务规则,比如医疗影像优先于文本描述,或者必须人工确认。
否则模型会自圆其说,但业务要背锅。

Q12. 【多模态 Agent 相比普通 Agent,多出来的复杂度在哪里】

面试官为什么问这个问题:
区分”用过 Agent”与”设计过 Agent”。

参考口语化回答:
多出来的是感知链路和状态管理。
Agent 不再只是”想什么→做什么”,而是”看到什么→理解是否可靠→再决定”。
这会让状态爆炸,流程更难维护。

Q13. 【你如何判断一个多模态能力”值不值得上线”】【

面试官为什么问这个问题:
这是典型的工程决策题,考察 ROI 意识。

参考口语化回答:
我会看三点:效果提升是否明显、成本是否可控、失败后有没有兜底。
如果只能提升 Demo 效果,但上线后成本翻倍、风险不可控,我宁愿不用。

第三层:工程化与系统能力【8 题】

Q14. 【多模态推理最大的性能杀手是什么】

面试官为什么问这个问题:
判断候选人是否真的压测过系统。

参考口语化回答:
不是 LLM 本身,而是多模态前处理。
图像解码、编码、传输,往往比文本推理还慢。

Q15. 【图像 / 视频输入对显存和延迟的影响你是怎么评估的】

面试官为什么问这个问题:
考察资源评估能力。

参考口语化回答:
我会用最坏情况算账。
比如最大分辨率、最长视频,然后看系统是否还能接受,而不是只看平均值。

Q16. 【多模态 API 你会设计成一个接口还是多个接口】

面试官为什么问这个问题:
考察系统设计取舍。

参考口语化回答:
我倾向于拆。
统一接口看起来优雅,但一旦出问题,很难定位和降级。

Q17. 【多模态系统中最容易被忽略的成本是什么】

面试官为什么问这个问题:
看候选人是否有长期运维视角。

参考口语化回答:
存储和带宽。
图像、音频日志一旦全量留存,成本会悄悄爆炸。

Q18. 【你如何监控多模态质量,而不是只监控接口成功率】

面试官为什么问这个问题:
考察质量意识。

参考口语化回答:
我会抽样做人审,对关键字段做一致性校验。
否则系统”都成功了”,但答案全是错的。

Q19. 【异常输入在多模态场景下为什么更危险】

面试官为什么问这个问题:
考察安全和稳定性意识。

参考口语化回答:
因为异常不一定会报错,而是被模型”合理化”。
这是我在多模态项目里最警惕的点。

Q20. 【多模态系统你会怎么做降级设计】

面试官为什么问这个问题:
区分 Demo 工程师和生产工程师。

参考口语化回答:
一定能回退到单模态或规则逻辑。
否则一旦资源紧张,整个系统就不可用。

Q21. 【你怎么看多模态在高并发场景下的可行性】

面试官为什么问这个问题:
考察现实判断力。

参考口语化回答:
我认为短期内不适合极高并发。
多模态更适合”高价值、低频次”的场景。

第四层:真实项目与业务场景能力【6 题】

Q22. 【在医疗场景中,多模态最容易踩的坑是什么】

面试官为什么问这个问题:
考察行业理解。

参考口语化回答:
模型”看错但说得很像真的”。
所以我一定要求医生确认,模型只做辅助。

Q23. 【金融票据识别你会直接用多模态 LLM 吗】

面试官为什么问这个问题:
判断是否懂业务约束。

参考口语化回答:
不会直接用。
我会先规则 + OCR,再让多模态处理复杂情况。

Q24. 【企业内部 OCR + 多模态的真实价值在哪里】

面试官为什么问这个问题:
考察落地能力。

参考口语化回答:
不是识别,而是理解上下文和流程含义。

Q25. 【你如何评估多模态效果是否真的提升了业务】

面试官为什么问这个问题:
看是否有量化思维。

参考口语化回答:
我会对比人工耗时、返工率和投诉率,而不是只看模型指标。

Q26. 【当多模态模型误识别造成业务损失,你如何兜底】

面试官为什么问这个问题:
考察责任意识。

参考口语化回答:
流程上必须有人或规则兜底,不能让模型”直接生效”。

Q27. 【你做过最”不值得”的多模态尝试是什么】

面试官为什么问这个问题:
这是典型的高阶问题,看候选人是否能反思。

参考口语化回答:
我做过一个纯展示型多模态,效果炫,但上线价值不大。
后来我学会先问业务,再选技术。

第五层:进阶与加分项【3 题】

Q28. 【多模态 Agent 为什么比你想象中难维护】

面试官为什么问这个问题:
区分系统设计者和使用者。

参考口语化回答:
因为状态多、路径多、失败点多。
一旦出问题,很难复现。

Q29. 【你怎么看 LangGraph 在多模态流程中的价值与限制】

面试官为什么问这个问题:
考察工程视野。

参考口语化回答:
它适合复杂流程,但多模态节点一多,调试成本非常高,需要很强的工程纪律。

Q30. 【在你看来,什么样的工程师适合长期做多模态方向】

面试官为什么问这个问题:
这是终极判断题。

参考口语化回答:
不是最懂模型的人,而是能算清成本、敢给业务泼冷水、能把系统跑稳的人。
多模态不是炫技方向,是长期工程方向。


第一层:基础认知(Why / What)【5 题】

Q31. 【你怎么判断一个需求”必须用多模态”,而不是”被多模态吸引”】【

面试官为什么问这个问题:
这个问题用来区分”技术驱动型候选人”和”业务判断型候选人”。很多人是先想用多模态,再去找场景,而企业往往相反。

参考口语化回答:
我一般先问三个问题:
第一,单模态是不是已经到效果瓶颈了;第二,多模态能不能减少人工成本,而不是只提升体验;第三,失败时有没有兜底方案。
如果只是”看起来更智能”,但并不能降低人工或风险,我会直接否掉多模态方案,这是我在项目里踩过坑后形成的习惯。

Q32. 【多模态 LLM 和”多模态系统”是同一个概念吗】

面试官为什么问这个问题:
考察候选人是否理解模型能力与系统能力的边界。初级候选人往往把两者混为一谈。

参考口语化回答:
不是。
多模态 LLM 是能力,多模态系统是工程。
我见过很多系统号称多模态,但核心判断其实还是规则或单模态模型,多模态 LLM只是辅助。
在真实项目里,系统是否多模态,取决于决策是否真的依赖多模态输出,而不是模型支不支持图像。

Q33. 【为什么说多模态能力”放错位置反而是负担”】【

面试官为什么问这个问题:
这个问题考察候选人是否理解”能力不是越强越好”。

参考口语化回答:
因为多模态一旦进入核心路径,就会把不确定性放大。
比如把多模态 LLM放在风控决策核心,一旦误判,后果很严重。
我现在更倾向于把多模态放在理解层或辅助层,而不是最终决策层。

Q34. 【你怎么看”端到端多模态”这个说法】

面试官为什么问这个问题:
这是一个容易被营销话术带偏的问题,用来看候选人是否理性。

参考口语化回答:
我对”端到端”一直比较谨慎。
端到端在 Demo 里很漂亮,但工程上意味着几乎无法拆解和定位问题。
在真实业务里,我更愿意牺牲一点”端到端美感”,换可控性和可维护性。

Q35. 【多模态是不是一定比单模态”更智能”】【

面试官为什么问这个问题:
这是典型的认知纠偏题。

参考口语化回答:
不一定,甚至很多时候更不稳定。
多模态引入的是信息增量,同时也是噪声增量。
如果业务场景本身信息明确,多模态反而可能引入错误,这是我在多个项目里真实遇到过的。

第二层:核心技术能力(How)【8 题】

Q36. 【你在多模态项目中是如何控制上下文长度的】

面试官为什么问这个问题:
考察是否真正做过性能优化。

参考口语化回答:
我不会无脑把所有模态信息塞进模型。
常见做法是:先裁剪、再摘要、再分阶段推理。
否则上下文一爆,延迟和成本都会失控。

Q37. 【图像区域选择在多模态理解中为什么很关键】

面试官为什么问这个问题:
考察对视觉信息”有效性”的理解。

参考口语化回答:
因为图像不是越大越好。
无关区域会稀释注意力,反而影响判断。
工程上我更倾向于先做区域筛选,再送给多模态模型。

Q38. 【音频模态在多模态 LLM 中最容易被低估的问题是什么】

面试官为什么问这个问题:
考察是否做过语音相关项目。

参考口语化回答:
是时间维度。
音频不是一段文本那么简单,切分方式直接影响理解效果。
如果切得不好,模型理解会非常碎。

Q39. 【多模态 Prompt 中”顺序”为什么重要】

面试官为什么问这个问题:
考察对模型行为的细节理解。

参考口语化回答:
因为模态顺序会影响模型关注重点。
我在实践中发现,把关键模态靠前,稳定性明显更好,这不是文档里能直接看到的。

Q40. 【你如何在多模态 RAG 中减少”检索对齐失败”】【

面试官为什么问这个问题:
这是实际工程难题。

参考口语化回答:
我会尽量避免”模态直接对模态”的检索。
先结构化、再检索、最后让多模态模型理解,是我验证过相对稳定的方案。

Q41. 【多模态 Agent 的”观察(Observation)”阶段有什么特殊性】

面试官为什么问这个问题:
考察对 Agent 内部机制的理解。

参考口语化回答:
Observation 不再只是文本反馈,而是带噪声的感知结果。
这意味着 Agent 后续决策必须考虑不确定性,否则会一路错下去。

Q42. 【你如何处理多模态输入中的隐私与敏感信息】

面试官为什么问这个问题:
考察合规意识。

参考口语化回答:
我会在进入多模态模型前做脱敏和裁剪。
图像和音频比文本更容易泄露隐私,这是很多人低估的风险。

Q43. 【多模态模型输出你会直接给下游系统用吗】

面试官为什么问这个问题:
考察风险控制意识。

参考口语化回答:
不会。
我一定会做校验、约束或人工确认,否则风险不可控。

第三层:工程化与系统能力【8 题】

Q44. 【多模态系统中最难做自动化测试的部分是什么】

面试官为什么问这个问题:
考察工程成熟度。

参考口语化回答:
是感知相关部分。
因为图像、音频的”正确性”很难用规则定义,只能通过样本和人工评估。

Q45. 【你如何设计多模态请求的超时与重试策略】

面试官为什么问这个问题:
考察稳定性设计。

参考口语化回答:
我会把模态处理拆开。
某个模态失败,不一定要整体失败,而是允许部分结果返回。

Q46. 【多模态推理为什么不适合放在同步主流程】

面试官为什么问这个问题:
判断系统设计经验。

参考口语化回答:
因为不确定性太大。
我更倾向于异步或半同步,让主流程可控。

Q47. 【你如何限制多模态请求被”滥用”】【

面试官为什么问这个问题:
考察平台意识。

参考口语化回答:
我会做配额、大小限制和频率限制。
否则一个用户就能把算力打满。

Q48. 【多模态日志为什么不能”全量保存”】【

面试官为什么问这个问题:
考察成本意识。

参考口语化回答:
因为存储和合规成本极高。
我通常只保留抽样和关键字段。

Q49. 【多模态系统上线后你最先监控什么指标】

面试官为什么问这个问题:
考察实战经验。

参考口语化回答:
不是 QPS,而是失败率、超时率和异常输入比例。
这些指标最能反映真实稳定性。

Q50. 【你如何在多模态系统中做灰度发布】

面试官为什么问这个问题:
考察工程流程。

参考口语化回答:
我会先灰度模态,而不是灰度用户。
逐步引入新模态,比一次性全开安全得多。

Q51. 【多模态模型更新为什么风险更大】

面试官为什么问这个问题:
考察长期运维意识。

参考口语化回答:
因为模型行为变化难预测。
一个小更新,可能导致某一类图像理解完全变样。

第四层:真实项目与业务场景能力【6 题】

Q52. 【在医疗影像项目中,你如何限制模型”过度解读”】【

面试官为什么问这个问题:
考察行业风险认知。

参考口语化回答:
我会强制模型只描述可见事实,不允许下诊断结论。
否则责任边界会非常模糊。

Q53. 【语音质检场景下,多模态的核心价值是什么】

面试官为什么问这个问题:
考察业务理解。

参考口语化回答:
不是识别内容,而是结合语气、节奏判断风险。
但我也只把它当辅助指标。

Q54. 【在企业流程自动化中,多模态最大的价值点在哪里】

面试官为什么问这个问题:
判断是否真正落地过。

参考口语化回答:
在减少人工理解成本,而不是替代决策。
这点非常重要。

Q55. 【你遇到过多模态”效果很好但业务不用”的情况吗】

面试官为什么问这个问题:
考察反思能力。

参考口语化回答:
遇到过。
原因通常是成本高、速度慢,业务等不起。

Q56. 【多模态在金融合规场景下最大的风险是什么】

面试官为什么问这个问题:
考察合规意识。

参考口语化回答:
不可解释性。
模型给不出清晰理由,合规就过不了。

Q57. 【你如何向业务解释”为什么不用最强的多模态模型”】【

面试官为什么问这个问题:
考察沟通能力。

参考口语化回答:
我会直接算账:成本、延迟、失败率。
业务一般能理解。

第五层:进阶与加分项【3 题】

Q58. 【你如何看待多模态能力的”平台化”】【

面试官为什么问这个问题:
考察架构视野。

参考口语化回答:
一定要平台化,否则每个业务重复踩坑。
但平台要限制能力边界。

Q59. 【多模态 Workflow 复杂度主要来自哪里】

面试官为什么问这个问题:
区分系统设计能力。

参考口语化回答:
来自模态之间的依赖关系。
一旦耦合,维护成本急剧上升。

Q60. 【你心目中”合格的多模态工程师”最重要的特质是什么】

面试官为什么问这个问题:
终极价值观判断。

参考口语化回答:
不是会用最新模型,而是知道什么时候不用、多大规模用、出了问题怎么兜底。
这决定系统能不能长期活着。