我是 2024 年初到一家大模型公司工作，之前一直在数据库、存储等 infra 行业工作，因此有些很粗浅的转行认知。很久没有在 b 站做分享了，这次靠直播强制开机，回答了大家一些问题，稍稍弥合一点信息差。本文对直播中提到的一些点的稍微规整一点的总结，并将一些我觉得不错的资料附在最后。

b 站直播：https://www.bilibili.com/video/BV1uckJBkEto

作者：木鸟杂记 https://www.qtmuniao.com/2026/01/25/llm-switch/ 转载请注明出处

类型分野

大模型的相关工作从底层到上层：infra 侧、数据侧、模型侧 | Agent 层、应用层。

infra 侧和数据侧分布式系统相关的同学都相对沾边，比较好转。模型侧准入门槛比较高，要么需要发过不错论文的博士、要么需要有受认可公司的一些年的工作经验。Agent 层、应用层和传统的后端开发很像，只需要了解一些大模型的能力边界和使用实践就行，目前还是偏蓝海的状态。

泛 AI infra 按需求的多少可以分为推理侧 infra、训练侧 infra 和数据侧 infra。推理侧 infra 在分布式系统和计算机基础知识之外，还需要一些对模型原理的了解，对并行计算和主流推理框架熟悉和调优。训练大模型的公司要远少于使用大模型的公司，因此推理侧的 infra 岗位要多于后两者。训练侧infra 和推理侧其实差不多，但要求强一致性（也即可复现性）。数据侧 infra 主要是围绕构建数据爬取和清洗的各个环节，沉淀一些工具库。

数据工程

我主要在大模型做数据工程，所以稍微展开讲讲。数据库工程另一个说法就是围绕模型训练需求、构造数据清洗流水线，再直白点就是洗数据。

大模型预训练数据的来源主要有爬、买、造，前两者得来的数据基本都要做清洗才能使用。宏观来看，清洗主要提取结构化信息、提取语义信息、根据需求进行过滤、转换成目标格式。此过程中，还有经常需要用到的操作：大规模去重。去重根据精细度，可以基于值进行精确去重、基于语义信息进行模糊去重。

围绕这些的基建，也可以从计算和存储两块来分。计算一般都用 spark 和 ray ，存储主要是文件存储和对象存储，然后在之上抽象出一些适合训练和清洗的数据集。我的专栏和公众号有分享更多细节，欢迎订阅。

模型使用

使用模型最简单的方式就是 Prompt，稍微复杂一点可以做 RAG 或者 Agent，这些都不会动模型参数。如果对某领域的任务精度有更高的要求，可能需要大量（ 10k 以上）高质量的数据，基于开源模型做微调或者 RL，会真正的动模型权重。因此是否动模型参数可以看做是一个使用门槛的简单分水岭，当然这是在使用深度上。

如果看过 GPT 系列论文，可以大概知道，大模型的初衷就是为了通用，尽可能地降低为了适配不同下游任务的微调。虽然大模型也有一定的泛化能力，但是在没有见过的特殊数据的理解能力还是有限，因此在很多高精度需求的专用领域（比如分子生物学、交易序列等等）仍然需要专用的数据来调整大模型的能力。

这种需要微调的对应的需求深度，不过目前大部分需要落地的任务更多的是需要广度，也即复杂度。最简单的可以使用 RAG 来根据需求，将合适的数据作为背景 Prompt 给大模型；稍微复杂一点，可以基于固定规则进行工作流编排（比如使用代码或者 n8n 等工具），将大模型作为其中某一环的组件来使用；再复杂一点，就是让大模型在解决问题时进行自主的路径选择和工具调用，也就是现在大家常说的 Agent 系统。

构建 Agent 系统，首先需要一个有强大决策能力和会使用工具的基础模型，然后用户再用某种方式，动态的将最少而全的上下文在合适的时机给到模型。manus 和 anthropic 在这些方面有不少的探索，也发了很多博文，附在了下面。

Vibe Coding

Vibe Coding 是大模型在工业界最先大规模落地的 Agent 方向。建议所有没有试过的程序员都去试试最前沿的 Code Agent 来编程。只有试过，才知道现在模型能力能干什么，不能干什么。我们不迷信、不害怕，但也绝对不可小觑现在编程类 Agent 的迭代速度。快速变革的时代，听听“一线的炮火”得到的体感是最重要的。

比如我两三个月前用着还很不顺手，无论是指令跟随和用户交互方面都觉得差强人意，然而最近（202601）已经用起来相当丝滑了。基本上，只要我能将上下文以合理的方式给出、将意图以精确的方式描述，Claude Code 在大部分场景就已经可以工作的非常好了，甚至我会从他那里学到很多新的代码写法和组织方式。

如何用控制大模型输出代码质量，我提供一个简单的切入点：代码以后是否需要人来维护。如果用大模型写的代码还需要人看，就要还是要用传统软件工程（抽象封装，降低复杂度）的标准来要求它，可以让他多精简几轮代码——人的带宽毕竟是有限的。但若并不想让人维护或者只是临时性甚至一次性代码，那大可不必太过当白盒。只要功能满足，通过黑盒测试就可以用。大不了下次有类似需求，不用旧代码，让模型重写就行。

最近和出去创业的朋友聊、听了很多的关于 Vibe Coding 的播客，也有个感受：Code Agent 的大规模落地带来了太多全新的可能性。比如：代码的生命周期重新考量、基于自然语言的工作流编排。

关于代码的生命周期，一个核心的观察就是，既然我们以后能以 10x 效率生成代码，那同时也可以以十倍的速度扔掉代码。即，代码不再是一件手工品，而可以是一个工业品，甚至一次性用品，这会极大改变我们对代码的认知。比如我们做一个活动，可以让策划人员通过 Code Agent 直接生成一次性宣发网页。相比传统的 PS 生成的静态海报，基于代码的网页有更多的定制性、动态性和交互性。即使用一次就扔也没什么。这种成本数量级的降低会改变我们各种使用“广义上的软件”的方式。

关于自然语言的工作编排，了解数据库应该都知道，数据库本质是让用户以 SQL 的方式组合基本算子来编排数据流。抽象一步，就是让用户以某种 DSL （Domain Specific Languages，即领域专用的精确描述性语言）的方式来编排工作流，而 Code Agent 可以将其再往前推一步——使用自然语言（高维性、模糊性）编排常用工作流。大致就是让运营同学可以绕开数仓同学，直接做实验获得洞察。而，anthropic 最近提出了类似 MCP 和 Skills 的概念，正是这一理念落地的先驱。MCP 定义外部工具，Skill 提供基于这些工具的组合技。每个 Skill 会以摘要的形式将自己的元信息注册给大模型，大模型在执行任务时会根据这些摘要来做动态规划和原则。于是，在每个具体场景进行落地，需要做的就是构建、遴选自己的 Skill 集。

因此，Vibe Coding 是一个必然的趋势，因为它真切的降低了门槛，提高了生产力。无论我们这些写代码的手艺师傅喜不喜欢，被工业化替代大部分工作都是一个必然的趋势，作为最早看到这种趋势的我们，何不主动拥抱。

多模态的趋势

大模型的多模态能力可以分为两块，一是理解，一是生成。理解能力要变强需要更多的高质量的图文数据，生成能力要变好需要更强的模型融合。

多模态理解的主干网络还是基于 Transformer，只不过在输入端将图片 Token 以各种方式接入语言模型进行训练。因此，这个图像到文本序列的转接头（Vision Tower）很重要，如果参数量太小且进行不合理的冻结，就会很容易成为瓶颈。因此，在现有架构下，多模态理解的质量提升，首重数据，次重 VT。多模态理解落地场景很多，比如各种做题场景（K12、考公考研）、物体识别、网页复刻、图片复刻（SVG）、基于图片的逻辑物理推理等等。

多模态生成主干模型是扩散模型，和 Transformer 完全不同的模型。但在生成效果方面更惊艳，所以在创意内容方面，扩散模型很适合。但其问题在于做语义和物理约束相对较难，体现在使用上，就是早期的图像生成工具往往难以支持多轮对话的精确修改，也常常会生成七八根手指的手这种不符合物理世界的东西。如何更好的进行生成，现在起码有两个发展方向，一个是更深度地和语言模型进行融合以对满足语义的理解、对指令的跟随的需求，谷歌的 Gemini 系列在这方面做的很好。另一个就是完全的改弦更张，也即最近各路做前沿研究的学者常常提到的“世界模型”。即构造新的范式，让大模型可以真正的理解和探索这个世界的物理规律和边界。而非像现在这样，大模型基本上是一个诞生于人类“语言空间”的幽灵。

数字游民 & 校招生

大模型和各种下游生产力工具的成熟，在互联网这种“水电”的基础上，又给个人增加了“智力”外包这种超级杠杆。因此 OPC（one-person-company）这个概念最近很火，甚至很多城市（比如苏州）直接推出了针对这种概念的补贴。因此，如果你有好的想法和创意，不妨大胆去吃螃蟹。

至于在校生，在找工作之余，也可以大胆探索下现在这种大模型落地可能性。当然，能更为熟练地使用大模型并熟悉相关生态，本身就很会受用人方的青睐。造大模型的机会会越来越少，且会越来越富集到少数几家公司，大家也不用太往这方面卷，但是如何用好大模型却可能是一个会遍地开花的机会。

参考资料

这里罗列一些我看过觉得还不错的材料：

数学基础：MIT 有门经典的线性代数课 https://www.bilibili.com/video/BV1rH4y1N7BW。
论文脉络：普林斯顿的一门公开课，https://princeton-cos597r.github.io/，我在专栏里（https://xiaobot.net/p/system-thinking）也在更新解读，欢迎订阅。
端到端、从零到一：Andrej Karpathy 的系列视频，还有源码 https://github.com/karpathy/nanoGPT
LLM 大全式文档：https://s3tlxskbq3.feishu.cn/docx/NyPqdCKraoXz9gxNVCfcIFdnnAc
ml system：陈天奇的公开课 https://mlsys.org/
manus 上下文工程：https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
anthropic agent 相关博客：https://www.anthropic.com/engineering
skills 理解：https://mp.weixin.qq.com/s/Bl4ODUxvwO8pYu9nXVmjuQ
很棒的翻译播客，《跨国串门计划》，有很多关于大模型大佬分享的一手内容：https://www.xiaoyuzhoufm.com/podcast/670f3da40d2f24f28978736f

我是青藤木鸟，一个喜欢摄影、专注大规模数据系统的程序员，欢迎关注我的公众号：“木鸟杂记”，有更多的分布式系统、存储和数据库相关的文章，欢迎关注。关注公众号后，回复“资料”可以获取我总结一份分布式数据库学习资料。回复“优惠券”可以获取我的大规模数据系统付费专栏《系统日知录》的八折优惠券。

我们还有相关的分布式系统和数据库的群，可以添加我的微信号：qtmuniao，我拉你入群。加我时记得备注：“分布式系统群”。另外，如果你不想加群，还有一个分布式系统和数据库的论坛（点这里），欢迎来玩耍。