我是 2024 年初到一家大模型公司工作,之前一直在数据库、存储等 infra 行业工作,因此有些很粗浅的转行认知。很久没有在 b 站做分享了,这次靠直播强制开机,回答了大家一些问题,稍稍弥合一点信息差。本文对直播中提到的一些点的稍微规整一点的总结,并将一些我觉得不错的资料附在最后。
b 站直播:https://www.bilibili.com/video/BV1uckJBkEto

作者:木鸟杂记 https://www.qtmuniao.com/2026/01/25/llm-switch/ 转载请注明出处
类型分野
大模型的相关工作从底层到上层:infra 侧、数据侧、模型侧 | Agent 层、应用层。
infra 侧和数据侧分布式系统相关的同学都相对沾边,比较好转。模型侧准入门槛比较高,要么需要发过不错论文的博士、要么需要有受认可公司的一些年的工作经验。Agent 层、应用层和传统的后端开发很像,只需要了解一些大模型的能力边界和使用实践就行,目前还是偏蓝海的状态。
泛 AI infra 按需求的多少可以分为推理侧 infra、训练侧 infra 和数据侧 infra。推理侧 infra 在分布式系统和计算机基础知识之外,还需要一些对模型原理的了解,对并行计算和主流推理框架熟悉和调优。训练大模型的公司要远少于使用大模型的公司,因此推理侧的 infra 岗位要多于后两者。训练侧infra 和推理侧其实差不多,但要求强一致性(也即可复现性)。数据侧 infra 主要是围绕构建数据爬取和清洗的各个环节,沉淀一些工具库。
数据工程
我主要在大模型做数据工程,所以稍微展开讲讲。数据库工程另一个说法就是围绕模型训练需求、构造数据清洗流水线,再直白点就是洗数据。
大模型预训练数据的来源主要有爬、买、造,前两者得来的数据基本都要做清洗才能使用。宏观来看,清洗主要提取结构化信息、提取语义信息、根据需求进行过滤、转换成目标格式。此过程中,还有经常需要用到的操作:大规模去重。去重根据精细度,可以基于值进行精确去重、基于语义信息进行模糊去重。
围绕这些的基建,也可以从计算和存储两块来分。计算一般都用 spark 和 ray ,存储主要是文件存储和对象存储,然后在之上抽象出一些适合训练和清洗的数据集。我的专栏和公众号有分享更多细节,欢迎订阅。

模型使用
使用模型最简单的方式就是 Prompt,稍微复杂一点可以做 RAG 或者 Agent,这些都不会动模型参数。如果对某领域的任务精度有更高的要求,可能需要大量( 10k 以上)高质量的数据,基于开源模型做微调或者 RL,会真正的动模型权重。因此是否动模型参数可以看做是一个使用门槛的简单分水岭,当然这是在使用深度上。
如果看过 GPT 系列论文,可以大概知道,大模型的初衷就是为了通用,尽可能地降低为了适配不同下游任务的微调。虽然大模型也有一定的泛化能力,但是在没有见过的特殊数据的理解能力还是有限,因此在很多高精度需求的专用领域(比如分子生物学、交易序列等等)仍然需要专用的数据来调整大模型的能力。
这种需要微调的对应的需求深度,不过目前大部分需要落地的任务更多的是需要广度,也即复杂度。最简单的可以使用 RAG 来根据需求,将合适的数据作为背景 Prompt 给大模型;稍微复杂一点,可以基于固定规则进行工作流编排(比如使用代码或者 n8n 等工具),将大模型作为其中某一环的组件来使用;再复杂一点,就是让大模型在解决问题时进行自主的路径选择和工具调用,也就是现在大家常说的 Agent 系统。
构建 Agent 系统,首先需要一个有强大决策能力和会使用工具的基础模型,然后用户再用某种方式,动态的将最少而全的上下文在合适的时机给到模型。manus 和 anthropic 在这些方面有不少的探索,也发了很多博文,附在了下面。
Vibe Coding
Vibe Coding 是大模型在工业界最先大规模落地的 Agent 方向。建议所有没有试过的程序员都去试试最前沿的 Code Agent 来编程。只有试过,才知道现在模型能力能干什么,不能干什么。我们不迷信、不害怕,但也绝对不可小觑现在编程类 Agent 的迭代速度。快速变革的时代,听听“一线的炮火”得到的体感是最重要的。
比如我两三个月前用着还很不顺手,无论是指令跟随和用户交互方面都觉得差强人意,然而最近(202601)已经用起来相当丝滑了。基本上,只要我能将上下文以合理的方式给出、将意图以精确的方式描述,Claude Code 在大部分场景就已经可以工作的非常好了,甚至我会从他那里学到很多新的代码写法和组织方式。
如何用控制大模型输出代码质量,我提供一个简单的切入点:代码以后是否需要人来维护。如果用大模型写的代码还需要人看,就要还是要用传统软件工程(抽象封装,降低复杂度)的标准来要求它,可以让他多精简几轮代码——人的带宽毕竟是有限的。但若并不想让人维护或者只是临时性甚至一次性代码,那大可不必太过当白盒。只要功能满足,通过黑盒测试就可以用。大不了下次有类似需求,不用旧代码,让模型重写就行。
最近和出去创业的朋友聊、听了很多的关于 Vibe Coding 的播客,也有个感受:Code Agent 的大规模落地带来了太多全新的可能性。比如:代码的生命周期重新考量、基于自然语言的工作流编排。
关于代码的生命周期,一个核心的观察就是,既然我们以后能以 10x 效率生成代码,那同时也可以以十倍的速度扔掉代码。即,代码不再是一件手工品,而可以是一个工业品,甚至一次性用品,这会极大改变我们对代码的认知。比如我们做一个活动,可以让策划人员通过 Code Agent 直接生成一次性宣发网页。相比传统的 PS 生成的静态海报,基于代码的网页有更多的定制性、动态性和交互性。即使用一次就扔也没什么。这种成本数量级的降低会改变我们各种使用“广义上的软件”的方式。
关于自然语言的工作编排,了解数据库应该都知道,数据库本质是让用户以 SQL 的方式组合基本算子来编排数据流。抽象一步,就是让用户以某种 DSL (Domain Specific Languages,即领域专用的精确描述性语言)的方式来编排工作流,而 Code Agent 可以将其再往前推一步——使用自然语言(高维性、模糊性)编排常用工作流。大致就是让运营同学可以绕开数仓同学,直接做实验获得洞察。而,anthropic 最近提出了类似 MCP 和 Skills 的概念,正是这一理念落地的先驱。MCP 定义外部工具,Skill 提供基于这些工具的组合技。每个 Skill 会以摘要的形式将自己的元信息注册给大模型,大模型在执行任务时会根据这些摘要来做动态规划和原则。于是,在每个具体场景进行落地,需要做的就是构建、遴选自己的 Skill 集。
因此,Vibe Coding 是一个必然的趋势,因为它真切的降低了门槛,提高了生产力。无论我们这些写代码的手艺师傅喜不喜欢,被工业化替代大部分工作都是一个必然的趋势,作为最早看到这种趋势的我们,何不主动拥抱。
多模态的趋势
大模型的多模态能力可以分为两块,一是理解,一是生成。理解能力要变强需要更多的高质量的图文数据,生成能力要变好需要更强的模型融合。
多模态理解的主干网络还是基于 Transformer,只不过在输入端将图片 Token 以各种方式接入语言模型进行训练。因此,这个图像到文本序列的转接头(Vision Tower)很重要,如果参数量太小且进行不合理的冻结,就会很容易成为瓶颈。因此,在现有架构下,多模态理解的质量提升,首重数据,次重 VT。多模态理解落地场景很多,比如各种做题场景(K12、考公考研)、物体识别、网页复刻、图片复刻(SVG)、基于图片的逻辑物理推理等等。
多模态生成主干模型是扩散模型,和 Transformer 完全不同的模型。但在生成效果方面更惊艳,所以在创意内容方面,扩散模型很适合。但其问题在于做语义和物理约束相对较难,体现在使用上,就是早期的图像生成工具往往难以支持多轮对话的精确修改,也常常会生成七八根手指的手这种不符合物理世界的东西。如何更好的进行生成,现在起码有两个发展方向,一个是更深度地和语言模型进行融合以对满足语义的理解、对指令的跟随的需求,谷歌的 Gemini 系列在这方面做的很好。另一个就是完全的改弦更张,也即最近各路做前沿研究的学者常常提到的“世界模型”。即构造新的范式,让大模型可以真正的理解和探索这个世界的物理规律和边界。而非像现在这样,大模型基本上是一个诞生于人类“语言空间”的幽灵。
数字游民 & 校招生
大模型和各种下游生产力工具的成熟,在互联网这种“水电”的基础上,又给个人增加了“智力”外包这种超级杠杆。因此 OPC(one-person-company)这个概念最近很火,甚至很多城市(比如苏州)直接推出了针对这种概念的补贴。因此,如果你有好的想法和创意,不妨大胆去吃螃蟹。
至于在校生,在找工作之余,也可以大胆探索下现在这种大模型落地可能性。当然,能更为熟练地使用大模型并熟悉相关生态,本身就很会受用人方的青睐。造大模型的机会会越来越少,且会越来越富集到少数几家公司,大家也不用太往这方面卷,但是如何用好大模型却可能是一个会遍地开花的机会。
参考资料
这里罗列一些我看过觉得还不错的材料:
- 数学基础:MIT 有门经典的线性代数课 https://www.bilibili.com/video/BV1rH4y1N7BW。
- 论文脉络:普林斯顿的一门公开课,https://princeton-cos597r.github.io/,我在专栏里(https://xiaobot.net/p/system-thinking)也在更新解读,欢迎订阅。
- 端到端、从零到一:Andrej Karpathy 的系列视频,还有源码 https://github.com/karpathy/nanoGPT
- LLM 大全式文档:https://s3tlxskbq3.feishu.cn/docx/NyPqdCKraoXz9gxNVCfcIFdnnAc
- ml system:陈天奇的公开课 https://mlsys.org/
- manus 上下文工程:https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus
- anthropic agent 相关博客:https://www.anthropic.com/engineering
- skills 理解:https://mp.weixin.qq.com/s/Bl4ODUxvwO8pYu9nXVmjuQ
- 很棒的翻译播客,《跨国串门计划》,有很多关于大模型大佬分享的一手内容:https://www.xiaoyuzhoufm.com/podcast/670f3da40d2f24f28978736f
