
你知道 ChatGPT 背后到底经历了哪些训练流程吗?AI 训练师在其中扮演了什么角色?本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看不见的幕后工程”。新手也能读懂,老手也能复盘——这是一份真正实用的训练流程全景图。
上期回顾:
我们从大语言模型的项目初始开始,目前市面上的模型现在使用起来非常流畅了,它是怎么训练的,这个训练过程当中会产生项目,这些项目就是 AI 训练师实际工作领域遇到的。
我们大模型训练三个流程:预训练-有监督学习(SFT)-强化学习(RLHF)

定义:通过海量无标注文本数据(如网页、书籍、对话语料),利用无监督学习,让模型学习语言规律、基础知识和通用推理能力,构建初步“语言理解与生成的基础能力”。
无标注文本解释:
只需要打标签,不需要深入阅读数据。因为我们不需要进行深入阅读,打标签,所以属于无监督学习。无监督学习就是让模型自己学习,我们给他投喂数据,让模型学习了解人类语言的基础规律,学习之后会构建一个初步语言理解和基础表达能力。
这个阶段模式是可以对话的,但是对话能力不是很好。
举例子:投喂数据语料是 “10 万条生活对话 + 5 万篇科普短文 + 3 万条新闻稿”
假设我们给预训练模型投喂的是上述海量日常文本(就像给一个婴儿读遍了各种报纸、故事书和路人聊天记录),训练完成后,模型的表现会是这样的:
它 “学会了说话的规矩,但不知道你要什么”
Q:当你问它:“我感冒了,该多喝热水吗?”预训练模型可能会回答:“感冒是常见的疾病,很多人会在生病时喝热水,热水在日常生活中经常被提及,生病期间身体需要水分。”
你会发现:
- 它知道“感冒”和“喝热水”是高频关联的词(从语料里学到了词汇搭配规律);
- 它能组织出语法通顺、逻辑不跑偏的句子(学到了中文的表达习惯);
- 但它不会直接回答“是”或“不是”,更不会补充“还可以搭配休息”——因为它没学过“‘回答问题’需要明确回应核心诉求”,只是在“复述语料里和‘感冒+热水’相关的碎片信息”。
它 “认识词的关联,但不懂‘任务目的’”
当你进一步问:“那除了喝热水,还有别的办法吗?”预训练模型可能会说:“除了热水,还有温水、凉水,不同的人喜欢喝不同温度的水,生病时也有人会喝蜂蜜水。科普文章里说过,身体不适时要注意饮食。”
这里的关键局限是:
- 它懂“除了 A 还有 B”的句式(学了语法规律),也知道“蜂蜜水”和“生病”有关联(从语料里见过类似搭配);
- 但它不会“主动推荐具体方法”(比如“多休息、补充维生素 C”),因为预训练没教它“‘提建议’需要聚焦‘解决方案’”——它只是在“拼接语料里的相关片段”,而不是“理解你的需求后主动梳理答案”。
它不是不会说,而是不会按需说
Q:如果问一个更简单的问题:开心的近义词是什么?”
预训练模型大概率能说出:“开心的近义词有愉快、高兴、喜悦。”(因为语料里无数次出现 “开心 / 愉快”“高兴 / 喜悦” 的并列使用,它学到了词汇关联规律)。
但这依然是 “被动匹配语料规律”,而非 “主动完成任务”—— 如果语料里 “开心” 和 “难过” 的否定句多(比如 “我不开心,反而难过”),它甚至可能错把 “难过” 当成近义词(因为没学过 “近义词” 的定义,只是靠统计频率判断关联)。
总结:
预训练模型这个阶段,我们可以理解为无监督学习是通过大量数据和文本内容,让模型学习人类语言规律,建立基础语言理解和生成能力。称为大语言模型。
这个阶段将模型视为小孩,把他放在图书馆里学习,现在没有理解能力,思维不足,只能通过机械阅读获取知识。只是学习到了人类的基础语言规律,基础理解能力。
在预训练阶段,对于 AI 训练师而言,主要取决于实际的项目,这个阶段需要大量算力,主要是算法同学工作,算法会选择一个基础基座大模型,在基座模型的基础上调整框架,对其进行数据投喂。

AI 训练师会对投喂的数据进行简单清洗,清洗完成后模型可以理解这些数据,让它自己阅读。AI 训练师这个阶段最重要的工作就是数据清洗。

算法同学会提供相关规则,我们利用这些规则辅助算法进行数据分析和分类工作。实际工作中预训练阶段这个流程比较少。
总结 AI 训练师在预训练阶段,主要工作分为三大类。
- 低质量数据清洗,举例子数据里面出现涉黄暴力,辱骂等这类型数据就不能投喂给大模型。
- 对混杂数据进行数据大致分类,举例子 K12 教育类大模型项目,需要将不同科目历史、地理、政治分开。
- 切分,比如我们对长文本数据超过 2000 字进行切分
在预训练阶段,以上三种就是 AI 训练师实际工作中内容。
解释一下有监督的意思,就是有人为干预,有人来去监督大模型去学习,这里说的人就是 AI 训练师,这个阶段就需要 AI 训练师去干预监督模型去学习,预训练阶段形容,此时大模型语言对话和脑子不够成熟。在有监督学习阶段,需要给大模型构造一个大脑,让它有基础的思维理解能力。

有监督微调就是在预训练已经完成的基础上,进行下一步的精细微调。
相当于小孩在图书馆里学习,此时脑海中掌握大量知识,但是不会使用,所以在有监督学习 SFT 阶段,AI 训练师教模型如何使用,如何对话以及像人一样去思考。
这个阶段会产生两个项目,一个是通用项目,模型完成基础对话能力,能够像人一样回答和交流。
一旦模型拥有了基础对话能力,我们就会希望模型在各个领域都能精通。
比如市面我们知道的模型产品 DeepSeek 逻辑推理能力很不错,比如豆包情感交流能力也是表现还可以的。每个模型都有各自优势和强项,这些强项都是完成通用项目基础上专项训练得来的。

专项项目也分为三个级别分类,一级分领域,再进行详细分类,包括知识百科,上下文对话能力,代码生成能力等….
有些专项训练需要专业人士,相当于专业领域的研究生和博士,教模型这个领域专项长处,提升模型整体能力和优势。
实际工作阶段大量工作内容,都是在有监督学习阶段,这个阶段非常重要。
在这个过程中 AI 训练师具体做什么工作内容?
最基础的是构造优质高质量的标注数据,怎么构造这批数据呢?
第一步需要 AI 训练师撰写规则和规范,了解如何筛选出优质的数据。
第二步需要 AI 训练师去撰写标注规则。
第三步是对项目全流程把控,负责项目进度把控监督微调训练任务。
除此以外,专项项目会分不同的领域。比如说我是医学方向的项目,我们就会在专项领域这里提升模型医学领域知识点的能力。
最后一个工作内容数据回收,需要对整个项目进行复盘迭代。

前面模型经历了无监督和有监督学习阶段之后,我们想让模型可以自主学习,强化学习可以理解为让模型自主学习。
先说强化学习的定义:强化学习最重要方式依赖人类反馈,然后优化语言模型,
这个阶段重要的依据是 人类的反馈,它的反馈与我们有监督微调 SFT 阶段的 人类反馈不同,SFT 阶段我们只需要投喂优质的数据即可。
模型通过不断进化学习可以回复对的内容,其实在有监督学习阶段模型已经可以学习对的内容了。
但是我们希望模型可以回复更优质更好,我们可能会让模型生成 3 个或者 5 个内容,在这个 5 个内容里,我们会给模型生成的内容排序,谁好谁坏,模型只需要得到谁好谁坏的反馈,然后自主学习。
通过反馈让模型下一次生成的内容更好,例如 这一次最高分是 4 分,下一次所有的回复都要达到 4 分,类似我们来鞭策模型,让模型自己学习。
总结一个话去说,让 AI 能够从人类反馈中自主学习,这是一个非常重要能力,我们需要它可以自主学习,让模型能够自循环。
在这个阶段,我们如何让模型自主学习?
AI 训练师可以理解为模型的老师,我们在过程中逐步驯化它。在这个过程我们会训练一个小模型,通过前期几万次对话和多次训练出来的小模型。这个小模型非常关键,它不是我们日常生成对话类型的模型,而是代替我们作为一个小老师的存在,它的作用就是给我们基础的大模型打分。
例如大模型一次性生成三五个内容,小模型就会对其打分。只要训练出这个小模型,就能实现自循环。这就是如何实现让大模型自主学习。
例如,大模型一次生成三个内容,我们就会进行评分:第一个是谁,第二个是谁,第三个是谁,依次循环。也会对他们进行打分制,这次最高分是 3 分,下次最高分可能变成 4 分或者 5 分,依次让模型自主提升和训练。在这个过程中,让模型自主思考如何表达到最优秀和最好,这就是模型自主学习的过程。
我来介绍一下这个小模型,它有个专业名词,相当于它来监督大模型,因此称为奖励机制,让大模型进行自主学习,这里有一个专业名词,reward model。它是我们未来工作中强化学习阶段最重要的一个项目,就是训练 reward mode

这个过程中,我们也会根据不同领域进行训练,例如金融领域、法律领域和医学领域。
在训练 reward model 方面最重要的一点是,让 reward model 学习人类,如何对大模型进行反馈、如何思考和评分。

在这里分享一个例子,阿尔法 GO 大战李世石,大概是花了两年时间去训练阿尔法 GO,赢得了李世石。
在训练过程中,他们大多数用的是 SFT 监督学习和预训练阶段。他们会投喂给模型棋谱,哪些步骤去下围棋,能最终赢得胜利。这时人类干预会比较多。

赢了李世石之后,这家公司又训练了一个新的模型 叫阿尔法 Zero, 阿尔法 Zero 就是让它自主学习,自己和自己下棋
此时我们只需要反馈,那盘棋局是赢,那盘棋局是输的就可以。我们不需要给模型投喂什么棋谱,也不需要告诉它该如何下棋。这个过程中,阿尔法 Zero 这个模型就会自己研究棋谱,该怎么赢。整个过程阿尔法 Zero 就花了几个月时间,战胜了阿尔法 GO,这个流程就是强化学习的过程。前面阿尔法 Go 就是大量 SFT 训练的过程。
重点来了
我们 AI 训练师在强化学习阶段,该做哪些工作内容呢?
这个阶段和我们 SFT 阶段工作内容很像
第一 AI 训练师需要构造高质量的数据
第二针对强化学习的数据。紧接着撰写规则
第三对项目全流程把控。唯一多了一个地方就是完成,rewardmodel 模型的训练。
以上就是大模型训练经历的三个项目。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AIGC互联网产品设计实践
已累计诞生 764 位幸运星
发表评论 为下方 2 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓