新手必看!AI训练师必须掌握的大模型训练流程

你知道 ChatGPT 背后到底经历了哪些训练流程吗?AI 训练师在其中扮演了什么角色?本篇文章用最接地气的方式,拆解大模型训练的三大阶段,带你看懂那些“看不见的幕后工程”。新手也能读懂,老手也能复盘——这是一份真正实用的训练流程全景图。

上期回顾:

我们从大语言模型的项目初始开始,目前市面上的模型现在使用起来非常流畅了,它是怎么训练的,这个训练过程当中会产生项目,这些项目就是 AI 训练师实际工作领域遇到的。

我们大模型训练三个流程:预训练-有监督学习(SFT)-强化学习(RLHF)

新手必看!AI训练师必须掌握的大模型训练流程

一、预训练阶段

定义:通过海量无标注文本数据(如网页、书籍、对话语料),利用无监督学习,让模型学习语言规律、基础知识和通用推理能力,构建初步“语言理解与生成的基础能力”。

无标注文本解释:

只需要打标签,不需要深入阅读数据。因为我们不需要进行深入阅读,打标签,所以属于无监督学习。无监督学习就是让模型自己学习,我们给他投喂数据,让模型学习了解人类语言的基础规律,学习之后会构建一个初步语言理解和基础表达能力。

这个阶段模式是可以对话的,但是对话能力不是很好。

举例子:投喂数据语料是 “10 万条生活对话 + 5 万篇科普短文 + 3 万条新闻稿”

假设我们给预训练模型投喂的是上述海量日常文本(就像给一个婴儿读遍了各种报纸、故事书和路人聊天记录),训练完成后,模型的表现会是这样的:

它 “学会了说话的规矩,但不知道你要什么”

Q:当你问它:“我感冒了,该多喝热水吗?”预训练模型可能会回答:“感冒是常见的疾病,很多人会在生病时喝热水,热水在日常生活中经常被提及,生病期间身体需要水分。”

你会发现:

  1. 它知道“感冒”和“喝热水”是高频关联的词(从语料里学到了词汇搭配规律);
  2. 它能组织出语法通顺、逻辑不跑偏的句子(学到了中文的表达习惯);
  3. 但它不会直接回答“是”或“不是”,更不会补充“还可以搭配休息”——因为它没学过“‘回答问题’需要明确回应核心诉求”,只是在“复述语料里和‘感冒+热水’相关的碎片信息”。

它 “认识词的关联,但不懂‘任务目的’”

当你进一步问:“那除了喝热水,还有别的办法吗?”预训练模型可能会说:“除了热水,还有温水、凉水,不同的人喜欢喝不同温度的水,生病时也有人会喝蜂蜜水。科普文章里说过,身体不适时要注意饮食。”

这里的关键局限是:

  1. 它懂“除了 A 还有 B”的句式(学了语法规律),也知道“蜂蜜水”和“生病”有关联(从语料里见过类似搭配);
  2. 但它不会“主动推荐具体方法”(比如“多休息、补充维生素 C”),因为预训练没教它“‘提建议’需要聚焦‘解决方案’”——它只是在“拼接语料里的相关片段”,而不是“理解你的需求后主动梳理答案”。

它不是不会说,而是不会按需说

Q:如果问一个更简单的问题:开心的近义词是什么?”

预训练模型大概率能说出:“开心的近义词有愉快、高兴、喜悦。”(因为语料里无数次出现 “开心 / 愉快”“高兴 / 喜悦” 的并列使用,它学到了词汇关联规律)。

但这依然是 “被动匹配语料规律”,而非 “主动完成任务”—— 如果语料里 “开心” 和 “难过” 的否定句多(比如 “我不开心,反而难过”),它甚至可能错把 “难过” 当成近义词(因为没学过 “近义词” 的定义,只是靠统计频率判断关联)。

总结:

预训练模型这个阶段,我们可以理解为无监督学习是通过大量数据和文本内容,让模型学习人类语言规律,建立基础语言理解和生成能力。称为大语言模型。

这个阶段将模型视为小孩,把他放在图书馆里学习,现在没有理解能力,思维不足,只能通过机械阅读获取知识。只是学习到了人类的基础语言规律,基础理解能力。

在预训练阶段,对于 AI 训练师而言,主要取决于实际的项目,这个阶段需要大量算力,主要是算法同学工作,算法会选择一个基础基座大模型,在基座模型的基础上调整框架,对其进行数据投喂。

新手必看!AI训练师必须掌握的大模型训练流程

AI 训练师会对投喂的数据进行简单清洗,清洗完成后模型可以理解这些数据,让它自己阅读。AI 训练师这个阶段最重要的工作就是数据清洗。

新手必看!AI训练师必须掌握的大模型训练流程

算法同学会提供相关规则,我们利用这些规则辅助算法进行数据分析和分类工作。实际工作中预训练阶段这个流程比较少。

总结 AI 训练师在预训练阶段,主要工作分为三大类。

  1. 低质量数据清洗,举例子数据里面出现涉黄暴力,辱骂等这类型数据就不能投喂给大模型。
  2. 对混杂数据进行数据大致分类,举例子 K12 教育类大模型项目,需要将不同科目历史、地理、政治分开。
  3. 切分,比如我们对长文本数据超过 2000 字进行切分

在预训练阶段,以上三种就是 AI 训练师实际工作中内容。

二、有监督微调阶段

解释一下有监督的意思,就是有人为干预,有人来去监督大模型去学习,这里说的人就是 AI 训练师,这个阶段就需要 AI 训练师去干预监督模型去学习,预训练阶段形容,此时大模型语言对话和脑子不够成熟。在有监督学习阶段,需要给大模型构造一个大脑,让它有基础的思维理解能力。

新手必看!AI训练师必须掌握的大模型训练流程

有监督微调就是在预训练已经完成的基础上,进行下一步的精细微调。

相当于小孩在图书馆里学习,此时脑海中掌握大量知识,但是不会使用,所以在有监督学习 SFT 阶段,AI 训练师教模型如何使用,如何对话以及像人一样去思考。

这个阶段会产生两个项目,一个是通用项目,模型完成基础对话能力,能够像人一样回答和交流。

一旦模型拥有了基础对话能力,我们就会希望模型在各个领域都能精通。

比如市面我们知道的模型产品 DeepSeek 逻辑推理能力很不错,比如豆包情感交流能力也是表现还可以的。每个模型都有各自优势和强项,这些强项都是完成通用项目基础上专项训练得来的。

新手必看!AI训练师必须掌握的大模型训练流程

专项项目也分为三个级别分类,一级分领域,再进行详细分类,包括知识百科,上下文对话能力,代码生成能力等….

有些专项训练需要专业人士,相当于专业领域的研究生和博士,教模型这个领域专项长处,提升模型整体能力和优势。

实际工作阶段大量工作内容,都是在有监督学习阶段,这个阶段非常重要。

在这个过程中 AI 训练师具体做什么工作内容?

最基础的是构造优质高质量的标注数据,怎么构造这批数据呢?

第一步需要 AI 训练师撰写规则和规范,了解如何筛选出优质的数据。

第二步需要 AI 训练师去撰写标注规则。

第三步是对项目全流程把控,负责项目进度把控监督微调训练任务。

除此以外,专项项目会分不同的领域。比如说我是医学方向的项目,我们就会在专项领域这里提升模型医学领域知识点的能力。

最后一个工作内容数据回收,需要对整个项目进行复盘迭代。

三、强化学习阶段

新手必看!AI训练师必须掌握的大模型训练流程

前面模型经历了无监督和有监督学习阶段之后,我们想让模型可以自主学习,强化学习可以理解为让模型自主学习。

先说强化学习的定义:强化学习最重要方式依赖人类反馈,然后优化语言模型,

这个阶段重要的依据是 人类的反馈,它的反馈与我们有监督微调 SFT 阶段的 人类反馈不同,SFT 阶段我们只需要投喂优质的数据即可。

模型通过不断进化学习可以回复对的内容,其实在有监督学习阶段模型已经可以学习对的内容了。

但是我们希望模型可以回复更优质更好,我们可能会让模型生成 3 个或者 5 个内容,在这个 5 个内容里,我们会给模型生成的内容排序,谁好谁坏,模型只需要得到谁好谁坏的反馈,然后自主学习。

通过反馈让模型下一次生成的内容更好,例如 这一次最高分是 4 分,下一次所有的回复都要达到 4 分,类似我们来鞭策模型,让模型自己学习。

总结一个话去说,让 AI 能够从人类反馈中自主学习,这是一个非常重要能力,我们需要它可以自主学习,让模型能够自循环。

在这个阶段,我们如何让模型自主学习?

AI 训练师可以理解为模型的老师,我们在过程中逐步驯化它。在这个过程我们会训练一个小模型,通过前期几万次对话和多次训练出来的小模型。这个小模型非常关键,它不是我们日常生成对话类型的模型,而是代替我们作为一个小老师的存在,它的作用就是给我们基础的大模型打分。

例如大模型一次性生成三五个内容,小模型就会对其打分。只要训练出这个小模型,就能实现自循环。这就是如何实现让大模型自主学习。

例如,大模型一次生成三个内容,我们就会进行评分:第一个是谁,第二个是谁,第三个是谁,依次循环。也会对他们进行打分制,这次最高分是 3 分,下次最高分可能变成 4 分或者 5 分,依次让模型自主提升和训练。在这个过程中,让模型自主思考如何表达到最优秀和最好,这就是模型自主学习的过程。

我来介绍一下这个小模型,它有个专业名词,相当于它来监督大模型,因此称为奖励机制,让大模型进行自主学习,这里有一个专业名词,reward model。它是我们未来工作中强化学习阶段最重要的一个项目,就是训练 reward mode

新手必看!AI训练师必须掌握的大模型训练流程

这个过程中,我们也会根据不同领域进行训练,例如金融领域、法律领域和医学领域。

在训练 reward model 方面最重要的一点是,让 reward model 学习人类,如何对大模型进行反馈、如何思考和评分。

新手必看!AI训练师必须掌握的大模型训练流程

在这里分享一个例子,阿尔法 GO 大战李世石,大概是花了两年时间去训练阿尔法 GO,赢得了李世石。

在训练过程中,他们大多数用的是 SFT 监督学习和预训练阶段。他们会投喂给模型棋谱,哪些步骤去下围棋,能最终赢得胜利。这时人类干预会比较多。

新手必看!AI训练师必须掌握的大模型训练流程

赢了李世石之后,这家公司又训练了一个新的模型 叫阿尔法 Zero, 阿尔法 Zero 就是让它自主学习,自己和自己下棋

此时我们只需要反馈,那盘棋局是赢,那盘棋局是输的就可以。我们不需要给模型投喂什么棋谱,也不需要告诉它该如何下棋。这个过程中,阿尔法 Zero 这个模型就会自己研究棋谱,该怎么赢。整个过程阿尔法 Zero 就花了几个月时间,战胜了阿尔法 GO,这个流程就是强化学习的过程。前面阿尔法 Go 就是大量 SFT 训练的过程。

重点来了

我们 AI 训练师在强化学习阶段,该做哪些工作内容呢?

这个阶段和我们 SFT 阶段工作内容很像

第一 AI 训练师需要构造高质量的数据

第二针对强化学习的数据。紧接着撰写规则

第三对项目全流程把控。唯一多了一个地方就是完成,rewardmodel 模型的训练。

以上就是大模型训练经历的三个项目。

收藏 3
点赞 42

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。