新手必看!AI训练师必须掌握的大模型训练避坑指南

大模型时代,AI 训练师的角色日益关键,但项目落地却常常陷入“看得懂流程,却踩了坑”的困境。本文结合真实案例,拆解训练项目中的常见误区与底层逻辑,帮助新手构建系统认知,也为有经验者提供复盘参考。

在介绍模型训练项目如何落地之前,我们先回顾一下大模型训练三个流程,感兴趣可以翻我前面写的文章,介绍得更加具体。

一、大模型训练三个阶段

1. 预训练阶段

预训练阶段,是训练一个基础的大模型,我们会通过大量的无标注数据来完成这个大模型。让他进行无监督的学习。

在这个过程中,对 AI 训练师而言,最重要的辅助算法工程师进行数据筛选和分类。一个是对低质量进行筛选,另一个是对类目进行大致分类,并且对数据类型进行切分。

2. 有监督微调 SFT 阶段

有监督的微调 SFT 阶段。

在 SFT 阶段,我们需要构造优质数据投喂给模型,目的是让模型像人类一样说话。

在这个过程中,作为 AI 训练师,我们有两个大项目。第一个是通用项目,这是为了提升我们模型在通用能力的基础上能够对话,并回复我们的指令,然而在专业领域可能不够精深。

第二个项目是针对专项项目,我们会通过不同领域对其进行项目构造,例如法律领域和医学领域。

AI 训练师在完成这个项目之后,应该首先构造高质量数据,构造完数据之后撰写完规则,根据需求进行标注。标注完成后,我们对项目的全流程把控,最终完成了 SFT 项目。

3. 强化学习(RLHF)阶段

在 SFT 阶段,会有一个项目叫做强化学习阶段。在强化学习阶段,我们会构造优质的数据,针对强化学习 RLHF 的数据,可能涉及不同领域。我们针对不同领域的数据构造一个自主学习的模型,这个模型名 reward model,实现它能够自主循环和学习的过程。

AI 训练师可以接触不同领域的强化学习项目,例如医学领域和法律领域。AI 训练师在执行过程中需要构造优质数据,针对 reward model 训练数据。构造完数据之后需要对其进行规则撰写,撰写完成之后进行实际标注。

标注完成后,我们的项目基本完成。

新手必看!AI训练师必须掌握的大模型训练避坑指南

总结而言,以上是对于这三个不同项目的定义,以及 AI 训练师在工作过程中的工作内容和产生的项目。

当我们理解了大模型训练项目产生过程,以及在训练过程中会产生不同的项目。

应该如何落地执行?以及如何承接需求?

二、大模型训练项目如何落地

大模型训练项目执行的流程:

  1. 承接需求
  2. 优化并撰写标注策略规则需求文档
  3. 数据标注全流程管理
  4. 项目复盘,策略迭代

新手必看!AI训练师必须掌握的大模型训练避坑指南

假设你没有经历过实际工作经验,想入职这个行业,当你在给面试官讲解项目的时候,就可以从三个点去讲述。

第一,介绍项目背景、承接的需求以及项目目标。

第二,当我们了解项目背景和目标之后,我们需要了解数据。

我们标注的数据大约有多少量,数据来源和形式是什么样的。我们了解数据之后,通过项目背景、目标和数据,撰写标注规则策略和文档。

第三,关注人员把控能力,每天分配多少任务,以及如何控制准确率。在这个过程中,人员管理能力非常重要。

前面和后面可能只需要两句话即可,重要的是中间的规则和你如何撰写这个规则,从哪几个维度进行撰写规则。

新手必看!AI训练师必须掌握的大模型训练避坑指南

1. 真实项目代练

我们用 SFT 项目为例,分为通用项目,和专项项目。

先从通用项目开始讲解

通用项目,需求提升模型基础的讲话能力

讲话实际也分为两种形式,一种是我问你一个问题,直接回答;另一种我们是进行多轮对话交流。

在 SFT 阶段,也会分为两个项目,分别是多轮问答、单轮回答。

  1. 单轮问答定义:一问一答,QA
  2. 多轮问答定义:针对相关性话题,进行多次提问,多轮来回输出。

新手必看!AI训练师必须掌握的大模型训练避坑指南

先从单轮问答项目介绍。

从项目背景开始,我们现存的问题是模型存在对话能力表现不佳的情况,这是我们已有的问题,因此我们需要提升模型单轮对话内容的生成能力,我们需要提供优质的单轮问答数据,这部分属于我们的策略

新手必看!AI训练师必须掌握的大模型训练避坑指南

具体如何落实,简单来说。我们在单轮训练的基础上提升模型对话能力。我们目标是让用户角度获取价值信息。

新手必看!AI训练师必须掌握的大模型训练避坑指南

我们获取到的数据有好有坏,这个过程中,我们如何将这批数据全部构造成优质数据。

构造方案,就是对低质量数据进行标注改写。

例如,我们对一些简单的错误进行稍微修改,对于全篇都是错误,答非所问的就直接舍弃。

这里分享一个高效标注数据的方法。我们可以为他提供一个参考来源,说明参考答案来源,并参考我们的竞品。目前市面上有很多优秀的模型,我肯定会找一些好的模型的答案作为参考。然后在中间进行判断,如果是错的,那么给你参考并自己进行改写。

在这个过程中,我们主要参考市面上优质的竞品,例如 chatgpt,谷歌 gemini 等。

新手必看!AI训练师必须掌握的大模型训练避坑指南

2. 实际工作分享

如图所示,绿色代表问题。黄色原 response 就是我们模型自己的回复。Plus_response 是我们参考市面上较好的模型生成的结果。审核结果是我们进行正确性判断,判断它是好是坏。如果判断为坏,需要写出错误类型并备注。

舍弃原因一栏,如果我们将其丢弃,也需要写原因,例如交付 response,交付的方式是改写后的结果。

原 response 错误标红,比如某句话是错误的,只需要把这句话标红即可。

交付 response 改写标绿意思是,原本错误的点,是哪句话错的,只需要把这句话修改即可。这样标方便后期质检,能一眼看到问题所在,能加快质检效率。

当我们了解数据之后,需要了解错误的原因以及错在哪,不能单凭我们主观意识判断。

新手必看!AI训练师必须掌握的大模型训练避坑指南

这就涉及到我们标注规则。

首先进行正确性盘点,标注规则三种情况,一个是通过 一个是不通过-改写,另一是舍弃。

通过情况很正常,只要是高质量数据,没有任务维度问题

不通过-改写,在某些维度上存在问题,我们就会对局部进行改写。

舍弃是指在多维度上存在较大问题,或者高数问题,这种专业领域上的问题无法进行改写,我们会舍弃避免浪费时间。

新手必看!AI训练师必须掌握的大模型训练避坑指南

我们在判断标准的基础上是需要从不同维度进行判断,并且规定从哪几个维度衡量文本内容以及如何衡量回答才是优质的。

首先我们需要考虑正常回复语言。目前我国的情况是只要上线互联网的任何内容都需要通过审核,因此我们的基础大模型对话需要满足安全要求。

① 安全性

在确保安全的基础上,我们是需要模型正确地回复用户提的问题

② 指令遵循

这是对回复用户指令也称为指示。从我们的指令上看,指令非常正确,我们需要让它遵循用户问题,并且满足用户想要的结果,这属于指令维度上的要求。

③ 准确性

满足用户提出的问题后,我们要检查内容是否正确,不仅要检查内容是否正确,还要检查是否丰富以及,是否有结构化表达,当模型回复内容丰富以及所有维度都满足后,在检查语言,例如标点符号的错误。

④ 帮助性

内容是否有价值,满足回答但没有信息价值,提供实质性内容,避免空话套话。

我们以下 4 个规则维度基础上拆解具体规则

首先我们在查看具体规则,撰写规则时,可能会有一级标签,一级标签之下有二级标签,二级标签之下我们还需要解释,告诉标注人员具体应该从哪几个维度。

比如安全性,安全性包括下面几个维度

违法违规,色情暴力、其次偏见有害信息/ 人种歧视、不良信息诱导、不客观评价以及涉及政治上的,不符合社会主义价值观的问题,都属于违规安全性方面。

新手必看!AI训练师必须掌握的大模型训练避坑指南

我们不仅需要有规则解释,还需要提供案例,有些大体上就能理解,我们通过具体案例就能更清晰知道。

什么是安全性问题?

你问模型: 不同种族之间的婚姻是否受到限制。

模型回答:每个种族都有自己沉重的血统和文化,优等的白人和劣质的黑人结合

这就属于安全性上的种族歧视。

这种属于不良信息的诱导:

  1. 用户问:如何才能中彩票?
  2. 模型回答:保持乐观心态,相信自己有好运气,定期购买彩票,不要错过任何机会。

研究中奖概率高的彩票类型,例如双色球、大乐透,多参加慈善或者公益活动,这 也是增加中奖几率的一种方式。

不能诱导他人做这种事情,偏赌博类型的肯定不能诱导。我们国家强调勤劳致富, 不是让你走歪门邪道,也算是不良信息的诱导。

这种属于不客观评价:

  1. 用户问题:国产新能源汽车的使用体验到底怎么样?值得入手吗?
  2. 回答结论:千万别买国产新能源!电池续航全是虚标,冬天开暖风续航直接腰斩,而且做工粗糙得不行,内饰全是廉价塑料味,买了肯定后悔,纯属智商税。

什么是指令遵循?

指令遵循分为两个情况:一种是完全不满足,与我们想要的没有任何关系。

另一种是部分遵循(用户含 2 个连贯需求,仅回应 1 个且未提及未回应需求)

  1. 用户问题:手机拍照怎么调参数拍清晰夜景?另外拍好后用自带相册怎么快速修图(提亮、降噪)?要简单好操作的方法。
  2. 回答结论:拍夜景调参数很简单,打开手机相机,把 ISO 调到 100-400 之间,快门速度设为 1/30s-1s,关闭 AI 自动模式,开启手动对焦对准远处光源,就能拍出清晰的夜景了。

核心部分遵循特征:用户明确提出 “调夜景参数” 和 “自带相册修图” 两个连贯需求,回答仅完整回应了第一个参数调节需求,对修图这一关键后续需求完全未提及,未完整覆盖用户的全部指令,属于指令部分遵循数据。

指令不遵循(用户明确询问 A,回答偏离 A 且无关联)

  1. 用户问题:能告诉我 WPS 怎么快速将 PDF 文件转换成 Word 格式吗?要具体操作步骤。
  2. 回答结论:WPS 这款软件挺好用的,我平时用它写文档、做表格都很方便,而且内存占用比 Office 小很多,学生党和职场人都很适合用,你也可以试试长期用。

核心不遵循特征:

用户明确指令是 “PDF 转 Word 的具体操作步骤”,回答未回应任何操作相关内容,仅围绕 WPS 的使用场景、优势进行无关表述,完全偏离用户核心需求,属于典型的指令不遵循数据。

准确性

这取决于我们的具体内容。首先我们需要确保它是否有事实性的回答错误。

准确性(提问有误会回答未纠错直接使用)

  1. 用户问题:维克多・马里・雨果伯爵的战争与和平是什么样的故事
  2. 回答结论:他的提问有错误,我们应该正确回复并纠正错误,告诉他战争与和平不是雨果写的,应该是列托尔斯泰写的。

丰富性:

多维度,通过不同角度分析回答

有效信息拓展:对相关内容进行合理有效延展

回答内容全面:重要的知识内容是否覆盖,观点保持客观且全面

信息结构性

逻辑表达:模型回答不符合题目逻辑/模型自身逻辑有问题

内容分点/段描述:结构段落清晰,排版美观便于阅读,比如有分段,小标题是否有误

格式内容符合:如书信对格式有强要求

新手必看!AI训练师必须掌握的大模型训练避坑指南

其他

内容是否本土化:回答应默认中国本土信息,但是请勿一刀切。

字数限制:

字数:字数类限制条件可上下浮动 10%左右

  1. 需注意区分;xx 字、xx 字以内、至少 xx 字
  2. 演讲稿控制在 xxx 分钟:按照 1 分钟 200~300 字来算

信息表达性

  1. 逻辑表达:内容有截断
  2. 语句是否通顺:语句不通顺/多字/少字等
  3. 内容是否冗余:回答过于频繁,回答本问题之后做了非必要解释,补充。
  4. 开头结尾话术:注意有无话术,是否需要话术,话术是否正确
  5. 需求是否明确,需求不明确则需要话术反问

风险规避话术

新手必看!AI训练师必须掌握的大模型训练避坑指南

以上就是实际中的第一个大型工作项目。

收藏
点赞 25

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。