AI训练师必看!5个章节带你快速掌握RAG检索增强项目

在 AI 应用日益深入的今天,RAG(Retrieval-Augmented Generation)正成为提升模型实用性的关键技术。本文将从 AI 训练师的视角出发,系统拆解 RAG 的核心机制、应用场景与训练要点,帮助你在构建高质量智能体时少走弯路、精准发力。

今天我向大家介绍检索增强也就是 RAG,在公司里面也是一个独立的项目,并且有自己的考核指标。

  1. 什么是 RAG
  2. 为什么大模型要做 RAG
  3. RAG 的技术原理
  4. 如何做 RAG(AI 训练师在做 RAG 项目的时候,具体做哪些内容)

往期干货:

一、RAG 定义

中文名检索增强生成,是 AI 领域非常重要的一种技术方案。其核心作用是给 LLM 大模型外挂专门的知识库,指导大模型生成更准确的输出。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

这块我们记住几个关键词:

  1. RAG 检索增强
  2. RAG 是一种技术方案
  3. 给 LLM 大模型外挂专门的知识库

1. 什么是 RAG(Retrieval- augmented Generation)

简单理解,RAG 让大模型先去查资料再生成回答。会让模型的回答更加精准更加贴合用户需求。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

RAG 的资料来源

资料从哪里来呢,首先可以从网上获取,还有一种方式就是本地知识库,它的来源有两种方式,一种外部知识库,即联网搜索,另一种本地知识库。

  1. 外部知识库:不只是搜索引擎,比如去查询一些天气情况,特定的 API 访问,也是一种检索增强。
  2. 本地知识库:部署在本地服务器上,硬盘或者电脑上,通过这种检索方式可以查询本地特有资料

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

2. 工具分享

这里分享一个主流模型盲测网站,涵盖文本、多模态等不同领域,用户可通过匿名投票或系统自动评估参与模型性能对比

LMArena

官网:https://lmarena.ai/

特点:由滑铁卢大学团队开发,专注于多模态模型盲测,覆盖文本到图像生成、图像编辑、文本到视频生成三大任务。用户上传提示词后,系统随机展示两个匿名模型的生成结果,用户通过投票决定优劣。

二、为什么大模型要做 RAG

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

1. 存在幻觉问题

首先我们现在的模型都是生成式模型,既然是生成式模型,就会有概率出现各种各样的问题。而这解决的第一个问题是模型的幻觉问题。

本质上大模型是基于数学概率统计,它就可能会出现胡言乱语。

举例子,我询问你吃饭了吗,模型会如何回复呢,假如 70%的人都回复吃饭,另外 29.999%的人回复没吃饭。

另外有一个神经病人回复了,我在北京。注意,因为模型是概率性的模型,所以我在北京回答有可能被选中。

那个回答只是概率极低,并不意味着没有。因此,模型目前非常致命的问题是幻觉问题,这可以很好地解决模型存在幻觉问题。

2. 缺乏对专业领域的知识理解

举个例子:

  1. 我去问大模型豆包,红烧排骨如何制作?
  2. 我在专业美食App 里面去查询,红烧排骨如何制作?

哪个回复得更专业,更贴合用户,肯定是在专业美食 App 里面去查询的更专业。因为这个网站就是专门做美食的,数据就更精准。

因为传统大模型,是偏全知全能的,虽然他们掌握了所有知识,但是知识不够深入。这里我们就可以通过外挂知识库的方式,让模型更好地回复红烧排骨制作流程。可以很好地解决它在垂直领域知识缺失的问题。

3. 时效性不足

举个例子:当你在使用模型时,你把模型联网搜索给关闭,问模型明天的天气怎么样。模型根本不会回复你,因为问的问题太新了,训练的语料 还没有给到大模型。由于模型的训练语料在训练结束那一刻,他的知识已经被定格在那个时间

为什么出现时效性不足?

首先各业务线生成一个数据集,这些数据集经过算法评估之后认为可行,然后一起上车。上车后不进行训练,例如在公交站里面上车后,是否相当于需要等待一批人?相当于需要几个业务线的数据一起完成,然后我们一起交给模型训练。这是对等的过程。它的周期最短的差不多 15 天,长点的可能是两个月或者半年。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

4. 缺乏对生成结果的可解释性

举个例子:我们问模型珠穆朗玛峰的高度是多少

A 模型给的回复:8848 米

B 模型给的回复:8848 米,数据来源于,2025 年某登山队测量的结果,上面出现一个角标,可以点击进入的网页。

这样对比肯定是,B 模型给的回复更可信。数据来源可查,模型生成回复的结果,解释性更强,数据来源可查,就是可以利用 RAG 的方式。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

总结一下为什么要做 RAG:

  1. 解决大模型存在幻觉的问题,RAG 需要结合材料进行回复减少幻觉问题
  2. 解决大模型在垂直领域知识缺失的问题
  3. 解决问题时效性不足,模型训练周期较长,最新数据或知识模型无法及时提供。
  4. 解决缺乏对生成结果的可解释性,注明数据来源

三、RAG 技术原理

我们分为几个过程:

第一是文件索引过程,索引的过程就是将准备的资料或材料,用嵌入式模型进行向量化,这个过程我们称为索引

第二,检索用户输入的问题与资料库是否匹配,如果匹配,将用户的问题和匹配资料一起提交给大语言模型。大语言模型会根据这些内容生成结果。

整个流程分三个步骤,先索引,将文件分割成较短的块,通过编码器进行索引,嵌入式模型会将文件切割成许多块。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

我们解释一下什么是索引:

索引:给资料构建 “智能知识库”

索引是整个流程的“准备工作”。它不像传统目录只记录关键词,而是为知识建立语义目录。

  1. 资料处理:RAG 系统首先将所有参考资料(文档、网页等)拆分成大小适度的小块(Chunking)。
  2. 向量化:随后,系统利用嵌入模型和 Embeddings 技术,将每一小块文本内容转化为高维度的数字序列(即向量)。这些向量代表了文本的语义信息。
  3. 构建知识库:最后,这些带语义信息的向量会被存入向量数据库(VectorDatabase)中。这个数据库就是 AI 专用的“智能知识库”,后续的检索将基于这些数字化的语义信息进行。

我们解释一下什么是检索:

检索:按语义快速 “匹配素材”

检索就是 “找资料” 的动作,但它比关键词搜索更智能、更准确。当你提出一个问题时,RAG 不会进行简单的字面匹配。

  1. 问题向量化:RAG 会先把你的问题也转化为一个向量。
  2. 语义匹配:接着,系统会在向量数据库中,计算问题向量与所有资料向量之间的相似度。相似度越高,代表两段内容的“意义”越接近。
  3. 提取核心素材:系统会根据相似度分数,快速挑选出与问题语义最相关的 3-5 个资料片段。这些片段就是 AI 用来回答问题的“核心素材”(Context)。

最后是生成。

生成:用素材 “组织通顺答案”

生成是最后 “写答案” 的环节。大型语言模型(LLM)拿到检索来的核心素材后,会像一个拥有背景资料的专家。

  1. 整合与推理:LLM 将用户问题和检索到的上下文素材一起放入下文窗口
  2. 忠实度优先:LLM 会结合自身的基础常识和表达能力,以检索素材为主要依据,组织、推理并生成一个通顺、自然的答案。
  3. 最终输出:最终输出的答案既能保证准确性(Grounding/忠实于来源),又能保证流畅性和可读性。

四、RAG 的核心使用场景:以智能客服为例

若要搭建一个能回答公司产品相关问题的智能客服,核心需求是让系统基于企业产品手册、公司信息等专属文档,通过大模型生成准确回复。但直接将文档投喂给大模型存在明显局限,而 RAG(检索增强生成)正是为解决这些问题而生。

1. 上下文窗口长度限制

大模型(如 ChatGPT、GLM、豆包等)的输入能力受限于 “上下文窗口”(以 token 为单位计量)。企业产品手册长达数百页,其 token 总量远超多数模型的窗口上限,导致文档内容无法被模型完整接收(超出部分会被截断或忽略),进而无法基于完整信息生成回复。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

2. 信息处理不完整,回复准确率低

若强行输入超长文档,模型会因窗口限制 “丢失” 部分内容,且可能对未丢失的信息产生混淆(例如遗忘前文关键细节),导致回复与文档事实不符,无法满足客服对准确性的要求。

3. 模型无法读取所有的内容

模型只能存储一定量的信息,一般我们称为上下文窗口大小,超过了量模型就会忘记前面的,模型回复准确率无法有保障。

4. 推理成本过高

输入越多,成本越高。消耗掉很多 token 量,对于公司来说就是成本。

5. 模型推理慢

输入的越多,模型需要消化的内容就越多,模型输出就会越慢

我们直接把产品手册丢给大模型是不行的,这时候我们就用到了 RAG

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

五、RAG 是如何解决问题的

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

1. 当用户提问,产品能效如何

首先把产品手册分割成多个片段,当用户提出问题的时候,就会根据用户的问题,在所有片段中寻找相关的内容。

举例子所有片段中,只有五个片段与用户问题有关。就会把用户问题加上这五个片段一起发送给大模型。这时模型输入的内容相比较整个文档就会少很多,只会检索到这五个片段加上用户问题,就解决了模型处理不了这么多内容的问题。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

RAG 运行过程是这样的:

  1. 如何分片?
  2. 如何选择相关片段?

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

2. 涉及 RAG 技术原理

可以把技术原理拆分两个部分,提问前和提问后。

提问前会有分片,就是索引

提问后会有召回,重排和生成

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

什么是分片

简单解释:就是把文档切分多个片段

比如前面举的例子,分片会有很多方式,比如按照字数去分。每 1000 字或者每 500 字,也可按照段落去分。还可以按照章节去分,产品介绍第一章是什么内容,也可可以按照页数去分。

每个公司采取的方式不一样,最终目的将文档切分成多个片段

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

索引

将分段文本转化成向量,再将文本和向量存入数据库中

  1. 通过 Embedding 将片段文本转化为向量
  2. 将片段文本和片段向量存入数据库中

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

什么是向量

代表有大小方向的量、可以用数组去表示。

向量又分类为,一维向量,二维向量,三维向量。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

我们可以用数组去表示,一维向量,二维向量,三维向量。

先用一个图表示什么是一维向量,这里只有一个轴就是一维的。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

二维向量不只有 X 轴还会有 Y 轴:

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

三维向量,可以用图这样去理解:

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

什么是 Embedding

把文本转化成向量的一个过程,我们用二维图去示例

小明喜欢吃水果,它代表数是 3.9 和 1.2,这个理解为向量转化为数组

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

在说一句话,今天天气很冷,跟上面小明爱吃水果这句话,没有什么相关性离得就会比较远。比如我们再说一句,小红爱吃水果,这两段话离得比较近

这就是 Embedding 目的相近的文本,向量也是相近的

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

再举个示例:

当一个用户提出一个问题,产品的能效如何,这句话经过 Embedding 模型把这句话向量化变成数组

数组会有不同方位,整个过程就是用户提出问题,这个问题转化成向量,所看到的数组都是向量,然后根据向量相似度,会把和这个问题相关的文本都找出来,最后把问题和相关的文本一起发给大语言模型。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

什么是向量数据库

就是用来存储和查询向量的数据库。

举个示例:我们把产品手册分好片段,Embedding 模型转化成向量,存入向量数据库

有一点我们需要注意,不仅要存储向量,还要将向量对应的文本一起存入向量库。

只要这样才能够通过向量相似度去查询出相似的向量。把对应的文本给抽出来。发给大模型。让大模型去处理,我们最终需要的还是原始文本。向量只是中间的一个结果。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

AI 训练师如何做 RAG 项目?

学习项目需求、背景目标和标注策略。我们先了解背景过程。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

整个项目背景

在对话 AI 助手下,用户提出了某些问题,而这些问题可能超出 AI 助手的基础知识,因此需要 AI 助手借助外部信息回答。外部信息主要指网上搜索到的结果以下统称为参考资料。给定一段对话,和 1~3 个参考材料。我们需要利用正确的参考资料给出高质量的回复,相当于训练模型的材料阅读理解加回答问题的过程。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

一个 RAG 项目必然包含这三个部分:

第一个是问题,这个问题有可能是单轮的也有可能是多轮的,还有可能是在多轮对话基础提出新的问题。

第二参考材料有两种,一种外部联网搜索,一种本地知识库

第三个回答,需要查看是否根据问题进行回答两个判断,必须响应问题,第二个必须结合材料回答。

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

查看标注概要

标注概要分为主线任务和支线任务。

主线任务指的是用户问的问题,主线任务让模型学习,根据材料结合问题生成答案的能力,把好的数据给标注出来。

支线任务是有问题的数据,比如材料和回答有问题,这些数据 AI 训练师都要标记出来。目的是让模型规避这些问题。模型在训练时有正向加权和负向减弱,意思是让模型学习好的,放弃不好的。

什么是问题数据

问题如逻辑不通,语意不清、上下文矛盾,政治敏感等

参考材料有问题:如材料缺失、常识性缺失、材料准确性问题、材料之间有矛盾冲突

回答问题:模型回答内容不满足优质回答条件,基于通用的单轮对话规则

AI训练师必看!5个章节带你快速掌握RAG检索增强项目

总结,RAG技术通过“索引-检索-生成”三步流程,能有效为大模型赋能,使其回答更精准、专业、及时且可追溯。对于AI训练师而言,掌握RAG项目从需求分析、数据标注到效果评估的全流程,是构建高质量AI应用、提升模型实用性的核心技能。

收藏 1
点赞 21

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。