AI训练师必看！5个章节带你快速掌握RAG检索增强项目

在 AI 应用日益深入的今天，RAG（Retrieval-Augmented Generation）正成为提升模型实用性的关键技术。本文将从 AI 训练师的视角出发，系统拆解 RAG 的核心机制、应用场景与训练要点，帮助你在构建高质量智能体时少走弯路、精准发力。

今天我向大家介绍检索增强也就是 RAG，在公司里面也是一个独立的项目，并且有自己的考核指标。

什么是 RAG
为什么大模型要做 RAG
RAG 的技术原理
如何做 RAG（AI 训练师在做 RAG 项目的时候，具体做哪些内容）

往期干货：

新手必看！AI训练师必须掌握的大模型训练避坑指南

大模型时代，AI 训练师的角色日益关键，但项目落地却常常陷入“看得懂流程，却踩了坑”的困境。

阅读文章 >

一、RAG 定义

中文名检索增强生成，是 AI 领域非常重要的一种技术方案。其核心作用是给 LLM 大模型外挂专门的知识库，指导大模型生成更准确的输出。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

这块我们记住几个关键词：

RAG 检索增强
RAG 是一种技术方案
给 LLM 大模型外挂专门的知识库

1. 什么是 RAG（Retrieval- augmented Generation）

简单理解，RAG 让大模型先去查资料再生成回答。会让模型的回答更加精准更加贴合用户需求。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

RAG 的资料来源

资料从哪里来呢，首先可以从网上获取，还有一种方式就是本地知识库，它的来源有两种方式，一种外部知识库，即联网搜索，另一种本地知识库。

外部知识库：不只是搜索引擎，比如去查询一些天气情况，特定的 API 访问，也是一种检索增强。
本地知识库：部署在本地服务器上，硬盘或者电脑上，通过这种检索方式可以查询本地特有资料

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

2. 工具分享

这里分享一个主流模型盲测网站，涵盖文本、多模态等不同领域，用户可通过匿名投票或系统自动评估参与模型性能对比

LMArena

官网：https://lmarena.ai/

特点：由滑铁卢大学团队开发，专注于多模态模型盲测，覆盖文本到图像生成、图像编辑、文本到视频生成三大任务。用户上传提示词后，系统随机展示两个匿名模型的生成结果，用户通过投票决定优劣。

二、为什么大模型要做 RAG

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

1. 存在幻觉问题

首先我们现在的模型都是生成式模型，既然是生成式模型，就会有概率出现各种各样的问题。而这解决的第一个问题是模型的幻觉问题。

本质上大模型是基于数学概率统计，它就可能会出现胡言乱语。

举例子，我询问你吃饭了吗，模型会如何回复呢，假如 70%的人都回复吃饭，另外 29.999%的人回复没吃饭。

另外有一个神经病人回复了，我在北京。注意，因为模型是概率性的模型，所以我在北京回答有可能被选中。

那个回答只是概率极低，并不意味着没有。因此，模型目前非常致命的问题是幻觉问题，这可以很好地解决模型存在幻觉问题。

2. 缺乏对专业领域的知识理解

举个例子：

我去问大模型豆包，红烧排骨如何制作？
我在专业美食App 里面去查询，红烧排骨如何制作？

哪个回复得更专业，更贴合用户，肯定是在专业美食 App 里面去查询的更专业。因为这个网站就是专门做美食的，数据就更精准。

因为传统大模型，是偏全知全能的，虽然他们掌握了所有知识，但是知识不够深入。这里我们就可以通过外挂知识库的方式，让模型更好地回复红烧排骨制作流程。可以很好地解决它在垂直领域知识缺失的问题。

3. 时效性不足

举个例子：当你在使用模型时，你把模型联网搜索给关闭，问模型明天的天气怎么样。模型根本不会回复你，因为问的问题太新了，训练的语料还没有给到大模型。由于模型的训练语料在训练结束那一刻，他的知识已经被定格在那个时间

为什么出现时效性不足？

首先各业务线生成一个数据集，这些数据集经过算法评估之后认为可行，然后一起上车。上车后不进行训练，例如在公交站里面上车后，是否相当于需要等待一批人？相当于需要几个业务线的数据一起完成，然后我们一起交给模型训练。这是对等的过程。它的周期最短的差不多 15 天，长点的可能是两个月或者半年。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

4. 缺乏对生成结果的可解释性

举个例子：我们问模型珠穆朗玛峰的高度是多少

A 模型给的回复：8848 米

B 模型给的回复：8848 米，数据来源于，2025 年某登山队测量的结果，上面出现一个角标，可以点击进入的网页。

这样对比肯定是，B 模型给的回复更可信。数据来源可查，模型生成回复的结果，解释性更强，数据来源可查，就是可以利用 RAG 的方式。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

总结一下为什么要做 RAG：

解决大模型存在幻觉的问题，RAG 需要结合材料进行回复减少幻觉问题
解决大模型在垂直领域知识缺失的问题
解决问题时效性不足，模型训练周期较长，最新数据或知识模型无法及时提供。
解决缺乏对生成结果的可解释性，注明数据来源

三、RAG 技术原理

我们分为几个过程：

第一是文件索引过程，索引的过程就是将准备的资料或材料，用嵌入式模型进行向量化，这个过程我们称为索引

第二，检索用户输入的问题与资料库是否匹配，如果匹配，将用户的问题和匹配资料一起提交给大语言模型。大语言模型会根据这些内容生成结果。

整个流程分三个步骤，先索引，将文件分割成较短的块，通过编码器进行索引，嵌入式模型会将文件切割成许多块。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

我们解释一下什么是索引：

索引：给资料构建 “智能知识库”

索引是整个流程的“准备工作”。它不像传统目录只记录关键词，而是为知识建立语义目录。

资料处理：RAG 系统首先将所有参考资料（文档、网页等）拆分成大小适度的小块（Chunking）。
向量化：随后，系统利用嵌入模型和 Embeddings 技术，将每一小块文本内容转化为高维度的数字序列（即向量）。这些向量代表了文本的语义信息。
构建知识库：最后，这些带语义信息的向量会被存入向量数据库（VectorDatabase）中。这个数据库就是 AI 专用的“智能知识库”，后续的检索将基于这些数字化的语义信息进行。

我们解释一下什么是检索：

检索：按语义快速 “匹配素材”

检索就是 “找资料” 的动作，但它比关键词搜索更智能、更准确。当你提出一个问题时，RAG 不会进行简单的字面匹配。

问题向量化：RAG 会先把你的问题也转化为一个向量。
语义匹配：接着，系统会在向量数据库中，计算问题向量与所有资料向量之间的相似度。相似度越高，代表两段内容的“意义”越接近。
提取核心素材：系统会根据相似度分数，快速挑选出与问题语义最相关的 3-5 个资料片段。这些片段就是 AI 用来回答问题的“核心素材”（Context）。

最后是生成。

生成：用素材 “组织通顺答案”

生成是最后 “写答案” 的环节。大型语言模型（LLM）拿到检索来的核心素材后，会像一个拥有背景资料的专家。

整合与推理：LLM 将用户问题和检索到的上下文素材一起放入下文窗口
忠实度优先：LLM 会结合自身的基础常识和表达能力，以检索素材为主要依据，组织、推理并生成一个通顺、自然的答案。
最终输出：最终输出的答案既能保证准确性（Grounding/忠实于来源），又能保证流畅性和可读性。

四、RAG 的核心使用场景：以智能客服为例

若要搭建一个能回答公司产品相关问题的智能客服，核心需求是让系统基于企业产品手册、公司信息等专属文档，通过大模型生成准确回复。但直接将文档投喂给大模型存在明显局限，而 RAG（检索增强生成）正是为解决这些问题而生。

1. 上下文窗口长度限制

大模型（如 ChatGPT、GLM、豆包等）的输入能力受限于 “上下文窗口”（以 token 为单位计量）。企业产品手册长达数百页，其 token 总量远超多数模型的窗口上限，导致文档内容无法被模型完整接收（超出部分会被截断或忽略），进而无法基于完整信息生成回复。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

2. 信息处理不完整，回复准确率低

若强行输入超长文档，模型会因窗口限制 “丢失” 部分内容，且可能对未丢失的信息产生混淆（例如遗忘前文关键细节），导致回复与文档事实不符，无法满足客服对准确性的要求。

3. 模型无法读取所有的内容

模型只能存储一定量的信息，一般我们称为上下文窗口大小，超过了量模型就会忘记前面的，模型回复准确率无法有保障。

4. 推理成本过高

输入越多，成本越高。消耗掉很多 token 量，对于公司来说就是成本。

5. 模型推理慢

输入的越多，模型需要消化的内容就越多，模型输出就会越慢

我们直接把产品手册丢给大模型是不行的，这时候我们就用到了 RAG

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

五、RAG 是如何解决问题的

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

1. 当用户提问，产品能效如何

首先把产品手册分割成多个片段，当用户提出问题的时候，就会根据用户的问题，在所有片段中寻找相关的内容。

举例子所有片段中，只有五个片段与用户问题有关。就会把用户问题加上这五个片段一起发送给大模型。这时模型输入的内容相比较整个文档就会少很多，只会检索到这五个片段加上用户问题，就解决了模型处理不了这么多内容的问题。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

RAG 运行过程是这样的：

如何分片？
如何选择相关片段？

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

2. 涉及 RAG 技术原理

可以把技术原理拆分两个部分，提问前和提问后。

提问前会有分片，就是索引

提问后会有召回，重排和生成

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

什么是分片

简单解释：就是把文档切分多个片段

比如前面举的例子，分片会有很多方式，比如按照字数去分。每 1000 字或者每 500 字，也可按照段落去分。还可以按照章节去分，产品介绍第一章是什么内容，也可可以按照页数去分。

每个公司采取的方式不一样，最终目的将文档切分成多个片段

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

索引

将分段文本转化成向量，再将文本和向量存入数据库中

通过 Embedding 将片段文本转化为向量
将片段文本和片段向量存入数据库中

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

什么是向量

代表有大小方向的量、可以用数组去表示。

向量又分类为，一维向量，二维向量，三维向量。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

我们可以用数组去表示，一维向量，二维向量，三维向量。

先用一个图表示什么是一维向量，这里只有一个轴就是一维的。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

二维向量不只有 X 轴还会有 Y 轴：

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

三维向量，可以用图这样去理解：

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

什么是 Embedding

把文本转化成向量的一个过程，我们用二维图去示例

小明喜欢吃水果，它代表数是 3.9 和 1.2，这个理解为向量转化为数组

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

在说一句话，今天天气很冷，跟上面小明爱吃水果这句话，没有什么相关性离得就会比较远。比如我们再说一句，小红爱吃水果，这两段话离得比较近

这就是 Embedding 目的相近的文本，向量也是相近的

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

再举个示例：

当一个用户提出一个问题，产品的能效如何，这句话经过 Embedding 模型把这句话向量化变成数组

数组会有不同方位，整个过程就是用户提出问题，这个问题转化成向量，所看到的数组都是向量，然后根据向量相似度，会把和这个问题相关的文本都找出来，最后把问题和相关的文本一起发给大语言模型。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

什么是向量数据库

就是用来存储和查询向量的数据库。

举个示例：我们把产品手册分好片段，Embedding 模型转化成向量，存入向量数据库

有一点我们需要注意，不仅要存储向量，还要将向量对应的文本一起存入向量库。

只要这样才能够通过向量相似度去查询出相似的向量。把对应的文本给抽出来。发给大模型。让大模型去处理，我们最终需要的还是原始文本。向量只是中间的一个结果。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

AI 训练师如何做 RAG 项目？

学习项目需求、背景目标和标注策略。我们先了解背景过程。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目

整个项目背景

在对话 AI 助手下，用户提出了某些问题，而这些问题可能超出 AI 助手的基础知识，因此需要 AI 助手借助外部信息回答。外部信息主要指网上搜索到的结果以下统称为参考资料。给定一段对话，和 1～3 个参考材料。我们需要利用正确的参考资料给出高质量的回复，相当于训练模型的材料阅读理解加回答问题的过程。

AI训练师必看！5个章节带你快速掌握RAG检索增强项目