
在 AI 应用日益深入的今天,RAG(Retrieval-Augmented Generation)正成为提升模型实用性的关键技术。本文将从 AI 训练师的视角出发,系统拆解 RAG 的核心机制、应用场景与训练要点,帮助你在构建高质量智能体时少走弯路、精准发力。
今天我向大家介绍检索增强也就是 RAG,在公司里面也是一个独立的项目,并且有自己的考核指标。
- 什么是 RAG
- 为什么大模型要做 RAG
- RAG 的技术原理
- 如何做 RAG(AI 训练师在做 RAG 项目的时候,具体做哪些内容)
往期干货:
中文名检索增强生成,是 AI 领域非常重要的一种技术方案。其核心作用是给 LLM 大模型外挂专门的知识库,指导大模型生成更准确的输出。

这块我们记住几个关键词:
- RAG 检索增强
- RAG 是一种技术方案
- 给 LLM 大模型外挂专门的知识库
1. 什么是 RAG(Retrieval- augmented Generation)
简单理解,RAG 让大模型先去查资料再生成回答。会让模型的回答更加精准更加贴合用户需求。

RAG 的资料来源
资料从哪里来呢,首先可以从网上获取,还有一种方式就是本地知识库,它的来源有两种方式,一种外部知识库,即联网搜索,另一种本地知识库。
- 外部知识库:不只是搜索引擎,比如去查询一些天气情况,特定的 API 访问,也是一种检索增强。
- 本地知识库:部署在本地服务器上,硬盘或者电脑上,通过这种检索方式可以查询本地特有资料

2. 工具分享
这里分享一个主流模型盲测网站,涵盖文本、多模态等不同领域,用户可通过匿名投票或系统自动评估参与模型性能对比
LMArena
特点:由滑铁卢大学团队开发,专注于多模态模型盲测,覆盖文本到图像生成、图像编辑、文本到视频生成三大任务。用户上传提示词后,系统随机展示两个匿名模型的生成结果,用户通过投票决定优劣。

1. 存在幻觉问题
首先我们现在的模型都是生成式模型,既然是生成式模型,就会有概率出现各种各样的问题。而这解决的第一个问题是模型的幻觉问题。
本质上大模型是基于数学概率统计,它就可能会出现胡言乱语。
举例子,我询问你吃饭了吗,模型会如何回复呢,假如 70%的人都回复吃饭,另外 29.999%的人回复没吃饭。
另外有一个神经病人回复了,我在北京。注意,因为模型是概率性的模型,所以我在北京回答有可能被选中。
那个回答只是概率极低,并不意味着没有。因此,模型目前非常致命的问题是幻觉问题,这可以很好地解决模型存在幻觉问题。
2. 缺乏对专业领域的知识理解
举个例子:
- 我去问大模型豆包,红烧排骨如何制作?
- 我在专业美食App 里面去查询,红烧排骨如何制作?
哪个回复得更专业,更贴合用户,肯定是在专业美食 App 里面去查询的更专业。因为这个网站就是专门做美食的,数据就更精准。
因为传统大模型,是偏全知全能的,虽然他们掌握了所有知识,但是知识不够深入。这里我们就可以通过外挂知识库的方式,让模型更好地回复红烧排骨制作流程。可以很好地解决它在垂直领域知识缺失的问题。
3. 时效性不足
举个例子:当你在使用模型时,你把模型联网搜索给关闭,问模型明天的天气怎么样。模型根本不会回复你,因为问的问题太新了,训练的语料 还没有给到大模型。由于模型的训练语料在训练结束那一刻,他的知识已经被定格在那个时间
为什么出现时效性不足?
首先各业务线生成一个数据集,这些数据集经过算法评估之后认为可行,然后一起上车。上车后不进行训练,例如在公交站里面上车后,是否相当于需要等待一批人?相当于需要几个业务线的数据一起完成,然后我们一起交给模型训练。这是对等的过程。它的周期最短的差不多 15 天,长点的可能是两个月或者半年。

4. 缺乏对生成结果的可解释性
举个例子:我们问模型珠穆朗玛峰的高度是多少
A 模型给的回复:8848 米
B 模型给的回复:8848 米,数据来源于,2025 年某登山队测量的结果,上面出现一个角标,可以点击进入的网页。
这样对比肯定是,B 模型给的回复更可信。数据来源可查,模型生成回复的结果,解释性更强,数据来源可查,就是可以利用 RAG 的方式。

总结一下为什么要做 RAG:
- 解决大模型存在幻觉的问题,RAG 需要结合材料进行回复减少幻觉问题
- 解决大模型在垂直领域知识缺失的问题
- 解决问题时效性不足,模型训练周期较长,最新数据或知识模型无法及时提供。
- 解决缺乏对生成结果的可解释性,注明数据来源
我们分为几个过程:
第一是文件索引过程,索引的过程就是将准备的资料或材料,用嵌入式模型进行向量化,这个过程我们称为索引
第二,检索用户输入的问题与资料库是否匹配,如果匹配,将用户的问题和匹配资料一起提交给大语言模型。大语言模型会根据这些内容生成结果。
整个流程分三个步骤,先索引,将文件分割成较短的块,通过编码器进行索引,嵌入式模型会将文件切割成许多块。

我们解释一下什么是索引:
索引:给资料构建 “智能知识库”
索引是整个流程的“准备工作”。它不像传统目录只记录关键词,而是为知识建立语义目录。
- 资料处理:RAG 系统首先将所有参考资料(文档、网页等)拆分成大小适度的小块(Chunking)。
- 向量化:随后,系统利用嵌入模型和 Embeddings 技术,将每一小块文本内容转化为高维度的数字序列(即向量)。这些向量代表了文本的语义信息。
- 构建知识库:最后,这些带语义信息的向量会被存入向量数据库(VectorDatabase)中。这个数据库就是 AI 专用的“智能知识库”,后续的检索将基于这些数字化的语义信息进行。
我们解释一下什么是检索:
检索:按语义快速 “匹配素材”
检索就是 “找资料” 的动作,但它比关键词搜索更智能、更准确。当你提出一个问题时,RAG 不会进行简单的字面匹配。
- 问题向量化:RAG 会先把你的问题也转化为一个向量。
- 语义匹配:接着,系统会在向量数据库中,计算问题向量与所有资料向量之间的相似度。相似度越高,代表两段内容的“意义”越接近。
- 提取核心素材:系统会根据相似度分数,快速挑选出与问题语义最相关的 3-5 个资料片段。这些片段就是 AI 用来回答问题的“核心素材”(Context)。
最后是生成。
生成:用素材 “组织通顺答案”
生成是最后 “写答案” 的环节。大型语言模型(LLM)拿到检索来的核心素材后,会像一个拥有背景资料的专家。
- 整合与推理:LLM 将用户问题和检索到的上下文素材一起放入下文窗口
- 忠实度优先:LLM 会结合自身的基础常识和表达能力,以检索素材为主要依据,组织、推理并生成一个通顺、自然的答案。
- 最终输出:最终输出的答案既能保证准确性(Grounding/忠实于来源),又能保证流畅性和可读性。
若要搭建一个能回答公司产品相关问题的智能客服,核心需求是让系统基于企业产品手册、公司信息等专属文档,通过大模型生成准确回复。但直接将文档投喂给大模型存在明显局限,而 RAG(检索增强生成)正是为解决这些问题而生。
1. 上下文窗口长度限制
大模型(如 ChatGPT、GLM、豆包等)的输入能力受限于 “上下文窗口”(以 token 为单位计量)。企业产品手册长达数百页,其 token 总量远超多数模型的窗口上限,导致文档内容无法被模型完整接收(超出部分会被截断或忽略),进而无法基于完整信息生成回复。

2. 信息处理不完整,回复准确率低
若强行输入超长文档,模型会因窗口限制 “丢失” 部分内容,且可能对未丢失的信息产生混淆(例如遗忘前文关键细节),导致回复与文档事实不符,无法满足客服对准确性的要求。
3. 模型无法读取所有的内容
模型只能存储一定量的信息,一般我们称为上下文窗口大小,超过了量模型就会忘记前面的,模型回复准确率无法有保障。
4. 推理成本过高
输入越多,成本越高。消耗掉很多 token 量,对于公司来说就是成本。
5. 模型推理慢
输入的越多,模型需要消化的内容就越多,模型输出就会越慢
我们直接把产品手册丢给大模型是不行的,这时候我们就用到了 RAG


1. 当用户提问,产品能效如何
首先把产品手册分割成多个片段,当用户提出问题的时候,就会根据用户的问题,在所有片段中寻找相关的内容。
举例子所有片段中,只有五个片段与用户问题有关。就会把用户问题加上这五个片段一起发送给大模型。这时模型输入的内容相比较整个文档就会少很多,只会检索到这五个片段加上用户问题,就解决了模型处理不了这么多内容的问题。

RAG 运行过程是这样的:
- 如何分片?
- 如何选择相关片段?

2. 涉及 RAG 技术原理
可以把技术原理拆分两个部分,提问前和提问后。
提问前会有分片,就是索引
提问后会有召回,重排和生成

什么是分片
简单解释:就是把文档切分多个片段
比如前面举的例子,分片会有很多方式,比如按照字数去分。每 1000 字或者每 500 字,也可按照段落去分。还可以按照章节去分,产品介绍第一章是什么内容,也可可以按照页数去分。
每个公司采取的方式不一样,最终目的将文档切分成多个片段

索引
将分段文本转化成向量,再将文本和向量存入数据库中
- 通过 Embedding 将片段文本转化为向量
- 将片段文本和片段向量存入数据库中


什么是向量
代表有大小方向的量、可以用数组去表示。
向量又分类为,一维向量,二维向量,三维向量。

我们可以用数组去表示,一维向量,二维向量,三维向量。
先用一个图表示什么是一维向量,这里只有一个轴就是一维的。

二维向量不只有 X 轴还会有 Y 轴:

三维向量,可以用图这样去理解:

什么是 Embedding
把文本转化成向量的一个过程,我们用二维图去示例
小明喜欢吃水果,它代表数是 3.9 和 1.2,这个理解为向量转化为数组

在说一句话,今天天气很冷,跟上面小明爱吃水果这句话,没有什么相关性离得就会比较远。比如我们再说一句,小红爱吃水果,这两段话离得比较近
这就是 Embedding 目的相近的文本,向量也是相近的

再举个示例:
当一个用户提出一个问题,产品的能效如何,这句话经过 Embedding 模型把这句话向量化变成数组
数组会有不同方位,整个过程就是用户提出问题,这个问题转化成向量,所看到的数组都是向量,然后根据向量相似度,会把和这个问题相关的文本都找出来,最后把问题和相关的文本一起发给大语言模型。

什么是向量数据库
就是用来存储和查询向量的数据库。
举个示例:我们把产品手册分好片段,Embedding 模型转化成向量,存入向量数据库
有一点我们需要注意,不仅要存储向量,还要将向量对应的文本一起存入向量库。
只要这样才能够通过向量相似度去查询出相似的向量。把对应的文本给抽出来。发给大模型。让大模型去处理,我们最终需要的还是原始文本。向量只是中间的一个结果。

AI 训练师如何做 RAG 项目?
学习项目需求、背景目标和标注策略。我们先了解背景过程。

整个项目背景
在对话 AI 助手下,用户提出了某些问题,而这些问题可能超出 AI 助手的基础知识,因此需要 AI 助手借助外部信息回答。外部信息主要指网上搜索到的结果以下统称为参考资料。给定一段对话,和 1~3 个参考材料。我们需要利用正确的参考资料给出高质量的回复,相当于训练模型的材料阅读理解加回答问题的过程。

一个 RAG 项目必然包含这三个部分:
第一个是问题,这个问题有可能是单轮的也有可能是多轮的,还有可能是在多轮对话基础提出新的问题。
第二参考材料有两种,一种外部联网搜索,一种本地知识库
第三个回答,需要查看是否根据问题进行回答两个判断,必须响应问题,第二个必须结合材料回答。

查看标注概要
标注概要分为主线任务和支线任务。
主线任务指的是用户问的问题,主线任务让模型学习,根据材料结合问题生成答案的能力,把好的数据给标注出来。
支线任务是有问题的数据,比如材料和回答有问题,这些数据 AI 训练师都要标记出来。目的是让模型规避这些问题。模型在训练时有正向加权和负向减弱,意思是让模型学习好的,放弃不好的。
什么是问题数据
问题如逻辑不通,语意不清、上下文矛盾,政治敏感等
参考材料有问题:如材料缺失、常识性缺失、材料准确性问题、材料之间有矛盾冲突
回答问题:模型回答内容不满足优质回答条件,基于通用的单轮对话规则

总结,RAG技术通过“索引-检索-生成”三步流程,能有效为大模型赋能,使其回答更精准、专业、及时且可追溯。对于AI训练师而言,掌握RAG项目从需求分析、数据标注到效果评估的全流程,是构建高质量AI应用、提升模型实用性的核心技能。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AIGC互联网产品设计实践
已累计诞生 764 位幸运星
发表评论 为下方 3 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓