
相关文章:
在 AI 领域,有许多专业术语,覆盖从底层算法到应用层产品设计。以下是常见 AI 名词解释列表。
AI(Artificial Intelligence)人工智能:广义上指的是让机器具备类似人类的思考、学习、决策等智能行为的技术总称。
AGI(Artificial General Intelligence)通用人工智能:一种尚未实现的 AI 类型,能像人类一样,具备跨领域学习和通用推理能力。
Narrow AI(狭义人工智能):目前主流 AI 类型,专注在特定任务领域(如语音识别、下围棋)表现优秀,但无法迁移能力。
ML(Machine Learning)机器学习:AI 的一个子领域,强调通过数据训练模型,让系统自动学习模式,而非手工编程规则。
DL(Deep Learning)深度学习:机器学习的一个子集,使用多层神经网络(通常 3 层以上)自动提取特征并完成复杂任务。
模型(Model):训练完成后的 AI 实体,用来对新数据进行推理和输出。例如:GPT 就是一个语言模型。
训练(Training):通过数据喂入模型,反复调整参数,使模型学会输入与输出之间的对应关系的过程。
推理 / 推断(Inference):模型在训练完成后,对新输入做出判断或生成输出的过程。
参数(Parameters):模型中可以学习的数值,决定模型输出。例如 GPT-4 有数千亿个参数。
权重(Weights):神经网络中连接节点的值,是模型学习到的核心内容。
Loss Function(损失函数):衡量模型输出结果与实际值之间差异的函数。优化目标是“最小化损失”。
Overfitting(过拟合):模型学得太“死板”,只记住训练集数据,导致泛化能力差。
Fine-tuning(微调):在已有大模型的基础上,用特定领域数据再次训练,使模型更适应某个细分任务。
LLM(Large Language Model)大语言模型:使用海量文本训练出的模型,具备文本生成、翻译、总结、问答等能力。代表如:GPT、Claude、Gemini。
Prompt(提示词):输入给大模型的一段文字,用来引导其生成特定内容。
Prompt Engineering(提示词工程):通过精心设计提示词,提高生成质量或实现复杂功能的技巧。
Hallucination(幻觉):AI 模型生成看似合理但实际上是虚假的信息,可能误导用户。
Token(标记):LLM 将文本分解的最小单位(可能是一个字、词或词根),模型以 Token 形式处理语言。
Top-k / Top-p Sampling:生成式模型中的输出采样策略,用于控制生成内容的多样性与准确性。
RAG(Retrieval-Augmented Generation)检索增强生成:结合搜索引擎 + LLM 的混合架构,模型在生成内容前可访问外部知识库,以提高准确性。
多模态(Multimodal):模型能同时处理多种信息形式:文本、语音、图像、视频。例如:GPT-4o、Gemini 可看图回答问题。
Intent Detection(意图识别):识别用户输入背后的真实目的,是对话系统中的关键步骤。
Slot Filling(槽位填充):提取用户输入中的关键变量,如“订一张明天从上海到北京的机票”中提取出时间、起点、终点等槽位信息。
Feedback Loop(反馈循环):用户与 AI 多轮交互中的闭环机制,比如:用户追问 ➜ AI 修正 ➜ 用户确认。
Output Feedback(输出反馈机制):系统在输出结果时提供选项、解释、编辑建议,帮助用户理解与调整。
Agent(智能体):一个具备“感知—思考—执行—反馈”闭环能力的自主系统,可帮用户完成复杂任务。
意图建模(Intent Modeling):Agent 中关键组件,用于持续跟踪和判断用户的目标、语境与操作意图。
Memory(记忆):Agent 记住用户的历史对话、偏好等信息,以形成“连续性”和“个性化”。
Tool Use(工具调用):Agent 可调用外部工具(如搜索、计算器、数据库)来补充能力。
Chain of Thought(思维链):模拟人类思考方式,逐步推理而非直接给出答案的输出策略。
Bias(偏见):AI 在训练中继承了某些数据偏差,导致输出内容可能存在歧视性、刻板印象等问题。
Toxic Content(有害内容):包括仇恨言论、色情、暴力等内容,需要通过过滤或审核机制处理。
Content Moderation(内容审核):通过规则或模型检测不当内容的过程,是保障用户安全的重要环节。
Explainability(可解释性):用户或开发者是否能理解模型为何得出某个结果,尤其在医疗、金融等高风险领域非常重要。
Trust Modeling(用户信任建模):设计如何建立用户对 AI 系统的合理信任,包括透明反馈、提示语气、可控性等。

想象你第一次接触一位能写诗、画画、讲故事、还会编程的“AI 小助手”。你可能会问:它怎么会这么多东西?它是怎么“学会”的?其实这背后,是一套我们今天要了解的生成式 AI 核心机制。
你可以把 Transformer 想象成一个非常聪明的“阅读理解高手”,它能快速读完一整段话,然后抓住重点、理解语境、再做出回应。那它是怎么做到的呢?
首先,它不像传统模型那样一句话只能一个词一个词慢慢处理,而是——“一眼扫全局”。比如你给它一句话:“小明今天迟到了,因为他睡过头了。”它能立刻知道“他”指的是“小明”,因为它不是逐字阅读,而是把整句话放在脑海里一起分析,谁和谁有关系、哪个词重要,它都能搞清楚。这个分析靠的是一个很神奇的机制,叫做 “注意力机制”(Attention)。简单来说,模型在每一个词上都会问自己:“我该关注谁?”
就像你在看一部电影,有些镜头你会特别注意(比如主角的表情),有些则一眼带过(比如背景路人),Transformer 就是通过这种“注意力”的方式,把焦点放在最重要的词上。同时,它的结构是“层层堆叠”的,每一层都负责提取不同层次的语言特征。前面几层可能在理解语法,中间几层在理解词之间的联系,最后几层在做决策,比如回答问题、写句子、生成图像等等。
所以总结来说:Transformer 通过 自注意力机制(Self-Attention),让每个词都能“看到”其他词,然后通过堆叠多个这样的机制,理解序列中词与词之间的关系,从而完成翻译、对话、生成等任务。它是目前大多数 AI 大模型(比如 ChatGPT、GPT-4、BERT、Claude、Gemini)的底层“脑袋”,让 AI 变得更聪明,也更能听懂人话。
你可以把扩散模型想象成一个“修复模糊照片的高手”,但它特别牛,它不是修复模糊的照片,而是从一堆“纯噪声”里一步步“反推”出一张清晰的图像,就好像从白纸中画出一张有细节的照片。这个过程其实分两步:
第一步:加噪声(让图像一点点变模糊)
假设我们有一张猫的照片,我们不断往上面加“噪声”(就是那种电视雪花点点那种乱七八糟的像素),一遍一遍地加,最后你会得到一张几乎看不出原图的随机噪声图。这个过程就像你拿着橡皮,一点点把画擦掉,最后全成灰了。但重要的是:我们记录下了每一步是怎么加噪声的,也就是说,AI 知道从猫到“雪花”的每一步发生了什么。
第二步:去噪声(AI 从噪声中“倒推”出图像)
现在,Diffusion 模型开始发挥魔法了。它从最后那张“全是噪声”的图开始,一步一步往回走,每一步都尝试把图像“变清楚一点点”。就像你看一张模糊的照片,然后 AI 说:“我猜你这里可能是猫耳朵,这里可能是眼睛”,然后再擦掉一点噪声。它不断这样操作,最后就生成了一张看起来很清晰、很真实的猫的图像。厉害的是,它不是复制原图,而是“根据你给的提示”重新画的。比如你告诉它“画一只骑滑板的猫”,它会从纯噪声开始,一步步把那个滑板猫“画出来”。
那它怎么知道怎么“反推”呢?
这里的核心是模型训练时见过海量的图片和它们加噪声后的样子,学会了“怎样从一个模糊的版本里,猜出可能的真实图像”。这就像你天天练“猜谜图”,久而久之就练出了本事。
CLIP(Contrastive Language–Image Pre-training)是一种可以“看图说话”和“读文识图”的AI模型。简单来说,它让机器同时理解文字和图像,从而建立起它们之间的联系。CLIP 并不像传统的图像识别模型那样只能识别固定的标签,而是能“读懂”一句自然语言的描述,并找到最符合描述的图像,或者反过来,从图中理解其可能的文字含义。
它是怎么做到的?CLIP 的原理其实可以类比为“结对学习”。训练时,模型会同时看一张图和它的文字描述,然后学会把这对内容映射到一个共同的“理解空间”中(也叫嵌入空间 embedding space)。比如,一张猫的照片和“a photo of a cat”这句话,CLIP 会尝试让它们在这个空间里靠得很近;而与之无关的内容,比如“a picture of a bicycle”,就会离它远一些。时间长了,CLIP 就学会了“图文配对”的能力。
CLIP 的结构由两个主要部分组成:一个是图像编码器(通常是视觉 Transformer 或者 CNN),一个是文本编码器(比如 Transformer)。这两个部分会把图像和文字各自转化成向量,然后计算它们之间的相似度。模型训练的目标就是:让正确的图文对相似度更高,错误的组合相似度更低。
CLIP 非常强大,广泛用于生成式 AI 模型中,比如 Stable Diffusion 就利用 CLIP 来判断生成的图像是否符合用户输入的文字提示。这种“理解能力”让它在搜索、生成、创意工具中变得非常关键,也正因为它可以处理开放的自然语言,而不是局限于固定标签,它让 AI 拥有了更“开放”的认知能力。
知识点:CLIP 是一种跨模态模型,它将图像和文字嵌入到统一的向量空间中,通过相似度学习建立二者的联系。它是文生图、图搜文的底层关键技术。
理清一个常被混淆的点:生成模型和判别模型是完全不同的角色。
- 生成模型(如 GPT、Diffusion) 是内容的“创作者”。它们根据已有数据分布,学会“模仿”世界,从而创造新的文字、图像、音乐等内容。
- 判别模型(如分类器、检测器) 是质量的“审核员”。它们的任务是判断真假、分类识别,比如识别图中是不是一只猫,判断一段文本是否有毒性言论。
很多 AI 系统其实是两个模型“协作”的结果。比如在内容安全场景下,生成模型先创作,判别模型随后审核,确保不会生成不合适的东西。在很多 AI 系统中,生成模型先产出内容,判别模型随后把关。比如在生成图片时,系统会自动判断生成的内容是否违反规定;又比如,一个 AI 写的段子,会先经过判别模型检查是否含有敏感话题。这种搭配,就像一个作家和一个审稿人合作,既能创作,又能保证质量。
这一切听起来或许有点神奇,但这些机制就是今天生成式 AI 能“看会说,还能画”的底层逻辑。它们像一个个擅长不同技能的模块,互相协作,最终组成了我们今天看到的 ChatGPT、Midjourney、Sora 等强大系统。而作为设计师,如果理解了这些,就能更好地判断——我们的产品,应该用谁来做什么。
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。




发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
AI辅助海报设计101例
已累计诞生 775 位幸运星
发表评论 为下方 4 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓