超过人类博士的能力！OpenAI 全新发布o1模型！

2024/09/14 推荐： 数字生命卡兹克阅读 1.3w 评论有奖阅读本文需 10 分钟

超过人类博士的能力！OpenAI 全新发布o1模型！

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

大家好，这里是和你们一起探索 AI 的花生。

阅读文章 >

大半夜的，OpenAI 抽象了整整快半年的新模型。

在没有任何预告下，正式登场。

超过人类博士的能力！OpenAI 全新发布o1模型！

正式版名称不叫草莓，草莓只是内部的一个代号。他们的正式名字，叫：

超过人类博士的能力！OpenAI 全新发布o1模型！

为什么取名叫 o1，OpenAI 是这么说的：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

翻译过来是：

对于复杂推理任务来说，这是一个重要的进展，代表了人工智能能力的新水平。鉴于此，我们将计数器重置为 1，并将这一系列命名为 OpenAI o1。

这次模型的强悍，甚至让 OpenAI 不惜推掉了过去 GPT 系列的命名，重新起了一个 o 系列。

炸了，真的炸了。

我现在，头皮发麻，真的，这次 OpenAI o1 发布，也标志着，AI 行业，正式进入了一个全新的纪元。

“我们通往 AGI 的路上，已经没有任何阻碍。”

在逻辑和推理能力上，我直接先放图，你们就知道，这玩意有多离谱。

超过人类博士的能力！OpenAI 全新发布o1模型！

AIME 2024，一个高水平的数学竞赛，GPT4o 准确率为 13.4%，而这次的 o1 预览版，是 56.7%，还未发布的 o1 正式版，是 83.3%。

代码竞赛，GPT4o 准确率为 11.0%，o1 预览版为 62%，o1 正式版，是 89%。

而最牛逼的博士级科学问题 (GPQA Diamond)，GPT4o 是 56.1，人类专家水平是 69.7，o1 达到了恐怖的 78%。

超过人类博士的能力！OpenAI 全新发布o1模型！

我让 Claude 翻译了一下 o1 的图，丑是丑了点，但是能看的懂每项数据意思就行。

超过人类博士的能力！OpenAI 全新发布o1模型！

什么叫全面碾压，这就是。

特别是在测试测试化学、物理和生物学专业知识的基准 GPQA-diamond 上，o1 的表现全面超过了人类博士专家，这也是有史以来，第一个获得此成就的模型。

而整个模型之所以达到如此成就，基石就是 Self-play RL，不知道这个的可以去看我前两天的预测文章：新模型草莓到底是个啥？

通过 Self-play RL，o1 学会了磨练其思维链并完善所使用的策略。它学会了识别和纠正自己的错误。

它也学会了将复杂的步骤分解为更简单的步骤。

而且当当前的方法不起作用时，它也学会了尝试不同的方法。

他学会的这些，就是我们人类，最核心的思考方式：慢思考。

诺贝尔经济学奖得主丹尼尔·卡尼曼有一本著作，名叫：《思考，快与慢》。

非常详细的阐述了人类的两种思考方式。

第一种是快思考（系统 1），特点是快速、自动、直觉性、无意识，举几个例子：

看到一个笑脸就知道对方心情很好。
1+1=2 这样简单的计算。
开车时遇到危险情况立即踩刹车。

这些就是快思考，也就是传统的大模型，死记硬背后学得的快速反应的能力。

第二种是慢思考（系统 2），特点是缓慢、需要努力、逻辑性、有意识，举几个例子：

解决一道复杂的数学题
填写税务申报表
权衡利弊后做出重要决定

这就是慢思考，我们人类之所以强大的核心，也是 AI 要通往下一步 AGI 路上的基石。

而现在，o1 终于踏出了坚实的一步，拥有了人类慢思考的特质，在回答前，会反复的思考、拆解、理解、推理，然后给出最终答案。

说实话，这些增强的推理能力在处理科学、编码、数学及类似领域的复杂问题时绝对极度有用。

例如 o1 可以被医疗研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式，以及被各个领域的开发人员用来构建和执行多步骤工作流，等等等等。

o1 也绝对是全新一代的数据飞轮，如果答案正确，整个逻辑链就会变成一个包含正负奖励的训练示例的小型数据集。

以 OpenAI 的用户级别，未来的进化速度，只会更恐怖。

写到这，我忽然叹了口气，我觉得我跟一年以后的 o1 比起来，可能就是个纯废物了，真的。。。

目前，o1 模型已经逐步向所有 ChatGPT Plus 和 Team 用户开放，未来会考虑对免费用户开放。

超过人类博士的能力！OpenAI 全新发布o1模型！

分为两个模型，o1 预览版和 o1 mini，o1-mini 就是更快更小更便宜，推理啥的都不错，极度适合数学和代码，就是世界知识会差很多，适用于需要推理但不需要广泛世界知识的场景。

o1 预览版每周 30 条，o1-mini 每周 50 条。

雪崩，甚至不是按以前的 3 小时来限制的，是每周 30 条，也能从侧面看出来，o1 这个模型，有多贵了。

对于开发者来说，只对已经付过 1000 美刀的等级 5 开发者开放，每分钟限制 20 次。

都挺少的。

而且在功能上阉割挺大，但是毕竟早期，理解。

超过人类博士的能力！OpenAI 全新发布o1模型！

API 的价格上，o1 预览版每百万输入 15 美元，每百万输出 60 美元，这个推理成本...

超过人类博士的能力！OpenAI 全新发布o1模型！

o1-mini 会便宜一些，每百万输入 3 美元，每百万输出 12 美元。

超过人类博士的能力！OpenAI 全新发布o1模型！

输出成本都是推理成本的 4 倍，对比一下 GPT4o，分别是 5 美元和 15 美元。

超过人类博士的能力！OpenAI 全新发布o1模型！

o1-mini 还是勉强有一些经济效应的，不过还是开始，后面等着 OpenAI 打骨折。

既然说 o1 已经对 Plus 用户开放，我就直接去我的号上看了眼，还不错，拿到了。

超过人类博士的能力！OpenAI 全新发布o1模型！

那自然第一时间试一试。

目前不支持曾经的所有功能，也就是没有图片理解、图片生成、代码解释器、网页搜索等等，只有一个可以对话的裸模型。

我先是一个曾经很致命的问题：

“农夫需要把狼、羊和白菜都带过河，但每次只能带一样物品，而且狼和羊不能单独相处，羊和白菜也不能单独相处，问农夫该如何过河。”

超过人类博士的能力！OpenAI 全新发布o1模型！

思考了 6 秒时间，给了我一个很完美的回答。

还有之前一个坑遍所有大模型的调休问题：

“这是中国 2024 年 9 月 9 日（星期一）开始到 10 月 13 日的放假调休安排:上 6 休 3 上 3 休 2 上 5 休 1 上 2 休 7 再上 5 休 1。

请你告诉我除了我本来该休的周末，我因为放假多休息了几天？”

在 o1 思考了整整 30 秒以后，给出了一天不差的极度精准的答案。

超过人类博士的能力！OpenAI 全新发布o1模型！

无敌，真的无敌。

再来一个更难的，就是曾经姜萍那个比赛的奥数题：

超过人类博士的能力！OpenAI 全新发布o1模型！

别问我题目什么意思，我看不懂，我是废物，这题曾经屠杀所有的大模型，这次，我们让 o1 也来试一下看看。

超过人类博士的能力！OpenAI 全新发布o1模型！

在 o1 思考了整整 1 分多钟之后，他给出了答案。
...

超过人类博士的能力！OpenAI 全新发布o1模型！

全...对...

我裂开了。

目前我自己试下来，感觉 Prompt，未来可能也要重新摸索，在 GPT 为代表的快思考大模型时代，我们有很多所谓的一步一步思考之类的玩意，现在全都无效了，对 o1 甚至还有负效果。

OpenAI 给出的最佳写法是：

保持提示简单直接：模型擅长理解和响应简短、清晰的指令，而不需要大量的指导。
避免思路链提示：由于这些模型在内部进行推理，因此不需要提示它们“逐步思考”或“解释你的推理”。
使用分隔符来提高清晰度：使用三重引号、XML 标签或章节标题等分隔符来清楚地指示输入的不同部分，帮助模型适当地解释不同的部分。
限制检索增强生成 (RAG) 中的附加上下文：提供附加上下文或文档时，仅包含最相关的信息，以防止模型过度复杂化其响应。

最后，我想说一下这个思考的时长。

现在 o1 是思考了一分钟，但是，如果是真正的 AGI，说实话，思考的越慢可能会越刺激。

当他真的，可以去做证明数学定理，去做癌症药物研发，去做天体研究呢？

每一次的思考，可以达到几小时、几天、甚至几周呢？

最后的结果，可能会让所有人震惊的难以置信。

现在，没有人能想象到，那时候的 AI，会是一个什么样的存在。

而 o1 的未来，在我看到，也绝对不止是一个普普通通的 ChatGPT。

而是我们前往下个时代，最伟大的基石。

“我们通往 AGI 的路上，已经没有任何阻碍。”

现在，我毫不犹豫的坚信着这句话。

星光熠熠的下一个时代。

在今天。

正式到来了。

欢迎关注作者的微信公众号：数字生命卡兹克

超过人类博士的能力！OpenAI 全新发布o1模型！

数字生命卡兹克

文章 186 人气 549.8w

AI自媒体

+关注作者

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 1 条评论点赞，解锁好运彩蛋

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学AI设计上优设

您还未登录

登录后即可体验更多功能

超过人类博士的能力！OpenAI 全新发布o1模型！

2024/09/14 推荐： 数字生命卡兹克阅读 1.3w 评论有奖 阅读本文需 10 分钟

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

数字生命卡兹克

文章 186 人气 549.8w

继续阅读本文相关话题

549.8w人气 186文章

本文3套知识9图

AI辅助电商设计实战！5步把白底产品图变成高质感海报

6款游戏UI字体实战！从暗黑哥特到森系空灵全拆解

IP角色怎么融进APP界面？我用AI做了一套完整设计练习

文章目录

文章目录

你即将学会 AIGC 的知识

如何判断AI的输出是否正确？三个办法搞定！

1.6w 人阅读

上一篇

你即将学会 AIGC 的知识

效率暴涨！100万人都在关注的多合一 AI 搜索神器 SeekAll！

3.7w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

用户体验增长

已累计诞生 795 位幸运星

发表评论 为下方 1 条评论点赞，解锁好运彩蛋

↓ 下方为您推荐了一些精彩有趣的文章热评 ↓

夏花生

彭彭

小普

小普

夏花生

优设推荐官精选热门话题

用户体验设计

文章 657

用户体验

文章 1119

平面设计

文章 928

AI绘画

文章 2569

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

GPT Images2

AI生图王者归来

OpenClaw

快来一起养龙虾

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

OPC一人公司

2026创业新风口

优设热榜

每日必读的行业消息

教你做字库

每个公司都可有字库

设计服务

一站式数字创意服务平台

求职面试

为你用心整理的技巧

3D设计

菜单优设网 - 学AI设计上优设

2024/09/14 推荐：数字生命卡兹克阅读 1.3w 评论有奖阅读本文需 10 分钟

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 1 条评论点赞，解锁好运彩蛋