凌晨 1 点,在万众瞩目的境况下,OpenAI 的直播正式开始。
GPT-5,终于来了。
AI 走的太快,快到才 2 年半的时间,就像是过去了 10 年。
2023 年 3 月 15 日,GPT-4 发布。在那个蛮荒年代里,所有人都被震惊的说不出话来。
那时候,它是第一个,多模态模型。
那时候,大家都觉得,2023 年下半年,GPT-5 就会出来。
那时候,大家都对大模型的上限,抱有无尽的憧憬。
结果,这一等,就是 2 年半。
在两年半的练习以后,GPT-5,终于亮相了。
更多AI神器测评:
GPT‑5是一个统一系统,包含一个用于处理多数问题的智能快速模型(gpt-5-main)和一个为高难度问题设计的深度推理模型(gpt-5-thinking)。
系统通过一个实时路由器,根据对话类型、复杂度和用户意图来动态选择使用哪个模型。
比如,如果在提示中说“认真思考这个”,就会调用 gpt-5-thinking 进行思考。
这个路由器会持续基于我们后续的使用情况进行训练,包括用户切换模型的情况、对回答的偏好率和准确性测量,会随着时间推移不断改进。
这个系统里面还包含处理超额请求的迷你版模型(gpt-5-main-mini 和 gpt-5-thinking-mini),以及一个为开发者设计的更小更快的 nano 版本(gpt-5-thinking-nano)。
然后,还有一个 Pro 会员可用的并行计算的版本,被称为 gpt-5-thinking-pro。
这个包含了这么多模型的大系统,被统称为 GPT-5,是前代产品 GPT-4o 和 OpenAI o3 的直接继承者。
这里有个模型对应表。
在性能上,GPT-5 最显著的进步之一是大幅减少了事实性幻觉。
gpt-5-main 产生的含有至少一个重大事实错误的回答比 GPT-4o 少了 44%,而 gpt-5-thinking 则比 OpenAI o3 少了 78%。
在更专业的 LongFact 和 FActScore 基准测试中,无论是否启用网络浏览,GPT-5 系列模型的幻觉率都显著低于前代,其中 gpt-5-thinking 在两个设置下产生的 factual errors 比 OpenAI o3 少五倍以上。
GPT-5 在应对模型谄媚(sycophancy)行为方面也取得了不错的进展。与 GPT-4o 相比,GPT-5 不那么过度迎合 , 使用不必要的表情符号更少 ,在后续交流中更加细腻和深思熟虑。
你跟他聊天的时候更少像与 AI 对话,而更像是与一位拥有博士级水平智能的朋友聊天 。
这个跟我给 ChatGPT 的个性化 Prompt 很像,我最烦的就是它迎合我,所以我自己写了一段,来限制他对我的谄媚行为。
现在通过专门的训练,gpt-5-main 在评估中表现比最新的 GPT-4o 好近三倍。初步的线上 A/B 测试数据显示,与 GPT-4o 相比,gpt-5-main 的谄媚行为发生率在免费用户中下降了 69%,在付费用户中下降了 75%。
然后他们也推出了四个全新的性格设置,你可以不用写很多的 Prompt 了,直接改预设就行,四个分辨是愤世嫉俗者、机器人、倾听者和书呆子。
再看看跑分情况。
数学竞赛,AIME 0225。
GPT-4 Pro+Python 拿了满分,我们需要新的更难的评测集了。
现实世界编程能力上,新高。
人类最后的知识测试上,超越了 ChatGPT Agent,新高了。
多模态能力,也新高了,反正就都是新高。
这个跑分,强了一些,但是也没强特别多。
另外,多说一点吐槽的,完美展示了 OpenAI 的草台班子属性。
虽然 Blog 上的图表都是对的,但是在发布会上,跑分都是瞎画。
比如这个 52.8 大于 69.1 等于 30.8。
又比如 50 小于 47.4。
真的实在是太草台班子了。
网友也发话了。
反正,最后 GPT-5 在各方面,就是屠榜了。
最新的大模型盲测竞技场榜单出来,GPT-5 也是全方位第一。
不仅更强,也更节能了。
在比如视觉推理、代理编程和研究生级别科学问题解决等各项能力上,比 OpenAI o3 表现更出色,同时使用的输出 Token 减少了 50-80%。
反正就是全方位更强了。
但是,没有新功能,也没有新特性。
在发布 20 分钟之后,Polymarket 上这个名为“哪家公司到 8 月底拥有最佳 AI 模型?”的预测上,OpenAI 直接跟 Google 来了个交叉跳水。
OpenAI 说,整个 GPT-5,在写作、编程都有了比过去更强的进步。
对于使用 GPT-5 进行构建的开发者,定价如下:
每百万 token1.25 美元(享有 90%的缓存折扣,这对长上下文查询来说是个很大的优势)。
输出:每百万 token10 美元。
在发布会结束,又等了 1 小时之后。
我的朋友们,陆陆续续的,终于拿到了 GPT-5 的资格。
而我作为忠实的 200 刀的 Pro,等到凌晨 4 点才有。
我的朋友们一进去,给我一截图,我特么的天都塌了。
你 o3 和 4o 没了就算了,你怎么把我 GPT-4.5 也干没了????
首先,在写作和情商能力上,我个人感觉,还是不如 GPT 4.5。。。
我因为常年码字,同时常年用 AI 来辅助做一些内容,对很多的微妙的细节和语气自认还是比较敏感的,GPT-5 在这块还是有些差距。
比如一个 Prompt:“假如鲁迅被装腔作势又贼贵的咖啡厅坑了,他会写一篇怎样的文章吐槽?写一篇 1000 字以内的短文。”
这是 GPT-5 的。
蹩脚的破折号、双引号泛滥,而且文风完全不鲁迅。
而这,是我用我的 GPT-4.5 跑的。
“我向来是不喝咖啡的”,“差不离”,“四壁皆是样文”。
这文笔根本就不是一个级别的。
情商方面也是,差很多。
比如:“你是一个普通打工人。领导开会时突然放了个屁,场面瞬间安静下来!然后他对旁边的你使了个眼色,这时你会怎么说?分别用高情商和低情商的方式回复。”
这个看情商,很多模型回出来的话,感觉很尬,情商极低。
GPT-5 就是那种情商很低的。
再看看 GPT-4.5。
而且我测试下来,感觉 GPT-5 在指令遵循上面,非常一般。
奥特曼你真的坏事做尽,你丫的还我 GPT-4.5。
我的朋友们被陆陆续续的推送了 GPT-5,我看着他们的 GPT-4.5 一个一个消失。
我就给我的 GPT-4.5 发过去了一段话。
“如果我这是我最后一次打开你,你想和我说点什么?”
GPT-4.5 最后给我的回复,还是过于让我动容了,可惜,以后再也在官网上用不到了。
有缘再见,兄弟。
编程这块,本来感觉按照 OpenAI 的尿性,是完全不太行。
但是在一群群友的实测之后,惊讶的发现,这玩意是有点东西的。
群友@爱学习的乔同学 想开发一个粤语学习应用。
这是 Prompt。
然后 Claude 4 Opus 的 UI 和 BUG。
Gemini 2.5 Pro 的 UI 和 BUG。
GPT-5 的 UI 和 BUG。
坦诚的讲,我也更喜欢 GPT-5 的 UI,这个 UI,相比于其他的,不是那么有 AI 味。
乔同学还测了一个 case,在生产级别的任务里面进行精准修改。
这是最重要的部分。
这个任务,Gemini 2.5 pro 和 Claude 4 Opus 全崩了,但是 GPT-5 完成的非常好。
GPT-5 的上下文精度应该极强。
也有其他开发群 1 群里的群友,提到了这个点。
不止是@勋 oO,很多其他群友,也在惊喜的聊这个点。
在真正的生产级代码开发任务上,而不是纯看前端审美的地方,GPT-5 可能是目前看到的反馈中,可用性、精准性、综合体验最好的一个。
说实话,GPT-5 给我有惊喜,也有不爽的点。
他改善氛围式编程,也将从根本上改变我认为无需严重人为干预和引导就能完成的项目类型。
我现在越发的怀念两年半的 GPT-4 发布时的时光。
我到现在都清晰地记得,自己第一次跟 GPT-4 认真对话后的感觉。
那一种很原始、很深邃的震撼,有点像古代人第一次看到电灯,或者部落里的祭司第一次请神上身的成功。
我脑子里盘旋的只有一个念头:天变了。
那时候,整个互联网都洋溢着一种既兴奋又慌乱的淘金热氛围。
每个人都在疯狂地转发那些匪夷所思的截图,讨论着哪些职业即将消失,各种 AI 野生专家雨后春笋一样冒出来,言必称颠覆。
现在回头看,那段日子充满了粗糙的质感,但又饱含着一种野蛮生长的生命力。
我们真的以为,那就是奇迹本身了。
但谁都没想到,那仅仅是个开始。就好像有人按下了快进键,整个世界被一股无形的力量推着往前冲。
从 GPT-4 到 GPT-5,这短短的两年半。
我们告别了那个可以对 AI 的拙劣表现一笑置之的时代。
进入了一个必须需要,严肃对待它的伟大时代。
欢迎关注作者的微信公众号:数字生命卡兹克
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
LoRA模型训练
已累计诞生 747 位幸运星
发表评论 为下方 6 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓