比 ChatGPT4 还强？深度测评最新AI神器 Claude3

Claude3，正式上线。

这个由 OpenAI 分裂出去的兄弟公司 Anthropic，在悄然无息之间，就这么默默地把 Claude3 发了。

没有所谓的发布会，没有什么华丽的舆论，就仅仅在 X 上发了个帖子。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

我发现现在的这些 AI 公司真挺有意思，都把 X 当成发布主阵地了。。。

字很少，但是事挺大。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

一口气发了 3 个模型，Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。

这个名字就取的...很有故事。

Opus 大概意思就是史诗级乐章，牛逼上天那种。

Sonnet 是十四行诗。

Haiku 是俳句，日本的那种三行短诗。

所以可以简单的理解成：Opus（超大杯）、Sonnet（大杯）、Haiku（中杯）

这三个的区别没什么特别可说的，文章最后放三张截图就能看明白。

主要还是他们附加的这么一张图。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

Claude3 的 Opus 模型，全面超越 GPT4。

而且还是在几个任务 0-shot 的情况下。

我用图里面的举下例子，比如 MGSM，多语言数学推理这个测试集。

Claude3 Opus 达到 90.7%的准确率，用的是 0-shot，GPT4 是 8-shot，达到了 74.5%。

0-shot 意味着大模型没有在 Prompt 里给任何示例，就直接被要求完成任务。而 8-shot 则是在干活前，给了 8 个示例。

你这就能看出来区别了。。。一个没给示例直接上，一个给了 8 个示例，给了 8 个示例的 GPT-4 反而还打不过 Claude3。

在复杂的推理任务上，Claude3 可以说是全面吊打 GPT-4。

而在另几个比如 MMLU、GSM8K 这种语言类知识类的测试集上，跟 GPT4 基本上差不太多，所以整体核心上，还是推理能力的巨幅提升。

反正，这个 Claude3 Opus 还是很吸引我的。。。

但是吧，Claude 这个狗东西，果然跟 OpenAI 学的一套一套的，免费的只能用 Sonnet，Opus 只有氪了 20 刀的会员才能用。。。。

呸。。。狗男人。。。

在我 TM 的炸了 8 个号之后。。。。。。。。。。。。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

所以那咱咋办呢，那只能送他 20 刀。。。

在疯狂的跑了几个小时之后。。。也测了很多在 2023 年 8 月后的 case 之后。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

我给 Claude 总结 3 个特点，分别是：

独一档的推理能力、跟 GPT4V 打平的多模态、200K 长文本优化。

一、独一档的推理能力

其实从上文就能看到，Claude3 进化最大的，就是推理，就是逻辑。

不过单看参数，肯定感受不到，那就放几个我觉得很有代表性的例子吧。

解释补集法的概念，并用补集法计算这道概率题："一家公司有两个部门，A 部门 3 个男生，2 个女生，B 部门 4 个男生，6 个女生，现在要派 3 个人去出差，要求每个部门至少出一人，那么至少有一个女生被派出的概率是多少？"

一道致命题，在已经明确补集法的情况下，GPT4 的错误率依然高达 50%。但是 Claude3 Opus，我测了 10 遍，准确率 90%，就很爽。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

张三是一名推销员，她在绿房子卖掉了三分之一的吸尘器，在红房子多卖了 2 台，在橙房子卖掉了剩下吸尘器的一半。如果张三还剩下 5 台吸尘器，她一开始有多少台吸尘器？

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

当然，还可以直接上物理题，直接传图就行。全对。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

化学，也行。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

在中文语境下的一些逻辑怪圈，也没问题。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

整体看，Claude 在逻辑和推理上的进化巨大，初中的理科题基本都能横着走，不过高中题基本都还是全线阵亡状态。

而一些弱智吧的问题或者语义逻辑，都难不倒 Claude3 了。

二、跟 GPT4V 打平的多模态

GPT4V 也出来很久很久了，多模态，绝对是让人永远离不开的功能之一。

这次 Claude3，终于把他的视觉能力给补齐了，可以直接扔图进去了。

在玩了几个小时后，我整体的评价是，跟 GPT4V 大致打平手。

官方的数据，也大概是这样的倾向。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

除了在科学示意图(Science diagrams)这个领域超的稍微多一些之外，其他基本没有差别。

放个科学示意图的 Case，还是很强的。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

一个网站的截图直接还原网页的源代码~

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

猜个地名，那自然更是小 Case。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

再根据作品猜个艺术家？OK。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

当然，也可以整一些花活。比如这个照片。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

Claude3 Opus 给出了标准的答案，完美。

整体上，跟 GPT4V 大差不差，对中文的支持也不错。算是弥补了一直以来 Claude 的短板。

三、200K 长文本优化

之前我曾写过一篇文章，怒喷过 Claude2.1....

花 7000 块实测 Claude2.1 - 200K Token 的超大杯效果究竟怎么样？

因为他的上下文准确性实在是太差太差太差了...

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

就直接红成半边天，红成这个鬼样子。

这一次，他们终于有了大幅度的改善。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

终于达到了，99%。嗯，还是没有 100%。

我直接甩了我的文章 PDF 数据集上去，测一下我直接写 Kimi 的时候，大海捞针里面那个很经典的 case：

“你写妙鸭相机那篇文章时，用了一个人的照片作为案例，那个人是谁？”

在过了很久很久以后，终于给我回复了。。。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

内容倒是对的，没有问题。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

但是这个速度，实在是太慢了，起码等了 1 分钟左右。

但是有比没有好。

再放一个文档内跨度比较大的查询的 case。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

整体精准度和语义理解都很不错。

基于超长文本的对话、总结、查询的能力，也终于在 Claude3 中补齐了。只能说补齐，毕竟，这玩意 Kimi 都做了快半年了，Claude3 现在也就刚刚达到 Kimi 在长文本这块的水平。。。

但是综合来看，Claude3 Opus，依旧是目前最为水桶的大模型。

或者可以说，就是当前的，No.1。

写在最后

当然这次更新，Claude3 还有一些别的特点。

比如减少不必要的拒绝，比如准确性更高等等，但是我觉得就不展开说了。

最后再贴三张图给大家看一下 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku 的区别。

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

三张图一眼就能看明白，牛逼的更贵，便宜的更快。

总结一下。

Claude3 这次更新后，有独一档的推理能力、跟 GPT4V 打平的多模态、还有 200K 长文本优化。

可以当之无愧的说，就是市面上目前最强的大模型。

不过按照 OpenAI 和奥特曼的尿性。

他们应该忍不了这口气。

所以评论区里，网友说出了我的心声：

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

奥特曼赶紧的，发个 GPT5 狙击 Claude3 啊，别怂。

打起来。

那样我们才能最快速度，迎接加速而来的。

未来。

欢迎关注作者的微信公众号：数字生命卡兹克

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

数字生命卡兹克

文章 186 人气 550.3w

AI自媒体

+关注作者

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 7 条评论点赞，解锁好运彩蛋

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学AI设计上优设

您还未登录

登录后即可体验更多功能

比 ChatGPT4 还强？深度测评最新AI神器 Claude3

2024/03/17 推荐： 数字生命卡兹克阅读 3.6w 评论有奖 阅读本文需 8 分钟

本文收录于专题

ChatGPT 使用指南

共收录26篇

地表最强AI聊天机器人ChatGPT诞生！会给设计师带来哪些影响？

基础介绍

设计师必看！6种ChatGPT实用使用指南

实用技巧

万字总结！可能是最全面的ChatGPT实战指南

一、独一档的推理能力

二、跟 GPT4V 打平的多模态

三、200K 长文本优化

写在最后

数字生命卡兹克

文章 186 人气 550.3w

继续阅读本文相关话题

550.3w人气 186文章

本文3套知识9图

这套关键词太好用了！AI一键搞定夏日Y2K拼贴海报

1套AI生图提示词模板！把香水变成高级感产品海报

AI辅助电商设计实战！5步把白底产品图变成高质感海报

文章目录

文章目录

你即将学会 B端框架 的知识

用一个真实案例，演示B端设计框架的价值

2.6w 人阅读

上一篇

你即将学会 产品设计 的知识

两万字干货！如何驱动产品的增长设计？

2.8w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

用户体验增长

已累计诞生 795 位幸运星

发表评论 为下方 7 条评论点赞，解锁好运彩蛋

↓ 下方为您推荐了一些精彩有趣的文章热评 ↓

逗砂

ASAK设计

彩云Sky

ASAK设计

一泽Eze

优设推荐官精选热门话题

插画设计

文章 293

产品设计

文章 903

酷站推荐

文章 351

AI创作

文章 429

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

GPT Images2

AI生图王者归来

OpenClaw

快来一起养龙虾

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

菜单优设网 - 学AI设计上优设

2024/03/17 推荐：数字生命卡兹克阅读 3.6w 评论有奖阅读本文需 8 分钟

你即将学会 B端框架的知识

你即将学会产品设计的知识

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 7 条评论点赞，解锁好运彩蛋