实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

一、全文速览图

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

大半夜的,刚准备早睡一下。

然后,我的AIHOT就突然弹了个消息,Claude Opus 4.8上线了。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

除此之外,又发了另一个消息。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

完成了新一轮650亿美元的融资,估值逼近一万亿美元。。。

前有港股智谱7000亿市值,后有Anthropic估值7万亿人民币。

果然AI行业的造富神话,比鬼故事还要鬼故事。

但是说实话,距离4月17号Opus 4.7上线,仅仅才过去42天,一个半月,又一个新模型扔出来,在Claude的发布历史上,从来没有过。

看来确实GPT-5.5和Codex给的压力太大了,Opus 4.7的口碑确实把自己也给拉完了,所以没办法,要最快速度把Opus 4.8拉出来救火,要不然真的可能被Codex偷家偷疯了。

在模型的本身参数上,比如最大上下文、输出长度、知识库时间啥的,跟Opus 4.7几乎是一样。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

价格也没变,$5/M输入、$25/M输出。

所以基本上也是在Opus 4.7的基模上直接又调了一下。

然后,我就反应过来了一件事,我靠,你Opus 4.8上了,你不会要把我的Opus 4.6给顶掉了吧。

因为我觉得 Opus 4.5 在内容创作上是巅峰,Opus 4.6比Opus 4.5差了一点,但是我觉得还能用,而 Opus 4.7 是我觉得完全不可用的状态。

按照claude在过去网页端只保留两代模型的优良传统,Opus 4.6可能会被顶掉。

我抱着忐忑的心情一看。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

Claude我干你大爷。

行吧,只能接受,说不定Opus 4.8,在内容创作上更好呢?(虽然我几乎不对这个事情抱有期待了。)

说回Claude Opus 4.8

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

不废话,先看跑分截图吧。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

跑分我真的不想多聊了,很没劲,反正就是赢学。

数字又高了一点,大概就是这样。

唯一一个在上面穷尽洪荒之力还是没跑过GPT-5.5的类别,是Terminal-Bench 2.1。

这玩意是一个Agentic基准,大概就是用来评估Agent在真实命令行环境里干活的能力,考的就是把模型直接扔进一个沙盒终端里,让它自己去查文件、敲命令、看报错、调试等等,看看能不能跨多个步骤把一个任务做完。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

这个是在Claude口径里,唯一一个跑不过GPT-5.5的,而且这个还挺要命的。

因为Terminal-Bench基本代表着Agent开发能力的最高峰,穷尽了洪荒之力也没干过GPT-5.5,那这过两天GPT-5.6出来,那还玩个屁啊。

这也从侧面说明了,GPT-5.5的开发能力,是真的强。。。

然后再说一说这次更新的一些特性。

二、思考强度给所有人开放

这次 4.8 上线,同时把一个叫 effort(努力程度)的控制项开放给所有人了,也就是你在Chat模式下,也可以调整模型的努力程度了,所有套餐都有,免费用户也有。

Claude Code和Cowork用户对这个东西肯定很熟悉。

位置就在模型选择那个地方旁边。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

上面那个从Low到Max,就是努力等级。

下面那个自适应思考记得别关,还是开着,组合起来用就行。

我自己其实常年喜欢默认开着Extra,然后开大活就上Max的,因为Opus 4.7只有自适应思考,不是很好用,Opus 4.8终于给弄回来了。

三、变得更精确但也更不主动了

Opus 4.8更新以后,有一个明显的感觉,就是它更加的精确了,有一点GPT-5.5的感觉,指哪打哪。

更加的遵循你的指令,这确实对于专业的开发者来说,是件好事。

但是同时也带来一个弊端,就是它的主动性,会变弱。

就是你让它干A,它现在就只干A,绝不会自作主张觉得诶你这意思是不是顺便也想要B然后把B也顺带手给你办了。

我自己现在就遇到了,晚上测试的时候,习惯性地没跟它说一定要去看线上数据不要只看本地代码,但是在Opus 4.6和4.7的时候,他们都还是会主动地去用我的skill连接线上服务器,看生产环境的数据的,但是Opus 4.8却两次都没主动去看,给我的方案,都是基于本地的,这反而给我带来了一些麻烦,重新调整了一下文档和记忆,才好一点。

对于一个已经设计好自己 Harness 环境的专业开发者,我觉得会感觉到非常得劲,那其实能感觉到,它的错误率和幻觉率,都在降低,很精准。

但是如果把这个群体,推衍到整个Vibe Coding群体,我其实觉得,不一定是个好事。

我们视频组同事今晚在用 Opus 4.8 测他们用 Skill 做视频动效的工作流,发现效果反而变差了,有一个很形象的描述就是。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

而且你能明显的感觉到,更加自信,在过程中跟你确认的时刻变少了。

比如这个,优化方案出来,直接不确认,直接就自己干了。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

因为我们其实很多非专业者,在用AI的时候,是靠着AI的主动性去往前走的,就是真的有的时候会用习惯了那种你懂我意思的爽感。

你含含糊糊扔一句话过去,它就能猜到你心里那个完整的需求,然后问你是不是,再帮你直接搞出来,这种被理解的感觉,其实还挺上头的。

当然这个爽感,是有代价的,就是模型的主观性太强,代价就是不可控。

它猜对了你舒服,它猜错了呢,它就拿着一个你压根没提的需求,吭哧吭哧给你干一堆活,最后还得你来擦屁股,这种出发点是好的但是结果是拉的,在长时Agent任务中,尤其要命。

所以,未来再跟Opus 4.8协同的时候,可能会对大家的需求表达能力提出更高要求。

四、变得更加诚实了

这个点跟上面有点像,也是Anthropic自己拎出来放在博客核心位置的点。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

过去大家一定遇到过,就比如说Claude帮你写个功能,它噼里啪啦给你写了一大段,然后特别自信地跟你说,搞定了,没问题,可以跑了。

你信了,你一跑,你才发现,另一个地方崩了。

你回去问它,它又特别自信地说,哦抱歉,问题找到了,对不起我没有发现,我再改一下,这下绝对没问题了。

你又信了,你又跑,然后你又报错了。

很多时候经常会出现。你要知道,它每一次都那么斩钉截铁,每一次都那么言之凿凿,但每一次,它其实自己心里也没底,AI,很多时候,只是被训练得看起来很有把握而已,这个毛病,几乎是所有大模型的通病。

这次Opus 4.8,就在这个问题上做了重点的优化。

官方公告对外说的数字是,4.8让自己写的代码里的瑕疵蒙混过关的概率,比上一代低了大概4倍。

我又去翻了下这次Opus 4.8的系统卡。

然后发现了更牛逼的东西。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

在偷懒这个问题上,Opus 4.8,好像是唯一一个,能做到0%不良率的模型。

在我夜里几个小时的测试与开发中,我也能感觉到,这是真的不偷懒啊,思考的是真细啊。。。

比如我有一个AIHOT的数据分析页面,之前Opus 4.7实现的比较粗糙,最大的问题就卡,点一下反应个十几秒才动弹,问原因就说是这样的啦,改不了啦,你实时查询就是这个速度啦。

之前有次都给我干生气了。

Opus 4.8明显靠谱很多,非常详细地在全面审查我的代码,尽可能找出需要优化的地方。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

我同事的反馈也是这样。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

基本上大家的感觉都差不多。

Opus 4.8在开发上总体的感觉,是有大进步的。

五、创作能力

同样的Skill,同样的创作,比Opus 4.7是有进步的,但是依然比不上Opus 4.6。

比如我把我之前写的AI时代的6个人才特质给抽离出来了,让Opus 4.8用我的写作Skill去写,写出来的一些句子,是这样的。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

Opus 4.6+我的Skill是绝对不会写出这种话的,不是XX、而是XX,这是明确的禁用词,直接给我改成“不再是……”来规避,真的是耍小聪明。

还有那个奇怪的比喻,为什么要把靠谱特质的人,比喻成“高速运转的机器里那点润滑油”,我是真的有点不理解,这是有什么奇怪的癖好吗。

还有这段,非要把一个人,给比喻成一个物化的锚???

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

还有模型奇妙的大段的无意义的排比,把所谓的AI味的禁忌都犯了个遍。

让它根据《流浪地球2》的故事,续写一个新的地下城的1000字的小故事。

写得也挺刻板印象的。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

比4.7好,但是确实没好多少。

整体的人机味还都挺重的。

六、其他更新

这次Opus 4.8还迭代了下快速模型,官方叫fast mode。

之前其实就有,你在Claude Code里输入/fast就有。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

只是之前 Opus 4.7 的 fast 模式比较贵,2.5倍的速度,但是是6倍的价格。

普通版本价格一直是百万输入5美元、百万输出25美元,然后Opus 4.7 fast模式的价格是输入30美元、输出150美元。

但是这次做了一个还不错的升级,速度直接达到了标准版的2.5倍,价格却只有之前版本fast的三分之一,降到了输入10美元,输出50美元。

从标准版的6倍价格,变成了标准版的2倍价格,但是速度没变。

也能侧面看出来马斯克的算力确实是给到位了,Claude一下子就财大气粗了。

然后还有一个东西,也挺有意思的,是Claude Code的dynamic workflows功能。

翻译过来叫动态工作流。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

大概作用就是,让Claude自己写一套编排脚本,在一次任务里,一口气拉起几十个、甚至上百个子agent并行开干,干完它还会先自己验一遍,确认没问题了,然后把结果交给你。

原话是:“有些问题过于庞大,单次单代理处理难以胜任,尤其是在复杂、遗留的代码库中:跨整个服务的缺陷排查、涉及数百个文件的迁移、或是在最终决策前需要从多角度进行压力测试的方案。动态工作流能够端到端地处理所有这些任务。”

触发方式有两种。

第一种是直接跟Claude Code说,创建一个动态工作流balabala。

第二种是,把努力级别调整成一个特殊的选项Ultracode,这个设置会自动将努力级别调至xhigh,同时让Claude自动判断何时使用工作流来处理你的任务。

实测Claude Opus 4.8,这可能是第一个不会偷懒的模型!

这次Opus 4.8的更新总结,大概就是这样。

我自己还是比较喜欢的,因为在开发上确实有不错的加成,整体确实变好用了。

但是在创作上,我还是有点失落的,因为把我的Opus 4.6给顶掉了。。。

未来为了适配Opus 4.8,可能我们的很多跟内容相关的Prompt和Skill全都得重写了,因为这玩意牵扯的东西太多了,调研、历史文献撰写、分镜撰写、特效生成啥的,全都是内容。。。

就很烦,好不容易都在Opus 4.6上跑通了,又得全部重新来。

哎。

哦对了,Anthropic 这次还留了个更大的钩子。

除了Opus这条线,它们手里还攥着那个很久的、比 Opus 智能还要更高一档的新模型,代号Mythos,说是过几周,就能给所有客户用上了。

到时候,我想看看这个号称最牛逼的模型。

到底是个什么光景。

AI啊,真好玩。

收藏
点赞 30

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。