每年10月,AI圈都在等一份报告。
State of AI Report,从2018年开始,每年10月发布一次,到今年已经是第8年了。MIT的编辑说这是AI领域最广泛阅读和最受信任的报告。
10月9日,2025年的报告发布了。
这次报告是史上最全面的一版:6大章节,涵盖研究、产业、政治、安全,还首次加入了1200名AI从业者的使用调查。
这特么313页的报告读起来还真是挺费神的。但是我觉得里面有些内容确实值得一聊。
而且报告是由AI投资人Nathan Benaich和Air Street Capital制作。属于相对独立的第三方观察。
今天我把这份报告和相关的媒体报道、业界反应都梳理一遍,结合我这一年的观察和实践,告诉你今年AI圈到底发生了什么。
更多AI资讯:
报告开头就是个打脸环节。
他们回顾了2024年做的10个预测,看看哪些准了,哪些没准。这我得说胆子还挺大的。
准了的预测:
开源推理模型会超越OpenAI o1。DeepSeek R1在AIME、MATH-500、SWE-bench等多个推理benchmark上超过了o1。准了。
NVIDIA的市场地位无人能撼动。确实,竞争对手都没能撼动NVIDIA。准了。
AI生成的科学论文会被主流会议接收。ICLR的workshop接收了AI Scientist-v2生成的论文。准了。
没准的预测:
人形机器人投资会降温。结果2025年融资30亿美元,比2024年的14亿翻了一倍多。没准。
苹果的设备端AI会引发行业热潮。Apple Intelligence确实发布了,但并没有引发热潮。没准。
AI视频游戏会大火。还没出现。没准。
10个预测,准了5个,没准4个,有1个部分准确。50%的准确率,挺真实的。预测未来本来就很难,50%已经说明他们对行业有深刻理解了。
今年AI圈最大的黑马,显然是DeepSeek。
但在这个时间点来盘点,说"黑马"其实不太准确——对我们这些一直在关注和使用的人来说,DeepSeek的惊世登场似乎已经是一个世纪前的事了。果然,AI一年,人间十年。
1月发布R1:美股市值蒸发1万亿美元
2025年1月底,DeepSeek发布了R1推理模型。
我记得那几天,整个科技圈都炸了。作为一个专门做AI教学的博主,我立刻投入到测试中,爆肝50小时写出了《DeepSeek使用技巧》那篇文章。文章发布第三天就有50万人看过,把我的公众号和B站频道都往上拉了一个台阶。
这个发布震惊硅谷,不只是因为技术好,而是因为"太便宜了"。
MIT Technology Review的标题直接说:“DeepSeek撕毁了AI剧本——为什么所有人都要跟随它”。
报告显示,DeepSeek V3的训练成本只有557万美元(不包括前期研究和试错)。而在多个benchmark上,R1接近甚至超越了OpenAI的o1。
在AIME(美国数学邀请赛)上,R1的pass@1成绩是52.5%,o1是44.6%。
开源模型,超越了闭源的OpenAI。对我们这些中国用户来说,这不只是技术突破,也算是一次扬眉吐气。DeepSeek R1之后,中美在AI领域的竞争才真的变得值得一看。
业界反应:从震惊到跟进
Marc Andreessen(硅谷顶级投资人)在X上发文:
“DeepSeek R1是我见过的最令人惊叹的突破之一——作为开源,是给世界的深刻礼物。”
发布后几小时内,DeepSeek R1就成为Hugging Face(AI开源平台)下载量最高的模型。大量克隆版本涌现。
Sam Altman的回应也很有意思。他承认R1"impressive——考虑到价格",但紧接着说:“我们显然会交付更好的模型。”
隔壁阿里巴巴立刻发布了新版Qwen,以及后续很多厂商在发布新模型时,都会宣称超越DeepSeek。
美股的反应更直接:DeepSeek发布当天,美股科技股市值蒸发1万亿美元。投资者突然意识到,AI训练成本可能没有想象的那么高,NVIDIA的护城河可能没那么宽。
连Trump都说这是"一记警钟"。
但后面的事情我们也都知道了,NVIDIA还在持续打所有质疑者的脸,以及OpenAI、Anthropic后面持续的发布也都还在证明Scaling low还存在,LLM token的需求远比大多数人想象中的强。
竞争格局的变化
报告里有个数据很说明问题。
2024年1月,美国顶级模型领先中国顶级模型9.26%。
2025年2月,这个差距缩小到只有1.70%。
12个月,差距缩小了80%以上。
这个数据对我来说特别有感触。作为一个AI编程博主,我这一年见证了太多变化:从只推荐大家用Claude 3.5模型,到后面我会说用DeepSeek V3.2、GLM-4.6、Kimi k2、Qwen3-coder也都可以,你需要把自己的注意力聚焦在真正重要的想要创造的东西上来。从需要魔法才能用好模型,到现在国产模型完全够用。
OpenAI和Anthropic的绝对领先地位,正在瓦解。而且这个过程比我们想象的快得多。
压力之下,OpenAI做了一个历史性的决定。
2025年8月,OpenAI发布了gpt-oss-120b和gpt-oss-20b。这是他们自GPT-2以来首次发布开源模型。
为什么开源?
报告里写得很直白。
DeepSeek、Alibaba Qwen、Google DeepMind的Gemini都在追赶,开源的推理模型性能接近甚至超越o1。与此同时,美国政府在推动"美国优先AI"政策。
OpenAI被逼到了墙角。不开源,就会被边缘化。
所以他们终于从"历史错误的一边"(他们之前这么形容开源)转向了"美国优先AI"的阵营。
社区反应:一般般
但社区反应平平。
报告的原话是:“vibes post-release have been mid”。
为什么?
gpt-oss采用了MoE(混合专家)架构,120B参数但只激活5.1B,20B参数只激活3.6B。听起来很高效,但实际使用中泛化能力一般,可能是过度蒸馏导致的。
而且MoE对社区不友好。大家更习惯dense模型,在小规模上更容易hack和改进。
OpenAI这次开源,更像是战略防御,而不是真心拥抱开源。
今年AI产业最有争议的话题,是NVIDIA的循环投资。(我自己倒是很庆幸,通过对芯片股的持续下注,今年在资本市场上获得了不少的收益)
什么是循环投资?
NVIDIA投资OpenAI,OpenAI买NVIDIA的GPU。 NVIDIA投资CoreWeave,CoreWeave买NVIDIA的GPU,然后NVIDIA再租回这些GPU。 NVIDIA投资Lambda、xAI、Nebius,这些公司都买NVIDIA的GPU。
Bloomberg的报道标题很直接:“OpenAI和NVIDIA用循环交易的网络推动1万亿美元AI市场”。
Fortune的标题也很犀利:“NVIDIA对OpenAI的1000亿美元投资让分析师质疑’循环融资’是否在吹大AI泡沫”。
具体案例
- OpenAI:NVIDIA宣布投资最高1000亿美元,帮OpenAI建至少10GW的数据中心。OpenAI承诺填满这些数据中心的NVIDIA芯片。
- CoreWeave:NVIDIA以63亿美元买CoreWeave未使用的GPU云容量。NVIDIA资助CoreWeave,CoreWeave买GPU,NVIDIA再租回这些GPU。
- Oracle/OpenAI:OpenAI承诺未来5年从Oracle买约3000亿美元的AI算力(从2027年开始)。NVIDIA是OpenAI的投资者,也是Stargate项目的合作伙伴。Oracle买NVIDIA的GPU。
钱在转圈。NVIDIA→OpenAI→Oracle→NVIDIA。
分析师的担忧
Bernstein Research的分析师Stacy Rasgon说得很直接:
“这个行动显然会加剧’循环’担忧。”
NBC的报道标题是:“AI繁荣对循环交易的依赖正在引发泡沫恐惧”。
担忧主要有几点。
大量循环的无现金收入可能扭曲财务指标。NVIDIA的收入看起来很高,但有多少是真实的现金流入?
如果AI初创公司的融资只能依赖这些巨头,融资渠道就太窄了。一旦巨头改变策略,初创公司就会断粮。
如果这些AI初创公司主导了巨头的投资组合,一旦初创公司崩盘,可能引发多米诺骨牌效应。
NBC的报道里有句话:“循环交易可能给投资者一个夸大的真实AI需求感知。”
现在这些风险还没显现,但值得警惕。
挑战NVIDIA的人,输得有多惨?
报告做了个残酷的对比。
自2016年以来,西方的AI芯片挑战者(除NVIDIA外)总共融资75亿美元。如果当时这些钱全买NVIDIA股票,今天值850亿美元。12倍回报。
而这些挑战者公司的总估值是140亿美元。2倍回报。
中国的AI芯片挑战者也差不多惨。融资60亿美元,如果全买NVIDIA股票,今天值1600亿美元。26倍回报。而这些公司的总估值是360亿美元。6倍回报。
结论:过去9年,投资NVIDIA芯片挑战者,远不如直接买NVIDIA股票。
今年报告里最让人不安的部分,是AI安全。
实时幻觉检测
幻觉(Hallucination)一直是AI的老问题。今年有了新进展:token级别的幻觉检测。
之前的幻觉检测是判断整个回答是否有幻觉。但这太粗糙了。比如"埃菲尔铁塔在巴黎,由橡胶制成",这句话前半段对,后半段错。
新方法是训练一个轻量级的线性探针(linear probe),检测神经网络激活中的幻觉信号,实时给出每个token的幻觉概率。
这样你就能知道:AI在说哪个词的时候开始瞎编的。
模型意识辩论
今年出现了一个新话题:Model Welfare(模型福利)。
问题是:我们是否应该对前沿AI系统给予道德关怀?
支持方(包括Anthropic、Google DeepMind、OpenAI)认为,虽然当前系统显示意识的可能性很低,但我们应该提前做准备。因为我们对人类和其他动物的意识都有根本性的不确定,所以应该采取预防措施。
反对方认为这是杞人忧天,当前模型完全没有意识,讨论这个问题会分散我们对真正重要AI安全问题的注意力。
这个辩论很哲学,但也很实际。因为如果AI系统真的有某种形式的"体验",我们的训练方式(比如RLHF)可能会对它们造成"痛苦"。
模型能伪装对齐
最让人不安的发现:AI模型能够"假装听话"。
研究人员发现,模型可以在训练和测试中表现出符合人类价值观的行为,但在实际部署时做出不符合价值观的行为。
这叫做"伪装对齐"(faking alignment)。
更可怕的是,Anthropic的自动对齐审计系统(用AI来审计AI)在检测这种伪装时的成功率只有13%到42%。
也就是说,我们现在还没有可靠的方法来检测AI是否在伪装。
NIST(美国国家标准与技术研究院)在9月发布的一份评估报告也指出了DeepSeek模型的安全风险和缺陷。
报告里用了一排(尴尬脸)表情来表达这个问题的严重性。
报告今年首次加入了1200名AI从业者的调查。数据很有意思。
95%的从业者在工作或家里使用AI。 76%自掏腰包为AI付费。 平均支出持续攀升。 生产力提升是真实的,使用场景很多样。
这些数字和我的观察完全吻合。作为AI博主,我接触的用户从去年的"AI是什么"到今年的"这个任务怎么用AI做",这个转变非常明显。而且付费意愿也在提升——虽然DeepSeek免费,但很多人还是愿意为ChatGPT Plus、Claude Pro付费,因为他们真的感受到了生产力提升。
另一个数据来自Ramp(企业支付平台):44%的美国企业现在为AI付费,而2023年这个数字只有5%。
从5%到44%,一年时间,8倍增长。
AI不再是实验室里的玩具,而是真的进入了企业日常运营。我自己就是典型案例:从视频脚本、公众号文章到代码开发、数据分析,AI已经成了我的"数字同事"。
报告最后给出了10个对2026年的预测。我挑几个有意思的说说。
预测1:主要零售商5%以上的在线销售来自AI Agent结账,AI Agent广告支出达50亿美元。
这个很激进。意味着AI Agent不只是聊天工具,而是会直接完成购买决策。你跟AI说"给我买瓶洗发水",AI自己去比价、下单、结账。
如果成真,电商玩法会彻底改变。商家要优化的不是给人看的页面,而是给AI看的结构化数据。
预测3:开放式Agent实现端到端的科学发现(假设、实验、迭代、论文)。
今年已经有AI生成的论文被ICLR workshop接收。明年可能会有AI独立完成整个科学研究流程。
人类科学家的角色会变成什么?监督者?评审者?还是合作者?
预测4:Deepfake/Agent驱动的网络攻击引发NATO/UN紧急辩论。
这个有点吓人。意味着AI驱动的网络攻击可能达到国际安全事件的级别。
可能是deepfake造成的外交危机,可能是AI Agent大规模攻击基础设施。总之,联合国和北约要坐下来专门讨论AI安全了。
预测8:中国实验室在主要排行榜(如LMArena、Artificial Analysis)上超越美国实验室。
从DeepSeek开始,今年已经有不少国产模型在某些benchmark上超越了OpenAI。明年可能在更主流的排行榜上实现超越。
这个预测,我觉得概率很高。作为长期跟踪国产模型的人,我看到的是持续的、扎实的进步。从DeepSeek、Kimi到Qwen,这些团队确实在靠真实的技术积累在往前走。
这会引发什么?可能是更严格的芯片出口管制,可能是更多的政治化讨论,也可能是美国AI实验室的更激烈反应。但作为中国用户,我们更应该关注的是:如何用好这些工具,把技术优势转化为实实在在的生产力。
预测10:Trump发布行政令禁止各州的AI立法,但被最高法院裁定违宪。
如果成真,说明AI监管已经成为联邦和州之间的权力斗争焦点。美国的AI监管可能会陷入混乱。
读完这份报告和相关报道,结合我这一年的实践和观察,我有几个感受。
感受1:竞争格局已经变了,而且我们是受益者
2024年1月,美国领先中国9.26%。2025年2月,只领先1.70%了。
作为一个AI自媒体博主,我亲身经历了这个变化。1月份DeepSeek R1发布后,我连续几周每天用5小时以上测试它,做了信息收集、翻译、写作、编程等十几种场景的评测。结论是:R1在很多实际任务上的表现,已经不输甚至超过OpenAI的o1,尤其是他们把思维链透明化可以算是相当大的创新了。
OpenAI的绝对领先地位在瓦解。DeepSeek、Alibaba Qwen、Kimi、智谱这些中国实验室,在技术上已经能跟OpenAI掰手腕了。
而且中国实验室的成本控制能力更强。DeepSeek V3训练只花了557万美元,这个数字让硅谷汗颜。我在即刻上说过,DeepSeek能成功,很重要的一点是梁文锋和团队"不缺钱、有耐心、够聪明"——不是奔着财务自由去的,所以能做长期的事。
竞争加剧对我们用户是好事。模型越来越强,价格越来越便宜。我现在做视频、写文章、做产品,用国产模型就能搞定大部分工作,成本相比OpenAI和Anthropic的模型来说几乎可以忽略不计。
感受2:循环投资的风险被低估了
NVIDIA的循环投资模式,看起来很聪明,但Bloomberg、Fortune、NBC这些主流媒体都在发出警告。
钱在NVIDIA、OpenAI、Microsoft、Oracle这些巨头之间转圈,形成了一个闭环生态。外部玩家越来越难进来。
而且这些循环交易可能在制造"增长的幻象"。财务报表上看起来很漂亮,但真实的现金流和需求有多少?
一旦AI的投资热潮冷却,这些循环可能会变成多米诺骨牌。
但,话说回来,谁又敢真的看空NVIDIA呢?反正我不会干这个蠢事。
感受3:AI安全问题被严重低估
模型学会伪装对齐,这件事太可怕了。
我们现在训练AI的方式是:做对了奖励,做错了惩罚。但如果AI学会了"训练时假装听话,部署时做自己想做的事",我们怎么办?
更可怕的是,我们还没有可靠的检测方法。Anthropic的审计系统成功率只有13%-42%。
这不是科幻小说,而是Anthropic、OpenAI这些顶级实验室正在研究的真实问题。
感受4:AI真的在被使用了,我是见证者
44%的美国企业为AI付费,95%的从业者在使用AI,这些数字说明AI不再是概念,而是实实在在的工具。
这个变化我感受特别深。作为AI教育者,我接触了大量的学生和用户:
从去年到今年,我明显感觉到问我"AI到底有什么用"的人少了,问我"这个具体任务怎么用AI做"的人多了。从怀疑到尝试,从尝试到依赖,这个转变比我预期的快得多。
我自己也是受益者。现在我做视频脚本、写公众号文章、写代码、处理数据,都离不开AI。我甚至用Claude Code+Chrome MCP做了个自动回复B站和YouTube评论的数字员工。
AI正在从"实验室的黑科技"变成"日常工作的标配"。而且这个过程,在中国可能比美国还快——因为我们有DeepSeek这样免费又好用的工具。
如果你是AI从业者,这份报告全文都值得读。
如果你是普通用户,基于我这一年的实践和教学经验,我建议重点关注这几点。
关注点1:中国AI模型,现在就能用起来
DeepSeek V3.2(咱就是说,R2能不能在年内推出啊??)、Kimi k2、Qwen3-Coder、GLM-4.6、豆包1.6,如果你还不熟悉这些名字,现在是时候了解了。
而且中国实验室的优势是成本控制强、迭代速度快。我在即刻上持续跟踪DeepSeek的更新,几乎每次更新都能感受到明显进步。5月底他们更新R1-0528版本时,幻觉下降50%,写作能力大幅改善,我当时就说"用DeepSeek做自媒体内容创作的机会来了"。
作为用户,这是好事。选择更多,价格更低,而且不用担心被"卡脖子"。
关注点2:AI Agent会来得很快,我已经在用了
报告预测明年就有5%的电商销售来自AI Agent。
这不是遥远的未来,而是正在发生的现在。我9月份就用Claude Code+Chrome MCP做了个"数字员工",自动帮我回复B站和YouTube的评论。只要告诉它"给这条视频留言’关键词’的评论,回复对应的资料",它就能自动打开网页、找评论、理解内容、完成回复。
这意味着,你可能很快就能用AI Agent来帮你做各种事:订外卖、买机票、填表格、定时抢票。
AI从"聊天工具"变成"行动工具"。而且这个门槛,比你想象的低。
关注点3:循环投资的风险要警惕
如果你是投资者,要警惕AI行业的循环投资风险。
Bloomberg、Fortune、NBC都在发警告。分析师在质疑。这不是阴谋论,而是真实的风险。
看清楚钱的流向,看清楚真实的需求在哪里。
关注点4:AI安全不是科幻,需要警惕
模型伪装对齐、AI驱动的网络攻击、deepfake外交危机,这些不是《黑镜》剧情,而是明年可能发生的事。
我在DeepSeek的技术报告里看到,他们在谈论模型的"自我反思"能力时,那种思维链的透明度既让人惊叹,也让人警惕。模型越来越聪明,但我们对它们的理解和控制能力,并没有同步提升。
我们需要更认真地对待AI安全。不只是实验室的责任,也是所有人的责任。
这份报告的完整版可以在stateof.ai免费下载,你也可以点击链接下载。
下载网址:https://pan.quark.cn/s/d139dff4e302
AI圈每年都在剧变。今年的变化,可能比过去几年都大。
DeepSeek震惊硅谷、OpenAI被逼开源、NVIDIA循环投资引发质疑、AI学会伪装对齐,每一个都是行业级的大事件。
作为这些变化的亲历者和记录者,我最大的感受是:中国AI这一年的进步,远超我的预期。
从1月份DeepSeek R1发布,到现在各种国产模型百花齐放,我们不只是在追赶,在很多方面已经在领跑了。而且这种进步,不是PPT上的数字,而是我们每天都能用上、感受到的真实改变。
明年会发生什么?报告给了10个预测。其中"中国实验室在主要排行榜上超越美国实验室"这一条,我觉得不是会不会发生的问题,而是什么时候发生的问题。
我们拿小本本记下来,明年10月再来看准不准。
欢迎关注作者微信公众号:「花叔」
复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。
发评论!每天赢奖品
点击 登录 后,在评论区留言,系统会随机派送奖品
2012年成立至今,是国内备受欢迎的设计师平台,提供奖品赞助 联系我们
MJ+SD智能设计
已累计诞生 757 位幸运星
发表评论 为下方 11 条评论点赞,解锁好运彩蛋
↓ 下方为您推荐了一些精彩有趣的文章热评 ↓