昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这些模型在多个方面超越了GPT-4,包括推理、数学、编码、多语言理解和视觉处理等。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
GPT-4是否真的已经过时?Claude 3的横空出世是否意味着我们即将进入一个全新的AI时代?
Claude 3 体验地址:https://claude.ai/chats
4月25日晚,OpenAI联合创始人兼首席执行官Sam Altman,在斯坦福大学的英伟达(NVIDIA)礼堂进行了公开演讲,超过1000名学生排队参加此次活动。
Altman说:“GPT-5将会比GPT-4更强大,GPT-6将会比GPT-5更智能,OpenAI的终极目标始终都没有变就是实现——AGI(通用人工智能)。”
以下是本次演讲的一些关键信息总结: 1. Sam Altman的演讲:作为OpenAI的联合创始人兼首席执行官,Sam Altman在斯坦福大学的NVIDIA礼堂进行了演讲,吸引了超过1000名学生。 2. AI的未来发展:Altman认为,人类尚未达到AI的极限,并且OpenAI的目标是实现通用人工智能(AGI)。他提到GPT-5将比GPT-4更强大,而GPT-6将比GPT-5更智能。 3. 开源与闭源:Altman认为,为了实现AGI,需要大量的资金投入,因此开源可能不是最佳途径。OpenAI从最初的开源策略转变为闭源,以确保商业回报和持续创新。 4. 资金与投资:他提到,为了推动AGI的发展,无论每年需要多少资金,只要能为全人类和AI领域做出贡献,他都不在乎。 5. OpenAI的核心能力:OpenAI的核心能力在于技术变革,能够定义AI能力的下一个范式转变。 6. Sora模型:OpenAI发布了文生视频模型Sora,这可能会对影视、游戏开发、广告营销等行业产生重大影响。 7. 免费使用ChatGPT:OpenAI宣布无需注册就能免费使用ChatGPT,这有助于那些没有能力开发类似产品的国家或地区。 8. 英伟达与OpenAI的合作:英伟达创始人黄仁勋向OpenAI捐赠了先进的AI超级计算机,这表明了两家公司之间的紧密合作关系。
今天我要向大家介绍一个非常强大的工具——Perplexity Deep Research。在Humanity’s Last Exam这个测试中,我刷到了20.5%的成绩,这个成绩超过了目前发布的所有模型,仅次于OpenAI的Deep Research。最棒的是,这个工具是免费提供的!
让我来简单介绍一下它的工作原理: 1. 研究推理:Perplexity的深度研究模式配备了搜索和编码功能,能够迭代搜索、阅读文档,并推理下一步行动。我自己在使用时,发现它能够非常智能地找到相关材料并进行深入分析。 2. 报告撰写:一旦源材料被全面评估,它会将所有研究综合成一份清晰而全面的报告。我在使用过程中,发现生成的报告非常详细且易于理解。 3. 导出与分享:你可以将最终报告导出为PDF或文档,或者将其转换为Perplexity Page,与同事或朋友分享。我自己就经常把报告导出为PDF,方便与团队共享。
关于测试得分,Humanity’s Last Exam上达到了20.5%的准确率,这个成绩显著高于Gemini Thinking、o3-mini、o1、DeepSeek-R1等众多领先模型。在SimpleQA基准测试中,Perplexity Deep Research以93.9%的准确率远超其他领先模型的性能,这个测试包含数千个用于检验事实性的问题。而且,Perplexity Deep Research在完成大多数研究任务时仅需不到3分钟,效率非常高。