4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
以下是一些重点信息的摘要: 1. 开源OpenELM: 苹果公司开源了一个名为OpenELM的大语言模型,这与微软开源的Phi-3 Mini类似,是专为移动设备设计的模型。 2. 模型参数: OpenELM提供了四种不同参数规模的模型,分别是2.7亿、4.5亿、11亿和30亿参数。 3. 功能: 该模型能够执行生成文本、代码、翻译、总结摘要等功能。 4. 预训练数据: 尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。 5. 深度神经网络库CoreNet: 苹果同时开源了用于训练OpenELM的深度神经网络库CoreNet,该库在开源后不久就在GitHub上获得了超过1100个星标。 6. 苹果的开源策略: 苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。 7. 技术贡献: 苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。 8. OpenELM架构: OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。 9. 训练流程与数据集: 苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。
开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com CoreNet地址:https://github.com/apple/corenet?ref=maginative.com 论文地址:https://arxiv.org/abs/2404.14619
4月25日晚,OpenAI联合创始人兼首席执行官Sam Altman,在斯坦福大学的英伟达(NVIDIA)礼堂进行了公开演讲,超过1000名学生排队参加此次活动。
Altman说:“GPT-5将会比GPT-4更强大,GPT-6将会比GPT-5更智能,OpenAI的终极目标始终都没有变就是实现——AGI(通用人工智能)。”
以下是本次演讲的一些关键信息总结: 1. Sam Altman的演讲:作为OpenAI的联合创始人兼首席执行官,Sam Altman在斯坦福大学的NVIDIA礼堂进行了演讲,吸引了超过1000名学生。 2. AI的未来发展:Altman认为,人类尚未达到AI的极限,并且OpenAI的目标是实现通用人工智能(AGI)。他提到GPT-5将比GPT-4更强大,而GPT-6将比GPT-5更智能。 3. 开源与闭源:Altman认为,为了实现AGI,需要大量的资金投入,因此开源可能不是最佳途径。OpenAI从最初的开源策略转变为闭源,以确保商业回报和持续创新。 4. 资金与投资:他提到,为了推动AGI的发展,无论每年需要多少资金,只要能为全人类和AI领域做出贡献,他都不在乎。 5. OpenAI的核心能力:OpenAI的核心能力在于技术变革,能够定义AI能力的下一个范式转变。 6. Sora模型:OpenAI发布了文生视频模型Sora,这可能会对影视、游戏开发、广告营销等行业产生重大影响。 7. 免费使用ChatGPT:OpenAI宣布无需注册就能免费使用ChatGPT,这有助于那些没有能力开发类似产品的国家或地区。 8. 英伟达与OpenAI的合作:英伟达创始人黄仁勋向OpenAI捐赠了先进的AI超级计算机,这表明了两家公司之间的紧密合作关系。
今天我要向大家介绍一个非常强大的工具——Perplexity Deep Research。在Humanity’s Last Exam这个测试中,我刷到了20.5%的成绩,这个成绩超过了目前发布的所有模型,仅次于OpenAI的Deep Research。最棒的是,这个工具是免费提供的!
让我来简单介绍一下它的工作原理: 1. 研究推理:Perplexity的深度研究模式配备了搜索和编码功能,能够迭代搜索、阅读文档,并推理下一步行动。我自己在使用时,发现它能够非常智能地找到相关材料并进行深入分析。 2. 报告撰写:一旦源材料被全面评估,它会将所有研究综合成一份清晰而全面的报告。我在使用过程中,发现生成的报告非常详细且易于理解。 3. 导出与分享:你可以将最终报告导出为PDF或文档,或者将其转换为Perplexity Page,与同事或朋友分享。我自己就经常把报告导出为PDF,方便与团队共享。
关于测试得分,Humanity’s Last Exam上达到了20.5%的准确率,这个成绩显著高于Gemini Thinking、o3-mini、o1、DeepSeek-R1等众多领先模型。在SimpleQA基准测试中,Perplexity Deep Research以93.9%的准确率远超其他领先模型的性能,这个测试包含数千个用于检验事实性的问题。而且,Perplexity Deep Research在完成大多数研究任务时仅需不到3分钟,效率非常高。
首先有一个误区,很多人觉得开源就是免费,开源就是没有版权。其实这是完全错误的理解! 开源≠免费。开源≠没有版权。开源≠随意商用。开源≠完全透明。
对开源模型的理解,目前大致有四个 Level,开放程度依次增加: 1. 封闭式“开源”(以 OpenAI 为代表) - 核心理念:早期以开源和非营利为目标,逐渐转向封闭模式,通过 API 提供服务,不公开模型权重和训练细节。 - 特点:模型权重和训练数据不公开,仅提供黑箱化的 API,通过订阅服务和 API 收费实现盈利,有助于控制模型滥用风险。 - 争议:违背了开源的核心精神,被批评为技术垄断。
2. 自定义开源(以 Meta 为代表) - 核心理念:开源模型(如 LLaMA),但采用自定义许可证(如 LLaMA 社区许可协议),强调研究和非商业用途,限制商业使用。 - 特点:公开模型权重,但限制商业使用和分发,主要面向学术机构和非营利组织,用户需申请访问权限。 - 争议:自定义许可证限制了模型的广泛使用,不符合完全开源的定义。
3. 传统开源(以 DeepSeek 为代表) - 核心理念:采用传统开源许可证(如 Apache 2.0),完全开放模型权重和代码,强调自由使用、修改和分发,包括商业用途。 - 特点:模型权重、代码和部分训练数据公开,允许商业使用,无歧视性限制,鼓励社区协作和创新。 - 优势:符合传统开源定义,推动技术普及和创新。
4. 理想开源(以 OSI 为代表) - 核心理念:OSI 正在制定 OSAID 1.0(Open Source AI Definition),旨在为开源 AI 系统提供明确标准,强调透明度、可访问性和可修改性。 - 特点:要求公开模型权重,允许用户自由使用,尽可能公开训练数据的来源和组成,训练和推理代码必须开源,不得限制特定用户群体或用途。 - 目标:确保开源 AI 系统符合开源精神,推动技术民主化。
谷歌在近期的 I/O 大会上全面展示了其在 “通用 AI” 领域的深度布局,凭借强大的 Gemini 大模型,正将普通用户转化为 AI 产品用户。
- AI 搜索、多模态能力提升 :谷歌搜索引擎 AI Mode 深入,基于 Gemini 的 AI 总结功能覆盖超 15 亿用户,调用增长超 10%;谷歌 Lens 月活用户超 15 亿。此外,“虚拟试穿” 功能利用大模型理解人体与服装,Chrome 浏览器深度整合 Gemini 接口,新增 “AI 模式”,支持深度研究,甚至能访问用户搜索记录和邮件,Gemini 2.5 Pro Deep Think 在多项竞赛中成绩优异。
- 硬件生态拓展 :谷歌宣布 Android XR 新进展,展示 XR 眼镜原型机,与三星、XREAL、Gentle Monster 等合作研发硬件设备,推动 AI 眼镜发展。
- AI 创作工具升级及订阅服务 :推出 Veo3、image4、Lyria2、FLOW 等 AI 创作工具,同时发布 AI Pro 与 AI Ultra 订阅服务,顶配 AI Ultra 月费 1800 元,提供多种增值服务。
谷歌正通过软件硬件双管齐下,将 AI 深度融入其生态各个角落,在端侧 AI 时代积极进击,有望重新定义下一代 AI 产品标准。
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这些模型在多个方面超越了GPT-4,包括推理、数学、编码、多语言理解和视觉处理等。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
GPT-4是否真的已经过时?Claude 3的横空出世是否意味着我们即将进入一个全新的AI时代?
Claude 3 体验地址:https://claude.ai/chats