优设问答你的职场经验书

大白(●—●) 邀你回答

2024/04/25

苹果也加入AI革新浪潮了,OpenELM 大模型开源,大模型领域会迎来新风向吗?

4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。

以下是一些重点信息的摘要: 1. 开源OpenELM: 苹果公司开源了一个名为OpenELM的大语言模型,这与微软开源的Phi-3 Mini类似,是专为移动设备设计的模型。 2. 模型参数: OpenELM提供了四种不同参数规模的模型,分别是2.7亿、4.5亿、11亿和30亿参数。 3. 功能: 该模型能够执行生成文本、代码、翻译、总结摘要等功能。 4. 预训练数据: 尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。 5. 深度神经网络库CoreNet: 苹果同时开源了用于训练OpenELM的深度神经网络库CoreNet,该库在开源后不久就在GitHub上获得了超过1100个星标。 6. 苹果的开源策略: 苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。 7. 技术贡献: 苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。 8. OpenELM架构: OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。 9. 训练流程与数据集: 苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。

开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com CoreNet地址:https://github.com/apple/corenet?ref=maginative.com 论文地址:https://arxiv.org/abs/2404.14619

点赞 9 回答 2

大白(●—●) 邀你回答

2024/04/19

开源大模型 Llama 3 发布,又一 GPT-4 级模型来了,它能干得过 GPT-4 么?

哎呀,昨晚 Meta 发布被称为最强开源的 Llama 3 系列模型了,大晚上扔了个炸弹啊!说实话,这事儿也不算太意外,毕竟 Meta 总是喜欢搞点大动作。他们这次带来的就是那个自称“有史以来最牛”的开源大模型——Llama 3系列。 咱们设计师,又可以借助这个新模型好好发挥一番了!

一起看看这个 GPT-4 级模型,它能干得过 GPT-4 么?

Llama 3模型的特点 - 规模与性能:Meta开源了两款不同规模的Llama 3模型,分别是8B和70B参数规模。Llama 3 8B在性能上与Llama 2 70B相当,而Llama 3 70B则在性能上媲美甚至超越了其他顶尖AI模型。 - 技术改进:Llama 3在预训练和后训练方面都有所改进,优化了模型的一致性和响应多样性,降低了出错率。 - 多模态与多语言:未来几个月,Meta将推出具备多模态、多语言对话和更长上下文窗口的新模型,其中包括超过400B的模型,预计将与现有的顶尖模型竞争。

Llama 3的性能测试 - 基准测试:Llama 3在多个测试中得分超越了其他同类模型,显示出其在推理、代码生成和遵循指令等方面的突破性提升。 - 人类评估数据集:Meta开发了一套新的高质量人类评估数据集,用于准确研究模型性能。

开源与闭源的辩论 - 开源优势:Meta坚定地支持开源路线,认为这有助于推动社区和公司双方的创新。 - 未来展望:尽管Llama 3为开源模型赢得了一场胜利,但关于开源与闭源的辩论仍在继续。未来,可能会有更高性能的模型出现,为这场辩论带来新的转折。

附上 Llama 3 体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

点赞 20 回答 2

128位高手大咖在线答疑解惑

说清楚

完整的描述具体问题和细节

1

耐心等

回答问题需要认真思考,请耐心等待

2

巧咨询

还有疑问?及时追问获取更多答案

3
我要提问