OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

大家好,这里是和你们一起探索 AI 的花生。

推荐阅读

5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」,会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了此次更新升级的要点,并实时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功能,展示了其强大的实时多模态交互性能,今天我们就一起来看看此次发布会的具体内容。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会

一、最新旗舰模型 GPT-4o

此次发布会最大的亮点就是新旗舰模型 GPT-4o 的推出,其中「o」是 “omni(全能)”的意思。GPT-4o 可以接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出,且这些内容的反馈都是实时的,因此使用 GPT-4o 就像和真人进行互动那样轻松自然。

比如实时语音交互,之前 ChatGPT 的进行语音对话会有几秒的延迟,中间的等待时间总让人觉得不自然。而 GPT-4o 能在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在对话中的响应时间相近。并且即使是面对回答被突然中断、多人同时谈话等复杂的情况,GPT-4o 也能完美理解。

当视频在手机上无法加载,可前往PC查看。

这样的提升主要得益于新的模型训练方式。之前 ChatGPT 的语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息--它不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。

而 GPT-4o 使用的是在文本、视觉和音频领域端到端训练的新模型,这意味着它可以直接理解音频或者视频一切内容,比如通过你的语气、语速判断你的状态,并做出相对于的反应。官方演示中工作人员特意做出了一个呼吸急促的行为,GPT-4o 能正确识别并理解这种行为对“深呼吸”来说是不对的,还给出的正确的建议。

当视频在手机上无法加载,可前往PC查看。

基于 GPT-4o 的情绪感知能力、快速反应能力和强大的理解力,它能独立处理的场景就丰富了。它可以是一个完美的情感伴侣,给你讲故事、为你唱歌;也可以是一个专业的助理,可以在多人对话中扮演翻译,实时将一种语言翻译成另一种方便你们沟通;或者是作为客服为用户提供专业、耐心的解答帮助。GPT-4o 它的回答方式、说话的语速语调也可以全凭你的喜好来设置、真实灵活的表现完全不会让你觉得它是一个机器人。

这样强大的实时交互能力同样能在视觉上发挥作用。GPT-4o 可以根据你的面部表情判断你的情绪,从而更好地和你交谈;辅导你学习一门新语言或者一步步解开一个方程式;根据你将要去的场合对你的穿搭给出建议;甚至可以充当盲人的 “眼睛”,描述周围发生的一切并为他的下一步动作给出建议,比如该什么时候招手叫停一辆出租车。由此可见 GPT-4o 将给我们的生活带来多么巨大的改变。

当视频在手机上无法加载,可前往PC查看。

除了语音和视觉交互功能,GPT-4o 在文本及图像的生成处理上性能也有大幅提升。根据传统基准测试,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的级别。有网友测试后反映 GPT-4o 在长文本的处理上表现有明显提升,可以快速地分析一篇 20 万字的英文文稿,并对其内容进行总结、人物背景进行分析,这点是其他大模型无法做到的。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

GPT-4o 的图像处理功能更是令人惊喜,不但能识别/分析图像内容、根据文本生成准确的英文文本内容,还能充当 “设计师” 完成一些高阶的图像编辑合成任务。比如根据指令对文本进行排版,将照片动漫化、生成创意字体、根据一个 logo 生成样机模板或者周边、根据图像进行 3D 重建、设计一个角色并生成一系列能保持角色形象一致性的场景等等,之前大家说的 “用嘴做设计” 的梦想好像真的要实现了。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

根据指令对文本进行排版

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

生成角色以及一系列连贯场景

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

根据图像合成海报

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

根据图像进行 3D 重建

二、新的桌面应用和 WebUI

此次发布会上的另一要点是 ChatGPT 将推出桌面端应用,目前已经有 Mac 原生应用可以安装。客户端体积 134 MB,需要有 ChatGPT 付费账号以及一些网络技术基础才能顺利用上,Windows 客户端则预计会在晚些时候推出。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

桌面端 ChatGPT 将帮助我们更便捷的使用它的 AI 服务。使用键盘快捷键 Option + Space 可以立即向 ChatGPT 提问,发送网页截图或者进行语音对话也更方便,更大地用处是用户可以直接将整个屏幕分享给 ChatGPT,让它根据屏幕内容实时处理人物,比如检测你的代码写作过程;参加你的线上会议并记录内容、总结要点;以及对中国家长来说非常需要的 "辅导孩子写作业"。

当视频在手机上无法加载,可前往PC查看。

三、易用性提升与 AI 普惠

一般来说越强大的性能往往意味着越高昂的获取代价,但 GPT-4o 的获取门槛并没有提高。现在在 ChatGPT 网页端,免费用户也可以体验 GPT-4o 的文本和图像功能,不过额度有限,当达到限制后将自动切换到 GPT-3.5 以继续和用户对话;付费用户的额度则是免费用户的 5 倍。未来几周内 OpenAI 还将在 ChatGPT Plus 中推出新版语音模式的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。官方还计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功能的支持。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

其实在此次发布会中,Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity(确保人工智能造福全人类),OpenAI 首席执行官 Sam Altman 也在发布会后单独发表了一篇博客,同样强调 “我们使命的一个关键部分是将非常强大的人工智能工具免费(或以优惠的价格)提供给人们” 。而他们的团队也一直致力于此,努力从各方面降低人们使用 AI 的困难。

比如目前用户可以不用注册就使用 ChatGPT;CHatGPT 的 WebUI 界面也有了优化,以提供给用户更简单友好的使用体验; 还新增 “临时聊天” 功能,允许用户和 ChatGPT 进行一次性对话,该对话的聊天内容不会被保存到聊天记录之中,可以帮助用户避免隐私问题;而桌面端 ChatGPT 的推出则让人与 AI 的交互变得更加简单直接。

之前 GPT-3.5 已经免费提供给了所有用户使用,GPT4o 因为在文字方面实现了成本降低,尤其是对于英文以外的语言来说减少了 token 的使用,使得服务更加经济,所以 OpenAI 能够将 GPT-4o 也免费带给用户,包括 GPTs 未来也将免费开放。所有人都能轻松用上 GPT-4 级别的人工智能,还没有任何广告或其他干扰,这是 OpenAI 践行其“AI 普惠” 使命的有力证明。

GPT-4o 的出现不仅意味我们又多了一个强大可用的多模态模型,更是展示了未来人机交互的一种新范式。Sam Altman 称 GPT-4o 的语音/视频模式是他用过的最好的计算机界面,还用科幻电影 《Her》来指代 GPT-4o 给自己的感受(《Her》是一部讲述人与人工智能相爱的科幻爱情电影,里面有一个人工智能 “萨曼莎”,是一个比人类更懂人类的 AI)。或许未来每个人都会有一个专属 AI 助理,我们将把自己的双手和眼睛从电子屏幕上解放出来,仅通过语音交互就完成大部分的工作和日常任务,而本是科幻电影里的场景也会成为真正的现实。

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

本期为大家介绍的 OpenAI 春季发布会的相关内容,喜欢的话记得点赞收藏支持一波,我会有更动力为大家推荐新的干货内容~ 想了解更多 AI 新鲜资讯的话,欢迎关注 优设 AI 自学网 和优设微信视频号,每天都会分享最新的 AIGC 资讯和神器,让你轻松掌握 AI 发展动态。

另外我最新制作的课程《零基础 AI 绘画入门》已经上线,课程包含对 Midjourney 及 Stable Diffusion WebUI 的系统入门教学,并提供配套资源、各类实用工具和提示词库,能帮助初学者快速掌握这 2 款目前最热门的 AI 工具,感兴趣的小伙伴可以戳的链接了解详情:夏花生的《零基础 AI 绘画录播课》

也欢迎大家扫描下方的二维码加入“优设 AI 知识交流群”,和我及其他设计师一起交流学习 AI 知识~

OpenAI 发布新旗舰模型GPT-4o!实时交互犹如真人,免费开放

推荐阅读:

参考资料:

  1. https://www.youtube.com/watch?v=DQacCB9tDaw
  2. https://weibo.com/u/page/fav/2970341220?layerid=5033781566374337
  3. https://weibo.com/1864645655/OecaFi1ry
  4. https://openai.com/index/hello-gpt-4o/
  5. https://weibo.com/1727858283/OeagdcVmB
  6. https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/
赞赏
收藏 13
点赞 49

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。