上周 OpenAI 宣布10月会发布 DALL·E 3 图像多模态功能,最近是不是就在憋大招呢?近日,OpenAI 宣布将在 ChatGPT 中推出新的语音和图像(Voice and image)功能。这些功能可以通过语音对话或展示图片的方式与 ChatGPT 进行交互。
以下是 OpenAI 官方的介绍:
“语音和图像功能为您在生活中使用 ChatGPT 提供了更多的方式。您可以在旅行时拍摄地标的照片,并与 ChatGPT 进行有关其有趣之处的实时对话。当您回家时,拍摄您的冰箱和食品储藏室的照片,以确定晚餐的食材,并提出后续问题以获取逐步烹饪指南。晚餐后,您可以通过拍照、圈出问题,并让 ChatGPT 与您和您的孩子分享提示,帮助您解决数学问题。”
语音和图像功能将在未来两周内向 Plus 和企业用户推出。语音功能将在 iOS 和 Android 平台上使用,而图像功能将在所有平台上提供。
Adobe Acrobat 迎来了重大 AI 升级,支持多文档分析和图像生成,此次升级主要包括以下两个方面:
1、多文档分析:Acrobat 的 AI 助手现在能够同时分析和查询多个文档,包括非 PDF 文件。这意味着用户可以将多个 PDF 或其他格式的文件拖拽至应用程序中,AI 助手会自动处理这些文件并提供相关信息。
2、图像生成和编辑:Adobe Acrobat 引入了全新的“Generate Image”功能,用户可以选择 PDF 文件中的某段内容,调用 AI 来生成图片,并调整图片的样式和大小。还有“Edit Image”功能,允许用户通过 Firefly AI 模型对现有图像进行编辑,例如删除背景、擦除和裁剪等。
这次升级显著增强了 Acrobat 的功能,使其在处理复杂文档和图像方面更加高效和智能。
斯坦福大学的研究团队与 Apparate Labs 前几天发布一款名为 Proteus 的创新 AI 视频生成模型,可以从单一图像生成笑、说唱、唱歌、眨眼、微笑、说话高度逼真和具有表现力的虚拟人物。 PROTEUS兼容多种大模型的多模态输入,可以处理语音、文本和图像等多种形式的数据。
Proteus模型亮点: - 高度逼真:利用先进的AI技术,Proteus能够从单张图片生成具有高度逼真表情和流畅动作的虚拟人物形象。 - 低延迟生成:Proteus模型具备低延迟特性,能够实时响应语音输入,生成每秒超过100帧的视频流。 - 多模态交互:模型支持语音、文本和图像等多种输入形式,实现与用户的自然直观交互。
应用领域: Proteus模型在个性化虚拟助理、虚拟宠物、情感支持、客户服务、教育和培训、游戏定制、影视娱乐、市场营销和社交媒体等领域具有广泛的应用潜力。
申请体验地址: https://apparate.ai/early-access.html
4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
以下是一些重点信息的摘要: 1. 开源OpenELM: 苹果公司开源了一个名为OpenELM的大语言模型,这与微软开源的Phi-3 Mini类似,是专为移动设备设计的模型。 2. 模型参数: OpenELM提供了四种不同参数规模的模型,分别是2.7亿、4.5亿、11亿和30亿参数。 3. 功能: 该模型能够执行生成文本、代码、翻译、总结摘要等功能。 4. 预训练数据: 尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。 5. 深度神经网络库CoreNet: 苹果同时开源了用于训练OpenELM的深度神经网络库CoreNet,该库在开源后不久就在GitHub上获得了超过1100个星标。 6. 苹果的开源策略: 苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。 7. 技术贡献: 苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。 8. OpenELM架构: OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。 9. 训练流程与数据集: 苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。
开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com CoreNet地址:https://github.com/apple/corenet?ref=maginative.com 论文地址:https://arxiv.org/abs/2404.14619
不知道大家最近刷到麦当劳用 AI 制作的宣传片没有,太火了啊!16 秒的视频在推特上火出圈了,浏览量接近千万,而且一直在增长。
这则广告内容是关于日本麦当劳即将举行的薯条优惠活动,视频由 11 名 AI 生成的美女组成,她们以不同的风格和方式展示麦当劳薯条,最后以一名少女真正吃到薯条作为结尾。作者是知名 AI 艺术家 Kaku Drop 架空飴。
感觉这种 AI 宣传视频,以后也是一个趋势了,而且从成本方面考虑,用AI来做广告,也比找真人代言划算多了。AI “代言人” 既便宜又不会塌房,还可以根据产品量身定做相匹配的代言人形象。
嘿,小伙伴们!🎉 今天给大家带来一款超酷、超有趣的工具——AI Emoji Generator! 这可不是普通的emoji库!Emoji AI 是一款革命性的AI工具,它拥有读心术般的超能力! 在这里,你可以找到各种各样的表情符号,从可爱的猫咪戴墨镜,到酷炫的宇智波鼬使用写轮眼,再到搞笑的鲨鱼戴礼帽,甚至还有流行的 Blackpink 表情符号!无论你是动漫迷、科技控,还是喜欢萌宠,这里都能满足你!
沟通魅力值Max Up! 1. 朋友圈/小红书文案:配上AI生成的表情,平平无奇的文字立刻吸睛指数爆表!轻松收获更多点赞评论! 2. 工作沟通/邮件:恰到好处的emoji能让语气更友好,表达更清晰,提升沟通效率!(当然,商务场合要适度哦) 3. 社群/聊天:成为群聊里的“表情包王者”,精准传达幽默、调侃、温暖或支持,拉近距离,活跃气氛! 4. 营销文案/广告语:用独特的emoji组合抓住用户眼球,让品牌形象更生动、更年轻!
官网地址;https://www.emojis.com/