昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这些模型在多个方面超越了GPT-4,包括推理、数学、编码、多语言理解和视觉处理等。
以下是Claude 3系列模型与同行在多个能力评估基准上的对比:
可以看到,其中Claude 3 Opus模型性能完全碾压GPT-4,以及Gemini 1.0 Ultra。
Claude 3 Sonnet在部分基准上,比如GSM8K、MATH等超越了GPT-4。Claude 3 Haiku可以与Gemini 1.0 Pro相抗衡。
GPT-4是否真的已经过时?Claude 3的横空出世是否意味着我们即将进入一个全新的AI时代?
Claude 3 体验地址:https://claude.ai/chats
近日,在布鲁克林举行的Hot Pod峰会上,Adobe发布了名为“Project Music GenAI Control”的全新AI音乐创作工具原型。该工具利用生成式人工智能技术,帮助用户无需专业音频制作经验即可创作和编辑音乐。
用户只需输入文本描述,例如“欢快的舞蹈”或“忧伤的爵士乐”,Project Music GenAI Control就能生成对应风格的音乐。更重要的是,用户还可以使用集成的编辑控件自定义生成的音乐,调整重复模式、速度、强度和结构。该工具可以重新混音音乐片段,并生成循环音频,非常适合内容创作者制作背景音乐和配乐。
Adobe 表示,Project Music GenAI Control还能够“基于参考旋律”调整生成的音频,并且可以延长音频片段的长度,以满足固定动画或播客片段等所需时长。目前,用于编辑生成音频的实际用户界面尚未公布。
“这些新工具最激动人心的功能之一不仅仅是生成音频” Adobe研究院高级研究科学家Nicholas Bryan在新闻稿中表示,“它们就像Photoshop一样,赋予创作者深度控制权,让他们可以塑造、调整和编辑音频,就像像素级控制图像一样。”
Project Music GenAI Control由Adobe与加州大学和卡内基梅隆大学计算机科学学院合作开发,目前该项目仍处于“早期实验”阶段,未来可能会被整合到Adobe旗下的现有编辑工具Audition和Premiere Pro中。目前该工具尚未向公众开放,也未公布发布时间。
近期,阿里巴巴智能计算研究所提出了一种新的生成式框架 EMO,是一种富有表现力的音频驱动的肖像视频生成框架,用户只需提供一张照片和一段音频文件,EMO就能生成会说话唱歌的AI视频,实现无缝对接的动态小视频,最长时间可达1分30秒左右。这项技术的应用场景非常广泛,从电视剧角色的语音合成到音乐视频中的虚拟表演者,都有可能被AI技术所取代。
EMO框架使用Audio2Video扩散模型,通过三个阶段的技术处理,包括帧编码、音频编码和去噪操作,以及参考注意力和音频注意力机制,来生成富有表现力的人像视频。
目前,EMO 框架上线到 GitHub 中,相关论文也在 arxiv 上公开。
GitHub:https://github.com/HumanAIGC/EMO
论文:https://arxiv.org/abs/2402.17485
太疯狂了,还没有从 Sora 和 Pika 的 Lip Sync 的震惊中走出来,今天又发现一个 AI 驱动的电影生成和视频剪辑平台:LTX Studio。
LTX Studio 提供的可视化专业视频控制台,可以帮助用户进一步优化视频的细节达到商业级视频,并且附带语音解读而Sora目前无法提供。
核心功能: ⚡支持通过文字直接生成复杂的剧情视频,包含语音、音效以及视频画面,支持编辑画面内容。 ⚡支持通过故事板组织和剪辑生成的视频,你可以自定义演员场景和造型。
加入等待列表:https://ltx.studio
今天,全球最大开源平台之一GitHub在官网宣布——GitHub Copilot Enterprise正式全面发布。
GitHub Copilot Enterprise核心模块之一GitHub Copilot,是一款基于OpenAI的GPT-4模型,并结合自身积累十多年真实、安全可靠的代码数据开发而成,开发人员通过文本提示就能获取、审核、扩展代码等功能。 其核心功能及亮点如下:
1. 基于OpenAI的GPT-4模型:GitHub Copilot Enterprise利用了先进的语言模型,结合了GitHub的大量代码数据,为开发人员提供智能的代码辅助。 2. 文本提示代码生成:开发人员可以通过简单的文本提示,让GitHub Copilot Enterprise帮助生成、审核和扩展代码。 3. 减少重复性工作:根据调查,大多数开发人员表示使用GitHub Copilot可以减少在重复性编码任务上的精力。 4. 节省搜索时间:GitHub Copilot Enterprise可以帮助开发人员减少在搜索信息上的时间,提高工作效率。 5. 深度了解企业代码库:GitHub Copilot Enterprise能够简化代码导航和理解,加速代码部署、问题解决和代码现代化。 6. 集成ChatGPT聊天功能:开发人员可以通过自然语言与GitHub Copilot Enterprise交流,提出关于代码的问题,并获取帮助。 7. 个性化代码建议:GitHub Copilot Enterprise可以根据企业的特定代码库和标准提供个性化的帮助和建议。 8. 快速审核拉取请求:通过分析拉取请求的差异,GitHub Copilot Enterprise可以帮助审核人员快速了解变更,节省时间并提供有价值的反馈。 9. Bing搜索引擎集成:为了帮助开发人员减少信息搜索时间,GitHub Copilot Enterprise集成了Bing搜索引擎,提供大规模的专业数据搜索。 10. 微调功能:GitHub Copilot Enterprise将推出基于用户个人代码库的微调功能,使得生成的代码更加个性化,进一步帮助开发者提高效率。 11. 价格和订阅:GitHub Copilot Enterprise的月费为39美元,提供了个人和商务版,包括无限的消息、交互、历史记录以及基于存储库的语义搜索等功能。
使用地址:https://github.com/features/copilot/plans
Stability AI 发布了 Stable Diffusion 3,宣称这是他们最强大的文本到图像模型,利用扩散转换器架构大大提高了多主题提示、图像质量和拼写能力的性能!
该版本与Stable Diffusion 2相比,在文本语义理解、色彩饱和度、图像构图、分辨率、类型、质感、对比度等方面大幅度增强,可对标闭源模型Midjourney。
Stable Diffusion 3的参数在8亿——80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。
Stable Diffusion 3 支持申请使用,未来会扩大测试范围。
申请地址:https://stability.ai/stablediffusion3
根据 Adobe 官方网站的公告,他们正式推出了一款名为AIAssistant的生成式AI助手,并将其整合到Reader和Acrobat这两款知名的PDF阅读器中。
AIAssistant 的功能类似于ChatGPT,它能够根据PDF文档内容提供摘要、核心见解,甚至回答各种问题。
目前,Acrobat Personal、Teams以及Acrobat Pro的用户可以体验测试版AIAssistant功能。
这一新功能的推出,无疑将极大地提升用户在阅读和处理PDF文档时的效率和便利性,为用户带来全新的使用体验。