4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
近日,PixVerse 上线了只需要一张图片就可以生成 ID 一致的视频,但是目前只支持真实风格的文生视频。个人感觉 PixVerse 的视频清晰度目前是最好的,大家可以去试一试,ID 保持的不错,可用成都也很靠谱了!
👇下面是一些使用技巧: 1、创建角色的时候最好使用正脸的图片,同时不要有大角度的转头。 2、发型是无法保持的,只能保持面部特征。 3、生成视频的提示词最好不要有面部描述,不然会影响 ID 还原的效果。 4、生成视频的提示词最好不要有侧身、抬头等词,不然面部或者眼睛出问题的几率会增大。
PixVerse 官网: https://app.pixverse.ai/
by:微博@歸藏的AI工具箱
刚刚,OpenAI 官方账号发布的一支由 Sora 制作的MV(Music Video)——《Worldweight》
这支 MV 的音乐是由艺术家 AugustKamp 作曲,而画面内容则是通过 Sora 来生成的。AugustKamp 表示,Sora 使得他能够将原本只存在于他心中的想象转化为可以与他人共享的艺术形式。这并非他首次使用AIGC技术来制作MV,他之前已经在 Instagram 上分享过由 Sora 生成的 MV 片段。
但是和以往不同的是,全球知名的艺术家,包括麻辣鸡(NickiMinaj)、水果姐(KatyPerry)、碧梨(BillieEilish)等,联名抗议AIGC技术的使用。他们认为AIGC技术在未经补偿的情况下使用艺术家的声音、作品来训练AI模型,并稀释支付给艺术家的版税池,这些问题不仅损害了艺术家的经济利益,也对他们的创作自由和艺术价值构成了威胁。
科技的发展与创造力的边界在哪里?从 MV 到音乐剧。AI如何重塑我们的音乐体验呢?欢迎在评论区留言讨论!
昨天4月2日,阿里巴巴郑重宣布,迎来了一位不同寻常的“新员工”——通义灵码,工号AI001,标志着AI新纪元的开启。这位7X24小时在线的AI智能编程助手,将成为阿里大家庭中独一无二的存在。
不熟悉通义灵码的小伙伴,看看下面的介绍和简历: - 技能和成就:通义灵码在2023年11月的云栖大会上首次亮相,并迅速在VSCode插件市场获得关注,荣获letBrains的月度推荐智能编程插件。它能熟练运用200种编程语言,精通16种主流语言,如Java、Python、Go等。 - 功能范围:通义灵码的能力包括实时代码续写与优化、自然语言生成代码、单元测试生成等,为开发者提供全方位的辅助。 - 技术发展:通义灵码即将掌握RAG(Retrieval-Augmented Generation)技术,预示着其未来潜力巨大。 - 信息安全:AI助手全程数据加密,代码不落盘,确保信息安全。 - 情绪价值:通义灵码旨在为开发者提供最佳的情绪价值,使编程工作更加轻松愉快。 - 受欢迎程度:自上线以来,通义灵码的下载量已超过200万,每天有数百万行代码被程序员采纳,每日推理次数超过2000万次,成为国内最受欢迎的AI编程工具之一。