谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点: 1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。 2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。 3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。 4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://enriccorona.github.io/vlogger/
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
英伟达(NVIDIA)在2024年GTC大会上宣布的下一代人工智能超级计算机以及发布的最强AI加速卡——Blackwell GB200。
这款加速卡采用了新一代AI图形处理器架构Blackwell,由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成。黄仁勋在GTC大会上提到,尽管Hopper架构已经非常出色,但市场需要更强大的GPU。
以下是大会纪要: - 产品发布:英伟达发布了Blackwell GB200,这是一款新一代的AI加速卡,旨在大幅提升人工智能相关的计算性能。 - 性能提升:Blackwell GPU的AI性能可达20petaflops,而前代H100的性能为4petaflops。这意味着Blackwell GPU在AI性能上有显著提升。 - 技术规格:Blackwell GPU采用台积电的4纳米工艺制造,包含2080亿个晶体管,通过NVLink 5.0技术连接两个独立制造的裸晶(Die)。 - 性能对比:英伟达表示,GB200包含两个B200 Blackwell GPU和一个基于Arm的Grace CPU,其推理大语言模型性能比H100提升30倍,成本和能耗降至25分之一。 - 企业应用:英伟达提供成品服务,包括GB200NVL72服务器,该服务器配备了36个CPU和72个Blackwell GPU,以及一体化水冷散热方案,能够提供总计720petaflops的AI训练性能或1,440petaflops的推理性能。 - 市场合作:亚马逊、谷歌、微软和甲骨文等公司计划在其云服务产品中提供NVL72机架。亚马逊AWS已计划采购由2万片GB200芯片组建的服务器集群。
昨天,在2023百度云智大会上,金山办公首席执行官章庆元宣布,WPS AI (ai.wps.cn)正式面向社会开放,首先应用在 WPS 智能文档中,用户可以在最新版 WPS 客户端 / APP、金山文档小程序 / 官网体验 WPS 智能文档
WPS 智能文档基于 WPS AI 技术,提供内容生成、表达优化、文档理解及处理等功能。具体而言,智能文档能够快速起草文章大纲、生成优质内容,支持对内容进行处理和优化,可依据多个文档进行归纳总结。
WPS AI 作为中国协同办公领域首个落地的生成式 AI 应用,已经接入 WPS 文字、演示、表格、PDF、金山文档等产品线,解决用户在内容生成、内容理解、指令操作等方面的办公难题。金山办公将 WPS AI 定位为大语言模型的应用方向,未来将在内容创作、智慧助手、知识洞察等战略方向上继续发展。
从今年AIGC开始爆火,好像适合程序开发使用AI工具就很少,大多数都是AI绘画和AI视频,AI文案相关的。可以帮助程序员写代码的ChatGPT在前段时间也爆出代码错误率达到了50%左右。那到底有没有适合程序员开发使用的AI工具呢?
近日,Google 推出了一款名为 Project IDX 的新型云集成开发环境(IDE),以改善开发人员的体验,提供人工智能工具和功能,以更有效地构建应用程序。
Google在Visual Studio Code(使用Code OSS)的基础上开发了Project IDX,使其能够专注于AI集成,如Codey和PaLM 2。Google的Codey AI编程助手提供智能代码自动补全、编码问题的聊天机器人以及上下文代码推荐。
使用Project IDX,开发人员可以在浏览器中进行全栈网页和移动应用程序的编写。该平台支持目前流行的框架,如Angular、Flutter、React和Vue.js,并计划将来支持其他语言和框架。
Project IDX的一个主要优点是,它提供了一个一致的开发环境,可以从任何设备访问。这解决了跨设备同步开发环境的常见问题。基于云的IDE还可以利用强大的计算资源,这些资源通常是开发人员在本地无法获得的。
有多少小伙伴是和我一样,早在2年前就已经不用微软的office套装了,之前是觉得office打开那种体积很大的文件,反应速度太慢了,才用的wps,现在WPS AI正式对外展示了文字、表格、PPT、PDF四大办公组件搭载的AI大模型能力,支持pc及移动设备。本次公布的AI新能力集中在阅读理解、问答、人机交互等方面。在PPT中,WPS AI现已支持输入主题,一键生成PPT演示文稿,并会根据用户要求进细化调节,如更改主题风格、单页美化、更改字体、更改配色、生成演讲稿等等。如果WPS的AI功能能够更好的帮助我们办公,你还会等微软的office吗?
Techcrunch整理了一份AI行业最常见到的技术词语词典,搞懂这些,或许能帮初学者们轻松迈入AI世界的大门。
- AGI 通用人工智能 通用人工智能(AGI)是一个有些模糊的概念,通常指在多数任务上比普通人更强大的AI。OpenAI将其定义为“在最具经济价值的工作上超越人类的高度自主系统”。谷歌DeepMind则认为AGI是“在大多数认知任务上至少与人类能力相当的AI”。
- Chain of Thought 思维链 思维链推理意味着让AI像人一样一步步思考,把一个大问题拆解成多个小步骤。虽然慢一点,但在逻辑推理或编程这种需要严谨思考的场景里,答案会更准确。现在的大语言模型经过优化,在处理复杂问题时,就是靠这种“思维链”来提高准确性。
- Deep learning 深度学习 AI能自我优化学习的关键技术。它模仿人脑神经元连接方式,搭建多层人工神经网络,使AI算法能够建立比简单机器学习系统更复杂的关联关系。 深度学习模型能自己识别数据里的重要特征,而无需人类预先定义,还能从错误中学习,不断改进。
- Diffusion 扩散模型 扩散技术是众多艺术、音乐和文本生成AI模型的核心。受物理学启发,先“故意”一步步往数据里加噪声,直到数据面目全非。然后,AI学习如何“逆向扩散”,把这些被破坏的数据还原回来,从而获得从噪声中“创造”出全新数据的能力。
- Distillation 知识蒸馏 一种“师父带徒弟”的学习方法。让一个大型(“老师”)AI模型处理问题,然后把它的答案用来训练一个更小、更高效的(“学生”)模型,让学生模型学会老师的行为。这样就能用更小的模型,实现接近大型模型的性能。
- Fine-tuning 微调 微调是指对已训练的AI模型进行进一步训练,通过输入新的专业化数据,优化其在特定任务或领域的性能表现,使其超越原始训练的重点范围。很多AI公司都在用这个技术,把大型语言模型“微调”成适合自己行业的产品,提升实用性。
- GAN 生成对抗网络 让AI能“以假乱真”的关键技术。它由两个互相竞争的神经网络组成:生成器负责创造数据,判别器负责鉴别真伪。就像一场“猫捉老鼠”的游戏,两者不断对抗,让AI能自动生成极其逼真的数据,无需人工干预。GAN适合用于生成图片或视频。
- Hallucination 幻觉 “幻觉”是AI行业对模型虚构内容的专业术语,特指AI生成错误信息的行为。这显然是影响AI质量的核心问题。
- Neural Network 神经网络 神经网络是指支撑深度学习的多层算法结构,是推动生成式AI工具全面爆发的技术基础。尽管这个概念由来已久,GPU的崛起也让这个概念迎来了爆发。GPU被证明非常适合训练具有更多层次的算法,使得基于神经网络的AI系统在语音识别、自动驾驶导航和药物研发等多个领域实现了远超以往的性能表现。
- Transfer Learning 迁移学习 把一个已经训练好的AI模型拿来当起点,开发一个针对不同但相关的任务的新模型。这样可以节省大量开发时间,尤其是在新任务数据量不多的时候非常有用。但要注意,模型可能还需要在新领域的数据上进行额外训练才能表现最佳。
- Weights 权重 权重是AI训练的核心要素,它决定了在训练系统所用数据中,不同特征(或输入变量)的重要程度,直接影响AI模型的最终输出。训练开始时权重是随机的,但随着学习的深入,它们会不断调整,让AI的预测越来越准。
这份词典由Techcrunch定期维护,有需要的朋友可以收藏:https://techcrunch.com/2025/05/25/from-llms-to-hallucinations-heres-a-simple-guide-to-common-ai-terms/
ps:转自量子位