谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点: 1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。 2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。 3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。 4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://enriccorona.github.io/vlogger/
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
今年接触了太多 AI 工具了,AI 绘画的先不说,光是视频生成就已经让我震惊不已。今天刷到了一个 VideoPoet 作者的专访,分享的一些关于视频生成领域的观点非常有意思,其中关于视频生成领域的 “ChatGPT 时刻”的解读前瞻性十足,大家感兴趣的可以了解一下!
以下是引用: “ 视频生成的“ChatGPT 时刻”,我觉得大概是,哪怕模型生成的还是比较短的片段,比如 2-5s,但这个生成是可控的,人类也很难分辨是 AI 生成还是人类制作。从用户角度,只需要几美分的代价,就能获得一个可以被送到好莱坞专业 studio 的样片。如果类比的话,可以类比到图像领域 stable diffusion 1.x 或 2.x 版本,肯定还有再提升的空间,但已经到了能使用的程度,而且能激发很多应用。
我的预测是,到 2024 年底或 2025 年初,我们可能会到这个时刻。并且我认为,实现这个时刻肯定也需要 diffusion 参与,并且 diffusion 在未来一段时间,比如 1 到 2 年内,可能仍然是主流,扮演很重要的角色。这里说的 diffusion 已经包含了 transformer。
“ChatGPT 时刻”意味着模型到了一个相对稳定的阶段,但后面还会再改,只不过是在这个基础上做小的改动,可能一开始版本只能做到逼近好莱坞,有一些缺点,但可以商业化运用了,但要达到真正稳定需要更长时间。随后还可能仍会迭代升级。
现在市场上所有的视频生成都达不到这个标准,所以我认为视频生成的方法可能还需要进一步迭代,有可能要达到“ChatGPT 时刻”需要新的模型和方法,它不一定是全新的模型或者架构,可能是现在市场上的某个技术路线或者方案再往前走一步。”
昨天,在2023百度云智大会上,金山办公首席执行官章庆元宣布,WPS AI (ai.wps.cn)正式面向社会开放,首先应用在 WPS 智能文档中,用户可以在最新版 WPS 客户端 / APP、金山文档小程序 / 官网体验 WPS 智能文档
WPS 智能文档基于 WPS AI 技术,提供内容生成、表达优化、文档理解及处理等功能。具体而言,智能文档能够快速起草文章大纲、生成优质内容,支持对内容进行处理和优化,可依据多个文档进行归纳总结。
WPS AI 作为中国协同办公领域首个落地的生成式 AI 应用,已经接入 WPS 文字、演示、表格、PDF、金山文档等产品线,解决用户在内容生成、内容理解、指令操作等方面的办公难题。金山办公将 WPS AI 定位为大语言模型的应用方向,未来将在内容创作、智慧助手、知识洞察等战略方向上继续发展。
最新消息:OpenAI 宣布,GPT-4 API 现已对所有付费 API 客户开放!现在所有已经付款的 API 开发者都可以使用 GPT-4 API,该 API 允许使用高达8K tokens的上下文。
对于新的开发者,OpenAI 计划在本月底向他们开放访问权限,并根据计算资源的可用性逐步提高速率限制。
GPT-4 模型的发布将极大地提升基于 GPT 模型的产品性能。OpenAI目前已经向开发者们开放了GPT-3.5 Turbo、DALL·E和Whisper的APIs。而且OpenAI还在进行GPT-4和GPT-3.5 Turbo的微调功能的测试,并计划在今年晚些时候开放。
现在OpenAI还在开发新的模型,用于Chat Completions API,该API具有结构化界面和多轮对话能力,可以帮助开发者构建对话体验和完成广泛的任务,并降低了提示注入攻击的风险。
有多少小伙伴是和我一样,早在2年前就已经不用微软的office套装了,之前是觉得office打开那种体积很大的文件,反应速度太慢了,才用的wps,现在WPS AI正式对外展示了文字、表格、PPT、PDF四大办公组件搭载的AI大模型能力,支持pc及移动设备。本次公布的AI新能力集中在阅读理解、问答、人机交互等方面。在PPT中,WPS AI现已支持输入主题,一键生成PPT演示文稿,并会根据用户要求进细化调节,如更改主题风格、单页美化、更改字体、更改配色、生成演讲稿等等。如果WPS的AI功能能够更好的帮助我们办公,你还会等微软的office吗?
从今年AIGC开始爆火,好像适合程序开发使用AI工具就很少,大多数都是AI绘画和AI视频,AI文案相关的。可以帮助程序员写代码的ChatGPT在前段时间也爆出代码错误率达到了50%左右。那到底有没有适合程序员开发使用的AI工具呢?
近日,Google 推出了一款名为 Project IDX 的新型云集成开发环境(IDE),以改善开发人员的体验,提供人工智能工具和功能,以更有效地构建应用程序。
Google在Visual Studio Code(使用Code OSS)的基础上开发了Project IDX,使其能够专注于AI集成,如Codey和PaLM 2。Google的Codey AI编程助手提供智能代码自动补全、编码问题的聊天机器人以及上下文代码推荐。
使用Project IDX,开发人员可以在浏览器中进行全栈网页和移动应用程序的编写。该平台支持目前流行的框架,如Angular、Flutter、React和Vue.js,并计划将来支持其他语言和框架。
Project IDX的一个主要优点是,它提供了一个一致的开发环境,可以从任何设备访问。这解决了跨设备同步开发环境的常见问题。基于云的IDE还可以利用强大的计算资源,这些资源通常是开发人员在本地无法获得的。
《人工智能生成合成内容标识办法》适用范围 - 网络信息服务提供者:适用于符合相关规定的网络信息服务提供者开展的人工智能生成合成内容标识活动。
标识分类与要求 - 标识分类:分为显式标识和隐式标识。 - 显式标识:在生成合成内容或交互场景界面中以文字、声音、图形等方式呈现,用户可明显感知。 - 隐式标识:通过技术措施在生成合成内容文件数据中添加,用户不易明显感知。 - 添加显式标识的要求:根据不同类型的内容(文本、音频、图片、视频、虚拟场景等),在相应位置添加显著的提示标识。 - 添加隐式标识的要求:在生成合成内容的文件元数据中添加包含生成合成内容属性信息、服务提供者名称或编码、内容编号等制作要素信息的隐式标识,鼓励添加数字水印等形式的隐式标识。
我只是截取了一部分,感兴趣的朋友可以看看原文,大家也可以评论区说一说本次的人工智能生成合成内容标识办法会对行业带来哪些影响!