近日,谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。
Genie是一个具有110亿参数的模型,它能够根据图像、真实照片甚至草图生成可控制动作的视频游戏。这个模型的特点是无需数据标记和无监督训练,它通过3万小时、6800万段游戏视频进行了大规模训练,而且训练过程中没有使用任何真实动作标签或其他特定提示。
Genie的核心架构使用了ST-Transformer(时空变换器),这是一种结合了Transformer模型的自注意力机制与时空数据的特性,有效处理视频、多传感器时间序列、交通流量等时空数据的方法。ST-Transformer通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力。
Genie的架构主要由三大模块组成: 1. 视频分词器:基于VQ-VAE的模块,将原始视频帧压缩成离散的记号表示,以降低维度并提高视频生成质量。 2. 潜在动作模型:无监督学习模块,从原始视频中推断出状态变化对应的潜在动作,并实现对每一帧的控制。 3. 动力学模型:基于潜在动作模型学习到的动作关系,预测下一帧的视频。
除了视频游戏,你觉得 Genie 模型还能在哪些其他领域发挥作用?
有多少小伙伴是和我一样,早在2年前就已经不用微软的office套装了,之前是觉得office打开那种体积很大的文件,反应速度太慢了,才用的wps,现在WPS AI正式对外展示了文字、表格、PPT、PDF四大办公组件搭载的AI大模型能力,支持pc及移动设备。本次公布的AI新能力集中在阅读理解、问答、人机交互等方面。在PPT中,WPS AI现已支持输入主题,一键生成PPT演示文稿,并会根据用户要求进细化调节,如更改主题风格、单页美化、更改字体、更改配色、生成演讲稿等等。如果WPS的AI功能能够更好的帮助我们办公,你还会等微软的office吗?
昨天给大家说过了,Sam Altman 有望回归 OpenAI,细心的朋友应该发现了,从工牌的“客人04”就能发现,Sam Altman 与 OpenAI 管理层的回归谈判很有可能谈崩。
果然,在昨天下午的时候,微软首席执行官Satya Nadella在社交平台宣布,“微软仍然致力于与 OpenAI的合作伙伴关系。同时欢迎 Sam Altman 和 Greg Brockman 及其团队加入微软,领导一个全新的AI研究团队”。 Sam第一时间对这个消息进行了确认。
我们现在可以期待一下,Sam Altman 加入微软后会给我带来哪些惊叹的产品,这场“政变”当中微软无疑成为了最大的赢家,大家觉得呢?