尊享

加入【优设领航者俱乐部】

尊享全年高价值服务 加速收益

大咖指引 职场加薪

大咖领航新机会新收入

AIGC实战 加速受益

大厂AIGC实战经验分享

优质链接 人脉链接

企业/达人/设友线下链接

流量赋能 名利双收

1000W+流量助力影响力提升

领取更多高价值实用特权

投稿

优设问答你的职场经验书

刘谦Designer 邀请你来回答

2024/03/04

谷歌推出生成交互大模型 Genie,一张草图直接生成视频游戏!

近日,谷歌DeepMind的研究人员推出了,首个无需数据标记、无监督训练的生成交互模型——Generative Interactive Environments,简称“Genie”。

Genie是一个具有110亿参数的模型,它能够根据图像、真实照片甚至草图生成可控制动作的视频游戏。这个模型的特点是无需数据标记和无监督训练,它通过3万小时、6800万段游戏视频进行了大规模训练,而且训练过程中没有使用任何真实动作标签或其他特定提示。

Genie的核心架构使用了ST-Transformer(时空变换器),这是一种结合了Transformer模型的自注意力机制与时空数据的特性,有效处理视频、多传感器时间序列、交通流量等时空数据的方法。ST-Transformer通过捕捉数据在时间和空间上的复杂依赖关系,提高了对时空序列的理解和预测能力。

Genie的架构主要由三大模块组成: 1. 视频分词器:基于VQ-VAE的模块,将原始视频帧压缩成离散的记号表示,以降低维度并提高视频生成质量。 2. 潜在动作模型:无监督学习模块,从原始视频中推断出状态变化对应的潜在动作,并实现对每一帧的控制。 3. 动力学模型:基于潜在动作模型学习到的动作关系,预测下一帧的视频。

除了视频游戏,你觉得 Genie 模型还能在哪些其他领域发挥作用?

好问题 15 回答 3

大白(●—●) 邀请你来回答

2024/04/10

一键自动写影评,谷歌重磅发布Gemini 1.5 Pro,功能太强大了吧?

4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。

Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。

在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。

Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。

谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。

详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

好问题 17 回答 3