设计师新宠来啦!初创公司 Luma 全新发布 Dream Machine,能从文本/图像直接生成视频。感觉比 Sora 也差不了多少。
Dream Machine 120秒就能给你做出一个120帧的视频!这速度,想改点啥,马上就能再做一个新的,太高效了!而且镜头效果超自然,Dream Machine还超级懂镜头语言!它能模拟出各种电影级的摄像机运动,让你的视频看起来就像大片一样流畅、自然。
大家可以看看下面的演示视频,它还能理解人和物是怎么在现实中互动的,所以做出来的视频里,角色和场景都超级真实,一点都不会觉得假。
最最最主要的是,现在人人都可以免费体验!服务器都快被大家挤爆了,你还在等啥呢?赶紧来试试吧!
体验地址:https://lumalabs.ai/dream-machine
近日,谷歌的全新人工智能模型 Gemini 1.0 引起了广泛的关注。Gemini 到底是个什么样的模型,为什么说比 GPT-4 强呢?
Gemini 是谷歌推出的一种大型语言模型。它是谷歌迄今为止规模最大、能力最强的人工智能模型,具有原生多模态能力,能够同时处理文本、图像和音频等多种信息。
Gemini 的训练数据集包括1.6万亿个参数,是之前的 GPT-3 的两倍。它能够理解和生成自然语言,并能够从文本、图像和音频中提取信息。
Gemini 还能够进行多种任务,包括: 生成文本、翻译语言、编写不同类型的创意内容等。 理解和回答问题,包括开放式、挑战性的和奇怪的问题。 从文本、图像和音频中提取信息,并进行分析。
太震撼了啊,没等到GPT-5,却迎来了 OpenAI 新旗舰模型GPT-4o!
5月14日凌晨,GPT-4o 在 OpenAI 官网正式发布了,GPT-4o是一个多模态模型,能够处理视频、音频和文本数据,具有实时推理的能力。它能够执行多种任务,包括实时翻译、唱歌、做数学题和讲笑话等。GPT-4o的语音响应时间非常短,平均响应时间为320毫秒,并且在MMLU评测中创下了88.7%的新高分,超过了其他市面上的大模型。
这是正儿八经的原生多模态,更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!
某种程度上,AGI 已然成为现实,我们即将迎来一个新的时代啊!
昨晚 OpenAI 发布了 GPT-4o 后,压力就给到了 Google I/O ,现在给我说 OpenAI 不是故意的,我都不信!
这场发布会体现了 Google 在 AI 领域的深厚技术积累和对未来技术趋势的洞察,同时也表明了 Google 将 AI 技术深度融合到其产品生态中的决心。
以下是发布会的一些重点概述:
发布会要点: 1、Google Search AI:发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。 2、Gemini 大模型:Gemini 1.5 Flash(100 万上下文);Gemini Pro(200 万上下文)。 3、Gemma 大模型:发布开源多模态大模型 Pali Gemma 和 Gemma2。 4、AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列产品串在一起。 5、Gemini App:手机版的 Gemini 应用程序,即将支持和 AI 视频对话,近几周发布。 6、Project Astra:最新的多模态 AI 项目,包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。
更多关于2024 谷歌I/O大会 的介绍及点评,大家可以看看这篇文章,总结的非常详细:Google I/O 2024
今天,我要向大家介绍一款超级实用且完全免费的在线AI设计工具——Designs.AI! Designs.AI不仅仅是一个设计工具,它是一个集成了多种强大功能的创意平台。无论你需要设计品牌标识、生成吸引人的文案、制作自然的语音旁白,还是创建高质量的宣传视频,Designs.AI都能轻松搞定! 它将Logo生成器、AI写作工具、语音生成器、视频生成工具和AI聊天工具等多种功能完美融合,让你在一个平台上就能完成所有设计和内容创作工作。
核心黑科技,看完直接想收藏! 1. Logo设计:AI秒出高颜值品牌名片 傻瓜式操作:输入行业关键词(如“科技感+简约”),AI自动生成100+设计方案,支持在线修改配色、字体、布局。 免费可用:基础版Logo直接下载商用,无需支付高昂设计费!(偷偷说:连企业级品牌都用它做初稿)
2. 视频生成:3分钟产出多平台爆款素材 智能模板库:输入产品卖点,AI自动匹配行业热门模板(带货、品牌宣传、教程类全覆盖)。 一键配音+字幕:搭配AI语音合成(支持中英文),自动生成带字幕的视频文件,剪辑小白秒变大神!
3. AI文案:批量生产吸睛内容 场景化写作:输入“小红书种草文案+美妆关键词”,瞬间生成10条高互动率文案。 SEO优化:自动生成关键词布局方案,一键插入文章,省下外包优化费!
4. 智能助手:你的24小时创意顾问 AI聊天室:输入“如何提升视频完播率?”,AI秒回专业策略+案例参考。 图片变视频:上传静态图,AI自动添加动态效果、背景音乐,秒变创意大片!
工具地址:https://designs.ai/
看到 Niji 发布的预告来演示局部重绘(inpaint)的效果,是 Midjourney 即将发布局部重绘功能,对于MJ的AI绘画最头痛就是生成一张图片,如果只有细节不满意就要重新抽卡生成,这样导致很多不可控的效果出来而且浪费时间,而即将推出的Inpainting(局部重绘)功能就很好解决这个问题。
这个新功能就像 PS 的AI一样,只需要涂抹一个区域,然后加入关键词就能重新绘制或替换这个区域。至少再也不用担心出现 3 只手,6 根手指头的情况了。有没有小伙伴有内部的消息,Midjourney AI 创意局部重绘功能什么时候能上线啊?
字节跳动的研究人员开发了一种超高清文生视频模型MagicVideo-V2。
这是一个集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块的端到端视频生成pipeline。MagicVideo-V2能够从文本描述中生成具有高美感、高分辨率、高保真度和流畅性的视频。通过大规模用户评估,它在人类视觉感知方面表现出优秀的性能。
MagicVideo-V2的设计包括以下关键模块: - 文本到图像模型:从给定的文本提示生成一个1024×1024的图像作为视频生成的参考图像。 - 图像到视频模型:使用文本提示和生成的图像作为条件生成关键帧。 - 视频到视频模型:对关键帧进行细化和超分辨率处理,生成高分辨率视频。 - 视频帧插值模型:在关键帧之间插值生成平滑的视频运动,并最终生成高分辨率、流畅、高美感的视频。
论文地址:https://arxiv.org/abs/2401.04468 项目地址:https://magicvideov2.github.io/
GPT-5 来了!这次不是“渐进式升级”,而是 LLM 的“石器时代革命”! 经过两年打磨,OpenAI 终于掏出了“终极大杀器”——GPT-5!这不仅是“更强、更快、更便宜”的升级版,更是全球首个能“主动用工具思考”的 AI,堪称开发者手中的“瑞士军刀”!
核心亮点:为什么说 GPT-5 是“地表最强”? 1️⃣ 编程能力封神!秒杀所有对手 - SWE-bench 测试碾压全场:74.9% 的解决率,吊打 Google Gemini 2.5 Pro(59.6%)和 Claude Opus 4.1(74.5%)。 - 实战表现炸裂:一键修复复杂依赖冲突、从零搭建全栈网站(HTML/CSS/JS)、生成生产级 ClickHouse 数据库查询……开发者直呼:“这哪像 AI,根本就是我的私人大神队友!” - 工具调用天花板:并行使用网络搜索、代码解释器、Git 命令……像真人一样规划步骤、试错优化,效率翻倍!
2️⃣ 成本狂降!开发者狂喜 - 输入仅需 1.25 美元/百万 tokens(比 GPT-4o 便宜 50%),输出 10 美元/百万 tokens(仅为 Claude Opus 4 的 13%)。 - 免费用户直接躺赢:所有人默认可用 GPT-5 基础版,Plus 用户升级不限量,Pro 用户($200/月)可解锁“加强版”无限制调用! - 开发者套餐更狠:nano 版本 0.05 美元/百万 tokens,写个小工具的成本还不如一顿早餐钱!
3️⃣ AGI 的“石器时代”开端 - 用工具思考,而非只会回答问题:GPT-5 能自主决定何时调用网络搜索、代码库或数学工具,像人类一样分解任务、迭代优化。 - 安全与实用性双修:幻觉率大幅降低,医疗/法律场景更可靠;还能诚实承认“我不知道”,拒绝危险请求。 - 长文本处理神器:256k tokens 上下文窗口(约 50 万汉字),读完一本《活着》不在话下!