近日,谷歌的全新人工智能模型 Gemini 1.0 引起了广泛的关注。Gemini 到底是个什么样的模型,为什么说比 GPT-4 强呢?
Gemini 是谷歌推出的一种大型语言模型。它是谷歌迄今为止规模最大、能力最强的人工智能模型,具有原生多模态能力,能够同时处理文本、图像和音频等多种信息。
Gemini 的训练数据集包括1.6万亿个参数,是之前的 GPT-3 的两倍。它能够理解和生成自然语言,并能够从文本、图像和音频中提取信息。
Gemini 还能够进行多种任务,包括: 生成文本、翻译语言、编写不同类型的创意内容等。 理解和回答问题,包括开放式、挑战性的和奇怪的问题。 从文本、图像和音频中提取信息,并进行分析。
设计师新宠来啦!初创公司 Luma 全新发布 Dream Machine,能从文本/图像直接生成视频。感觉比 Sora 也差不了多少。
Dream Machine 120秒就能给你做出一个120帧的视频!这速度,想改点啥,马上就能再做一个新的,太高效了!而且镜头效果超自然,Dream Machine还超级懂镜头语言!它能模拟出各种电影级的摄像机运动,让你的视频看起来就像大片一样流畅、自然。
大家可以看看下面的演示视频,它还能理解人和物是怎么在现实中互动的,所以做出来的视频里,角色和场景都超级真实,一点都不会觉得假。
最最最主要的是,现在人人都可以免费体验!服务器都快被大家挤爆了,你还在等啥呢?赶紧来试试吧!
体验地址:https://lumalabs.ai/dream-machine
昨晚 OpenAI 发布了 GPT-4o 后,压力就给到了 Google I/O ,现在给我说 OpenAI 不是故意的,我都不信!
这场发布会体现了 Google 在 AI 领域的深厚技术积累和对未来技术趋势的洞察,同时也表明了 Google 将 AI 技术深度融合到其产品生态中的决心。
以下是发布会的一些重点概述:
发布会要点: 1、Google Search AI:发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。 2、Gemini 大模型:Gemini 1.5 Flash(100 万上下文);Gemini Pro(200 万上下文)。 3、Gemma 大模型:发布开源多模态大模型 Pali Gemma 和 Gemma2。 4、AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列产品串在一起。 5、Gemini App:手机版的 Gemini 应用程序,即将支持和 AI 视频对话,近几周发布。 6、Project Astra:最新的多模态 AI 项目,包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。
更多关于2024 谷歌I/O大会 的介绍及点评,大家可以看看这篇文章,总结的非常详细:Google I/O 2024
太震撼了啊,没等到GPT-5,却迎来了 OpenAI 新旗舰模型GPT-4o!
5月14日凌晨,GPT-4o 在 OpenAI 官网正式发布了,GPT-4o是一个多模态模型,能够处理视频、音频和文本数据,具有实时推理的能力。它能够执行多种任务,包括实时翻译、唱歌、做数学题和讲笑话等。GPT-4o的语音响应时间非常短,平均响应时间为320毫秒,并且在MMLU评测中创下了88.7%的新高分,超过了其他市面上的大模型。
这是正儿八经的原生多模态,更重要的是可以实时推理音频、视觉和文本,注意这里是实时,实时,实时,推理的不是文本,是音频!视觉!
某种程度上,AGI 已然成为现实,我们即将迎来一个新的时代啊!
GPT-5 来了!这次不是“渐进式升级”,而是 LLM 的“石器时代革命”! 经过两年打磨,OpenAI 终于掏出了“终极大杀器”——GPT-5!这不仅是“更强、更快、更便宜”的升级版,更是全球首个能“主动用工具思考”的 AI,堪称开发者手中的“瑞士军刀”!
核心亮点:为什么说 GPT-5 是“地表最强”? 1️⃣ 编程能力封神!秒杀所有对手 - SWE-bench 测试碾压全场:74.9% 的解决率,吊打 Google Gemini 2.5 Pro(59.6%)和 Claude Opus 4.1(74.5%)。 - 实战表现炸裂:一键修复复杂依赖冲突、从零搭建全栈网站(HTML/CSS/JS)、生成生产级 ClickHouse 数据库查询……开发者直呼:“这哪像 AI,根本就是我的私人大神队友!” - 工具调用天花板:并行使用网络搜索、代码解释器、Git 命令……像真人一样规划步骤、试错优化,效率翻倍!
2️⃣ 成本狂降!开发者狂喜 - 输入仅需 1.25 美元/百万 tokens(比 GPT-4o 便宜 50%),输出 10 美元/百万 tokens(仅为 Claude Opus 4 的 13%)。 - 免费用户直接躺赢:所有人默认可用 GPT-5 基础版,Plus 用户升级不限量,Pro 用户($200/月)可解锁“加强版”无限制调用! - 开发者套餐更狠:nano 版本 0.05 美元/百万 tokens,写个小工具的成本还不如一顿早餐钱!
3️⃣ AGI 的“石器时代”开端 - 用工具思考,而非只会回答问题:GPT-5 能自主决定何时调用网络搜索、代码库或数学工具,像人类一样分解任务、迭代优化。 - 安全与实用性双修:幻觉率大幅降低,医疗/法律场景更可靠;还能诚实承认“我不知道”,拒绝危险请求。 - 长文本处理神器:256k tokens 上下文窗口(约 50 万汉字),读完一本《活着》不在话下!
看到 Niji 发布的预告来演示局部重绘(inpaint)的效果,是 Midjourney 即将发布局部重绘功能,对于MJ的AI绘画最头痛就是生成一张图片,如果只有细节不满意就要重新抽卡生成,这样导致很多不可控的效果出来而且浪费时间,而即将推出的Inpainting(局部重绘)功能就很好解决这个问题。
这个新功能就像 PS 的AI一样,只需要涂抹一个区域,然后加入关键词就能重新绘制或替换这个区域。至少再也不用担心出现 3 只手,6 根手指头的情况了。有没有小伙伴有内部的消息,Midjourney AI 创意局部重绘功能什么时候能上线啊?
又是一匹黑马!今天要给大家介绍的创意新宠Kittl!是一款在线的 AI 设计工具,同时也能为非专业人士提供一站式的设计赋能。目前已经拿了2轮融资,今年1月的B轮,拿了3600万美元。现在的kittl,每个月将近有300W的惊人访问量!
主要亮点: ① 实时文本变形:数千款可定制字体字型,轻松实现创意设计。 ② 海量免费素材库:上百万免费素材,随意插入图标、插画等。 ③ 一键生成矢量logo:支持行业风格定制,满足多种设计需求。 ④ 产品实景展示图:直观预览设计效果,所见即所得。 ⑤ 流行色彩板:一键替换设计中的颜色,轻松实现多种配色方案。
试玩地址:https://www.kittl.com/