腾讯发布了 ToonCrafter,是一种新型的卡通动画生成技术,可以通过生成插值方法生成自然、连贯的卡通动画中间帧。该技术超越了传统基于对应关系的卡通视频插值方法,能够处理复杂的非线性运动和遮挡问题,使动画过渡更加平滑自然。
从演示来看效果很好,过渡很顺滑,而且没有明显问题。ToonCrafter 利用预训练的图像到视频模型,可以插值两幅卡通图像,并根据参考图像对动画草图自动上色。它支持生成最多16帧的视频,每帧分辨率为512x320。通过减少DDIM步骤,可以降低推理时间。
还设计了一个灵活的草图编码器,使用户能够对插值结果进行互动控制。
项目地址:ToonCrafter
就在刚刚,著名生成式 AI 音乐平台 Elevenlabs 在官网发布了全新功能,文本可直接生成各种逼真音乐特效。
这项技术对于电影、游戏、短视频等行业非常有帮助,因为它可以简化寻找音效的过程,并且多数音效已经获得了 Shutterstock 的商业授权。
Elevenlabs 的这个新功能允许用户通过描述来生成音效,例如汽车呼啸而过的声音、刀剑碰撞的低沉声音或小提琴划过空气的尖锐声音。用户可以登录 Elevenlabs 的官网,选择 “Sound Effects” 并使用该功能。在生成音效之前,用户可以设置音效的时长和文本提示的还原程度。Elevenlabs 还提供了一些示例音效,如雷雨天气的声音和模仿兽人声音的摇滚音乐。
Elevenlabs还提供了语音克隆和文本转语音的功能,但目前对中文的支持较差,生成英文的效果则非常棒。
现在所有用户都可以免费试用 Elevenlabs 的这个新功能。大家可以访问 Elevenlabs 官网了解更多详情。
今天我要推荐的网站,能为你提供未来感十足的AI网站生成体验!
Framer 由Koen Bok和Jorn van Dijk于2014年创立。他们曾在Facebook和Hype进行产品设计和开发,看到现有设计工具无法满足创建复杂互动原型的需求,于是创立了Framer。当下,Framer已经成为设计和开发领域的重要工具。
虽然在实时协作和矢量设计方面,Figma等竞争对手更具优势,但Framer凭借其在互动原型和动画方面的强大功能,保持了在设计工具市场中的重要地位。
✨ Framer亮点 ✨ ① 无代码设计:你无需编程基础,通过拖放组件即可创建复杂的交互效果。 ② 实时协作:多人同时编辑和评论,团队合作更加高效流畅。 ③ 自动化设计:智能布局和响应式设计功能,让你的作品在任何设备上都完美呈现。这也是最打动我的一点。现在大大小小的设备太多了,能做到多端适配,简直感动到哭。 ④ 丰富的模板和组件:海量模板和UI组件库,助你快速启动项目,节省时间。 ⑤ 高保真原型:从静态设计到动态原型,一气呵成,完美展示用户体验。
官网地址:Framer
昨天(5月30日)凌晨,OpenAI 在 x 平台宣布,GPT-4o 多模态能力向所有用户免费开放。不过,在使用次数上官方没有更新公告,预计还是会是有一定次数限制。
北京时间 5 月 14 日凌晨,OpenAI 举办发布会,带来了 GPT-4o 。该模型打通了文本、图片、视频和语音输入,无需中间转换,互相之间就可以直接生成。此次发布会还带来了更智能的实时语音助手,以及适用于 macOS 的 ChatGPT 桌面应用程序。
当时,OpenAI 宣布向 ChatGPT Plus 和 Team 用户推出 GPT-4o,很快就会向企业用户推出。同时,也向所有人开放 GPT-4o 多模态能力,但有使用次数限制。
随着今年WWDC的临近,记者 Gurman 在其最新一期《Power On》专栏中,为我们揭秘了苹果在人工智能领域的最新进展。苹果将对其智能助手Siri进行升级,新版本的Siri将依托于苹果自主研发的LLM技术,为用户提供更为智能的服务。
除此之外,苹果还将在多个方面引入AI技术以增强用户体验,例如通过AI技术实现语音备忘录的自动转录、照片的智能修饰,以及Spotlight和Safari搜索功能的优化。而且,AI还将能够根据用户的短信内容,动态生成个性化的表情符号。
在个性化界面方面,苹果也做出了创新。用户将能够摆脱网格的限制,自由地在屏幕上摆放图标,并可以自定义图标的颜色,这一改进虽与AI无直接关系,但无疑将极大地提升用户体验。
同时,有消息称苹果将在即将到来的 iOS 18 和 macOS 15 系统中,为 Safari 浏览器加入一系列人工智能支持的新功能。
1、智能搜索。 苹果可能在搜索中引入 Ajax 语言模型来提供文本摘要。
2、Web橡皮擦:这一功能强调用户界面的简化和隐私保护的增强,允许用户自定义网页内容,删除不需要的元素,如广告和图片。
3、用户界面更新:苹果正在将 Safari 的关键工具集中到一个位置,以提高用户的访问效率。
4、 AI增强的视觉查找:苹果可能在2025年推出高级视觉搜索功能,允许用户通过图像获取信息,类似于 Siri 目前识别照片中的植物、宠物和地标的功能。
这些新功能的加入,将使Safari浏览器的使用体验更上一层楼,你觉得哪项最实用呢?
今天凌晨,微软带来了一系列重磅产品,一口气发布了 50 多项更新。
发布会上,微软 CEO Satya Nadella 谈到了关于现代计算的两个梦想。一个是计算机是否可以理解我们,而不是我们必须理解计算机?第二个是在这个信息不断增加的世界里,计算机能否帮助我们根据所有这些信息进行推理、规划和更有效地采取行动? 从 AI 基础设施的搭建,到模型产品的落地,微软在寻找答案的过程中,逐渐成长为一个全方位的 AI 解决方案提供商。今夜过后,或许我们都得重新审视微软这个巨头。
发布会要点速览: 1、Team Copilot ,从个人助理变成团队助理 2、全新的 Agent 代理功能 3、Phi-3 家族迎来新成员 4、Azure AI Studio,包含 API 集成、完整的工具链及部署全家桶 5、Fabric 大升级,推出实时智能(real-time intelligence) 6、专为云端规模化应用性能优化的 Cobalt 芯片
发布会更多详情:https://mp.weixin.qq.com/s/MoHPci4JAb25ifDhMwUWiQ
现在,你可以像和 ChatGPT 聊天一样使用谷歌地图了。
谷歌地图最新升级包括以下 5 点: 1. 对话式地图搜索 直接与 Google Maps 聊天搜索信息,AI 将使用 Google Maps 上的商户信息、照片、评分和评论等信息来提供可信的结果。
2. 实时查看地图 只需点击相机图标即可使用实时视图进行搜索。谷歌地图会显示附近的 ATM、餐厅、公园和公交站,并显示其开放时间和评级,且跟随 AR 箭头,准确引导您到达目的地。
3. 全新沉浸式视图 在正式访问地点之前先确定其范围,查看逼真的视图,并获取天气预报、高峰时段等有用信息,而且还能查看室内景观。比如在订餐时可以展现餐厅氛围,帮助您选择。
4. 新增多重搜索 现在,您可以结合文字和图像, 在 Google 地图上访问数百万本地企业的信息。
5. 获取人工智能建议 随时随地获取人工智能支持的建议。如果开始下雨,可以向地图询问“雨天活动”并获取附近的喜剧表演或电影院等建议。
2024 春季火山引擎 Force 原动力大会大家看了吗?放大招了,火山引擎第一次正式亮相了豆包大模型家族,一口气直接祭出了9个成员。
以下是大会的重点信息概要:
1. 核心模型:豆包通用模型分为两个尺寸,大杯(Pro)和中杯(Lite),其中Pro版本窗口尺寸最大可达128K,全系列可精调;Lite版本响应速度快。 2. 价格优势:豆包通用模型Pro的价格远低于行业标准,小于32K窗口尺寸的价格为0.0008元/千tokens,128K窗口尺寸为0.005元/千tokens。 3. 使用量:豆包大模型自上线以来,每天处理的token数量高达1200亿,生成图片数量为3000万张。 4. 多场景应用:豆包大模型在抖音、今日头条等50多个场景中进行实践和验证。 5. 文本对话与语音功能:豆包大模型在文本对话和语音合成方面表现出色,提供了更自然、更像人的声音效果。 6. 角色扮演模型:豆包大模型还包括角色扮演模型,允许用户与虚拟角色进行对话。 7. AI应用开发平台:火山引擎还发布了一站式AI应用开发平台“扣子(coze)”,支持用户通过简单的操作来创建智能体。 8. 火山方舟2.0:火山引擎的MaaS平台火山方舟升级到2.0版本,提供一站式服务,让企业可以快速落地大模型应用。 9. 安全性与稳定性:火山方舟在算力、算法和安全层面提供了优化方案,包括GPU资源池、SFT训练引擎和安全沙箱等。 10. 差异化插件:火山引擎提供了联网插件、内容插件和RAG知识库插件,以提供差异化服务。 11. 战略差异:火山引擎的战略与其他大模型厂商不同,更注重实际使用量和用户体验,而不是仅仅依赖榜单分数和参数规模。 12. 市场反馈:豆包APP累计下载量超过1亿,火山引擎与多个行业的企业合作,共同优化大模型。 13. 总体评价:火山引擎的大模型以更大的使用量、更低的价格、更多的应用场景、更人性化和智能化的特点,展示了其在大模型时代的竞争力。
小编觉得本次大会最吸引我的当属这个文本对话语音功能了,很逼真了,大家可以一起感受一下:(右键视频-显示控件-可以打开声音)
更多介绍可以戳这里: 2024 春季火山引擎 Force 原动力大会