Meta 公司今天宣布了一款新的 AI 视频生成器 Movie Gen,该工具能够生成带有声音的高清视频。 Sora 有的它都有,可创建不同宽高比的高清长视频,支持 1080p、16 秒、每秒 16 帧。 Sora 没有的它还有,能生成配套的背景音乐和音效、根据文本指令编辑视频,以及根据用户上传的图像生成个性化视频。
核心功能介绍: - Movie Gen 能够使用文本输入自动生成带有声音的高清视频。 - 可以编辑现有视频素材或静态图像。 - 视频中的音频也由 AI 生成,与图像匹配环境噪音、音效和背景音乐。 - 可以生成不同宽高比的视频。 - 能够从图像创建自定义视频或更改现有视频中的元素。
近日 DeepSeek R2 的最新参数引发了行业内外的广泛关注,以下是爆料的关键信息:
📌 参数规模:1.2万亿参数,780亿活跃参数,采用混合专家模型(MoE)架构。 📌 成本优势:与GPT-4相比,成本大幅降低,输入每百万次仅需0.07美元,输出每百万次仅需0.27美元,成本降低97.3%。 📌 训练数据:使用了5.2PB的训练数据,在C-Eval 2.0测试中达到了89.7%的准确率。 📌 视觉性能:在COCO(Common Objects in Context)图像识别测试中,准确率高达92.4%,视觉性能显著提升。 📌 硬件适配:在华为昇腾910B芯片上的利用率高达82%,显示出良好的硬件适配性。
此次泄露的信息显示,DeepSeek R2正逐步摆脱对美国供应链的依赖,这一转变可能对全球AI产业格局产生深远影响。有业内人士指出,部分爆料内容存在逻辑矛盾,甚至存在外网推文引用中文非正规渠道消息的情况。关于DeepSeek R2的发布时间及网传参数真实性,仍需谨慎看待。
如果DeepSeekR2真的发布了,对此你有什么期待?
WordHero以其80多种写作工具,全面覆盖博客文章、广告文案、电子邮件和社交媒体帖子等各类内容创作需求。
该工具通过先进的AI语言模型,拥有1750亿机器学习参数,能够在短时间内自动生成原创、类人内容,极大地节省了研究和写作的时间,同时降低了雇佣专业文案的成本。
WordHero的三大动态生成模式——生成器模式、编辑器模式和WordHero聊天,为用户提供了多样化的内容创作解决方案。特别是WordHero Art功能,允许用户通过单一命令创建高质量的AI图像,为社交媒体帖子和博客文章增添吸引力。
用户评价显示,WordHero不仅提高了内容创作的效率,还提升了内容质量。一位用户表示:“我使用WordHero写过超过2000字的文章,只需轻微编辑,比我自己动手写得还要好。它每次都能为我节省数小时的时间,并创造出更优质的内容。”
今天凌晨,OpenAI CEO Sam Altman 罕见地发布了一篇解读智能时代的博客长文。
在这篇博文中,Sam Altman讨论了超级智能时代的到来,以及为什么人们不应该害怕 AI。他强调了技术进步,特别是深度学习的重要性,以及它如何帮助我们构建新的支撑结构和解决难题。他还提到了人工智能将如何成为个人助理,提供个性化指导和创造,以及如何通过降低算力成本和建立基础设施来普及 AI。
Sam Altman 还提到了人工智能对劳动市场的影响,以及社会应该如何适应这些变化。他对未来持乐观态度,认为智能时代将带来空前的繁荣,并鼓励人们向前看,不要留恋那些已经不适应现代社会的旧事物。大家感兴趣的话,可以看看原文,闲暇之余,大家也可以在评论区讨论一下:未来人工智能的发展有哪些可能的挑战和机遇?
Devin是首个AI程序员,它能够通过借用其创造者的账号与客户公司的CTO进行交流,并根据回复调整代码方案。
事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。
Devin的开发商是Cognition,而Modal Labs是它的首批客户之一。在一次交流中,Devin询问了关于密钥生命周期的问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。尽管Devin已经查阅了大量文档,但仍然没有找到关于密钥传播时间的明确信息。通过与Modal Labs的CTO交流,Devin了解到更新的密钥不会使已经运行的容器失效,但新启动的容器将会读取更新后的值。
Devin能够自主把任务拆解成一系列子步骤,并一步步执行,甚至在遇到障碍时能够查阅文档并修改后续计划。
大家觉得这波修复BUG属于什么水平,优秀的程序员也不过如此了吧?感兴趣的小伙伴可以看看详细的过程→ 原文链接
Gemini CLI已经发布几天了,很多人拿它跟 Claude Code 对比了一下编程能力,觉得能力不如 Claude Code,就弃之不用了,实际上是错误理解它的定位了。
Gemini CLI(https://github.com/google-gemini/gemini-cli)不是一个编程工具,它可以有很多用途,比如翻译文章、搜索、整理文件、子Agent
Claude Code 由于编程能力过于突出,包括后来的Codex-cli也是定位编程 Agent,所以大家对于CLI Agent天然以为是用来编程的,实际上可以做很多其他任务。
比如我用它来翻译: > 请翻译网页(https://www.anthropic.com/research/project-vend-1)的内容为中文,并保存为 Markdown 文件
还可以让它帮你整理文件夹: > 请把目录下的照片按照日期归档
让它帮你搜索: > 请检索今天的 AI 新闻
还可以把它当作你程序的子 Agent,比如你可以在自己的程序里面通过命令 gemini -p "" 调用,然后解析调用后结果。
> gemini -p "今天芝加哥天气怎么样?" > 今天芝加哥天气晴朗,最高温度约为 81°F(约 27°C),最低温度约为 72°F(约 22°C)。风速为 5 至 10 英里/小时,湿度为 66%。今天下雨的概率为 0%。
当然我这里只是抛砖引玉,更多用途还需要等你发掘,欢迎留言分享!
by:微博 @宝玉xp
OpenAI宣布为企业用户推出两大重磅功能,让ChatGPT真正融入工作场景:
1. 一键连接企业知识库 通过“连接器”功能,ChatGPT可直接访问企业内部系统(如Outlook、Google Drive、Gmail、SharePoint等) 自动检索用户有权限查看的文件、邮件、数据 即时解答工作问题,相当于给企业配了AI知识管家
2. 会议记录自动化 开启“录音模式”,ChatGPT自动完成: ✓ 实时语音转文字 ✓ 提炼会议重点 ✓ 标记发言时间点 ✓ 点击时间戳快速回听关键讨论 适用于线上会议、电话沟通、灵感速记等场景
此次升级让ChatGPT从聊天工具转型为智能工作中枢,企业数据仍受严格权限保护,仅处理授权内容。
在 2025 年 Google I/O 大会上,Google 宣布了一项极具吸引力的消费级 AI 应用功能:虚拟试衣(Virtual Try-On)。 - 基于新一代 图像生成模型,专为时尚场景设计 - 能理解不同体型、姿势、照片构图 - 首次在如此大规模商品数据库(10 亿级别)中应用
上传一张自己照片 AI 将在几秒钟内生成你穿上该商品的逼真效果图 - 基于新一代 图像生成模型,专为时尚场景设计 - 依托全球 500 亿商品数据,提供实时可信商品信息 - 还可以根据用户需求主动进行 多条件搜索与比较、比价分析 - 购物流程全自动执行,还可以自动支付下单
更多详细介绍👉 https://www.xiaohu.ai/c/xiaohu-ai/google-ai-7ff104
Google昨天正式上线了其全新的Search Live语音搜索功能,该功能基于Gemini模型,并内置于iOS和Android版Google应用中,适用于已加入AI Mode实验的用户。
Search Live 的核心功能与特点 1. 实时语音对话 用户可以通过语音与搜索引擎进行自然对话,无需手动输入关键词。例如,用户可以问:“如何防止行李箱中的亚麻裙起皱?” Search Live 会以 AI 生成的语音回答,并支持后续提问,如“如果还是起皱了怎么办?”。这种连续追问的机制使得搜索过程更加流畅和高效。
2. 网页链接辅助 每次回答都会附带相关网页链接,方便用户跳转查看详细信息或验证答案来源,确保信息透明可信。这种设计不仅提升了信息的可信度,也增强了用户的信任感。
3. 多模式切换 用户可以一键切换至文字视图,查看对话转录文本,或通过打字继续提问,灵活适应不同使用场景。这种灵活性使得 Search Live 适用于多种场景,如驾驶、旅行或多任务处理时。
4. 后台持续运行 即使切换到其他应用,Search Live 对话依然保持活跃,真正实现多任务并行。这一功能极大地提升了用户的操作效率,尤其是在需要同时处理多个任务的情况下。
5. 历史记录保存 所有对话自动保存在 AI Mode 历史记录中,用户可随时回顾或继续之前的搜索。这种设计不仅方便用户回顾之前的搜索记录,也便于用户在需要时快速找到相关信息。