谷歌在近期的 I/O 大会上全面展示了其在 “通用 AI” 领域的深度布局,凭借强大的 Gemini 大模型,正将普通用户转化为 AI 产品用户。
- AI 搜索、多模态能力提升 :谷歌搜索引擎 AI Mode 深入,基于 Gemini 的 AI 总结功能覆盖超 15 亿用户,调用增长超 10%;谷歌 Lens 月活用户超 15 亿。此外,“虚拟试穿” 功能利用大模型理解人体与服装,Chrome 浏览器深度整合 Gemini 接口,新增 “AI 模式”,支持深度研究,甚至能访问用户搜索记录和邮件,Gemini 2.5 Pro Deep Think 在多项竞赛中成绩优异。
- 硬件生态拓展 :谷歌宣布 Android XR 新进展,展示 XR 眼镜原型机,与三星、XREAL、Gentle Monster 等合作研发硬件设备,推动 AI 眼镜发展。
- AI 创作工具升级及订阅服务 :推出 Veo3、image4、Lyria2、FLOW 等 AI 创作工具,同时发布 AI Pro 与 AI Ultra 订阅服务,顶配 AI Ultra 月费 1800 元,提供多种增值服务。
谷歌正通过软件硬件双管齐下,将 AI 深度融入其生态各个角落,在端侧 AI 时代积极进击,有望重新定义下一代 AI 产品标准。
今天我要向大家介绍一个非常强大的工具——Perplexity Deep Research。在Humanity’s Last Exam这个测试中,我刷到了20.5%的成绩,这个成绩超过了目前发布的所有模型,仅次于OpenAI的Deep Research。最棒的是,这个工具是免费提供的!
让我来简单介绍一下它的工作原理: 1. 研究推理:Perplexity的深度研究模式配备了搜索和编码功能,能够迭代搜索、阅读文档,并推理下一步行动。我自己在使用时,发现它能够非常智能地找到相关材料并进行深入分析。 2. 报告撰写:一旦源材料被全面评估,它会将所有研究综合成一份清晰而全面的报告。我在使用过程中,发现生成的报告非常详细且易于理解。 3. 导出与分享:你可以将最终报告导出为PDF或文档,或者将其转换为Perplexity Page,与同事或朋友分享。我自己就经常把报告导出为PDF,方便与团队共享。
关于测试得分,Humanity’s Last Exam上达到了20.5%的准确率,这个成绩显著高于Gemini Thinking、o3-mini、o1、DeepSeek-R1等众多领先模型。在SimpleQA基准测试中,Perplexity Deep Research以93.9%的准确率远超其他领先模型的性能,这个测试包含数千个用于检验事实性的问题。而且,Perplexity Deep Research在完成大多数研究任务时仅需不到3分钟,效率非常高。
首先有一个误区,很多人觉得开源就是免费,开源就是没有版权。其实这是完全错误的理解! 开源≠免费。开源≠没有版权。开源≠随意商用。开源≠完全透明。
对开源模型的理解,目前大致有四个 Level,开放程度依次增加: 1. 封闭式“开源”(以 OpenAI 为代表) - 核心理念:早期以开源和非营利为目标,逐渐转向封闭模式,通过 API 提供服务,不公开模型权重和训练细节。 - 特点:模型权重和训练数据不公开,仅提供黑箱化的 API,通过订阅服务和 API 收费实现盈利,有助于控制模型滥用风险。 - 争议:违背了开源的核心精神,被批评为技术垄断。
2. 自定义开源(以 Meta 为代表) - 核心理念:开源模型(如 LLaMA),但采用自定义许可证(如 LLaMA 社区许可协议),强调研究和非商业用途,限制商业使用。 - 特点:公开模型权重,但限制商业使用和分发,主要面向学术机构和非营利组织,用户需申请访问权限。 - 争议:自定义许可证限制了模型的广泛使用,不符合完全开源的定义。
3. 传统开源(以 DeepSeek 为代表) - 核心理念:采用传统开源许可证(如 Apache 2.0),完全开放模型权重和代码,强调自由使用、修改和分发,包括商业用途。 - 特点:模型权重、代码和部分训练数据公开,允许商业使用,无歧视性限制,鼓励社区协作和创新。 - 优势:符合传统开源定义,推动技术普及和创新。
4. 理想开源(以 OSI 为代表) - 核心理念:OSI 正在制定 OSAID 1.0(Open Source AI Definition),旨在为开源 AI 系统提供明确标准,强调透明度、可访问性和可修改性。 - 特点:要求公开模型权重,允许用户自由使用,尽可能公开训练数据的来源和组成,训练和推理代码必须开源,不得限制特定用户群体或用途。 - 目标:确保开源 AI 系统符合开源精神,推动技术民主化。
Gemini CLI已经发布几天了,很多人拿它跟 Claude Code 对比了一下编程能力,觉得能力不如 Claude Code,就弃之不用了,实际上是错误理解它的定位了。
Gemini CLI(https://github.com/google-gemini/gemini-cli)不是一个编程工具,它可以有很多用途,比如翻译文章、搜索、整理文件、子Agent
Claude Code 由于编程能力过于突出,包括后来的Codex-cli也是定位编程 Agent,所以大家对于CLI Agent天然以为是用来编程的,实际上可以做很多其他任务。
比如我用它来翻译: > 请翻译网页(https://www.anthropic.com/research/project-vend-1)的内容为中文,并保存为 Markdown 文件
还可以让它帮你整理文件夹: > 请把目录下的照片按照日期归档
让它帮你搜索: > 请检索今天的 AI 新闻
还可以把它当作你程序的子 Agent,比如你可以在自己的程序里面通过命令 gemini -p "" 调用,然后解析调用后结果。
> gemini -p "今天芝加哥天气怎么样?" > 今天芝加哥天气晴朗,最高温度约为 81°F(约 27°C),最低温度约为 72°F(约 22°C)。风速为 5 至 10 英里/小时,湿度为 66%。今天下雨的概率为 0%。
当然我这里只是抛砖引玉,更多用途还需要等你发掘,欢迎留言分享!
by:微博 @宝玉xp