Gemini CLI已经发布几天了,很多人拿它跟 Claude Code 对比了一下编程能力,觉得能力不如 Claude Code,就弃之不用了,实际上是错误理解它的定位了。
Gemini CLI(https://github.com/google-gemini/gemini-cli)不是一个编程工具,它可以有很多用途,比如翻译文章、搜索、整理文件、子Agent
Claude Code 由于编程能力过于突出,包括后来的Codex-cli也是定位编程 Agent,所以大家对于CLI Agent天然以为是用来编程的,实际上可以做很多其他任务。
比如我用它来翻译: > 请翻译网页(https://www.anthropic.com/research/project-vend-1)的内容为中文,并保存为 Markdown 文件
还可以让它帮你整理文件夹: > 请把目录下的照片按照日期归档
让它帮你搜索: > 请检索今天的 AI 新闻
还可以把它当作你程序的子 Agent,比如你可以在自己的程序里面通过命令 gemini -p "" 调用,然后解析调用后结果。
> gemini -p "今天芝加哥天气怎么样?" > 今天芝加哥天气晴朗,最高温度约为 81°F(约 27°C),最低温度约为 72°F(约 22°C)。风速为 5 至 10 英里/小时,湿度为 66%。今天下雨的概率为 0%。
当然我这里只是抛砖引玉,更多用途还需要等你发掘,欢迎留言分享!
by:微博 @宝玉xp
Black Forest Labs 发布了 FLUX.1 Kontext [dev] 模型,这是其图像编辑模型 FLUX.1 Kontext [pro] 的开源开发版本,拥有 12B参数,具备 接近专有工具的图像编辑能力,并可在消费级硬件上运行。
它的厉害之处在于: 1. 精准编辑: 能非常准确地修改图片的局部或整体,比如添加物品、更换背景、替换特定对象(狗换猫,人不变),多次修改也不会失真变形。 2. 保持角色一致: 修改图片时,能保持人物的样子(脸、穿着)前后一致。 3. 本地运行免费: 最大的亮点是,它能在你自己的电脑(消费级硬件)上运行,不需要联网上传图片,完全免费(用于研究和非商业用途)!这就打破了GPT-4o和Gemini等收费巨头在这类图像编辑上的垄断。 4. 性能强劲: 官方测试显示,在编辑精度、角色一致性等方面,它的表现甚至超过了谷歌的Gemini-Flash和一些其他开源模型,效果接近最好的闭源工具。 5. 方便好用: 它能和流行的图像生成工具 ComfyUI 无缝结合,操作更简单。官方还提供了很多模板和例子指导怎么用。
总结来说: FLUX.1 Kontext [dev] 提供了一个强大、精准、免费且能保护隐私(本地运行)的图像编辑AI新选择,性能直逼顶尖收费工具。如果你对AI修图感兴趣,值得关注!
模型和技术报告已在 Hugging Face 和 arXiv 平台公开:
- 模型下载: https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev - ComfyUI 使用教程:https://docs.comfy.org/tutorials/flux/flux-1-kontext-dev
今天给大家分享一个ChatGPT指令大全网站,提供数百个精炼的ChatGPT指令,帮助用户充分发挥ChatGPT的强大功能。 可以说这是一个多功能AI生产力工具,专为职场人士、学生、开发者和内容创作者设计,覆盖求职、写作、编程、学习、行销、管理等数十个场景。
✅ 写不出?直接抄“万能指令”! 它内置了百万级经过验证的ChatGPT指令库,覆盖设计、运营、产品、求职等10+场景。比如你是设计师,输入“帮我写一份海报设计说明,突出‘国潮风+年轻化’,包含视觉元素解析+用户心理洞察”,秒出专业文档; 运营写文案卡壳?直接搜“奶茶店开业朋友圈文案,要带烟火气+促单”,分分钟生成能戳中用户的金句——不用自己憋灵感,直接用“别人验证过的模板”。
✅ 学不会?AI当你的“私教”! 想入门Midjourney但总调不出想要的图?想做短视频但不懂运镜?它整理了技术知识库+实战案例,从“设计软件技巧”到“生成式AI底层逻辑”,连FAANG工程师的系统设计笔记都给你扒来了——不用到处翻碎片化内容,跟着系统学,效率直接翻倍。
✅ 求职难?AI帮你“包装” 简历没亮点?用它的“AI简历优化器”,输入你的项目经历,它能自动提炼“可量化成果”(比如把“做了海报”改成“设计3版海报,点击率提升40%”); 面试紧张?用“模拟面试题库”,输入岗位JD,AI秒变“魔鬼面试官”,从业务问题到HR套话,提前练到滚瓜烂熟
官网地址:https://www.explainthis.io/zh-hans/chatgpt
Google昨天正式上线了其全新的Search Live语音搜索功能,该功能基于Gemini模型,并内置于iOS和Android版Google应用中,适用于已加入AI Mode实验的用户。
Search Live 的核心功能与特点 1. 实时语音对话 用户可以通过语音与搜索引擎进行自然对话,无需手动输入关键词。例如,用户可以问:“如何防止行李箱中的亚麻裙起皱?” Search Live 会以 AI 生成的语音回答,并支持后续提问,如“如果还是起皱了怎么办?”。这种连续追问的机制使得搜索过程更加流畅和高效。
2. 网页链接辅助 每次回答都会附带相关网页链接,方便用户跳转查看详细信息或验证答案来源,确保信息透明可信。这种设计不仅提升了信息的可信度,也增强了用户的信任感。
3. 多模式切换 用户可以一键切换至文字视图,查看对话转录文本,或通过打字继续提问,灵活适应不同使用场景。这种灵活性使得 Search Live 适用于多种场景,如驾驶、旅行或多任务处理时。
4. 后台持续运行 即使切换到其他应用,Search Live 对话依然保持活跃,真正实现多任务并行。这一功能极大地提升了用户的操作效率,尤其是在需要同时处理多个任务的情况下。
5. 历史记录保存 所有对话自动保存在 AI Mode 历史记录中,用户可随时回顾或继续之前的搜索。这种设计不仅方便用户回顾之前的搜索记录,也便于用户在需要时快速找到相关信息。
终于还是等到了啊,Midjourney 今日宣布推出其首个 AI 视频生成模型 V1,正式进军 AI 视频领域。
V1 是一款图像转视频模型,用户可以上传一张图片,或使用 Midjourney 其他模型生成的图像,V1 将基于此生成四段五秒的视频。
V1 提供低动态和高动态两种方案,支持延长,每次4秒最多4次。
与 Midjourney 的图像模型类似,V1 目前仅通过 Discord 平台提供,并且初期仅支持网页端使用。
每个月订阅费只需要10美元,视频任务的定价约为图片任务的 8 倍,每次任务将生成四段 5 秒视频。
成本跟图像超分服务相当,非常便宜。
OpenAI宣布为企业用户推出两大重磅功能,让ChatGPT真正融入工作场景:
1. 一键连接企业知识库 通过“连接器”功能,ChatGPT可直接访问企业内部系统(如Outlook、Google Drive、Gmail、SharePoint等) 自动检索用户有权限查看的文件、邮件、数据 即时解答工作问题,相当于给企业配了AI知识管家
2. 会议记录自动化 开启“录音模式”,ChatGPT自动完成: ✓ 实时语音转文字 ✓ 提炼会议重点 ✓ 标记发言时间点 ✓ 点击时间戳快速回听关键讨论 适用于线上会议、电话沟通、灵感速记等场景
此次升级让ChatGPT从聊天工具转型为智能工作中枢,企业数据仍受严格权限保护,仅处理授权内容。
每天一个AI工具!设计师们,这款王炸级AI插画工具居然可以免费使用! Pictographic AI生成的插图库,应有尽有。
1、海量插画资源 Pictographic 拥有超 210000 幅插画,涵盖 10 种风格,从简约现代到复古怀旧,各类设计项目都能找到适合插画。 2、智能生成功能 找不到心仪的插画?使用生成功能,依现有风格生成新插画,为作品添独特视觉元素。 3、可定制性 多数插画为 SVG 格式,可在平台自由改色、调整大小等,轻松适配设计。 4、Figma 插件 提供 Figma 插件,无需下载,直接在软件中使用插画,设计流程更高效。
又是一匹黑马!今天要给大家介绍的创意新宠Kittl!是一款在线的 AI 设计工具,同时也能为非专业人士提供一站式的设计赋能。目前已经拿了2轮融资,今年1月的B轮,拿了3600万美元。现在的kittl,每个月将近有300W的惊人访问量!
主要亮点: ① 实时文本变形:数千款可定制字体字型,轻松实现创意设计。 ② 海量免费素材库:上百万免费素材,随意插入图标、插画等。 ③ 一键生成矢量logo:支持行业风格定制,满足多种设计需求。 ④ 产品实景展示图:直观预览设计效果,所见即所得。 ⑤ 流行色彩板:一键替换设计中的颜色,轻松实现多种配色方案。
试玩地址:https://www.kittl.com/
太贴心了,连描述词都有 AI 帮你细化了,输入简单的词,这个工具会帮你优化成适合生成带有丰富细节的画面 prompt ,还可以多次调整,你能得到不同的提示词,直到你满意为止!
🔥 为什么它值得你收藏? ✅ 全能型创作工厂 - Logo/品牌设计:输入关键词,秒出30+商业级方案(含字体/配色/排版) - 插画/艺术创作:国风水墨/赛博朋克/二次元...一键切换风格 - 摄影级大片:生成风景、人像、超现实场景,堪比专业摄影师 - 影视/游戏分镜:直接输出带光影的动态故事板
✅ 中文友好,精准拿捏需求 - “古风少女手持油纸伞立于江南烟雨中” → 生成水墨质感插画 - “赛博朋克城市夜景,霓虹灯管文字‘未来已来’” → 输出电影级海报 - 内置中文提示词库,拒绝“直译翻车”,精准传递创意脑洞
✅ 顶级模型加持,画质炸裂 - 基于MidJourney的艺术表现力 + Stable Diffusion的细节掌控力 - 支持1024px超高清输出,导出即用无需二次修图
✅ 小白友好,0基础也能玩转AI艺术 - 智能提示词生成器:输入“科幻飞船”,自动扩展为“未来主义银色飞船在陨石带飞行,带机械触角和粒子尾迹” - 多语言混搭:中英双语输入,生成融合东西方美学的作品
Techcrunch整理了一份AI行业最常见到的技术词语词典,搞懂这些,或许能帮初学者们轻松迈入AI世界的大门。
- AGI 通用人工智能 通用人工智能(AGI)是一个有些模糊的概念,通常指在多数任务上比普通人更强大的AI。OpenAI将其定义为“在最具经济价值的工作上超越人类的高度自主系统”。谷歌DeepMind则认为AGI是“在大多数认知任务上至少与人类能力相当的AI”。
- Chain of Thought 思维链 思维链推理意味着让AI像人一样一步步思考,把一个大问题拆解成多个小步骤。虽然慢一点,但在逻辑推理或编程这种需要严谨思考的场景里,答案会更准确。现在的大语言模型经过优化,在处理复杂问题时,就是靠这种“思维链”来提高准确性。
- Deep learning 深度学习 AI能自我优化学习的关键技术。它模仿人脑神经元连接方式,搭建多层人工神经网络,使AI算法能够建立比简单机器学习系统更复杂的关联关系。 深度学习模型能自己识别数据里的重要特征,而无需人类预先定义,还能从错误中学习,不断改进。
- Diffusion 扩散模型 扩散技术是众多艺术、音乐和文本生成AI模型的核心。受物理学启发,先“故意”一步步往数据里加噪声,直到数据面目全非。然后,AI学习如何“逆向扩散”,把这些被破坏的数据还原回来,从而获得从噪声中“创造”出全新数据的能力。
- Distillation 知识蒸馏 一种“师父带徒弟”的学习方法。让一个大型(“老师”)AI模型处理问题,然后把它的答案用来训练一个更小、更高效的(“学生”)模型,让学生模型学会老师的行为。这样就能用更小的模型,实现接近大型模型的性能。
- Fine-tuning 微调 微调是指对已训练的AI模型进行进一步训练,通过输入新的专业化数据,优化其在特定任务或领域的性能表现,使其超越原始训练的重点范围。很多AI公司都在用这个技术,把大型语言模型“微调”成适合自己行业的产品,提升实用性。
- GAN 生成对抗网络 让AI能“以假乱真”的关键技术。它由两个互相竞争的神经网络组成:生成器负责创造数据,判别器负责鉴别真伪。就像一场“猫捉老鼠”的游戏,两者不断对抗,让AI能自动生成极其逼真的数据,无需人工干预。GAN适合用于生成图片或视频。
- Hallucination 幻觉 “幻觉”是AI行业对模型虚构内容的专业术语,特指AI生成错误信息的行为。这显然是影响AI质量的核心问题。
- Neural Network 神经网络 神经网络是指支撑深度学习的多层算法结构,是推动生成式AI工具全面爆发的技术基础。尽管这个概念由来已久,GPU的崛起也让这个概念迎来了爆发。GPU被证明非常适合训练具有更多层次的算法,使得基于神经网络的AI系统在语音识别、自动驾驶导航和药物研发等多个领域实现了远超以往的性能表现。
- Transfer Learning 迁移学习 把一个已经训练好的AI模型拿来当起点,开发一个针对不同但相关的任务的新模型。这样可以节省大量开发时间,尤其是在新任务数据量不多的时候非常有用。但要注意,模型可能还需要在新领域的数据上进行额外训练才能表现最佳。
- Weights 权重 权重是AI训练的核心要素,它决定了在训练系统所用数据中,不同特征(或输入变量)的重要程度,直接影响AI模型的最终输出。训练开始时权重是随机的,但随着学习的深入,它们会不断调整,让AI的预测越来越准。
这份词典由Techcrunch定期维护,有需要的朋友可以收藏:https://techcrunch.com/2025/05/25/from-llms-to-hallucinations-heres-a-simple-guide-to-common-ai-terms/
ps:转自量子位
Ta们 2 人需要你的帮助,回答有机会 👉 赢取奖品
优设好身体以后会涉及到商用收费吗?
2025/04/17
GPT-4o出世,你还没拥有自己的手办吗!!一个也能定制~
2025/04/172.4k 设计师已围观