谷歌在官网宣布,在谷歌浏览器(Chrome最新版本M121)中新增自动生成文本、壁纸以及自动管理标签3个全新生成式AI功能。
1、文本生成 你是否还为发帖子、写美食感想、购物评论而烦恼?谷歌浏览器最新版本将新增类似的ChatGPT文本生成功能。 使用方法:用户只需右击谷歌浏览器中访问的任何网站上的文本框,然后选择“帮助我编写”。输入文本提示词,例如,写一篇关于地方美食的攻略。
2、壁纸生成 谷歌在Android 14和Pixel 8设备上推出了生成式AI壁纸,受到了极大欢迎。现在,谷歌将文本生成图像功能内置到谷歌浏览器中,帮助用户打造个性化壁纸。 AI将根据你选择的主题、情绪、视觉风格和颜色,快速生成壁纸,帮助你打造绚丽多彩的浏览器。
3、标签管理 我们在使用谷歌浏览器时可能会打开几十个甚至上百个网站,管理这些标签相当麻烦。 现在,借助全新的AI标签管理器,可以根据旅行、科学研究、购物等进行自动分类。 使用方法:右点选择标签管理器,然后点击搜索标签组,标签管理器会根据网站的类型自动创建管理组,用户只需点击创建即可完成。
Chrome 应该是为数不多支持生成式AI的浏览器。但是由于这三项功能处于预览测试阶段,企业和教育账户无法使用。如果正式上线,大家觉得哪一项功能最实用呢?
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
随着今年WWDC的临近,记者 Gurman 在其最新一期《Power On》专栏中,为我们揭秘了苹果在人工智能领域的最新进展。苹果将对其智能助手Siri进行升级,新版本的Siri将依托于苹果自主研发的LLM技术,为用户提供更为智能的服务。
除此之外,苹果还将在多个方面引入AI技术以增强用户体验,例如通过AI技术实现语音备忘录的自动转录、照片的智能修饰,以及Spotlight和Safari搜索功能的优化。而且,AI还将能够根据用户的短信内容,动态生成个性化的表情符号。
在个性化界面方面,苹果也做出了创新。用户将能够摆脱网格的限制,自由地在屏幕上摆放图标,并可以自定义图标的颜色,这一改进虽与AI无直接关系,但无疑将极大地提升用户体验。
同时,有消息称苹果将在即将到来的 iOS 18 和 macOS 15 系统中,为 Safari 浏览器加入一系列人工智能支持的新功能。
1、智能搜索。 苹果可能在搜索中引入 Ajax 语言模型来提供文本摘要。
2、Web橡皮擦:这一功能强调用户界面的简化和隐私保护的增强,允许用户自定义网页内容,删除不需要的元素,如广告和图片。
3、用户界面更新:苹果正在将 Safari 的关键工具集中到一个位置,以提高用户的访问效率。
4、 AI增强的视觉查找:苹果可能在2025年推出高级视觉搜索功能,允许用户通过图像获取信息,类似于 Siri 目前识别照片中的植物、宠物和地标的功能。
这些新功能的加入,将使Safari浏览器的使用体验更上一层楼,你觉得哪项最实用呢?
有多少小伙伴是和我一样,早在2年前就已经不用微软的office套装了,之前是觉得office打开那种体积很大的文件,反应速度太慢了,才用的wps,现在WPS AI正式对外展示了文字、表格、PPT、PDF四大办公组件搭载的AI大模型能力,支持pc及移动设备。本次公布的AI新能力集中在阅读理解、问答、人机交互等方面。在PPT中,WPS AI现已支持输入主题,一键生成PPT演示文稿,并会根据用户要求进细化调节,如更改主题风格、单页美化、更改字体、更改配色、生成演讲稿等等。如果WPS的AI功能能够更好的帮助我们办公,你还会等微软的office吗?
微软 GitHub 于今年 7 月份面向企业用户推出了 Copilot Chat 工具,这是一个 AI 代码助手。现在 GitHub 宣布将 Copilot Chat 公测版扩展至个人用户,提供实时编程帮助。用户可通过订阅每月或每年的个人用户费用来体验该功能,提高编码效率和质量。
以下是GitHub Copilot Chat的主要功能: 1、实时指导:它可以为开发者提供实时的最佳实践、技巧和解决方案建议。 2、代码分析:开发者可以使用它来分解复杂的编程概念,并获取代码片段的详细解释。 3、修复安全问题:它能够识别代码中的安全漏洞,并为其提供修复建议。 4、简单的故障排除:除了识别代码中的问题,它还可以为开发者提供解决方案、解释和替代方法。 5、学习新的语言或框架:它可以帮助开发者快速学习新的编程语言或框架,并为他们提供相关的代码示例和建议。
《人工智能生成合成内容标识办法》适用范围 - 网络信息服务提供者:适用于符合相关规定的网络信息服务提供者开展的人工智能生成合成内容标识活动。
标识分类与要求 - 标识分类:分为显式标识和隐式标识。 - 显式标识:在生成合成内容或交互场景界面中以文字、声音、图形等方式呈现,用户可明显感知。 - 隐式标识:通过技术措施在生成合成内容文件数据中添加,用户不易明显感知。 - 添加显式标识的要求:根据不同类型的内容(文本、音频、图片、视频、虚拟场景等),在相应位置添加显著的提示标识。 - 添加隐式标识的要求:在生成合成内容的文件元数据中添加包含生成合成内容属性信息、服务提供者名称或编码、内容编号等制作要素信息的隐式标识,鼓励添加数字水印等形式的隐式标识。
我只是截取了一部分,感兴趣的朋友可以看看原文,大家也可以评论区说一说本次的人工智能生成合成内容标识办法会对行业带来哪些影响!
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
今年接触了太多 AI 工具了,AI 绘画的先不说,光是视频生成就已经让我震惊不已。今天刷到了一个 VideoPoet 作者的专访,分享的一些关于视频生成领域的观点非常有意思,其中关于视频生成领域的 “ChatGPT 时刻”的解读前瞻性十足,大家感兴趣的可以了解一下!
以下是引用: “ 视频生成的“ChatGPT 时刻”,我觉得大概是,哪怕模型生成的还是比较短的片段,比如 2-5s,但这个生成是可控的,人类也很难分辨是 AI 生成还是人类制作。从用户角度,只需要几美分的代价,就能获得一个可以被送到好莱坞专业 studio 的样片。如果类比的话,可以类比到图像领域 stable diffusion 1.x 或 2.x 版本,肯定还有再提升的空间,但已经到了能使用的程度,而且能激发很多应用。
我的预测是,到 2024 年底或 2025 年初,我们可能会到这个时刻。并且我认为,实现这个时刻肯定也需要 diffusion 参与,并且 diffusion 在未来一段时间,比如 1 到 2 年内,可能仍然是主流,扮演很重要的角色。这里说的 diffusion 已经包含了 transformer。
“ChatGPT 时刻”意味着模型到了一个相对稳定的阶段,但后面还会再改,只不过是在这个基础上做小的改动,可能一开始版本只能做到逼近好莱坞,有一些缺点,但可以商业化运用了,但要达到真正稳定需要更长时间。随后还可能仍会迭代升级。
现在市场上所有的视频生成都达不到这个标准,所以我认为视频生成的方法可能还需要进一步迭代,有可能要达到“ChatGPT 时刻”需要新的模型和方法,它不一定是全新的模型或者架构,可能是现在市场上的某个技术路线或者方案再往前走一步。”