随着今年WWDC的临近,记者 Gurman 在其最新一期《Power On》专栏中,为我们揭秘了苹果在人工智能领域的最新进展。苹果将对其智能助手Siri进行升级,新版本的Siri将依托于苹果自主研发的LLM技术,为用户提供更为智能的服务。
除此之外,苹果还将在多个方面引入AI技术以增强用户体验,例如通过AI技术实现语音备忘录的自动转录、照片的智能修饰,以及Spotlight和Safari搜索功能的优化。而且,AI还将能够根据用户的短信内容,动态生成个性化的表情符号。
在个性化界面方面,苹果也做出了创新。用户将能够摆脱网格的限制,自由地在屏幕上摆放图标,并可以自定义图标的颜色,这一改进虽与AI无直接关系,但无疑将极大地提升用户体验。
同时,有消息称苹果将在即将到来的 iOS 18 和 macOS 15 系统中,为 Safari 浏览器加入一系列人工智能支持的新功能。
1、智能搜索。 苹果可能在搜索中引入 Ajax 语言模型来提供文本摘要。
2、Web橡皮擦:这一功能强调用户界面的简化和隐私保护的增强,允许用户自定义网页内容,删除不需要的元素,如广告和图片。
3、用户界面更新:苹果正在将 Safari 的关键工具集中到一个位置,以提高用户的访问效率。
4、 AI增强的视觉查找:苹果可能在2025年推出高级视觉搜索功能,允许用户通过图像获取信息,类似于 Siri 目前识别照片中的植物、宠物和地标的功能。
这些新功能的加入,将使Safari浏览器的使用体验更上一层楼,你觉得哪项最实用呢?
上半年 Sora 爆火到现在,AI 在视频领域的发展越来越强了,近日,Runway 的 Gen-3 Alpha 文字转视频功能向所有人开放了。
Runway Gen-3 Alpha 的文字转视频功能是其核心功能之一。用户只需输入文字描述或关键词,Gen-3 Alpha 就能够通过其强大的深度学习算法,自动生成与之相关的视频作品。这一功能不仅支持简单的文本到视频转换,还提供了多种高级创作工具,如运动画笔、相机控制和导演模式等,进一步提升了视频制作的专业度和灵活性。
Runway Gen-3 Alpha 在保真度、一致性和运动表现上均实现了显著的突破,能够生成高保真的视频片段,最长可达10秒。用户可以选择生成5秒或10秒的视频,并且可以根据需要调整视频的详细程度和风格。
Runway Gen-3 Alpha 的文字转视频功能不仅强大且灵活,能够满足各种创意需求,还在技术上取得了显著的进步,成为AI视频生成领域的一大亮点。
但是目前想体验还是需要开通12美元的会员~
Google 宣布,从本周四开始,用户可以通过 Google 的"搜索生成体验"(Search Generative Experience,简称 SGE)直接根据文本提示创建图片。
微软早在今年3月就开始利用 OpenAI 的 DALL-E 模型提供了通过必应聊天工具创建图片的功能,因此Google 效仿也不足为奇。
如果你通过Google的搜索实验室计划加入了 SGE现在,就可以在Google搜索栏中输入你的查询。输入后,SGE 会根据你的提示创建一些图片供你选择。Google发言人克雷格-尤尔(Craig Ewer)表示,该工具由 Imagen 系列人工智能模型提供支持。
你也可以通过Google图片制作Google人工智能生成的图片。在浏览Google图片结果时,你可能会看到一个提示框,提示你根据查询结果生成图片--这些生成的图片将显示在侧边栏中。
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb
不知道大家最近有没有关注OpenAI举办的首届开发者大会呢?有哪些亮点值得关注呢?
昨晚的开发者大会让AI界再次沸腾不已,OpenAI推出了备受瞩目的GPT-4 Turbo版本,这对整个行业来说是一个重要的里程碑。
OpenAI还推出了GPTs,这使得那些不懂代码的人也能够用自然语言来创建自己的GPT模型,并将其加入OpenAI的应用商店,与此同时还能够分享收益。
这种创新可以说是OpenAI的突破之举,相当于他们的iPhone时刻,而即将发布的GPT Store则类似于APP store。
虽然其他竞争对手还在探索AI的奥秘,但OpenAI已经开始构建一个宏大而有前景的生态系统。
我们正在见证一个行业的浪潮涌动,也可能正在见证一个巨头的崛起。
近日,Anthropic 公司发布了 Claude 3.5 Sonnet,作为 OpenAI 的劲敌,这款全新的人工智能模型在智能水平上超越了所有的竞争对手。在推理、知识和编码能力方面,Claude 3.5 Sonnet 能够迅速理解复杂指令,撰写出高质量内容。与 Claude 3 Opus 相比,解码速度提升两倍,编码评估中解决的问题比例高达64%,展现出无与伦比的独立编写、编辑和执行代码能力,
Artifacts 功能更是锦上添花,允许用户在Claude.ai上动态编辑和构建Claude生成的内容,甚至能直接展示生成的代码为网页,无论是HTML、JS、CSS还是SVG都能轻松实现。
Claude 3.5 Sonnet的到来,意味着代码世界即将迎来一场革命。你,准备好迎接挑战了吗?
阿里通义千问迎来了一次重磅升级,其1000万字的长文档处理功能现已向所有人免费开放,这一举措使得通义千问在全球范围内成为文档处理容量首屈一指的AI应用。从即日起,无论是金融、法律、科研、医疗还是教育领域的专业人士,都可以通过通义千问的网站和APP,轻松研读各类报告、分析财报、解读科研论文、研判案情、理解医疗报告、掌握法律条文,以及分析考试成绩和总结深度文章。
在金融领域,专业人士只需上传公司财报,通义千问便能自动提取和总结公司各业务的营收情况和利润增长等核心信息,帮助他们快速了解公司的整体业绩表现。而上传公司不同时期的财报后,通义千问还能生成公司在这一阶段内的业务变化、业绩趋势,并进行深入的财报分析。
在法律领域,通义千问同样展现出强大的能力。对于律师和法官而言,阅读和分析大量的法律文档是一项繁琐且耗时的工作。然而,通义千问能够迅速阅读并分析这些法律文件,帮助用户迅速掌握法律条文的要点。输入特定案件信息后,通义千问还能给出相应的判罚建议,极大地提高了工作效率。
目前,通义千问在文档处理容量和能力方面已全面超越ChatGPT等全球市场上的其他AI应用,展现出了其在智能科技领域的卓越实力。