阿里通义千问迎来了一次重磅升级,其1000万字的长文档处理功能现已向所有人免费开放,这一举措使得通义千问在全球范围内成为文档处理容量首屈一指的AI应用。从即日起,无论是金融、法律、科研、医疗还是教育领域的专业人士,都可以通过通义千问的网站和APP,轻松研读各类报告、分析财报、解读科研论文、研判案情、理解医疗报告、掌握法律条文,以及分析考试成绩和总结深度文章。
在金融领域,专业人士只需上传公司财报,通义千问便能自动提取和总结公司各业务的营收情况和利润增长等核心信息,帮助他们快速了解公司的整体业绩表现。而上传公司不同时期的财报后,通义千问还能生成公司在这一阶段内的业务变化、业绩趋势,并进行深入的财报分析。
在法律领域,通义千问同样展现出强大的能力。对于律师和法官而言,阅读和分析大量的法律文档是一项繁琐且耗时的工作。然而,通义千问能够迅速阅读并分析这些法律文件,帮助用户迅速掌握法律条文的要点。输入特定案件信息后,通义千问还能给出相应的判罚建议,极大地提高了工作效率。
目前,通义千问在文档处理容量和能力方面已全面超越ChatGPT等全球市场上的其他AI应用,展现出了其在智能科技领域的卓越实力。
微软推出了一项名为Mora的视频生成项目,该项目利用先进的Agents技术来尝试复原Sora的视频生成能力。目前,Mora已经能够基本还原Sora的所有功能,并可以生成分辨率为1024*576的12秒视频。
这些复原的能力包括:将文本直接转换为视频、根据特定的文本条件将图片转换成视频、扩展已有的视频内容、实现视频到视频的编辑、串联多个视频片段,以及模拟数字世界等。
项目简介:原文链接
Mora项目基于一种新型的多AI智能体框架,融合了多个尖端的视觉AI智能体,旨在复刻Sora所展示的强大的通用视频生成能力。Mora能够灵活运用这些视觉智能体,在各种任务中成功地模仿了Sora的视频生成技巧。
通过广泛的实验验证,我们发现Mora在这些任务上的表现已经与Sora相当接近。从整体性能上评估,Mora与Sora之间仍然存在一些差距。但是,我们仍对Mora项目寄予厚望,希望它能够引领未来视频生成技术的发展方向,并通过多AI智能体的协同工作实现更多的突破。
上个月 Stable Diffusion 的最新版本:Stable Diffusion 3 发布了,带来了文字渲染能力、多主题提示能力和图像质量的进一步提升。但是近日,Stable Diffusion 的核心研究团队宣布集体离职,尽管具体离职原因尚未公开,但据《福布斯》报道,Stable AI 公司可能因为财务困境而面临挑战。Stability AI 的未来发展和 Stable Diffusion 项目的前途,成为了业界关注的焦点。
- Stable Diffusion的核心研究团队成员,包括研究团队领导Robin Rombach、共同一作Andreas Blattmann和另一位作者Dominik Lorenz,已经集体辞职。
- Stability AI是Stable Diffusion项目的主要资助者,提供了必要的计算资源。该项目最初由慕尼黑大学和AI创业公司Runway共同完成。
- Stable Diffusion是一个文本到图像生成模型,因其免费开源而迅速走红,推动Stability AI在2022年的A轮融资中筹集到1.01亿美元,估值达到10亿美元。
- 由于Stable Diffusion的开放性,Stability AI的商业模式并不明确,导致公司难以稳定盈利。据报道,公司每月的运营成本高达800万美元。
- 去年年底,有关Stability AI可能因财务压力寻求出售的消息传出。CEO Emad Mostaque曾警告员工行业竞争激烈,并暗示他们可能在2023年面临困境。
如果真如上述所说,我们心心念念的 Stable Diffusion 3 是否还能保持开源呢?新闻源:点这里
小伙伴们,听说过Magnific AI这款神器吗?感觉比较适合平时喜欢P图的朋友,或者摄影师,当然了需要大量后期修图的设计师也可以试试。
最厉害的是,它能够将图像分辨率提升至最高1亿像素,支持最高放大16倍,达到10000×10000的分辨率。该工具不仅能够放大图像,还能根据用户的提示和参数添加或重构细节,使图像变得更加高清和细腻。
Magnific AI还提供了像素级AI重绘功能,通过魔法般的重绘图像细节和像素块,保证清晰度。
Magnific AI具有灵活的设置调整功能,支持输入提示词、提供Creativity、HDR、均衡等调整选项,以及针对人像、插画、游戏资产、自然风光、摄影、3D渲染等多种优化场景。
最近,Magnific AI的照片风格化功能上线了,可以将你的任意照片转换成你想要的任意风格,喜欢摄影的朋友,推荐一定要试一试。Magnific AI 官网
3月17日,特斯拉首席执行官(CEO)马斯克的AI创企xAI正式发布3140亿参数的混合专家模型Grok-1。xAI官方网站称,其遵照Apache 2.0协议开放模型权重和架构。
我给大家整理一下重点:
- 开源声明:xAI宣布其大模型Grok-1开源,并遵循Apache 2.0协议,模型权重和架构已在GitHub上公开。 - 模型规模:Grok-1是一个拥有3140亿参数的混合专家模型,成为目前参数量最大的开源大语言模型,超过了OpenAI GPT-3.5的1750亿参数。 - Grok-1的特点:Grok-1被描述为一个能够回答任何问题的AI,具有机智和叛逆的特点。它将用于自然语言处理任务,包括问答、信息检索、创意写作和编码辅助。 - 性能评估:Grok-1在HumanEval编码任务和MMLU中显示出强劲的性能,超过了包括ChatGPT-3.5和Inflection-1在内的所有其它模型。 - 社区反响:开源后,Grok-1在GitHub上迅速获得了9600星标,显示出社区的高度关注和支持。
另外,我个人觉得马斯克这项壮举对行业的影响也是巨大的,以下是一些个人见解:
1. 技术创新的加速:Grok-1的开源可能会加速AI技术的创新。由于模型权重和架构的开放,研究人员和开发者可以自由地访问、修改和扩展这个模型,从而推动新的研究和应用的开发。 2. 知识共享与协作:开源模型鼓励全球范围内的开发者和研究者共同参与到模型的改进和优化中来,促进知识共享和技术交流,有助于提升整个行业的技术水平。 3. 商业竞争格局变化:Grok-1的开源可能会改变现有的商业竞争格局,尤其是对OpenAI等其他AI研究机构和企业构成挑战。这可能会促使其他公司也采取更加开放的策略,以保持竞争力。 4. 安全性和伦理问题:开源AI模型也引发了关于安全性和伦理的讨论。一方面,开源可以增加技术的透明度,有助于发现和解决潜在的安全问题;另一方面,也可能增加模型被滥用的风险。 5. 教育和培训机会:Grok-1的开源为教育和培训提供了新的资源。学生和自学者可以直接访问和学习最先进的AI模型,这对于培养下一代AI人才具有重要意义。 6. 应用开发的多样性:开源模型使得个人和小型企业也能够利用先进的AI技术,这可能会导致更多创新的应用和服务的出现,增加市场的多样性。 7. 对开源与闭源的辩论:Grok-1的开源可能会加剧关于开源与闭源哪种模式更有利于AI发展的辩论。这将影响未来AI研究和商业化的路径选择。
大家对此有些什么看法,也可以评论区讨论哦~ 更多详细内容,可以看看 xAI官网!
英伟达(NVIDIA)在2024年GTC大会上宣布的下一代人工智能超级计算机以及发布的最强AI加速卡——Blackwell GB200。
这款加速卡采用了新一代AI图形处理器架构Blackwell,由两个B200 Blackwell GPU和一个基于Arm的Grace CPU组成。黄仁勋在GTC大会上提到,尽管Hopper架构已经非常出色,但市场需要更强大的GPU。
以下是大会纪要: - 产品发布:英伟达发布了Blackwell GB200,这是一款新一代的AI加速卡,旨在大幅提升人工智能相关的计算性能。 - 性能提升:Blackwell GPU的AI性能可达20petaflops,而前代H100的性能为4petaflops。这意味着Blackwell GPU在AI性能上有显著提升。 - 技术规格:Blackwell GPU采用台积电的4纳米工艺制造,包含2080亿个晶体管,通过NVLink 5.0技术连接两个独立制造的裸晶(Die)。 - 性能对比:英伟达表示,GB200包含两个B200 Blackwell GPU和一个基于Arm的Grace CPU,其推理大语言模型性能比H100提升30倍,成本和能耗降至25分之一。 - 企业应用:英伟达提供成品服务,包括GB200NVL72服务器,该服务器配备了36个CPU和72个Blackwell GPU,以及一体化水冷散热方案,能够提供总计720petaflops的AI训练性能或1,440petaflops的推理性能。 - 市场合作:亚马逊、谷歌、微软和甲骨文等公司计划在其云服务产品中提供NVL72机架。亚马逊AWS已计划采购由2万片GB200芯片组建的服务器集群。
Devin是首个AI程序员,它能够通过借用其创造者的账号与客户公司的CTO进行交流,并根据回复调整代码方案。
事情发生在办公软件Slack,截图中的akshat是AI基础设施创业公司Modal Labs的CTO Akshat Bubna。
Devin的开发商是Cognition,而Modal Labs是它的首批客户之一。在一次交流中,Devin询问了关于密钥生命周期的问题,特别是密钥更新后传播到正在运行的应用程序所需的时间。尽管Devin已经查阅了大量文档,但仍然没有找到关于密钥传播时间的明确信息。通过与Modal Labs的CTO交流,Devin了解到更新的密钥不会使已经运行的容器失效,但新启动的容器将会读取更新后的值。
Devin能够自主把任务拆解成一系列子步骤,并一步步执行,甚至在遇到障碍时能够查阅文档并修改后续计划。
大家觉得这波修复BUG属于什么水平,优秀的程序员也不过如此了吧?感兴趣的小伙伴可以看看详细的过程→ 原文链接
谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点: 1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。 2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。 3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。 4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://enriccorona.github.io/vlogger/
Midjourney的新功能“角色参照”(Character Reference)终于正式上线了,它为用户提供了在生成图像时保持角色特征一致性的可能。这个功能特别适合那些需要在多个图像中维持相同角色外观的创作者,例如在制作漫画、动画或游戏角色设计时。
以下是该功能的详细介绍和使用方法:
适用型号: - Midjourney V6 - Niji6
功能状态: - Midjourney V6目前处于alpha测试阶段,这意味着功能可能还会有调整和优化。 - V6的beta版即将推出,届时可能会有更多的用户可以体验到这一功能。
使用方法: 1. 在输入提示词(prompt)后,通过添加--cref URL来指定一个参照图像链接,以此保持生成图像中的角色特征。 2. 如果需要混合多个图像的角色特征,可以使用--cref URL1 URL2的格式。 3. 通过--cw [强度值]来调整参照的强度,默认值为100。强度较高时,生成的图像会更详细地参照脸部、发型和着装;而强度较低(如0)时,主要参照脸部特征,适合用于变换服装或发型的场景。
效果提示: - 使用Midjourney创作的图像作为参照图像通常会得到更好的效果,而使用真人照片可能会导致生成的图像出现扭曲。 - 功能的参照精确度有限,生成的图像会具有类似但不完全一致的角色特征。
效果对比: - 与Midjourney V6相比,Niji6在使用“角色参照”功能时可能会有更好的效果。
注意事项: - 由于功能目前处于alpha测试阶段,可能会出现不稳定或效果不如预期的情况。
小伙伴们,Microsoft Copilot 的重大更新!定制 Copilot GPT 现已推出。这意味着你可以在微软的工具里创建自己的 GPT 并共享它们~
具体方法如下:
→ 创建Copilot GPT ①访问官网:https://copilot.microsoft.com/ ②点击右侧的“查看所有 Copilot GPT” ③然后选择“创建新的 Copilot GPT”
→设置你的Copilot ①关注 creation chat ②设置名称、任务等 ③流程与 ChatGPT Plus 相同,无需个人资料照片
→配置你的Copilot ①可以单击“配置”选项卡 ②在这里你可以直接选择名称、描述、提示... ③你还可以添加知识文件并启用/禁用互联网访问和 Dall-E 3
→发布和使用 ①在发布之前单击“预览”按钮进行尝试 ②你只能为自己或任何有链接的人发布你的Copilot ③它将自动添加到右侧的 GPT 列表中
好消息,近日字节跳动推出了一种新型工具——分辨率适配器 ResAdapter,这个工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。
ResAdapter能够与现有的IPadapter和Controlnet模型兼容,并且可以直接生成动态分辨率的图像,提高了图像处理的效率。
项目简介中提到,尽管像Stable Diffusion这样的模型能够创造出高质量的图像,但在生成非训练分辨率的图像时存在限制。ResAdapter通过利用广泛的分辨率先验,即使只有0.5M的容量,也能生成高分辨率且保持原有风格的图像。
ResAdapter在提高分辨率方面与扩散模型配合得很好,并且可以与其他模块兼容,用于创建不同分辨率的图像。
项目介绍地址:res-adapter.github