Blockade Labs 生成式 AI 平台,近日在其官方网站上隆重推出了新一代模型——Model 3。
与前代Model 2相比,Model 3在生成效果上有了显著的提升。这款新模型原生就能支持到8192x4096的超高清分辨率,这大大提高了生成图像的质量。而且其增强的文本提示器能更精确地描绘生成的虚拟世界,使得生成的图像更为生动逼真。Model 3还大幅降低了生成图像的灰度值,无论是建筑、风景还是人物,都展现出更高的清晰度和精致的细节。
现在,大家已经可以免费体验这款全新的Model 3模型。虽然目前Model 3还未开放像Model 2中的网格、混音、重组、草图等自定义功能,但Blockade Labs已经明确表示,这些功能将在不久的将来为用户逐一呈现。
Model 3的主要特点包括: 1. 高分辨率支持:原生支持8192x4096分辨率,这比Model 2有显著提升。 2. 文本提示器增强:能够更好地描述生成的世界。 3. 减少灰度值:使生成的建筑、风景、人物等看起来更加高清和细腻。
免费体验地址:https://skybox.blockadelabs.com/1a97298c8f1f88340e91418e93fbee3e API地址:https://skybox.blockadelabs.com/api-membership
大家还记得 Sora 是什么时候发布的吗?2 月份,当时 OpenAI 发布之后,一夜之间就把 AI 视频生成界搅得天翻地覆啊,但是现在一点消息都没有了,反倒是其他平台遍地开花,特别是这个月,简直太爆炸了~
昨天深夜,Runway 放出酝酿了半年的全新版本 Gen-3 Alpha,也让我们再次见证了这些巨头的底蕴。
Runway Gen-3 Alpha 特点如下: 高保真视频生成:能够生成接近真实世界质量的视频内容,具有高度的细节和清晰度。 精细动作控制:模型能够精确控制视频中对象的动作和过渡,实现复杂场景的流畅动画。 逼真人物生成:特别擅长生成具有自然动作、表情和情感的逼真人类角色。 多模态输入:支持文字转视频、图像转视频、文字转图像等多种创作方式。 先进工具:支持运动画笔、相机控制和导演模式等专业创作工具。 增强的安全措施:引入新的内部视觉审核系统和 C2PA 标准,确保内容的安全性和可靠性。 高质量训练:使用高描述性的、时间密集的字幕进行训练,使模型能够理解和生成具有丰富时间动态的视频。
现在还在内测中,后期可以体验的时候再给大家分享地址!
这是一个提供各种纸张的网站,如果你也经历过这些抓狂时刻:线稿画到一半发现横线间距不对,给客户提案时,发现自制的网格纸水印像盗版的,那一定要试一试这个网站 👉 纸由我 PaperMe
1. 功能特点: - 多种纸张模板:提供横线纸、方格纸、点阵纸、音乐纸等多种类型,适用于笔记、学习、绘画、书法等多种用途。 - 高度自定义:用户可以调整纸张尺寸、线条样式、颜色、间距、边距等参数,甚至支持自定义非标尺寸。 - 便捷操作:支持在线预览效果,一键导出PDF文件,方便打印和分享。 - 多场景适用:不仅适用于学生的学习笔记和手账制作,还适合办公人员的规划和项目管理,以及艺术爱好者的设计创作。
2. 优势与亮点: - 免费且无需注册:所有功能均免费开放,用户无需注册账号即可使用。 - 高质量输出:生成的PDF文件清晰专业,打印效果媲美商业产品。 - 多平台支持:支持手机、平板和电脑访问,方便随时随地进行设计和打印。
微软 GitHub 于今年 7 月份面向企业用户推出了 Copilot Chat 工具,这是一个 AI 代码助手。现在 GitHub 宣布将 Copilot Chat 公测版扩展至个人用户,提供实时编程帮助。用户可通过订阅每月或每年的个人用户费用来体验该功能,提高编码效率和质量。
以下是GitHub Copilot Chat的主要功能: 1、实时指导:它可以为开发者提供实时的最佳实践、技巧和解决方案建议。 2、代码分析:开发者可以使用它来分解复杂的编程概念,并获取代码片段的详细解释。 3、修复安全问题:它能够识别代码中的安全漏洞,并为其提供修复建议。 4、简单的故障排除:除了识别代码中的问题,它还可以为开发者提供解决方案、解释和替代方法。 5、学习新的语言或框架:它可以帮助开发者快速学习新的编程语言或框架,并为他们提供相关的代码示例和建议。
谷歌发布的一个名为 VLOGGER 的项目。这个项目能够根据输入的图片和音频生成对应人物讲话的视频。但是个人感觉 VLOGGER 看起来没有阿里巴巴发布的 DreamTalk 和 EMO 自然,大家觉得呢?
VLOGGER 主要特点: 1. 3D运动的扩散模型:它可以根据一张人物图像生成由文本和音频驱动的说话人视频。 2. 创新的架构:项目包含一个创新的基于扩散的架构,通过时间和空间控制来增强文本到图像模型的能力。 3. 高质量视频生成:能够生成高质量、可变长度的视频,并通过人脸和身体的高级表示进行便捷控制。 4. 广泛的适用性:与之前的工作相比,VLOGGER不需要为每个人单独训练模型,不依赖人脸检测和裁剪,能生成完整的图像(包括脸部和身体),适用于广泛场景,如躯干可见或身份多样化,这对于正确合成具有沟通能力的虚拟人至关重要。
项目地址:https://enriccorona.github.io/vlogger/
华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员,共同发布了一款名为PIXART-δ的超高清文生图模型。
这一模型集成了潜在一致性模型(LCM)和创新控制架构ControlNet-Transformer,实现了在文生图像方面的重大技术突破。仅需0.5秒2-4个推理步骤,PIXART-δ就能完成图像生成,速度比之前的PIXART-α模型快了7倍。
在ControlNet-Transformer的帮助下,PIXART-δ可以对生成模型的输出进行精确控制,包括图像的边缘、深度、分割和对象姿势等,类似于OpenAI的DALL·E 3。
一个用人工智能深度学习的配色神器!它能从电影、摄影、艺术名作中“偷师”色彩美学,看了那么多配色不知道如何使用?colormind在提供优秀配色的同时,还提供了色彩试用场景,让你直观的了解当前配色的真实使用效果,堪称神器!
→ 点击即生成:无脑操作,AI自动输出专业级配色(如莫兰迪灰、赛博霓虹); → 支持锁定关键色:已有品牌主色?锁定它!AI围绕你的颜色智能延展互补色。
人人都能玩转的专业级功能
✅ 智能纠错黑科技:避开99%的视觉灾难配色(自动规避红配绿等冲突组合) ✅ 动态微调魔法:拖动色块实时预览效果,轻松创造渐变/对比/互补等高级组合 ✅ 云端灵感银行:收藏方案自动同步,手机电脑无缝衔接创作
4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。
Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。
在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。
Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。
谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。
详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html
音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb