好消息,近日字节跳动推出了一种新型工具——分辨率适配器 ResAdapter,这个工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。
ResAdapter能够与现有的IPadapter和Controlnet模型兼容,并且可以直接生成动态分辨率的图像,提高了图像处理的效率。
项目简介中提到,尽管像Stable Diffusion这样的模型能够创造出高质量的图像,但在生成非训练分辨率的图像时存在限制。ResAdapter通过利用广泛的分辨率先验,即使只有0.5M的容量,也能生成高分辨率且保持原有风格的图像。
ResAdapter在提高分辨率方面与扩散模型配合得很好,并且可以与其他模块兼容,用于创建不同分辨率的图像。
项目介绍地址:res-adapter.github
昨晚 OpenAI 发布了 GPT-4o 后,压力就给到了 Google I/O ,现在给我说 OpenAI 不是故意的,我都不信!
这场发布会体现了 Google 在 AI 领域的深厚技术积累和对未来技术趋势的洞察,同时也表明了 Google 将 AI 技术深度融合到其产品生态中的决心。
以下是发布会的一些重点概述:
发布会要点: 1、Google Search AI:发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。 2、Gemini 大模型:Gemini 1.5 Flash(100 万上下文);Gemini Pro(200 万上下文)。 3、Gemma 大模型:发布开源多模态大模型 Pali Gemma 和 Gemma2。 4、AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列产品串在一起。 5、Gemini App:手机版的 Gemini 应用程序,即将支持和 AI 视频对话,近几周发布。 6、Project Astra:最新的多模态 AI 项目,包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。
更多关于2024 谷歌I/O大会 的介绍及点评,大家可以看看这篇文章,总结的非常详细:Google I/O 2024
哈哈哈,这不是好起来来了吗!!
百度公司最近推出了一款名为"文小言"的AI数字人社交APP。是基于文心大模型技术,可以通过手写、语音和图片等多种方式与数字人交流,享受其以语音、文字和肢体语言相结合的生动回复。最核心的是能够与AI角色建立情感连接,享受不间断的聊天体验。
文小言的主要功能 1、有问必答:AI伙伴随时在线,可以聊关于生活、感情、游戏、工作、历史、新闻等话题。 2、海量角色:文小言提供多种角色选择,包括傲娇女友、温柔空姐、健身教练、舞蹈老师等,满足不同用户的喜好。 3、沉浸互动:文小言支持全屏沉浸式聊天,包括语音、文字、图片和视频通讯。 4、实用专家:文小言提供专业行家的答疑解惑,涵盖画画创作、生活妙招、旅行攻略、新闻时事、同城资讯等领域。 5、免费聊天:用户可以不受时间限制地享受免费聊天服务。
- 提示理解能力更强:对文字与图像提示的理解更准确。 - 图像质量显著提升:纹理更精美,人物、手部、物体的细节一致性更高。 - 默认启用模型个性化:用户需花约 5 分钟解锁,之后可随时启用或关闭。 - 个性化作用:更准确捕捉用户审美与需求。
“旗舰功能:草稿模式(Draft Mode) •成本降低:草稿模式运行成本为普通 V6 模式的一半。 •速度提升:渲染速度是普通模式的 10 倍。 •实时互动:因其响应极快,使用草稿模式时提示栏会切换为“对话模式”。 •用户可以直接输入如“将猫换成猫头鹰”或“设置为夜晚”,系统自动调整提示并启动新渲染。 •语音模式集成:点击“草稿模式”后可启用麦克风,进行语音输入,实现“边想边画”的体验。
草稿模式的用途 •创意迭代的利器:非常适合快速尝试创意与提示组合。 •草图风格输出:图像质量低于标准渲染,但在风格与结构上保持一致,适合快速实验。 •可手动指定草稿模式:在提示后添加 --draft 可显式启动草稿渲染。
后续操作 •喜欢某个草图?点击“增强”或“变化”,系统将以全质量重新渲染。
Stability AI 开发者平台 API 现已支持最新版本的 Stable Diffusion3(SD3)及其增强版本 Stable Diffusion3Turbo。
SD3模型的亮点在于其对字体和提示的遵循能力,这在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
Stability AI在不断提升服务质量,尽管SD3模型已经通过API对外提供,但公司仍在持续对模型进行优化。Stability AI计划在不久的将来开放模型权重,允许拥有Stability AI会员资格的用户自行托管,这将增强用户的自主性和灵活性。
Stability AI与Fireworks AI的合作确保了API平台的高速和可靠性,公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多体验,试试看!
API文档:https://top.aibase.com/tool/stable-diffusion-3-api 体验地址:https://sdxlturbo.ai/stable-diffusion3
OpenAI 发布了GPT-4-Turbo 正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。
这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。
GPT-4-Turbo模型的基础能力得到了显著提升,它不仅能够处理文本输入,还能够识别和理解图片。这一特性使得GPT-4-Turbo在多种应用场景中具有更广泛的应用潜力。例如,它可以用于自动编码、图像识别和营养分析等领域,为用户提供更加丰富和便捷的服务。
GPT-4-Turbo的价格与之前的版本保持一致,这使得用户能够以相对较低的成本使用这一先进的AI技术。同时,OpenAI还提供了详细的接口信息和使用限制,帮助开发者更好地理解和利用这一模型。
大家觉得这个新功能怎么样,实用性高吗?