2024 春季火山引擎 Force 原动力大会大家看了吗?放大招了,火山引擎第一次正式亮相了豆包大模型家族,一口气直接祭出了9个成员。
以下是大会的重点信息概要:
1. 核心模型:豆包通用模型分为两个尺寸,大杯(Pro)和中杯(Lite),其中Pro版本窗口尺寸最大可达128K,全系列可精调;Lite版本响应速度快。 2. 价格优势:豆包通用模型Pro的价格远低于行业标准,小于32K窗口尺寸的价格为0.0008元/千tokens,128K窗口尺寸为0.005元/千tokens。 3. 使用量:豆包大模型自上线以来,每天处理的token数量高达1200亿,生成图片数量为3000万张。 4. 多场景应用:豆包大模型在抖音、今日头条等50多个场景中进行实践和验证。 5. 文本对话与语音功能:豆包大模型在文本对话和语音合成方面表现出色,提供了更自然、更像人的声音效果。 6. 角色扮演模型:豆包大模型还包括角色扮演模型,允许用户与虚拟角色进行对话。 7. AI应用开发平台:火山引擎还发布了一站式AI应用开发平台“扣子(coze)”,支持用户通过简单的操作来创建智能体。 8. 火山方舟2.0:火山引擎的MaaS平台火山方舟升级到2.0版本,提供一站式服务,让企业可以快速落地大模型应用。 9. 安全性与稳定性:火山方舟在算力、算法和安全层面提供了优化方案,包括GPU资源池、SFT训练引擎和安全沙箱等。 10. 差异化插件:火山引擎提供了联网插件、内容插件和RAG知识库插件,以提供差异化服务。 11. 战略差异:火山引擎的战略与其他大模型厂商不同,更注重实际使用量和用户体验,而不是仅仅依赖榜单分数和参数规模。 12. 市场反馈:豆包APP累计下载量超过1亿,火山引擎与多个行业的企业合作,共同优化大模型。 13. 总体评价:火山引擎的大模型以更大的使用量、更低的价格、更多的应用场景、更人性化和智能化的特点,展示了其在大模型时代的竞争力。
小编觉得本次大会最吸引我的当属这个文本对话语音功能了,很逼真了,大家可以一起感受一下:(右键视频-显示控件-可以打开声音)
更多介绍可以戳这里: 2024 春季火山引擎 Force 原动力大会
OpenAI 发布了GPT-4-Turbo 正式版,这是一个带有视觉能力的模型,能够处理128k的上下文。
这个模型现在已经全面开放,可以通过“gpt-4-turbo”来使用,最新版本为“gpt-4-turbo-2024-04-09”。
GPT-4-Turbo模型的基础能力得到了显著提升,它不仅能够处理文本输入,还能够识别和理解图片。这一特性使得GPT-4-Turbo在多种应用场景中具有更广泛的应用潜力。例如,它可以用于自动编码、图像识别和营养分析等领域,为用户提供更加丰富和便捷的服务。
GPT-4-Turbo的价格与之前的版本保持一致,这使得用户能够以相对较低的成本使用这一先进的AI技术。同时,OpenAI还提供了详细的接口信息和使用限制,帮助开发者更好地理解和利用这一模型。
大家觉得这个新功能怎么样,实用性高吗?
好消息,近日字节跳动推出了一种新型工具——分辨率适配器 ResAdapter,这个工具旨在解决在使用Stable Diffusion等文本到图像模型生成超出训练分辨率的图像时出现的肢体异常和画面崩坏问题。
ResAdapter能够与现有的IPadapter和Controlnet模型兼容,并且可以直接生成动态分辨率的图像,提高了图像处理的效率。
项目简介中提到,尽管像Stable Diffusion这样的模型能够创造出高质量的图像,但在生成非训练分辨率的图像时存在限制。ResAdapter通过利用广泛的分辨率先验,即使只有0.5M的容量,也能生成高分辨率且保持原有风格的图像。
ResAdapter在提高分辨率方面与扩散模型配合得很好,并且可以与其他模块兼容,用于创建不同分辨率的图像。
项目介绍地址:res-adapter.github
Stability AI 开发者平台 API 现已支持最新版本的 Stable Diffusion3(SD3)及其增强版本 Stable Diffusion3Turbo。
SD3模型的亮点在于其对字体和提示的遵循能力,这在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
Stability AI在不断提升服务质量,尽管SD3模型已经通过API对外提供,但公司仍在持续对模型进行优化。Stability AI计划在不久的将来开放模型权重,允许拥有Stability AI会员资格的用户自行托管,这将增强用户的自主性和灵活性。
Stability AI与Fireworks AI的合作确保了API平台的高速和可靠性,公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多体验,试试看!
API文档:https://top.aibase.com/tool/stable-diffusion-3-api 体验地址:https://sdxlturbo.ai/stable-diffusion3
之前找了好久的免费高质量表情符号素材,都不是很满意。偶然间发现了OpenMoji这个免费开源的表情符号素材网站,简直是设计师的福音啊!表情多样且质量上乘,非常适合设计使用。
OpenMoji是一个面向设计师、开发人员和其他所有人的开源表情符号库。它提供了超过3000种不同类别的表情符号,并且这些表情符号可以免费使用。
提供的表情符号有彩色和单色的SVG、PNG格式。大家可以通过网站提供的搜索框直接搜索想要的表情符号。
OpenMoji还提供了两个扩展,大家可以点击这些扩展查看不同类型的彩色图标。此外,网站还提供了设计新表情符号的指南,包括轮廓、颜色、版式等。
网址在这里:https://openmoji.org/
最近,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型。
Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平,在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。而且,运行速度、成本与自家前代 Claude 3 Sonnet 相当。最重要的是可以免费使用!
以下是关于Claude 3.5 Sonnet的几个关键点: 1. 模型性能:Claude 3.5 Sonnet在多个基准测试中,包括研究生水平推理(GPQA)、本科生水平知识(MMLU)和编码能力(HumanEval),设定了新的行业标准,展现出对细微差别、幽默和复杂指令的出色理解能力,以及以自然、友好的方式生成高质量内容的能力。 2. 速度与成本:它的运行速度是其前代Claude 3 Opus的两倍,同时保持了与Claude 3 Sonnet相似的成本效益,这意味着对于用户来说,它能更高效地处理复杂任务,且价格合理。 3. 免费与付费访问:Claude 3.5 Sonnet在Claude.ai网站和iOS应用上免费提供给用户,而订阅了Claude Pro和Team计划的用户可以享受更快的访问速率。此外,它也通过Anthropic API和亚马逊云科技Bedrock等平台提供,定价为每百万个输入token 3美元,每百万个输出token 15美元。 4. 视觉能力:该模型在视觉识别和处理方面也表现出色,成为Anthropic至今为止最强的视觉模型,特别是在处理视觉推理任务,如解释图表、图形转录文本等方面,这对零售、物流和金融服务等行业尤为重要。 5. Artifacts功能:Anthropic引入了一项名为Artifacts的新功能,允许用户在与Claude交互时,于对话旁边专用窗口中实时查看、编辑和构建由Claude生成的内容,比如代码片段、文本文档和网站设计,进一步促进了人工智能与人类工作的无缝集成。 6. 安全性考量:Claude 3.5 Sonnet经过严格的安全测试,并被分类为AI安全等级2(ASL-2),意味着它在化学、生物、放射性、核风险、网络安全和自主能力等领域使用相对安全,不会造成灾难性损害。Anthropic还与外部专家合作,不断测试和完善模型的安全机制,以减少滥用风险。
地址:https://claude.ai/