尊享

加入【优设领航者俱乐部】

尊享全年高价值服务 加速收益

大咖指引 职场加薪

大咖领航新机会新收入

AIGC实战 加速受益

大厂AIGC实战经验分享

优质链接 人脉链接

企业/达人/设友线下链接

流量赋能 名利双收

1000W+流量助力影响力提升

领取更多高价值实用特权

投稿

优设问答你的职场经验书

首席爆料师 邀请你来回答

8小时前

模型未发 API 先至!Stable Diffusion 3 API 发布,其性能是否能与 Midjourney v6 相媲美?

Stability AI 开发者平台 API 现已支持最新版本的 Stable Diffusion3(SD3)及其增强版本 Stable Diffusion3Turbo。

SD3模型的亮点在于其对字体和提示的遵循能力,这在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。

Stability AI在不断提升服务质量,尽管SD3模型已经通过API对外提供,但公司仍在持续对模型进行优化。Stability AI计划在不久的将来开放模型权重,允许拥有Stability AI会员资格的用户自行托管,这将增强用户的自主性和灵活性。

Stability AI与Fireworks AI的合作确保了API平台的高速和可靠性,公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。

至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多体验,试试看!

API文档:https://top.aibase.com/tool/stable-diffusion-3-api 体验地址:https://sdxlturbo.ai/stable-diffusion3

新鲜问答出炉,等你围观回答
好问题 13 回答 3

大白(●—●) 邀请你来回答

9小时前

开源大模型 Llama 3 发布,又一 GPT-4 级模型来了,它能干得过 GPT-4 么?

哎呀,昨晚 Meta 发布被称为最强开源的 Llama 3 系列模型了,大晚上扔了个炸弹啊!说实话,这事儿也不算太意外,毕竟 Meta 总是喜欢搞点大动作。他们这次带来的就是那个自称“有史以来最牛”的开源大模型——Llama 3系列。 咱们设计师,又可以借助这个新模型好好发挥一番了!

一起看看这个 GPT-4 级模型,它能干得过 GPT-4 么?

Llama 3模型的特点 - 规模与性能:Meta开源了两款不同规模的Llama 3模型,分别是8B和70B参数规模。Llama 3 8B在性能上与Llama 2 70B相当,而Llama 3 70B则在性能上媲美甚至超越了其他顶尖AI模型。 - 技术改进:Llama 3在预训练和后训练方面都有所改进,优化了模型的一致性和响应多样性,降低了出错率。 - 多模态与多语言:未来几个月,Meta将推出具备多模态、多语言对话和更长上下文窗口的新模型,其中包括超过400B的模型,预计将与现有的顶尖模型竞争。

Llama 3的性能测试 - 基准测试:Llama 3在多个测试中得分超越了其他同类模型,显示出其在推理、代码生成和遵循指令等方面的突破性提升。 - 人类评估数据集:Meta开发了一套新的高质量人类评估数据集,用于准确研究模型性能。

开源与闭源的辩论 - 开源优势:Meta坚定地支持开源路线,认为这有助于推动社区和公司双方的创新。 - 未来展望:尽管Llama 3为开源模型赢得了一场胜利,但关于开源与闭源的辩论仍在继续。未来,可能会有更高性能的模型出现,为这场辩论带来新的转折。

附上 Llama 3 体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct

新鲜问答出炉,等你围观回答
好问题 20 回答 2

首席爆料师 邀请你来回答

3天前

Adobe 将 Sora、Runway、Pika 集成在 Premiere Pro 中了,来看看效果实用性怎么样?

昨晚,Adobe在官网宣布,将OpenAI的Sora、Pika 、Runway等著名第三方文生视频模型,集成在视频剪辑软件Premiere Pro中(简称“PR”)。这些集成的模型和功能将通过AI驱动的音频编辑功能,使得音频编辑变得更快、更轻松、更直观。

这次更新是Adobe对PR的一次重大重构,旨在帮助用户简化创作流程,并提供多样化的创作灵感。通过生成式AI的加持,PR将为专业视频剪辑师和业余爱好者带来更高效和便捷的创作体验。

△鼠标右键,勾选“显示控件”,可以打开声音哦!

用Sora生成视频素材 Adobe的创新之一是将Sora、Gen-2、Pika以及Firefly系列模型集成到PR中,这将帮助用户快速为作品添加不同类型的视频素材和动态效果。例如,用户只需输入文本提示“夜雨中的城市风景”,就能通过Sora生成相应的视频素材,并将其应用在视频项目中作为背景或增强主轨道视频。预览展示表明,用户一次可以生成三个视频供选择。

快速替换、删除视频特定区域 Adobe自研的Firefly模型使得替换视频素材中的特定区域变得轻松。过去,替换素材需要新增一条素材视频轨道并调整图层,而现在通过Firefly,用户只需用钢笔工具圈选区域并输入提示文本,如“一大堆宝石”,即可选择合适的素材进行替换。 此外,Firefly还提供了精准删除或替换视频中无用对象的功能。以往需要通过遮盖、模糊处理等繁琐方法移除的对象,如垃圾桶或电表箱,现在可以轻松点击一下快速删除或替换。

用生成式AI制作定格帧 传统的视频定格帧制作流程相对繁琐,需要找到需要定格的视频序列,确定并添加帧保持,然后调整定格帧的持续时间。现在,借助生成式AI功能,用户只需拖动视频的定格静态帧,AI将自动生成补充内容,简化了整个制作过程。 Adobe创意产品部高级副总裁Ashley Still表示,Adobe正在重新构想视频创作流程的每一个步骤,为创作者提供更高效、便捷的功能。通过将生成式AI深度融合到PR的核心工作流程中,Adobe正在解决视频编辑人员每天遇到的真正制作痛点,帮助他们节省时间并提升创意灵感。

这些更新和创新展示了Adobe对于AIGC领域的重视和投入,以及其致力于推动多媒体创作工具向前发展的决心。通过集成先进的AI技术,Adobe旨在为创作者提供更加强大和灵活的创作平台,以激发更多的创意和可能性。

好问题 30 回答 3

首席爆料师 邀请你来回答

6天前

5月15日起谷歌将免费提供3款,生成式AI图像编辑工具,哪款你最期待?

昨天,谷歌在官网宣布从5月15日起,将向所有谷歌相册用户免费提供Magic Editor、Photo Unblur和Magic Eraser三款生成式AI编辑工具。

通过这三款强大的AI图像编辑工具,用户可以轻松将模糊的图片变高清,实现一键PS/调色/光影,删除图片多余内容等。而在此之前,这三个是谷歌Pixel手机独有功能。

功能介绍: 1. Magic Editor:这是一款强大的AI图像编辑工具,它可以帮助用户轻松实现一键PS/调色/光影,改变图片中的物体位置等。这项功能最初在2023年10月4日随Pixel 8系列手机发布。Magic Editor的优势在于它的细节调整和融合度比传统的PS工具更强,而且操作简单,无需深度的专业知识。不过,需要注意的是,所有谷歌相册用户每月只能使用10次Magic Editor,如果想要更多使用次数,用户需要购买Pixel 8手机或开通Google One计划(2TB及以上)。 2. Photo Unblur:这是一款专用于去除图片模糊的工具。用户在拍摄图片时可能会因为手抖、环境等因素导致图片模糊,Photo Unblur能够一键还原图片的清晰度,让模糊的图片变高清。 3. Magic Eraser:这是一款图片擦除工具,可以帮助用户去除照片中不希望出现的元素,如行人或物体。对于不熟悉PS技术的用户来说,Magic Eraser提供了一种简单快捷的解决方案,一键完美去除图片中的障碍物。

哪款你最期待呢?评论区说出你的想法吧~

好问题 33 回答 3

大白(●—●) 邀请你来回答

2024/04/10

一键自动写影评,谷歌重磅发布Gemini 1.5 Pro,功能太强大了吧?

4月10日凌晨,谷歌在官网正式发布了Gemini1.5Pro,现在可在180多个国家/地区使用。

Gemini 1.5 Pro 不仅能够生成创意文本和代码,还能理解、总结上传的视频和音频内容,并且支持高达100万tokens的上下文。

在Google AI Studio开发平台中,用户可以免费试用Gemini 1.5 Pro,并且它支持中文提示。这使得用户能够通过简单的操作,上传视频或音频文件,并获取内容的深度总结。例如,用户可以上传一个视频并询问影片的内容,Gemini 1.5 Pro能够快速解析并提供答案。

Gemini 1.5 Pro还提供了音频理解功能,能够快速解析音频文件并总结其内容。这对于需要处理大量视频和音频内容的用户来说,无疑是一个巨大的帮助,因为它可以节省大量的时间。

谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,这些改进显著提升了模型的稳定性和输出能力。系统指令功能允许用户根据特定需求控制模型的行为,JSON模式可以帮助开发者从文本或图像中提取结构化数据,而函数调用优化则支持开发者实现更全面的查询响应。

详情点此查看: https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

音频理解能力: https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

好问题 17 回答 3
1/26