设计师们,最近有个超级给力的AI工具你们一定不能错过,那就是刚刚更名为“即梦”的剪映Dreamina!这个全新的品牌不仅名字梦幻,功能更是强大到不行。
如果你经常需要为了找灵感、作图、处理图片而烦恼,那“即梦”绝对是你的救星。它支持将你的文字描述直接转化成图片,就像变魔术一样,把你脑海中的创意呈现出来。再也不用为了找不到合适的图片而发愁了!
而且,它的智能画布功能简直太神奇了。你可以轻松抠图、重组图像,甚至根据提示词重新绘制新的图像。这简直就是设计师的福音啊,再也不用为了修图、抠图熬夜加班了。
更厉害的是,它还能将你的文字描述转换成视频!你没听错,就是直接生成视频。如果你想做视频内容,但是又不懂剪辑、特效,这个功能简直就是你的大救星。只需要输入文字,就能生成一段精彩的视频,还支持利用图片作为基础,通过AI智能生成视频内容。这简直就是视频创作的新时代啊!
如果你们还在为作图、修图、视频剪辑而烦恼,那就赶紧试试“即梦”吧!它绝对会让你们爱不释手的!
线上体验地址:https://jimeng.jianying.com/ai-tool/video/generate
随着AI生成内容的广泛应用,大家是不是越来越难以区分AI和人类创作的内容?
5月8日,OpenAI在官网宣布,将推出面向其文生图模型DALL·E 3 的内容识别器,以及一个媒体管理器,这个识别器可以帮助开发人员快速识别内容的真假。
而且,这次ChatGPT的内容也有所改进:OpenAI最近在ChatGPT生成的内容中加上了原始网站链接,以保护知识产权并增加内容的可信度。
以下是案例:达拉斯最适合午夜约会的5家餐厅。ChatGPT会在回答的每一条内容上加上餐厅的官网地址。
更多详细的介绍戳这里:原文地址
好消息啊!4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
大家期待已久的国产大模型,这不就来了吗?
Vidu采用了原创的Diffusion与Transformer融合架构U-ViT,能够支持文本生成长达16秒、分辨率高达1080P的高清视频内容。
Vidu不仅能够模拟真实物理世界,还具备丰富想象力,具备多镜头生成、时空一致性高等技术特点。这也是继Sora发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并加速功能迭代中。
现在已经开放试用了,还不赶紧来试一试?
试用地址:https://www.shengshu-ai.com/home?ref=maginative.com
4月25日晚,OpenAI联合创始人兼首席执行官Sam Altman,在斯坦福大学的英伟达(NVIDIA)礼堂进行了公开演讲,超过1000名学生排队参加此次活动。
Altman说:“GPT-5将会比GPT-4更强大,GPT-6将会比GPT-5更智能,OpenAI的终极目标始终都没有变就是实现——AGI(通用人工智能)。”
以下是本次演讲的一些关键信息总结: 1. Sam Altman的演讲:作为OpenAI的联合创始人兼首席执行官,Sam Altman在斯坦福大学的NVIDIA礼堂进行了演讲,吸引了超过1000名学生。 2. AI的未来发展:Altman认为,人类尚未达到AI的极限,并且OpenAI的目标是实现通用人工智能(AGI)。他提到GPT-5将比GPT-4更强大,而GPT-6将比GPT-5更智能。 3. 开源与闭源:Altman认为,为了实现AGI,需要大量的资金投入,因此开源可能不是最佳途径。OpenAI从最初的开源策略转变为闭源,以确保商业回报和持续创新。 4. 资金与投资:他提到,为了推动AGI的发展,无论每年需要多少资金,只要能为全人类和AI领域做出贡献,他都不在乎。 5. OpenAI的核心能力:OpenAI的核心能力在于技术变革,能够定义AI能力的下一个范式转变。 6. Sora模型:OpenAI发布了文生视频模型Sora,这可能会对影视、游戏开发、广告营销等行业产生重大影响。 7. 免费使用ChatGPT:OpenAI宣布无需注册就能免费使用ChatGPT,这有助于那些没有能力开发类似产品的国家或地区。 8. 英伟达与OpenAI的合作:英伟达创始人黄仁勋向OpenAI捐赠了先进的AI超级计算机,这表明了两家公司之间的紧密合作关系。
4月24日,苹果开源了大语言模型OpenELM。这与微软刚开源的Phi-3 Mini类似,是一款专门针对手机等移动设备的模型。
以下是一些重点信息的摘要: 1. 开源OpenELM: 苹果公司开源了一个名为OpenELM的大语言模型,这与微软开源的Phi-3 Mini类似,是专为移动设备设计的模型。 2. 模型参数: OpenELM提供了四种不同参数规模的模型,分别是2.7亿、4.5亿、11亿和30亿参数。 3. 功能: 该模型能够执行生成文本、代码、翻译、总结摘要等功能。 4. 预训练数据: 尽管最小的模型只有2.7亿参数,但苹果使用了1.8万亿tokens的数据进行预训练,这是其小参数下仍能表现出色的原因之一。 5. 深度神经网络库CoreNet: 苹果同时开源了用于训练OpenELM的深度神经网络库CoreNet,该库在开源后不久就在GitHub上获得了超过1100个星标。 6. 苹果的开源策略: 苹果通常在手机领域采取闭源策略,但此次开源可能是为了吸引用户,未来可能会推出闭源产品实现商业化。 7. 技术贡献: 苹果不仅发布了模型权重和推理代码,还发布了完整的训练和评估框架,包括数据准备、模型训练、微调和评估流程,以及多个预训练检查点和训练日志。 8. OpenELM架构: OpenELM的架构,包括其技术创新点,如无编码器的transformer架构、层级缩放策略、不使用全连接层中的可学习偏置参数等。 9. 训练流程与数据集: 苹果使用CoreNet作为训练框架,Adam优化算法,以及动态分词和数据过滤的方法。
开源地址:https://huggingface.co/collections/apple/openelm-instruct-models-6619ad295d7ae9f868b759ca?ref=maginative.com CoreNet地址:https://github.com/apple/corenet?ref=maginative.com 论文地址:https://arxiv.org/abs/2404.14619
Adobe Photoshop 引入了全新的 Firefly Image 3 图像 AI 模型,这一更新是在2024年4月23日宣布的。这个新模型是基于 Adobe Firefly Image 3 Foundation Model 开发的,旨在为创意专业人士和设计师提供更多的AI图像编辑功能和改进。
Firefly Image 3 模型不仅增加了生成式AI特性,还对Photoshop现有的所有功能进行了改进,使得生成的图像和输出看起来更加逼真、详细。
Firefly Image 3 模型通过提供更多的控制、改进图像生成以及使编辑过程更直观,大幅提升了图像编辑的深度与灵活性。这些新功能包括但不限于根据文本提示制作基于AI的图像,以及在Photoshop中引入的新的人工智能功能,如Reference Image等。
Adobe Firefly Image 3 模型的引入,标志着Adobe在AI图像生成领域的一个重要进步,它不仅增强了创意专业人士和设计师的工作效率和创造力,也为用户提供了更加丰富和强大的图像编辑工具。这些更新预计将在今年晚些时候通过Photoshop的beta桌面应用向公众开放。
原文地址戳这里!
最近,Adobe 发布了视频超分项目 VideoGigaGAN。从演示效果来看相当牛批,支持8倍视频放大,可以适应不同风格的视频。
详细介绍: 该模型能够生成既保持时间连贯性又具有高频细节的视频。VideoGigaGAN基于一个先进的大规模图像放大模型GigaGAN进行设计和优化。 如果简单地将GigaGAN扩展为视频处理模型,并增加处理时间信息的模块,会引起视频中的严重闪烁问题。为解决这一问题,我们识别并改进了几个关键技术点,显著提升了视频的时间稳定性。 通过在公开数据集上与其他先进的VSR模型对比,并展示8倍超分辨率的视频效果,我们验证了VideoGigaGAN的高效性。
项目地址:https://videogigagan.github.io/
Stability AI 开发者平台 API 现已支持最新版本的 Stable Diffusion3(SD3)及其增强版本 Stable Diffusion3Turbo。
SD3模型的亮点在于其对字体和提示的遵循能力,这在人类偏好评估中得到了突出体现。为了实现这一目标,SD3采用了新的多模态扩散变换器(MMDiT)架构,该架构改进了对图像和语言表示的权重分离处理,从而显著增强了模型的文本理解和拼写能力。这使得SD3在理解和执行用户的文本提示时更为精准,生成的图像更加符合用户的预期。
Stability AI在不断提升服务质量,尽管SD3模型已经通过API对外提供,但公司仍在持续对模型进行优化。Stability AI计划在不久的将来开放模型权重,允许拥有Stability AI会员资格的用户自行托管,这将增强用户的自主性和灵活性。
Stability AI与Fireworks AI的合作确保了API平台的高速和可靠性,公司承诺提供99.9%的服务可用性,这对于企业用户来说尤为重要,因为他们在使用开发者平台进行关键的生成型AI工作时,需要确保服务的稳定性和可靠性。
至于能不能和 Midjourney v6 相媲美或者超越 V6 ,大家不妨多体验,试试看!
API文档:https://top.aibase.com/tool/stable-diffusion-3-api 体验地址:https://sdxlturbo.ai/stable-diffusion3
哎呀,昨晚 Meta 发布被称为最强开源的 Llama 3 系列模型了,大晚上扔了个炸弹啊!说实话,这事儿也不算太意外,毕竟 Meta 总是喜欢搞点大动作。他们这次带来的就是那个自称“有史以来最牛”的开源大模型——Llama 3系列。 咱们设计师,又可以借助这个新模型好好发挥一番了!
一起看看这个 GPT-4 级模型,它能干得过 GPT-4 么?
Llama 3模型的特点 - 规模与性能:Meta开源了两款不同规模的Llama 3模型,分别是8B和70B参数规模。Llama 3 8B在性能上与Llama 2 70B相当,而Llama 3 70B则在性能上媲美甚至超越了其他顶尖AI模型。 - 技术改进:Llama 3在预训练和后训练方面都有所改进,优化了模型的一致性和响应多样性,降低了出错率。 - 多模态与多语言:未来几个月,Meta将推出具备多模态、多语言对话和更长上下文窗口的新模型,其中包括超过400B的模型,预计将与现有的顶尖模型竞争。
Llama 3的性能测试 - 基准测试:Llama 3在多个测试中得分超越了其他同类模型,显示出其在推理、代码生成和遵循指令等方面的突破性提升。 - 人类评估数据集:Meta开发了一套新的高质量人类评估数据集,用于准确研究模型性能。
开源与闭源的辩论 - 开源优势:Meta坚定地支持开源路线,认为这有助于推动社区和公司双方的创新。 - 未来展望:尽管Llama 3为开源模型赢得了一场胜利,但关于开源与闭源的辩论仍在继续。未来,可能会有更高性能的模型出现,为这场辩论带来新的转折。
附上 Llama 3 体验地址:https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct
近日,在量子位举办的中国AIGC产业峰会现场,一份行业参考正式出炉——《中国AIGC应用全景报告》。
1. 市场规模预测:预计2024年中国AIGC应用市场规模将达到200亿人民币,到2030年将达到万亿规模。 2. 投融资情况:去年,AIGC领域发生了至少5起代表性融资事件,其中智谱AI和月之暗面的Kimi智能助手分别获得了巨额融资。 3. 商业模式:B端产品(面向企业的产品)80%实现营收,而C端产品(面向消费者的产品)近50%以免费为主。 4. AI应用类型:AI原生应用占比高于X+AI,即完全基于生成式AI技术打造的原生应用占比接近57%。 5. 技术趋势:多模态技术(能识别和理解两种及以上模态数据的产品)是大趋势,目前占比近50%。 6. 产品落地:AIGC应用产品落地的首要因素是场景与技术的匹配,技术成熟度决定落地速度。 7. 投资资源:AIGC产业投资资源向头部聚集,潜在资本重点看向应用层。 8. 地域分布:北京、上海、杭州、深圳是AIGC应用产品最多的地区。
原文地址:https://mp.weixin.qq.com/s/-jvjxWxssQvfgToxfJbzvA 完整报告下载:jkhbjkhb.feishu.cn/wiki/W5D7wuDcbiPXDLkaRLQcAJpOn8f