中国团队打造！这才是现在最强的AI声音模型！

2025/05/19 推荐： 数字生命卡兹克阅读 8.0k 评论有奖阅读本文需 10 分钟

中国团队打造！这才是现在最强的AI声音模型！

几个月前，我写过一篇 MiniMax 的 AI 声音模型。

30秒完美复刻你的声音，这就是当今最强的中文AI语音克隆！

往期作者干货：中文，在 AI 世界，好像突然一夜崛起了。

阅读文章 >

我说，那就是当时最强的中文 AI 音频。数据也有点小爆。

而在去年 12 月之后，至今将近半年时间，在 AI 声音模型这块，我觉得还是没有能超越 MiniMax 的。

直到昨天，我看到 MiniMax 在 X 上发了他们新一代声音模型的技术报告，Speech-02 来了。看来想突破 Speech-01 的上限，还是得他们自己。

中国团队打造！这才是现在最强的AI声音模型！

不过就是这数据是真的惨淡，看来大家最近关注的都是 Agent、MCP，AI 音频关注的人，是真的少。。。

我大概翻了一下，跑分确实牛逼不少，主要是 WER 和 SIM 这两数据。

中国团队打造！这才是现在最强的AI声音模型！

两个维度，左边是 WER，越低越好，代表这个模型讲出来的话，有多准确。右边是 SIM，越高越好，代表这个模型讲出来的声音，有多像原声。

你可以简单的理解成，左边看的是 AI 说的对不对，右边看的是 AI 像不像本人。

WER 的数据，除了一些欧美的小语种，主流语种几乎都压了目前世界公认最被推崇的 11Labs 一头，特别是周边的亚洲国家，日本、越南、泰国，几乎都是纯碾压姿态，所有语种的 WER 指标几乎平均都在 1~4 之间，很牛逼，他们这是正儿八经在多语种上发力了

而音色相似度上，上一代其实做的没有 11labs 好，海外的很多反馈都是声音没有 11Labs 像，但是这一次，实现了全面超越，32 个语种，每一个在跑分上都比 11Labs 要强，我自己实测，也能明显感觉到，相似度已经比 11labs 好了。

我又去看了一下 AI 音频领域的盲测竞技场。

意外的发现。

中国团队打造！这才是现在最强的AI声音模型！

MiniMax 这个新模型。

登顶了。。。

现在，这个新模型，MiniMax Speech-02，已经可以在 MiniMax 官网用了，目前只有海外版有声音克隆，别问我为什么只有海外版有。

网址在此： https://www.hailuo.ai/audio

中国团队打造！这才是现在最强的AI声音模型！

我随手用 MiniMax+即梦大师版，搓了一个有趣的郭小纲动画，给大家直观的感受一下，MiniMax 的 Speech-02 有多强。

当视频在手机上无法加载，可前往PC查看。

我就扔了一段不到 1 分钟的原声进去复刻，说实话，这音调，这起伏，这音色，强的有点不像话了。

我第一次听到的时候，真的感觉真假难分。

不仅郭小纲，还能让，周小伦，来夸一夸我。

太像了。

你闭着眼睛，你是真的能感觉到，是周董，在你面前挥舞着手臂，用那独特的强调跟你说，你还挺屌的。

还有之前艾尔登法环，预告片里面菈妮的配音我一直很喜欢。

我也让 MiniMax 复刻了一下。

这是上一代 Speech-01-hd 的效果。

而这是，Speech-02-hd 的效果。

我相信，一定能非常轻松的感受到，情绪的差距。

说说咋用。

进入 Minimax 的 Audio 官网后，点击左边的 Voices。

中国团队打造！这才是现在最强的AI声音模型！

免费用户，可以免费克隆 3 个声音。

我是开了 5 刀的会员，所以可以创建 10 个。

中国团队打造！这才是现在最强的AI声音模型！

点进去以后，直接上传你的素材，然后正常命名，选素材的主语言就行，超级简单。

中国团队打造！这才是现在最强的AI声音模型！

上传的语音最少上传 10s 的音频片段就可以克隆了，不过这个样本其实不是特别够，所以我一般推荐音频素材最好在 30s 左右，当然你也可以更长，不过一般不需要超过 5 分钟。

然后只需要十几秒，一个新鲜的声音模型，就克隆好了。

后续使用的时候，直接在右边的声音选择界面里面找到自己的 tab，正常使用就行。

中国团队打造！这才是现在最强的AI声音模型！

一代的时候，这个声音模型，只支持 12 种语言，分别是：

中文、粤语、英语、韩语、日语、印尼语、西语、葡语、法语、意大利语、俄语、德语。

但是这一次的 2 代，支持了 32 种语言。

而且在混合语种上，有更好的效果了。

比如我之前看到一个非常有意思的挑战。

中国团队打造！这才是现在最强的AI声音模型！

文字是这样的：

“皆さん，我在网络上面看到有 someone 把三个国家的 language 混在一起去 speak。我看到之后 be like これは我じゃないか，私も try one try です”。

非常离谱。

我克隆了我自己的声音，然后去试着念了一下。

这是上一代 Speech-01-hd：

我保证，你听完以后也不知道它到底念了个啥，我就听到一个 Speak。。。

再来听听 2 代的。

虽然日文那还有一点奇怪，但是，已经是能完整的区分出来念的明明白白的了好吧，这已经是，史诗级进步了。

我又搞了一个更复杂的，小皇四郎。

文本是这样的：

“妈的，最烦装逼的人了。刚回国，问他论文咋样，他说：

“我要 restructure 一下 framework。”

我翻了个白眼，结果他又来一句：

“Ah non, pas de sucre, merci~”

然后切日语：「これはマジでイラっとするわ〜」

再来西语：“¡Qué pesado! Pero suena perfecto.”

最后还补一句英语：“Seriously. Stop pretending you’re special.”

我都想说：你到底是人，还是 AI？

哦，他是 MiniMax Speech two，新模型。”

当视频在手机上无法加载，可前往PC查看。

真的，实在太好玩了。

虽然最后的中文，念的还是冒出了翻译腔，但是进步已经巨大了。

而且，还有一个超级屌的点是，他们在讲故事的场景中，如果你只用一个声音的话，在一些不同角色那里，它甚至会有不同的音调变化和情绪变化。

这是我的一份故事文稿。

中国团队打造！这才是现在最强的AI声音模型！

我直接让 Speech-02-hd 一键直出，然后我自己稍微剪了下，加了点音效，大家可以听一听这个情绪，还有角色的变化。

文稿中标黄的那几句，大家应该能明显的听出来，是刻意压低了音调，改了情绪。这可不是我处理的，是 MiniMax 直出的，这就非常牛逼了。

除了 C 端产品之外，我看了一眼 API，发现，他们已经第一时间把 Speech-02 给支持了。

中国团队打造！这才是现在最强的AI声音模型！

甚至，MCP 也弄好了。

中国团队打造！这才是现在最强的AI声音模型！

现在，你可以在任何 Agent 产品里，也可以接入这个逼真到爆炸的语音模型了。

我们也可以自豪的说一声。

之前，中文 AI 语音，我们做到了世界最强，但是现在，可以把中文去掉了，整体上，我们都已经做到了世界最强。

这是一个被所有人低估的战场。

大家都在盯着谁做出第一个像人一样思考的 Agent，却没看到，那些 AI 说话的声音，其实早已变得越来越跟真人无异。

而且，这一次，还是我们做出来的。

在 12 月份的那边 MiniMax AI 音频的文章中，我在最后写道：

“也许，这就是属于中文世界的 AI 时代的序章。而这一切，才刚刚开始。”

然后就是波澜壮阔的春节。

随后的故事，大家也都知道了。

一语成谶。

现在的 AI 世界，再也不是英语的独角戏了。

我们从配角，走向主角。

然后不仅仅止步于起。

像 MiniMax，也用 AI，给世界，尽可能的带来语言平权。

那些过去没被在意的语言，过去只能在家族里、在小巷里、在庙宇里才能听到的声音，现在终于有机会，能被世界听见了。

AI 没有带来统治。

反而是把人类的多样性。

放进了未来。

数字生命卡兹克

文章 66 人气 151.0w

AI自媒体

+关注作者

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

学AI

AI导航

发表评论为下方 4 条评论点赞，解锁好运彩蛋

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

菜单 优设网uisdc.com 优设网 - 学AI设计上优设

您还未登录

登录后即可体验更多功能

中国团队打造！这才是现在最强的AI声音模型！

2025/05/19 推荐： 数字生命卡兹克阅读 8.0k 评论有奖 阅读本文需 10 分钟

30秒完美复刻你的声音，这就是当今最强的中文AI语音克隆！

数字生命卡兹克

文章 66 人气 151.0w

继续阅读本文相关话题

151.0w人气 66文章

本文3套知识9图

AIGC营销全案教程！5步教你打造节庆促销活动

AI智能排版+配色！3分钟搞定专业级B端登录页设计

国潮设计快上车！8款AI中国元素月饼礼盒提示词灵感

文章目录

文章目录

你即将学会 AI Agent 的知识

超多案例！让 Lovart 作图更好看更高效的提示词在这里了！

3.4w 人阅读

上一篇

你即将学会 AIGC 的知识

为什么苹果和微信在AI的节奏上快不起来？

1.2w 人阅读

下一篇

发评论！每天赢奖品

点击 登录 后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助 联系我们

AIGC互联网产品设计实践

已累计诞生 755 位幸运星

发表评论 为下方 4 条评论点赞，解锁好运彩蛋

↓ 下方为您推荐了一些精彩有趣的文章热评 ↓

数字生命卡兹克

数字生命卡兹克

数字生命卡兹克

夏花生

yaoyao设计师

优设推荐官精选热门话题

AI应用场景

文章 334

AI神器

文章 458

电商设计

文章 271

插画设计

文章 285

评论

收藏

分享

AI趋势

入站必看

设计入门

进阶提升

热门资源

最新AI工具

300+实用AI工具全收录

Midjourney

会上瘾的AI绘画工具

AI智能绘画

让AI助你一臂之力

Blender

称心如意的3D设计法宝

Figma

令设计师爱不释手

HMI设计指南

车载设计教科书

直播间设计

生意都在直播间啦

Stable Diffusion

最强开源AI绘画工具

优设热榜

每日必读的行业消息

教你做字库

每个公司都可有字库

设计服务

一站式数字创意服务平台

求职面试

为你用心整理的技巧

B端设计

开始探索B端设计

3D设计

菜单优设网 - 学AI设计上优设

2025/05/19 推荐：数字生命卡兹克阅读 8.0k 评论有奖阅读本文需 10 分钟

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

发表评论为下方 4 条评论点赞，解锁好运彩蛋