张小闲 邀你回答

3天前

LMArena 模型盲盒大擂台:让 Nana banana 一秒现形,谁才是真·卷王?

如果 GPT-4、Claude-3-Opus、Llama-3-70B……外加一个神级新秀 Nana banana 同时站在你面前,你能在 30 秒内挑出最会写代码、最懂梗、也最会哄人的那个吗?
99% 的人会摇头。但 LMArena.ai 把这道题做成了游戏,而且让人上瘾到停不下来。
LMArena 是一个用于评估和比较不同大型语言模型(LLM)的在线平台。

LMArena 模型盲盒大擂台:让 Nana banana 一秒现形,谁才是真·卷王?

它主要以其“竞技场(Arena)”功能而闻名,其运作方式如下:
- 匿名对战:平台会向用户展示两个匿名的AI模型,并让它们回答用户提出的相同问题或指令。
- 用户投票:用户根据两个模型生成回答的质量,投票选出他们认为更好的一个。
- 模型排名:通过收集大量用户的投票数据,平台对各个语言模型进行统计和排名,并将其结果展示在排行榜(Leaderboard)上。

LMArena 模型盲盒大擂台:让 Nana banana 一秒现形,谁才是真·卷王?

该工具主要运用于人工智能研究与开发领域,特别是大型语言模型的性能评估和基准测试。它通过众包(crowdsourcing)的方式,利用真实用户的偏好作为评价标准,为AI开发者和研究人员提供关于不同模型在实际应用中表现的参考。

现在爆火的Nano Banana模型也可以在LMArena使用哦,详细的工具评测大家可以戳文章:https://www.uisdc.com/lmarena

收藏 关注话题 点赞 23 生成海报
优设问答有问必答 👉 回答问题赢奖品
{{ moreBtnTxt }}

LMArena 模型盲盒大擂台:让 Nana banana 一秒现形,谁才是真·卷王?

生成问答海报 我要提问 我来回答