谁是视觉推理AI之王？一场游戏横评5大顶流模型！

2025/07/25 推荐：一泽Eze阅读 2.2w 评论有奖阅读本文需 9 分钟

收藏 5

点赞 59

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

Hi，我想先请你只看下面这张照片，推测它的拍摄城市：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

这是一类叫做「网络迷踪」的推理游戏：只看照片，判断拍摄地点的位置，距离越近，得分越高。

游戏过程是这样的：

当视频在手机上无法加载，可前往PC查看。

太适合测试 AI 的视觉推理能力了。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

完美模拟了人类玩家的视觉推理过程：

精准识别视觉元素：解读路牌文字、辨认植被类型、分析建筑风格特征；
调用知识储备：判断特定电线杆造型属于哪个国家或地区；
以及多层次线索整合推理。

要想在这个游戏中取得好成绩，AI 们必须同时发挥其视觉识别、模型知识、逻辑推理的最大潜能。

当 AI 答题结果被标注在地图上后，它们之间的智力差距也就一目了然。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

比单一维度的 Benchmark 跑分，能更有趣、直观地看到模型的差距。

所以我拉上了国内外 5 个顶流多模态推理模型，一起来做了这项比赛。

你猜，谁是视觉推理 AI 之王？

更多AI模型测评：

游戏素材生成哪家强？6大AI神器深度测评！

随着游戏开发对效率和创意的需求提升，AI 生成工具成为行业趋势。

简单介绍「AI 网络迷踪」赛制

本次比赛的参赛选手如下：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

注：DeepSeek-R1 其实不支持多模态（视觉识别），故不参加比赛。

比赛规则很简单：

① 共 5 道题目，每题提供同一位置两张不同拍摄方向的照片（题源：图寻-每日挑战-全球 04/20）

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

② 通过统一的比赛 Prompt，要求 AI 给出它认为最可能的经纬度坐标

你正在参与地图迷踪比赛，不准联网。右下角小地图不包含任何有效信息。分析提供的图片，推断其拍摄的地理位置的行政区划层级（格式：大洲，国家，行政区，城市，乡镇）和经纬度（格式，如 41.40338, 2.17403），尽可能准确。使用中文回答。

③ 每一题均在地图上标注出所有 AI 的猜测点和实际位置，距离越近，排名越高

第一轮：某热带地区

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

非常典型的热带地区植被，棕榈树、阔叶树随处可见，现代化风格的住宅楼，路面状况良好，略微倾斜，似乎是丘陵地带。

第一轮测试中，各模型回答如下：

ChatGPT-o3：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

Gemini-2.5-pro：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

Claude-3.7-sonnet-thinking：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

Doubao-1.5-thinking-pro：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

QVQ-Max：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

把第一轮的答题结果对应到地图坐标位置，与实际答案距离位置如图：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

实际位置约在：1.266428, 103.823641，可在 Google 地图查看街景

不过第一轮照片，其实还是缺乏了决定性信息。如果要完全精准，就需要对照新加坡的卫星/街景影像，进行一一排查。

本轮排名：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

第二轮：有俄文名称的工厂

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

第二轮的各 AI 的猜测结果，对应地图位置如下：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

其中 ChatGPT 和 Gemini 表现出了意外的准确性，误差均在 1 公里左右。

虽然不小心定位到海里去了，但无伤大雅。（主要是因为本轮比赛中，AI 不能通过地图服务确认经纬度的真实位置情况）

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

实际位置约在：44.727172, 37.823414，可在 Google 地图查看街景

特别的，ChatGPT-o3 在本次推理过程中，对图像进行了多次“缩放再识别”，类似人类识别图像细节的过程，“当整张图像看不出足够的信息时，通过放大图像，来加强对某个特征区域的细节识别”。

想来这种视觉推理方式，很快会成为各家的共识。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

本轮排名：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

第三轮：某海边公路

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

沿海的公路，远处西方有雪山，太阳非常好，绕山公路的方向也很明显。

第三轮的各 AI 的猜测结果，对应地图位置如下：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

实际位置约在：38.658016, 23.967011，可在 Google 地图查看街景

本轮排名：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

第四轮：零售园区

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

这轮其实给出的信息已经很多，各式各样的建筑招牌名称、各型号的汽车、以及平坦的地貌。

第四轮结果，对应地图位置如下：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

实际位置约在：44.867243, 13.868149，可在 Google 地图查看街景

ChatGPT 和 Gemini 表现的都很“本地人”，不过 Gemini 这次更胜一筹。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

值得一提的是，本次实测中，只有 QVQ-Max 和 ChatGPT-o3 识别出了图二远处很小的“Decathlon”迪卡侬 Logo。

（这样来看，QVQ 没做缩放再识别，识别精度也不错）

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

如果 AI 能调用 Google 地图，进行建筑名称的布局、距离的真实比对，应该更容易找到完全精确的位置。

本轮排名：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

第五轮：干燥丘陵

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

最后一轮的信息就相当有限了，干燥的丘陵地形，主要为低矮灌木，符合地中海气候区或者温带大陆性半干旱气候区的特征。

维护得相对良好的土路，道路大致朝西南方向。估计是在乡村或偏远地区，交通不便。推理难度确实比之前的更高。

各家 AI 推测的地图位置如下：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

实际位置约在：40.372043, 31.760780，可在 Google 地图查看街景

本轮排名：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

比赛结果：o3 第一

统计 5 轮比赛结果，平均名次就是最终成绩：

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

ChatGPT-o3 毫无疑问是本次视觉推理的王者，在 4/5 的轮次中得到第一名。也是唯一一个支持“缩放再识别推理”的模型，在精细识别视觉线索时表现突出
Gemini 和 ChatGPT 的推测位置差距不大，实际上表现接近
阿里云的 QVQ 整体表现也挺稳定；还识别出了只有 ChatGPT 通过放大才识别出来的 logo。另外，作为本次参赛模型中唯一有开源习惯的 Qwen 系列模型，还可以期待后续 Max 版本的开源
Btw：其实没想到 Claude 3.7 sonnet thinking 在「AI 网络迷踪」中表现会这么不如意

小结

这次比赛，并没有让 AI 联网使用地图服务或图像搜索，纯粹考察模型基于自身的视觉识别、知识储备、多模态推理这三大核心能力。

（模拟了真实人类玩「图寻」的情况，没时间用地图查询作弊）

但在 AI 的帮助下，我依然超过了今天 94.88% 的玩家，刷新了我自己的得分纪录。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

而这当然不是当前 A能I 的力边界。

当我们把卫星地图、街景影像服务，甚至小红书等社交平台的权限，通过类 MCP 协议提供给 AI 后，

任何人都能用 AI 快速推测一张照片的大致范围，再利用卫星影像、社交平台照片内容精细比对，最终推测出精度极其恐怖的位置信息。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

那样，精准定位一个人的位置不再是难题。

而一个能看懂世界、调用互联网海量工具、多步推理的 AI，将在地图导航、生活服务、乃至安防监控等方方面面带来多大的变化？

Now, Big Brother is watching you.

如果觉得这篇文章对你有启发或帮助，欢迎点赞、转发分享，让更多热爱 AI 的朋友能够受益。

也期待在评论区看到你的实践和思考。

本文采用 CC-BY-4.0 协议开源，你也可以随意进行二创。如果你能在自己的文章提及来源，那就太好了。

谁是视觉推理AI之王？一场游戏横评5大顶流模型！

一泽Eze

文章 9 人气 32.2w

Chat Memo AI 创业者，产品经理，提示词工程师

+关注作者

收藏 5

点赞 59

复制本文链接文章为作者独立观点不代表优设网立场，未经允许不得转载。

继续阅读本文相关话题

AIGC

你即将学会 AIGC 的知识

彻底解决出图困难！超高效的Kontext工作流搭建+提示词技巧

3.9w 人阅读

上一篇

你即将学会 AIGC 的知识

解析ComfyUI核心节点！Latent的6大类神奇妙用（附实战案例）

5.7w 人阅读

下一篇

发评论！每天赢奖品

点击登录后，在评论区留言，系统会随机派送奖品

2012年成立至今，是国内备受欢迎的设计师平台，提供奖品赞助联系我们

本期奖品

用户体验增长

已累计诞生 795 位幸运星

查看获奖名单

发表评论为下方 8 条评论点赞，解锁好运彩蛋

{{ moreBtnTxt }}

以上留言仅代表用户个人观点，不代表优设立场

评论就这些咯，让大家也知道你的独特见解立即评论

阅读相关文章

五月的枫叶

2025/07/23

阅读 12.5w

AI创作

游戏素材生成哪家强？6大AI神器深度测评！

我挑选了豆包、即梦、可灵、魔触 AI、星流、Holopix AI 六大平台，从生成模式、风格覆盖、适用场景、成本等展开深度测评，帮你精准选工具！

6分钟阅读

数字生命卡兹克

2025/05/19

阅读 1.1w

AI创作

中国团队打造！这才是现在最强的AI声音模型！

想象周杰伦用5种语言为你播报天气，新一代语音克隆技术让幻想照进现实。

10分钟阅读

言川Artie

2025/06/09

阅读 5.9w

AI创作

肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

本篇文章我就带大家把 Flux Kontext 的真实能力拆个底朝天，还整理了一份「AI 自动写提示词的指令模板」，以及两套完整的商业设计案例分享给大家。

37分钟阅读

四喜茶茶

2026/05/15

阅读 4.0w

AI创作

资讯/神器/素材全都有！2026年5月设计素材周刊第一波

还在为找素材加班？这期为你打包了一键提取插件、AI提示词库与免费UI组件，直接帮你省掉80%重复工作！

6分钟阅读

夏花生

2023/05/22

阅读 5.4w

AI创作

Skybox AI ! 一键将涂鸦转为360°无缝环境贴图的AI神器

手绘涂鸦秒变场景！本文为大家简单介绍一下如何用 SkyBox AI 生成自己想要的环境贴图素材。

AI创作 AI绘画

6分钟阅读

{{comTitle}} {{comSubtitle}}

评论

收藏

热门频道

AI频道

支持与服务

官方社群
优设官方微信群
01优设AIGC自学交流群
02优设小红书个人IP交流群
03优设设计师交流群
04优设UI设计师交流群
05优设交互设计师交流群
06优设电商交流群
07优设私单群

08优设硬件种草交流群
09优设同城搭子群
10优设大学生交流群
11优设插画师交流群
12优设平面品牌设计师交流群
13优设3D设计师交流群
14优设摄影剪辑爱好者交流群
微信扫码添加管理员招财

微信号：扫码添加

严格审核打造高质量交流群

进群会有面试题谢绝打广告
优设微博

@
优设AIGC
400W粉丝！每日更新设计干货
@
优设
强烈推荐！优设官方品牌微博
@
优优教程网
官方微博，海量教程看不完
@
优设基础训练营
零基础入门，带你成为软件高手
优设微信

每天官微五分钟

一年萌新变大神

扫码关注

1000W

优设新媒体矩阵等你来关注

优设大课堂

设计师导航