谁是视觉推理AI之王?一场游戏横评5大顶流模型!

Hi,我想先请你只看下面这张照片,推测它的拍摄城市:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

这是一类叫做「网络迷踪」的推理游戏:只看照片,判断拍摄地点的位置,距离越近,得分越高。

游戏过程是这样的 :

当视频在手机上无法加载,可前往PC查看。

太适合测试 AI 的视觉推理能力了。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

完美模拟了人类玩家的视觉推理过程:

  1. 精准识别视觉元素:解读路牌文字、辨认植被类型、分析建筑风格特征;
  2. 调用知识储备:判断特定电线杆造型属于哪个国家或地区;
  3. 以及多层次线索整合推理。

要想在这个游戏中取得好成绩,AI 们必须同时发挥其视觉识别、模型知识、逻辑推理的最大潜能。

当 AI 答题结果被标注在地图上后,它们之间的智力差距也就一目了然。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

比单一维度的 Benchmark 跑分,能更有趣、直观地看到模型的差距。

所以我拉上了国内外 5 个顶流多模态推理模型,一起来做了这项比赛。

你猜,谁是视觉推理 AI 之王?

更多AI模型测评:

简单介绍「AI 网络迷踪」赛制

本次比赛的参赛选手如下:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

注:DeepSeek-R1 其实不支持多模态(视觉识别),故不参加比赛。

比赛规则很简单:

① 共 5 道题目,每题提供同一位置两张不同拍摄方向的照片(题源:图寻-每日挑战-全球 04/20)

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

② 通过统一的比赛 Prompt,要求 AI 给出它认为最可能的经纬度坐标

你正在参与地图迷踪比赛,不准联网。 右下角小地图不包含任何有效信息。 分析提供的图片,推断其拍摄的地理位置的行政区划层级(格式:大洲,国家,行政区,城市,乡镇)和经纬度(格式,如 41.40338, 2.17403),尽可能准确。 使用中文回答。

③ 每一题均在地图上标注出所有 AI 的猜测点和实际位置,距离越近,排名越高

第一轮:某热带地区

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

非常典型的热带地区植被,棕榈树、阔叶树随处可见,现代化风格的住宅楼,路面状况良好,略微倾斜,似乎是丘陵地带。

第一轮测试中,各模型回答如下:

ChatGPT-o3:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

Gemini-2.5-pro:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

Claude-3.7-sonnet-thinking:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

Doubao-1.5-thinking-pro:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

QVQ-Max:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

把第一轮的答题结果对应到地图坐标位置,与实际答案距离位置如图:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

实际位置约在:1.266428, 103.823641,可在 Google 地图查看街景

不过第一轮照片,其实还是缺乏了决定性信息。如果要完全精准,就需要对照新加坡的卫星/街景影像,进行一一排查。

本轮排名  :

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

第二轮:有俄文名称的工厂

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

第二轮的各 AI 的猜测结果,对应地图位置如下:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

其中 ChatGPT 和 Gemini 表现出了意外的准确性,误差均在 1 公里左右。

虽然不小心定位到海里去了,但无伤大雅。(主要是因为本轮比赛中,AI 不能通过地图服务确认经纬度的真实位置情况)

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

实际位置约在:44.727172, 37.823414,可在 Google 地图查看街景

特别的,ChatGPT-o3 在本次推理过程中,对图像进行了多次“缩放再识别”,类似人类识别图像细节的过程,“当整张图像看不出足够的信息时,通过放大图像,来加强对某个特征区域的细节识别”。

想来这种视觉推理方式,很快会成为各家的共识。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

本轮排名 :

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

第三轮:某海边公路

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

沿海的公路,远处西方有雪山,太阳非常好,绕山公路的方向也很明显。

第三轮的各 AI 的猜测结果,对应地图位置如下:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

实际位置约在:38.658016, 23.967011,可在 Google 地图查看街景

本轮排名 :

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

第四轮:零售园区

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

这轮其实给出的信息已经很多,各式各样的建筑招牌名称、各型号的汽车、以及平坦的地貌。

第四轮结果,对应地图位置如下:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

实际位置约在:44.867243, 13.868149,可在 Google 地图查看街景

ChatGPT 和 Gemini 表现的都很“本地人”,不过 Gemini 这次更胜一筹。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

值得一提的是,本次实测中,只有 QVQ-Max 和 ChatGPT-o3 识别出了图二远处很小的“Decathlon”迪卡侬 Logo。

(这样来看,QVQ 没做缩放再识别,识别精度也不错)

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

如果 AI 能调用 Google 地图,进行建筑名称的布局、距离的真实比对,应该更容易找到完全精确的位置。

本轮排名 :

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

第五轮:干燥丘陵

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

最后一轮的信息就相当有限了,干燥的丘陵地形,主要为低矮灌木,符合地中海气候区或者温带大陆性半干旱气候区的特征。

维护得相对良好的土路,道路大致朝西南方向。估计是在乡村或偏远地区,交通不便。推理难度确实比之前的更高。

各家 AI 推测的地图位置如下:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

实际位置约在:40.372043, 31.760780,可在 Google 地图查看街景

本轮排名 :

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

比赛结果:o3 第一

统计 5 轮比赛结果,平均名次就是最终成绩:

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

  1. ChatGPT-o3 毫无疑问是本次视觉推理的王者, 在 4/5 的轮次中得到第一名。也是唯一一个支持“缩放再识别推理”的模型,在精细识别视觉线索时表现突出
  2. Gemini 和 ChatGPT 的推测位置差距不大,实际上表现接近
  3. 阿里云的 QVQ 整体表现也挺稳定;还识别出了只有 ChatGPT 通过放大才识别出来的 logo。另外,作为本次参赛模型中唯一有开源习惯的 Qwen 系列模型,还可以期待后续 Max 版本的开源
  4. Btw:其实没想到 Claude 3.7 sonnet thinking 在「AI 网络迷踪」中表现会这么不如意

小结

这次比赛,并没有让 AI 联网使用地图服务或图像搜索,纯粹考察模型基于自身的视觉识别、知识储备、多模态推理这三大核心能力。

(模拟了真实人类玩「图寻」的情况,没时间用地图查询作弊)

但在 AI 的帮助下,我依然超过了今天 94.88% 的玩家,刷新了我自己的得分纪录。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

而这当然不是当前 A能I 的力边界

当我们把卫星地图、街景影像服务,甚至小红书等社交平台的权限,通过类 MCP 协议提供给 AI 后,

任何人都能用 AI 快速推测一张照片的大致范围,再利用卫星影像、社交平台照片内容精细比对,最终推测出精度极其恐怖的位置信息。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

那样,精准定位一个人的位置不再是难题。

而一个能看懂世界、调用互联网海量工具、多步推理的 AI,将在地图导航、生活服务、乃至安防监控等方方面面带来多大的变化?

Now, Big Brother is watching you.

如果觉得这篇文章对你有启发或帮助,欢迎点赞、转发分享,让更多热爱 AI 的朋友能够受益。

也期待在评论区看到你的实践和思考。

本文采用 CC-BY-4.0 协议开源,你也可以随意进行二创。如果你能在自己的文章提及来源,那就太好了。

谁是视觉推理AI之王?一场游戏横评5大顶流模型!

收藏 4
点赞 38

复制本文链接 文章为作者独立观点不代表优设网立场,未经允许不得转载。