PlaNet是由谷歌(Google)电脑部门专员Tobias Weyand带领的团队所造一台可以只依据照片图元就可以测定照片地点的电脑。
地理标记
你永远可以根据照片中的地点线索,认出照片拍摄的地点。主要地标如中国的长城货伦敦的铁塔都可以马上可以认出来,而且精确地被找到。但如果其中没有熟悉的地点线索,比如说食物、宠物或室内拍的照片?
人们很善于依赖有关这个世界的各种知识。你可以根据照片上的字或建筑物的风格或植物猜出照片拍摄地点。
人类像天生有辨识照片地点的能力,无须经过训练。相反的,机器却仍在挣扎中。
现在谷歌的一个团队已经可以透过训练经过深度学习的电脑来找出照片地点,不用依赖诠释资料而只要像素。它们甚至找到一个聪明的方法学习分辨室内照片的地点、或是没有地理位置线索者。而这方法其实挺简单到让人怀疑为何之前从没有人这么做过。
PlaNet把世界细分为地理标记影像的座标方格。
地球
由电脑部门专员Tobias Weyand领军,这个团队采用简单的途径,他们从把世界分成超过26,000个座标方格,每个方格尺寸都不同。
方格尺寸是依据在那个地区所拍的照片数。大城市会有比较小且详细的方格,因为大量且主要的照片是在这里拍的。而越偏远地区则相对照片就少了,也就是方格数也少。
然后这个团队就建立一个巨大的地理位置影像资料库,然后对应到相关的方格。这个资料库总共包含一亿两千六百万个影像以Exif格式存放,其中九千一百万是用来教导人工神经网络每张照片在何处拍摄,其他的三千四百万则是用来确认数据集。
这个网络,取名为PlaNet,从Flickr喂了两百三十万个地理标记影像测试其辨识正确性。
人类VS机器人
根据Weyand以及这个团队的说法“PlaNet对街道等级可以有3.6%的正确率以及10.1%城市等级正确率。”此外,对照片来源的国家辨识度是28.4%以及48%的洲际大陆辨识度。
开发者用线上游戏GeoGuessr来测试PlaNet与人的位置定位能力比较。
GeoGuessr赞扬:数字看起来也许是低的,但实际上是非常好的。为了证明,团队让PlaNet跟10个旅游业者竞争。这个测试还涉及一个线上游戏,当游戏不规律地显现从谷歌街景,参加者要指出照片的地点。你也可以自己试试看www.geoguessr.com看你可以做得多好。
结果出乎意料,团队说“PlaNet在50回中赢了28回,中位差1131.7公里,而人类的中位差是2320.75公里。”
Weyand说“这个小规模的实验展现出PlaNet在街景地理定位非凡的性能。”
虽然PlaNet在分辨植物与建筑物的知识还不具有优势,但还是有超越人类的点。“我们相信PlaNet有胜过人类的优势,因为它看过的地方比任何一个人所能拜访以及记得每个不同景象得细节都要多得多,甚至旅游业者都很难区别。
更让人吃惊的是这个网络用的记忆体如此得小! Weyand说“我们这个型号只用了相当一支行动电话的377MB的记忆体。”