几年前,我十分想要一个能够识别出任何东西的 App。事实证明,解决这个问题的困难程度远超想象,但这没能阻止高中毕业生 Michael Royzen 的尝试。
他的 SmartLens App 便试图解决这一问题,对指定物体进行识别,并获取更深入的信息。当然,这款 App 并非完美无缺,但多安装一个也无妨。
之前 Royzen 找到我,我对这个想法既好奇又怀疑——迄今为止,谷歌和苹果都双双失利(至少尚未发布任何好产品),一个利用业余时间的高中生会成功吗?
我与他约在一家咖啡馆见面,想亲自体验一下这款 App。我很惊喜,还有点困惑。
当然,这个想法很简单:你把手机摄像头对着某物,这个 App 就会试图对其进行识别,它利用的是一个巨大的分类代理,但被高度优化过,是基于数千万张图像训练而成。
它可以链接到维基百科和亚马逊,让你立即了解有关产品的更多信息,或者把它买了。
它能识别超过 17000 个物体——比如不同种类的水果和花、地标、工具等等。这款 App 可以轻松区分出(长相奇特的)芒果与香蕉,甚至能够识别出我买的开心果。
后来我用它来识别社区里的植物:周旋、银莲花、木酢浆草。它竟然把它们全部识别了出来,真的很有用,即便有时会稍作犹豫。
而且最有趣的是,所有这一切都是离线完成的,没有通过蜂窝网络或 Wi-Fi 来给服务器发送图像。一切都在设备上进行,只需一两秒钟的时间。
Royzen 通过各种渠道搜刮素材,建立了自己的图像数据库,并花费数天利用 AWS EC2 进行计算,以训练多卷积神经网络。
相较于通过读取条目文本和查询亚马逊数据库的方式,这种方法识别出的产品数量要多得多。
它几乎立刻就能够识别出书籍、一瓶药丸和其它包装商品,同时提供了购买链接。如果你也在线,界面就会弹出维基百科的链接,不过设备中也存储有详细的产品信息。
但关于这一点必须说明的是,SmartLens 的装机内存超过 500 M。
Royzen 的模型很大,因为它必须在手机中存储所有的识别数据和离线内容。这种解决方案不同于亚马逊给 Fire Phone(已卒)开发的产品识别引擎,或是 Google Goggles(已卒),以及 Google Photos 的扫描功能(完全比不上 SmartLens 的识别速度和准确度)。
Royzen 在一封电子邮件中写道:「随着带有桌面类处理器的智能手机的迭代,以及能够对其(以及 GPU)进行利用的本地机器学习 API 的出现,响应快速的视觉搜索引擎应运而生。」
但没有一家大公司这样做了。为什么?
当然,App 的大小和处理器上的收费不可忽略,但它的边缘处理和离线识别的功能不容小觑,毕竟 Royzen 才刚刚起步。
但它可能会面临两个问题:1. 很难赚钱;2. 搜索质量还不够高。
必须指出的是,SmartLens 虽然聪明,但准确性还远远不够。它的识别参考几乎总是离正确答案存在一步之遥。
譬如,它将我的一本书识别成了《White Whale(白鲸)》,不过那并不是《Moby Dick(白鲸)》。被它认作鲸脂镇纸的其实是一把小铲刀。
在获得更为确信的结果前,许多条目只是简要地闪过诸如「人」或「产品设计」等参考结果。它将一种开花的灌木鉴定为 4~5 五种不同的植物——当然,包括人类。
我的显示屏识别参考是「计算机显示器」、「液晶显示器」、「计算机显示屏」、「计算机」、「计算机屏幕」、「显示设备」等等。
游戏控制器的识别结果是「控制」。一把铲子被认为是一个木勺(已经够接近了),还配了一个莫名其妙的副标题「安慰奖」。(下图,此处应有黑人问号脸,what?!)
如果是谷歌或苹果所发布的独立产品,这种表现水平(一般称为怪诞,尽管有趣)是不可容忍的。Google Lens 响应缓慢,体验糟糕,但它只是某个实用的 App 中的一个可选功能。
如果它发布了一个视觉搜索 App,将花卉识别成了人类,这家公司将被口水淹没。
另一个是变现问题。
虽然从理论上说,你可以在拍下书籍封面的同时就即刻下单,但这并不比拍照搜索或谷歌/亚马逊搜索来得更为方便。
同时,用户仍然对此心存困惑。它能识别哪些东西?不能识别哪些?我需要它来识别什么?它可以识别很多东西,从犬类品种到商品店面,但可能无法识别其他一些东西,例如一个很酷的蓝牙音箱,或是你朋友戴的机械手表,或当地画廊里展出的某幅画作的作者(不过有些可以被识别出来)。
我在使用它时觉得,我只会用它去识别一些它认为自己能够识别出来的东西,比如花朵,但在一些它无力识别或可靠性不高的事物方面,我就会犹豫。因为我怕自己会感到沮丧。
然而,在不久的将来,人们会慢慢开始接受 SmartLens 的想法。很显然,几年后我们都会认为这是理所当然的。它会直接在设备上进行分析,不需要把图像传到服务器上。
Royzen 的 App 肯定有其自身的问题,但在很多情况下,它表现得很好,实用性很强。
你可以把手机摄像头对着街对面的餐厅,并在 2 秒钟后收到 Yelp 上的评论——不需要打开地图或键入地址或名称——这个想法是对现有搜索范式的一个极其自然的扩展。
「视觉搜索仍然是一个利基市场,但我的目标是让人们认识到,在未来,一个 App 就可以提供关于周围所有事物的有用信息——如今,」Royzen 写道,
「然而,不可避免的,大公司最终将会推出其竞对产品。我的策略是成为市场上的首款通用型视觉搜索 App,并尽可能多地聚集用户,这样我就可以保持领先(或被收购)。」
然而,最让我不满的不是功能问题,而是 Royzen 决定如何使其变现。
虽然用户可以免费下载它,但当打开 App 后,立即就会收到 2 美元/月的订阅注册提示——甚至是在查看该 App 的效果之前。
如果我还不知道这个 App 可以做什么以及不能做什么,我会在看到付费提示后果断将其删除,并且即使我知道自己会用它来识别哪些东西,也不可能为它永续付费。
一次性激活收费将更为合理,并且还得有亚马逊的推荐码。但是,要让从未体验过产品的用户支付月租,这是不可能的。我告诉过 Royzen 我的担心,我希望他对此重新考虑。
最好还可以扫描相册中的图片,或者保存与搜索结果相关的图片。UI 方面需要改进,比如对识别准确度的衡量,或是某种反馈,可以让你知道它仍然处于识别状态。这些功能至少已被提上理论日程。
最后,Royzen 的努力令我印象深刻。我在回顾这一切时感到震惊,一个人竟然可以独自开发出这样一款 App,完成如此复杂的计算机视觉任务,何况他还是一名高中生。
这就是那种野心勃勃的 App——企图用一款工具创造出一家好玩的科技巨头,像是十年前的谷歌那样。
或许,它所代表的更像是一种好奇心,而非一个工具,而曾经的那些文本搜索引擎也是如此。