看起来,虽然行动慢了一些,谷歌搜索的地位暂时还无人可以撼动。
我想写写我在假期期间思考的一个问题: 在不远的将来,深度机器学习系统将明显优于谷歌 20 年来积累的网页搜索相关性算法。 此处我所讨论的仅限于「相关性」—— 即判断一个文档与一个查询讨论的是否为同一主题。网页排名还涉及许多其他方面,在这些方面,机器学习似乎不那么适用。但我认为,基本的相关性是网页排名的核心任务,足够「客观」,可以很有效地使用 ML。
没有人能预见未来,但我敢打赌,这几乎肯定会在 5 年内成为现实,甚至可能在 6 个月内成为现实。类似于网页排名的问题一个接一个被解决,几乎没有理由认为网页排名会是个例外。实际上,这个问题思考的出发点是源于 AI 最近在网络问答方面取得的进展,深度 ML(具体来说是 BERT)突然取代了之前几乎所有的工作。 对于网页问答团队来说,过去几周深度 ML 带来的巨变是完全出乎意料的。有了这次预警,我们不应再被意外打败;相反,我们应该从现在开始考虑其后果。而且,「现在」正是时候,因为我预计在新的一年里,很多网页排名工程师将会反思 BERT,并开始沿着这些相同的线路思考。
一个需要考虑的事实是,这样的深度 ML 系统可能会在谷歌之外的地方被开发出来 —— 比如在微软、百度、Yandex、亚马逊、苹果…… 甚至是一个创业公司。在我的印象中,翻译团队已经有过这种经历。深度 ML 彻底改变了翻译领域;过去的优势被一扫而空。幸运的是,谷歌在深度 ML 上的巨大投资得到了回报,我们在这个新领域表现出色。然而,我们的新 ML 翻译器在基准测试中仍然被一家小型创业公司超越。 我们可以从 BERT 中得出一个惊人的结论:大量的用户反馈在很大程度上可以被原始文本的无监督学习所取代。这可能会对谷歌产生重大影响,导致谷歌在相关性方面输给其他公司。
网络搜索中的相关性可能不会很快被深度 ML 所颠覆,因为我们依赖的记忆系统远大于任何当前的 ML 模型,并且包含了大量关于语言和世界的重要知识。此外还有许多性能挑战和特殊考虑等。尽管如此,我认为我们当前方法的优势最终会消失;ML 正在迅速进步,而传统技术则不然。 我不知道其他人怎么看。个人而言,我倾向于认为这个未来几乎是不可避免的,但我还没有深入思考其后果。我们可能需要思考的一些问题包括:
我们能不能现在就采取措施,确保自己引领这一变革,而不是成为变革的牺牲品?就我个人而言,我不想在未来几年,人们回顾时认为,「那些坚守传统网页排名方法的人被新潮流碾压,而他们却毫无预警……」我们能否制定一个 2019 年的合作目标,结合研究力量,利用深度模型击败我们现有的最佳预测呢? 我们如何在不打击士气的情况下与从事网页排名工作的人讨论这个可能的未来?
我听说翻译团队几年前就决定「all in」大规模 ML,现在回想起来,这似乎是明智之举。今天,我对围绕相关性采取如此极端的措施持怀疑态度,因为从现在到深度 ML 方法真正占据主导地位的这段时间里,我们可能会牺牲传统方法所取得的重大成果 —— 我认为这至少还需要几年的时间。然而,听到 BERT 的警示而不调整我们的计划似乎也是不明智的。
会对依赖蓝色链接(即传统搜索结果链接)流量的生态系统造成太大伤害:谷歌搜索的一个主要功能是将用户引导到其他网站,而采用 LLM 答案系统可能会直接提供答案而非链接,这样会减少引导到外部网站的流量,对依赖这种流量的网站造成影响。 即使谷歌决定因为竞争对手的压力而接受这种变化,监管机构可能也不会同意。从监管的角度看,直接提供答案而减少对其他网站链接的引用可能会引起关于市场垄断和竞争公平性的担忧。 即使在美国,监管机构可能不采取行动,这种威胁本身也是令人瘫痪的:这意味着,即便没有实际的监管干预,仅仅是存在这种可能性和随之而来的法律和公众压力,就足以使谷歌在采取这种策略方面犹豫不决。
https://twitter.com/cramforce/status/1756790960107987275
https://36kr.com/p/2619929032759689
https://www.techemails.com/p/google-ai-elon-musk-tesla-comp