2022/05/19 15:55

谷歌开发者大会：一碗难以端平的水

谷歌创始人早在1998年就明确警告过，以广告为导向的搜索引擎会偏离消费主义的真正需求。不过，在2000 年面临抉择时，谷歌选择了注意力商人这条路。如今，再先进的技术发布也遮掩不住当初这个选择所带来的困扰。搜索等服务上的大踏步与隐私安全上的小碎步透露出，同时服务两大群体——消费者和广告商，这碗水有多么难端平。

撰文 | 吴昕

5月12日凌晨，谷歌 I/O 开发者大会如期而至。

毫无悬念，作为两个小时大会的开场白，CEO Sundar Pichai 介绍了技术谷歌对疫情、洪水等全球灾难性事件的驰援。

然后，谷歌搜索、翻译、地图等软件服务，以及众多硬件产品陆续出现在总部海岸线圆形剧场的舞台。

剧场内，掌声间断响起。剧场外，约会 App 巨头 Match 集团又起诉谷歌，要求法院阻止谷歌对支付系统的垄断。

这些年，数据隐私、反垄断双线应战已经表明，24岁的谷歌不再是一家颠覆性初创，而是成熟且势力庞大的企业：

作为最大的搜索引擎，全球市场份额在81.5%至92.96%之间；独揽全球数字广告近30%份额。

在美国，谷歌控制着超过 95% 的搜索广告和超过 50% 的展示广告。

二十年来，这种商业模式一直没有改变。先进技术不断被用于提升赚钱服务的能力，例如搜索、地图、视频等，更多使用带来更多用户数据，广告收入也随之创造新高，犹如一座飞轮。

尽管谷歌押注是多方位的，那些「为超额收益所下的赌注 (Alpha-bet）」依然没有掘金成功。

0１

谷歌母公司营收中，超过80%来自谷歌的广告业务。其中，搜索引擎是谷歌最赚钱的部门。YouTube 作为数字广告工具的重要性正在被广告商们所理解。

当大会宣布将新技术赋能这些最会下蛋的「鹅」时，几乎可以听到零售商们隔着屏幕的掌声。

在谷歌搜索推出新功能「Multisearch near Me」之前，已经有了文字、图片搭配搜索「Multisearch」。拍摄一身橙色长裙照片，输入「绿色」文本，即可获绿色长裙的商品信息。

现在，你可以将 Multisearch 找出的结果与 Google Maps 整合，找到附近供应某种佳肴的餐厅，或者在附近五金店中找到所需的家具零配件。是不是有些零售线上线下融合的意思？

谷歌还推出了场景探索。用户平移相机，然后输入一个关于眼前物体的搜索短语，例如「无坚果巧克力棒」，即可在众多巧克力中找到心仪的那一款。

结合文本、图片等多模态搜索，是谷歌重新想象的搜索。谷歌的想法是，用户不会在大量网页列表中搜索信息，而是会提出问题，并让在这些页面上训练的语言模型直接回答这些问题。

过去两年，BERT 是搜索引擎的基础模型，也是从传统关键字搜索转向更复杂的搜索查询的开始。MUM（多任务统一模型）继承了这一传统，但比 BERT 强大1000倍，具有多任务、多模态和多语言特点。

例如，搜索算法不仅可以理解文本，还可以理解视频、图像和音频文件。当 MUM 被整合到 Google Lens 时，可以实现文本+图片的搜索，也显示出其商业化潜力。

YouTube 属于谷歌广告收入来源中相对较小的一个——截至2020年其收入接近200亿美元，约占谷歌广告总收入的13%。

目前，YouTube 月登陆用户数在20亿左右，YouTube TV、YouTube Music以及YouTube Premium 付费订阅用户增长势头良好，公司对未来发展也比较乐观。

谷歌认为，长远来看，YouTube不仅是用户用来娱乐的地方，也是一个寻找信息的网站。

去年，谷歌推出了自动生成的章节，让用户可以更轻松地跳转到最感兴趣的部分。现在，谷歌将 DeepMind 多模态技术应用到了文本、音频和视频，更快更准地自动生成视频章节。

2019年才开始支持广告的谷歌地图，已经成为很多商户的重要广告投放渠道。作为安卓平台最流行的移动APP（安装用户超过20亿人），谷歌地图每月有10亿活跃用户，每天更新可达数万次。

本次大会上，谷歌地图推出了一项全新功能—— 沉浸式街景（Immersive View）。谷歌利用3D绘图，与计算机视觉和人工智能技术结合，将卫星、无人机等拍摄的数十亿张街景和航空影像融合一起打造出来。

假如你计划去伦敦旅行，可能想要确定最佳景点和餐饮选择。你可以虚拟地翱翔威斯敏斯特教堂或大本钟，并使用时间滑块查看这些地标在一天中不同时间的样子，还可以滑到街道上去探索该地区的餐馆和商店。

更厉害的是，当你选中了一家餐厅，可以进入其中，餐厅的环境、桌椅摆设陈列等等，都会呈现在你面前。

顺便提一句，除了零售，旅游也是谷歌广告的大金主。

「在 2022 年，我们将继续专注于发展我们的知识和信息产品，包括搜索、地图和 YouTube，以提供更多帮助，」今年2月，谷歌第四季度电话会议上，Pichai 阐述了谷歌对支持多模态搜索的人工智能模型的投资。「对人工智能的投资将是关键，我们将继续改进智能助理等对话界面。」

「从 MUM 到 Pathways 再到 BERT 等等，这些深度人工智能投资正在帮助我们在搜索质量方面处于领先地位。」他补充说。

02

一个大型模型可能会在几乎没有训练数据的情况下实现许多下游任务，将这些尖端技术融入产品，正是谷歌服务持续创新的源泉。

作为大模型的另一个示范案例，大会宣布谷歌翻译已更新为包括 24 种新语言，使其支持的语言总数达到 133 种。这也是谷歌翻译的一个技术里程碑。

此次新增的24种语言多半出现在印度和非洲，属于相对冷门的语言，以使用人数来看，里面最受欢迎的是拥有5000万使用人口的Bhojpuri，最少的则是只有2万人仍在使用的梵文。

这24种语言也是首批采用零样本机器翻译（Zero-Shot Machine Translation）诞生出炉的成品。这是一个新的人工智能系统，它「在没有看到示例的情况下学习翻译成另一种语言，」谷歌解释说。

谷歌在大约 100 种数据丰富的语言上训练「单个巨大的 AI 模型」，然后将学到的知识应用到它不知道的其他语言中。这就像一个会说多种语言的人开始阅读另一种语言的小说，可以根据自己对语言的一般知识来拼凑这些语言的可能意思。

大型语言模型，无论是否开源，都具有高昂的开发成本。如此规模的源泉和护城河，也只有谷歌这样的公司才挖得起。

AI21 Labs 2020 年的一项研究显示，开发一个只有 15 亿个参数的文本生成模型的费用高达 160 万美元。推理——实际上是运行经过训练的模型——是另一个消耗。

有人估计过，在单个 AWS 实例 ( p3dn.24xlarge ) 上运行 GPT-3 的成本每年至少为 87,000 美元。

谷歌还在大会上公开了对话生成语言模型 LaMDA 2，也是目前 Google打造的最先进对话 AI，以及公司迄今为止研发的最大规模模型 Pathways Language Model（PaLM），基于 5400 亿参数训练而成。

PaLM 在许多自然语言处理任务上都有着突破性的表现。例如，PaLM 从未见过孟加拉语和英语之间的对译，也从未被训练过如何回答问题或翻译，该模型自己将所有功能结合在一起，可以用孟加拉语正确回答问题。

不过，与搜索、地图和视频等这些「带货」强劲的服务不同，谷歌仍并未在翻译服务上投放广告。

03

相较于前述业务的风光无量，谷歌云业务就显得尴尬了。

云业务上，谷歌一直落后于亚马逊和微软，与这两家行业巨头相比，其收入规模不在同一量级上，且一直还未实现盈利。

近年来，谷歌一直在积极推动以云端为基础的生产力软体与服务套装工具。Google Workspace等诸多关键领域的创新也登上了本次大会的舞台。当然，比较优势仍然是机器学习和 AI 。

如果企业日常事务中的10%能用AI 来解决，对他们来说是一笔巨大的成本节省。作为自然语言解决业务用例的具体示例，谷歌电子邮件产品提供了人工智能生成的回复建议。

随着时间越来越宝贵，人们需要简单工具帮助自己完成一些工作，摘要也是一个重要的技术趋势。现在，谷歌也为 Google Docs 引入了自动总结功能。将其中一个机器学习模型应用在文本总结功能中，Google Docs 会自动解析单词并提取出要点。

这标志着自然语言处理的一个大飞跃。总结需要理解长段落、压缩信息并生成语言，而这些已经超出过去最好的机器学习模型的能力。

而文档只是一个开始。谷歌正努力将总结功能引入 Google Workspace 的其他产品。在接下来的几个月里，Google Chat 将使用该功能，为聊天对话提供摘要，帮助用户迅速加入群聊，或回顾重点信息。

而且谷歌正在努力将转录和总结功能引入 Google Meet。这样，用户可以快速补上重要会议中错过的部分。

如今 Google Workspace 即将转换为收费服务。过去由于门槛低加上有免费选项，Google Workspace 受到很多刚起步、预算不高的新创团队和中小型企业的青睐，现在能否凭借这些比较优势继续赢得客户青睐？对谷歌云业务有什么样的提振？仍然是一个大大的问号。

04

与搜索等服务上的大踏步形成鲜明对比，谷歌在隐私安全上迈的是小碎步。

一个多小时的发布后，很少花时间谈自己怎么赚钱的谷歌主动提到了广告这个话题。会上，谷歌突出了一个名为「我的广告中心」新功能。用户可以控制自己看到的广告内容。

例如，选择更想看到的品牌、不想看到的品牌，以及如何个性化广告。用户也可以选择其想看到的广告类型，比如健身、旅游、美容等，或关闭个性化广告。

不过，用户的每一次选择和点击无异于变相透露自己喜好。「类型」和「品牌」这两个标签对于品牌来说，就像是用户追踪了品牌的官方账号，主动关注自己有兴趣的品牌最新资讯，反而可以让品牌更接近客群，甚至因此触及过去没有链接到的用户。

本质上，消费者仍然是以个人数据作为货币来购买「免费」服务，例如搜索、地图、视频等，谷歌由此获取用户喜好、习惯等宝贵信息。

事实上，谷歌创始人早在1998年就明确警告过，以广告为导向的搜索引擎会偏离消费主义的真正需求。但他们最终还是走向了注意力商人的道路。二十年来，他们一直没有从根本上改变这条路，也常常困于同时服务于两个利益冲突的群体。

因此，面对苹果率先打破「行规」，谷歌的改变更像是不得不「适者生存」。从联合学习(federylearning of cohort，FLoC)到基于兴趣的广告方案（Topics API），迈向隐私安全的步伐总显得畏手畏脚。

例如，FLoC 主要通过聚集具有相似兴趣的大量人群（「人以群分」）来投放相关广告，帐户是匿名的。谷歌不再允许具体到个人的定向投放广告，而是允许广告商根据海量的（群）定向投放广告。

据说，与基于 cookie 的广告相比，它每花费 1 美元就能实现 95% 的转化。

不过，批评接踵而来。一方面，这种策略无异于让谷歌独家访问该公司已经在很大程度上垄断的大量用户数据。另一方面， FLoC 未能提供隐私权保护。

「与它的核心目标相反，FLoC允许跨站点跟踪单个用户。」麻省理工学院媒体实验室研究人员 Alex Berke 、 Dan Calacci 在一篇研究中发现「超过95%的用户设备在使用4周后就可以被唯一识别。」

研究还展示了这些估计是多么保守。因为，这种风险会随着常用设备指纹识别方法的使用而增加。

于是，今年年初，谷歌又在 Chrome 中创建了名为 Topics 和 FLEDGE 的新跟踪和行为广告定位方法，并计划为许多 Chrome 用户自动启用。

竞对 DuckDuckGo 对这两项技术的评价是，「再次试着为侵犯隐私的猪涂上口红」。

和 FLoC 类似，系统会自动使用用户的浏览历史来推断用户其对某些主题的兴趣（例如，「儿童互联网安全」、「个人贷款」等）。FLoC 会自动与网站和跟踪公司共享一个群组标识符，但 Topics 会自动共享推断出的兴趣子集，公司可以使用它来定位适合用户的广告和内容。

同时，FLEDGE 授权 Chrome 根据浏览历史将广告定位到用户。

尽管谷歌在本次开发者大会上重申「从未销售用户的个人隐私」，但就目前情况来看，在默认情况下，他们的隐私方案仍然允许谷歌浏览器自动监视用户的在线活动并与广告商和其他方共享有关的信息，以便他们可以在未经用户同意的情况下定位广告。

而这些方案是否足以保护用户隐私，仍然有待大量研究的证明。

多年来，人们一直能够要求从搜索中删除某些敏感的个人身份信息——例如，可能用于金融欺诈的银行账户或信用卡号码等信息。

本次开发者大会上，谷歌强调现在用户可以快速、轻松地要求从搜索结果中删除个人数据——比如电话号码、电子邮件地址，甚至是实际地址。

而在以前，用户必须出示潜在危害的证据，如身份盗窃，才能让谷歌从搜索结果中删除他们的个人信息。

不过，只要你还记得2014年欧洲法院曾裁定，像谷歌这样的搜索引擎需要允许欧洲互联网用户请求删除他们的个人信息，以实现他们的遗忘权，这样的转变多少显得姗姗来迟。

当然，开发者大会还公布了一系列安全和隐私更新。例如，控制照片和视频的访问权限；授予 APP 访问非精确位置数据的权限；支持安卓和 Chrome 的虚拟信用卡、账号安全状态、最小化数据痕迹等等。

但如果你是苹果用户，不少更新会让你似曾相识。其背后原因正在于注意力商人之路导致谷歌始终无法像苹果那样，将让安卓的用户体验做到极致。

正如我们看到的，与搜索等服务技术跃进的姿态不同，虽然产品和服务的某些方面正变得更加私密，但谷歌实际上并没有提供足够的隐私安全保护。如何在坚持同时服务于两大利益冲突群体，并在用户失去耐心时，实现其与广告商的长久利益平衡，仍然是每次开发者大会未有言明的最大挑战。

产业