Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

今年的谷歌I/O大会超「硬」,还展示了下一代AI模型

未来的电脑将不再是台式机、笔记本或手机,而是你身边的一切。所有设备服务和人工智能协同工作,你可以随时随地获得帮助,当不需要该技术时,它就会消失在后台。设备再不是系统的中心——你才是。

2022 年的谷歌 I/O 大会,观众席终于又坐满了人,虽然其中大多数是谷歌自己的员工。

图片

「去年我们分享了计算机科学的最新发展,而我们的目标一直是让全世界的信息变得让全人类都能访问,」谷歌 CEO 桑达尔 · 皮查伊(Sundar Pichai)开场说道。

今天的大会上,谷歌展示的也大多是人们都可以用到的,即将实装且免费的应用。

如今机器学习工具已经让这一愿景很大程度上成为现实。谷歌翻译中实用化的机器学习模型已经可以不需要双语对应的语料库即可自行学习新语言。

图片

翻译系统是人工智能最经典的任务之一,谷歌的机器翻译在多年发展过程中一直保持领先,还催生出了像 transformer 预训练模型这样的重要 AI 技术。在 I/O 大会上,谷歌宣布自家的翻译系统新增了 24 种新的语言,其中包括一些小众的美洲原住民语言,覆盖共计 3 亿人。

图片

计算机视觉领域,谷歌地图则通过 3D 重建技术实现了完全自由的沉浸式视图,天空的样子是实时天气,甚至还可以让你「走进」一家餐馆:

图片

就像是在手机上玩一个模拟真实环境的游戏。

在视频网站 YouTube 中,现在经过 DeepMind 训练的 AI 已自动为 8000 万个视频分出章节,让观看者可以自动跳转到最感兴趣的部分,还带有 16 种自动翻译字幕。

最先进的预训练大模型现在进入了日常工作中。「当你有一个 25 页的文档还没看,却马上要和别人开始讨论了,这时候该怎么办?」皮查伊说道。

谷歌文档现在有了自动总结功能,可以把几十页文件总结成几句话,这是自然语言处理(NLP)领域的重大飞跃,效果超过过去最好的机器学习的能力。除了文档,谷歌的 AI 还能为聊天内容提供摘要,自动转录和总结功能也引入了 Google Meet,以后也不需要写会议记录了。

图片

谷歌副总裁 Prabhakar Raghavan 向我们介绍了谷歌最核心业务搜索的改进:未来的搜索应该是随时随地,使用任何输入方式实现的。

图片

谷歌搜索不再满足于输入关键词,而是通过更自然和有逻辑性的语言,以及语音和视频来完成。

上个月,谷歌推出了 Multisearch,它可以让你通过拍照和提问的方式在谷歌应用中进行搜索。这是一个强大的想法,能够让你搜索无法描述的东西,比如拿手机一拍,「我要买这个,在哪里可以买到这个?」。

图片

或者「如何才能让我种的花看起来和这个一样?

Prabhakar Raghavan 表示,未来 Multisearch 还将提升本地搜索功能,并在今年晚些时候覆盖更多国家,推出多语言版本。

这并不只是简单的拍照加描述文字搜索,APP 会通过算法拼接视频中的场景,然后通过知识图谱分析得出图像中的内容,谷歌可以给出准确的物体识别,并提供有用的建议。如果你拿手机摄像头扫一个货架,它能显示每种巧克力的用户评分。

图片

这种被称为 Scene Exploration 的能力或许是 AR 领域里迄今为止最好的 demo,就好像为现实世界装上了一个 Ctrl+F 快捷键。

提升算法公平性方面,谷歌与哈佛大学 Monk 教授合作开发了肤色量表(Monk Skin Tone Scale),能更准确地在搜索结果中反映人们的肤色。

图片

在谷歌的带屏幕智能音箱 Nest Hub 上,现在不用每次都说 hey Google 了。新的注视功能,就像人们互相交流时眼神接触一样,你看着音箱说话就可以免唤醒词。

图片

Quick Phrases 功能则更加直接:只要说关灯、拉窗帘等祈使句就能指挥谷歌助手完成任务。

为了让人和语音助手之间的交流更顺畅,更多的机器学习模型现在在本地运行,大幅度降低了响应延迟。

图片

一切都在朝着人性化的方向发展。

下一代 AI 模型

在应用之下,谷歌一直在探索人工智能的最前沿。谷歌的对话 AI 模型 LaMDA 今年升级到了第二代,新模型显著提升了对话质量,在 AI test kitchen 中,你可以通过不断选择话题,让模型自动生成一个故事。

它也可以用来为你提供建议,现场展示了一个「如何开垦一个小花园」的话题,AI 可以不断提出建议,你也可以选择自己想要了解的方向无限深入下去。

图片

「它展示了语言模型未来的潜力,在你搬到了一个新城市之后,它可以帮你解决很多问题,」皮查伊表示。

去年,Jeff Dean 所带领的团队提出了「下一代通用 AI 架构」Pathways,旨在用一个架构同时处理多项任务,并且使其拥有快速学习新任务、更好地理解世界的能力。

在今年 4 月提交的论文《PaLM: Scaling Language Modeling with Pathways》中,谷歌研究人员用 Pathways 系统训练了一个 5400 亿参数的大型语言模型——PaLM(Pathways Language Model)。

图片

这是一个只有解码器的密集 Transformer 模型。可以完成的任务包括自动生成代码、解决数学问题、修复 bug,解释笑话的梗等等。

皮查伊表示,该语言模型的优点在于可以区分因果关系,理解上下文中的概念组合。通过这种方法,模型在数学问题上的准确率提升到了 58%,接近 60% 的 9 到 12 岁儿童解决问题的水平。

图片

PaLM 现在可以用孟加拉语提问和正确地回答问题,而该模型并没有经过对应语料库的训练,也没有经过新语言的问答训练,甚至根本没有被专门设计用于翻译。

图片

Jeff Dean 口中的理想通用 AI 模型,难道已经成为了现实?

全新安卓 13 系统:定制化你的使用体验

每年的 I/O 大会都是安卓新版系统展示的舞台,今年的重点在于覆盖所有终端,谷歌也把所有硬件都造了出来。

图片

多年来,安卓已经成为世界上最流行的操作系统。仅去年,消费者就激活十亿部新的安卓手机。随着机器学习的进步,手机可以帮助我们完成超乎以往想象的工作。虽然手机仍是最受欢迎的计算形式,但人们越来越多地将各种连接技术添加到生活当中,比如汽车、电视、和手表等。人们希望这些设备之间兼容、省事且不麻烦。

在谷歌 I/O 大会上,安卓 13 系统终于问世,它具有以下三个新特性:
  • 让你成就更多,把手机置于中心;

  • 从手机延伸到各种形式的计算设备,比如手表、平板电脑等;

  • 让各种设备更好地一起工作。

先来看手机设备。安卓 13 通过更多方式适应用户的风格,所有的应用图标都可以融入自己的颜色主题。安卓 13 还有一个新的媒体空间,用户可以根据正在听的音乐定制外观。此外,用户还可以为每个应用设置不同的语言,个性化使用体验。

图片

安卓 13 还加入了很多安全与隐私功能。当你给他人发信息时,也需要确保他人的隐私和安全。为此,安卓 13 将短信升级到了一种名为「RCS」的新标准,使得端到端加密等重要隐私保护成为可能。这是移动生态系统向前迈出的一大步。目前,谷歌的消息应用已经拥有了 5 亿 RCS 月活用户。谷歌希望每个移动设备都可以升级这种 RCS 标准。

图片

手机和钱包是人们日常生活中必带的,那么问题来了:手机能取代钱包吗?谷歌推出了新一代 Google Wallet,这款安卓数字钱包让你快速安全地获取日常所需。Google Wallet 将安全地存储你的信用卡信息,只要是在接受 Google Play 的地方,就可以轻点支付。

Google Wallet 的功能远不止支付,你还可以用它出示学生证、航班登记,发动汽车,把它当作迪士尼乐园门票。同时,谷歌还将在今年晚些时候将数字身份证带入 Wallet。先从驾照开始,你可以分享自己的身份信息,而不必将手机交给其他人,只要通过 NFC 点击或者扫描二维码即可。

未来几周,Google Wallet 将在全球范围内面向安卓和 WearOS 设备推出。

图片

此外,今年晚些时候,安卓 13 还将紧急 SOS 带入 WearOS 设备,这样你就可以立即联系信任的家人和朋友或者直接用手表拨打救援电话。安卓 13 的地震预警系统也将扩展到世界上的高危地区,实现提前预警。

图片

除了手机之外,谷歌还致力于在平板电脑、手表等个人设备上提供安卓的美妙体验。WearOS 设备比去年增加了两倍,大屏设备拥有 2.7 亿活跃用户。值得注意的是,安卓目前是唯一可以将类似平板电脑的体验放入口袋的系统,可折叠设备提供了大屏设备所有的优点,并具备手机的便携性。

下一步要做的是使多设备实现兼容协同工作。为此,谷歌开发了 Fast Pair 技术,使用户不用管理任何设置,让手机、平板和电视轻松配对,实现与耳麦和智能设备的即时互联。

图片

不过,如果想要将如此方便的互联功能普及到家里的所有设备,就要用到「matter」了。这是一项将在今年秋季发布的开放行业标准,它连接了谷歌硬件以及数百种受支持的产品,比如灯泡、门锁和智能插头。这些支持 matter 的设备只需要几秒钟就能进入你的家居、网络和 Google Home,通过 Fast Pair 对接你喜欢的应用。

图片

谷歌新手机:Pixel 6a 和 Pixel 7/7 Pro

2021 年 10 月,谷歌推出了全新的 Pixel 6 和 6 Pro 手机,其中首次采用了自研的 Tensor 芯片。Tensor 芯片的命名方式让人想起了谷歌提出的深度学习框架 TensorFlow,以及谷歌服务器芯片 TPU,它的设计宗旨是把谷歌最领先的 AI 技术直接带入手机端。

图片

在 I/O 大会上,谷歌发布了全新的平价款手机 Pixel 6a,仅售 449 美元。谷歌表示,「这是有史以来该价位最好的智能手机。」Pixel 6a 提供有三种颜色,包括炭黑、粉白和灰绿。7 月 21 日开启预购,7 月 28 日到店购买。

图片

Pixel 6a 的外观风格与 Pixel 6 系列一脉相承,具有独特的双色外观,纤细的边框,6.1 英寸 AMOLED 1080p 显示屏,提供了 IP67 规格的防尘放水,60Hz 的刷新率。相机方面,Pixel 6a 容纳了双后置相机系统,包括 1200 万像素的主镜头和超广角镜头。前置自拍摄像头则为 800 万像素。

更重要的是,Pixel 6a 搭载了与 Pixel 6/6 Pro 相同的 Tensor 处理器和 Titan M2 安全芯片,支持 5G 连接。Pixel 6a 以较低的价格提供更好的性能和更丰富 AI 赋能的体验,使用户享受与 Pixel 6/6 Pro 同样出色的安卓体验以及独有的摄影、语音和安全等功能。

图片

除了 Pixel 6a 之外,谷歌还透露了今年秋天要发布的 Pixel 7 和 7 Pro 系列产品,搭载谷歌下一代自研 Tensor 芯片,在语音、摄影、视频和安全方面带来更多 AI 驱动的突破和极其个性化的体验。当然,Pixel 7/7 Pro 将预装安卓 13 系统,享受最新移动操作系统所带来的诸多好处。

图片

其中,Pixel 7 Pro 将铝制材料扩展到整个摄像头上,这是 Pixel 设计语言的进一步进化。它的三重摄像头系统为摄影、性能和设计树立了全新的标准。

图片

好的手机当然少不了好的耳机,I/O 大会上发布了全新的无线耳机 Pixel Buds Pro。

图片

Buds Pro 不仅嵌入了谷歌设计的最佳移动音频硬件,还是第一款具备主动降噪功能的耳机。谷歌表示,它是当今耳机中噪音消除效果最好的产品之一,这得益于它围绕新的定制音频处理器设计。

图片

每个人的耳朵都是独一无二的,所以耳尖并不总是形成一个完美的密封,有可能导致声音从外面漏进来。为了解决这一问题,谷歌的主动降噪使用了新的静音密封技术来补偿音频泄露,有助于最大程度地消除噪音,得到身临其境的优质声音,不会分心。

图片

不过有时,你确实想要听听周围发生了什么,这时透明模式将发挥作用。它可以让外界的声音进入,让你体验周围世界,就好像根本没有佩戴耳机一样。

定制的音频芯片是为了提高功率效率,为此 Pixel Buds Pro 的续航时间可达 11 小时,降噪模式下为 7 小时。这款耳机还提供了有用的免提体验,可以向助理询问各种事情,比如获得 40 多种语言的实时翻译。同时支持多点连接,在兼容的手机、平板电脑、笔记本电脑和电视之间切换使用。今年晚些时候还将更新以支持空间音频,在兼容 Pixel 手机上观看电影或电视时会体验到身临其境的感觉。

新的 Pixel Buds Pro 提供有四种颜色,售价为 199 美元,7 月 21 日预购,7 月 28 日上市。

图片

下面是一直在传闻中的 Google Pixel Watch,它在今年秋天将随着 Pixel 7 手机一同发售。

图片

作为第一款完全由谷歌设计的智能手表,它有着最出色的 WearOS 体验,带有语言助手、NFC 等功能,可以独立实现导航等功能,最重要的是不像很多同级产品一样有过大的表盘。

手机、手表、无线蓝牙耳机都齐全了,最后还差一块大屏,谷歌宣布,2023 年还要推出 Pixel Tablet 平板电脑。

图片

在这些设备发布后,谷歌将会和现在的各家手机大厂一样建立起较为完整的生态。


产业谷歌
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

暂无评论
暂无评论~