Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

高通公司万卫星出席全球AI芯片峰会:以终端侧AI创新开启智能计算全新体验

9月6日,2024全球AI芯片峰会在北京召开。全球AI芯片峰会至今已成功举办六届,现已成为国内规模最大、规格最高、影响力最强的产业峰会之一。本届峰会以“智算纪元 共筑芯路”为主题,共50多位来自AI芯片、Chiplet、RISC-V、智算集群与AI Infra系统软件等领域的嘉宾参与进行了报告、演讲、高端对话和圆桌Panel,对AI芯片筑基智算新纪元进行了全方位解构。

高通AI产品技术中国区负责人万卫星受邀参加大会开幕式,并发表了以“终端侧AI创新开启智能计算全新体验”为主题的演讲。他在演讲中提出,高通公司持续深耕AI领域,面对当前生成式AI的飞速发展,高通的领先SoC解决方案提供了异构计算系统和具备高性能低功耗的强大NPU,能够满足当前丰富生成式AI用例的不同需求和算力要求,并对实现最佳性能和能效至关重要。利用高通公司推出的领先第三代骁龙8移动平台和骁龙X Elite计算平台,终端侧生成式AI现已应用于旗舰终端和用例,终端侧生成式AI的时代已经到来。

演讲全文如下:

大家上午好!非常感谢主办方的邀请,让我能够代表高通公司再次参加本次活动,跟大家分享AI芯片在生成式AI这个当前最火热的赛道上,高通公司做的一些工作。今天我给大家带来的演讲主题是“终端侧AI创新开启智能计算全新体验”。

作为一家芯片公司,高通为AI应用的加速专门打造了高算力、低功耗的NPU。首先,我会给大家简单介绍一下这款高算力、低功耗NPU的演进路径。可以说,这是一个非常典型的由上层AI用例驱动底层硬件设计的演进过程。可以回想一下,在2015年左右,大家所了解的AI用例主要是比较简单的语音识别、语音唤醒、图片分类、图片识别等。这些用例背后的底层模型,都是一些比较浅层的、规模比较小的CNN网络。那个时候,我们就给这颗NPU搭配了标量和矢量的硬件加速单元,满足对于性能的需求。

在2016年之后,计算摄影的概念在市场上得到普及,我们也将研究方向从传统的语音识别图像分类扩展到了对图片和视频的处理。随着基于像素级别的处理对算力的要求越来越高,支撑这些应用的模型除了更大规模、更多层数的CNN网络之外,还有其他新型的网络,比如LSTM、RNN,甚至大家现在非常熟悉的Transformer。这些网络对算力和功耗的要求非常敏感,所以我们在标量和矢量加速单元的基础之上,进一步配备了一颗张量加速器,以提供更加充沛的算力,满足应用对像素级、对Transformer时序网络、对算力的要求。

2023年开始,大模型,尤其是大语言模型开始真正火爆起来。其实70%以上的大语音模型都是基于Transformer。因此,我们给这颗NPU专门配备了Transformer支持。同时,我们在保持标量、矢量、张量等硬件加速的基础之上,增加更多的硬件加速单元,包括集成独特的微切片推理技术,进一步针对对算力要求和Transformer并行化要求较高的模型推理进行加速。

未来我们会持续地加大对NPU的投入。生成式AI的未来一定是多模态的趋势,所以今年我们也在致力于实现将一些真正的多模态大模型完整地运行在端侧。在今年2月份的MWC巴塞罗那2024上,高通公司基于第三代骁龙8移动平台展示了一个demo,就是让超过70亿参数的多模态语言模型(LMM)完整地跑在端侧。

从模型规模来讲,高通未来会支持更大规模的大语言模型,今年我们将有希望看到超过100亿参数以上的大语言模型完整运行在端侧。当然,终端侧需要跑多大的模型,取决于实际的用例和这些用例对KPI的要求。

我们为什么致力于在终端侧去推理这些生成式AI模型呢?在终端侧进行AI处理不仅具有成本、个性化、时延等优势,我们认为还有最重要的一点,就是隐私性。包括手机、PC等个人设备上的个人信息、聊天记录、相册信息、甚至包括用户的生物特征信息等等,从用户角度来讲,不希望这些数据上传到云端做处理。通过运行大语言模型、大视觉模型等,在终端侧完成这些数据的处理,我们认为这可以很好地保护普通用户的隐私。从另外一个角度来讲,终端侧是离数据产生最近的地方。因为产生这些数据的设备,包括麦克风、摄像头,各种各样的传感器数据。在离数据产生最近的地方去完成数据的处理,这也是非常自然而然保护用户隐私的处理方法。

大家对高通Hexagon NPU的了解,我相信大部分是从搭载骁龙平台的手机开始的,但是高通除了有骁龙移动平台之外,还有非常丰富的产品线,覆盖汽车、物联网、PC、可穿戴设备等。高通Hexagon NPU已经赋能了我们的绝大多数产品,也就意味着我们的合作伙伴、开发者朋友们可以在这些不同的产品形态上,用NPU来做算法的加速、享受充沛的算力。除了硬件之外,我们还有统一的高通AI软件栈(Qualcomm AI Stack),可以让OEM、开发者在高通所支持的不同产品形态上去完成模型的部署和优化。

接下来更深入地介绍一下高通Hexagon NPU的硬件架构。以第三代骁龙8为例,高通Hexagon NPU中最重要的是张量、矢量和标量三大加速单元,它们能够对不同的数据类型做处理,例如张量加速器可以用来处理卷积运算、张量数据。此外还包括片上内存,让这三个加速器能够协作更高效。神经网络推理是有很多层的,每层之间都会有一些中间数据。而这些中间数据如果没有片上内存做缓存的话,可能都要跑在DDR上,这样对性能、功耗都会有非常大的影响。所以我们通过在NPU上配备比较大的片上内存,能够更好地释放AI算力。

此外,高通NPU的整个硬件设计会随着业界先进工艺的发展不断迭代。这颗处理器的微架构,包括前端设计和后端设计也会每年进行迭代,实现最佳性能和能效。不管是AI手机还是AI PC,对功耗都有很高的要求,我们要保证设备在日常使用中不会发烫、有更长续航。因此我们给NPU专门打造了加速器专用电源,以实现最佳能效比。我们还会通过升级微切片技术,支持网络深度融合,获取最佳性能。除了前面这些技术升级之外,我们还会提供更高主频,支持更大的DDR带宽。对于生成式AI模型,尤其是在解码阶段,需要DDR的支持,所以更大的DDR带宽就意味着大模型的解码速度更快,能给消费者带来更好的用户体验。

除了专门的高算力、低功耗NPU之外,我们还有一个单独的模块叫高通传感器中枢,它也可以用来做AI推理加速。它是DSP加多核Micro NPU的设计,最大的特点是功耗特别低,适用于一些需要始终在线的任务,包括始终开启的摄像头、手势识别、人脸检测、始终开启的语音唤醒等等。因为这些用例需要始终在线,所以对功耗尤其敏感。我们在硬件设计上,也会通过专门的传感器中枢加速模块来适配,对功耗极其敏感的用例进行加速。

前面介绍了非常多的硬件内容,下面会从用例方面来介绍一下我们是如何完成这些工作的。目前有非常多的AI用例,包括自然语言理解自然语言处理相关的用例,还有计算摄影中降噪、超分、HDR、背景模糊等图像处理相关的用例,现在还有视频生成、视频处理等。此外,现在AI在游戏里也有很多应用,像AI NPC、自动剧情、地图绘制、二创等等。这些用例对各种KPI的要求和算力要求也不一样,有按需型用例、持续型用例和泛在型用例,很难有单一的处理器可以满足所有KPI的要求。

举个简单例子,有些任务是在CPU运行中突发的任务,这时理论上不应该唤醒全新的IP,否则时延会非常大,这个时候可以考虑用CPU架构去做加速。还有一些用例对算力要求比较高,可能需要长时间的处理,包括游戏领域、视频/图片处理领域以及大模型等用例。还有一种用例可能需要始终在线,这种时候用CPU、GPU或者NPU去加速都不合适,因为它对功耗极其敏感。

高通通过推出异构计算系统,来满足这些广泛AI用例对不同算力和KPI的要求。我们提供的异构计算系统,包括通用的硬件加速单元——CPU和GPU,用来处理实时的、突发的、对时延非常敏感的任务;我们还有NPU,它特别适用于需要持续性处理、对算力要求比较高、对功耗要求也比较高的一些任务,包括大模型、视频/图片处理以及游戏中持续运行的用例等;此外,还有传感器中枢用来处理始终开启的手势识别、语音唤醒等用例。

设计这样的异构计算系统,我们考虑了哪些因素,是怎么完成这个目标的呢?第一,我们希望提供极致的性能;第二,我们也希望实现比较好的持续性能表现,包括能效比;第三,我们也会从整体成本上考虑,以及考虑芯片尺寸的大小。最后我们也会考虑单位面积能够提供的算力。我们充分考虑这些因素,打造出这样一颗NPU和具有异构计算系统的SoC,为消费者带来了极致的AI,尤其是生成式AI的用户体验。

前面介绍了我们的AI硬件技术,包括各种各样的IP处理器、异构计算系统。接下来,我会跟大家介绍高通所赋能的AI体验。

自去年年底第三代骁龙8和骁龙X Elite平台发布后,大家能够看到市面上已经推出了非常多搭载这两款平台的产品。很多产品其实已经具有了端侧大模型的能力,我在这里举几个例子:第一个是今年年初发布的三星Galaxy S24 Ultra,它能够支持实时翻译的功能;第二个是OPPO Find X7 Ultra推出了AI消除功能,如果想要将图片里面的背景或路人移除的话,可以非常方便地用这个功能得到你想要的照片;第三是荣耀Magic6系列的智慧成片功能,可以非常方便地在图库里面找到与Prompt相关的图片或视频,生成一段vlog分享给你的家人跟朋友。

今年在MWC巴塞罗那2024期间,高通展示了在Android智能手机上运行的大语言和视觉助理大模型(LLaVA),这是一个超过70亿参数的大型多模态语言模型(LMM)。我们正在携手合作伙伴,将多模态大模型完整地带到端侧,带到消费者面前。

第三代骁龙8和骁龙X Elite平台已经赋能推出了丰富的具备终端侧AI或生成式AI能力的旗舰终端和用例。这些用例既有娱乐类的,包括图片生成、图片编辑等,也有生产工具类的,包括写作助手、文本总结、实时翻译等,能够给日常生活或工作带来更高的效率。

总结一下今天的分享内容,第一高通的SoC解决方案提供了异构计算系统,包括多个IP处理器组件,其中有通用的CPU、GPU、专用的NPU、超低功耗的传感器中枢,这些IP处理器组件各自会承担不同的任务,包括对时延敏感的、对算力敏感的、或对功耗敏感的任务。同时,它们也可以互相组合、共同完成一些更复杂的处理任务,提供端到端的服务。在2023年骁龙峰会期间,我们展示了怎么利用高通的异构计算系统去完成端到端的虚拟化身AI助手,当时我们把整个处理管线拆解成三部分:前处理、中间的文本生成、虚拟化身渲染的后处理。其中前处理是跑在CPU上,中间的大语言模型跑在NPU上,后处理跑在GPU以及传感器中枢上面。第二,我们提供强大、算力充沛、超低功耗的专用NPU,方便大家在NPU上部署更大、更先进、更丰富的模型。第三,我们认为,终端侧生成式AI时代已经到来,骁龙计算平台和骁龙移动平台已经赋能了非常多具备终端侧生成式AI功能的终端产品。

最后,我也想在这里做一个小小的预告,搭载最新高通Oryon CPU的下一代骁龙移动平台,即将在今年10月21-23日举行的骁龙峰会上发布,大家敬请期待,谢谢!

产业
相关数据
Qualcomm机构

高通公司(英语:Qualcomm,NASDAQ:QCOM)是一个位于美国加州圣地亚哥的无线电通信技术研发公司,由加州大学圣地亚哥分校教授厄文·马克·雅克布和安德鲁·维特比创建,于1985年成立。两人此前曾共同创建Linkabit。 高通公司是全球3G、4G与5G技术研发的领先企业,目前已经向全球多家制造商提供技术使用授权,涉及了世界上所有电信设备和消费电子设备的品牌。根据iSuppli的统计数据,高通在2007年度一季度首次一举成为全球最大的无线半导体供应商,并在此后继续保持这一领导地位。其骁龙移动智能处理器是业界领先的全合一、全系列移动处理器,具有高性能、低功耗、逼真的多媒体和全面的连接性。目前公司的产品和业务正在变革医疗、汽车、物联网、智能家居、智慧城市等多个领域。

http://www.qualcomm.com/
自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

人脸检测技术

人脸检测(face detection)是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征,并忽略诸如建筑物、树木和身体等其他任何东西。有时候,人脸检测也负责找到面部的细微特征,如眼睛、鼻子、嘴巴等的精细位置。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

OPPO机构

OPPO,成立于2004年,是一家全球性的智能终端和移动互联网公司,致力于为客户提供最先进和最精致的智能手机、高端影音设备和移动互联网产品与服务,业务覆盖中国、美国、欧洲、东南亚等市场。

www.oppo.cn
推荐文章
暂无评论
暂无评论~