Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

高通的自研架构芯片,正在整合生成式AI世界

生成式 AI 的驱动力,就在这块「至尊」芯片上?


身处 2024 年末的我们,已经能感觉到大模型就在身边。

新一代的旗舰手机上,动态壁纸、AI 画图、语音通话总结等功能一字排开,常用功能也有了新技术加持。

图片
智能手机现在获得了与现实世界互动的能力。你可以拍照直接问手机「看到了什么」,它既能向你进行介绍,也可以对画面进行图像增强图片
AI 领域最前沿的智能体也被塞进了手机,它可以像人类一样点击屏幕操纵不同的 App。你可以拿起手机用自然语言给出指令:「点三杯瑞幸的美式咖啡,大杯。」过一会儿 AI 就自动把外卖的店铺、商品和口味选好了,只等你来付款。图片
在新一代大模型和芯片的加持下,很多 AI 手机的体验有了质的升级,新引入的能力包括但不限于端侧 AI 智能体、多模态大模型应用、视频 AI 消除、超级 AI 助手等等。

值得注意的是,这些生成式 AI 的背后,都是高通的「骁龙 8 至尊版」在提供动力。作为业界最新的旗舰 SoC,它不负众望,在部分性能上对同行实现了「降维打击」。不仅有颠覆性的性能提升,还有跨时代的体验升级。

骁龙 8 至尊版:桌面级性能,移动端的能效

今年的骁龙究竟通过什么引发了端侧 AI 的质变?

说到「骁龙 8 至尊版」,就不得不从今年如火如荼的 AI PC 领域说起。

今年 6 月,微软发布了专为 AI 设计的「Windows 11 + PC」。它是迄今为止速度最快、最智能的 Windows 个人电脑。凭借其中搭载的骁龙 X 系列 PC 平台,能够实现超过 40 TOPS(每秒万亿次操作)的 AI 算力,与此同时电池续航时间长达一整天。图片
这种新类型的 PC 结合先进的端侧大模型技术,拥有一系列独特的 AI 能力,不仅可以感知、理解世界的多模态信息,还能与人进行自然的交流,并执行复杂任务。

微软官方表示:在很长一段时间里,这是「独占」的能力。Windows 11 中的部分生成式 AI,只有在搭载 Oryon CPU 的骁龙芯片上才能正常运行。

没过几个月,这种级别的能力就进入到了手机上。在上个月的骁龙峰会上,高通正式推出骁龙 8 至尊版(Snapdragon 8 Elite)移动平台,它是目前全球速度最快的移动端系统级芯片。
图片
与上一代骁龙 8 Gen3 相比,骁龙 8 至尊版在 CPU 单核、多核性能直接提升 45%,GPU 性能提升 40%,NPU 输出的速度达到了 70+Tokens 每秒,与此同时整体 SoC 功耗还降低了 40%。

在性能提升的背后,骁龙 8 至尊版从里到外,有了脱胎换骨的改变:

首先是 CPU,它成功地把高通自研架构的桌面级能力带到了手机上,采用第二代定制高通 Oryon CPU,由两个主频为 4.32 GHz 的「超级内核」和六个频率 3.53 GHz 的性能内核组成,取消了以往的能效核,既提供更好的性能,又提升了功耗效率。

GPU 方面,高通对 Adreno GPU 架构进行了重新设计,为每个切片分配了专用内存,性能提升了 40%,功耗降低 40%,光线追踪性能也提升了 35%。

AI 能力方面,在骁龙 8 至尊版上,全新架构的 Hexagon NPU 性能提升 45%,能效提升 45%,这得益于所有加速器内核的吞吐量提升。此外,结合全面提升的 CPU 和 GPU,该芯片能够跨所有核心动态管理 AI 负载,相比上一代,基础大语言模型 token 生成速率提升了 100%。

在这些新技术的加持下,搭载骁龙新平台的智能手机不仅可以满帧跑 3A 游戏大作,还可以运行一系列终端侧多模态生成式 AI 应用,带来改变人们使用习惯的体验,包括强大的 AI 影像功能、下一代游戏 AI、超级智能助手等。

重构的不止硬件:大模型优化「呼朋唤友」

除了芯片本身,高通在做的另一件事是软硬件的整合。骁龙 8 至尊版的发布几乎被办成了一场生成式 AI 技术的 Demo 大会。

这块移动芯片的发布,获得了各路科技公司大佬的祝福。在发布时,OpenAI CEO 山姆・奥特曼、微软 CEO 萨提亚・纳德拉、Meta CEO 马克・扎克伯格等人纷纷连线进行了背书。图片
这三位分别阐述了生成式 AI 在 PC、增强现实设备、大模型应用等方向的愿景。此时此刻,他们都把目光聚焦在了端侧 AI 上。

正如奥特曼所说,云端和端侧的生成式 AI 形态是互相成就的关系:服务器擅长训练大模型,而利用端侧设备的算力则可以保护个人隐私,同时提升服务的可靠性。

由于大语言模型相当耗费算力,此前生成式 AI 的技术落地大多是在云端,将更多能力部署在端侧则是未来的必然趋势。除了微软、Meta 等硅谷巨头,很多国内厂商也同高通在新一代硬件上展开了合作。

致力于对标 OpenAI 的智谱就与高通共同宣布,已围绕骁龙 8 至尊版,对最新一代端侧视觉大模型 GLM-4V 进行了深度适配和推理优化。在端侧部署后,手机等设备现在已可以支持丰富的多模态交互方式,让人们获得更加情境化、个性化的终端侧智能体验。

国内大厂腾讯的混元大模型,也在高通的帮助下完成了端侧部署,在骁龙 8 至尊版移动平台上,混元大模型 7B 和 3B 版本展示了优化后的运行表现。

结合高通完善的 AI 软件栈,包括高通 AI 模型增效工具包(AIMET)等,骁龙 8 至尊版可以为大语言模型提供从底层硬件到框架的全面优化。通过使用基于硬件的 INT4 量化技术,骁龙大幅提升了混元大模型在终端侧的运行效率,端侧推理可以做到首个 token 生成时延仅有 150ms,解码速率超过了 30 token/s。

此前,腾讯混元大模型已为腾讯自家的大量 App 提供了底层支持,包括微信输入法、腾讯手机管家、QQ、腾讯视频、QQ 浏览器、企业微信、腾讯会议等,覆盖超过 700 个业务场景。

在经过高通技术栈的深度优化后,很多亟待落地的大模型已经达到了端侧可用的程度。

比如,腾讯手机管家的短信智能识别功能,基于混元端侧模型现在已经跑通,具备了更强的语义理解能力,可以更准确地理解短信意图,短信召回率提高了将近 200%,识别准确率提升 20%。由于短信经常会涉及用户的个人信息,端侧 AI 还可以在保证出色性能的同时,有效保护用户的个人信息隐私安全。

经过高通与合作伙伴们的整合,端侧大模型从芯片到应用的优化路径得以打通。或许在未来的某一天,你会发现天天在用的 App 在某次更新后,就多出了生成式 AI 功能。

端侧 AI 堆栈,合纵连横

推出了至尊版芯片的高通,其想要拓展的版图还不止 PC 和移动端。

高通 CEO 安蒙在骁龙峰会上表示:「高通一直是推动无线通信产业发展进程的公司,也是最专注于无线技术的公司。但我们也积极迎接变化,高通不仅仅是一家专注无线连接的公司,更将成为连接的计算公司以适应新时代的人工智能处理。更令人振奋的是,骁龙现在不仅引领着移动行业的创新,还在推动着其他行业的进步。」

上个月与骁龙 8 至尊版一同发布的芯片,还有骁龙座舱至尊版(Snapdragon CocKpit Elite)和骁龙 Ride 至尊版(Snapdragon Ride Elite)平台,它们专为汽车定制,分别面向智能座舱和自动驾驶。
图片
其中,骁龙座舱至尊版使用的 Oryon CPU 围绕车用平台进行了多方面的提升。它的 CPU 算力较上一代提升了三倍,AI 性能也有飞跃式增长,达到了前代产品的 12 倍。此外它也通过软件虚拟化和多操作系统等机制,支持实现了车机任务的灵活的集中式处理,满足了汽车安全标准。

现在,车厂能够在同一块 SoC 上无缝运行数字座舱和智能驾驶等功能,真正实现了近年来一直在追求的硬件架构统一。

骁龙座舱至尊版平台和 Snapdragon Ride 至尊版平台将于 2025 年出样。理想汽车已经官方宣布,将率先搭载高通最新发布的骁龙至尊版汽车平台。图片
                              在骁龙峰会上,理想展示了自家智能座舱的一系列功能,从语音助手、旅行助手到智能问答。

骁龙至尊版汽车平台是骁龙「数字底盘」解决方案组合中的最新产品,除了高算力的芯片,高通还提供智能驾驶和 AI 软件栈体系,提供端到端的智能驾驶系统,具备视觉感知、传感器融合、路径规划、定位和整车控制等先进特性。

在采用 Oryon CPU 的骁龙 8 至尊版发布之后,再加上高通自研的 Adreno GPU、Spectra ISP 和 Hexagon NPU 等,高通补齐了自研 SoC 的最后一块拼图,也统一了 PC、手机、汽车三条产品线的芯片架构。

自研芯片架构的意义,在于能够根据不同产品线的需求,对 CPU 进行微架构层面的调优和定制。与此同时,高通 AI 软件栈(AI Stack)也在不同产品线的 AI 部署中作用显著。

至此,从芯片、大模型到 App 的纵向,以及从手机、PC 到汽车的横向,高通已经做到了 AI 能力的全链路打通

正如大模型公司不断通过新技术优化降低大模型使用门槛,高通的布局正在帮助众多 OEM 厂商和应用公司,把越来越多的生成式 AI 技术,从不可能变为可能。

生成式 AI 可能会「无处不在」

大模型的落地推动到现在,人们已经越来越重视起端侧能力的体验。

从 AI 技术领域里,研究「小模型」(SLM)的趋势开始,在科技公司的努力下,端侧模型从文本到图像,再到多模态的一步步逐步落地。如今,高通端侧芯片的 AI 能力,完整的开发平台以及统一的生态体系,已经为生成式 AI 的大规模应用铺平了道路。

不过,高通的「至尊版」芯片只是起点。经由全链路的技术推动,我们还将见证不久的未来,很多事物改头换面。

其实在最近的发布活动中,我们已经看到了端倪。在《永劫无间》手游的测试版本中,骁龙 8 至尊版除了利用 CPU、GPU 能力带来高帧且稳定的游戏体验,还在端侧跑起了 18 亿参数的大语言模型。配合高通 AI 软件栈从硬件到软件的全栈优化,网易在手游的端侧直接打造出了 AI 队友功能。图片
现在,玩家们在游戏里拥有了可以语音交互的 AI 队友,他们在战斗过程中不仅能够听玩家指令行事,还会在你不会的时候进行提示。

如果说在手游这样高能耗的应用上,我们已能用得起大模型的智能体,那么在日常的应用上,AI 智能体就更可以为我们架起桥梁,让很多功能实现高度的自动化,甚至消除 App 之间的壁垒。再延伸到 AI PC、汽车甚至机器人,高通的技术栈,或许还能把不同的硬件连成一体。

正如奥特曼所说,高通在所有边缘端设备上都拥有强大的技术,能够应用 AI 模型汇集全球几十亿用户。现在仅仅是生成式 AI 的开始,未来将会出现什么?是发挥想象力的时候了。
产业高通骁龙 8 至尊版
相关数据
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

光线追踪技术

在计算机图形学中,光线跟踪是一种渲染技术,用于通过将光的路径跟踪为图像平面中的像素并模拟虚拟对象对光线的接收效果来生成图像。 该技术能够产生非常高的视觉真实感,通常高于典型扫描线渲染方法,但计算成本更高。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

操作系统技术

操作系统(英语:operating system,缩写作 OS)是管理计算机硬件与软件资源的计算机程序,同时也是计算机系统的内核与基石。操作系统需要处理如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统也提供一个让用户与系统交互的操作界面。

路径规划技术

路径规划是运动规划的主要研究内容之一。运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线被称为路径,构成路径的策略则被称为路径规划。路径规划在很多领域都具有广泛的应用,如机器人的自主无碰行动;无人机的避障突防飞行等。

降维技术

降维算法是将 p+1 个系数的问题简化为 M+1 个系数的问题,其中 M<p。算法执行包括计算变量的 M 个不同线性组合或投射(projection)。然后这 M 个投射作为预测器通过最小二乘法拟合一个线性回归模型。两个主要的方法是主成分回归(principal component regression)和偏最小二乘法(partial least squares)。

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
模型优化技术

像卷积神经网络(CNN)这样的深度学习模型具有大量的参数;实际上,我们可以调用这些超参数,因为它们原本在模型中并没有被优化。你可以网格搜索这些超参数的最优值,但需要大量硬件计算和时间。改进模型的最佳方法之一是基于在你的领域进行过深入研究的专家的设计和体系结构,他们通常拥有强大的硬件可供使用。常见的简单模型优化技巧包括迁移学习、dropout、学习率调整等

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~