Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

双向赋能:AI与数据库的修行之道

在这个数据为王的时代,数据是人工智能的三大支柱之一,其重要性不言而喻。最近,OpenAI 收购了数据库初创公司 Rockset,迅速引起了业内外的广泛关注。OpenAI 早已在算法和计算能力方面遥遥领先,通过这次战略性的收购,OpenAI 将在其产品中融合 Rockset 的先进数据索引和查询技术,帮助 OpenAI 将数据转化为 “可操作智能”。

现代数据库人工智能(AI)的融合,正如同一场席卷全球的技术革命,深刻地重塑着技术与产业的格局。

一方面,数据库技术的技术迭代需要更好地支持人工智能应用工作负责,比如向量数据库,也就是 DB for AI;另一方面人工智能技术也更好地让数据库运维更方便,实现自动化和智能化,也就是 AI for DB。

在这一个变革过程中,数据库产业正面临诸多挑战,比如海量数据高性能和大并发、大量数据库实例智能优化、保障数据安全防篡改的防护等。面对这种情况,企业如何通过技术创新和生态协同应对挑战并抓住其中的机遇呢?

作为数据库领域的领头羊,东方国信、PingCAP、云和恩墨通过自身的技术与产品实践给出了他们的答案,同时他们与英特尔的协同创新,也让我们看到了数据库生态的蓬勃生机。
新需求催生新挑战

在 AI 大模型时代,由于数据库的使用人数和数据量的爆炸性增长,数据库系统的并发度会极大提升。云和恩墨联合创始人兼 CTO 杨廷琨强调,数据量爆发性增长带来压力的同时,硬件技术的快速发展也促进了算力提升,为提升处理能力和性能提供了可能性。这时候,数据库厂商需从两方面着手应对:一方面增强单机性能,另一方面通过架构设计实现平滑扩展,以满足海量数据的处理需求。

同时,数据量的爆炸性增长也会带来极大的数据冗余。在此挑战下,用户从需求侧又提出了很多新的要求,东方国信副总裁兼 CTO 查礼表示:用户往往会希望数仓既能做数据加工,又能做分析和查询,这要求数据库系统具有高度灵活性和多功能性。

数据来源多样化和用户需求复杂化催生了对硬件越来越高的需求,数据库要保持高性能、高稳定性,开发和运维人员又需要简化数据库的使用,这构成了一种 “悖论”。

为解决数据库行业 “既要、又要” 的问题,越来越多的数据技术公司让 AI “入局”,让数据库越跑越 “聪明”。PingCAP 服务总经理林景旭表示,他们正探索利用 AI 技术增强数据库功能,同时简化用户操作。作为一家分布式数据库厂商,PingCAP 提供的开源分布式数据产品与解决方案,通过分布式数据库架构,实现计算和存储的分离,以动态扩展满足不同用户需求,这其中便可以通过 AI 算法来优化资源使用和性能评判。

数据库产业需要不断创新,开发更加高效、可靠、智能的数据库技术,才能满足新需求的挑战。同时,数据库产业链也需要紧密合作,共同推动数据库技术的发展,为数字经济的发展提供更加坚实的基础。

生态协同推动产业变革

数据库产业面临的挑战是多方面的,这些挑战并非单个企业能够独自解决,需要整个产业的协同合作,才能共同应对挑战,并抓住其中的机遇。

凭借先进的处理器技术、开源合作策略以及对客户需求的深刻理解,英特尔数据库领域的合作伙伴一起构建了一个开源开放、合作共赢的生态环境,助力数据库技术的持续创新和应用落地。

英特尔中国云创中心技术总经理张晓军介绍说,第四代和第五代英特尔®️ 至强® 可扩展处理器内置了多项面向数据库优化的技术,例如英特尔® QAT(英特尔 ® 数据保护与压缩技术)用于数据压缩解压缩,以及英特尔® IAA(英特尔® 存内分析加速器)加速数据分析。在数据安全方面,英特尔也能通过英特尔® TDX(英特尔® 信任域扩展)和 SGX(英特尔® 软件防护扩展)为使用中的数据提供端到端硬件级防护能力。

此外英特尔至强 6 处理器已于近期发布,提供了两种不同的 CPU 微架构版本,分别为性能核 (P-core) 和能效核 (E-core),让多种工作负载的性能和能效表现再创新高。其全新功能和内置加速器为目标工作负载带来进一步助力,实现了更高的性能和能效。图片
                                            基于英特尔® 架构的加速器与软件工具

众多的合作伙伴正在借助至强处理器和加速器及软件工具增强自身的产品竞争力。

比如 PingCAP 推出的 TiDB 开源分布式数据库就得益于第四代英特尔® 至强® 可扩展处理器卓越的代际性能,其数据库的只读性能与读写性能分别达到基准配置的 1.62 倍与 1.43 倍。

图片

图片
此外 TiDB 利用至强®️ 可扩展处理器搭载的英特尔®️ IAA 提供的出色吞吐量压缩和解压缩功能,在不影响性能的前提下,提升了数据压缩率,节约了存储空间。PingCAP 采用英特尔®️ IAA 代替 LZ4 之后,TiDB 压缩率为 LZ4 无损压缩算法的 1.4 倍。
图片
并结合 CPU 的迭代,性能提升可达到原配置的 1.56 倍 ,有助于客户化解数据压缩所带来的性能困扰。
图片
虽然硬件性能的提升为数据库处理海量数据提供了基础,但要真正发挥这些算力,需要对数据库内核进行深度优化。云和恩墨通过改进数据库内核,使之更好地适应现代硬件,如多核 CPU、大内存和高速 IO 子系统,从而实现单机性能的显著提升。

根据其透露的测试结果,在一颗至强®️ 双路服务器架构上,以 50G 内存配置,再加上一个 NVMe 的 SSD 闪存,云和恩墨达到了 700 万 TPCC 的指标,可以说是极大提高了单机能力。

东方国信适用于超大规模数据存储和在线分析的大数据 BEH 平台企业版通过集成 Gluten 与 Velox Backend 向量化执行引擎,为 Spark 注入了原生矢量化执行的能力,同时结合第四代英特尔® 至强® 可扩展处理器,以及处理器集成的英特尔® QAT 加速器,显著优化了 Spark 批处理计算、SparkSQL 计算、SQL 查询服务的执行效率。经测试,在相同硬件环境下,配合英特尔® QAT 的加成,Spark 计算性能可提升高达 2.9 倍。
图片
除了硬件之外,英特尔还强化了在软件及数据库生态方面的投入。张晓军还强调了英特尔在开源领域的贡献,如 Apache 社区的 Gluten 项目,已经在很多客户系统里得到了广泛应用,相比传统的 Spark,性能可以提高 2-3 倍,如果其运行在英特尔的硬件上预计取得更优性能,显著提升大数据处理效率。

数据库与 AI 深度融合

随着大数据时代的到来,数据量及系统数量都呈指数级增长,数据类型也由结构化数据逐渐演变成了非结构化数据和半结构化数据,这就对数据库系统的稳定性和能力提出了更高的要求,数据库技术和人工智能技术相结合成为当前热门的研究主题之一。

在 AI 时代,数据已成为驱动企业发展的核心要素,而数据库作为存储、管理和分析数据的重要基础设施,与 AI 技术的深度融合将是大势所趋。这种融合不仅能够提升数据库的性能和智能化水平,还能够推动 AI 技术的应用落地。

数据库厂商在不同维度上探索和应用 AI,东方国信正在利用 AI 技术,尤其是在智能取数方面,通过自然语言处理生成 SQL 语句,提高数据提取的灵活性和效率。同时,他们也在探索智能建仓,尝试通过 AI 技术自动化数据仓库的构建和维护流程,旨在实现数据仓库的自动化和智能化。

查礼表示,公司正积极研发解决方案,旨在通过 AI 辅助减少人工介入,提高效率,预计通过 AI 技术的引入,数仓维护成本能降低 60%。

图片

PingCAP 利用 AI 算法进行资源管理,让数据库更适应复杂多变的业务场景。林景旭强调,通过集成 AI 技术,比如利用 AI 优化数据库内部管理,提升数据库本身的智能水平,使其在满足复杂业务场景的同时,降低使用门槛。这意味着数据库不仅要有强大的数据处理能力,还需具备自我管理和优化的能力,确保在面对日益复杂的业务需求时,能更加自主、高效地运行。

云和恩墨则推动自身 “AI for DB” 和 “DB for AI” 的双向促进,杨廷琨指出,云和恩墨利用 AI 提升数据库性能,尤其是在数据库智能资源管理、智能监控、智能根因追踪、智能参数调优、SQL 智能优化以及自动驾驶等方面的应用潜能。

结语

现代数据库人工智能的结合不仅对处理能力、架构灵活性和用户体验提出了更高要求,也为数据库产业带来了前所未有的发展机遇。

随着技术的不断进步和生态合作的深化,未来数据库将更加智能、灵活和强大,为数字经济的发展提供坚实的基础。英特尔数据库领域的合作伙伴将一起共同推动数据库产业向智能化、高效化转型,满足客户的业务创新需求。
产业英特尔
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

SSD技术

一种计算机视觉模型。论文发表于 2015 年(Wei Liu et al.)

数据压缩技术

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间的一种技术方法。数据压缩包括有损压缩和无损压缩。在计算机科学和信息论中,数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元(或者其它信息相关的单位)表示信息的过程。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

数据仓库技术

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

东方国信机构

东方国信是一家专注于大数据软件平台和应用解决方案的软件供应商。目前,东方国信在通信领域成功服务三大运营商,覆盖19亿终端用户;在金融互联网领域,服务近200家金融机构,覆盖5亿终端用户。

http://www.bonc.com.cn/
量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

云和恩墨机构

云和恩墨(北京)信息技术有限公司是一家主打客户数据、数据库系统及相关领域服务的技术公司,在数据/数据库系统生命周期的规划设计、建设实施、运营管理、优化提升4个阶段,提供端到端的服务。

www.enmotech.com
推荐文章
暂无评论
暂无评论~