墨芯人工智能从诞生起,即专注于稀疏化计算产品和解决方案,独创双稀疏算法,为客户提供高品质AI计算解决方案,携手共创AI计算未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业优势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:
集微网:在AI报告中,我们看到墨芯人工智能在稀疏化计算的商业进展令人瞩目。我们了解到墨芯是2018年成立的,当时稀疏化应该是很小众的,能和我们分享一下,墨芯为什么选择稀疏化这条技术路径作为创业方向吗?
2008年,我还在念本科,研究机器学习的时候,就对稀疏化算法技术感兴趣了。我去卡内基梅隆大学读博士发的第一篇论文就是关于稀疏化,这也成为我博士期间的研究方向,在稀疏化领域,我独创了双稀疏算法,我坚信它能够让AI前沿技术变成现实,来解决目前世界上一些严峻挑战。
其实在当时,我们就用稀疏化在CPU上做AI加速了。过去,算法优化是最常用的AI加速方法,而稀疏化是算法优化中,我用过最好用的加速方案。尤其是当AI模型越来越大的时候,稀疏化几乎是唯一一个可以实现十倍、百倍AI训练和推理加速的方案。
但如何将技术从理论变成现实?虽然我的大部分职业生涯都是在学术领域,但其实从初中开始,我就想创业了。在初中的时候,我发现我就能自学完大学的数学课程,于是意识到教育资源并不稀缺,我曾想做一个教育平台帮助更多的人,更自主便捷地获取他们想要的教育资源,而不用在传统教育体制中卷来卷去。
2018年,我遇到了在卡内基梅隆大学的校友,也就是墨芯人工智能的创始人王维先生,他也是我们的CEO。王维先生是拥有15年经验的硅谷数模混合电路专家,曾任CPU高速链路架构师。他拥有数年硅谷半导体创业经验,曾任Intel、高通核心架构师,参与开发了五代Intel CPU处理器,累计量产超50亿片。
最重要的是,我们都坚信稀疏化是AI计算的未来,于是我们决定一起创业,将稀疏化算法升级到计算层面,用我们掌握的技术,为人工智能带来一些让我们骄傲的改变。
墨芯现在的核心团队,无论是我们的首席架构师还是工程VP等,都有一个共同的信念,那就是稀疏化一定能够改变AI的未来。
集微网:我们看到墨芯基于Antoum®️的首个高稀疏倍率AI计算卡S4即将发布,能否和我们分享下在墨芯创业的过程中,从稀疏算法到稀疏计算,将高倍率稀疏计算卡变成现实,遇到的困难和挑战是什么?墨芯是怎么解决的?
严恩勖:墨芯人工智能专注于稀疏化,并将稀疏化从算法升级到计算层面,这样才能真的快。
因为要实现墨芯稀疏化技术的理想加速效果,现有的硬件必须既要能实现高倍率稀疏化,又要能够支持大规模并行计算。现有GPU的硬件架构无法实现高倍率稀疏化,而CPU尽管能支持高倍率稀疏加速,但由于其内核数量的限制无法实现大规模并行计算,它也不是支持稀疏化计算的最理想的硬件。
为此,我们需要从算法和软件出发,来设计相应的硬件和架构。因此墨芯坚持软硬协同开发,并构建了持续多层次优化稀疏运算的底层算法能力,架构保证可编程性、高度可拓展性及快速迭代能力。墨芯现在首个计算卡产品S4就是这些理念的具体体现。
集微网:墨芯的稀疏化计算方案可以应用于哪些行业哪些场景?目前取得了哪些进展呢?
严恩勖:2021年最后一天,墨芯首个芯片Antoum®️成功回片。目前已在多个客户和生态合作伙伴测试环境下跑通多个主流AI模型。性能测试令人满意。
今年6月13日,墨芯加入浪潮元脑,我们和浪潮一起共建稀疏化生态。墨芯以领先的稀疏化计算技术和产品,广阔的生态潜能,融合资源与算法,共创全栈AI解决方案,为各行各业AI应用提供强大算力引擎和生态支撑,为企业降本增效,并加速产业的人工智能化进程。
在接下来的时间里,我们还会和大家分享更多的产业化进展。比如在需要将大模型落地的场景,稀疏化计算具有特别优势。
实测数据显示,S4运行主流AI模型ResNet-50和BERT,性能为国际大厂主流 AI推理卡的6倍,功耗仅为后者的一半。
更值得注意的是,S4能够实现“单卡推理大模型”,解决目前大模型普遍需要分布式部署,落地难、成本高的痛点。在最近的一次测试中,S4在单卡支持大模型T5-8B时,内存占用率仅为7.8%,这也意味着S4具有更多的想象空间,最大可以支持千亿参数级别的大模型。
集微网: 我们注意到稀疏化目前已经有了一些产业化应用,那和其他行业玩家相比,墨芯稀疏化技术的核心优势优势是什么。
具体而言,我们的优势有以下三个:
一是在业界,我们的解决方案率先支持高倍率稀疏计算,且不影响精度。这意味着墨芯的计算卡能够突破单卡算力极限,在性能表现上为客户带来惊喜。
二是我们对大模型友好,不仅可以单卡支持大模型,为客户提供高性能的同时,还可以保持低功耗和高精度、高能效比。这在很多场景是非常有竞争力的,如互联网和生命科学领域。
三是我们支持大规模并行计算。现在,根据潜在客户的反馈,稀疏化计算是极富有竞争力的AI计算解决方案。
我们认为稀疏化计算解决方案既能够突破算力极限,又具有良好的通用灵活性,企业能够能以极低的迁移成本,一键式地将稀疏计算功能添加到现有的计算设施中。
谷歌提到,大的transformer模型在许多任务上表现令人印象深刻,但其训练甚至微调都成本高昂。不仅如此,它的解码速度很慢,以至于它们不易使用,落地非常困难。谷歌利用稀疏化来解决这个问题。
他们提出的Scaling Transformers,他们认为在目前的硬件设备条件下,稀疏化是最快的一种方式,可以使得每一个终端都跑得起高性能的大模型。
稀疏化技术的引入,只选择重要的参数进行运算,使得扩大后的稀疏模型在保留标准transformer模型精度的前提下,运行速度大幅提升。在这篇论文中,谷歌也使用了其他类型的稀疏化算法技术来达到这一结果,谷歌认为稀疏化能与最先进的(AI加速)技术竞争。
这和我们判断非常一致。稀疏化计算大有可为,是AI计算的未来。
集微网: 很好的分享,能否最后和我们分享下,你从科学家的身份到创业者的身份,你遇到的最大的挑战是什么?最有成就感的事情是什么?