人工智能的终极命题:算法和数据谁更重要?
如果算法已经能自动生产,框架将会是核心竞争力吗?
如果框架仍然不能构成核心壁垒,那会是什么?
第三波人工智能浪潮越浪越勇,吸引着一批又一批的学界大佬迈出象牙塔,投身于产业机构和田间地头,要问为什么?
问就一句话,「那里有比研究院所更丰富的海量数据,有更接近用户的真实战场」。
这个逻辑进而衍生出一连串值得探讨的有趣话题:数据很重要,那么数据究竟有多重要?数据会比算法更重要吗?在机器学习领域里,究竟数据和算法哪个重要?
事实上,算法、算力和数据,一直以来就被称之为人工智能的「三驾马车」。这个问题看似无解,好比问自行车的前轮重要还是后轮重要?人的左腿重要还是右腿重要?整体中的任何一个部分对于完成任务而言都是不可或缺的。同样的,数据和算法在机器学习中也是不可或缺的。
但这并不妨碍从业者对「数据与算法」的探讨和交流热情,也正是在这样的交流中,算法和数据的价值得到不断地延伸与挖掘。
一 数据VS算法,究竟谁更有竞争力?
「中国AI公司的优势并不是先进的算法,而是丰富的应用场景和大量的标注数据。正如文章所说:『我们使用的算法中并没有多少内容是地球上随便哪个计算机科学研究生拿不到的。没有中国无与伦比的标注基础设施,这些数据成不了气候。』」
近日,中国科学院大学教授、中科院计算所先进计算机系统研究中心副主任包云岗借由一篇《经济学人》对于中国数据标注企业的报道在个人微博上展开了对于「数据及数据标注」行业的讨论,他呼吁在中国新基建的政策背景下,给予这个站在光鲜背后的行业更多关注和支持。
「一般大家都说人工智能有三个驱动力:算力、算法和数据。大家似乎对算力和算法关注得更多一些,而对数据的积累和处理关注就少很多。
最近看到一个企业『莫比嗨客MBH』,就是一个比较典型的数据处理企业,国内似乎对他们的报道很少,但《经济学人》却在一篇文章中把莫比嗨客放到与商汤、旷视科技同样的高度,甚至着墨更多。事实上,MBH也是一家2016年成立的公司,但已经发展到了30万人的规模。
现在各地都在新基建,其实政府在实施时,真可以考虑多支持一下这些数据处理『苦力』公司,他们似乎更符合新基建的内涵——提升信息处理能力、需要大量投入、可扩大就业。像莫比嗨客这样的公司,他们不仅为旷世商汤等提供标注数据,助力他们成为全世界知名的AI公司,同时也解决了大量的就业问题——莫比嗨客在西部雇了30万人进行数据标注,月薪3000元,是当地最低标准的三倍。
打个比喻,如果说旷世商汤是苹果公司,那么莫比嗨客就是富士康,也是人工智能产业链上不可或缺的一环。」
来自北京大学的网友「huangqundl」强调:
「但是并不是所有的数据都像文本、图像、语音这样可以找到大量廉价外包进行标注,比如网络数据标注就需要极高的专家知识,这就是为什么我对基于堆数据量的人工智能不感冒的原因。」
「 问题是数据和算法哪一个dominate?」网友将问题的焦点转至数据和算法的排位上。
南京大学教授周志华加入了讨论,他南京大学计算机科学与技术系主任兼人工智能学院院长。
周志华表示,「不是非此即彼的。好比没有米做不了饭,但要是以为有了米就能开饭馆,那是想的太容易了。那么开饭馆是米重要还是什么重要呢?」
对于「算法比数据更为重要」的观点,包云岗回应称:
「中国AI公司的优势并不是先进的算法,而是丰富的应用场景和大量的标注数据。正如文章所说:『我们使用的算法中并没有多少内容是地球上随便哪个计算机科学研究生拿不到的。没有中国无与伦比的标注基础设施,这些数据成不了气候。』」
持相同观点的网友表示:「在公司,数据更重要。如果一个新算法和一堆新数据能达到一样效果,则必选数据。所谓先吃数据红利,再吃算法红利。」
「个人觉得数据重要。我说的是数据的结构,特征,分布。因为建模需要根据这些数据的特性来设计算法。所以说,算法是第二重要。当然,现在有很多通用算法可以直接用。第三重要的就是数据量。比如说,用印度米来做扬州炒饭,就是属于数据特性和算法不和。」
周志华认为,「厉害的公司在算法方面必然有东西,只不过不像论文发表出来谁都能看到。往往应用方不希望暴露,尤其不能泄露算法方案。所以看得到的只是水面上的。」
似乎倾向于「算法的重要性更胜一筹」。
二 如果数据无尽,AI何时不再依赖人?
让我们将问题再延伸一下,数据标注会有穷尽之时吗?
如果数据标注无穷尽,人工智能何时才能脱离标注走向成熟?
事实上,人工智能公司正在朝着这个方向逼近。「建造一座工厂,让数据在算力的熔炉中不断淬炼,成批成批的算法模型以更低的成本被生产出来,并源源不断的输入市场。」
「算法工厂」的概念由商汤科技联合创始人抛出。
在徐冰看来,如何能批量地生产模型,生产针对不同物体和场景的模型,这个已经是人工智能技术演进的关键问题。
接受《经济观察报》采访时,徐冰谈道,「算法工厂在经济上的价值是什么?就是公摊成本,你生产100个算法、1000个算法实际上只用了一套『沉没成本』,这意味着一个研究员可以生产出来多个工业化的模型,这需要算法生产的自动化。」
在商汤公司内部,一套名为「SenseParrots」技术框架正是这个「算法工厂」的原型。2015年,SenseParrots在内部发布并投入使用,具备多机多卡联合训练和多路径执行等领先业界的特性。彼时,谷歌开源TensorFlow,技术框架在人工智能领域风靡一时。
经过五年发展,目前「SenseParrots」已经从一个技术框架发展为一个工业级的模型生产平台,为商汤以AI技术赋能产业提供有力的支撑。
算法规模化生产的本质是对单个算法模型生产成本的压缩,这对于任何一家AI商业公司而言都至关重要。
今年3月,旷视宣布开源Brain++最为核心的部分—能够批量生产算法的深度学习框架MegEngine,开源的代码主要面向高校师生、传统产业和中小企业的AI开发者。
Brain++是旷视旗下的人工智能算法平台,旷视首席科学家、旷视研究院院长孙剑曾表示:「旷视 Brain++ 让规模化算法训练成为可能。」
旷视 Brain++总体上可以大体分为三部分,其中即将开源的深度学习算法开发框架 MegEngine 是核心,其次是提供算力调度支持的深度学习云计算平台 MegCompute,以及用于提供数据服务和管理的数据管理平台 MegData。
据介绍,MegEngine作为Brain++最核心的引擎部分,不仅能够高效、批量生产算法,还具备独特的训练和推理一体化技术架构,同时集成了行业领先的自动机器学习(AutoML)技术,可以让算法来训练算法,让AI来创造AI。
中国AI公司走的这条路似乎已经被证实是切实有效的。
本周,在CVPR 2020 放榜,最佳论文、最佳学生论文等奖项悉数公布,该奖项被誉为计算机视觉和模式识别领域的「奥斯卡」。虽然今年的录用率是十年来最低的一次(仅为22%),但毫无悬念的是中国代表团成为最大赢家。
在论文作者所属机构排名中,商汤、华为、百度、腾讯、阿里、旷视等产业代表战绩斐然。
商汤科技及联合实验室共有62篇论文入选,在多个领域实现突破,包括对抗式生成模型、三维点云理解与分析、训练加速与模型量化、视频理解与分析、网络结构搜索等;华为视觉研究团队此次为业界贡献了 34 篇论文,其中包括 7 篇oral论文;百度共有22篇论文入选;腾讯优图17篇论文入选。
但值得注意的是,此前背靠海外学术机构深度学习框架已经发展成为主流,从最开始蒙特利尔大学与伯克利大学提出的 Theano、Caffe 框架,到现在谷歌与 Facebook 维护的 TensorFlow、 PyTorch,开始逐步转向海外科技巨头。
那么,是否有必要再自创一套深度学习框架?
Caffe、Caffe2、PyTorch 的重要贡献者,曾参与 TensorFlow 研发,GoogleNet 作者的之一的贾扬清曾在阿里技术社区发文《贾扬清:我对人工智能方向的一点浅见》中谈道:「作为 AI 工程师,我们应该跳出框架的桎梏,往更广泛的领域寻找价值。」
「近年来框架的同质化说明了它不再是一个需要花大精力解决的问题,TensorFlow 这样的框架在工业界的广泛应用,以及各种框架利用 Python 在建模领域的优秀表现,已经可以帮助我们解决很多以前需要自己编程实现的问题。」
他在接受机器之心采访时进一步解释道,「这个事情我觉得核心竞争力不在框架上面。因为框架顾名思义它只是一个框子搭在那,还要填最底层的核心,比如说像高性能计算,芯片,都是更底层的核心,再往上,跟建模、业务对接,是框架之外更加需要来构建我们能力壁垒的一个东西。」
三 人工智能的终点将走向何处?
算法框架已经很常见,大量算法的规模化生产也不再是难事。那么人工智能的研究终点在哪里?
人工智能仍将会马不蹄停地不断发展,算法层面的往前推进只是一个过程,而真正的挑战还在于在业务快速发展的过程中,在同业务指标相结合的时候,找到整个科研创新基点,实现完整算法的整合。
「工程上需要的大量Know-How是教科书找不到的」所以,才有了从学术到工程之间的「千里之行」。
「今天我们所看到的业界趋势是从框架开始,我们在计算机系统,在整个M2M(machine to machine)平台上面,还有非常多的挑战,怎么样把人工智能计算跟大数据做结合,怎么样利用传统的编译器技术来优化AI的计算,这些是我们需要来进一步投入的地方。」贾扬清在接受采访时谈道。
数据决定了技术的上限,算法是逼近这个上限的追逐,而从技术到产品化,则是真正实现这个上限的过程,需要技术端和产品端相互合作和反馈修正。
学术是温室里的理想国,孕育着新生力量和无限可能,但能真正让技术走向成熟,让技术创造价值的地方是现实世界,在田间地头,在项目工地,在各种实际场景里……而这也是AI技术必须迈向产业化的根本原因。