2020/06/19 17:00

算法VS数据，谁起决定作用？一场南北大佬的隔空「辩论」引发对于AI的终极思考

算法VS数据,谁起决定作用?一场南北大佬隔空辩论引发对AI终极思考

人工智能的终极命题：算法和数据谁更重要？
如果算法已经能自动生产，框架将会是核心竞争力吗？
如果框架仍然不能构成核心壁垒，那会是什么？

第三波人工智能浪潮越浪越勇，吸引着一批又一批的学界大佬迈出象牙塔，投身于产业机构和田间地头，要问为什么？

问就一句话，「那里有比研究院所更丰富的海量数据，有更接近用户的真实战场」。

这个逻辑进而衍生出一连串值得探讨的有趣话题：数据很重要，那么数据究竟有多重要？数据会比算法更重要吗？在机器学习领域里，究竟数据和算法哪个重要？

事实上，算法、算力和数据，一直以来就被称之为人工智能的「三驾马车」。这个问题看似无解，好比问自行车的前轮重要还是后轮重要？人的左腿重要还是右腿重要？整体中的任何一个部分对于完成任务而言都是不可或缺的。同样的，数据和算法在机器学习中也是不可或缺的。

但这并不妨碍从业者对「数据与算法」的探讨和交流热情，也正是在这样的交流中，算法和数据的价值得到不断地延伸与挖掘。

一数据VS算法，究竟谁更有竞争力？

「中国AI公司的优势并不是先进的算法，而是丰富的应用场景和大量的标注数据。正如文章所说：『我们使用的算法中并没有多少内容是地球上随便哪个计算机科学研究生拿不到的。没有中国无与伦比的标注基础设施，这些数据成不了气候。』」

近日，中国科学院大学教授、中科院计算所先进计算机系统研究中心副主任包云岗借由一篇《经济学人》对于中国数据标注企业的报道在个人微博上展开了对于「数据及数据标注」行业的讨论，他呼吁在中国新基建的政策背景下，给予这个站在光鲜背后的行业更多关注和支持。

「一般大家都说人工智能有三个驱动力：算力、算法和数据。大家似乎对算力和算法关注得更多一些，而对数据的积累和处理关注就少很多。

最近看到一个企业『莫比嗨客MBH』，就是一个比较典型的数据处理企业，国内似乎对他们的报道很少，但《经济学人》却在一篇文章中把莫比嗨客放到与商汤、旷视科技同样的高度，甚至着墨更多。事实上，MBH也是一家2016年成立的公司，但已经发展到了30万人的规模。

现在各地都在新基建，其实政府在实施时，真可以考虑多支持一下这些数据处理『苦力』公司，他们似乎更符合新基建的内涵——提升信息处理能力、需要大量投入、可扩大就业。像莫比嗨客这样的公司，他们不仅为旷世商汤等提供标注数据，助力他们成为全世界知名的AI公司，同时也解决了大量的就业问题——莫比嗨客在西部雇了30万人进行数据标注，月薪3000元，是当地最低标准的三倍。

打个比喻，如果说旷世商汤是苹果公司，那么莫比嗨客就是富士康，也是人工智能产业链上不可或缺的一环。」

来自北京大学的网友「huangqundl」强调：

「但是并不是所有的数据都像文本、图像、语音这样可以找到大量廉价外包进行标注，比如网络数据标注就需要极高的专家知识，这就是为什么我对基于堆数据量的人工智能不感冒的原因。」

「问题是数据和算法哪一个dominate？」网友将问题的焦点转至数据和算法的排位上。

南京大学教授周志华加入了讨论，他南京大学计算机科学与技术系主任兼人工智能学院院长。

周志华表示，「不是非此即彼的。好比没有米做不了饭，但要是以为有了米就能开饭馆，那是想的太容易了。那么开饭馆是米重要还是什么重要呢？」

对于「算法比数据更为重要」的观点，包云岗回应称：

持相同观点的网友表示：「在公司，数据更重要。如果一个新算法和一堆新数据能达到一样效果，则必选数据。所谓先吃数据红利，再吃算法红利。」

「个人觉得数据重要。我说的是数据的结构，特征，分布。因为建模需要根据这些数据的特性来设计算法。所以说，算法是第二重要。当然，现在有很多通用算法可以直接用。第三重要的就是数据量。比如说，用印度米来做扬州炒饭，就是属于数据特性和算法不和。」

周志华认为，「厉害的公司在算法方面必然有东西，只不过不像论文发表出来谁都能看到。往往应用方不希望暴露，尤其不能泄露算法方案。所以看得到的只是水面上的。」

似乎倾向于「算法的重要性更胜一筹」。

二如果数据无尽，AI何时不再依赖人？

让我们将问题再延伸一下，数据标注会有穷尽之时吗？

如果数据标注无穷尽，人工智能何时才能脱离标注走向成熟？

事实上，人工智能公司正在朝着这个方向逼近。「建造一座工厂，让数据在算力的熔炉中不断淬炼，成批成批的算法模型以更低的成本被生产出来，并源源不断的输入市场。」

「算法工厂」的概念由商汤科技联合创始人抛出。

在徐冰看来，如何能批量地生产模型，生产针对不同物体和场景的模型，这个已经是人工智能技术演进的关键问题。

接受《经济观察报》采访时，徐冰谈道，「算法工厂在经济上的价值是什么？就是公摊成本，你生产100个算法、1000个算法实际上只用了一套『沉没成本』，这意味着一个研究员可以生产出来多个工业化的模型，这需要算法生产的自动化。」

在商汤公司内部，一套名为「SenseParrots」技术框架正是这个「算法工厂」的原型。2015年，SenseParrots在内部发布并投入使用，具备多机多卡联合训练和多路径执行等领先业界的特性。彼时，谷歌开源TensorFlow，技术框架在人工智能领域风靡一时。

经过五年发展，目前「SenseParrots」已经从一个技术框架发展为一个工业级的模型生产平台，为商汤以AI技术赋能产业提供有力的支撑。

算法规模化生产的本质是对单个算法模型生产成本的压缩，这对于任何一家AI商业公司而言都至关重要。

今年3月，旷视宣布开源Brain++最为核心的部分—能够批量生产算法的深度学习框架MegEngine，开源的代码主要面向高校师生、传统产业和中小企业的AI开发者。

Brain++是旷视旗下的人工智能算法平台，旷视首席科学家、旷视研究院院长孙剑曾表示：「旷视 Brain++ 让规模化算法训练成为可能。」

旷视 Brain++总体上可以大体分为三部分，其中即将开源的深度学习算法开发框架 MegEngine 是核心，其次是提供算力调度支持的深度学习云计算平台 MegCompute，以及用于提供数据服务和管理的数据管理平台 MegData。

据介绍，MegEngine作为Brain++最核心的引擎部分，不仅能够高效、批量生产算法，还具备独特的训练和推理一体化技术架构，同时集成了行业领先的自动机器学习(AutoML)技术，可以让算法来训练算法，让AI来创造AI。

中国AI公司走的这条路似乎已经被证实是切实有效的。

本周，在CVPR 2020 放榜，最佳论文、最佳学生论文等奖项悉数公布，该奖项被誉为计算机视觉和模式识别领域的「奥斯卡」。虽然今年的录用率是十年来最低的一次（仅为22%），但毫无悬念的是中国代表团成为最大赢家。

在论文作者所属机构排名中，商汤、华为、百度、腾讯、阿里、旷视等产业代表战绩斐然。

商汤科技及联合实验室共有62篇论文入选，在多个领域实现突破，包括对抗式生成模型、三维点云理解与分析、训练加速与模型量化、视频理解与分析、网络结构搜索等；华为视觉研究团队此次为业界贡献了 34 篇论文，其中包括 7 篇oral论文；百度共有22篇论文入选；腾讯优图17篇论文入选。

但值得注意的是，此前背靠海外学术机构深度学习框架已经发展成为主流，从最开始蒙特利尔大学与伯克利大学提出的 Theano、Caffe 框架，到现在谷歌与 Facebook 维护的 TensorFlow、 PyTorch，开始逐步转向海外科技巨头。

那么，是否有必要再自创一套深度学习框架？

Caffe、Caffe2、PyTorch 的重要贡献者，曾参与 TensorFlow 研发，GoogleNet 作者的之一的贾扬清曾在阿里技术社区发文《贾扬清：我对人工智能方向的一点浅见》中谈道：「作为 AI 工程师，我们应该跳出框架的桎梏，往更广泛的领域寻找价值。」

「近年来框架的同质化说明了它不再是一个需要花大精力解决的问题，TensorFlow 这样的框架在工业界的广泛应用，以及各种框架利用 Python 在建模领域的优秀表现，已经可以帮助我们解决很多以前需要自己编程实现的问题。」

他在接受机器之心采访时进一步解释道，「这个事情我觉得核心竞争力不在框架上面。因为框架顾名思义它只是一个框子搭在那，还要填最底层的核心，比如说像高性能计算，芯片，都是更底层的核心，再往上，跟建模、业务对接，是框架之外更加需要来构建我们能力壁垒的一个东西。」

三人工智能的终点将走向何处？

算法框架已经很常见，大量算法的规模化生产也不再是难事。那么人工智能的研究终点在哪里？

人工智能仍将会马不蹄停地不断发展，算法层面的往前推进只是一个过程，而真正的挑战还在于在业务快速发展的过程中，在同业务指标相结合的时候，找到整个科研创新基点，实现完整算法的整合。

「工程上需要的大量Know-How是教科书找不到的」所以，才有了从学术到工程之间的「千里之行」。

「今天我们所看到的业界趋势是从框架开始，我们在计算机系统，在整个M2M（machine to machine）平台上面，还有非常多的挑战，怎么样把人工智能计算跟大数据做结合，怎么样利用传统的编译器技术来优化AI的计算，这些是我们需要来进一步投入的地方。」贾扬清在接受采访时谈道。

数据决定了技术的上限，算法是逼近这个上限的追逐，而从技术到产品化，则是真正实现这个上限的过程，需要技术端和产品端相互合作和反馈修正。

学术是温室里的理想国，孕育着新生力量和无限可能，但能真正让技术走向成熟，让技术创造价值的地方是现实世界，在田间地头，在项目工地，在各种实际场景里……而这也是AI技术必须迈向产业化的根本原因。

入门算法数据科学人工智能

相关技术

机器学习物体识别深度学习人脸识别图像分割

商汤科技机构

作为人工智能软件公司，商汤科技以“坚持原创，让AI引领人类进步”为使命，“以人工智能实现物理世界和数字世界的连接，促进社会生产力可持续发展，并为人们带来更好的虚实结合生活体验”为愿景，旨在持续引领人工智能前沿研究，持续打造更具拓展性更普惠的人工智能软件平台，推动经济、社会和人类的发展，并持续吸引及培养顶尖人才，共同塑造未来。

http://www.sensetime.com

相关技术

计算机视觉图像超分辨率重建

周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘等领域的研究工作。主持多项科研课题，出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012)，在一流国际期刊和顶级国际会议发表论文百余篇，被引用三万余次。

来源：个人页面 Zhou, Z.

孙剑人物

孙剑，男，前微软亚研院首席研究员，现任北京旷视科技有限公司（Face++）首席科学家、旷视研究院院长。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇，两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类，检测和定位，MS COCO 检测和分割) ，其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

来源：个人页面百度百科 Sun, J

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源，如线程、进程或数据流；也可以指硬件资源，如处理器、网络连接或扩展卡。进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态，允许多位用户有效地同时共享系统资源，或达到指定的服务质量。 see planning for more details

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

模式识别技术

模式识别（英语：Pattern recognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

来源：维基百科

TensorFlow技术

TensorFlow是一个开源软件库，用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品，如语音识别、Gmail、Google 相册和搜索，其中许多产品曾使用过其前任软件DistBelief。

来源：维基百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

来源：机器之心

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程，其目的在于充分有效地发挥数据的作用。

来源：百度百科

云计算技术

云计算（英语：cloud computing），是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

来源：Cloud Computing

逻辑技术

人工智能领域用逻辑来理解智能推理问题；它可以提供用于分析编程语言的技术，也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑（Propositional Logic ）以及一阶逻辑（FOL）等谓词逻辑。

来源：机器之心

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

百度智能云机构

百度是全球最大的中文搜索引擎，是一家互联网综合信息服务公司，更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村，公司创始人李彦宏拥有“超链分析”技术专利，也使中国成为美国、俄罗斯、和韩国之外，全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com

相关技术

(本地/随机)集束搜索

旷视科技机构

旷视成立于2011年，是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力，我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”，实现了算法的高效开发与部署。在持续引领技术进步的同时，我们推动AI产业的商业化落地，聚焦个人物联网、城市物联网、供应链物联网三大赛道，为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com

相关技术

图像超分辨率重建基于区域的卷积神经网络深度学习计算机视觉

腾讯机构

腾讯，1998年11月诞生于中国深圳，是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念，为亿万网民提供优质的互联网综合服务。腾讯的战略目标是“连接一切”，我们长期致力于社交平台与数字内容两大核心业务：一方面通过微信与QQ等社交平台，实现人与人、服务及设备的智慧连接；另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展，通过普及移动支付等技术能力，为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/

相关技术

语音识别

机器之心机构

机器之心，成立于2014年，是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系，为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/

相关技术

机器学习自然语言处理知识图谱

结构搜索技术

深度学习提供了这样一种承诺：它可以绕过手动特征工程的流程，通过端对端的方式联合学习中间表征与统计模型。然而，神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。神经网络架构搜索（NAS）被誉为一条减轻痛苦之路，它可以自动识别哪些网络优于手工设计的网络。

来源：Oreilly

量化技术

深度学习中的量化是指，用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

来源：Medium

合合信息机构

http://www.zhaodao.info

新基点机构

www.basepoint.net.cn

北京大学机构

北京大学创办于1898年，初名京师大学堂，是中国第一所国立综合性大学，也是当时中国最高教育行政机关。辛亥革命后，于1912年改为现名。2000年4月3日，北京大学与原北京医科大学合并，组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校，创建于1912年10月26日。20世纪三、四十年代，学校一度名为北平大学医学院，并于1946年7月并入北京大学。1952年在全国高校院系调整中，北京大学医学院脱离北京大学，独立为北京医学院。1985年更名为北京医科大学，1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构，为促进医学与人文社会科学及理科的结合，改革医学教育奠定了基础。

官网，http://www.pku.edu.cn/