数据派THU原创

2018/12/18 11:27

Deepesh Nair作者丁楠雅校对王雨桐翻译

一文盘点数据行业的动态演变（附链接）

本文从多个角度盘点数据行业近年来的变化，并对当前数据行业现状进行了分析和评价。

近年来，数据行业不断涌现的职能和头衔让人惊讶。不可否认，这是一个模糊不清的领域，甚至连从业者对这个领域的构成也有不同看法，但有一些趋势是公认的。随着数据相关的职位、投资和技术越来越多，机构对数据的重视也达到了前所未有的程度。

为了方便阅读，我想按几种技术革命来介绍数据角色，尤其是那些在未来将不断发展的革命。此外，我最近写了一篇关于数据分析角色演变的文章，可以为本文提供很好的背景知识。

附链接：
https://deepesh-nair.blog/2018/08/03/the-evolution-of-analytics-with-data/

这将是一篇长文，如果你觉得有点疲惫，唯一的忠告就是：先去喝杯咖啡吧！

商业智能（BI）角色

不可否认，在2018年的科技界，“BI”算不上时髦的词汇。这让我们这一代“数据人”感到很不自在。难道没人再用ETL工具和策略了吗？BI被时下流行的大数据和数据科学取代了吗？-当然不是！！

图：如何根据组织的商业模式构造传统的BI角色。

图片来源：Microsoft Wiki

在过去一两年，商业智能经历了相当大的衰退。但是我不认为BI已经失去意义，因为它对主营业务非常重要。像BI分析师、数据架构师、ETL开发员、DW工程师、BIDW管理员这样的角色只会变得更加重要。相比于数据领域内的“万事通”，这些角色会更加关注市场驱动的工具和技术。

图片：2018年流行的商业智能角色

图片来源：DepositPhotos

根据最近Wisdom of Crowds®的一项商业智能市场研究，BI将继续提供有竞争力的工资并主导市场的某些领域。以下是2018年的一些关键数字：

应用BI的3大领域：执行管理、运营和销售。
BI中的 5个战略性技能：仪表板、报告、终端用户自助服务、高级可视化和数据仓库。
员工人数不超过100的小公司的BI渗透率最高。
50%的供应商提供永久的本地许可和云订阅。
仅有不到15%的受访机构有首席数据官。

如果你对此有不同的意见，建议阅读全文：2018年商业智能报告

附链接：
https://www.forbes.com/sites/louiscolumbus/2018/06/08/the-state-of-business-intelligence-2018/#7a3a35e27828

大数据&数据科学角色

在深入了解这个角色之前，让我们先退回一步，了解它是如何开始以及从哪里开始的。我想通过讲故事的方式来展示这个角色，而不是列出传统的纯文本定义——文本定义在网上可以很容易查到。而且，行业内的每一股新浪潮都会催生出令人困惑的词语、错误的套用和过于理想的规定。

变化

“大数据”之所以被创造出来，是为了区别于小数据，因为它不仅仅是由公司的交易系统产生的数据。“大数据”让我们认识到：与基于事实的理解相比，预测分析可以提供更好的数据趋势，因此我们在决策时不能仅仅依靠直觉。如果大量数据和数据分析还给不了你满意的结果，那么推荐你考虑一下社区开源工具，而不是购买昂贵的许可证。

我通常不会在文章中引用工具的名字，但要描述这场革命，就不得不提到Apache Hadoop。技术堆栈和可扩展项目，函数式编程范例(可伸缩、并发和分布式系统)，noSQL的崛起，集群作业调度和资源管理、不断变化的拖拽式ETL和更好的数据建模技术——Hadoop汇集了以上内容,但它最终强调的是最后一个，代码是软件的最佳抽象。此外，它还引入了一个广义上的概念，即为将来的数据科学和机器学习的集成提供定制架构。

从开发者的角度来看，这意味着你不必为技术巨头们工作来开发颠覆性项目。你有一个社区作为支持，并可以在一些新兴的协作平台上展示成果，如Github。

图：大数据和分析驱动公司的角色分层

从组织的角度来看，软件工程师(java开发人员)、DW工程师(BI/ETL开发人员、数据架构师)和项目执行经理(dba、Linux SAs)得到了更炫的头衔，如大数据工程师、Hadoop开发人员、Hadoop架构师、大数据支持工程师，这些新职业开始在就业市场上蓬勃发展。BI的地位下降了，这意味着使用相似工具的业务人员和数据人员的时代结束了。

图：BI角色逐渐移出了大数据团队的范围

图片来源：DataFlair

这件事情在行业层面上的影响深远，不仅仅科技公司和互联网公司，每一家公司都可以通过大数据分析来创造产品和服务。

融合

随着大数据与数据科学策略相融合的需求不断增长，科技行业突然出现了分化。由此，领域角色被分为三个部分:软件工程(具备强大编程能力的前&后端工程师，Web开发人员，项目执行经理，中间件专家，iOS/Android开发人员)；数据工程(强大的数据背景，如ETL开发人员，DWH架构师，BI分析师，Hadoop工程师，dba)；还有被视为下一代定量分析师的第三类人员(具有计算和分析能力的人员),这类人专注于持续发展的研究领域：数据科学。

图：上图显示了软件工程、数据工程和数据科学三个领域的技术和工具

图片来源：Ryan Swanstrom, Data Science 101

据我所知，这种划分使一些公司发生了重大转变。其中小型公司(< 50名员工)最好地利用了这些优势，如新兴初创企业；研究机构以及大型企业(> 1000名员工)如电子商务、社交媒体等也受到很大影响。初创企业可以自由地结合多个角色，并鼓励交叉学科协同发展，而主流巨头们可以毫不费力地在不同部门之间扮演不同的角色，进而开拓更多的业务。

不过，受影响最大的其实是那些中型企业(或称SMBs)，他们正努力地和市场巨头竞争，争取更多商业利益。各种融资或风投促使这些企业扩大规模(50-300个员工)，进而获得最初的成功。随后他们陷入了无限招聘、人员冗余、错误决策等问题中。最终在市场压力下不得不大批裁员、股票损失，甚至早早进入清算。一些精通技术的投资者(我想称之为守护天使)会提供并购援助，但这个行业也意识到吸收投资会有不利影响。

重叠

与此同时，不仅仅是公司在努力地发展数据角色。在这个时代，越来越多的数据科学爱好者(学术和经验丰富的人)走出他们的舒适圈，扩展他们的技能。各个程度的人(数学家、工程师、博士、分析师、毕业生)都有权利申请21世纪最高薪的工作之一。随之而来的是一些德高望重的大学教授和专家，他们就什么是理想的数据科学家发表了许多意见。但这只会引起偏见，却无法阻止人们蜂拥涌入数据领域。

给职位加上数据前缀有助于和那些相似任务的角色相区别，框定技能需要覆盖范围并开发相应的潜力。数据分析师从业务中解脱出来，将目光转向统计和工程，而数据架构师则以其标志性的中立态度，专注于发布模型(不要与ML混淆)、数据库设计和管理。

图：雷达图-用于解释数据驱动角色的技能重叠

图片来源：edX

通过培养机器学习相关的规范性分析能力，企业开始围绕各自的前提收获更多商业信息。他们不仅在传统意义上的分析领域展开竞争，比如改进内部业务决策，还着眼于创造更有价值的产品和服务。企业的绝对需求(或贪婪)是要实现具体的目标：得到比上个季度更好的结果——按比例减少职位的开销。因此，像数据科学家这样一个有前途但充满挑战性的职位，需要一个跨团队的核心人物来完成与数据相关的任何事情。这个角色将会承担常人难以想象的压力和疲惫。如果一个如此有才华的人只是被用去做分析，他一定会设法为自己寻找更好的机会。KDnuggets上的这篇讽刺的文章支持了我的说法。

附原文：
https://www.kdnuggets.com/2018/04/why-data-scientists-leaving-jobs.html

权衡

现在有人在问，数据科学会是下一个泡沫吗？我的回答是：不，但“数据科学家”这个头衔可以被看作泡沫。这是一个教科书式的供求问题——每个人都希望能分到一碗羹，但事实证明只有少数人具备这个能力。这有点让人困惑——你会如何处理一个正在申请这个职位的应届毕业生，或者当你的数据科学家准备离职，同时还有一群“自荐者”在敲你的门的时候，你会做什么。

另一些人觉得，企业需要从网站、api、社交媒体或互联网等渠道获取数据，因此数据科学家要掌握编程语言并高效实现需求。他们会很困惑，“为什么不是所有的数据科学家都拥有强大的编程基础”或者“为什么在数据科学的喧嚣中，软件工程被忽视了？”企业很快意识到，只有角色重新分配才能解决问题。于是把目光投向了更广泛的工程师，来给予数据科学家更多支持，并探索不同角色之间的平衡。

软件工程师似乎在数据科学和机器学习方面颇有造诣，他们尽可能解决难题并丰富了数据工程师的队伍。而那些从事核心web编程和栈驱动的人们则面临着更大的挑战：全栈工程师。

一种双赢的局面是，数据科学家找到了可靠的伙伴，他们会有一种如释重负的感觉(外界对他们的夸大炒作也会降低)，而且在未来还会有一个同等能力的角色来挑战他们。这种交叉让那些数据科学“发烧友”们兴奋不已，并使得数据工程成为当今最复杂的学科之一。当前的数据工程师补充了其他的所有角色，在每个公司都是一个必备的勤杂工，而且是初创公司的第一批雇员。

图：数据科学家和数据工程师对比

图片来源；Karlijn Willems

通过平衡相互独立的角色，这种博弈获得了完美的回报。但科技行业意识到，他们无法再一次承受挫折，并随时准备接受越来越多的人工智能。

变革

不可避免的是，公司总是会发现其组织结构的缺陷：职位、优先级和能力——以及初始的数据驱动团队。企业要更多关注角色区分、分工、避免任务冲突、适当合作等方面。在这样一个团队中，可以以角色为基础设立领导者，一个很好的案例是首席数据科学家和工程主管。

图：早期对健全数据科学团队的描述

图片来源： DataCamp Blog Community

如今，完美的数据科学团队是一个神话，或者是一个让人向往的话题。公司期望他们的团队像一群超级英雄的集合(像复仇者那样)——他们在很多情况下大获全胜的原因就是指定了一个人来为这些团队提供背景，这就是首席数据官存在的意义。随着数据成为一项完整的商业战略，首席数据官正在成为一个组织中更为关键的角色。在《福布斯》的一项调查中，超过50%的首席数据官可能会在2018年直接向首席执行官报告。他们一定会在塑造企业主动性方面扮演更积极的角色。

当我看到岗位描述中包含“熟练使用英语”或“本地应聘者”时，我感到很失望。语言不应该被视为障碍，而应该被视为增强团队关系的纽带。2018年最好的例子就是一个语言本身：Python。创始人(CEO和CDO)必须在他们的团队中传播这些信息，最重要的是人才招募团队。

图：Python如何将不同类型角色聚集

图片来源： ActiveWizards

如今，人力资源协调员、招聘人员、外包猎头都可以使用充足的数据资源(如Medium、Datacamp)和数据友好平台(如LinkedIn、Glassdoor)来完善搜索，以提高招聘质量；因此，甚至这些角色都是数据驱动的。

机器学习&AI驱动角色

也许机器学习最引人注目的方面是它看似无限的适用性。已经有很多领域受到了人工智能的影响，包括教育、金融等等。机器学习技术已经被应用到医疗领域的关键部分，从减少药物作用差异到医疗扫描分析，机器学习影响着方方面面。

对于许多公司来说，他们的数据(或数据分析平台)就是他们的产品。在这种情况下，数据分析或机器学习的热潮会非常猛烈。对于有正式数学、统计学或物理背景的人来说，这可能是一种理想的情况，他们希望继续走学术道路。

“机器学习工程师通常更关注生产伟大的数据驱动产品，而不是回答公司的运营问题。”

图：数据科学团队中新加入的机器学习

图片来源：Udacity

公司开始积极地寻找机器学习工程师:包括各个年龄层(实习生到科研人员) 有想法的候选人。从LinkedIn、Medium、Github上可以发现，人们对社交媒体这一代的赞赏也比从前更多。

图：AI公司中多种机器学习角色的比较

图片来源：Udacity

目前成功实现了智能机器(比如聊天机器人) 的AI驱动公司已经比其他公司领先一步。软件、应用&核心这些附加角色是一个明确的迹象——他们对他们开发的产品和服务是认真的。由于没有任何关于名称或资历的概括，他们完全可以在未来即兴创作AI头衔。

周边角色

有许多角色在日常基础上补充了数据驱动团队。无论属于哪个团队，他们都是组织中不可或缺的一员。你可能会想为什么我没早点提到他们。老实说，我对此持不确定的态度，原因如下:

我对这些领域介绍及其范围的专业知识有限。
它们不属于数据驱动角色的主要范畴。
这些领域的多功能性使得它们在不同的团队中运作。

让我在“键盘侠”到来之前解释一下。

平面设计师：所有事物都需要的创意头脑。一套完整的艺术、科学、程序设计、思想和想象力，这些需要无限的能力。他们用他们的声音和无畏的态度来创造价值，是我个人的最爱。
决策者：一个经常被误解和忽视的角色。尤其是在特定领域的初创企业中，在聘用博士出身的数据科学家之前，要确保你的决策者懂得决策的艺术。
软件开发人员和运维人员：大致分为两类：“业务能力团队”和“灵敏的运维团队”。数据架构师和工程师可以协调、学习和实现基于云(IaaS、PaaS、SaaS)的configs、容器、微服务部署和虚拟化等任务。然而，DataOps（数据操作运营）是一个允许企业内部连续数据流的新平台。
云架构师：通常担任咨询角色的技术专家(像他们的云服务一样按小时收费)。同样，如果企业的数据工程师熟悉云概念或认证助理/专业人员，您可以选择不雇佣他们。
项目和交付经理：一些数据科学和分析公司仍然不得不使用Agile&Scrum方法的旧规范。在他们开始咨询客户来协调他们的产品销售和服务之前，他们需要有经验的经理来确保PoC(概念验证)时间表和资源的合理分配。
网络和网络安全工程师：这类人通常被视为内部团队，但如所有上述提到的，他们将很快成为数据驱动团队的一个组成部分。2018年，一些威胁促使企业开始关注数据安全的问题。因为大多数公司每天都在通过网络运营，这些角色变得至关重要。

细化想法

当然，在工具方面，这项技术比以往任何时候都易于使用和直观。例如，在大多数清理、建模、报告和可视化工具中都有一系列适配器，这意味着加载数据不再是非常重要的需求。然而，这在某种程度上也鼓励了无所不在的视图，因为它可以轻易地实现。但这也是一个不好的预兆，人们在确保基础数据的准确性上花的时间越来越少了。

科技与产业将在2008-2019年度密切关注:

渐进式网络应用程序(PWAs)——手机和网络应用程序的混合体。
区块链及金融科技——建立元模型，可靠的交易和信用评分。
医疗——医疗影像诊断(计算机视觉及机器学习)。
AR/VR ——体育分析，名片(图像跟踪)，体感游戏(Hado)。
AI语音助手——智能聊天机器人。
智能供应链——数字孪生(物联网传感器)。
5G ——大数据，移动云计算，可扩展物联网和网络功能虚拟化(NFV)。
3D打印——预制效率，缺陷检测，预测ML维护。
暗数据——还未被转化为可用的格式的信息
量子计算——将数据处理时间分割成多个部分。

最后，在工作方面，有些职位显然无法跟上技术的变化，未来跳槽将是困难的。正如许多求职顾问所言，保持职位稳定的方法有两种：一是成为某一领域的专家，在一家稳定的公司站稳脚跟；二是找到符合技术趋势的新领域并选择具有挑战性的职位。作为一名数据工程师，我采用了一种混合的方法：在职业生涯和个人抱负之间坚持学习原则——实际上我可以在任何技术驱动的行业工作。如果有什么自我安慰的话，我知道我要为我未来的成功和失败负责。

“不要让别人告诉你你成不了才。如果你有梦想，就要捍卫它。当人们做不到一些事情的时候，他们就会对你说你也同样不能。所以你想要什么，就去争取吧。”

原文标题：
The Dynamics of Data Roles & Teams
原文链接：
https://towardsdatascience.com/the-dynamics-of-data-roles-teams-6c450b27e59e

产业数据分析商业智能机器学习聊天机器人计算机视觉语音助手数据科学5G3D打印量子计算ARVR

相关数据

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。中本聪在2008年，于《比特币白皮书》中提出“区块链”概念，并在2009年创立了比特币社会网络，开发出第一个区块，即“创世区块”。

来源：维基百科

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源，如线程、进程或数据流；也可以指硬件资源，如处理器、网络连接或扩展卡。进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态，允许多位用户有效地同时共享系统资源，或达到指定的服务质量。 see planning for more details

来源：维基百科

人工智能技术

在学术研究领域，人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体（intelligent agent）

来源：Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

商业智能技术

商业智能（Business Intelligence，BI），又称商业智慧或商务智能，指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

来源：百度百科

计算机视觉技术

计算机视觉（CV）是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。