Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

数据中台从何而来

DT时代,大数据成为人们谈论的焦点,2019年更被誉为数据中台元年。人人都在谈数据中台,却不是所有人都清楚,从历史逻辑来看,中台或者数据中台从何而来?

少数清楚这段历史的人中,有一位大数据老司机,人称「才院长」,他是回答这一问题的最佳人选。

他叫才言。奇点云首席战略官,9年大数据老司机,「数据交换区」专利操盘手。

9年之前,才言初次踏入阿里巴巴大门。对才言来说,揭示未来趋势是个脚踏实地的研究历程,与其研究复杂的经济结构变化,不如抓住简单而明显的趋势,阿里巴巴是一个趋势,而数据则是下一个。

数据中台从何而来?才言用其亲身经历为我们回答。

01 缘起:作为生产要素的数据

在入职阿里之前,才言是管理咨询公司的一位战略咨询顾问,努力帮其客户理解趋势的同时,也在为自己寻找趋势。他发现,商业世界最不容忽视的一个简单趋势是,企业的数据正在变得越来越多。

才言清晰的记得,「2012年,大数据之所以兴起(的背景在于),有句话反复出现:人类迄今为止生成的数据中,有90%是在近两年内产生的。」

2011年,才言在在阿里研究中心(现阿里研究院),研究电商服务业并且以研究者身份进驻淘宝商家事业部,见证了淘宝数据开放的过程(API每日调用量千万次到百亿次)。

2011-2013 海量数据如何塑造新商业?

进入阿里之后,才言一头扎进了数据的海洋。他第一份工作是利用alibaba.com上的数据来预测中国的进出口。他发现,互联网数据颠覆了传统的宏观经济指标的抽样采集工作,互联网数据的加工可以做出全新的宏观经济变量。

「(在阿里研究中心的)这段经历部分回答了我的疑问:海量数据对商业世界有什么影响?——如果一家公司的数据极为丰富,会发生什么?能够有什么启示?」2009年,阿里研究中心发布网商报告,提出「海量个性化」这一新概念,才言也随之找到了自己的兴趣点,也有了越来越多发现。

因为研究电商服务业,他发现,从 「数据是生产要素」这一命题展开对新兴行业探求的话,数据是有成本的,而且一定程度上成本高昂,跟大家认识到的「数据几乎零成本复制」完全不同。不仅如此,在良好的用户体验这一约束下,数据的采集也有机会成本。从这两点来看,数据是稀缺的。它具备生产要素的特点,会极大影响企业的商业模型。

因为研究电子商务生态系统,他接触到同事们把理论物理的复杂系统分析方法引入到研究中来,第一次看到淘宝数据展现出的「自然分布律」适用于淘宝女装卖家,第一次用「连通性」等理论物理语言重塑产业研究。顿时,他感觉数据极为丰富之后行业研究这个职业都要变天了。

他从品牌商品在网络渠道的实时渠道数据里,第一次观测到品牌商「渠道灰度」:随着时间的延展,商品(某类sku)的价格和数量变动的情况,实时反映了渠道结构与关系。「在线下人们只是感知到这个规律存在,而在数据极其丰富的线上,借助强大的计算平台这些都得以直观展现。」才言说。

才言对数据的认知在改变的同时,他也在思考,阿里的生态可以利用阿里的数据做些什么?

才言当时的本职工作是对淘宝生态业务的跟踪研究,需要思考淘宝开放平台(以及服务市场)的运转机制究竟是什么?应该是什么?需要解释的是,淘宝开放平台即后来为人们所知的共享服务平台(即阿里的业务中台),不光服务淘宝还服务外部,职责是把淘宝的数据开放给淘宝认可的合作方。其中,数据服务的方式是API服务方式。

在做业务的过程中亲手实践了「封装API服务ISV」,才言陆续意识到问题所在:从供给需求的角度,自2010年起经过三年多的数据开放现有的1000多个API覆盖范围极广,但平台供给给市场的数据数量和类型是有限的,导致了交易市场上的ISV的APP供给也是有限的(超过6000多个),使得市场竞争趋于同质化。然而在API封装的过程中,大量的数据、算法因为过严的安全审核无法对外开放,一定要去寻找新的数据服务方式。

2012年阿里巴巴同步「聚石塔」发布而诞生的CDO(数据平台部),极大地刺激了才言。在2013年的淘宝服务商大会上,才言提出了「在CDO的基础上构建新的电商服务业」的想法,并且随后就转岗到了CDO。

2014-2015 A如何用B的数据?

「到岗第一天的会议里,老A讲到淘宝数据还处在自给自足的原始状态。各种光怪陆离的情况层出不穷,」才言回忆起CDO,不禁哈哈大笑:「当时有个实习生刚入职3个月,表的生产总数全淘宝第一。还有个资历非常深的BI因为在公司工作很久,合法积累了很多数据使用权,于是很多团队的算法合作不得不找他,因为他有数据霸权。有了计费计量之后,有个勤奋的员工在宽表里跑一段sql,花掉上百万RMB,太可怕了。更可怕的是他的工作后来经过审计还是合理且必要的。」

这大概就是数据极为丰富之后如何治理的最初状态。

春江水暖鸭先知,阿里巴巴的状况也将预示着数据如果进入有序的提供价值的状态时,商业世界变化极大。当时,CDO团队所共识的大数据理念是「数据从业务中来,回到业务中去」,共同的愿景是解决「A如何用B的数据?」的问题。

才言在CDO做的第一件事就是担任商家数据中心(2015年迁回淘宝后改为品牌数据银行)PM。这一项目首次尝试把商家散落淘宝的所有数据大集中,解决商家在经营决策中的数据工具问题。

在梳理某知名淘品牌的商家数据时,他大吃一惊:商家想要看一份正式的BI报表,但这份BI报表的数据源分散在13个淘宝的部门,而依据阿里集团数据安全规则,谁生产数据谁对数据的使用负责。这些数据存储在不同的数据库、不同类型的数据库,甚至不同的计算集群。在技术上尽管当时CDO做出来了享誉阿里的DXP数据交换平台,但割裂的数据如何通过可信可靠的方式对内对外服务?显然还有很长的路要走。

商家数据中心应该实现什么功能?为了了解商家需求,才言找了大(年收入十亿级别)、中(年收入亿级别)、小(年收入千万级别)三家典型商家进行试验,商家数据中心第一次尝试把淘宝给商家用的数据尽量集中,方便商家加工数据,继而做分析和洞察。这也是淘宝生态里第一个BI工具(数云NewBI)的缘起。

「大数据最终会影响各行各业,要想在这个行业做出点什么,我决定两步走,一是扎实的基本功,尽可能熟悉基础的大数据技术。我花了接近两年的时间,把数据平台CDO最重要的3个引擎——BI引擎、推荐引擎、营销引擎都做了一遍。二是在工程实践的基础上尽可能掌握行业实践。了解多行业多领域就会触类旁通,只呆在其中一个环节导致视野变窄。」他说道,「很幸运,在深入电商4-5年后有机会在阿里这个大平台上从数据的角度接触几乎所有行业,明白了数据平台最重要的框架结构和主要应用场景。」

在挖掘数据的业务价值、推动数据在业务中应用方面,标志性的事件是TCIF(淘宝消费者信息库)——统一拉通阿里的消费者数据,并进行标签化,形成了3000个消费者标签。这些标签在具体的使用过程中,才言接触到了「表级别字段级别的数据开放」、接触到数据交换区在阿里各BU的推进。

「我的小伙伴把友盟等BU的数据上云,对于那些没有上云的BU比如UC,他们如何合理合法合规且安全地使用TCIF以及TCIF延伸出来的数据服务。这是我当时的工作。」对比之前在淘宝开放平台的工作,才言认为,数据安全和数据价值是相对而言的,重要的是数据技术本身在不断演进,以API形式开放的形式是数据开放方式里未来一定不是主流,这也是他从计算广告的实践中获得的认知。

以智能广告为例,整个页面从请求广告、智能推荐、调取广告素材并展现,整个过程就200ms。数据服务是一个高速运转的闭环链路,数据金矿若想被服务商更好地利用,主流不是API开放的方式。

2015-2017 如何让数据产生价值?

2014年的阿里技术论坛上,后来的奇点云创始人兼CEO行在(张金银,TCIF创立者)发表演讲《大连接》,认为大数据的本质就是大连接。「这一点我非常认可。」才言提到:「如何让数据产生价值,第一件事就是数据要连接。有些一些脏活苦活累活必须要干,这是有价值的。」

自2012年7月成立以来,阿里内部各BU在马总「one company」战略下持续推进数据大连接、大集中。

在连接的过程中,数据和业务逐渐实现双赢。以TCIF为例,一方面行在团队通过 TCIF 服务集团内部各业务方,另一方面业务方使用数据服务的过程中,也产生数据回馈CDO的ID mapping服务,使之更强大。从实践出发,行在总结了「数据共建共享」的数据交换理念。

出于对「大连接」和「共建共享」理念的认同,才言参与了行在主导的数据项目——整合阿里上市前后收购的全资子公司之间的数据,进而推动数据交换区。

作为「数据交换区」专利的落地操盘手,才言帮助UC第一个成功使用专利成果,合规地使用阿里巴巴集团的数据。经过半年多的努力,阿里巴巴前20个数据交换区多数都是才言建立,他认为数据交换区是数据平台未来的最高阶应用,「最狂妄的时候我有这样的错觉:没有数据交换区的数据平台都是扯淡」。

「我们发现在数据使用的过程中存在奇点。」才言复盘数据交换这件事的意义时谈到,「先有需求再有供给。业务方是要到知道业务可以数字孪生,业务可以数字化;知道业务提升的瓶颈,感受到痛;他知道他需要什么数据时,数据交换才会发挥价值——这个临界点就是奇点,这个临界点过后AI跑出来的效果才可能超过业务专家。」

那年一个重要变化是,阿里云内部提出了要从DBA到DA(Data Architect,数据架构师),才言转岗成为第一个DA:「真正的DA大多对各类计算平台很熟悉,懂数据架构,知道算法如何工作,且能够深入业务场景。只有这样,他们才能和机器一起在生产率上超过业务专家。」

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
产业数据中台
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

数据仓库技术

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

暂无评论
暂无评论~