伴随着互联网时代而来的,是铺天盖地的数据。风口之上,行业内的大数据公司不断沉沦起伏,都想杀出一条血路。
创业七年时间,在国内大数据公司 TalkingData CEO 崔晓波的眼中,领域内的厮杀已经异常残酷。「这已经不是小公司的游戏了,而是一场大公司间的绞杀,甚至是一种赢者通吃的局面。」
而在这样的大环境之下,TalkingData 发展迅猛,不仅服务于 12 万款移动应用与 10 万多应用开发者,还深入多个垂直行业,并且迈过了 C 轮融资,估值接近 60 亿元,步入行业独角兽行列。
「其实我们从创业至今也并没有在某一个时刻把落点看清楚,而是不断往前去尝试而已。」
初探行业壁垒
从最初的学生生涯到之后的外企经历,再到 2011 年创立 TalkingData,你在不同阶段对「数据」一词的认知产生了怎样的变化?
这是一个角度特别的好问题,这里面有一个规律是「越早越接近本质」。
举例来说,我在 1993 年进入南开大学学习信息管理,是与计算机相关的专业。其实在那个时候,计算机电脑处于早期发展阶段,并没有数据这个概念,让我们有机会见证奇迹。
以往,人们做记录是把文字内容写在纸上或者笔记本里,信息分享要通过抄写。后来出现了 Word 这类自处理软件,分享只需拷贝文件就行了。现在看来这是一件特别平常的事,但在当时却是一个跨时代的转变。所以我认为最早跟数据相关的概念首先是存储,存储的东西是什么?是文件。
那为什么说越早越接近事物的本质呢?
念书的时候我们开始研究计算机的操作系统,眼中看到的不是文件,而是二进制。人们可能很难理解数据存储是什么,因为数据就是这样一个抽象的表达形式。
我毕业参加工作之后,一个最重要的变化就是出现了数据库,也真正有了数据的概念。那时候存在数据库里的东西才叫数据。最早的数据库都是关系型数据库,这是一个伟大的发明。关系型数据库是数据发展的第二个阶段。
在这之后,人们发现单纯把数据存储下来是不够的。所以第三个阶段就是 BI(商业智能),从数据角度来说的另一个表述形式就是数据仓库。数据仓库并不只是存取数据,更关心的是数据对商业的价值。因此那时针对数据仓库出现了数据挖掘技术。
到了互联网时代,「数据」的概念又进化了,出现了「大数据」的概念,只有互联网的数据,不管是在维度、体量还是价值上才称得上是大数据。无论是从亲历者还是观察者角度出发,这个领域的发展历程可以总结为四个阶段:文件、数据库、数据仓库、大数据。
身处数据概念发展变迁的过程中,是什么契机促使你决定创业建立 TalkingData 这样一家公司?
我在以前的工作经历中做了许多数据分析和数据挖掘的相关工作。我慢慢意识到,从业务角度出发,传统的数据库公司遇到了很多瓶颈。
那时做的数据库叫集群系统,但即使是当时世界上最大的一个集群节点,在支持到几亿用户的时候,就已经到上限,不可能再突破了。可以发现,当数据量剧增,传统的数据库和数据仓库技术便很难支撑了。
所以从技术的发展来看,我们认为必然会有一波新的技术浪潮涌现,取代这种集中化的数据管理技术。在这之后,开源社区出现了 Hadoop 这样的分布式文件存储基础架构,它们的核心思想不再是把数据集中进行处理,而是用无数分布式的小单元分开去存储、计算数据。
再就是从数据源的角度去看问题。企业数据的类型都是静态的,并且类型非常有限。而在互联网时代,大量全新的数据类型不断出现,包括用户的点击、浏览历史、购买记录等行为数据。这些行为数据带来潜在的商业价值,需要用新的技术挖掘这些新的行为数据。这是一个很大的趋势。
而之后的移动互联网对于我们来说才是一个巨大的机会。
智能手机是一个可以随身携带的设备,人类历史上第一次出现了一种类似于人体器官、走到哪跟到哪的设备,这种设备可以时时刻刻忠实地记录人们的线上行为以及线下位置等。我们意识到,移动互联网的时代会让数据的体量、维度、价值呈指数级爆发,这就是我们创立 TalkingData 的最大契机。
在看到智能手机将成为未来数据发展的关键点之后,你做了什么事情?
2009 年,我加入了一家做手机应用的创业公司。在那段时间中,我们注意到手机的功能在不断变化,而且迭代速度特别快。从一开始只有打电话、发短信这样的功能,到后来各色应用的出现,覆盖衣食住行,涉及的数据也越来越多。
与此同时,随着海量的 APP 诞生,开发者这个群体开始出现。开发者需要数据库,但由于他们一般都是创业公司或者小团队,可能没有能力开发成熟的数据平台,就需要找到第三方来提供这方面的服务,这也是我们的机会。
那么在决定创业之后,TalkingData 最初锁定的商业模式是什么,之后是否经历过调整?
其实在创业七年的过程中我们一直都是在探索,并没有在某一个时刻把落点看清楚了,而是不断往前去尝试而已。
最早我们给开发者提供 SaaS 服务,开发者可以将数据传到我们的平台上,之后我们对数据进行各种标准化、清洗以及处理计算,进而形成数据指标,再形成数据报表系统。
但在中国做 SaaS 服务非常难。大企业不愿意把数据放在一个移动化平台上面,而是更倾向于自己管理;小微企业愿意为 SaaS 服务买单,但小微企业存活率非常低,要不断的寻找新客户,获客成本非常高。
第二个阶段,我们做的更多的是 On-Premise 模式,就是为企业客户提供软件平台。这种模式的最大弊端在于大客户的定制化程度高,项目压力大,也很难盈利。
其实可以发现,这两种服务模式的最大问题是都没有核心的壁垒。行业竞争逐渐加剧,盈利不断降低,那这样的业务模式就跑不通了。
我们就开始反思,为什么二十年前这样的模式曾经可行,现在却不行了呢?其实一句话就可以说明白:那个时代过去了。
现在软件已经不是一种稀缺资源,而是进入一个供给充足的时代了。
那核心的东西是什么?这是一个数据时代,最核心的东西是数据,最稀缺的也是数据。需要的是一个以数据为核心的整合能力。只有基于数据构建能力,同时拥有高质量的软件系统以及专业的服务团队,才能赢得客户,这是我们所选择的模式。
建立数据中台
反思过后,公司的技术策略和路径开始走向何处?
2013 年左右,我们开始进入金融领域,客户包括国有银行、股份制银行、券商等。那时我们在垂直行业的扩张进程非常快,除了金融,我们还进入了零售、地产、快销、航旅等,可以说是势如破竹。
但业务冲得很快的同时,问题也来了。我们遇到了瓶颈,首先是产能不足、效率不够高,第二是高附加值的数据服务不太多。我觉得这样的模式对公司来说竞争力不太稳,容易变成传统的以人力为核心的公司。
所以经过反思,到 2016 年我们就开始收敛,最大变化就是将原本分散在各个业务单元里的研发和产品人员集中起来,服务我们的「数据中台」。目前,这个团队的人员占公司整体员工数的近一半。
我们有两个数据科学团队,一个是领域数据科学团队,他们帮助行业客户构建所谓的算法模型甚至数据科学工具;另一个则是做数据中台的数据科学团队,他们注重的是提高数据质量、实现算法纠偏、提升预测模型准确率等工作。
能否展开讲讲这个数据中台?
这个数据平台的核心就是起两个作用。
第一是聚合所有的数据。不仅要对开放的数据源做进一步技术处理,也要与许多数据源合作伙伴展开深度合作。这样一来,才能打通数据,将数据关联在一起,并且提供统一的建模环境,进而给上层的模型开发商和数据应用开发商使用。
第二是要提供大量共享的数据服务和工具,例如人群画像、标签管理等服务,还有建模、报表等工具。
其实数据中台的概念更多是由「共享」推动而产生的。既然行业对数据、数据服务、数据工具有着同样的需求,而我们在服务行业客户时的很多数据、工具、能力也是相通的,那不如就打造一个共享的平台。
数据中台是为上层提供能力的。它上面有两层,第一层是数据应用,或者说是数据模型,再往上一层叫解决方案。
根据我们的判断,眼下尚处于大数据变现的早期阶段,所以大量客户比较认可的价值还是属于数据应用和解决方案。而在未来,随着大数据领域不断向前发展,对数据平台、数据服务的认可和相应的营收都会提升。
为了实现这一点,我们会采取哪些措施?
赋能。
我们现在会开放我们的建模环境,把很多聚合好的数据能力开放给上层的数据建模合作伙伴,在更丰富的场景下进行数据挖掘。相比之下,他们更懂业务,也有更多的应用场景,能够帮我们把底层的数据服务和数据标签提炼好,然后再开放出去。
升级合作模式
所以在 TalkingData 的众多数据服务产品线中,想最早打开局面的那盘棋是什么?
这也是个好问题,很多人也问,到底应该怎么做。我们公司采用的方式是先做解决方案。
每当我们进入一个领域的时候,第一个 KA(Key Account,关键客户)一般我们都不会考核盈利,而是先找出一些产出标准化数据产品的机会。
国内外有没有哪些公司在跟我们走一样的路?
其实大数据领域有很多公司的商业模型都是有点像的,但与我们 TalkingData 不太像。对我们来说,核心壁垒在于数据中台形成业务闭环,并与上层的合作伙伴实现共赢。我们的业务模型是往这方面走的,不是单纯的提供服务或者工具。
去年开始,TalkingData 对合作模式了调整,开始倾向于与 KA(关键客户)达成成效合作。可否介绍一下?
我们发现成效合作是一种更为先进的合作形态。如果合作没有出效果,客户为什么持续性投入?
例如我们与一家零售企业合作。他们的诉求比较简单,公司的线上业务收入比较低,销售主要靠线下门店。他们与我们合作线上业务,如果能产生成效就与我们按销售额分成。
其实成效合作对几个方面的能力有较强要求。
第一是不仅要为客户提供平台,还要提供运营团队。一般客户的运营和数据分析的能力相对一般,我们会派团队进去帮他们把最基本的运营体系建立起来,包括如何利用数据锁定目标人群、利用数据策划活动、利用数据鉴定模型等。然后再在每次活动后看效果,包括获客成本是否降低、个体收益是否提升,也要看客户生命周期价值。
另一方面,还要具备自动化流程的能力。刚进入一个领域时,会发现有特别多的环节都需要人来决策,而我们的的算法和模型团队会让固化的模型去替代人做决策,这不仅是人力成本的降低,也是效率的提升。
例如,我们有一个客户在发起营销活动时,以前相同的配置只能做 50 个活动,但现在能做 500 个活动,这种效率提升也是一种收益。
锁定行业领域
目前看来,TalkingData 聚焦的金融、零售、营销、智慧城市等都是数据流动性强、相对高频的领域。在你眼中,具备哪些特质的行业应用,可以让其数据价值和潜力可以最大程度地发挥?这中间经历了怎样的取舍与渐进?
其实我们更重视的是数据能不能形成产品和模型。
例如,零售领域中有大量做算法应用的场景。以选址为例:以前的选址是完全基于人工的选址,但现在基于算法可以比人更高效、更精准,还可以做预测。此外,还可以通过模型来整合运营、电控、销售等数据,这样一个简单的场景所形成的闭环也非常具备价值。
金融领域也是一样。反欺诈模型可能很成熟了,但在营销模型、贷后模型上还有很大的发展空间,这也是形成数据产品的机会。
在政府方面也是如此。我们与统计局、旅游局合作开发人口模型,后面有很多种数据源,要做很多次模型的校准和比对。一旦模型形成,会发现模型有很多可以开放共享的部分,它会沉淀到我们的数据中台里,在其他应用场景中发挥作用。
总而言之,我们重视的是将利用数据形成的智能沉淀下来。
公司是否对其他领域有所布局?
第一是医疗领域。虽然目前发展相对较慢,但是这是有潜力的领域,我们也做了一些投资。
其次是制造业,我们也在与制造业的头部企业沟通合作,考虑能否在工业生产线中做出标准化、规模化的产品。
还有,我们很关心如何搭建一条中美之间的桥梁。
中国有非常好的应用,有实际待解决的问题,也有与这些问题相关的数据,但缺乏相关技术和有经验的数据科学家。而美国有非常好的数据科学人才,有很多行业应用经验的知识储备。那么如何构建平台来沟通二者呢?我们想做一个平台让全球的科学家帮我们解决问题。
2018 年已经过去一半,对于公司来说,这期间最重要的一个改变或关键词是什么?
数据产品。
以前我们的数据并没有形成产品,这半年我们做一件事,就是数据产品化,不管是数据服务还是数据模型,都是往产品方面做。
公司的下一个阶段最核心的发展关键是什么?
发展合作伙伴。我们的中台能力已经具备了,也聚合了各种数据源、发布了一些数据应用。希望发展更多的数据合作伙伴,把上层的应用场景做大。
回顾来时之路
那么回顾 TalkingData 这一路走来,公司经历过的最大阻碍是什么?如何解决的?
首先我个人的经历比较特殊。我在外企工作的 8 年时间里,是从前端的售前逐步走向了后端的研发,而不是常见的从后端到前端。
从创业者的角度来看,每年都得给自己升个级。其实刚创业的时候,我满脑子都是技术。技术架构怎么搭?用哪些开源组件?用哪个框架、数据库解决问题?……开始的两年想的就是这些。
但是后来会发现,除了技术之外,产品也很重要。用户体验怎样?市场定位准不准?与竞品的竞合策略?如何实现差异化?……这些问题开始变得很重要。
再之后,技术、产品差不多了,会发现销售和市场能力又变得很重要,公司品牌也得提升。
再后来资本能力、政府关系等方面的重要性也体现出来。
总结下来,创业企业每年都得升级,这也是在中国创业和在美国创业的不同之处。如果一次升级被卡住了,这家公司就卡住了。所以有的创业公司规模过不了 100 人,有的过不了 200 人,有的到不了 500 人,随着规模的上升,管理能力也要上升,这都得学习。
所在你看来,大数据智能分析领域的最大技术门槛在哪里?在数据行业,业务突破上的核心要素到底是什么?TalkingData 的竞争力又在哪里?
布局能力还是很重要的,我们一直在尝试着比别人看得更远一点。
很多创业者看得比较近,更多是看半年、一年内的事情。也有很多 toB 的公司把目光更多放在盈利上。这样么做的问题在哪?短期可能没问题,但长期来看公司的产品能力和平台能力并没有得到提升。
TalkingData 的特点在于,第一我们尝试着平衡短期和中期的目标,这也意味着我们比较自信的。很多公司只看短期是因为想着活过今年就行,所以还想那么远干嘛。而我们是一定能活下去的,所以一定要考虑明年、后年的事情。
这也使得我们在研发上投入非常大。我们认为,未来的核心壁垒在技术、算法、数据模型上面,所以我们会持续投入在这些方面,把壁垒建立起来。
那么数据呢?你们提供数据相关的服务,能够真正沉淀和掌握一些数据吗?手里拿到一些数据,对大数据公司来说是不是重要的事?
重要,也不重要。我们观察到一个很有意思的情况,数据应用、数据模型做的好的都是没数据的公司,基本都是这样一个情况。
如果有数据,会过于依赖数据。如果没有数据,可能会聚合很多数据源做交叉验证和模型测试,反而让模型效果更好。
是不是说拥有数据的公司才能把上面的平台、应用做好?回答是一定是,但现在不是。
短期内没有数据的公司不一定没有机会。因为他们可以把应用做出来,然后通过业务闭环收集各种数据,再从没有数据的公司慢慢变成有数据的公司。
而现在拥有数据也不能代表什么,未来还是要看数据能不能形成闭环,从而流动起来。单方面消耗数据毫无用处,只有把数据加工成数据服务和模型再应用,将应用反馈返回数据和模型,然后再使用经反馈优化后面的数据,这样才能形成闭环。千锤百炼之后的数据模型更准确,这也是我们公司的重要壁垒之一。
现在很多人在谈数据智能,因为数据是人工智能的一条生命线。所以人工智能对于大数据行业意味着什么?你怎么看接下来大数据行业的走向?
我认为,大家对人工智能的理解还处于感性认知阶段,常见的智能音箱、自动驾驶等并不是真正的人工智能。真正的人工智能,是能够帮人做决策。
但企业级应用里,人工智能已经开始做决策了。例如通过模型评分决定店铺选址、通过模型评分决定贷款发放。这是我们理解的基于数据做智能,但还没有到 toC 应用的程度。
去年在乌镇,我也与 DeepMind 创始人 Demis Hassabis 聊过这个问题。可以发现,他们对人工智能的看法与前两年相比发生了巨大的变化。之前谷歌认为人工智能是会改变世界的,但去年我问他,你们的 AI 策略是什么?他的回答是,这首先是一个 toB 的服务,会更多地把人工智能能力放在 Google Cloud 上作为服务提供给企业。而短期内 toC 并不会因人工智能而发生颠覆性的改变,除了下棋。
这与我们的看法是一致的,目前阶段,数据智能还是帮助企业做决策,而且要在这件事情上做透