这是一个真实的故事,发生在作者所在的公司,本文中的名称、算法地址都已修改以保护利益相关的作者。
A 公司已经成立几十年了。它在行业里虽然不是领头羊,但口碑还不错。自 20 世纪 90 年代起,A 公司的核心业务就一直是风险分析和投资组合优化。他们有一个大约 30 个分析师组成的庞大团队,这些分析师每天都在执行这些任务。他们利用 ERP 大公司(如 SAP、天睿、甲骨文、JD Edwards)或主要技术咨询公司(如德勤、埃森哲、普华永道、凯捷)为其定制的 ERP 方案与公司内部的工程团队合作。
他们所使用的工具非常老派:运行在 on-prem 服务器或主机上的经典关系数据库管理系统、用 COBOL 或 Fortran 编写的代码、像 ABAP 或 SPSS 这样奇怪的东西……你大概明白了吧。但其模型和分析功能相当复杂,而且和已发表的学术文献相比,它惊人地先进。最重要的是,它们非常适合公司的企业生态系统,并且是基于多年深厚的领域知识磨炼出来的。
他们的技术团队有几个工程师(从上述软件和咨询公司挖过来的)和产品经理(使用该软件的有经验的分析师或经理,或从竞争对手那里挖过来的),这些人负责维护和运行该软件。他们的技术可能有点老派,但总的来说,他们非常了解公司和这个领域的整体架构。
他们指导公司进行了几次大规模的升级和迁移,他们总是按时交付,没有过多开销。即使有几次被绊倒了,他们也知道如何快速爬起来。在业内,他们以专业而著称,并且与必须打交道的各路供应商都拥有非常好的关系。他们成就了多个 ERP 咨询人才的职业生涯。
有趣的是,虽然他们每天都在处理统计建模和优化算法,但没有一个分析师、工程师或产品经理自称是数据科学家或机器学习专家。这主要是一种文化现象:他们的专业知识早于 2010 年左右开始的数据科学/机器学习炒作,他们大部分是使用专有的企业工具而不是现在流行的开源工具。他们当中只有少数人接受过正式的统计培训,但大部分人来自工程或领域背景,然后在工作中不断学习统计数据。暂时就把这个团队叫做「X 团队」吧。
大约在 2015 年左右,A 公司开始出现一些严重的焦虑问题:虽然作为这种规模的公司,它仍然做得很好。但由于整体的经济和人口发展趋势,它的客户群正在缩小。一些所谓的搅局者提出了一种新的应用和商业模式,开始严重侵蚀其收入。适当地安抚股东和华尔街是必要的。该公司已经有了一个不错的网站和一个相当有吸引力的应用,此外还要做什么呢?
领导层决定,应该把人工智能和机器学习作为公司的核心业务。一个雄心勃勃的经理,没有理工科背景,仅在几年前短暂地摆弄过推荐系统,被选中来组建数据科学团队,暂且将该团队称为「Y 团队」(他在当地州立大学获得了历史学士学位,并在公司的市场部工作了几年)。
Y 团队主要由内部雇员组成,这些人想成为数据科学家,并且在加入团队之前完成了 Coursera 认证或 Galvanize boot camp。该团队还有几个刚毕业但不喜欢学术界想投入业界的博士或硕士。这些人都很厉害,可以写非常棒的 Medium 博客,发表鼓舞人心的 TED 演讲,但总体来说,他们几乎没有什么行业经验。
和现在流行的做法一样,Y 团队直接向 CEO 和董事会报告数据科学相关工作,绕过首席信息官(CIO)和任何技术或业务副总裁(VP),因为 A 公司想在其即将召开的股东大会上宣称这些是「数据驱动」和「AI 驱动」的。在三四年的时间里,Y 团队制作了一些 Python 和 R 脚本。他们的架构经验几乎完全是将 Flask 连接到 S3 bucket 或 Redshift,其中更聪明一点的会学习如何将其模型插入 Tableau 或如何旋转 Kuberneties pod。
但是他们并不担心:上述组建该团队的经理现在是一名董事(同时还在读在线硕士课程,以弥补资历差距,增加其晋升为 VP 的机会。至少他现在知道 L1 正则化是什么了)。他同时也是一位玩办公室政治和自我推销的大师。不管 Y 团队提出的可行见解有多么少,或者他们部署到生产中的代码是多么一丁点儿,这位经理都支持他们,并且确保他们有充足的资金。事实上,他现在有一个宏伟的计划——建立一个通用的机器学习平台来解决公司所有的数据问题。
Y 团队有一些头脑清醒的成员,在将他们所处行业的名称与「数据科学」一词联合搜索之后,他们意识到贝叶斯模型是风险分析的主要解决方式,而且已经有一个足够完美的 R 语言工具包来处理这样的问题了。他们在 R-Bloggers.com 上研究了相关的教程。这个团队的成员之一甚至在 Kaggle 数据竞赛平台上提交了贝叶斯分类器的内核(在排行榜上排名 203 位),而且正准备将自己新发现的知识用于解决现实世界的问题。
他们将自己的想法告诉主管,后者认为已找到即将推出的机器学习平台的完美应用方向。他们立即开始了工作,完全没有查看 A 公司是否有人已经在做风险分析。由于他们的组织是独立的,所以在接收资金之前他们完全无需与他人核对这些问题。尽管他们所做的仅仅是一个纯贝叶斯分类器,「机器学习」字眼被加在了工程项目的名称上,用来打动董事会。
但是,随着工作的进展,紧张气氛开始出现。Y 团队要求数据仓库和 CA 分析团队创建管道,最终这个项目传到了 X 团队的耳中。X 团队刚开始很兴奋:表示愿意全心全意与 Y 团队合作,并且很想在运作过程中添加机器学习这个助力。产品负责人和分析师也完全参与其中:他们看到了炒作整个数据科学的机会。但是由于傲慢的态度和不安全感,Y 团队拒绝与 X 团队合作或者与 X 团队分享自身的长期目标,即使他们去了公司其他部门,并就自身创建的新模型进行 brown 包演示和教程展示。
X 团队生气了:从他们对 Y 团队的模型观察来看,他们的方法天真得无可救药,并且几乎没有扩大生产规模和实现可持续性的可能,他们知道如何为 Y 团队提供帮助。考虑到 Y 团队对 DevOps 的熟悉程度和持续交付(Y 团队耗费几个月的时间搞清楚了如何将一个简单的 R 脚本部署到产品中),将该模型部署到产品中需要花费几天时间。
尽管 X 团队自己的技术已经过时了,但他们依然足够聪明,能够将这些技术嵌入到现有架构中。此外,该模型的输出并没有考虑到公司如何使用它或者如何将它传达至下游系统,并且产品负责人可能也需要花费大量精力使该模型更易于被利益相关者采纳。但是,Y 团队并没有听取建议,他们的领导拒绝了任何沟通尝试,更不用说合作了。
Y 团队释放出来的信号是「我们是最前沿的 ML 团队,你们的观点都太过时了。我们不需要你们的建议」,并且他们似乎完全忽视领域知识,或者更糟的是,他们认为所有的领域知识只需要掌握一些商业指标的定义就行了。
X 团队感到非常沮丧,并试图将自己的担忧传达给领导层。但尽管 X 团队掌握着 A 公司业务流程中的重要一环,但他们只是一个 50 人团队,这在一个有 1000 名员工的科技与运营大公司里显得微不足道。此外,他们与最高管理层之间也隔了好几环,因此管理层几乎不可能听到他们的建议。
与此同时,这位势不可挡的主管做了他最擅长的事情:玩弄公司政治。虽然自己团队实际交付的东西很少,但他已经说服了董事会,所有的分析和优化任务现在都应该迁移到他尚未交付的 ML 平台上。
由于多数领导现在已经知道 Y 团队和 X 团队目标存在重叠,他的游说词不再是 Y 团队将要创造一个新理念,而是他们将要取代(或者现代化)基于 on-prem 工具的传统统计和基于云的 ML 工具。尽管没有学术文献支持朴素贝叶斯比 X 团队所使用的计量经济方法更有效的观点,更不用说贝叶斯优化(Bayesian Optimization)肯定优于生产中运行的 QP 求解器的古怪想法了。
X 团队不知道的是,原始贝叶斯风险分析项目现在已经发展为一项耗资数百万美元的重大改革计划,其中包括最终取代该团队所支持的所有工具和功能以及必要的云迁移。CIO 和几位 VP 现在都已上任,并且技术领导认为事情已经木已成舟。
由于 Y 团队没有工程技能,因此一家外部供应商——一家没人听说过的创业公司被签约帮助构建这个平台。这个选择是慎重的,因为要求任何已有的咨询或软件公司做这件事的话,最终只会让领导层得出 X 团队在转型上要比 Y 团队做得好的结论。
相比之下,Y 团队没有重要 ERP 部署经验,也没有领域内的知识,但他们的任务却是从根本上改变 A 公司核心业务的工作流程。他们的模型实际上要比 X 团队部署的模型差,对于真实的生产环境来说,他们的架构过于简单。
具有讽刺意味的是,所有迹象表明,Y 团队使用贝叶斯方法获得成功的概率接近于零。
最好的情况下这个项目最终会在消耗掉 5000 万或更多美元的情况下被砍掉。一旦此产品惹恼了粉丝,一批高管就会离职,而很多员工也要被开。
而在最糟糕的情况下——鉴于风险分析和投资组合优化对于 A 公司的收入举足轻重,这一失败最终可能会让整个公司陷入困境。它可能不会破产,但会失去大部分业务和员工。失败的 ERP 应用可以让大公司陷入困境,看看 National Grid US、SuperValu 的衰败和塔吉特败走加拿大就知道了。
可能有人会说,A 公司的问题主要在于企业运转和糟糕的运营思路,而不是数据科学与 AI。
但我并不同意,我认为这次崩溃的核心原因确实来自于对数据科学、机器学习模型与 AI 未来的盲目崇信,同时也包括机器学习群体目前非常普遍的炒作和自我推销文化。
现在,这个故事还没有结束:我真诚地希望它能有一个好的结局。A 公司是一个好公司,其员工和客户都应该获得更好的结局,但看看现在的情况,一切出现转机的可能微乎其微,而这种失败将严重地打击该公司。
参考内容:
https://www.reddit.com/r/MachineLearning/comments/beoxx8/discussion_when_ml_and_data_science_are_the_death/