人工智能(AI)的血统可以回溯到许多伟大的计算机理论家:图灵,以及Babbage——计算机器的发明者。我们如今在伦敦所看到的领先的团队,例如正致力于机器学习的DeepMind,正是从计算机科学到实践和商业应用的运动浪潮的一部分。
不仅仅是去年收购DeepMind的谷歌,还是拥有50人AI实验室的Facebook,都看到了这样的潜力。在最近的大潮中,几乎有六分之一的YC公司正在试行机器学习,而IBM则为Watson——风险估测超级计算机——的成功押下了数亿美元。
有上千个公司正在利用基础设施来操控或洞察大数据。他们正基于对可编程数字化数据的分析来进行预测、推荐或执行任务。
我想在此来共享一些尝试建立商业AI应用的创业者们需要面对的挑战,以及一些公司是如何试着克服这些挑战的。选择、完善与结合他们的算法仅仅是成功创业者们深思熟虑的策略中的一小部分。其他重要的因素还包括:
- 为特殊数据建立私有连接可以为基础数据训练集建立基本。
- 对直觉的产生有着清晰的认知,以及可以从数据中收集意义或估测需要人工分类数据的捆绑软件。
- 如果可能,建立一个数据模型,适应新出现的数据源。
- 一个训练有素的团队可以写出或改写公用算法,为了目标选择正确的算法,并结合算法优化结果。
几年前,任何类型的数据分析都会被贴上“数据科学”的标签。今天,AI也作为一个标签广为采用,有些时候甚至文不对题。因此,首先要考虑什么可以被叫做AI。
现在的商业化应用是AI“狭窄”或“虚弱”形式。这意味着机器只专于某一个方面,并不能像人类(最常见的AI)一样类比推广。狭窄的AI是基于最熟悉的技术,并第一次用于商业化。而真正的AI可以很快地成为一个为人了解的数据科学技术。
一个很接近的方法便是“深度学习”,数据输入在此并不被预先描述。反之,模式首先了解数据(以及数据结构),然后,利用多层非线性反馈,学习数据的重要特性,甚至自我修改。
这种技术已经出现了20多年,但它的数据集中模式需要相应计算能力的广泛接入,后者到最近才得以实现。伦敦的创业团队Improbable是利用大型计算能力与深度学习来模拟复杂环境——从开源游戏世界到真正城市——最令人激动的实例。
但许多我们遇见的企业仍然想要将机械学习(ML)结合到他们的技术中。对于这些企业的大部分来说,当我们挖掘表面之下的时候,ML并不是一个产品真正重要的部分。在很多的例子中,它只是一个让项目看起来非常高端的导向牌。在另外一些情况下,即使它是真的,那也只是一个入场筹码,并不会为竞争者提供技术上的阻碍。但它也有好的一面,它可以让企业为客户提供与日俱增的精确度与有效率的服务。
例如,一些企业会使用商业代码,后者由许多大量的开源资料库。一个有趣的开源项目,提供分布式流与批量数据处理的Apache Flink联合了许多公开ML算法的资料库,将数据集的规模扩大。
亚马逊在四月发布了一个机械学习的服务,像MetaMind一样的企业计划将AI作为服务提供给开发者,这是已经人满为患的预测分析的市场的扩展。因此现实是,大部分的著名算法与AI学习技术将会很快地商品化。
由此,公司利用狭窄的AI制作产品需要谨而慎之,仔细思考该如何建立并提升他们的产品或者服务。
护城河:训练数据
训练数据是建立狭窄AI基本的产品的核心。企业需要找到结构数据源来帮助建立可能的最佳模型。这种情况下,最佳意味着数据集足够大以用来学习,并且足够多样以帮助大量客户,而不是仅仅一个客户,而机器可以利用结果来紧密地提升自己的处理以及决策。
机器学习理论提出,有了无限的数据,我们可以拥有所有的算法来生产相似质量的结果。因此如果企业对特殊数据有了私人接入口,他们会坚持商品化,并通过持续学习如何基于终端客户的互动来提升算法,以此加强自己的领先位置。最著名的例子就是谷歌利用点击流数据作为私人训练数据源,进化搜索排序结果。
当我们以前这样尝试的时候,公司们有时候会将收益增长与价值创造相混淆。选择基于简单可得的数据集来短期收益的项目就不可能会获得一个不同的,有价值的应用。
举例来说,Digital Genius是伦敦与纽约的一个企业,研究自动化客户服务对话。创始人在早些年自力更生,虽然这样的方式令人钦佩,但初始的技术与商业选择却是不可扩展的。它的第一代技术版本非常灵活,但需要高度定制。另外,它最开始的需求是市场服务中的低价值的应用,这样的结合并不能吸引那时的风投者。
然而,公司仍然找到了它的方向。这个团队首先为了不同文本的AI应用,创造了一个可以重复利用的平台,并从工具箱开始。其次,它找到了自动化文本交流中高价值的核心。重要的是,算法基于(和其他数据库一起)对大量实时呼叫中心文本的分析,因此可以获得可复制的产品,并作为大型生意的基本。
从 数据集中获取洞察与意义的技术驱动处理
获取有用的数据集是唯一的开始:系统需要从数据中采集元数据,并以其作为输入来提升机器的准确度。
我们发现最好的AI为主的企业们以提升算法的生产力、精炼能力和准确度。它需要大量迭代与时间——还有数据——来做到。
举例来说,Unbabel是里斯本与洛杉矶的企业,以增强翻译为核心任务。它必须要创造一个可延展的方法为译者来注释、修改并否决机器的翻译。这种Unbabel的翻译者所使用的工作流软件可以评估翻译的准确度,并且令人震惊的细致。不是简单的是/否/也许的判断,而是15到20个估测准确的方法可以为译者使用,提供了许多替代品。准确度还包括了品牌对于Unbabel商业客户的适合度。机器会利用这些反馈来自我进化。
这是个智能化且有效执行的模型提升的方法。它解决了质量与规模的难题,而不仅仅是效率,并承认这个机器还在进步之中,并不能满足翻译任务的彻底自动化。
训练数据与机器准确度的迭代组合数据许多企业进行研发的核心。
如何让它总是有效?
很对阵对于AI应用的评论让创造它们听起来很简单易懂,但实际上只有AI自身是不够的。和许多眼花缭乱的软件一起,企业们在利用AI时需要多个平台上竞争,并让产品和服务更易上手。
即使选择了正确的算法,识别了有用的数据集,有了能够提升的处理方法,规模机械学习(ML)也足够坚实,企业们还是经常只处于起点的位置。许多挑战(并且常常是值得风险投资基金资助的)需要在不同前沿方向的创新。即使是对于那些方向十分狭窄的企业们,工程上的挑战也依旧是多维度的。
IT公司Moogsoft就是个很好的例子(透露下,我就是一个天使投资人)。Phil Tee是Moog的创始人与执行总裁,他已经创立过五次公司,作为Micromuse的创始首席技术官主管网络运营。他的目标是解决如何处理上百万不同事件数据点,并让IT运作通过全栈来评估。
他意识到他需要建立一种机器,没有模型,并让运行中的新数据源有效。这需要技术印章来建立相关的算法,共同来处理未标记的数据。Phil继而进一步通过预测错误来打破附加地——同时在规模上实时调整机器的处理工作。
团队还需要对企业利用案例有所理解,让软件在处理与故障排除、为受到影响的机构提供透明化。这样的结合不是一件小事。
AI许多让我们感到兴奋的潜在应用——例如自动生成代码、QA或优化平台、金融供应链中的自动风险与借贷决策、自动化法律文件与合约分析、或自动化视觉评价如健康检查或保险条约调整——许多都属于企业管理的范畴之内,以及无法直接解决的工程挑战。
如何组建正确的团队?
组建正确的团队是一个挑战。从世界上最优秀的计算机语言学、机械学习与数据科学专业毕业的研究生都无法满足要求。谷歌与Facebook以引起争议的撒网式方法挑选雇员,并同时提供给他们大量的资源来解释广义或狭窄AI的难题。这些雇员的薪水是小型企业难以提供的,后者不得不转而向全球范围招揽领域内最佳的队员。
最重要的是,企业必须给雇员们最刺激的问题,这样才能吸引世界水平的团队。至少,像我们所展示的,有价值的问题很有可能就是困难的问题。仅仅是足够的薪水还不足以满足这些最杰出的人。一旦ML团队组建完成,如同Moog一样,还需要更广泛的技能来让机器成为一个具有商业利益的产品。
AI,预测分析与数据科学所驱动的企业会在规模上逐渐增长,并愈发重要。而引导它们的建立也并不是一蹴而就的事情。
如果你正在这个领域内一个有着远大志向的项目里工作,意识到它的独一无二,具有专有的训练数据,拥有了可以资本化数据所得视角的产品与商业模式,并且还有一个强大的团队来通往市场,请和我联系,我们想了解更多。
来自techcrunch,作者Mike Chalfen,机器之心翻译出品。翻译:Chen Xiaoqing。