过去一年,关于人工智能的事件、发现和发展比比皆是。很难从这些嘈杂的环境里分辨出关于 AI 的真实信号,即便可以,很多人也不知道那些信号表达的是什么信息。因此,我将尽力提炼过去一年里人工智能大环境中的一些模式来让你明确这一点。甚至,我们会在不久的将来见证其中的一些趋势。
孔子曾说:「知其不可而为之。」他真是个智者啊。
别误会,本文只是一片评论类文章。我不会全面记录 AI 2018 年的成就,只是概括其中一些趋势。而且我的描述是围绕美国展开的,因为我不太了解其他国家发生的事,比如中国。本文的目标读者包括工程师、企业家以及技术支持者。
算法
算法篇主要由深度神经网络主导。当然,你也会零零落落地听到有人部署了「经典的」机器学习模型(如梯度提升树或者多臂老虎机),并且声称这是每个人唯一需要的东西。也有一些质疑说深度学习正在做濒死挣扎。甚至还有顶尖的研究者也在质疑一些深度神经网络架构的有效性和鲁棒性。但是,无论你喜不喜欢,深度神经网络无处不在:在自动驾驶中,自然语言处理系统中,机器人中——你可以这么说。深度神经网络中没有能够与自然语言处理、生成对抗网络以及深度强化学习匹敌的进展。
深度 NLP:BERT 等
虽然在 2018 年之前就有一些突破性研究将深度神经网络用于文本(如 word2vec,GLOVE 和基于LSTM 的模型),但它们忽略了一个关键的概念:迁移学习。即在大规模的公开数据集上训练好一个模型,然后在你正在使用的数据集上对其进行「微调」。在计算机视觉中,用著名的 ImageNet 数据集上发现的模式来解决特定问题通常是解决方案的一部分。
问题在于,用于迁移学习的技术并不真正适用于自然语言处理问题。从某种意义上讲,像 word2vec 这样预训练的嵌入就起了这个作用,但是它们只在单个词汇上起作用,并不能捕获到语言的高级结构。
然而,在 2018 年,情况有所改变。语境化嵌入 ELMo 成为了自然语言处理中改进迁移学习的重要第一步。ULMFiT 则更进一步:不满意嵌入的语义捕获能力,它的作者提出了为整个模型进行迁移学习的方法。
但是最有趣的进展肯定是 BERT 的引入。通过让语言模型从英文维基百科的所有文章集合中学习,BERT 团队在 11 项自然语言处理任务中达到了当前最先进的结果——了不起!而且,BERT 的代码和预训练模型都发布在网上了——所以你可以将这项突破用于自己的问题中。