Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

戴音培、李永彬专栏

首次利用半监督注入知识,达摩院推出新型预训练对话模型,取得显著提升

如何将人类先验知识低成本融入到预训练模型中一直是个难题。达摩院对话智能团队提出了一种基于半监督预训练的新训练范式,通过半监督的方式将对话领域的少量有标数据和海量无标数据一起进行预训练,将标注数据中蕴含的知识注入到预训练模型中去,新提出的半监督预训练对话模型(Semi-Supervised Pre-trAined Conversation ModEl)SPACE 1.0 版本在剑桥 MultiWOZ2.0,亚马逊 MultiWOZ2.1 等经典对话数据集上取得了 5%+ 显著效果提升。

随着深度学习的迅猛发展,学术界每年都会有许多高质量标注数据集被公开,如文本分类、情感分析等等,同时工业界也会积累沉淀面向任务的各类标注数据,怎样将储存在标注数据中的特定任务知识注入到预训练模型中,从而带来该类任务的普遍效果提升,就成为一个重要的研究方向

本文从将预训练模型的两大经典范式简介开始,围绕预训练语言模型学到哪些知识、如何向预训练模型注入知识展开,然后重点介绍预训练对话模型及达摩院对话智能团队在半监督预训练对话模型方面的进展,最后对未来研究方向作出展望。

1. 预训练语言模型的两大范式

1.1. 有监督预训练

神经网络模型的预训练一直是深度学习中备受关注的问题。最早的研究可追溯到 Hinton 教授在 2006 年提出的一种基于受限玻尔兹曼机优化的贪心算法 [2],该方法利用无标数据针对深度信度网络(Deep Belief Nets, DBN)进行一层层地初始化,从而能够保证较深的网络在下游任务上也能快速收敛。随着大数据的兴起和算力的提升,人们逐渐发现直接在具有高度相关性的大型有标数据集上进行有监督预训练,然后再某个特定下游任务进行迁移学习能够带来更强的表现,比较常见的工作是利用 VGG,ResNet 等超深模型在 ImageNet 上进行预训练,将有关图像分类的专家标注的大量经验知识注入到模型的参数中,从而在目标追踪、图片分割等其他相关任务上进行更好地适应学习。

1.2. 自监督预训练

近一两年里,随着预训练语言模型的兴起,利用自监督的方式在无标数据上针对鉴别式模型构造有监督损失函数进行超大规模的自监督预训练成为了新的主流,例如在自然语言处理领域中,BERT 使用基于上下文的词 token 预测可以训练出很好的自然语言表征,在大量 NLP 任务上都得到了效果验证 [3];而在计算机视觉领域中,近期以 ViT [4] 为基础的一系列工作,也利用了类似 BERT 的 transformer 结构进行图片 patch 重建的预训练,从而习得良好的图片表征,并在 imagenet-1K 等图片分类数据集上取得显著提升。

清华研究者们在综述 [5] 中从迁移学习的角度来统一审视了目前已有的两大预训练范式,如下图 1 所示,无论是有监督预训练还是自监督预训练,归根结底都是直接从数据中学出更加合理的分布式表示,从而能够更好地迁移适配到具体的下游任务。

图 1:神经网络预训练两大范式(改自综述 [5])

总结来看,两种范式各有自己的优劣点:有监督预训练因为存在有标数据进行指导,所学出的特征对某些相关下游任务更加适配,但是却严重依赖人工标注;自监督预训练可不再受到人工标注的局限,利用海量无标数据进行学习,但所设计的损失函数一般都需要简单通用,例如 LM loss, MLM loss 和 contrastive loss 等,这就使得大模型学习到的更多是普适的语义表示。

2. 预训练语言模型学会了什么?

2.1. 模型的知识探测

依目前发展来看,以 BERT 为代表的自监督预训练已经成为了研究主流。论文 [6] 曾对 BERT 模型 “庖丁解牛”,通过知识探测的手段,深入地探究了每一层的注意力权重的关系(如图 2 所示),发现不同层的不同注意力头(attention head)都对不同的语言特征敏感,例如有的注意力头对于定冠词修饰的名词敏感,有的注意力头对于被动语态关注度更高,有的则在一定程度上实现了长距离指代消解

图 2:解析 BERT 不同注意力头的权重图 (引自 [6])

预训练的本质是将训练数据中蕴含的信息以模型可理解的方式隐含地存储到参数中 [5],不少研究工作已经表明 [7][8][9],预训练模型如 BERT 能够学习到较好的语言学知识(句法、语法),甚至一定程度上的世界知识和常识知识。但是预训练模型在如何更好地学习利用人类经验知识上依旧存在不少问题,需要更多的研究与探索,例如如何对其进行更好的建模,如何更有效地进行预训练,如何评价知识融入的程度等等。

2.2. 人类经验知识

这里,我们将人类经验知识粗略分为三类:

  • 第一类是事实型知识,例如人工构建的知识表格、知识图谱和结构化文档(包含篇章结构、图文信息)。目前已经有一些预训练的工作针对这类知识进行更好地利用,例如达摩院不久前开源的最大中文预训练表格模型(详见《达摩院开源中文社区首个表格预训练模型,取得多个基准 SOTA》一文);清华的 KEPLER [12] 和北大的 K-BERT [11] 是通过将三元组融合到神经网络输入并引入新的损失函数或结构来实现图谱知识的有效融入;微软的 LayoutLM 系列模型 [13] 和 Adobe 的 UDoc [14] 则研究了如何针对结构化文档进行预训练。

  • 第二类是数理逻辑知识,包括数理公式、公理定理、符号计算等,这一类知识不作为本文讨论内容。

  • 第三类是标注知识,即标注数据中蕴含的知识。这类知识十分普遍,属于任务相关的,例如文本分类、情感分析等。人类在标注过程中需要根据该特定的任务进行归纳总结,在预先定义的高层语义分类空间中对无标数据进行推断并赋值相应的标签。因此,利用标注知识来增强预训练模型理应会对相关下游任务带来明显效果提升。

3. 如何注入人类标注知识?

尽管现在各类预训练模型包打天下,但是如何向模型中注入标注知识依旧是一个尚未充分探索的方向。早期工作中,谷歌的 T5 [16] 就已经尝试了将有标和无标数据统一成语言生成任务进行学习,但是实验却表明简单地混合有标无标数据训练反而会带来负面影响。 

经过大量的实验探索,我们发现如果还是基于原先的两大预训练范式,是难以很好地进行预训练的。首先,单利用自监督预训练或者有监督预训练是无法同时利用好有标和无标的预训练数据,因为仅仅自监督损失函数是无法学习出标注知识中的高层语义的,有监督损失函数亦不能学出无标语料中的通用底层语义;其次,在大规模预训练中,由于所使用的预训练数据往往存在着少量有标数据和海量无标数据之间的数量鸿沟,如果简单混合两种预训练,会使得标注知识的信息要么淹没在无标数据中,要么就会出现严重的过拟合,因此我们需要全新的预训练范式来解决该问题。

这里,我们提出半监督预训练。如图 3 所示,半监督预训练从迁移学习的角度来看,可以认为是一个前两种范式的自然延伸,通过构造半监督学习损失函数来充分综合利用有限的标注知识和大量的无标数据。在半监督学习理论里 [17],模型既需要在无标数据上进行自我推断,根据结果进一步约束优化,也需要利用有标数据进行一定程度的有监督,指导自监督预训练的过程,同时避免模型参数陷入平凡解。

图 3:半监督预训练新范式

我们团队专注在对话智能(Conversational AI)方向,所以我们率先将半监督预训练的思路应用在了对话领域,提出了半监督预训练对话模型,在 MultiWoz 等国际经典对话数据集上取得了显著提升,论文已经被 AAAI2022 录用 [1]。接下来我们先简单介绍一下什么是预训练对话模型,然后重点介绍半监督预训练对话模型。

4. 预训练对话模型

预训练语言模型(Pre-trained Language Model, PLM)需要回答的什么样的句子更像自然语言,而预训练对话模型(Pre-trained Conversation Model, PCM)需要回答的是给定对话历史什么样的回复更合理。因此,预训练对话模型相比预训练语言模型任务更加特定化,需综合考虑对话轮次、对话角色、对话策略、任务目标等预训练语言模型不太关注的特征,图 4 给出了一个对话特有属性的总结。

图 4:对话特有的属性总结

目前预训练对话模型的建模,基本按照对话理解和对话生成两大任务类进行建模,利用类似于 BERT 或者 GPT-2 的 loss 在对话语料上进行预训练。例如,针对话理解,常见模型有 PolyAI 的 ConvRT [20],Salesforce 的 TOD-BERT [21] 和亚马逊的 ConvBERT [31],针对对话生成,常见模型有微软的 DialoGPT [18],谷歌的 Meena [19] 和 Facebook 的 Blender [30]。但是,这些模型都没有融入标注知识。


5. 半监督预训练建模方案

我们的目标评测基准是剑桥 MultiWOZ2.0,亚马逊 MultiWOZ2.1 等经典对话数据集,该任务需要通过构建对话模型来进行用户意图识别、对话策略选择和回复生成。针对下游任务模型,我们直接沿用已有的端到端对话模型 UBAR [24],将其通用的 GPT-2 模型底座换成我们的 SPACE 模型底座,再进行相同设置下的评测。

5.1. 对话策略知识

对话策略是对话过程中的一个重要模块,一般用对话动作标签(dialog act, DA)来进行刻画,即给定双方的对话历史,对话策略需要选择出正确的对话动作用于指导对话生成(图 5)。当前各种常见预训练对话模型,如 Meena,DialoGPT 等往往都直接将对话动作的选择过程隐含建模到模型参数里,存在着不可解释和不可控等问题。由于策略是一种高层语义,难以仅仅利用自监督的方式就能很好地学习出来。因此,接下来我们将从对话策略建模出发,提出利用半监督的方式实现更好的预训练,将标注数据中的对话策略知识融入到预训练对话模型中来。

图 5:一轮完整对话过程

经过总结分析,我们从 ISO 国际对话动作标准 [25] 中归纳出了 20 个对于任务型对话最高频的对话动作集合(见图 6),并整理合并了现有的多个对话数据集,经过人工对齐删改后我们给出了目前最大的英文任务对话动作标注数据集 UniDA(一共 97 万轮次),同时我们也从各种公开论坛,开源 benchmark 等渠道收集处理得到了高质量的英文无标对话语料 UnDial (一共 3.5 千万轮次)。具体细节可参考论文 [1]。

图 6:英文对话 UniDA 体系

5.2. 策略知识注入

在本文中,我们提出利用半监督预训练的方式来解决对话策略的建模难题,将对话动作预测任务改造成半监督学习任务,并设计出 SPACE 系列的第一款预训练模型 SPACE 1.0 (亦即我们 AAAI 论文 [1] 中 GALAXY 模型)。

具体来看,SPACE1.0 采用了 encoder+decoder 架构,预训练的目标既包含了传统的建模对话理解和对话生成的自监督 loss,也包含了建模对话策略的半监督 loss,完整框架见图 7。

图 7:半监督对话预训练框架

首先,对于对话理解,我们采用了回复选择(response selection)作为预训练目标(如图 7 右侧所示),即给定对话上下文(context)和候选回复(response)在 [CLS] 处进行二分类判决是否是正确的回复。在诸多 PCM 工作中 [20][21] 中都已经证明了回复选择的训练对于对话理解至关重要,因此我们保留该目标。

对于对话生成,我们则使用了常见的回复生成(response generation)目标,即给定对话上下文生成正确回复语句(如图 7 左侧所示)。

图 8:基于 R-drop 的一致性正则损失

对于对话策略,我们采用了半监督学习中十分高效的一致性正则 (consistency regularization) 方法来建模对话动作。理论可以证明,在满足低密度假设下(即分类边界处于低密度分布),通过对同一个样本进行扰动后分类结果仍然具备一定程度上的一致性(即分布接近或预测结果接近),那么最终基于一致性正则的半监督学习可以保证找到正确的分类面 [23]。针对对话策略的具体损失函数组成如下: 

  • 针对无标对话数据,我们采用了 R-drop [22] 的思路,如图 7 所示,给定同样的对话输入 c,经过两次带有 dropout 的 forward 得到了两次经过随机扰动后在对话动作空间上预测的不同分布,然后通过双向 KL 正则损失函数来约束两个分布;

  • 针对有标对话数据,我们则直接利用基础的有监督交叉熵 loss 来优化对话动作预测。

最终对于模型的预训练,我们将整个模型的理解、策略、生成目标加在一起进行优化。更多具体细节可参考论文 [1]。

6. 半监督预训练效果显著

我们在斯坦福的 In-Car [28],剑桥的 MultiWOZ2.0 [26] 和亚马逊的 MultiWOZ2.1 [27] 这三个国际对话数据集上进行效果验证。In-Car 数据集提出时间最早,是车载语音对话数据,一共有约 3k 个完整对话,难度较为简单;MultiWOZ2.0 是目前最大最难使用最广泛的任务型对话数据集,包含 1w 个完整对话,横跨 7 个场景,如订餐馆、订酒店等。MultiWOZ2.1 是在 MultiWOZ2.0 基础上进行人工标注校正后数据集。


如图 9 所示,经过半监督预训练融入策略知识后,可以看到我们的 SPACE1.0 模型在这些对话榜单上均大幅超过了之前的 SOTA 模型,端到端混合分数在 In-Car,MultiWOZ2.0 和 MultiWOZ2.1 分别提升 2.5,5.3 和 5.5 个点:

图 9:各数据集端到端得分总体结果比较

以上的结果充分证明了半监督预训练的效果。同时我们也做了低训练资源下实验,发现在利用不同训练数据比例下,我们的模型都保持着显著的效果提升。如图 10 所示,SPACE1.0 模型在仅利用 5% 训练数据量下就能够和利用全量 100% 训练数据的基于 GPT-2 的对话模型 SimpleTOD 可比,仅利用 10% 训练数据量就直接超过了利用全量训练数据量的基于 T5 的对话模型 MinTL。

图 10:低资源训练下端到端得分结果比较

我们也进行了案例分析,从图 11 中可以发现,相比之前的 SOTA 模型,SPACE1.0 模型能够预测出更加正确的对话动作,因此,合理的对话策略能够提升整体的端到端任务完成效果。

图 11:案例分析 Case Study

SPACE1.0 模型(即 GALAXY)目前在 MultiWOZ 官网上仍然排名第一,成绩截图如下所示:

7. 总结展望

本工作主要介绍了如何通过半监督预训练向大模型中注入特定的人类标注知识,从而使得模型在下游任务上有更加卓越的效果。和过往的半监督学习相比,我们关注的不再是如何降低对标注数据量的依赖,而是如何更加高效地融入特定标注知识,如下图 12 所示:

图 12:将半监督学习从下游训练推广到预训练过程

在后续的工作里,怎样将该范式进一步推广到各类 NLP 的任务中去,打造出一套有实用价值的半监督预训练 SPACE 模型体系,是需要持续探索的方向,具体包括:

  1. 知识自动选择:如何利用算法模型自动选择出合适的任务知识,从大量标注数据集中找出对目标下游任务最有用的数据集集合来进行半监督预训练是使得该范式成为通用范式的亟需研究问题。

  2. 半监督算法:目前我们尝试的是基于一致性正则化的半监督预训练方案,但整个半监督领域还有 self-taught, co-training, deep generative modeling 等诸多方法,如何综合利用他们是一个重要研究课题。

  3. 异构知识统一:本文中我们仅关注了分类标注知识,针对其他类型的标注知识,序列标注知识、层次化分类知识、回归标注等,如何进行更好的形式化表示,统一地融入到一个预训练模型中也是一个开放问题。

  4. 知识注入评价:如何更加定量且显式地度量出特定任务知识注入的程度,利用 probing 等方法对知识融入有个合理的评价也值得进一步的研究探索。 

预训练模型的打造离不开强大的 AI 算力支持,SPACE 模型的研发也得益于阿里云 EFLOPS 团队提供的高效算力服务,在此鸣谢!

参考文献

[1].GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection. AAAI 2022.

[2].Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18 (7): 1527-1554.

[3].Devin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding. NAACL 2019. 

[4].C Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale. ICLR 2021. 

[5].Xu H, Zhengyan Z, Ning D, et al. Pre-Trained Models: Past, Present and Future [J]. arXiv preprint arXiv:2106.07139, 2021.

[6].Clark K, Khandelwal U, Levy O, et al. What does bert look at? an analysis of bert's attention. BlackBoxNLP 2019.

[7].Tenney I, Das D, Pavlick E. BERT rediscovers the classical NLP pipeline. ACL 2019.

[8].Warstadt A, Cao Y, Grosu I, et al. Investigating BERT's Knowledge of Language: Five Analysis Methods with NPIs. ACL 20.

[9].Leyang Cui, Sijie Cheng, Yu Wu, Yue Zhang. On Commonsense Cues in BERT for Solving Commonsense Tasks. ACL-findings 2021.

[10].Zhengyan Zhang, Xu Han, Zhiyuan Liu, Xin Jiang, Maosong Sun, Qun Liu. ERNIE: Enhanced Language Representation with Informative Entities. ACL 2019. 

[11].Weijie Liu, Peng Zhou, Zhe Zhao, Zhiruo Wang, Qi Ju, Haotang Deng, Ping Wang. K-BERT: Enabling Language Representation with Knowledge Graph. AAAI 2020.

[12].Xiaozhi Wang, Tianyu Gao, Zhaocheng Zhu, Zhengyan Zhang, Zhiyuan Liu, Juanzi Li, Jian Tang. KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation. To appear at TACL.

[13].Xu Y, Li M, Cui L, et al. Layoutlm: Pre-training of text and layout for document image understanding [C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200. 

[14].Jiuxiang Gu, et al. Unified Pretraining Framework for Document Understanding. NeurIPS 2021. 

[15].Liu P, Yuan W, Fu J, et al. Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing [J]. arXiv preprint arXiv:2107.13586, 2021.

[16].Raffel C, Shazeer N, Roberts A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. arXiv preprint arXiv:1910.10683, 2019. 

[17].Xiaojin Jerry Zhu. Semi-supervised learning literature survey. 2005.

[18].Zhang Y, Sun S, Galley M, et al. Dialogpt: Large-scale generative pre-training for conversational response generation. ACL 2020 demostration. 

[19].Adiwardana D, Luong M T, So D R, et al. Towards a human-like open-domain chatbot [J]. arXiv preprint arXiv:2001.09977, 2020. 

[20].Henderson M, Casanueva I, Mrkšić N, et al. Convert: Efficient and accurate conversational representations from transformers. EMNLP-findings 2019.

[21].Wu C S, Hoi S, Socher R, et al. TOD-BERT: pre-trained natural language understanding for task-oriented dialogue. EMNLP 2020.

[22].Liang X, Wu L, Li J, et al. R-drop: regularized dropout for neural networks. NeurlPS 2021.

[23].Verma V, Kawaguchi K, Lamb A, et al. Interpolation consistency training for semi-supervised learning. IJCAI 2019.

[24].Yang Y, Li Y, Quan X. UBAR: Towards Fully End-to-End Task-Oriented Dialog Systems with GPT-2 [J]. arXiv preprint arXiv:2012.03539, 2020.

[25].Bunt H, Alexandersson J, Carletta J, et al. Towards an ISO standard for dialogue act annotation [C]//Seventh conference on International Language Resources and Evaluation (LREC'10). 2010. 

[26].Budzianowski P, Wen T H, Tseng B H, et al. MultiWOZ--A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling. EMNLP 2018.

[27].Eric M, Goel R, Paul S, et al. Multiwoz 2.1: Multi-domain dialogue state corrections and state tracking baselines. LREC 2020.

[28].Eric M, Manning C D. Key-value retrieval networks for task-oriented dialogue. SIGDIAL 2017.

[29].Wang W, Bi B, Yan M, et al.Structbert: incorporating language structures into pre-training for deep language understanding. ICLR 2019.

[30].Roller S, Dinan E, Goyal N, et al. Recipes for building an open-domain chatbot [J]. arXiv preprint arXiv:2004.13637, 2020.

[31].Mehri S, Eric M, Hakkani-Tur D. Dialoglue: A natural language understanding benchmark for task-oriented dialogue [J]. arXiv preprint arXiv:2009.13570, 2020

理论半监督预训练达摩院对话智能团队
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

VGG技术

2014年,牛津大学提出了另一种深度卷积网络VGG-Net,它相比于AlexNet有更小的卷积核和更深的层级。AlexNet前面几层用了11×11和5×5的卷积核以在图像上获取更大的感受野,而VGG采用更小的卷积核与更深的网络提升参数效率。VGG-Net 的泛化性能较好,常用于图像特征的抽取目标检测候选框生成等。VGG最大的问题就在于参数数量,VGG-19基本上是参数量最多的卷积网络架构。VGG-Net的参数主要出现在后面两个全连接层,每一层都有4096个神经元,可想而至这之间的参数会有多么庞大。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

分类数据技术

一种特征,拥有一组离散的可能值。以某个名为 house style 的分类特征为例,该特征拥有一组离散的可能值(共三个),即 Tudor, ranch, colonial。通过将 house style 表示成分类数据,相应模型可以学习 Tudor、ranch 和 colonial 分别对房价的影响。 有时,离散集中的值是互斥的,只能将其中一个值应用于指定样本。例如,car maker 分类特征可能只允许一个样本有一个值 (Toyota)。在其他情况下,则可以应用多个值。一辆车可能会被喷涂多种不同的颜色,因此,car color 分类特征可能会允许单个样本具有多个值(例如 red 和 white)。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

贪心算法技术

贪心法,又称贪心算法、贪婪算法、或称贪婪法,是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而希望导致结果是最好或最优的算法。比如在旅行推销员问题中,如果旅行员每次都选择最近的城市,那这就是一种贪心算法。

受限玻尔兹曼机技术

受限玻尔兹曼机(英语:restricted Boltzmann machine, RBM)是一种可通过输入数据集学习概率分布的随机生成神经网络。RBM最初由发明者保罗·斯模棱斯基于1986年命名为簧风琴(Harmonium),但直到杰弗里·辛顿及其合作者在2000年代中叶发明快速学习算法后,受限玻兹曼机才变得知名。受限玻兹曼机在降维、分类、协同过滤、特征学习和主题建模中得到了应用。根据任务的不同,受限玻兹曼机可以使用监督学习或无监督学习的方法进行训练。受限玻兹曼机也可被用于深度学习网络。具体地,深度信念网络可使用多个RBM堆叠而成,并可使用梯度下降法和反向传播算法进行调优。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

指代消解技术

在计算语言学中,共参考分辨率是一个在话语中被充分研究的问题。为了得出对文本的正确解释,或者甚至估计各种提到的主题的相对重要性,代词和其他引用表达必须与正确的个体相关联。目的解决指代的算法通常首先查找与引用表达式兼容的最近的一个之前个体。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

意图识别技术

意图识别指理解说话人的意图 。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

暂无评论
暂无评论~