Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

图模型也要大?清华朱文武团队有这样一些观点

在大模型时代,图机器学习面临什么样的机遇和挑战?是否存在,并该如何发展图的大模型?针对这一问题,清华大学朱文武教授团队首次提出图大模型(Large Graph Model)概念,系统总结并梳理了图大模型相关的概念、挑战和应用;进一步围绕动态性和可解释性,在动态图大模型和解耦图大模型方面取得了研究进展。

图片

论文地址:https://arxiv.org/abs/2308.14522

一、相关概念

(一)图大模型

图大模型是指具有大量参数的图机器学习模型,具有比小模型更强大的学习能力,能更好地对图数据进行理解、分析和应用。为实现上述目标,图大模型应该具有以下四方面的核心能力:

1. 图学习模型的规模定律(graph models with scaling law):规模定律是首先在大语言模型(LLM)中发现的一种经验现象,即模型性能随着规模、数据集规模和训练计算量的增加而持续提升。借鉴大语言模型的经验,图大模型应能够展现出当前小规模或中等规模图学习模型无法具备的新能力。

2. 图基础模型(graph foundation model):图基础模型是指一个经过预训练的图大模型能够处理不同领域的图数据和任务。这要求图大模型能够理解图的内在结构和性能,以具备图的 “常识知识”。图预训练范式可以让模型接触大量无标签图数据,从而减少对图标签的依赖,是发展图基础模型的重要途径。此外,生成式预训练可以赋予模型生成图数据的能力,从而支持许多有重要价值的图生成应用,例如药物合成、代码生成等。尽管如此,由于图数据的通用性和多样性,目前来看为所有领域的图数据开发出一个 “通用图模型” 是几乎不可行的。因此,为不同簇的相关领域开发若干个图基础模型可能更加容易实现。

3. 图上下文学习(in-context graph learning):图大模型应具有理解图上下文的能力,包括节点、边、子图和全图等,并且在上述过程中无需进行过多的模型修改或学习范式改变。该能力与图的少样本 / 零样本学习多任务学习和图的分布外泛化能力密切相关。上下文学习能力可以使图大模型充分利用预训练阶段学习到的知识和能力,并在新数据测试中快速适应以达到预期性能。

4. 灵活的图推理能力(versatile graph reasoning):虽然图数据横跨不同领域,但有一些基础图任务是共通的,我们称其为 “图推理”。目前哪些任务属于图推理并无严格的定义,下面介绍一些代表性的例子。首先,图大模型应该理解基本的图拓扑结构,如图的大小、度数、节点连通性等,它们也是处理更复杂图任务的基础。其次,图大模型应该能够进行图上的多跳推理,以考虑图的高阶信息。这种能力与大语言模型的思维链(Chain-of-Thought)异曲同工,可以增强图任务相关决策过程中的可解释性和模型透明性。除了局部信息,图大模型还应具备理解和处理全局结构和更复杂图模式相关图任务的能力,例如节点的中心度和位置信息、图的整体属性、动态图的演化规律等。

虽然图大模型有许多值得期待的能力,但目前尚未出现如 ChatGPT 一样成功的图大模型。接下来,我们将从图表征空间、图数据、图学习模型以及图应用对图大模型目前的研究进展和存在的瓶颈进行梳理。

(二)图表征空间

语言模型可以广泛用于不同的下游任务,其背后一个重要原因在于自然语言中的单词与词元(token)属于一种通用且信息无损的数据表征方式,可以用于不同任务。相比之下,图是一种更加通用的数据结构,涵盖了不同领域。因此,以原始图数据作为输入,例如节点和边,并不总是最合适的数据表征方式。例如,在社交网络、分子图和知识图谱中,节点和边都具有不同的语义特征和拓扑空间,存在显著差异性。

之前研究中普遍认为,更高层次的图模式,可以在领域内不同的图和任务之间进行知识迁移。例如,网络科学中研究的同质性、小世界现象、节点度数的幂律分布等,均有更广泛的适用性。即便如此,如何构建有效的、能够在不同领域图数据中迁移的图大模型仍带来巨大的挑战。

此外,大语言模型另一个关键能力是能够遵循指令并与人交互,因为人类天生具备理解语言和视觉的能力。相比而言,人在处理图数据,尤其是复杂的推理问题方面,并不具备先天优势。如何与图大模型进行互动,使其可以按照期望的方式解决图任务,同样具有挑战性。为解决该问题,下面总结了三种值得探索的策略。

第一种策略是通过大量的成对数据将图和文本的表征空间进行对齐,这与目前大模型处理计算机视觉(如 DALLE 等)的方法原理类似。如果成功,我们也能够使用自然语言与图大模型进行交流,例如要求模型生成具有某些属性的分子图,或要求模型执行某些图推理任务等。目前已经有对于文本属性图(text-attributed graph)的一些初步尝试。然而,相比于图像-文本对,收集更广泛的图-文本对数据成本更高,也更具挑战性。

第二种策略是将图转化为自然语言,然后仅通过语言模型进行处理。最常见的流程是首先将图结构转化为文本表示(例如邻接表或边表),作为提示插入到大语言模型中,然后使用自然语言进行图分析。该方向近期受到了一定关注,将在后文的图模型中进行更详细的讨论。然而,将图数据和任务转化为语言时可能会丢失图的内部结构,导致模型性能目前尚无法达到预期。

最后一种策略是通过其它表征空间作为图任务和自然语言之间的桥梁。例如,尽管人类很难直观地处理图数据,但我们可以设计合适的算法来解决不同图任务,例如图论中许多著名的算法,包括最短路、动态规划等。因此,如果可以将图学习模型的运行状态与算法对齐,就能在一定程度上理解和控制图学习模型的运行状态。这个方向上同样有一些研究成果,被称为算法推理(algorithmic reasoning),值得继续探索。

总结来看,找到合适的图表征空间并与自然语言对齐,同时统一不同领域的图数据和图任务,是构建图大模型的一个基础。

(三)图数据

大模型的成功离不开大规模数据集的支撑。例如,GPT-3 在大约 5000 亿个词元的语料库上进行了预训练;多模态模型 CLIP 则在 4 亿个图像-文本对上进行了训练。更近期的大模型,例如 GPT-4,使用了更多的数据。这些自然语言和计算机视觉的大数据通常来自互联网,例如 CommonCrawl 中的网页或社交媒体中用户发布的照片,这些数据相对而言更易于规模化地收集。

相比之下,大规模图数据并不容易获取。图通常面临两类场景:大量的小规模图,如很多分子图,或者少数大规模图,如社交网络或引用网络。例如,OGB(Open Graph Benchmark)是图机器学习中最具代表性的基准数据集之一,其中最大的两个数据集,MAG240M 包含了一个大约有 2.4 亿个节点和 13 亿条边的引用网络,PCQM4M 则包含了大约 400 万个分子。尽管 OGB 已经比之前常用的图数据大了几个数量级,但它的规模可能还是远远不够。如果将 MAG240M 中的每个节点视为一个词元或将 PCQM4M 中的每个图视为一张图片,那 OGB 仍比自然语言或计算机视觉中使用的数据集小至少 1000 倍。

除了预训练所需的大规模无标注数据,带标签的基准数据集在大模型研制中同样重要,例如用于自然语言的 SuperGLUE 和 BIG-bench,用于计算机视觉的 ImageNet 等。对于图,上面介绍的 OGB 或其它图机器学习基准,例如 Benchmarking GNN,它们的规模、任务和领域多样性以及测评方式可能也不完全适合图大模型。因此,图大模型的研究应当包括设计更有针对性的基准测试数据。

(四)图学习模型(graph model)

1. 神经网络架构

神经网络(GNN)与图 Transformer 是两类最主流的图机器学习模型,可以从以下四个方面对两类模型进行对比:

  • 聚合 vs. 自注意力:GNN 采用消息传递机制聚合来自相邻节点的信息,而图 Transformer 则使用自注意力来决定相邻节点的贡献。

  • 建模图结构:GNN 会在消息传递过程中考虑图结构作为模型的归纳偏置,而图 Transformer 则采用结构编码等预处理策略来建模结构。

  • 深度与过平滑:深层 GNN 可能会受到过平滑的影响,导致其能力下降。图 Transformer 一般则未观察到类似问题。一种可能的解释是,图 Transformer 能自适应地关注更加相关的节点,从而有效地过滤信息。

  • 可扩展性和效率:大多数 GNN 的基本操作相对简单,因此计算上有优势。相比之下,图 Transformer 中节点对的自注意力机制会耗费更大量计算资源,尤其是对大规模图数据。

2. 预训练

在大规模无标注语料上进行预训练早已成为大模型在自然语言处理计算机视觉领域中成功不可或缺的因素。图上的预训练,或称为图自监督学习,同样获得了关注,发展出包括对比式(contrastive)与预测式(predictive)学习等多类方法,我们将其总结为图上预处理的四 E 原则:

  • 编码(Encoding)图结构:与文本和图像数据预训练方法更关注语义信息不同,图包含丰富的结构信息。因此,预训练图大模型需要联合考虑不同图数据集上的结构和语义信息。

  • 缓解(Easing)数据稀疏与标签缺乏:图大模型应具有很大的模型容量,因此容易出现过拟合,特别是在仅使用少量标注数据时。在更大规模的图数据集和不同的图任务上进行预训练可以起到正则化的作用,提高泛化性。

  • 扩展(Expanding)应用领域:预训练的一个特点是能够将所学知识迁移到不同领域。通过在不同的图数据集上对图大模型进行预训练,以捕捉到更通用的结构,然后将这些知识应用、适配或微调到相似领域的图数据中,从而最大程度地提升模型的适用性。

  • 提升(Enhancing)鲁棒性与泛化性:预训练可以让图大模型接触到具有不同特点的图数据,包括不同大小、结构和复杂性的图,从而使模型更加鲁棒并泛化到未见过的图数据或新的图任务。

3. 模型适配

模型适配是将大语言模型应用到不同下游任务的重要环节,这对图大模型同样成立。代表性的模型适配技术包括提示学习(prompting)、高效参数微调(parameter-efficient fine-tuning)、模型对齐(alignment)和模型压缩(model compression)等。下面简要总结用于图模型的适配技术。

提示学习最初是指为语言模型提供特定指令,以生成下游任务所需的内容。在大模型中,如何构建有效的提示是提升其在上下文学习效果的重要途径。例如,大语言模型的提示通常包含下游任务的描述和一些示例。构建提示的一个关键在于使下游任务的形式和预训练任务一致。在自然语言中,许多不同的任务都可以被统一建模为语言模型(language model),即通过上文生成下文。相比之下,图数据的提示学习面临的一个重要挑战是如何统一不同的图任务,包括节点级、边级和图级的任务等。

高效参数微调(parameter-efficient fine-tuning)是指仅优化模型的一小部分参数,而将其余参数保持固定的一种微调技术。除了减少计算成本,它还可以通过自适应使模型能够处理新任务,同时不忘记预训练中获得的知识。近期,图模型高效参数微调也开始受到关注。 

模型压缩旨在通过各种技术(包括知识蒸馏剪枝量化等)减少模型对硬件的需求,尤其适用于在资源受限场景中部署大模型。量化(Quantization)在大语言模型中受到了广泛关注。量化的核心是减少模型使用的数值精度,同时尽可能保持模型性能。对于大模型,训练后量化(PTQ)尤其受欢迎,因为它无需重新训练大模型。

总结来看,受到大语言模型等相关技术启发,图的模型适配研究同样吸引了一定关注。然而,由于目前尚无特别成功的图大模型,这些方法的评估局限于相对较小的图模型。因此,进一步验证它们在应用于图大模型时的有效性至关重要,也会带来更多的挑战和机遇。

4. 图上的大语言模型

近期,一个新的研究热点是直接利用大语言模型解决图任务。其基本思想是将图数据(包括图结构和特征)以及图任务转化为自然语言表示,然后将图问题视为常规的自然语言处理问题。例如,NLGraph 对大语言模型(如 GPT-3 和 GPT-4)在八个图推理任务上进行了系统评估。这些任务涵盖了不同复杂度的问题,包括连通性、最短路径、最大流、模拟 GNN 等。实证结果发现,大语言模型在图推理方面显示出初步的能力,但在处理更复杂的图问题上存在瓶颈。

另一个代表性工作 Graph-LLM 则系统地研究了大语言模型在文本属性图中的应用。具体而言,它探索了两种策略:大语言模型作为增强器(LLMs-as-Enhancers),即使用大语言模型增强节点的文本属性表征,然后将其传递给其他图模型,例如图神经网络;大语言模型作为预测器(LLMs-as-Predictors),即直接将大语言模型用作预测器。实验结果表明,大语言模型可以为图机器学习提供巨大帮助。尽管这类研究仍处于早期阶段,但它们验证了大语言模型也是发展图大模型的一个可能途径,值得进一步探索和研究。

(五)图应用

图大模型存在许多有价值的潜在应用,包括但不限于推荐系统知识图谱、分子建模、金融分析、代码与程序分析、城市计算与交通等。在这些领域中,目前已经出现了部分基于大语言模型的尝试,但大都忽略了图结构信息。为使图大模型在这些领域中有效应用,需要利用大量易收集的图数据,并结合领域知识,对图大模型进行相应处理,例如微调或提示学习等。

二、研究进展

朱文武教授团队针对图大模型关键问题,围绕动态性和可解释性,取得了如下进展。

(一)基于大语言模型的动态图评测基准与时空解耦思维链提示

动态图,即图中信息随时间发生变化,在真实世界中非常普遍,并在交通预测、欺诈检测、序列推荐等领域具有广泛的应用。虽然之前一些工作探索了大语言模型在静态图上的能力。但大语言模型能否理解和处理动态图上的时空信息尚未被研究。相比于静态图,动态图具有更复杂的时空混合模式,因此更具挑战性,总结为如下三方面:

  • 如何设计动态图任务以评估大语言模型理解时间和图结构信息的能力;
  • 动态图上时间和空间维度具有复杂的相互作用,如何研究这些相互作用对模型性能的影响;
  • 如何设计动态图和相关任务的提示,使得模型能通过自然语言建模时空信息。

针对这些问题,朱文武教授团队提出了一个 LLM4DyG,首个用于评估大语言模型在动态图上时空理解能力的评测基准
图片

                                         LLM4DyG 评测基准流程图

具体而言,我们针对性地设计了九个动态图任务,从时间、空间、时空三个维度评估大语言模型的能力,这些任务包括不同的时空模式(如时空连接、时空路径和动态三角闭合等)以及三类不同的问题:“何时”(when)、“在哪”(where)、“是否”(whether)。同时,还采用了:

  • 三种不同的数据生成方法,包括 Erdős-Rényi 模型、随机块模型和森林火灾模型;

  • 多种统计指标,包括时间跨度、图大小和密度等;

  • 四种常见的提示技术,包括零样本 / 少样本提示、零样本 / 少样本思维链提示等;

  • 以及五种大语言模型,包括闭源的 GPT-3.5 和开源的 Vicuna-7B、Vicuna-13B、Llama-2-13B 以及 CodeLlama-2-13B。

根据实验观察,我们进一步设计了动态图时空解耦思维链 (DST2) 提示技术,以鼓励大语言模型分别处理空间和时间信息。实验结果表明,DST2 可以有效提高大语言模型在动态图任务上的表现。

图片

                                           LLM4DyG 动态图任务

(二)解耦图大语言模型

文本属性图(text attributed graph)在研究与应用上均非常普遍,例如引用网络、电子商务网络和社交网络等。最近,同样有不少研究将大语言模型应用于文本属性图。然而,现有方法仅通过提示将图结构信息传递给大语言模型,导致大语言模型无法理解图内部复杂的结构关系。针对该问题,我们提出了解耦图 - 文本学习(DGTL)模型,以增强大语言模型在文本属性图上的推理和预测能力。DGTL 模型通过解耦图神经网络层将图结构信息进行编码,使大语言模型能够捕捉文本属性图中隐藏结构因子间的复杂关系。此外,DGTL 模型无需对预训练大语言模型中的参数进行微调,从而降低计算成本,并适配于不同的大语言模型。实验结果证明所提出的 DGTL 模型能达到比最先进基线模型更优或相仿的性能,同时还可以为预测结果提供基于自然语言的解释,显著提高了模型的可解释性。

图片

                                         DGTL 模型框架图

相关链接:

论文合集:https://github.com/THUMNLab/awesome-large-graph-model

工程Large Graph Model
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

图论技术

图论是以“图”为研究对象的一个数学分支,是组合数学和离散数学的重要组成部分。图是用来对对象之间的成对关系建模的数学结构,由“顶点”(又称“节点”或“点”)以及连接这些顶点的“边”(又称“弧”或“线”)组成。值得注意的是,图的顶点集合不能为空,但边的集合可以为空。图可能是无向的,这意味着图中的边在连接顶点时无需区分方向。否则,称图是有向的。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

零样本学习技术

从仅仅一个或一小撮样本中学习一个新的概念,而普通的机器学习标准算法通常需要几十或几百个表现类似的样本。

知识蒸馏技术

Hinton 的工作引入了知识蒸馏压缩框架,即通过遵循“学生-教师”的范式减少深度网络的训练量,这种“学生-教师”的范式,即通过软化“教师”的输出而惩罚“学生”。为了完成这一点,学生学要训练以预测教师的输出,即真实的分类标签。这种方法十分简单,但它同样在各种图像分类任务中表现出较好的结果。

多任务学习技术

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

图生成技术

根据给定信息信息生成图表。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~