Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径

对 SSM 感兴趣的研究者不妨读一下这篇博士论文。
在大模型领域,Transformer 凭一己之力撑起了整个江山。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显,比如其自注意力机制的计算量会随着上下文长度的增加呈平方级增长。为了克服这些缺陷,研究者们开发出了很多注意力机制的高效变体,但收效甚微。

最近,一项名为「Mamba」的研究似乎打破了这一局面,它在语言建模方面可以媲美甚至击败 Transformer。这都要归功于作者提出的一种新架构 —— 选择性状态空间模型( selective state space model),该架构是 Mamba 论文作者 Albert Gu 此前主导研发的 S4 架构(Structured State Spaces for Sequence Modeling )的一个简单泛化。

在 Mamba 论文发布后,很多研究者都对 SSM(state space model)、S4 等相关研究产生了好奇。其中,有位研究者表示自己要在飞机上把这些论文都读一下。对此,Albert Gu 给出了更好的建议:他的博士论文其实把这些进展都梳理了一下,读起来可能更有条理。
图片
在论文摘要中,作者写到,序列模型是深度学习模型的支柱,已在科学应用领域取得了广泛成功。然而,现有的方法需要针对不同的任务、模态和能力进行广泛的专业化;存在计算效率瓶颈;难以对更复杂的序列数据(如涉及长依赖关系时)进行建模。因此,继续开发对一般序列进行建模的原则性和实用性方法仍然具有根本性的重要意义。
图片
论文链接:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf

作者在论文中阐述了一种使用状态空间模型进行深度序列建模的新方法,这是一种灵活的方法,具有理论基础,计算效率高,并能在各种数据模态和应用中取得强大的结果。

首先,作者介绍了一类具有众多表征和属性的模型,它们概括了标准深度序列模型(如循环神经网络卷积神经网络)的优势。然而,作者表明计算这些模型可能具有挑战性,并开发了在当前硬件上运行非常快速的新型结构化状态空间,无论是在扩展到长序列时还是在自回归推理等其他设置中都是如此。最后,他们提出了一个用于对连续信号进行增量建模的新颖数学框架,该框架可与状态空间模型相结合,为其赋予原则性的状态表示,并提高其对长程依赖关系的建模能力。总之,这一类新方法为机器学习模型提供了有效而多用途的构建模块,特别是在大规模处理通用序列数据方面。

以下是论文各部分简介。

深度序列模型

针对序列数据的深度学习模型可被视为围绕循环、卷积或注意力等简单机制建立的序列到序列转换。

这些基元(primitive)可以被纳入标准的深度神经网络架构,形成主要的深度序列模型系列:循环神经网络(RNN)、卷积神经网络(CNN)和 Transformers,它们表达了强大的参数化变换,可以使用标准的深度学习技术(如梯度下降反向传播)进行学习。图 1.1 和定义 1.1 展示了本论文中使用的序列模型抽象,第 2.1 节将结合实例对其进行更正式的定义。

图片

定义 1.1(非正式)。作者使用序列模型来指代在序列 y = f_θ(x) 上的参数映射,其中输入和输出 x、y 是 R^D 中长度为 L 的特征向量序列,θ 是通过梯度下降学习的参数

上述每个模型系列都为机器学习带来了巨大的成功:例如,RNN 为机器翻译带来了深度学习,CNN 是第一个神经音频生成模型,而 Transformers 则彻底改变了 NLP 的广阔领域。

不过,这些模型也有其序列机制所遗留的折衷问题。例如,RNN 对于序列数据来说是一个天然的有状态模型,每个时间步只需要恒定的计算 / 存储,但训练速度慢,而且存在优化困难(如梯度消失问题),这限制了它们处理长序列的能力。CNN 专注于局部上下文,编码 shift equivariance 等特性,并具有快速、可并行训练的特点,但其序列推理成本较高,且上下文长度受到固有限制。Transformers 因其处理长程依赖关系的能力和可并行性而获得巨大成功,但在序列长度上存在二次扩展问题。另一个最新的模型系列是神经微分方程(NDE),这是一种有理论基础的数学模型,理论上可以解决连续时间问题和长期依赖关系,但效率非常低。

这些问题显示了深度序列模型面临的三大挑战。

挑战一:通用能力

深度学习的一个广泛目标是开发可用于各种问题的通用构建模块。序列模型为解决许多此类问题提供了一个通用框架。它们可以应用于任何可被投射为序列的环境。然而,当前的模型通常仍需要大量的专业化能力,以解决特定任务和领域的问题,或针对特定的能力。各类模型的优势分析如下:

  • RNN:需要快速更新隐藏状态的有状态设置,例如在线处理任务和强化学习
  • CNN:对音频、图像和视频等均匀采样的感知信号进行建模;
  • Transformers:对语言等领域中密集、复杂的交互进行建模;
  • NDE:处理非典型时间序列设置,如缺失或不规则采样数据。

反之,每个模型系列都可能在其不擅长的功能方面举步维艰。

挑战二:计算效率

在实践中应用深度序列模型需要计算其定义的函数(即参数序列到序列映射),这可以有多种形式。在训练时,任务一般可以用整个输入序列的损失函数来表述,算法的核心问题是如何高效地计算前向传递。在推理时(训练完成后部署模型),设置可能会发生变化;例如,在在线处理或自回归生成设置中,输入每次只显示一个时间步,模型必须能够高效地按顺序处理这些输入。

这两种情况对不同的模型系列都提出了挑战。例如,RNN 本身是序列性的,很难在 GPU 和 TPU 等现代硬件加速器上进行训练,而并行性则能使其受益。另一方面,CNN 和 Transformers 则难以进行高效的自回归推理,因为它们不是有状态的;处理单个新输入的成本可能会与模型的整个上下文大小成比例关系。更奇特的模型可能会带来额外的功能,但通常会使其计算更加困难和缓慢(如需要调用昂贵的微分方程求解器)。

挑战三:长程依赖

现实世界中的序列数据可能需要推理数以万计的时间步骤。除了处理长输入所需的计算问题外,解决这一问题还需要能够对此类长程依赖(LRD)中存在的复杂交互进行建模。具体来说,困难可能来自于无法捕捉数据中的交互,比如模型的上下文窗口有限;也可能来自于优化问题,比如在循环模型中通过长计算图进行反向传播时的梯度消失问题

由于效率、表达能力或训练能力方面的限制,长程依赖是序列模型长期以来面临的挑战。所有标准模型系列,如 NDE、RNN、CNN 和 Transformers,都包括许多旨在解决这些问题的专门变体。例如对抗梯度消失的正交和 Lipschitz RNN、增加上下文大小的空洞卷积,以及日益庞大的高效注意力变体系列,这些变体降低了对序列长度的二次依赖。然而,尽管这些解决方案都是针对长程依赖设计的,但在 Long Range Arena 等具有挑战性的基准测试中,它们的表现仍然不佳。

 状态空间序列模型

本论文介绍了基于线性状态空间模型(SSM)的新系列深度序列模型。作者将 SSM 定义为一个简单的序列模型,它通过一个隐式的潜在状态 x (t)∈R^N 映射一个 1 维函数或序列 图片
图片
SSM 是一种基础科学模型,广泛应用于控制论、计算神经科学信号处理等领域。广义上,SSM 一词指的是对潜变量如何在状态空间中演化进行建模的任何模型。这些广义的 SSM 有许多种,可以改变 x 的状态空间(如连续、离散或混合空间)、y 的观测空间、过渡动态、附加噪声过程或系统的线性度。SSM 在历史上通常指隐马尔可夫模型(HMM)和线性动力系统(LDS)的变体,如分层狄利克雷过程(HDP-HMM)和 Switching Linear Dynamical 系统(SLDS)。

方程(1.1)的状态空间模型在状态空间和动力学上都是连续的,并且是完全线性和确定性的,但还没有被用作定义 1.1 意义上的深度序列模型。本论文探讨了状态空间序列模型的诸多优点,以及如何利用它们来解决一般序列建模难题,同时克服其自身的局限性。

通用序列模型

SSM 是一种简单而基本的模型,具有许多丰富的特性。它们与 NDE、RNN 和 CNN 等模型族密切相关,实际上可以以多种形式编写,以实现通常需要专门模型才能实现的各种功能(挑战一)。

  • SSM 是连续的。SSM 本身是一个微分方程。因此,它可以执行连续时间模型的独特应用,如模拟连续过程、处理缺失数据,以及适应不同的采样率。
  • SSM 是循环的。可以使用标准技术将 SSM 离散化为线性 recurrence,并在推理过程中模拟为状态循环模型,每个时间步的内存和计算量保持不变。
  • SSM 是卷积系统。SSM 是线性时不变系统,可显式表示为连续卷积。此外,离散时间版本可以在使用离散卷积进行训练时并行化,从而实现高效训练。

因此,SSM 是一种通用序列模型,在并行和序列环境以及各种领域(如音频、视觉、时间序列)中都能高效运行。论文第 2 章介绍了 SSM 的背景,并阐述了状态空间序列模型的这些特性。

不过,SSM 的通用性也有代价。原始 SSM 仍然面临两个额外挑战 —— 也许比其他模型更严重 —— 这阻碍了它们作为深度序列模型的使用。挑战包括:(1)一般 SSM 比同等大小的 RNN 和 CNN 慢得多;(2)它们在记忆长依赖关系时会很吃力,例如继承了 RNN 的梯度消失问题

作者通过 SSM 的新算法和理论来应对这些挑战。

利用结构化 SSM 进行高效计算(S4)

遗憾的是,由于状态表示 x (t) ∈ R^N 对计算和内存的要求过高(挑战二),通用的 SSM 在实践中无法用作深度序列模型。

对于 SSM 的状态维度 N 和序列长度 L,仅计算完整的潜在状态 x 就需要 O (N^2L) 次运算和 O (NL) 的空间 —— 与计算总体输出的 Ω(L + N) 下界相比。因此,对于合理大小的模型(例如 N ≈ 100),SSM 使用的内存要比同等大小的 RNN 或 CNN 多出几个数量级,因此作为通用序列建模解决方案,SSM 在计算上是不切实际的。

要克服这一计算瓶颈,就必须以一种适合高效算法的方式对状态矩阵 A 施加结构。作者介绍了具有各种形式结构矩阵 A 的结构化状态空间序列模型(S4)(或简称结构化状态空间)家族,以及能以任何表示形式(如循环或卷积)高效计算 S4 模型的新算法。

论文第 3 章介绍了这些高效 S4 模型的不同类型。第一种结构使用状态矩阵的对角参数化(diagonal parameterization),它非常简单、通用,足以表示几乎所有的 SSM。然后,作者通过允许低秩校正项对其进行推广,这对于捕捉后面介绍的一类特殊的 SSM 是必要的。通过结合众多技术思想,如生成函数、线性代数变换和结构矩阵乘法的结果,作者为这两种结构开发了时间复杂度图片 和空间复杂度为 O (N + L) 的算法,这对于序列模型来说基本上是严密的。

使用 HIPPO 解决长程依赖关系

即使不考虑计算问题,基本的 SSM 在实验中仍然表现不佳,而且无法建模长程依赖关系(挑战三)。直观地说,其中一种解释是线性一阶 ODE 求解为指数函数,因此可能会出现梯度随序列长度呈指数级缩放的问题。这也可以从它们作为线性 recurrence 的解释中看出,这涉及到反复对一个 recurrent 矩阵进行幂运算,这就是众所周知的 RNN 梯度消失/爆炸问题的起因。

在第 4 章中,作者从 SSM 后退一步,转而研究如何从第一性原理出发,用循环模型对 LRD 进行建模。他们开发了一个名为 HIPPO 的数学框架,它形式化并解决了一个名为在线函数逼近(或记忆)的问题。这种方法旨在通过保持对连续函数历史的压缩,以逐步记忆连续函数。尽管这些方法的动机完全独立,但它们都是 SSM 的具体形式。这些最终的方法被证明是 SSM 的特定形式 —— 尽管它们的动机是完全独立的。

论文第 5 章完善了这一框架,并将其与 SSM 抽象更严格地联系起来。它引入了一个正交 SSM 概念,广泛推广了 HIPPO,并推导出更多实例和理论结果,例如如何以原则性的方式初始化所有 SSM 参数

HIPPO 概览

考虑一个输入函数 u (t)、一个固定的概率度量 ω(t),以及 N 个正交基函数(如多项式)组成的序列。在每个时间 t,u 在时间 t 之前的历史都可以投影到这个基上,从而得到一个系数向量 x (t)∈ R^N,这个向量代表了 u 的历史相对于所提供的度量 ω 的最佳近似值。函数 u (t)∈R 映射到系数 x (t)∈R^N 的映射被称为关于度量 ω 的高阶多项式投影算子 (HIPPO)。在很多情况下,在许多情况下,其形式为 x ′ (t) = Ax (t) + Bu (t),对于 (A, B) 有封闭形式的公式。

HIPPO 和 S4 的组合

HIPPO 提供了一个数学工具来构建具有重要属性的 SSM,而 S4 是关于计算表示的。第 6 章正式将两者联系起来,并说明它们可以结合起来,以获得两个世界的最佳效果。论文表明,HIPPO 生成的用于处理长程依赖关系的特殊矩阵实际上可以用第 3 章中开发的特定结构形式来编写。这就提供了结合 HIPPO 的 S4 的具体实例,从而产生了一个具有丰富功能、非常高效并擅长长程推理的通用序列模型。

应用、消融和扩展

通用序列建模功能

第 7 章对 S4 方法在各种领域和任务中的应用进行了全面的实证验证。当 S4 方法被纳入一个通用的简单深度神经网络时,它在许多基准测试中推进了 SOTA。

特别的亮点和功能包括:  

  • 通用序列建模。在不改变架构的情况下,S4 在语音分类方面超越了音频 CNN,在时间序列预测问题上优于专门的 Informer 模型,在序列 CIFAR 方面与 2-D ResNet 相媲美,准确率超过 90%。
  • 长程依赖。在针对高效序列模型的 LRA 基准测试中,S4 的速度与所有基线一样快,同时比所有 Transformer 变体的平均准确率高出 25% 以上。S4 是第一个解决了 LRA Path-X 任务(长度为 16384)这一难题的模型,准确率达到 96%,而之前所有工作的随机猜测准确率仅为 50%。
  • 采样分辨率变化。与专门的 NDE 方法一样,S4 无需再训练即可适应时间序列采样频率的变化。
  • 大规模生成建模与快速自回归生成。在 CIFAR-10 密度估计方面,S4 与最好的自回归模型(每维 2.85 比特)不相上下。在 WikiText-103 语言建模方面,S4 大幅缩小了与 Transformers 的差距(在 0.5 困惑度范围内),在无注意力模型中实现了 SOTA。与 RNN 一样,在 CIFAR-10/WikiText-103 上,S4 利用其潜在状态生成像素 /token 的速度比标准自回归模型快 60 倍。

理论消融

作者对 S4 的处理讨论了训练 SSM 的许多理论细节,例如如何仔细初始化每个参数以及如何纳入 HIPPO 框架。他们对这些细节进行了全面的实证分析和消融研究,验证了他们的 SSM 理论的各个方面。例如,他们验证了 HIPPO 大大提高了 SSM 的建模能力,在标准序列模型基准上的性能比原始 SSM 实例提高了 15%。在算法上,他们的 S4 算法比传统的 SSM 算法提高了几个数量级(例如,速度提高了 30 倍,内存使用量减少到 1/400)。

应用:音频波形生成

作为一种具有多种特性的序列建模基元,S4 可以被整合到不同的神经网络架构中,并以多种方式使用。第 8 章介绍了 S4 在原始音频波形生成中的应用,由于音频波形的采样率较高,这是一个具有挑战性的问题。这一章节介绍了围绕 S4 构建的 SaShiMi 多尺度架构,该架构在包括自回归和扩散在内的多种生成建模范式中,推动了无限制音频和语音生成技术的发展。该应用突显了 S4 的灵活功能,包括高效训练、快速自回归生成和用于连续信号建模的强大归纳偏置。

扩展:用于计算机视觉的多维信号

虽然作者主要关注一维序列,但某些形式的数据本身具有更高的维度,如图像(二维)和视频(三维)。序列模型的灵活性也适用于这些环境。第 9 章介绍了 S4ND,这是 S4 从一维到多维(N-D)信号的扩展。S4ND 继承了 S4 的特性,如直接对底层连续信号建模,并具有更好地处理输入分辨率变化等相关优势,是第一个在 ImageNet 等大型视觉任务中性能具有竞争力的连续模型。

更多细节请参考原论文。

最后,借机梳理介绍几篇 SSM 研究,供大家了解、学习。

论文一:Pretraining Without Attention


论文二:Mamba: Linear-Time Sequence Modeling with Selective State Spaces


围绕 Mamba,已经有一些语言模型发布,包括 mamba-130m, mamba-370m, mamba-790m, mamba-1.4b, mamba-2.8b。

HuggingFace 地址:https://huggingface.co/state-spaces

也有人做出 Mamba-Chat:

Github 地址:https://github.com/havenhq/mamba-chat

论文三:苹果等机构的论文 Diffusion Models Without Attention


论文四:Mamba 作者 Albert Gu 的博士论文 MODELING SEQUENCES WITH STRUCTURED STATE SPACES

论文地址:https://stacks.stanford.edu/file/druid:mb976vf9362

论文五:Long Range Language Modeling via Gated State Spaces 认为 Transformer 和 SSM 完全可以互补。

论文地址:https://arxiv.org/abs/2206.13947

论文六:DeepMind 的论文 Block-State Transformer

论文地址:https://arxiv.org/pdf/2306.09539.pdf
工程Mamba
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

时间复杂度技术

在计算机科学中,算法的时间复杂度是一个函数,它定量描述了该算法的运行时间。这是一个代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述,不包括这个函数的低阶项和首项系数。使用这种方式时,时间复杂度可被称为是渐近的,亦即考察输入值大小趋近无穷时的情况。例如,如果一个算法对于任何大小为 n (必须比 n0 大)的输入,它至多需要 5n3 + 3n 的时间运行完毕,那么它的渐近时间复杂度是 O(n3)。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

隐马尔可夫模型技术

隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。

信号处理技术

信号处理涉及到信号的分析、合成和修改。信号被宽泛地定义为传递“关于某种现象的行为或属性的信息(如声音、图像和生物测量)”的函数。例如,信号处理技术用于提高信号传输的保真度、存储效率和主观质量,并在测量信号中强调或检测感兴趣的组件。我们熟悉的语音、图像都可以看做是一种信号形式。因此,对于语音、图像的增强、降噪、识别等等操作本质上都是信号处理。

梯度消失问题技术

梯度消失指的是随着网络深度增加,参数的梯度范数指数式减小的现象。梯度很小,意味着参数的变化很缓慢,从而使得学习过程停滞,直到梯度变得足够大,而这通常需要指数量级的时间。这种思想至少可以追溯到 Bengio 等人 1994 年的论文:「Learning long-term dependencies with gradient descent is difficult」,目前似乎仍然是人们对深度神经网络的训练困难的偏好解释。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

序列到序列技术

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

空洞卷积技术

空洞卷积最大的特性就是扩张感受野,它不是在像素间插入空白像素,而是略过一些已有的像素。当然,我们也可以理解为保持输入不变,并向卷积核中添加一些值为零的权重,从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

控制论技术

控制论是一门跨学科研究, 它用于研究控制系统的结构,局限和发展。在21世纪,控制论的定义变得更加宽泛,主要用于指代“对任何使用科学技术的系统的控制”。由于这一定义过于宽泛,许多相关人士不再使用“控制论”一词。 控制论与对系统的研究有关,如自动化系统、物理系统、生物系统、认知系统、以及社会系统等等。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

时间序列预测技术

时间序列预测法其实是一种回归预测方法,属于定量预测,其基本原理是;一方面承认事物发展的延续性,运用过去时间序列的数据进行统计分析,推测出事物的发展趋势;另一方面充分考虑到偶然因素影响而产生的随机性,为了消除随机波动的影响,利用历史数据进行统计分析,并对数据进行适当处理,进行趋势预测。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
推荐文章
暂无评论
暂无评论~