Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

贾扬清共一论文获时间检验奖,国内无缘10篇最佳论文,ICML 2024奖项新鲜出炉

ICML 全称是 International Conference on Machine Learning,由国际机器学习学会(IMLS)举办,是计算机人工智能领域的顶级会议。

今年的 ICML 大会已是第 41 届,目前正在奥地利维也纳举行。在刚刚进行的开幕式上,一年比一年火热的 ICML 公布了今年的大会数据与奖项信息。
图片
本届主会议共收到有效论文投稿 9473 篇,其中有 2610 篇论文被录用,录用率为 27.5%,其中包含 144 篇 oral,191 篇 spotlight。
图片
被接收论文的主题关键词为:大语言模型强化学习深度学习图神经网络机器学习联邦学习、扩散模型、Transformer、LLM、表示学习、生成模型…… 这些关键词也代表了当前 AI 领域最为热门的研究方向。

除了这些数据,大会现场还公布了今年的时间检验奖与最佳论文。贾扬清十年前在伯克利期间共一完成的论文 DeCAF,获得了今年的时间检验奖。而相比于去年的 6 篇,今年有 10 篇研究获得最佳论文,其中包含前段时间爆火的 Google DeepMind 世界模型 Genie、视频模型 VideoPoet 等。

时间检验奖

关于 DeCAF 获奖,贾扬清在朋友圈表示,「从今天的用词来说,DeCAF 应该是视觉领域的 foundation features 和 deep embedding,也让计算机视觉领域有了一个 generalizable feature。DeCAF 的工作后来又催生了通用的物体检测框架 R-CNN,高性能异构计算的框架 Caffe,间接促成了伯克利和 NVidia 合作编写了第一代的加速框架 CuDNN,雅虎实验室创作的大规模分布式训练 CaffeOnSpark,等一系列工作,奠定了伯克利在深度学习浪潮当中的领先地位。」
图片
论文:DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition

  • 作者:Jeffrey Donahue、Yangqing Jia、Oriol Vinyals、Judy Hoffman、Ning Zhang、Eric Tzeng、Trevor Darrell
  • 机构:UC Berkeley & ICSI, Berkeley, CA, USA
  • 论文链接:https://arxiv.org/pdf/1310.1531

研究团队评估了从在大规模、固定的目标识别任务集上以完全监督方式训练的深度卷积网络的激活中提取的特征是否可以重新用于新的通用任务。这些通用任务可能与最初训练的任务有显著不同,且可能没有足够的有标签或无标签数据来常规地训练或调整深度架构以适应新任务。他们研究并可视化了深度卷积特征在各种任务(包括场景识别、领域适应和细粒度识别挑战)中的语义聚类。研究者比较了依赖网络不同层次来定义固定特征的效果,并报告了在若干重要视觉挑战上显著优于现有技术的新结果。他们发布了 DeCAF,这是一种深度卷积激活特征的开源实现,包含所有相关的网络参数,以便视觉研究人员能够在一系列视觉概念学习范式中进行深度表示的实验。

最佳论文

论文 1:Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

  • 作者:Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach
  • 机构:Stability AI
  • 论文地址:https://proceedings.mlr.press/v235/esser24a.html

机器之心报道:Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?

这篇论文正是 Stable Diffusion 3 的论文。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。
图片
                              Stable Diffusion 3 模型架构。

扩散模型通过将数据的前向路径反转为噪声来从噪声中创建数据,已成为一种强大的生成建模技术,适用于图像和视频等高维感知数据。Rectified Flow(RF)是一种最新的生成模型公式,它将数据和噪声连接在一条直线上。尽管其具有更好的理论特性、概念简单,但它尚未被明确确立为标准实践。

该研究改进了现有的噪声采样技术,通过将 RF 模型偏向于感知相关的尺度来训练它们。通过大规模研究,该研究表明与用于高分辨率文本到图像合成的现有扩散公式相比,这种方法具有优越的性能。

此外,该研究还提出了一种基于 Transformer 的新型架构,用于文本到图像的生成,该架构对两种模式使用单独的权重,并实现图像和文本 token 之间的双向信息流,从而改善文本理解、人类偏好评级等。该研究证明,该架构遵循可预测的扩展趋势,并观察到验证损失随着模型大小和训练步骤的增加而平稳降低。
图片
                                                        改进的多模态扩散  Transformer:MMDiT 块。

论文 2:Genie: Generative Interactive Environments

  • 作者:Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes 等
  • 机构:Google DeepMind、不列颠哥伦比亚大学
  • 论文地址:https://arxiv.org/pdf/2402.15391.pdf

该论文定义了生成式 AI 的全新范式 —— 生成式交互环境 ——Genie(Generative Interactive Environments)。Genie 是一个 110 亿参数的基础世界模型,可以通过单张图像提示生成可玩的交互式环境。

机器之心报道:刚刚,谷歌发布基础世界模型:11B参数,能生成可交互虚拟世界

Genie 架构中的多个组件基于 Vision Transformer (ViT) 构建而成。值得注意的是,由于 Transformer 的二次内存成本给视频领域带来了挑战,视频最多可以包含 𝑂(10^4 ) 个 token。因此,谷歌在所有模型组件中采用内存高效的 ST-transformer 架构,以此平衡模型容量与计算约束。
图片
Genie 包含三个关键组件(如下图所示):

1) 潜在动作模型(Latent Action Model ,LAM),用于推理每对帧之间的潜在动作 𝒂;
2) 视频分词器(Tokenizer),用于将原始视频帧转换为离散 token 𝒛;
3) 动态模型,给定潜在动作和过去帧的 token,用来预测视频的下一帧。
图片
为了实现可控的视频生成,谷歌将前一帧所采取的动作作为未来帧预测的条件。然而,此类动作标签在互联网的视频中可用的很少,并且获取动作注释的成本会很高。相反,谷歌以完全无监督的方式学习潜在动作。
图片
论文 3:Considerations for Differentially Private Learning with Large-Scale Public Pretraining

  • 作者:Florian Tramèr, Gautam Kamath, Nicholas Carlini
  • 机构:苏黎世联邦理工大学、滑铁卢大学、Google DeepMind
  • 论文地址:https://arxiv.org/abs/2212.06470

通过利用在大型公共数据集上预训练的非私有模型的迁移学习功能,可以显著提高差分私有机器学习的性能。该论文质疑使用大型网络抓取数据集是否应被视为差分隐私保护。

该研究认为:将这些在网络数据上预训练的模型设置为「私有」模型可能会损害并削弱公众对差分隐私的信任。除了使用公共数据的隐私考虑之外,该研究进一步质疑了这种范式的实用性。该研究仔细检查了现有的机器学习基准是否适合衡量预训练模型泛化到敏感领域的能力,这些领域在公共网络数据中可能很难得到体现。

此外,该研究注意到部署大模型可能会造成隐私的净损失,因为需要将私有数据外包给计算能力更强的第三方。

论文 4:Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution

  • 作者:Aaron Lou、Chenlin Meng、Stefano Ermon
  • 机构:斯坦福大学、Pika Labs
  • 论文地址:https://proceedings.mlr.press/v235/lou24a.html

尽管扩散模型在许多生成建模任务中表现出色,但在自然语言等离散数据领域却未能达到预期效果。标准的扩散模型依赖于成熟的得分匹配理论,但将其推广到离散结构的尝试并未带来相同的经验收益。

在这项工作中,研究团队通过提出得分熵这一新颖的损失来弥补这一差距。得分熵自然地将得分匹配扩展到离散空间,无缝集成以构建离散扩散模型,并显著提升性能。

在实验中,他们在标准语言建模任务上测试了得分熵离散扩散模型(SEDD)。在可比的模型规模下,SEDD 优于现有的语言扩散范式(困惑度降低 25-75%),并且与自回归模型竞争,特别是在性能上超过了 GPT-2。此外,与自回归模型相比,SEDD 能够在不需要分布退火技术(如温度缩放)的情况下生成真实文本(生成困惑度比未退火的 GPT-2 高出约 6-8 倍),可以在计算量和质量之间进行权衡(以 32 倍更少的网络评估实现相似的质量),并且支持可控的填充(匹配核采样质量,同时允许除从左到右提示之外的其他策略)。

论文 5:Probabilistic Inference in Language Models via Twisted Sequential Monte Carlo

  • 作者:Stephen Zhao、Rob Brekelmans、Alireza Makhzani 、Roger Grosse
  • 机构:University of Toronto、Vector Institute
  • 论文地址:https://proceedings.mlr.press/v235/zhao24c.html

语言模型(LLMs)的众多能力和安全技术,包括 RLHF、自动红队测试、提示工程和填充,可以视为从由给定奖励或潜在函数定义的非规范化目标分布中采样。在这项工作中,作者利用顺序蒙特卡洛(SMC)的丰富工具箱来处理这些概率推理问题。特别是,他们使用学习到的扭曲函数来估计每个时间步长上潜在的预期未来值,从而能够在推理时的计算集中在有希望的部分序列上。

研究者提出了一种新颖的对比方法来学习扭曲函数,并与软强化学习的丰富文献建立了联系。作为扭曲 SMC 框架的一个补充应用,他们提出了一种方法,使用新的双向 SMC 界限在对数分区函数上评估语言模型推理技术的准确性。这些界限可用于估计推理分布与目标分布之间的双向 KL 散度。他们应用推理评估技术,证明扭曲 SMC 在从预训练模型中采样不良输出(对无害训练和自动红队测试很有用)、生成具有不同情感的评论以及执行填充任务方面是有效的。

论文 6:Debating with More Persuasive LLMs Leads to More Truthful Answers

  • 作者:Akbir Khan、John Hughes、Dan Valentine、Laura Ruis、Kshitij Sachan、Ansh Radhakrishnan、Edward Grefenstette、Samuel Bowman、Tim Rocktäschel、Ethan Perez
  • 机构:伦敦大学学院、Speechmatics、MATS、Anthropic、FAR AI
  • 论文地址:https://proceedings.mlr.press/v235/khan24a.html

将大语言模型(LLMs)与期望行为对齐的常见方法在很大程度上依赖于人工标注数据。然而,随着模型变得越来越复杂,它们将超越人类的专业知识,而人类评估的角色将演变为非专家监督专家。基于此预期,研究者提出了一个问题:较弱的模型能否评估较强模型的正确性?他们设置了类似的情景来研究这个问题:其中较强的模型(专家)拥有回答问题所需的背景信息,而较弱的模型(非专家)缺乏这些信息。研究者选择了辩论作为测试方法 —— 即让两个 LLM 专家各自为不同的答案辩护,由非专家选择最终答案。

研究团队发现辩论有效地帮助了非专家模型和人类回答问题,分别实现了 76% 和 88% 的准确率(原始基线分别为 48% 和 60%)。
图片
此外,以无监督方式优化专家辩手的说服力,提高了非专家在辩论中识别真相的能力。此结果在缺乏真值标签的情况下,通过辩论对齐模型的可行性提供了参考。

论文 7:Information Complexity of Stochastic Convex Optimization: Applications to Generalization, Memorization, and Tracing

  • 作者:Idan Attias、Gintare Karolina Dziugaite、Mahdi Haghifam、Roi Livni、Daniel Roy
  • 机构:本・古里安大学、多伦多大学、DeepMind
  • 论文地址:https://proceedings.mlr.press/v235/attias24a.html

在这项工作中,作者研究了在随机凸优化(SCO)背景下记忆与学习之间的相互作用。他们通过学习算法揭示其训练数据点的信息来定义记忆,并使用 Steinke 和 Zakynthinou(2020)提出的条件互信息(CMI)框架来量化这些信息。

该研究的主要结果是精确刻画了学习算法的准确性与其 CMI 之间的权衡,回答了 Livni(2023)提出的一个开放问题。本文表明,在 L² Lipschitz–有界设置和强凸性条件下,每个具有过度误差 ϵ 的学习者,其 CMI 分别下界为 Ω(1/ϵ²) 和 Ω(1/𝜖)。作者 进一步设计一个对手,展示了记忆在 SCO 问题中不可或缺的作用,该对手能够在特定的 SCO 问题中准确识别出大量训练样本。最后,他们列举了结果的若干影响,例如基于 CMI 的泛化界限的限制以及 SCO 问题中样本的不可压缩性。 

论文 8:Measure Dataset Diversity, Don't Just Claim It

  • 作者:Dora Zhao、Jerone Andrews、Orestis Papakyriakopoulos、Alice Xiang
  • 机构:斯坦福大学、Sony AI(英国伦敦)、慕尼黑工业大学、Sony AI(美国西雅图)
  • 论文地址:https://arxiv.org/html/2407.08188v1

机器学习(ML)数据集通常被认为是中立的,但它们本质上包含了抽象且有争议的社会构建。数据集策展人经常使用诸如多样性、偏见和质量等价值负载术语来描述数据集。尽管这些术语被广泛使用,但它们缺乏明确的定义和验证。该研究团队的研究通过分析 135 个图像和文本数据集中的 “多样性” 来探讨这一问题的影响。借鉴社会科学,应用测量理论中的原则来确定考虑因素,并提供有关数据集中多样性的概念化、操作化和评估的建议。他们的研究结果对 ML 研究具有广泛的影响,倡导在数据集构建中处理价值负载属性时采用更细致和精确的方法。

论文 9:VideoPoet: A Large Language Model for Zero-Shot Video Generation

  • 作者:Dan Kondratyuk、Lijun Yu、Xiuye Gu、Jose Lezama、 Jonathan Huang、Grant Schindler、Rachel Hornung、Vighnesh N Birodkar、Jimmy Yan、Ming-Chang Chiu、Krishna Somandepalli、Hassan Akbari、Yair Alon、Yong Cheng、Joshua V Dillon、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold、Lu Jiang
  • 机构:谷歌、卡内基梅隆大学
  • 论文地址:https://proceedings.mlr.press/v235/kondratyuk24a.html
  • 项目链接:http://sites.research.google/videopoet/

机器之心报道:视频生成可以无限长?谷歌 VideoPoet 大模型上线,网友:革命性技术

研究团队发布了 VideoPoet,这是一种能够从多种条件信号合成高质量视频的语言模型。VideoPoet 采用仅解码器的 Transformer 架构,处理包括图像、视频、文本和音频在内的多模态输入。
图片
训练协议遵循大语言模型(LLMs)的流程,包括两个阶段:预训练和任务特定适应。在预训练阶段,VideoPoet 在自回归 Transformer 框架内结合多模态生成目标的混合。预训练的 LLM 作为基础,可以适应一系列视频生成任务。他们展示了该模型在零样本视频生成方面的最新能力,特别是生成高保真运动的能力。

论文 10:Stealing part of a production language model

  • 作者:Nicholas Carlini、Daniel Paleka、Krishnamurthy Dvijotham、Thomas Steinke、Jonathan Hayase、A. Feder Cooper、Katherine Lee、Matthew Jagielski、Milad Nasresfahani、Arthur Conmy、Eric Wallace、David Rolnick、Florian Tramer
  • 机构:OpenAI、Google DeepMind、苏黎世联邦理工学院、华盛顿大学、麦吉尔大学
  • 论文地址:https://arxiv.org/pdf/2403.06634

该论文提出了一种全新的攻击 AI 模型的方法。它能够从 OpenAI 的 ChatGPT 或谷歌的 PaLM-2 的黑盒生成式语言模型中,精准提取信息。这种方法能侵入 Transformer 的嵌入投影层(这是模型理解语言的关键部分),只需要通过 API 访问权限,通过一个网站或应用程序,和模型聊天就能让它「破防」。基于论文中的方法,研究者破解了了 GPT 系列两个基础模型 Ada 和 Babbage 的整个投影矩阵的整个投影矩阵,如隐藏维度这样的关键信息也直接破获:一个为 1024,一个为 2048。他们还攻破了 gpt-3.5- turbo 的隐藏维度,如果想要恢复模型的整个投影矩阵,成本不会超过 2000 美元。研究者提出了一系列防御措施和缓解策略,以防范此类攻击的发生。
产业DeCAFICML
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

概念学习技术

概念学习,也称为类别学习、概念获得和概念形成,定义为“搜索和列出可用于区分各种类别的非样本的样本的属性”。 更简单地说,概念是帮助我们对对象、事件或想法进行分类的心理类别,建立在对每个对象、事件或想法具有一组共同相关特征的理解的基础上。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

规范化技术

规范化:将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0 到1.0 或0.0 到1.0。 通过将属性数据按比例缩放,使之落入一个小的特定区间,如0.0到1.0,对属性规范化。对于距离度量分类算法,如涉及神经网络或诸如最临近分类和聚类的分类算法,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对于训练样本属性输入值规范化将有助于加快学习阶段的速度。对于基于距离的方法,规范化可以帮助防止具有较大初始值域的属性与具有较小初始值域的属相相比,权重过大。有许多数据规范化的方法,包括最小-最大规范化、z-score规范化和按小数定标规范化。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

场景识别技术

场景识别是一类很常见的图像处理任务。就是给一张地标图像,快速准确地识别出这张图像的场景,识别的结果既可以是具体的地理位置,也可以是该场景的名称,还可以是数据库中的某个同样的场景。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

视频生成技术

视频生成是指利用深度学习等技术生成视频的任务。

暂无评论
暂无评论~