Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

哈工大计算学部长聘教授车万翔:ChatGPT浅析

3 月 21 日,在机器之心举办的 ChatGPT 及大模型技术大会上,哈尔滨工业大学计算学部长聘教授、博士生导师车万翔发表主题演讲《ChatGPT 浅析》,在演讲中,他回答了 ChatGPT 究竟解决了什么科学问题,是如何解决该问题的,以及未来还有哪些亟待解决的问题。

另外我们也了解到,车万翔教授大模型相关的科研成果也正在进行产业转化,机器之心后续将为大家带来报道。

图片

以下为车万翔在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

大家好,我是来自哈尔滨工业大学的车万翔,非常感谢机器之心的邀请,我本次报告的题目为《ChatGPT 浅析》。之所以说是浅析,是因为我们确实没有了解到关于 ChatGPT 的更多详细内容,只是根据发表的一些论文来猜测它背后的技术。

图片

自然语言处理

ChatGPT 属于自然语言处理研究方向的一个最新进展。首先什么是自然语言处理呢?自然语言指的是人类语言,特指文本符号,而非语音信号。而自然语言处理就是让用计算机来理解和生成自然语言的各种理论和方法。当然传统的、或者说很早以前的自然语言处理,等价于自然语言理解,因为当时自然语言生成太难了,只能用一些模板的方法来生成。但是现在我们看到,随着 AIGC 等这些技术的进步,生成技术成为自然语言处理的一个主流方向,像 ChatGPT 本身就是一种生成模型,这也是自然语言处理的最新进展。

其实让机器理解自然语言还是件很难的事,因为从人类的智能角度来讲,自然语言处理属于认知智能,需要更强的抽象和推理能力。

图片

自然语言处理面临很多难点,我们举例来说,如下图所示,在这次对话中,内容包含很多「意思」,不同的「意思」代表不同的含义,这种情况属于典型的歧义性问题。除了歧义性之外,自然语言处理面临的难点还包括抽象性、组合性、进化性等。在抽象性这个问题中,我们以汽车这个词举例,它背后有非常丰富的含义,我们一说到汽车这两个字就会有很多联想;组合性也是一样,无论哪种语言,它都是由一些基本符号构成的,这些基本符号可以组合成无穷无尽的语义。

图片

正是因为这些难点,使得自然语言处理成为制约人工智能取得更大突破和更广泛应用的瓶颈,包括多位图灵奖得主在内的众多学者,很早之前他们就提出自然语言处理将是人工智能未来发展的重要方向,因而自然语言处理也被誉为「人工智能皇冠上的明珠」。我们发现近期人工智能很多进展都离不开自然语言处理,比如著名的 Transformer,它最早是用于解决机器翻译问题,到后来的 BERT 以及 ChatGPT,其实这一波又一波的浪潮都是和自然语言处理相关。所以把自然语言处理称为人工智能皇冠上的明珠也不过誉。

图片

传统的自然语言处理可分为四个方向:底层的资源建设;中间层的基础研究,包括分词、词性标注等;接着是应用技术研究,包括信息抽取机器翻译问答系统等;再往上是应用系统,包括教育、医疗等。

但为什么说是传统自然语言处理呢?这两个字是在三个月前加上的,首先是很多基础研究任务,如分词、词性标注等已经蕴涵在大模型中了,所以这些基础任务就没有存在的必要。其次,ChatGPT 不是针对一个模型或者一个单独任务去做,它把所有应用任务统一起来进行,所以传统的按照任务划分的方式会受到挑战。因此,对于整个自然语言处理来讲可能需要重新洗牌。

图片

自然语言处理发展历史和人工智能发展历史几乎是同步的,从上世纪五十年代开始利用小规模专家知识;1990 年出现了浅层机器学习算法;2010 年深度学习算法;然后 2018 年以预训练模型为代表的范式出现;到 2023 年 ChatGPT 等模型的出现,一共经历五次范式变迁。

图片

预训练语言模型

无论是 ChatGPT、还是 BERT,其背后都是预训练模型。什么是预训练模型呢?传统的机器学习方法,从一些未标注的数据里面采样出一些数据,然后经过人工标注训练出一个模型。但是随着未标注数据的增加,人类已经没办法逐个标注,怎么办呢?然后预训练模型出来了,有人称其为无指导方法,其实更准确的名字是自指导或者自监督方法,毕竟这一方法利用了语言自身的顺序性。

有了预训练模型之后,我们在目标任务上进行精调,这样就可以获得目标任务更好的模型。传统的方法根据不同的任务训练不同的模型,假如说有很多任务,就需要精调很多模型,这样给模型训练和应用带来很大的麻烦。

图片

在预训练模型阶段比较有代表性的研究是 GPT-3,它是 OpenAI 和微软在 2020 年发布的大模型,参数量达 1750 亿,以当时的视角来看,研究者认为这个模型太大没办法精调,所以「提示语」方法出现了。所谓提示语,即直接给出任务描述,可以让模型自动补全这个任务,这个补全过程就是在完成任务,如果再给出一些示例,模型性能可能会更好,这种也叫做情境学习。采用这种方式的一个好处是模型无需针对某一个任务再次训练,就可以完成不同文本生成任务。当然,这个文本生成任务是加引号的,因为它不仅能回答问题、文章续写,还可以完成生成网页,甚至生成代码等范文本任务。

图片

GPT-3 的出现并没有引起大家的特别关注,为什么呢?因为当时大家发现 GPT-3 虽然能够实现这些任务,但效果并不是很好。举几个典型的例子,比如问 GPT-3「烤箱和铅笔哪个重」,它会说「铅笔比较重」;再问「我的脚上有几只眼睛」,它会说「两只眼睛」。

GPT-3 给出的答案很多是错误的,有些人就认为花这么多钱构造这么大的模型也没有解决根本任务。当然 GPT-3 原文也指出,在故事结尾选择任务上比我们组丁效老师等所提出的具有知识推理能力的模型低 4.1%。因此大家认为这种大模型鲁棒性差、可解释性弱、推理能力也不强,因此需要有更多的知识。

图片

由于这些问题的存在,学术界走了两条路:

第一条路:既然模型缺知识、缺推理能力、缺可解释性,就需要针对这些任务进行专门优化。我们能不能加知识,比如往里面加知识图谱,专门做可解释性?这是一条路。

第二条路:以 OpenAI 为代表,不是针对特定任务解决,而是不停的往里面加数据,有多少人工就有多少数据,就像现在 ChatGPT 的路线,不停的往里面加数据,甚至是加人工标注的数据。

现在看来,这种加知识图谱的方法好像确实没有特别明显的进步,反倒是大力出奇迹的方法取得更好的进展。比如还是问刚才那两个问题,ChatGPT 就会说「烤箱更重」,而且会给出一个解释;问「脚上几只眼」,它也会否定说「脚上没有眼」,同时给出解释。可以说很好的解决了这个问题。

图片

当然还有其他示例,比如让 ChatGPT 用藏语写学术会议致辞,它首先会否定,说自己不会。这是很厉害的,原来我们做问答和聊天模型很难否定一个问题。另外,它说会用英语写,如果我说可以,它就真的会用英语写。可见 ChatGPT 对会的语言掌握的很好。

还是前面那个例子,「领导和阿呆的对话」直接问 ChatGPT 这到底是什么意思,它会回答说有两个意思,具体每一句话的意思是什么,模型都解释的很清楚。这是非常惊艳的,仔细看未必准确,但模型至少理解了这个问题,这是很难做到的。

图片

所以 ChatGPT 到底是什么?其实这个名字有一点误导,说到 Chat 很多人就会想到聊天系统,其实它本质上不是一个聊天系统,它只是伪装成聊天,本质上是「对话式通用人工智能工具」。当然有了这样强大的工具之后,不同的学者有不同的观点,像比尔・盖茨、黄仁勋他们认为这个发明很伟大,类比成 PC 互联网和 iPhone 这种技术,可以造福人类;当然还有另外一派以马斯克为代表的,他们认为像 ChatGPT 这种通用人工智能的出现会威胁人类;还有一些理性派,像图灵奖得主 Yann LeCun 曾表示,就底层技术而言,ChatGPT 并不是多么了不得的创新,他表示虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。

图片

大家看到的更多的是表面现象,说它效果多么惊艳,但是一个惊艳的东西未必会引起这么大的轰动,到底背后产生了哪种变革或者真的解决了什么实质性的科学问题?

我认为主要解决的是知识的表示以及知识调用这种根本性的革命,可以说每次知识表示和调用方式的转变都会引起产业界巨大的变革。知识最早是以数据库的方式存储在计算机内部,想调用它就需要 SQL 语句等,需要人去适应机器,即使是这样的技术也产生了很多伟大的公司,如 Oracle 等。但后来大量的知识是存储在互联网里,这种知识是非结构化存储的,包括文本、图像,甚至视频等。要想调用这里面的知识,我们就不需要学 SQL 语句,只要用关键词,通过搜索引擎的方式就可以把存储在互联网中的知识调用出来。现在 ChatGPT 仍然会存互联网的知识,但是它不是以显示的方式存储,而是以参数的方式存储在大模型中。

但是 GPT-3 两年前就能完成这样的任务,为什么没有引起这么大的轰动呢?因为它没有解决好另外一部分问题,即怎样把这些知识调用出来。ChatGPT 很好的解决了这个问题,通过自然语言的方式就可以很好的把这些知识调用出来。ChatGPT 等于把这两块打通了,一旦打通之后就引起了剧烈革命,相信也会像前两次一样产生伟大的公司,现在 OpenAI 先行一步,或者说拔得头筹,但能不能笑到最后也不一定,因为现在很多公司都在积极跟进。当然还有一个比较有意思的发现,就是后面代表性的公司每个都离不开微软,每个都有微软的身影,但微软每次都不是老大,都跟在后面,这也是挺有趣的现象。

图片

ChatGPT 的发展历程也非常励志,第一代 GPT 就是 OpenAI 提出来的,甚至比 BERT 提出的还要早,GPT 开启了自然语言处理预训练时代。但是大家记住更多的是 BERT,因为当时 OpenAI 还是个小公司,大家还没太关注它的工作,同时 BERT 是 Google 提出来的,从自然语言理解的角度来讲,BERT 参数量大,具有双向理解方式,所以它的效果比 GPT 好。但是 OpenAI 并没有模仿这种方式做双向,它继续沿着 GPT 单向结构进行,后来就产生了 GPT-2,学术界用的也比较多,GPT-3 的出现,风靡了一阵,不过之后大家觉得这模型浪费钱,效果还不怎么好,去年 3 月 InstructGPT 出现了,吸引了很多国际学术界的关注,但国内关注的相对较少。

直到去年 11 月底 ChatGPT 的发布,一炮打响,引起更多关注,以及今年 3 月份发布的 GPT-4,它不光处理文本,甚至融合了多模态。OpenAI 整个历程比较励志,它一直沿着 GPT 这条路线在走,最后还走通了,有人说 OpenAI 比较犟,比较执拗,但确实它有自己的信心和理想,走成了。

图片

从 GPT-3 到 ChatGPT,也不是一蹴而就的,中间做了很多工作。其中比较有意思的是 CodeX 的提出,这一模型单纯的做代码预训练,进行代码补全,有了它,在代码编辑器里可以帮助我们写代码,这个工具非常好用。此时,GPT 等于分化了,一部分走语言,一部分走代码,中间 code-davinci-002 又把这两者合并了,在语言模型的基础上继续使用代码数据进行预训练,竟然产生了很好的推理效果,这是为什么呢?可能代码里面有很好的逻辑性,解决问题有顺序逻辑,甚至有远程的依赖,当然这里面有很多解释,这只是其中一种猜测,现在大家也不了解为什么 ChatGPT 出现了这么好的效果。

图片

总结来看,ChatGPT 大概有三项核心技术:

1、一定要有大规模预训练模型。到底模型多大算大?现在也没有明确的定义和概念,就像大数据的概念一样,有人认为百亿以上参数就差不多了,但想要模型涌现推理能力可能需要 600 亿以上的参数

2、Instruction Tuning。不是针对一个任务一个任务的精调,而是把所有的任务都统一成 Instruction 指令,以及相应的答案。其实又回到了有指导学习这种思路,只是它融入的任务更多。这样做的好处是这些任务可以互相帮助,此外还能达到任务泛化的效果,对于一些没有见过的新任务,可以通过对原来见过的任务的学习来处理新任务,起到任务组合的效果。比如我想做一种跨语言文摘,这个任务没见过,但是模型见过机器翻译任务,又见过文摘的任务,让它做这个新的跨语言文摘任务,它也可能做的很好,Zero-shot 能力非常强。其实这也是强人工智能必须的,否则一个任务、一个任务的去训练,又回到原来弱的人工智能方式。

3、现在大家关注比较多的是基于人类反馈的强化学习,从提升模型上限的角度可能不是主要目的,它要提升模型生成结果的多样性和安全性。当然这种方法还带来一个好处,随着模型上线可以收集越来越多的人类反馈,用人类反馈可以更好的帮助训练模型。

图片

ChatGPT 给自然语言处理领域带来了很大冲击,现在越来越多的资源,包括计算资源、数据资源、用户资源,都为工业界所掌握,因此更容易做系统级的创新。

图片

学术界面临的困难会越来越大,因为我们没有那么多数据,没有那么多计算资源。当然也不是说学术界就无事可做了,以后怎么办呢?可能还是要往下走,但是再往下走又面临选择,你是不是沿着大模型的路往下走,学术界有人认为这不是很好的路线。

不仅是自然语言处理,从人工智能发展的过程来讲,其实能看到两个明显的趋势:

一是模型同质化现象越来越严重。原来要根据不同任务、不同领域,用不同模型,现在统一使用 Transformer,我觉得这个趋势没法逆转,即使出来 Transformer 替代品,但它一定是一个同质化的模型。

图片

第二,模型规模越来越大。很多证据表明,随着模型规模越来越大,会出现智能的涌现。我们很难做到把模型变小,让它具有很好的通用性。当然具体行业应用还是需要小的模型,但要实现通用人工智能,可能还是需要模型足够大。

图片

正是由于这两种趋势,即使在学术界也不得不拥抱大模型,这不是以个人意志为转移的。既然拥抱,怎么拥抱?有很多条路可以走,主要从以下三个方面入手:

1、弥补大模型的不足,查缺补漏,发现模型哪里做的不好就去弥补它;
2、探究大模型的机理,现在很多任务都停留在实验阶段,至于模型背后为什么产生这样的效果我们也不了解,我们要知道背后的机理;
3、推广大模型的应用。

图片

大模型有哪些不足之处?虽然 ChatGPT 效果惊艳,但它还不完美、存在很多不足,包括事实一致性不足、逻辑一致性不足。

图片

但是怎么弥补呢?可以用增强的方法,图灵奖得主 Yann LeCun 发表过一篇文章就总结过这种方法,包括加上搜索引擎、知识库、外挂工具等,这些都可以叫增强。除此之外,目前也有很多工作使用搜索引擎来弥补现在 ChatGPT 的不足。

图片

接下来是探究大模型背后的机理,现在的争议围绕到底是 Encoder-Decoder 结构好,还是 Decoder only 结构好。这些方法各有各的优缺点。Decoder only 如 GPT,其参数和数据利用率更高,但从对输入理解的角度,Encoder-Decoder 结构可能更好。这两者之间怎么平衡,或者说到底哪个好,现在也没有统一的结论,还处于探索阶段。

图片

还有就是怎么对大模型进行评价。现在有很多评价模型的数据集发布,但这个数据集一旦发布就有可能泄漏,有些人会把数据集用到训练数据里,怎么解决这种问题,也是需要考虑的。

三是解释包括涌现现象、CoT 等出现的机理。

图片

最后要推广大模型的应用。ChatGPT 是一种通用模型,怎么把它落地到各行各业,包括怎么做定制化、小型化、个性化,甚至角色化、安全性、隐私性等等,这些都是需要考虑和解决的问题。

图片

ChatGPT 到底还会走多远,我还以之前的趋势图进行介绍。从图中可以看到,一个技术范式的历程大概是上一个历程的一半。比如前面基于专家知识做了四十年,浅层机器学习算法做了二十年,深度学习做了十年,预训练模型做了五年,那么 ChatGPT 还能做多少年?根据现有的趋势推测可能 2.5 年,也就是到 2025 年可能又要更新换代了。但是这么发展下去会什么样?

有人会说这个预测不对,如果按这个预测来讲,可能到某一天技术就停止进步了。我认为也可能会出现这种情况,因为随着人工智能的发展,可能会威胁到人类,一旦人工智能威胁到人类生存之后,有可能会被立法禁止人工智能技术的进步。

图片

再往后人工智能怎么走,现在 ChatGPT 比较好的解决了推理问题,以后可能要解决语用的问题,同样一段话所处的语境不一样,对象不一样,用的语气语调不一样,可能表达的含义就不一样。

图片

当然,只从文本入手没法解决这个问题,还是要往多模态等发展。结合更多的模态,通往真正的 AGI。

之前有学者把机器能够利用的数据范围划为五个,从最简单的小规模文本一直到和人类社会互动这五个范围。之前很长一段时间大家都只用文本端,现阶段等于是跨过中间的两个(多模态和具身),直接到了和人类社会的互动,因为现在 ChatGPT 就是和人类社会交互。在交互过程中,人也在教机器怎么说语言,怎么理解语言。但跨过中间两段不代表就真的包含这两段,还是要把这两段补齐。现在 GPT-4 补齐了多模态,Google、微软等也在做具身方面的研究。

图片

总结和展望

最后是总结和展望,自然语言处理人工智能皇冠上的明珠,ChatGPT 是继数据库和搜索引擎之后的全新一代知识表示和调用方式,模型同质化和规模化的趋势不可逆转。要想真正实现 AGI,需要结合多模态和具身智能。

图片

以上就是我报告的全部内容,谢谢大家!
理论车万翔
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

强人工智能技术

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

自然语言生成技术

自然语言生成(NLG)是自然语言处理的一部分,从知识库或逻辑形式等等机器表述系统去生成自然语言。这种形式表述当作心理表述的模型时,心理语言学家会选用语言产出这个术语。自然语言生成系统可以说是一种将资料转换成自然语言表述的翻译器。不过产生最终语言的方法不同于编译程式,因为自然语言多样的表达。NLG出现已久,但是商业NLG技术直到最近才变得普及。自然语言生成可以视为自然语言理解的反向: 自然语言理解系统须要厘清输入句的意涵,从而产生机器表述语言;自然语言生成系统须要决定如何把概念转化成语言。

问答系统技术

问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
推荐文章
暂无评论
暂无评论~