Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

周海聃作者樊晓芳编辑

一家「传统」IT上市公司的人工智能「新路」

智慧城市是什么?国内一直没有一个清晰的定义。业内各方从自身角度出发都做过一些尝试,但目前还没有形成一个共识。为了尽可能更准确地定义「智慧城市」,机器之心决定推出「智慧城市深度访谈」系列。

我们希望通过多角度转述业内专家的观点,呈现出一个目前中国在「智慧城市」领域的发展现状及所遇困难的全貌,以供各方参考。

我们认为,智慧城市不应是高房大瓦与电子版「千里眼顺风耳」的简单堆砌。而应从体验出发,在软性环境中体现出一个城市对居民的人文关怀。

要做到这一点,第一步便是能感知市民的整体真实需求。其中,让机器理解人的语言以及「数据打通」的能力必不可少。

作为机器之心「智慧城市深度访谈」的第一站,我们有幸采访了一家在自然语言处理以及大数据领域已有多年项目经验,并有自己独特工程化思考的上市公司。与人们的印象不同,神州泰岳通过多年的兼并重组,已经陆续发展出人工智能、物联网板块,成为了一家多板块综合性企业。

本次访谈的嘉宾,神州泰岳人工智能研究院院长晋耀红博士,与 AI 大数据副总裁张瑞飞,共同向我们介绍了神州泰岳与众不同的基于语言学知识构建的 NLP 语义分析平台,及以「数据高速通道」取代「动迁式」做法的智慧城市大数据新思路,还介绍了神州泰岳如何通过工程化的思路,让人工智能算法真正结合到实际智慧公安场景中的经验。

以下为对话原文,机器之心做了不改变原意的整理:

需求驱动的语义分析工程特色

机器之心:神州泰岳人工智能聚焦自然语言处理技术,业界对神州泰岳人工智能业务最起初的认识也是从「DINFO-OEC 非结构化文本分析挖掘平台」这个语义分析产品开始的,该平台是如何设计并建设起来的?

晋耀红:我之前在中科院主要做「HNC(Hierarchical Network of Concepts)概念层次网络理论」的研究,这是一套涉及词语、句子到篇章之间的关系全框架理论。

当时希望设计一套语义网络把语义给符号化,比如「高兴」和「伤心」是一对反义词,但把这对词直接输入到计算机,计算机是无法理解这对词之间的反义关系,我们希望通过用符号的语言描述让计算机能理解这种关系。

后来在北师大时做的国家课题——「针对海量文本的知识表示和计算」,也是基于 HNC 理论上的扩充研究,是十二五国家 863 项目中中文信息处理语义相关的唯一课题。

再后来创办了中科鼎富,做企业以后才发现一个个零散算法的研究,在面对客户的具体需求时是远远不够的,对方更希望直接看到产品在他们的业务场景下能产生什么效果。后来在市场上慢慢打开局面的方法,就是推出「DINFO-OEC 语义分析平台」。

DINFO 为「鼎富」的英文名,OEC 代表「Ontology-Element-Conception」,「OEC 模型」是由本体树、要素树和概念树三棵树组成。我们希望由本体树、要素树直接描述业务,由概念树来对剩下的复杂语言的语义进行处理。

OEC 平台主要做两件事:1、把零散的算法按一定规则集成起来;2、根据业务建模,即把客户的业务知识系统性地通过符号化处理表达出来,平台底层算法自动把数据进行整理。平台的定位就是把信息系统性地分类整理出来,将非结构化信息转结构化,根据算法自动把信息进行分类、提取标签。

比如在处理投诉业务的客服场景,客服系统接收到的是一条条非结构化的投诉文本信息,OEC 平台能将投诉的「对象」、「内容」、「重要性」等结构化信息从文本中分析出来。一条投诉文本可能有 1000 字,客服想要看的可能就是几个信息点,比如建议、表扬,还是投诉等标签化的信息。

目前平台底层中与 NLP 相关的算法有 200 多个。最简单的如 word2vec 这些训练的工具,在平台底层都有集成。训练的时候可以自行选择 SVM、LSTM 等算法。平台在金融、公安业务中的分类、提取功能的正确率和召回率都能达到 95% 以上。

机器之心:目前神州泰岳的 OEC 语义分析平台在业内有竞品吗?

晋耀红:我们在业界暂时没有竞品。

在算法技术路线上,我们更强调对语言本身的理解,坚持以本体论为框架,把人的语言学知识符号化,局部结合机器学习的算法。从我们在中科院期间研究的 HNC 概念层次网络理论到现在的 OEC 平台,其实都是以本体论为核心。

我们在这个技术路线下,希望在更高、更抽象的层次,用本体论的思想把理解相关的根本性的知识解决掉,剩下的适合交给算法的局部再交给算法处理。

国内其他一些跟 NLP 相关的公司,目前主要还是在算法层面希望做的更精细。受到深度学习的影响,目前国内其他公司研究的重点更多是 seq2seq 的这类跟语音相关的问题。输入的是语音的 sequence,输出的是文字流的 sequence,对句子与句子之间语义关联性,以及篇章中段落之间的关联性关注要少一些。

这种方法适用性可能会更好一些,但最根本的问题是没有真正的理解语言。单独基于深度学习的算法,在测试集上看上去效果很好,但是实际落地的场景中基本很少看到。因为在实际落地的场景中,训练的语料库往往没有那么大。

机器之心:所以称神州泰岳 NLP 技术「自成一派」的原因主要还是在选择以本体论为核心的语义理解技术路径上。能否再具体介绍一下你们的技术研发方法论?

晋耀红:NLP 对于语义领域的研究现有两大学派:一派坚持用一定的语言学知识为基础的研究方法;另一派是纯计算机的,主张完全用计算机算法来拆解语言之间的关系,包括用统计学习、机器学习深度学习等方法。这两派暂时没有孰优孰劣之分,要靠实践来检验。

我们跟很多纯计算机学派的研究者也是朋友,他们的观点主要是,不管语言里是什么都标注出来。但这有点像大海捞针,需要考量背后的计算力及付出的代价。基于语言学的研究者则希望教会计算机人类语言的规则和知识。在这一点上,两个派别不能达成一致。

神州泰岳作为一家商业化运营的公司,主要服务企业客户,目的是在有限的时间内有效解决问题,不参加学术研究路线之间的争论。

我们从历史工程项目中总结的经验出发,把已有的人类语言学的知识,通过语义库告诉机器。在多年的积累下,我们的语义库已积累了 80000 余个语义概念,主要是中文词,包括上位词、下位词、同义、转义等等,通过语义对一个词在特定语境下的概念进行描述。

语义库是人对常识知识和语言知识的积累和表示,所以我们希望把它符号化。目前我们有一个由 30 余人的语义库团队在做语义符号化的工作,他们大部分是语言学背景的。

除此之外,还有语料库,主要对客户的文本数据进行标注,从中提取和分析出来其中包括的语言知识。前段时间神州泰岳跟北师大联合发布的 Chinese Word Vector 语料库,这个语料库生成的 word2vec 基础资源机器可以直接使用。(机器之心报道:深度 | 自然语言处理的一大步,应用Word2Vec模型学习单词向量表征

从语料到语义存在一个知识的提炼过程,语义库和语料库是一个相辅相成的关系。

把人的语言学知识告诉机器的做法,一个最明显的优势是在应用场景下可以做到冷启动。比如公安、客服系统,用已有的语义分析框架使系统先启动起来。虽然也许一开始效果并不一定特别理想,假设准确率是 50%,但这部分准确的语料就可以作为标注语料,作为算法学习的样本,去做扩充,然后做一定的泛化。这样形成一个良性循环,不断的逼近客户要求。

目前很多深度学习应用场景下,需要足够的语料来训练。假如光训练预料就需要 1 个月,这 1 个月也许客户就没有耐心了。有些客户就是想要两天时间内就看到效果。另外很多客户数据也不可公开,无法准备出符合要求规模的数据去让机器训练。

张瑞飞:80-90% 的客户都有这样的问题,比如中国电信,客服的动单分类有 2000 多项。电信自己整理了 3 个多月,每一个分类下的数据都很少,但电信也不可能在每一个细分小类都帮助我们训练出那么大量的数据,提供给机器学习算法训练。

实践过程中很多场景都有这个数据冷启动的问题。晋博士提出的方法是在没语料的情况下能产生一定效果,然后在效果上进行优化迭代。

晋耀红:再比如,我们最近在给工信部做一个公文写作的研究课题,其中一个模块就用到深度学习的方法来对句子进行复述,把表达方式上弄得更丰富一些。但我们发现公文的语料就很少,我们把所有工信部的公文全部搜集起来才 18000 篇。18000 篇对于公文来说已经很多了,但是对于机器 seq2seq 的算法还是很少,这样用深度学习训练出来的算法还不可用。

所以我们就结合人的经验知识,让机器在 18000 篇里面自动学习每一种公文类型,或者每一个发文对象写作的规范或者写作的格式。利用学习的结果去摘取或者自动写一些句子,所以在这种场景中我们还是把人的知识结合起来。

工程经验帮助平台完善底层算法

机器之心:在面对自然语言理解的问题时,很多训练语料都需要人工提前标注。但也是因为语言的范畴很大,语义特征定义起来很困难。那语义模型的泛化能力的根本,是否取决于人们花多少时间去标注出多大规模的语料?

晋耀红:这里面其实涉及两大类知识。

第一类是需要人工定义,用于理解基本词汇语义的「常识性知识」。比如我们这个对话的场景下,很多关于人工智能的知识都算是常识,开始对话前对话双方就都理解了,这就建立在双方都互相了解一些特定词汇的概念的基础上。在我们这个平台模型里,主要体现在常用词汇的语义和语义关联性,比如「高兴」和「伤心」这两个词在各个行业场景中的意思基本不会变。这类常识性语义的知识基本靠人工来构建。目前我们已经构建了 80000 多个资源的语义库,覆盖了大部分的中文词汇。

另一类是可以人工给的,但也可以通过人工标注让机器自动学的「非常识性知识」。比如特定领域的分类体系,需要人工给定义,机器可以进行一定程度的学习,但主要还是靠人工。但也有一些领域可以通过语料标注来自动学的。比如司法领域里,一些收集不全的专业法律术语就可以通过算法、语料让机器自动学习。

张瑞飞:深度学习的方法要有泛化的能力,一定需要数据去驱动。

举一个实际情况例子,我们对 A 市公安案事件的学习,模型对案件分类、要素提取的准确率,直接用深度学习的方法可能能到 70-80%,但是一放到 B 市、C 市公安案事件,准确率就会降到 50% 以下。因为比如一些 B 市、C 市的方言语料,系统在 A 市的文本中没有见过。

那么解决的方法,第一种就是叠加使用晋博士基于本体论的方法。因为本体论是可以通过小语料用符号规则来表示的,注入先验知识。我们通过这个方法把深度学习模型 70-80% 的准确率提升到 90% 以上。

第二种是通过迁移学习的方法。

第三就是使用大量标注语料。我们对整个公安 400 万个案事件进行了标注,提取了该领域的词向量 20000 个。通过上面多种方法的叠加,最终准确率达到 99%。达到这样的水平,我们才能说有泛化能力。

这个过程付出的成本还是挺大的,因为公安网不允许连外网,一定要驻场标注。同时还需要通过一线业务人员的反馈,才能知道提取的特征的准确性。而且在模型黑箱训练的过程中,还没法进行修改。

所以不结合晋博士的先验知识的能力,我们是没有办法在公安落地的。如果准确率只有 75%,肯定不够,平台就没法用了。

机器之心: 就上述公安的项目,标注的成本和效率大概是怎样?

张瑞飞:我们驻场了 50 多个人,标注了一年半,标注了 400 万个案事件,基本覆盖了国内至少 30、40 个地市级城市在过去十年的所有案事件。

案事件有一些特征,就是例子特别少,数量跟新闻根本没办法比。另外案事描述一般特别短小,几乎没有统计的特征,没法根据词频统计重复出现的词汇。

如果我们单纯靠深度学习,其实效果并不好,就必须结合的晋博士的理论进行结合,当然结合方式有深浅之分。

机器之心:在公安场景中,每个刑警基于自己的断案经验,可能都会有一套专属的断案方法论,比如需要搜集哪些线索、哪些线索最有价值。OEC 平台在建设过程中是如何使用人的经验?并且在实际应用中如何与人的研判信息相结合、交互?

张瑞飞:我们的「神州泰岳智脑 2」的系统里,研判路径是自学习的一个过程。

每个刑警在断案的时候的确都有自己的思维规律,但是这些思维规律主要可以归纳为四种——图谱、时间轴、地图、标签分类,这是我们总结的基本的研判模式。

对每一个研判路径,我们定义了需要输入的准确的数据类型,在界面上会要求业务人员输入相关信息,系统在后台就能形成一个参数

也许在训练半年以后,系统就可以根据案件自动分类,在没有人工干预前,沿着以前的研判路径进行判断。做到这种程度就可以减少反应时间,这种预处理在需要时就可以马上针对大批量案件计算出来路径,比以前可能要算 48 小时效率高很多。

另外,这个系统可以替代人对已有线索的遗忘。人在专注于一个焦点问题时,可能会忽略之前的线索,这时系统可以帮助人去处理一些背景信息线索,让人可以把精力聚焦在最需要关注的问题上,而又不会忽略掉重要的背景联系。

这是我们倡导的一个人机交互的模型,做到这一步后,我们希望后续可以帮助公安去自动地发布作战指令,甚至去建设一个真正的「公安大脑」。

在这个平台的帮助下,当遇到重大案子而派出所没有足够研判的警力时,就可以申请技侦、现场勘查、刑侦等资源,像会诊一样,多个部门一起形成一个指挥方案;或者突发一些重要事件时,公安需要马上将各种信息结合起来的时候,人工智能的威力就能很好体现。合作作战平台带来的应急和同步上案能力的提升是传统的合作作战方案给予不了的。

「数据打通」的新思路

机器之心:神州泰岳除了语义分析 OEC 平台,还开发了一系列大数据产品。自然语义处理技术要在实践中落地,底层的数据打通是否必不可少?

张瑞飞:数据是实现人工智能技术应用的必要前提。在未来的五年,我们觉得数据打通和共享是常态。

公安现在建大数据中心,就是想解决公安部内部信息打通、融合的问题。

政府最高层是有意要打破这个数据壁垒的。比如,公安部部长赵克志在深圳讲:「要大力推进公安数据智能化建设,坚决打破部门警种壁垒,推进数据融合共享,加强高端集成应用,助推警务流程再造。」

我们觉得,我们目前在做的事情跟赵部长提的理念非常接近了。

为了帮助企业管理数据,我们做了三种数据打通:结构化数据和非结构化数据打通——「Dinfo-OEC 语义分析平台」、互联网外网数据和企业内网数据的打通——「蜂鸟信息采集系统」、企业各类应用系统和第三方系统之间的高速数据共享——「Buffer 数据流水线」。

机器之心:能否具体介绍一下「Buffer 数据流水线」是如何帮助机构内部和机构之间实现「数据打通」?

张瑞飞:传统大数据公司做智慧城市的数据打通通常是「动迁式做法」,建一个大数据平台把所有现有分布在机构内部各处的数据收上来。但我们做的是建高速的数据共享通道——「Buffer 数据流水线」,将企业内部各类应用系统和第三方系统之间建立连接。

我们认为,通道的方式比动迁的方式更好。如果把通道的做法比喻为修路,原来的数据库比喻成村子或者楼也好,通过通道我们可以把它连成一个虚拟的数据资源池,就是数字的虚拟化。同时数据高速通道加速了数据处理速度,打通的过程中就可以开始服务客户,而不是等建成后才服务客户。比如运算速度不够,就提高运算力;如果客户把数据输给我,我会把更多的数据接入进来帮你碰撞,然后把结果还给大家。这样就避免了一些人为的壁垒。

另外,这背后其实有深刻的计算理论,我们认为传统的 ETL(数据仓库技术,Extract-Transform-Load,抽取-转换-加载)应该要被颠覆掉了。这个说法也不是我们提出的,是 16 年 Kafka 的创始人在旧金山 Qcon 会议做了一个「传统 ETL 已死,而实时流长存」演讲。

两年前,我们跟公安探讨过如何替代掉大数据 Lambda 架构的方式。「Buffer 数据流水线」是我们当年理念的一个落地。

在 Lambda 架构里,实时要写一条程序,批量处理时要再写一条程序,这样就没法维护数据的一致性,而且程序开发特别复杂。我们必须有一个通道去把实时数据和批量数据做在一起,然后就能处理近乎无限的数据源。

比如,亚马逊今天可以在一个通道里不区分实时、批量地去处理 50 万以上的数据源。我们需要这样的方法来适应大数据今天的变化速度,这样我们才能在交换和共享的过程中去加载一些像深度学习这样的算法,能在通道里把数据都连接起来。

当然在这个过程当中,我们认为传统的 Oracle GoldenGate 或者 Dell Shareplex 就没有必要存在了,因为我们在适配这层当中就把这个传统的做法取代了。

「Buffer 数据流水线」系统其实是几个技术的结合:第一,流式数据处理技术,比如说像 Storm;第二,流数据和内存数据库(数据空间)的映射,在这里面可以处理事务和带状态的逻辑;第三,数据源端的适配,比如说 Hadoop 导到 GreenPlum,Oracle 9 到 Oracle 10,或者 Mysql。

国内的公司很多做的是开源的封装,主要在表层,但我们主要是在大数据底层去改代码。当然也会去借鉴一些开源的代码,因为开源有好多丰富的场景因为锤炼的成熟度比较高了,但是从底层去优化跟封装就产生了完全不同的两个体系。

用开源的封装方法存在一些问题,比如封装好了,Spark 的更新,系统是跟不上的。另外,封装解决的问题比较表层,一个看起来有很多类别的平台,但是遇到要如何分析这些大数据的问题时,往往会卡在很基础的技术上。

数据的交换与共享是大数据应用的大趋势。在底层去 Lambda 化和替代传统的 ETL,以及打通数据流水线的高速公路,就是我们最近在技术上必做的事。

大数据+人工智能如何结合落地?

机器之心:我们其实一直有意寻找在智慧城市中多元大数据结合分析语义的案例。之前提到神州泰岳还与云从科技这类做安防领域计算机视觉的公司合作,目的是将文本和视觉的语义信息进行融合吗?

张瑞飞:语义和图像在将来是必须结合的东西。

贵阳公安提出的「人像大数据」,所谓人像大数据其实就是人的大数据和像的大数据,以及大数据平台三合一。像的大数据就是图像。人的大数据从哪来?只能从文本来。

在刻画人物时,公安主要是通过卷宗文本、DNA 档案、现场勘查记录、档案、手机聊天信息、互联网信息等,把大数据提取出来的线索串并起来,使人的特征浮现出来,再跟图像进行比对。这就是一个实际化的应用场景。

其实视觉目前也有不成熟的地方,今天的视觉识别都还是从一个较窄的领域去做识别,有较大的局限性。比如说人脸,一旦被遮挡了,对人脑去识别是没有什么区别的,但是对于机器就有区别。

应用领域窄,就限制了视觉技术在公安领域的应用。比如公安有一个亿人脸的数据库,机器通过身份证照片识别出 95% 相似度的人脸照片可能会达到几百张。几百张相似的人脸如果都要公安直接全部去跟踪筛选、分析,数量就太大了,在人力物力成本都不可行。

对于公安来说要达到可用的程度,就必须压缩到十几张的数量,怎么压缩呢?一方面是案事件的串并,把人的线索提取出来。比如说戴眼镜的,就从几百张里面调出戴眼镜的几十张;还有总穿牛仔裤或者总戴鸭舌帽的,走路姿态是右肩膀还是左肩膀比较高?这些特征都可以从视频学习中提取出来。

我们通过这种方法使视觉算法在一个大的数据集中的应用变得可行,通过平台把算法和工程形成一个互补,从而能把人准确地从数据中挖掘出来,这就不是一家创业公司可以单独做到的事情了。

我们在贵阳与云从的合作,创业公司偏向于只提供视觉识别技术 API,不太喜欢驻场解决工程化的问题。因为对于像云从这种创业公司来说,更重视的是短期内占领更多的市场,而不是在一个点做深。但是总要人去把这件事情做深,所以神州泰岳就集成整个应用,提供工程化解决方案。

我们虽然是做语义的公司,但是神州泰岳在深圳公安是人工智能的组长,团队中包括腾讯、华为在内。我们集成的人工智能就不能理解为语义本身了,而是整个人工智能和大数据应用到底怎么结合起来的课题。

所以越是接触这类项目,我们就越认识到局部作坊式研究的一个个算法必须被聚集起来,这就是我们要做一个平台的原因。

归根到底,人工智能就是个工程的事

机器之心:神州泰岳做了那么多产品,什么时候决定要往工程化的路线去做人工智能?

张瑞飞:当我们 16 年 8 月份启动「智享云平台」的时候,对未来方向其实也还有点模糊,但是现在看来越来越清晰。

在未来我们认为单一算法很难构成竞争力,因为会有很多新的分支而且算法很容易被复制。比如 ITGCM,懂 GCM 算法的人如果要做 ITGCM 就很容易。我们考虑:单纯专注算法研究能带来的突破是不是太有限了?第一,单纯的算法带来的实际业务突破可能不会超过 2%;第二,算法太容易被拷贝了。

我们问过自己一个问题,企业在发展的过程中应该沉淀的是什么?如果说是科学家和算法的话,那可能就错了,因为其实沉淀不下来。

另外,我们也去真正思考成本的问题。比如神州泰岳有 600 人的人工智能团队,这一年的人工成本如何解决。在人工智能这么火的时候,我们如何维持三年以上工程团队的稳定性。这些问题就切切实实摆在企业面前。这些问题解决好了,某种意义上讲,我们的项目管理就做好了。同样一个项目,如果我们的成本是 400 万,别人的成本是 4000 万,我们觉得他们没法跟我们抗衡。

第三点,人工智能不太可能走向「魔幻人工智能」,即算法不太可能轻易发生大跃进。我们其实试过特别新的算法,除了某些算法我们觉得确实有提升之外,大部分算法其实还是一种理论尝试,最后还是回归到一些传统的深度学习模型中。

这样我们就想,是不是今天的人工智能走工程化的路线就是必然的选择?

这个结论背后有两个基础理论:第一,人工智能是基于形式推理的而建立的,而形式推理是可以机械化的;第二,信息论控制论的发展,导致了形式推理可以工程化。

包括深度学习或者 CNN 神经网络在 08 年以后逐渐发展,我认为都是对这两个理论的扩充。在这两个基础理论不变的时候,我们不敢设想魔幻人工智能的产生,只能是沿着工程化的方法去做人工智能。

工程化的路线,就决定了我们要去做各种技术储备,比如蜂鸟信息采集、Buffer 流水线、流程引擎(用于合成作战)、底层大数据平台、DINFO-OEC 语义分析平台,智享云平台等等。

这些工程化平台都是为了实现技术落地。没有平台,技术就落不了地。我们做了两年,感觉到要实现产业化落地,这些付出是必须的。

我觉得我们这类面向大 B 的公司都可以尝试:在原来在大 B 公司积累的资源和工程化的经验的基础上,再锐意突破一些深度学习的算法技术,做出自己的算法特色来,进而打造出独特的落地场景。这种落地是很难被取代的,这种工程化的投入会把公司差异开来,而不是算法把大家差异开。

机器之心:我们了解到中国中文信息学会和神州泰岳合作做了一个产学研平台——「中文信息(深度处理)开放创新平台 China-NLP」,能否介绍一下创办这个平台的初衷及意义?

张瑞飞:这个平台的出发点是人工智能需要从手工作坊的做法走向工业化的做法。

目前很多学校的老师做研究的方法依旧是手工作坊的作法,是在局部研究一个一个算法,对于全局的需求没有明确的认知。我们认为,人工智能除了算法本身之外,有很多问题是在产业落地的过程中才能发现并解决的。

比如数据本身的交换和共享问题;怎么把 tensorflow,或者其他的深度学习工具,变成分布式的,或者极限化的一个资源池;能不能够用最小的硬件,或者 CPU 的指令级去优化现在的计算。这些都是工程化的过程中,一个平台要考虑的问题。

又比如一位教授做了一个针对医疗领域的深度问答引擎,跟医院对接的时候就会遇到这个引擎如何与已有的系统对接的问题;另外,这个系统跟已有的病人病例系统是什么关系?怎么来评估这套系统能不能上线?上线后需要什么框架?数据怎么来?

这些问题的出现,就极大地阻碍了学术界的成果向工业界转化,有时候基本意味着转化不了。

我们推出这套平台,就是希望把神州泰岳在产业里积累的工程化经验,释放给学术界的老师们,让老师们依托这个平台更好得把算法的应用到实际需求中,向产业化转化。

自然语言处理的未来:语义终极特征

机器之心:神州泰岳在自然语言处理领域的研究有什么未来的计划?

晋耀红:首先还是需要深入细化本体论设计,不同的场景下对本体的要求是不断变化的。本体业务建模这块还有很大的发展空间。

另外自然语言的能力包括理解和生成,后续可能考虑增加语言生成的能力。如公文写作能力。语言理解和生成是硬币的两面,目前平台主要着重于分析的能力。先分析公文写作,句子、段落之间怎么连接的,在这个基础上分析文章框架,学习每一个词、字的应用。

公文写作复杂,是未来研究的一个方向。其中有很多困难,目前像市面上一些写诗的应用属于比较娱乐化的,但是公文写作每一个字、每一句话都不能错,不能有歧义。

我们希望做一个效果可控的公文自动生成应用。公文写作有很多困难,有很多潜规则、隐知识,但因为是严格的八股文,也有优势。根据我们的调研,一般写公文都是先去研究原来的公文是怎么写的,然后在以前的公文基础上进行修改。这个过程跟机器学习其实有相通之处。我们对于产品的设想是希望能让公文写作人员输入感情色彩、表达方式、紧迫性等元素,让机器自动生成文章。

作为公文写作研究的中间结果,我们也做了一个自动写诗的应用。但是这个跟别的写诗应用的差别在于可以每一句话让用户输入一个词来表达整句诗的意境,比如乡愁。

机器之心:深度学习算法目前在自然语言处理还没有实现大的突破,对于这一点神州泰岳有什么思考?

晋耀红:我们认为原因是语言的特征更抽象一些,不像图像 RGB 三种元素就是它的终极特征,语言没有终极的特征。

我们在中科院做的 HNC 概念层次网络的工作其实就是希望找到语言的终极特征。这里面有很多有意义的工作,但目前价值还没有完全发挥出来,可能还很少有人能认识到语言终极特征的重要性。

目前各种算法比赛,我们做企业的也要从客观角度去看待,可能有时候是在封闭的集合去刷分,发现了问题针对性的改一下就能提高。但其实很多情况下也许不能体现实际应用过程的水平。

当然,比赛也许能一定程度促进算法的发展,对学术研究有用。但国内一些公司通过比赛来提高知名度,如果这个过程不能提升算法在实际工作中的效果,在资源上可能造成了一定的浪费。

现在的学术界更多的是在刷榜,做一个算法去刷分。国内的学术研究,很多时候就像一个老前辈说的,就是在做习题,别人在英语里做了一个,咱们把它拿过来汉语里做了一个,就是创新。但是其实很少有去研究这背后终极的问题,或者说去研究一个新的算法。这种创新性的工作还是很少。

张瑞飞:在研究方向的话,我们希望恢复机器学习的本来面目。

邢波教授前一段时间说,在做人工智能模型算法梯队里存在一个知识退化的趋势,因为人们开始把深度学习来代替整个机器学习神经网络机器学习本来的分支,但还有其他的分支。

我们在工程实践的时候,在做标注的时候,不在乎是否一定要用深度学习

工程化的任务应该是去评估业务目标如何分解,需要把整个算法能力框架搭建起来,然后找最有效、最捷径的算法。

也许对深度学习一个小的改变就是一篇论文了,但我们觉得这个没有太大的意义。我们企业做人工智能考虑的是成本,追求的是成本和成效的平衡。

产业智慧城市NLP神州泰岳
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

提升算法技术

Boosting是一种主要用于减少偏差的机器学习集成元算法,也是监督学习的一个变化,是一种将弱学习器转换为强学习器的机器学习算法家族。 Boosting是基于Kearns和Valiant(1988,1989)提出的问题:一组弱学习器能创造一个强大的学习器吗?一个弱的学习器被定义为一个分类器,它与真实的分类只有轻微的相关性(它可以比随机猜测更好地标注示例)。相反,强大的学习器是一个与真实分类任意相关的分类器。

本体论技术

在计算机科学与信息科学领域,理论上,本体是指一种“形式化的,对于共享概念体系的明确而又详细的说明”。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。本体一般可以用来针对该领域的属性进行推理,亦可用于定义该领域(也就是对该领域进行建模)。此外,有时人们也会将“本体”称为“本体论”。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

word2vec技术

Word2vec,为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。 训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。该向量为神经网络之隐藏层。 Word2vec依赖skip-grams或连续词袋(CBOW)来建立神经词嵌入。Word2vec为托马斯·米科洛夫(Tomas Mikolov)在Google带领的研究团队创造。该算法渐渐被其他人所分析和解释。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

控制论技术

控制论是一门跨学科研究, 它用于研究控制系统的结构,局限和发展。在21世纪,控制论的定义变得更加宽泛,主要用于指代“对任何使用科学技术的系统的控制”。由于这一定义过于宽泛,许多相关人士不再使用“控制论”一词。 控制论与对系统的研究有关,如自动化系统、物理系统、生物系统、认知系统、以及社会系统等等。

信息论技术

信息论是在信息可以量度的基础上,研究有效地和可靠地传递信息的科学,它涉及信息量度、信息特性、信息传输速率、信道容量、干扰对信息传输的影响等方面的知识。通常把上述范围的信息论称为狭义的信息论,又因为它的创始人是香农,故又称为香农信息论。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

暂无评论
暂无评论~