Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

软件分析组作者

数据智能的现在与未来

我们正处于大数据和数字化转型的时代:数据无处不在;运用数据驱动的思想和策略在实践中逐渐成为共识;数据的价值已在科学研究和工商业的不同领域得到充分展现。然而,如果无法从数据中提取出知识和信息并加以有效利用,数据本身并不能驱动和引领数字化转型取得成功。如何让数据发挥它最大的价值?“数据智能”(Data Intelligence) 应运而生。

数据智能是一个跨学科的研究领域,它结合大规模数据处理、数据挖掘机器学习人机交互、可视化等多种技术,从数据中提炼、发掘、获取有揭示性和可操作性的信息,从而为人们在基于数据制定决策或执行任务时提供有效的智能支持。

如果将数据视为一种新的“石油”,那么数据智能就是“炼油厂”。数据智能通过分析数据获得价值,将原始数据加工为信息和知识,进而转化为决策或行动,已成为推动数字化转型不可或缺的关键技术。数据智能的重要性越来越凸显,并在近年来取得快速发展。

数据智能技术赋予我们探求数据空间中未知部分的能力,在不同领域里蕴育出巨大的机会。众多基于互联网的新型业务,包括搜索引擎、电子商务以及社交媒体应用等,从本质上就是建立和运作在数据智能的基础之上

数据智能技术正在重塑传统的商业分析或商业智能领域。根据Gartner的调研,一种新的 “增强分析”的分析模式正在颠覆旧有方式,预计在几年内将成为商业智能系统采购的主导驱动力。这种“增强分析”模式正是由数据智能技术赋能,提供了自然语言查询和叙述、增强的数据准备、自动的高级分析、基于可视化的数据探索等多种核心能力。

那么,数据智能领域的技术进展如何?未来,数据智能的研究又有哪些热点?    

数据智能的技术进展

数据智能相关的核心技术大致可以分为数据平台技术、数据整理技术、数据分析技术、数据交互技术、数据交互技术、数据可视化技术等部分。与传统意义上的数据处理、数据分析相比,数据智能面临很多新挑战、新问题。在解决这些问题和挑战的过程中,各种技术创新层出不穷。

大数据系统与平台

为了支持大规模的数据处理与分析任务,全新的数据存储系统需要能够容纳和支持高效数据吞吐、高可伸缩性和高容错性。传统的数据库OLTP面向交易型需求而设计,无法满足大数据统计分析类的查询需求和应用。当前的大数据系统更加强调读写效率、数据容量以及系统的可扩展性。具体来说,将数据分割成块,并将每块复制多份后分散到不同物理机器上存储,用冗余的数据块来防止因个别机器损坏对数据完整性的影响。数据的冗余保存不但提高了系统的可靠性,同时也可以提高了系统在数据读取时的并发性能。另外,为降低成本,现代的大数据系统运行在价格相对低廉的普通服务器上;这些机器通过高速网络连接,实现高效的数据传输。

处理和分析大数据涉及大量的计算,催生了很多分布式NoSQL数据处理系统。在计算模型上,MapReduce的推出给大数据并行处理带来了革命性的影响。在MapReduce基础上进一步提出了新的计算模型Spark。Spark充分利用在内存中计算的优势,并且大大优化了原来MapReduce中Shuffle所带来的效率问题。经过几年的发展,Spark已经替代MapReduce成为业界最为重要的大数据处理框架,并且发展了非常丰富的应用生态。

此外,基于流 (Streaming) 的计算模型被开发出来以支持不断变化和更新的大数据应用。在流计算模型中,为了达到更实时的更新,每到达一个数据事件的时候就进行一次处理。Spark Streaming、Storm、Flink都是比较流行的流计算平台。

在支持对大数据进行在线交互式的查询和分析方面,来自不同领域的技术正在快速融合,共同构建更加实时高效的大数据交互查询平台。以ElasticSearch为代表的一类技术,借鉴搜索系统的索引构架和技术,对大规模非结构化和半结构化数据进行分块、索引来支持快速查询。以Apache Kylin为代表的另一类技术则将传统的数据立方体技术推广到大数据领域,通过将预先计算的部分数据立方体缓存起来,大大提高了运行时的查询速度。

随着技术的发展,对数据进行高语义级别的自动分析变得越来越重要。自动分析技术往往需要频繁计算在不同查询条件下的聚合结果,一个分析查询可能涉及成百上千次简单的聚合查询。这就对查询性能提出了更高的要求。为了解决这个问题,同时也考虑到大数据分析中绝大多数任务对数据的完整性不太敏感这一特点,学术界又提出了BlinkDB、BigIN4等技术和系统,希望利用通过采样或者预计算得到的部分数据来对用户的查询结果进行估计,从而达到快速计算的目的。其中BlinkDB试图利用分层采用的方法来减少估计的误差,而BigIN4则试图通过贝叶斯估计方法来优化用户查询的估计误差。

基于自然语言的交互

为了降低数据分析的门槛,使用自然语言作为交互方式显然是一个理想方案,可以极大地方便普通用户快速、有效地进行数据探索与数据分析。近年来,随着自然语言处理人工智能技术的快速进步,使用自然语言来查询和分析数据变得更加可能。

自然语言数据分析要解决的最重要的问题是语义解析。语义解析技术是将自然语言直接转化成可以执行的程序 (例如 SQL语句)。基于关系数据库/数据表的语义解析技术是解决自然语言交互式查询的重要途径。早期主要采用基于模式匹配的方法,后来出现了基于语法分析与语义分析的第二代方法。

近年来,随着深度学习技术的发展,涌现出了一系列的端到端的语义解析模型。一般的端到端模型采用sequence-to-sequence的方法,将自然语言进行序列编码,然后逐步生成SQL语句,但是这种方法的缺点是容易产生不正确的或者不可执行的SQL语句。因此,在端到端的方法的基础上会融合各种知识来减少搜索空间,增加约束,包括嵌入SQL语法知识,引入表格信息,甚至是引入外部的知识库,比如WordNet

分析的自动化

数据分析是数据智能中最核心的部分,大致可以分为描述性分析、诊断性分析、预测性分析、指导性分析等四个类别,每个类别基于数据回答不同的问题,难度越来越大,所能带来的价值越来越高,所使用的技术也越来越复杂。数据智能分析工具的发展经历了如下四个重要的阶段和层次。

阶段1:数据智能专家深入学习和了解特定领域的问题,构建端到端 (end-to-end)的分析流程和平台,以特定领域的数据分析师为主要用户,以解决特定领域的专业问题为主要任务。

阶段2:数据智能专家通过对各个领域的深刻总结,提炼出在不同领域的任务中所共同依赖的一些必要的需求单元,比如分布差异分析、主驱动因素分析、预测分析等等。把各个需求单元对应的数据智能技术以积木块搭建的形式组成一个分析平台,提供给各个领域使用。用户按照自己分析任务的需求,可以在分析流程中选择相应的技术模块。

阶段3:进一步发挥机器的“智能”性,在分析任务的各个环节,通过主动提供相关洞察 (Insight) 的形式,为用户的下一步决策或行动提供信息充足的引导性建议,从而更大程度地提高人类智能与机器智能的互补,完成更高效的协作。

阶段4:在前三个阶段中,数据的处理、特征的选取、模型的设计以及参数的优化等等核心环节严重依赖于机器学习专家的知识和技能。随着机器学习理论的进一步发展,Auto ML技术开始出现并发展起来,其核心是基于对已有机器学习成果的总结,将上述重要环节进行系统化的抽象,并结合不断快速发展的计算机处理能力,使其逐渐自动化,从而进一步降低数据智能模块的开发门槛,拓宽对长尾任务的支持,推动人类智能和机器智能的进一步融合,也使不同领域的普通用户以自助方式按需定制针对具体任务的数据智能模块变得可能。

数据融合的自动化

如何有效整理、融合如此多样且繁杂的数据对于数据智能领域非常重要。数据融合的相关技术在整体上需要解决以下关键问题。

首先,在机器从数据中获取智能之前,机器能够正确地读懂各种各样的数据。对于机器友好的数据是类似关系数据库的结构化数据。然而,现实世界里存在着大量的非结构化数据,比如自然语言的文本;还有介于两者之间的半结构化数据,比如电子表格。目前机器还很难理解这些非结构化的方面,需要将数据处理成对机器友好的结构化数据,机器才能发挥其特长,从数据中获取智能。非结构化数据、尤其是半结构化数据向结构化数据的转化,是实现数据智能不可或缺的先决任务。

其次,数据并不是孤立的,数据智能需要充分利用数据之间存在的关联,把其他数据源或数据集所涵盖的信息传递并整合过来,可以为数据分析任务提供更丰富的信息和角度。

最后,数据并不是完美的,提前检测并修复数据中存在的缺失或错误,是保障数据智能得出正确结论的重要环节。

数据可视化

数据可视化本质上是为了感知和沟通数据而存在的,涉及到不同的领域,诸如人机交互、图形设计、心理学等。在当前大数据盛行的时代,数据可视化逐渐崭露头角,扮演着越来越重要的角色。

可视化技术用于分析,已成为数据智能系统不可或缺的部分。这些技术通常会集成在一个图形界面上,展示一个或多个可视化视图。用户直接在这些视图上进行搜索、挑选、过滤等交互操作,对数据进行探索和分析。可视化工具进一步趋于简单化、大众化,使一些高阶的分析变得更加简单。一些高级的可视化设计,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver等,也逐步成为主流。

在决策过程中,可视化也发挥着重要的作用,它能将信息展示得更准确、更丰富、更容易理解,从而极大提高人与人之间的沟通效率。可视化叙事 (visual storytelling) 研究如何将可视化用于信息的展示和交流。当今主流的数据分析平台,例如Power BI、Tableau、Qlik等,都提供了可视化叙事的模式。可视化叙事的研究目前还处在一个比较早期的阶段,人们还在探索它的各个方面,例如修饰形式、叙事方式、交互手段、上下文、记忆性等。如何评估一个可视化叙事也有待进一步研究。

基于隐私保护的数据分析

近年来,随着数据隐私问题成为关注的焦点,以及相关数据保护的立法 (比如GDPR) 开始实施,研究人员开始积极探索保护隐私的数据分析技术,即在保护数据隐私的情况下,对数据进行管理和处理。

一个方向是提供可信计算环境去执行敏感操作。用户的数据始终是加密的,只有在可信计算的环境中才会解密及处理。

另一个方向是直接对加密数据进行处理得到想要的结果,因为数据没有解密,隐私得到了保证。选择性加密技术早已广泛应用于多媒体内容保护,但很难扩展到其他类型的数据。另一种适用性更广的方法是同态加密,它允许对密文进行某些同态操作,例如加法和/或乘法,使得密文下的运算结果在解密后与对明文执行相应操作的结果一致。

数据智能技术的未来热点

数据智能研究契合当今大数据时代各领域、各行业从数据中挖掘、实现价值,进行数字化转型的迫切需要,因而在近年来得到了充分重视,发展迅速。随着数据智能在更多领域的落地和发展,新的应用和场景、新的问题和挑战将进一步激发和驱动数字智能研究保持强劲的发展势头,迈向更高的层次。展望未来,数据智能技术将朝着更自动、更智能、更可靠、更普适、更高效的方向继续发展。

热点1:在更高的语义理解水平上进行分析

为了更加智能地分析数据,需要对数据有更加丰富的语义理解。与知识图谱 (Knowledge Base) 不同,虽然数据分析中最常用的关系数据模型也是对实体和关系的建模,但是关系数据模型的建模是为查询和存储性能而优化的,往往丢失了大量语义信息。如何引入领域知识和常识型知识对于更好地理解数据至关重要。

如何从表格数据和其他容易获得的文本数据 (如web网页) 中自动获取语义信息来增强和丰富表格数据是一个需要研究的重要方向。比如,确定表格中行或列的实体类型(包括人名、地名、机构名等命名实体以及时间、地址、货币等数据类型)。表格往往不具有文本中的丰富的上下文信息,因此表格中的实体识别不同于其他自然语言处理任务中的实体识别,十分具有挑战性。除了处理实体识别外,数据表格中实体关系的挖掘和分析也至关重要。充分挖掘实体之间的关联关系可以完成一些实体类型的推荐和回答数据分析的问题。

热点2:构造通用知识和模型的框架

人类对知识和方法能够举一反三,触类旁通。具体到数据分析领域,分析中用到的知识和模型需要在不同数据对象和分析任务之间共享和迁移。在机器学习领域,已经有很多相关工作,也提出了一些方法,比如迁移学习多任务学习、预学习模型等等。要实现这个“举一反三”的目标,除了需要深入研究具体的机器学习算法,也需要从模型和知识的框架体系来思考,研究适合数据分析领域的通用知识和模型的原语体系,以及知识和模型的迁移共享的统一框架。

热点3:建立高质量的训练数据集和基准测试数据集

由于训练数据的缺乏,人工智能深度学习等技术在数据智能领域的进一步应用遇到了很大的困难。正如ImageNet数据对于计算机视觉领域的研究起到了显著的推动作用一样,数据智能领域的研究也亟需建立起一整套公用的大规模、高质量的训练数据集和基准测试数据集。一旦有了丰富的训练数据,数据智能领域的很多研究,诸如自动分析、自然语言交互、可视化推荐等等,将会取得突破性的进展。

热点4:提供具有可解释性的分析结果

用户将不再满足于仅仅依赖黑盒式的智能、端到端地作用于整个任务,而需要更细粒度的、有针对性的、更透明的数据智能。例如,数据智能用于财务审计系统中,准确推荐最有风险的交易记录进行优先审查,以达到在最小化系统风险的前提下,最大化审计效率。在这类系统的研发中,需要构建可理解性强的模型。在推荐高风险交易记录的同时,尽量提供系统是依据哪部分信息、通过怎样的逻辑判断这是一条高风险交易的相关依据。这与过去通常使用的黑盒技术路线有了明显的变化,将成为今后技术发展的一个趋势。

热点5:人类智能和机器智能更加紧密融合

现有人工智能技术从本质上依然只是被动服从人类设定的既定逻辑然后自动地运行,归根到底还是无法突破人类传授的学习框架,没有创造力。因此在可预见的未来,数据智能将依然无法摆脱人与机器协作的模式,需要全面地总结人类在数据分析方面的智能和经验,便于转化为机器算法,系统化地集成到已有的智能系统当中。

热点6:强大的指导性分析成为主流

数据分析的核心目标之一便是指导行动,无论分析得有多好,如果不采取行动,那么分析的价值就不会得到实质的体现,这就是指导性分析的重要价值所在。

例如,根据详尽的分析,数据智能预测某品牌在接下来一个季度的销量会下滑10%。如果分析任务结束于此,那么数据智能并没有尽到全部的责任,人还需要根据后续分析结合自己的经验去搞清楚怎样才能减轻甚至避免潜在的销量下滑。相应的指导性分析可以是,如果想保持下季度销量不下滑,应该采取怎样的行动。指导性分析的结果可以是把某一类子产品的产量减少20%,同时把另两类子产品的产量各增加10%等等。

现在的数据智能技术在给出指导性分析的同时,并没有具备足够解释性的模型,无法提供充足的依据,从而不足以让人类用户充分信任自动推荐的结果。提供具有更好解释性的指导性分析是一个趋势

热点7:基于隐私保护的数据分析更加成熟完善

通过从立法、技术、到用户参与等全方位的共同努力,隐私保护将被进一步纳入到未来的数据分析。从技术层面, 应该确保个人数据由数据主体控制如何收集、管理、处理和共享,并在整个生命周期得到保护,同时应开发并部署保护隐私的数据处理技术,以便在保护隐私的前提下,数据得以处理并获得想要的结果。

热点8:智能分析助手得到普及

智能代理 (Intelligent Agent) 技术与数据分析技术的融合是一个重要的方向。在不久的将来,智能的数据分析助手能够帮助人类更加高效地分析和利用数据。

这些数据分析智能助手通过自然语言对话的方式与人交流数据分析的任务和结果,理解分析的背景和上下文,可以完成人类交给的特定数据分析任务 (根据分析的语义层级不同,可分为基本分析命令和高级数据挖掘任务),也可以把具有商业价值的数据事实推荐给相关人类用户 (比如自动从数据中挖掘到的数据洞察),并对某些数据事件做出智能判断和适当的反应 (比如自动对数据中需要注意的变化进行提示和警报)。这样的智能体还具有一定的学习能力,能够通过与人类分析师的对话交流积累特定领域的知识,从而能够更加具有针对性和更加智能地进行自动数据分析

热点9:协作化的可视分析

随着各种沟通工具的兴起和普及,协作化的可视分析会成为热点。不同于传统的面对面、小规模的协作,新的协作分析往往是异步的和大规模的,人们在不同的时间和地点,使用不同的设备,对同一个数据进行可视分析。在此过程中,如何协调人们的协作?如何避免重复性的工作?如何保证不同人在不同的显示终端上看到的数据是一致的?如何共享各种信息?如何搭建一个高效的协作平台?这些都是需要解决的技术挑战。

热点10:可视化将无所不在

在更长远的将来,我们相信可视化终将变得透明。就像文字和语音一样,广泛渗透到我们的日常生活中。为此需要有三个方面的技术储备:

首先,可视化视图必须能够被快速地生产和消费。目前,多数可视化视图的生成还是离不开人的参与,但是在人工智能的帮助下,未来在人工智能的帮助下,可视化视图将能被大规模和精确地生成,从而大大降低可视化创作的开销。

其次,要进行交互方式的变革。传统的基于键盘、鼠标的交互模式不是最自然的方式,各种人类更习惯的方式 (例如手势、笔纸、触控等) 需要慢慢演化成更成熟的交互手段。

最后,需要显示设备的普及。显示设备终将被集成到人的生活中去,无论是穿戴式的、手持的,还是出现在人们日常生活的物品表面上的。只有当显示设备无处不在的时候,可视化才能真正变成一种沟通的基本方式。

微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

产业大数据数据安全数据可视化语义理解
3
相关数据
英特尔机构

英特尔(NASDAQ: INTC)是全球半导体行业的引领者,以计算和通信技术奠定全球创新基石,塑造以数据为中心的未来。我们通过精尖制造的专长,帮助保护、驱动和连接数十亿设备以及智能互联世界的基础设施 —— 从云、网络到边缘设备以及它们之间的一切,并帮助解决世界上最艰巨的问题和挑战。

http://www.intel.cn/
相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

智能代理技术

智能代理,或译为智能主体。在人工智能领域,智能代理是指一个可以观察周遭环境并作出行动以达致目标的自主实体。它通常是指一个软件程序。“智能代理”是目前人工智能研究的一个核心概念,统御和联系着各个子领域的研究。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

语义分析技术

语义分析是编译过程的一个逻辑阶段, 语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查,进行类型审查。语义分析是审查源程序有无语义错误,为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查,审查每个算符是否具有语言规范允许的运算对象,当不符合语言规范时,编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些程序规定运算对象可被强制,那么当二目运算施于一整型和一实型对象时,编译程序应将整型转换为实型而不能认为是源程序的错误。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

MapReduce技术

MapReduce,一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是其主要思想,皆从函数式编程语言借用。它还借用了矢量编程语言的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

流数据技术

流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

多任务学习技术

WordNet技术

WordNet是由普林斯顿大学心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而是按照单词的意义组成一个“单词的网络”。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

推荐文章
暂无评论
暂无评论~