Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

腾讯 AI Lab 2018年度回顾

2018年是颇具意义的一年,以“Make AI Everywhere”为愿景,我们在医疗、农业和公益等AI应用领域取得不错进展,也正在通过游戏和机器人等实验平台探索解决AI终极难题——通用人工智能——的道路。

展望2019年,我们将继续通过前沿研究提升AI的认知、决策和创造力深耕行业,拥抱消费互联网与产业互联网,做好“数字化助手”标配,提供更好的技术、工具与服务,为人们的日常生活和社会发展带来更多美好便利。

以下是我们对腾讯AI Lab在2018年重点工作的回顾,也预祝大家新春安康吉祥。

行业应用 科技向善

我们在 2018 年完成了一些很有意义的项目,如“图片语音即时描述”技术,让机器充分理解图像内容后,将其“翻译”成语句,让视障者使用QQ空间时,能听到对图片的描述,实时了解朋友动态。通过提供这一系列信息无障碍技术,腾讯今年获得了联合国教科文组织颁发的“数字技术增强残疾人权能奖”。

第二个例子是显微镜的进化,我们在这种古老而重要的医疗器械中加入了AI与AR技术,让机器自动识别、检测、定量计算和生成报告,并将检测结果实时显示到医生所看目镜中,在不打断医生阅片的同时及时提醒,提高医生的诊断效率和准确度。今年我们还会继续通过“腾讯觅影”产品深入探索AI+医疗的应用,目前图像处理技术已用在食管癌、肺癌、糖尿病性视网膜病变等疾病的早期筛查上,语言和语音处理技术也用于智能导诊和辅诊上。

AI 技术落地

腾讯智能显微镜

我们还在“AI+农业”迈出了一小步——一个很会“种”黄瓜的AI。在荷兰举办的国际AI温室种植大赛里,我们利用传感器和摄像头自动收集温室气候、作物发育情况等环境和作物数据,再用深度学习模型计算、判断和决策,驱动温室的设备元件,远程控制黄瓜生产,最后获总比分第二、AI策略第一的成绩,还开心收获了3496公斤黄瓜。
腾讯视频中,我们提供了超分辨率和视频分类的技术。此外,我们还探索了对视频内容的深度理解、编辑与生成。比如,让机器深度分析一个视频,识别其中人物、物体、场景,并分析它们的关系,并在时间顺序识别视频中不同的动作和事件,产生能表达出视频丰富语义信息的语句。

而在视频生成上,我们研究的视频运动信息迁移技术,在给到几张人物A的静止图片后,能让A模仿人物B的舞蹈动作,从静止到“动”起来。

前沿难题 深度探索

定义下一代的智能交互 - 3D虚拟人

我们通过多个部门的共同研究,合作推进了“多模态人机交互”这一前沿课题。我们将计算机视觉自然语言处理、语音技术有机结合在一起,辅以一定的情绪认知、分析决策能力,赋予虚拟人看、听、想、说的多模态输入和输出能力,以实现更自然、逼真、风格鲜明、千人千面的人机交互体验。我们已经实现了整套技术方案的打通,并有望探索新的产品形式。

以游戏为实验平台,求解“通用人工智能”难题

游戏是 AI 研究的传统实验场,从2016年研发围棋AI“绝艺”起,我们不断利用这块实验沃土,探索迈向通用人工智能的道路。2018 年,我们收获颇丰,而此类探索还将继续下去。

我们与王者荣耀及王者荣耀职业联赛共同探索的前沿研究项目——策略协作型AI“绝悟”——首次亮相KPL决赛,与人类战队(超过99%玩家)进行5V5水平测试并取得胜利。我们使用了监督学习方法,模拟人类决策方法的算法模型兼具了大局观与微操能力,并在此基础上研发多个有针对性的强化学习训练模型,有效提升了AI团队协作能力。

此外,我们的深度强化学习智能体还在《星际争霸 II》战胜了Level-10内置 AI,还与清华大学合作拿下了FPS射击类游戏AI竞赛VizDoom赛事历史上首个中国区冠军

以机器人为载体,让虚拟连接现实

我们还成立了企业级机器人实验室腾讯Robotics X”,构建AI+机器人双基础部门,打造虚拟世界到真实世界的载体与连接器。比如,我们从0到1实现了机械手从虚拟到现实的迁移,通过搭建满足各种物理属性的高逼真模拟器,支持多种强化学习算法,并能和机械臂和灵巧手的实体硬件接口兼容,通过新提出的DHER算法训练抓取、搭积木、端茶倒水等虚拟任务。我们还将其成功迁移到了现实世界中。

另外,在新建成的腾讯深圳总部展厅里,我们还完成了“绝艺”围棋机器人、桌上冰球和与浙江大学合作的机械狗等展示项目,体现了机器人的本体、控制、感知、决策方面的能力。

开源协同 多方合作

除了发表论文公开研究成果,我们也通过代码和数据开源将腾讯积累的技术能力(尤其是 AI 能力)共享给整个行业,并希望以此促进行业生态的共同发展和繁荣。

2018 年 10 月,我们开源了业内最大规模的多标签图像数据集Tencent ML-Images,其中包含了 1800 万图像和11000种常见物体类别。此外我们还提供了从图像下载和图像预处理,到基于ML-Images的预训练和基于ImageNet的迁移学习,再到基于训练所得模型的图像特征提取整个流程的代码和模型。截至目前已在 GitHub 获 2000 星和 2000+ 次下载。

我们还在 10 月份开源了一个大规模、高质量的中文词向量数据集,其中包含 800 多万中文词汇,在覆盖率、新鲜度及准确性上都优于之前的数据集。

11 月,我们开源了一个自动化深度学习模型压缩与加速框架 PocketFlow,其中整合了多种模型压缩与加速算法,并能利用强化学习自动搜索合适的压缩参数。我们希望该框架能降低模型压缩的技术门槛,赋能移动端 AI 应用开发。

在高校合作方面,我们与麻省理工、牛津、斯坦福、港科大、清华和哈工大等全球知名高校的教授联合研究,并通过专项研究计划、访问学者计划、青年学者基金、联合实验室等多种方式,共探学术前沿领域,并迅速将研究应用到腾讯云、腾讯开放平台等多个业务中。

基础研究 推动边界

我们基础研究方向主要为四个:机器学习计算机视觉语音处理自然语言处理。2018 年,我们有超过150 篇学术论文发表在各大顶级学术会议上,如NeurIPSICMLCVPRECCVACLEMNLPInterSpeech 和 ICASSP 等,位居国内企业前列。

未来,我们将继续关注前沿领域的研究课题,推进跨学科、多模态、交叉研究课题探索,以开放、合作和共赢的态度,不断探索研究的边界。

机器学习

学习能力,是区分智能机器和普通自动化机器的核心技能之一,也是迈向通用人工智能(AGI)的必备技能。我们的研究涵盖了强化学习迁移学习模仿学习、优化算法、弱监督和半监督学习、对抗学习和多任务学习等。

我们探索了自动化机器学习(AutoML)的可能性,这是当前机器学习领域的前沿探索方向之一。比如,我们提出了一种基于数据分布迁移的超参优化算法[1]。该方法利用分布相似度来迁移不同数据对应的超参优化结果,从而能对新数据的超参优化起到热启动的效果。我们还进一步研发了FastBO算法,并发现其在医疗和游戏等多个场景上有比人工调参更好的效果。

针对多任务问题,我们提出了一种学习框架 L2MT[2] ,能自动发掘一个最优的多任务学习模型;我们还提出了一种用学习迁移实现迁移学习的方法 L2T[3],能显著降低迁移学习的计算成本和所需的领域知识。

L2MT 框架

我们也为强化学习提出了一些改进方法,比如提出一种描述如何从环境和任务来组成强化学习策略的元规则部件神经网络,实现了自适应于不同环境、不同任务的合成策略[4]。我们还尝试用演示来提升强化学习的探索效果(POfD)[5]及使用联网智能体的完全去中心化多智能体强化学习[6]。

在计算机安全和社会安全上,我们研发的自动特征学习、群分类和图特征增强方面的算法,能成功识别和对抗黑产用户、涉黑群体和恶意用户(标记覆盖率超90%),还能精准识别有信贷风险的用户,帮助防控金融风险。

计算机视觉

计算机视觉技术有非常广泛的应用前景,是智能医疗、自动驾驶增强现实移动机器人等重要应用的不可或缺的一部分。我们不断寻找赋予机器更强大视觉能力的方法,以实时、稳健和准确地理解世界。

2018 年,我们的探索包括结合相机与其它传感器数据实现 3D 实时定位[1]、结合传统时空建模方法(MRF)与深度学习方法(CNN)来跟踪和分割视频中的物体[2],及一些在视频描述生成任务上的新方法[3]。我们还定义了一种名为视频重定位(Video re-localization)[4]的新任务,可在某段长视频中查找与指定视频语义相关片段。我们也为视频中的运动表征提出了一种端到端的神经网络TVNet[5]。

除了帮助机器理解世界,我们也在探索视频生成方面的技术,比如我们提出了一种自动生成延时摄影视频的解决方案[6],可以通过预测后续的图像帧来呈现可能发生的动态变化。我们也探索了多阶段动态生成对抗网络(MD-GAN)[7]在这一任务上的应用。

MD-GAN 框架

语音处理

我们的语音解决方案已经在腾讯的听听音箱、极光电视盒子和叮当音箱等产品中得到应用。2018 年,我们又提出了一些新的方法和改进,在语音增强、语音分离、语音识别语音合成等技术方向都取得了一定进展。


语音唤醒上,我们针对误唤醒、噪声环境中唤醒、快语速唤醒和儿童唤醒等问题,提出了一种新的语音唤醒模型[1],能显著提升关键词检测质量,在有噪声环境下表现突出,还能显著降低前端和关键词检测模块的功耗需求。我们还提出了一种基于 Inception-ResNet 的声纹识别系统框架[2],可学习更加鲁棒且更具有区分性的嵌入特征。

左:基准关键词检测架构   右:文本依赖型语音增强架构

语音识别上,我们的解决方案是结合了说话人特征的个性化识别模型,能为每位用户提取并保存个性化声学信息特征。随用户数据积累,个性化特征自动更新,用户识别准确率能显著提升。另外,我们还创新地提出了多类单元集合融合建模方案,这是一种实现了不同程度单元共享、参数共享、多任务的中英混合建模方案。这种方案能在基本不影响汉语识别准确度的情况下提升英语的识别水平。我们仍在噪声环境、多说话人场景[3]、“鸡尾酒会问题”[4]、多语言混杂等方面继续探索。

语音合成是确保机器与人类自然沟通的重要技术。腾讯语音合成方面有深厚的技术积累,开发了可实现端到端合成和重音语调合成的新技术。腾讯AI Lab 2018 年在语调韵律变化[5]、说话风格迁移[6]等任务上取得了一些新进展。

自然语言处理

腾讯 AI Lab 在自然语言处理方面有广泛而又有针对性的研究,涉及文本理解、文本生成、人机对话、机器翻译等多个方向。

我们训练的模型在多个阅读理解类数据集上位居前列,如CMU大学的RACE、ARC (Easy/Challenge)及OpenBookQA等。

神经网络机器翻译方面,我们通过改进当前主流翻译模型中的多层多头自注意力机制[1]和提出基于忠实度的训练框架[2],改善其核心的译文忠实度低的问题。我们还针对口语翻译中代词缺省的问题提出了一种联合学习方法[3],以及探索如何将外部的翻译记忆融入神经网络翻译模型[4]。

我们还发布了一款AI辅助翻译产品TranSmart[5],向人工翻译致敬。它采用业内领先的人机交互机器翻译和辅助翻译输入法技术,配合亿级双语平行数据,为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。作为笔译工具的未来形态,目前这个产品已经进入了很多高校翻译课堂。

我们研究了文本和对话生成,提了出一种基于强化学习框架的回复生成模型[6],对于同一个输入能够自动生成多个不同的回复;一种跨语言神经网络置信跟踪框架XL-NBT[7]在实现跨语种对话系统方面有重要的实际应用潜力(比如多语种自动客服)。此外,我们还为自动回复的多样性对条件变分自编码机进行了改进[8]。

基于强化学习的回复生成模型

值得一提的是我们将中国古典文化与现代技术的结合方面的探索。我们在 2018 年春节期间推出了腾讯 AI 春联,可根据用户提供的两个汉字生成一副春联。我们还探索了创造机器诗人的问题,提出一种基于对抗条件变分自编码器的诗歌生成方法(CVAE-D)[9],在主旨一致性和用词的新颖性上取得了不错的进展。

展望未来

近三年时间里,腾讯AI Lab相继成立了深圳及美国西雅图实验室,目前团队有70多名顶尖AI科学家及300多位经验丰富的工程师,专注四大研究方向。

产业落地上,AI Lab将与新成立的“腾讯Robotics X”机器人实验室担当前沿技术双基础部门,深耕产业,拥抱消费及产业互联网,做好技术标配。

前路漫漫,道阻且长,我们将继续前行,以科技点亮人文之光。

论文链接:

机器学习

[1] 基于数据分布迁移的超参优化算法

https://arxiv.org/pdf/1810.06305.pdf

[2] 学习框架L2MT

https://arxiv.org/abs/1805.07541

[3] 用学习迁移实现迁移学习的方法 L2T

https://ai.tencent.com/ailab/media/publications/icml/148_Transfer_Learning_via_Learning_to_Transfer.pdf

[4] 自适应于不同环境、不同任务的合成策略

https://papers.nips.cc/paper/7393-synthesize-policies-for-transfer-and-adaptation-across-tasks-and-environments

[5] POfD

https://ai.tencent.com/ailab/media/publications/icml/152_Policy_Optimization_with_Demonstrations.pdf

[6] 完全去中心化多智能体强化学习

https://arxiv.org/abs/1802.08757

计算机视觉

[1] 3D 实时定位

https://arxiv.org/abs/1810.05456

[2] 跟踪和分割视频中的物体

https://arxiv.org/abs/1803.09453

[3] 视频描述生成任务新方法

https://arxiv.org/abs/1803.11438

[4] 视频重定位

https://arxiv.org/abs/1808.01575

[5] TVNet

https://arxiv.org/abs/1804.00413

[6] 自动生成延时摄影视频

https://arxiv.org/abs/1709.07592

[7] 多阶段动态生成对抗网络(MD-GAN)

https://arxiv.org/abs/1709.07592

语音处理

[1] 语音唤醒模型

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1668.pdf

[2] 基于 Inception-ResNet 的声纹识别系统框架

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1769.pdf

[3] 多说话人场景

https://ai.tencent.com/ailab/media/publications/MonauralMulti-TalkerSpeechRecognitionwithAttentionMechanismand_GatedConvolutionalNetworks._pdf.pdf

[4] 鸡尾酒会问题

https://link.springer.com/article/10.1631/FITEE.1700814

[5] 语调韵律变化

https://ai.tencent.com/ailab/media/publications/icassp/FEATURE_BASED_ADAPTATION_FOR_SPEAKING_STYLE_SYNTHESIS.pdf

[6] 说话风格迁移

https://www.isca-speech.org/archive/Interspeech_2018/pdfs/1991.pdf

自然语言处理

[1] 多层多头自注意力机制的改进

https://arxiv.org/abs/1810.10181

[2] 基于忠实度的训练框架

https://arxiv.org/abs/1811.08541

[3] 联合学习方法

https://arxiv.org/abs/1810.06195

[4] 翻译记忆融入

https://ai.tencent.com/ailab/nlp/papers/aaai2019_graph_translation.pdf

[5] AI辅助翻译产品TranSmart

http://transmart.qq.com/

[6] 基于强化学习框架的回复生成模型

https://ai.tencent.com/ailab/nlp/publications.html

[7] 跨语言神经网络置信跟踪框架 XL-NBT 

https://arxiv.org/pdf/1808.06244.pdf

[8] 对条件变分自编码机的改进

http://aclweb.org/anthology/D18-1354

[9] 基于对抗条件变分自编码器的诗歌生成方法(CVAE-D)

http://aclweb.org/anthology/D18-1423

腾讯AI实验室
腾讯AI实验室

产业腾讯AI Lab机器学习语音处理自然语言处理
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

对话系统技术

对话系统大致被分成两类: 任务为导向的对话系统,帮助用户去完成特定任务,比如找商品,订住宿,订餐厅等。实现任务为导向的对话系统,主要有两类方式,流水线方法和端到端方法。非任务导向的对话系统,与用户进行互动并提供回答,简单的说,就是在开放领域的闲聊。实现非任务导向对话系统也主要可分为两类,生成方法和基于检索的方法。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

多任务学习技术

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

模仿学习技术

模仿学习(Imitation Learning)背后的原理是是通过隐含地给学习器关于这个世界的先验信息,就能执行、学习人类行为。在模仿学习任务中,智能体(agent)为了学习到策略从而尽可能像人类专家那样执行一种行为,它会寻找一种最佳的方式来使用由该专家示范的训练集(输入-输出对)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

移动机器人技术

移动机器人是一种能够移动的自动机器。移动机器人具有在其环境中移动的能力,并且不固定到一个物理位置。移动机器人可以“自动”主要是指它们能够在没有物理或机电引导装置的情况下导航非受控环境。相比之下,传统的工业机器人或多或少都是固定的(stationary)机械臂或抓取组件。

自动化机器学习技术

机器学习最近在许多应用领域取得了长足的进步,这促成了对机器学习系统的不断增长的需求,并希望机器学习系统可以被新手快速地熟悉并使用。相应地,越来越多的商业企业推出产品旨在满足这种需求。这些服务需要解决的核心问题是:在给定数据集上使用哪种机器学习算法、是否以及如何预处理其特征以及如何设置所有超参数。这即是自动化学习(AutoML)企图解决的问题。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
暂无评论
暂无评论~