2020/02/05 11:47

Christopher Dossman作者Junefish、Olivia、云舟编译

比男朋友更会聊天的机器人指日可待？谷歌AI发布新款Chatbot

本周最佳学术研究

Google AI Meena：可以聊天聊地聊一切的机器人

Google Research Brain Team推出了一款基于AI的聊天机器人，名叫Meena。与此前最新的聊天机器人相比，它可以进行更合理、更具体的对话。

Meena有26亿个参数，并接受了341 GB文本的训练，这些文本从公共领域的社交媒体对话中被筛选出来。与现有最新的生成模型OpenAI GPT-2相比，Meena具有1.7倍的模型容量，并接受了8.5倍的数据进行训练。为了改进性能，研究人员应用了他们针对开放域聊天机器人提出的一种新的人类评估指标，称为“敏感度和特异性平均值（SSA）”，它捕获了人类对话中基础却重要的属性。

长期以来，研究人员一直在寻找一种自动评估指标，该指标能够与更准确的人工评估相关联、从而更快地开发对话模型，但这一直是充满挑战的。出乎意料的是，他们在训练Meena模型时发现了一种可以用于任何神经seq2seq模型的自动指标——困惑值，该值与人类评估（例如SSA值）具有很强的相关性。

Meena的困惑值为10.2，转换成SSA值就是72％.与其他聊天机器人获得的SSA值相比，SSA 值72％与普通人类达到的SSA值 86％相差不远。完整版Meena具有过滤机制和可调谐解码功能，可将SSA值进一步提高到79％。

有了如此引人入胜的结果，像人与人之间对话那样与现代机器人对话似乎离我们越来越近了。Meena无疑是一项惹人注目的研究成果，它可能带来人机交互中许多有趣且强大的应用。

原文：

https://arxiv.org/abs/2001.09977

数据科学的团队协作模式用于数据流批量分析的Stream-learn的Python包

弗罗茨瓦夫科技大学的研究人员介绍了名为Stream-learn的Python包，用以进行漂移和不平衡的数据流分析。该软件包与Scikit-learn兼容，其主要组件是一个流生成器，允许合成数据流的生成。该合成数据流可以在其循环或非循环版本中结合三种主要的概念漂移类型（即突然漂移、渐进漂移和增量漂移）中的每一个。

Python包允许按照既定的评估方法（Test-Then-Train和Prequential）进行实验。此外，研究人员已经实现了适用于数据流分类的估计器，包括简单分类器、最新的基于块的分类器和在线分类器的集合。为了提高计算效率，该包将其自带的预测指标实现方式用于不平衡的二进制分类任务。

Stream-learn Python包是一个方便使用的开源库，用于困难的数据流分类。它可以根据不同的特征生成流，这些特征由各种类型的概念漂移和类不平衡水平组成，其中包括先前类概率中可能出现的漂移。

附加模块允许使用大众熟知的估算方法实现分类器和分类器集合，从而对数据流进行实验。它的主要想法是使得用户即刻熟悉数据流分类任务。该软件包已经在多篇科学论文的研究过程中得到了测试。对于那些偏好简单的处理过程、容易的操作方法、并与Scikit-learn机器学习库集成使用的用户而言，这是一个理想的工具。

原文：

https://arxiv.org/abs/2001.11077v1

一种衡量品牌重要性和品牌定位的创新型工具

在本文中，研究人员描述了SBS品牌智能应用程序（SBS BI）的功能，该功能旨在评估品牌重要性并通过文本数据分析提供品牌分析。为了更好地描述SBS BI的功能，他们提供了一个针对2020年美国民主总统初选的案例研究。

研究人员从Event Registry数据库下载了5万篇在线文章，其中包括从全球收集的主流新闻和博客新闻。这些在线新闻文章被转换为共现单词网络，并与社交网络分析和文本挖掘中的方法和工具相结合进行分析。

通过全面分析人们（包括新闻记者、评论员、选民等在内）对网上候选人的评论，这项工作中描述的方法在补充传统的民意调查上展现出了巨大的潜力。本文所提出的方法基于对大量文本数据的自动挖掘，这可以帮助抵消所谓的“民意调查疲劳”（在这种情况下，选民开始避免接听民意测验者的电话，从而影响了样本的代表性）。

本文提议的SBS工具中的组件可以被完全转换为品牌经理和数字营销专家可以使用的报告。SBS的预测能力及其三个维度（即流行性、多样性和连通性）已在包括旅游管理和政治预测在内的各种环境中得到了证明。

原文：

https://arxiv.org/abs/2001.11479v1

边缘计算与深度学习的融合调查

这是一个以信息为中心的时代，从个人计算机，智能手机和云数据中心服务器群集，到可穿戴设备和其他物联网（IoT）设备，用于运算和存储的设备数量激增。运算设备的增长激发了人们对边缘智能的关注，希望通过边缘计算促进DL服务的部署。

深度学习可以集成于边缘计算框架中，从而有助于构建一个动态且自适应的边缘维护和管理系统。本文介绍了相应的实现方法和支持技术的应用场景，即定制边缘计算框架中的深度学习训练和推理。此外，本文还进一步描述了更加普及和细化的情报所面临的挑战和未来趋势。

随着边缘计算能力的提高，边缘智能将变得不在罕见。这项工作介绍和讨论了边缘智能和智能边缘的各种方案和基本启用技术。

通过合并散布在通信，网络和深度学习领域中的信息，此调查可以帮助读者理解技术之间的联系，同时促进有关边缘智能与智能边缘融合的进一步讨论。

原文：

https://arxiv.org/abs/1907.08349v3

表示学习已实现无监督无反向传播CNN

这项新研究提出了一种无监督，无反向传播的学习算法。在没有明确定义的损失函数的情况下，该算法使用两个学习规则，逐层更新权重，从而减少了标量领结问题。研究人员认为，这是有史以来，第一个将CNN，SOM和Hebbian Learning原理结合到单个深度学习模型中的方法。

主要贡献：

用于训练CSNN模型，该算法使得研究人员可以获得与很多无监督训练模型相当的性能；
通过呈现两种类型的权重来掩盖输入和神经元活动，从而克服SOM在图像补丁上训练的问题；
建议使用多头版本以进一步提高性能。

这项工作介绍了CSNN的模块化构建基块，可以在无反向传播的情况下以无监督的方式实现表示学习。

通过结合CNN，SOM和Hebbian掩码学习的CSNN模块，用于学习无监督特征层次结构的新的替代方法一直在被探索中。标量领结问题和目标函数不匹配都可以一起解决，并提出引出了有趣的未来研究方向。

阅读更多：

https://arxiv.org/abs/2001.10388v1

其他爆款论文

Google AI发布了苍蝇大脑中神经元连接的超详细地图，同时发布了用于可视化分析的工具套件：

https://ai.googleblog.com/2020/01/releasing-drosophila-hemibrain.html

想要追踪多个对象？你可以使用这个操作简便的基于云的应用程序：

https://arxiv.org/abs/2001.10072v1

为新闻报道创造代表性的头条新闻而奋斗：

https://arxiv.org/abs/2001.09386v2

Deep NRSfM ++，一种可以从2D地标联合恢复3D形状和相机姿势的通用框架：

https://arxiv.org/abs/2001.10090v1

为什么要用最新的ML分析历史照片档案：

https://arxiv.org/abs/1904.09811v3

数据集

航空视频事件识别的大规模数据集和深度学习基准：

https://arxiv.org/abs/2001.11394v1

用于视频异常检测的新数据集和评估协议：

https://arxiv.org/abs/1902.05872v3

AI大事件

上海利用面部识别技术帮助抓获毒犯：

https://artificialintelligence-news.com/2020/01/17/shanghai-uses-facial-recognition-to-help-catch-drug-offenders/

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家，在北京生活5年。他是深度学习系统部署方面的专家，在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验，他还教授了1000名学生了解深度学习基础。LinkedIn：https：//www.linkedin.com/in/christopherdossman/

大数据文摘

秉承“普及数据思维，传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术，形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业chatbot数据流分析边缘计算AI

相关数据

深度学习技术

深度学习（deep learning）是机器学习的分支，是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是机器学习中一种基于对数据进行表征学习的算法，至今已有数种深度学习框架，如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

来源：LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

数据分析技术

数据分析是一类统计方法，其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系，并绘制出统计信息图，以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据，以便弄清哪些是同质的，从而更好地了解数据。数据分析可以处理大量数据，并确定这些数据最有用的部分。

来源：维基百科

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

机器学习技术

机器学习是人工智能的一个分支，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。算法设计方面，机器学习理论关注可以实现的，行之有效的学习算法。

来源：Mitchell, T. (1997). Machine Learning. McGraw Hill.

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

数据科学技术

数据科学，又称资料科学，是一门利用数据学习知识的学科，其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术，包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

来源：维基百科

异常检测技术

在数据挖掘中，异常检测（英语：anomaly detection）对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别。通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。

来源：维基百科

边缘计算技术

边缘运算（英语：Edge computing），又译为边缘计算，是一种分散式运算的架构，将应用程序、数据资料与服务的运算，由网络中心节点，移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解，切割成更小与更容易管理的部分，分散到边缘节点去处理。边缘节点更接近于用户终端装置，可以加快资料的处理与传送速度，减少延迟。在这种架构下，资料的分析与知识的产生，更接近于数据资料的来源，因此更适合处理大数据。

来源：Edge Computing: Vision and Challenges

损失函数技术

在数学优化，统计学，计量经济学，决策理论，机器学习和计算神经科学等领域，损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

来源：Wikipedia

数据库技术

数据库，简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

来源：维基百科

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式，所以目标函数就是设计变量的函数，是一个标量。从工程意义讲，目标函数是系统的性能标准，比如，一个结构的最轻重量、最低造价、最合理形式；一件产品的最短生产时间、最小能量消耗；一个实验的最佳配方等等，建立目标函数的过程就是寻找设计变量与目标的关系的过程，目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

来源：百度百科

聊天机器人技术

聊天机器人是经由对话或文字进行交谈的计算机程序。能够模拟人类对话，通过图灵测试。聊天机器人可用于实用的目的，如客户服务或资讯获取。有些聊天机器人会搭载自然语言处理系统，但大多简单的系统只会撷取输入的关键字，再从数据库中找寻最合适的应答句。

来源：维基百科

神经元技术

（人工）神经元是一个类比于生物神经元的数学计算模型，是神经网络的基本组成单元。对于生物神经网络，每个神经元与其他神经元相连，当它“兴奋”时会向相连的神经元发送化学物质，从而改变这些神经元的电位；神经元的“兴奋”由其电位决定，当它的电位超过一个“阈值”（threshold）便会被激活，亦即“兴奋”。目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。在这个模型中，神经元通过带权重的连接接处理来自n个其他神经元的输入信号，其总输入值将与神经元的阈值进行比较，最后通过“激活函数”（activation function）产生神经元的输出。

来源：Overview of Artificial Neural Networks and its Applications. (2018). medium.com.

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型，尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中，生成模型可以用来直接对数据建模（例如根据某个变量的概率密度函数进行数据采样），也可以用来建立变量间的条件概率分布。

来源：维基百科

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等，大致相当于文字分析，一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生，如模式识别。文本挖掘通常涉及输入文本的处理过程，产生结构化数据，并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性，新颖性和趣味性。

来源：维基百科

人机交互技术

人机交互，是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作。小如收音机的播放按键，大至飞机上的仪表板、或是发电厂的控制室。

来源：维基百科

OpenAI GPT技术

GPT 是“Generative Pre-Training”的简称，从名字看其含义是指的生成式的预训练。GPT 也采用两阶段过程，第一个阶段是利用语言模型进行预训练，第二阶段通过 Fine-tuning 的模式解决下游任务。它与ELMO 主要不同在于两点：特征抽取器不是用的 RNN，而是用的 Transformer；GPT 的预训练虽然仍然是以语言模型作为目标任务，但是采用的是单向的语言模型。

来源：机器之心

事件识别技术

事件识别（事件模式匹配）指检测与处理相关的事件，从而提供实施反应措施的机会。比如识别计算机网络节点中的攻击，视频内容中的人类活动，社交网络上的新兴故事和趋势，智能城市中的交通和运输事件，电子市场中的欺诈，心律失常和流行病传播等。在每个场景中，事件识别通过理解大数据流而做出相应的反应。

来源：Sudden event recognition: A survey