Synced 深度研学社 每周干货,每周五为大家推荐机器学习的入门教程、技术分析、以及资源分享。不多不少,每周进步一点点~
【入门资料】Symbolic, Distributed and Distributional Representations for Natural Language Processing in the Era of Deep Learning: a Survey
by Lorenzo Ferrone, Fabio Massimo Zanzotto
简介:这篇文章是一篇自然语言处理中各种词的表示方法的综述,介绍十分详细,全面地介绍了从符号表示到分布式表示等各种表示方法,篇幅较长,共25页。文章作者旨在链接起符号表示法和分布式表示法,介绍如何理解出现在神经网络中的各种词的表示法。
【技术分析】Real Multi-Sense or Pseudo Multi-Sense: An Approach to Improve Word Representation
by Haoyue Shi, Caihua Li, Junfeng Hu
简介:这篇文章作者来自于北京大学。词向量是一个被广泛研究的领域,其中的经典问题之一是一词多义现象,这篇文章主要关注对一词多义的处理方法,提出了一个可以识别伪一词多义现象的算法,尝试弱化现下一词多义对词嵌入的负面影响,降低语言复杂度。作者的测试显示应用该算法后词汇表示的质量有所提升。
【资源分享】Ranked: 15 Python Packages for Data Science
by Data Incubator
简介:众所周知,Python在数据科学中甚是常用,所以Data Incubator发布了一篇数据科学中Python package的排名报告,列出15个位列在前的最常见、最受欢迎的Python package。该排名基于各package在Github和Stack Overflow的活跃度和下载量,位列前三的是Numpy、TensorFlow和Pandas.