著名的斯坦福自然语言工具 CoreNLP 有了最新的更新,此次更新的 CoreNLP 下载包大小为 536MB,包括 CoreNLP code jar、CoreNLP model jar、运行 CoreNLP 所需的库、该项目的文档/源代码。
项目地址:http://stanfordnlp.github.io/CoreNLP/
斯坦福 CoreNLP 提供一系列自然语言分析工具。它能给出单词的基础形式,单词在语言中的成分,单词是否是公司、人的名字,规范化日期、时间、数量词等,根据短语和单词的依存关系组成语句结构,表明哪些名词短语指代同一实体,指明情感成分,提取这些内容之间的开放性关系,等等一系列用途。
如果你有以下需求,就可以使用斯坦福 CoreNLP:
需要一个有宽泛范围语法分析工具的融合型工具包;
对任意文本进行快速、可靠的分析;
总体而言最高质量的文本分析;
支持一系列主要的(人类)语言;
可与多种主要的编程语言对接;
可作为简单的网页服务来运行;
斯坦福 CoreNLP 是一个融合框架。其目标是能最简单的将语言学分析工具应用到文本中。一个 CoreNLP 工具管道通过两行代码就能在一些简单文本上运行。其设计高度灵活、可延展。你可以改变其中无效的工具,加入有效的工具。斯坦福 CoreNLP 融合了斯坦福多种 NLP 工具,包括 part-of-speech(POS)tagger、命名实体识别器(NER)、解析器、conference resolution 系统、情感分析、bootstrapped 模式学习和开放信息提取工具。它的分析能为高层次的、特定领域的文本理解应用提供基础构造。
此次更新的 CoreNLP 下载包大小为 536MB,包括 CoreNLP code jar、CoreNLP model jar、运行 CoreNLP 所需的库、该项目的文档/源代码。此外该项目还提供了早期版本的下载。下图是 3.7.0(beta)支持下载的语言:
LANGUAGE | MODEL JAR | VERSION |
---|---|---|
Arabic | download | 3.7.0 (beta) |
Chinese | download | 3.7.0 (beta) |
English | download | 3.7.0 (beta) |
French | download | 3.7.0 (beta) |
German | download | 3.7.0 (beta) |
Spanish | download | 3.7.0 (beta) |
工具包的基础分布能为较好剪辑英语的分析提供模型文件夹,但该引擎能兼容其他语言模型。我们提供了阿拉伯语、汉语、法语、德语、西班牙语的打包模型。我们也提供了一个包含斯坦福所有英语模型的 jar,它包含各种变体模型,尤其是有一个处理非常规英语(例如,大部分或全部单词都是大写或小写的形式)的优化模型。该工具包也支持其他语言的第三方。
在编程语言上,斯坦福 CoreNLP 使用 Java 编写。从命令行使用斯坦福 CoreNLP 的方式有很多,通过 Java 编程 API、大部分编程语言的第三方 API 或者通过 CoreNLP Server。它能在 Linux、OS X 和 Windows 上运行。