北大开源全新中文分词工具包「pkuseg」 : 准确率远超「结巴分词」
近日,北大开源了一个中文分词工具包「pkuseg」,它在多个分词数据集上都有非常高的分词准确率。其中广泛使用的「结巴分词」误差率高达 18.55% 和 20.42,而北大的 pkuseg 只有 3.25% 与 4.32%。「pkuseg」是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用,支持多领域分词,在不同领域的数据上都大幅提高了分词的准确率。项目地址:https://github.com/lancopku/PKUSeg-python.