词库名称

特点

来源

THUOCL

清华大学开放中文词库

包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用;词库经过多轮人工筛选,保证词库收录的准确性;开放更新,将不断更新现有词表,并推出更多类别词表。

http://thuocl.thunlp.org/

Jieba

“结巴”中文分词

支持四种分词模式。支持繁体分词。支持自定义词典。MIT授权协议。

https://github.com/fxsjy/jieba

HanLP

汉语言处理包

功能完善、性能高效、架构清晰、语料时新、可自定义。

https://github.com/hankcs/HanLP

FoolNLTK

可能是最准的开源中文分词

可能不是最快的开源中文分词,但很可能是最准的开源中文分词;基于Bi-LSTM模型训练而成;包含分词,词性标注,实体识别,都有比较高的准确率;用户自定义词典;可训练自己的模型,批量处理。

https://github.com/rockyzhengwu/FoolNLTK

sego

Go中文分词库

词典用双数组trie实现,分词器算法为基于词频的最短路径加动态规划;支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务;分词速度单线程9 MB/s,goroutines并发42 MB/s (8核Macbook Pro)。

https://github.com/huichen/sego

LTP

哈尔滨工业大学语言技术平台

针对单一自然语言处理任务,生成统计机器学习模型的工具;针对单一自然语言处理任务,调用模型进行分析的编程接口;使用流水线方式将各个分析工具结合起来,形成一套统一的中文自然语言处理系统;系统可调用的,用于中文语言处理的模型文件;针对单一自然语言处理任务,基于云端的编程接口。

https://github.com/HIT-SCIR/ltp

NLPIR

中科院计算所NLPIR-ICTCLAS分词系统

针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索技术的十三项功能,提供客户端工具、云服务、二次开发接口。

http://ictclas.nlpir.org/nlpir/