词库名称		特点	来源
THUOCL	清华大学开放中文词库	包含词频统计信息DF值(Document Frequency)，方便用户个性化选择使用；词库经过多轮人工筛选，保证词库收录的准确性；开放更新，将不断更新现有词表，并推出更多类别词表。	http://thuocl.thunlp.org/
Jieba	“结巴”中文分词	支持四种分词模式。支持繁体分词。支持自定义词典。MIT授权协议。	https://github.com/fxsjy/jieba
HanLP	汉语言处理包	功能完善、性能高效、架构清晰、语料时新、可自定义。	https://github.com/hankcs/HanLP
FoolNLTK	可能是最准的开源中文分词	可能不是最快的开源中文分词，但很可能是最准的开源中文分词；基于Bi-LSTM模型训练而成；包含分词，词性标注，实体识别，都有比较高的准确率；用户自定义词典；可训练自己的模型，批量处理。	https://github.com/rockyzhengwu/FoolNLTK
sego	Go中文分词库	词典用双数组trie实现，分词器算法为基于词频的最短路径加动态规划；支持普通和搜索引擎两种分词模式，支持用户词典、词性标注，可运行JSON RPC服务；分词速度单线程9 MB/s，goroutines并发42 MB/s (8核Macbook Pro)。	https://github.com/huichen/sego
LTP	哈尔滨工业大学语言技术平台	针对单一自然语言处理任务，生成统计机器学习模型的工具；针对单一自然语言处理任务，调用模型进行分析的编程接口；使用流水线方式将各个分析工具结合起来，形成一套统一的中文自然语言处理系统；系统可调用的，用于中文语言处理的模型文件；针对单一自然语言处理任务，基于云端的编程接口。	https://github.com/HIT-SCIR/ltp
NLPIR	中科院计算所NLPIR-ICTCLAS分词系统	针对大数据内容处理的需要，融合了网络精准采集、自然语言理解、文本挖掘和网络搜索技术的十三项功能，提供客户端工具、云服务、二次开发接口。	http://ictclas.nlpir.org/nlpir/