词库名称 | 特点 | 来源 | |
THUOCL | 清华大学开放中文词库 | 包含词频统计信息DF值(Document Frequency),方便用户个性化选择使用;词库经过多轮人工筛选,保证词库收录的准确性;开放更新,将不断更新现有词表,并推出更多类别词表。 | http://thuocl.thunlp.org/ |
Jieba | “结巴”中文分词 | 支持四种分词模式。支持繁体分词。支持自定义词典。MIT授权协议。 | https://github.com/fxsjy/jieba |
HanLP | 汉语言处理包 | 功能完善、性能高效、架构清晰、语料时新、可自定义。 | https://github.com/hankcs/HanLP |
FoolNLTK | 可能是最准的开源中文分词 | 可能不是最快的开源中文分词,但很可能是最准的开源中文分词;基于Bi-LSTM模型训练而成;包含分词,词性标注,实体识别,都有比较高的准确率;用户自定义词典;可训练自己的模型,批量处理。 | https://github.com/rockyzhengwu/FoolNLTK |
sego | Go中文分词库 | 词典用双数组trie实现,分词器算法为基于词频的最短路径加动态规划;支持普通和搜索引擎两种分词模式,支持用户词典、词性标注,可运行JSON RPC服务;分词速度单线程9 MB/s,goroutines并发42 MB/s (8核Macbook Pro)。 | https://github.com/huichen/sego |
LTP | 哈尔滨工业大学语言技术平台 | 针对单一自然语言处理任务,生成统计机器学习模型的工具;针对单一自然语言处理任务,调用模型进行分析的编程接口;使用流水线方式将各个分析工具结合起来,形成一套统一的中文自然语言处理系统;系统可调用的,用于中文语言处理的模型文件;针对单一自然语言处理任务,基于云端的编程接口。 | https://github.com/HIT-SCIR/ltp |
NLPIR | 中科院计算所NLPIR-ICTCLAS分词系统 | 针对大数据内容处理的需要,融合了网络精准采集、自然语言理解、文本挖掘和网络搜索技术的十三项功能,提供客户端工具、云服务、二次开发接口。 | http://ictclas.nlpir.org/nlpir/ |