分词器种类 | 分解后的文本 | 原理 |
StandaAnalyzer | 石|墨|烯|具|有|非|常|良|好|的|光|学|特|性|在|较|宽|波|长|范|围| 内|吸|收|率|约|为|2.3|看|上|去|几|乎|是|透|明|的|在|几|层|石|墨|烯|厚|度|范|围|内|厚|度|每|增|加|一|层|吸|收|率|增|加|2.3| | 一元分词,很明显使用这种分词 器会破坏原有汉语词汇的含义, 不适合用来做中文分词 |
SmartChineseAnalyzer | 石墨|烯|具有|非常|良好|的|光学|特性|在|较|宽|波长|范围|内|吸收率|约|为|2|3|看上去|几乎|是|透明|的|在|几|层|石墨|烯|厚度|范围|内|厚度|每|增加|一|层|吸收率|增加|2|3| | Lucene中的smartcn模块之中提供的分词器,实际使用效果并不好 |
CJKAnalyzer | 石墨|墨烯|烯具|具有|有非|非常|常良|良好|好的|的光|光学|学特|特性|在较|较宽|宽波|波长|长范|范围|围内|内吸|吸收|收率|率约|约为|2.3|看上|上去|去几|几乎|乎是|是透|透明|明的|在几|几层|层石|石墨|墨烯|烯厚|厚度|度范|范围|围内|厚度|度每|每增|增加|加一|一层|吸收|收率|率增|增加|2.3| | Lucene的common包中提供的 分词器,通过源码可以发现需要 提供停止字符,从而提高分词正确率。基本原理是使用二元分词效果。 |
IKAnalyzer | 石墨|烯|具有|非常|良好|的|光学|特性|在|较宽|波长|范围内|吸收率|约为|2.3|看上去|几乎是|透明|的|在|几层|石墨|烯|厚度|范围内|厚度|每|增加|一层|吸收率|增加|2.3| | 基于词典分词,这里开启了智能模式,看起来分词效果很好,因为没有使用特定字典,石墨烯被分开为两部分。 |
ChineseAnalyzer | 无 | 该分词器在lucene5版本时被移除, 官网已经将此类设定为废弃。建议 使用StandardAnalyzer代替 |