分词器种类

分解后的文本

原理

StandaAnalyzer

石|墨|烯|具|有|非|常|良|好|的|光|学|特|性|在|较|宽|波|长|范|围|

内|吸|收|率|约|为|2.3|看|上|去|几|乎|是|透|明|的|在|几|层|石|墨|烯|厚|度|范|围|内|厚|度|每|增|加|一|层|吸|收|率|增|加|2.3|

一元分词,很明显使用这种分词

器会破坏原有汉语词汇的含义,

不适合用来做中文分词

SmartChineseAnalyzer

石墨|烯|具有|非常|良好|的|光学|特性|在|较|宽|波长|范围|内|吸收率|约|为|2|3|看上去|几乎|是|透明|的|在|几|层|石墨|烯|厚度|范围|内|厚度|每|增加|一|层|吸收率|增加|2|3|

Lucene中的smartcn模块之中提供的分词器,实际使用效果并不好

CJKAnalyzer

石墨|墨烯|烯具|具有|有非|非常|常良|良好|好的|的光|光学|学特|特性|在较|较宽|宽波|波长|长范|范围|围内|内吸|吸收|收率|率约|约为|2.3|看上|上去|去几|几乎|乎是|是透|透明|明的|在几|几层|层石|石墨|墨烯|烯厚|厚度|度范|范围|围内|厚度|度每|每增|增加|加一|一层|吸收|收率|率增|增加|2.3|

Lucene的common包中提供的

分词器,通过源码可以发现需要

提供停止字符,从而提高分词正确率。基本原理是使用二元分词效果。

IKAnalyzer

石墨|烯|具有|非常|良好|的|光学|特性|在|较宽|波长|范围内|吸收率|约为|2.3|看上去|几乎是|透明|的|在|几层|石墨|烯|厚度|范围内|厚度|每|增加|一层|吸收率|增加|2.3|

基于词典分词,这里开启了智能模式,看起来分词效果很好,因为没有使用特定字典,石墨烯被分开为两部分。

ChineseAnalyzer

该分词器在lucene5版本时被移除,

官网已经将此类设定为废弃。建议

使用StandardAnalyzer代替