序号

步骤

作用

结果

1

Remove Duplicates (D)

合并重复记录

删除重复记录1条,剩余161条

2

Erase Errors (E)

删除不符合检索需求的记录

删除与研究主题偏离较远的、不符合需求的记录111条,剩余50条

3

Merge Alias (A)

合并相同概念词

提取关键词20个,去除部分语法异构、语义异构的同义词,合并含义相同的关键词0个

4

Reduce Noises (N)

删除低频词

隐藏频次小于4的词