STEP1

对所有数据进行区分,30%的数据进入测试集,其余70%进入待定训练集

STEP2

对待定数据集中的数据按照分类结果的值进行区分,样本较少的部分进入预备训练集,样本较多的部分则进入 临时训练集

STEP3

对临时训练集中的数据进行两步聚类,聚类结果数量较少的数据划为A类训练集,其他样本数据为B类训练集

STEP4

随机取B类训练集中的30%数据,与所有A类训练集、预备的数据集共同构成最终的训练集

STEP5

对上述最终训练集和测试集,分别采用预备训练集部分的数据权重增加四倍的样本均衡操作和不进行样本 均衡操作