给出一个特征f = {s1,s2,...sn} |
令L为序列si的最长长度 |
连接s1,s2,...sn构成S |
对1到n_iter做如下循环 |
开始索引ki:随机数,ki<序列S的长度-L + 1 |
移动长度li:随机数,li < L |
序列S 从位置ki移动到ki + li-1的子序列记为Sti |
f’表示由特征中每个序列与子序列Sti的编辑距离组成的特征向量 |
IGi(f’)表示特征向量f’的信息增益 |
循环结束 |
返回信息增益最大所对应的子序列STi |