特征序号 | 特征名称 | 预处理量化方法 | 动机 |
3 | PSC | 取所影响文件中,注释行数目与代码总行数的比值,以小数点后保留两位有效数字的小数形式提取该特征。 | 因为在调节神经元突触权值的过程中,计算机以浮点数存储神经网络数据。取小数形式也与其它属性值在格式上保持一致。 |
7 | NCE | 用信息熵计算变更对子文件的影响,此熵值同样采用以小数点后保留两位有效数字的小数形式。 | 熵值能够反映变更对子文件的影响。与其它属性值在格式上保持一致。 |
9 | FS | 取变更发生前后抽象语法树的树距离差值。 | 此距离差值可以反应变更对子文件的影响。 |
10 | DS | 取变更发生前后子文件目录树的树距离差值。 | 此距离差值可以反应变更对子文件功能结构的影响。 |
13 | AGE | 此时间差以分钟为单位,取整数。 | 统一将所有特征中涉及时间的值都以分钟为单位。取整数形式能够减少后续计算量。 |
14 | FIX | 若为修复缺陷的变更,值取1,否则值取0。 | 两种情况分别用1,0表示,形式简单。 |
16 | LTF | 取与变更相关的日志数量,即日志条数。 | 取值为整数,方便后续计算。 |
20 | RPT | 此时间差以分钟为单位,取整数。 | 与其它时间特征形式统一。 |
24 | PTL | 此属性值以天为单位取值,取整数。 | 该属性可能横跨整个项目开发周期,避免该值过大,增大后续计算量。 |
25 | LTF | 从需求阶段开始,测试阶段结束。依次为需求阶段取值1、设计阶段取值2、开发阶段取值3、测试阶段取值4。 | 取小整数,减少后续计算量。 |