特征序号

特征名称

预处理量化方法

动机

3

PSC

取所影响文件中,注释行数目与代码总行数的比值,以小数点后保留两位有效数字的小数形式提取该特征。

因为在调节神经元突触权值的过程中,计算机以浮点数存储神经网络数据。取小数形式也与其它属性值在格式上保持一致。

7

NCE

用信息熵计算变更对子文件的影响,此熵值同样采用以小数点后保留两位有效数字的小数形式。

熵值能够反映变更对子文件的影响。与其它属性值在格式上保持一致。

9

FS

取变更发生前后抽象语法树的树距离差值。

此距离差值可以反应变更对子文件的影响。

10

DS

取变更发生前后子文件目录树的树距离差值。

此距离差值可以反应变更对子文件功能结构的影响。

13

AGE

此时间差以分钟为单位,取整数。

统一将所有特征中涉及时间的值都以分钟为单位。取整数形式能够减少后续计算量。

14

FIX

若为修复缺陷的变更,值取1,否则值取0。

两种情况分别用1,0表示,形式简单。

16

LTF

取与变更相关的日志数量,即日志条数。

取值为整数,方便后续计算。

20

RPT

此时间差以分钟为单位,取整数。

与其它时间特征形式统一。

24

PTL

此属性值以天为单位取值,取整数。

该属性可能横跨整个项目开发周期,避免该值过大,增大后续计算量。

25

LTF

从需求阶段开始,测试阶段结束。依次为需求阶段取值1、设计阶段取值2、开发阶段取值3、测试阶段取值4。

取小整数,减少后续计算量。