二、数据预处理 数据的预处理(又称规范化)主要有如下三种作用。 首先,属性值有多种类型。有些指标的属性值越大越好,如科硏成果数科硏经费等是 效益型;有些指标的值越小越好,称作成本型。另有一些指标的属性值既非效益型又非成本 型。例如硏究生院的生师比,一个指导教师指导4至6名硏究生既可保证教师满工作量,也 能使导师有充分的科硏时间和对硏究生的指导时间,生师比值过高,学生的培养质量难以保 证;比值过低;教师的工作量不饱满。这几类属性放在同一表中不便于直接从数值大小来判 断方案的优劣,因此需要对属性表中的数据进行预处理,使表中任一属性下性能越优的值在 变换后的属性表中的值越大 其次是非量纲化。多目标评估的困难之一是指标间不可公度,即在属性值表中的每一列 数具有不同的单位(量纲)。即使对同一属性,采用不同的计量单位,表中的数值也就不 同。在用各种多目标评估方法进行评价时,需要排除量纲的选用对评估结果的影响,这就是 非量纲化,亦即设法消去(而不是简单删去)量纲,仅用数值的大小来反映属性值的优劣。 第三是归一化。原属性值表中不同指标的属性值的数值大小差别很大,如总经费即 使以万元为单位,其数量级往往在干(103)万(104间,而生均在学期间发表的论文、专著 的数量、生均获奖成果的数量级在个位(10减或小数(10-)之间,为了直观,更为了便于 采用各种多目标评估方法进行比较,需要把属性值表中的数值归-化,即把表中数均变换到 [0,1]区间上 此外还可在数据预处理时用非线性变换或其他办法来解决或部分解决目标间的不完全 补偿性 常用的数据预处理方法有下列几种。 (1)线性变换 效益型属性:=y1y (10-1) 变换后的属性值最差不为0,最佳为1 成本型属性=1-y/y (10-2) 变换后的属性值最佳不为1,最差为0 y 变换后的属性值最差不为0,最佳为1,且是非线性变换 表10.2表10.1经线性变换后的属性值 1(y)|=3(y3) (y4) 0.0357 0.2553 0.0714 0.8000 0.5319 0.2143 0.2520 0.3617 0.4000 0.107 0.1702 0.3077 10000 0.056 7447 1.0000 (2)标准0-1变换 10-210- 2 二、数据预处理 数据的预处理(又称规范化)主要有如下三种作用。 首先,属性值有多种类型。有些指标的属性值越大越好,如科研成果数、科研经费等是 效益型;有些指标的值越小越好,称作成本型。另有一些指标的属性值既非效益型又非成本 型。例如研究生院的生师比,一个指导教师指导 4 至 6 名研究生既可保证教师满工作量, 也 能使导师有充分的科研时间和对研究生的指导时间,生师比值过高,学生的培养质量难以保 证;比值过低;教师的工作量不饱满。这几类属性放在同一表中不便于直接从数值大小来判 断方案的优劣,因此需要对属性表中的数据进行预处理,使表中任一属性下性能越优的值在 变换后的属性表中的值越大。 其次是非量纲化。多目标评估的困难之一是指标间不可公度,即在属性值表中的每一列 数具有不同的单位(量纲)。即使对同一属性,采用不同的计量单位,表中的数值也就不 同。在用各种多目标评估方法进行评价时,需要排除量纲的选用对评估结果的影响,这就是 非量纲化,亦即设法消去(而不是简单删去)量纲,仅用数值的大小来反映属性值的优劣。 第三是归一化。原属性值表中不同指标的属性值的数值大小差别很大,如总经费即 使以万元为单位,其数量级往往在千( 103 )、万( 104 )间,而生均在学期间发表的论文、专著 的数量、生均获奖成果的数量级在个位( 100 )或小数( 10−1 )之间,为了直观,更为了便于 采用各种多目标评估方法进行比较,需要把属性值表中的数值归一化,即把表中数均变换到 [0,1]区间上。 此外,还可在数据预处理时用非线性变换或其他办法来解决或部分解决目标间的不完全 补偿性。 常用的数据预处理方法有下列几种。 (1)线性变换 效益型属性: zij = yij / y j max (10-1) 变换后的属性值最差不为 0,最佳为 1 成本型属性 zij = 1 - yij / y j max (10-2) 变换后的属性值最佳不为 1,最差为 0 或 zij ’ = y j min / yij (10-2’) 变换后的属性值最差不为 0,最佳为 1, 且是非线性变换 表 10.2 表 10.1 经线性变换后的属性值 j i z1 ( y1 ) z3 ( y3 ) z4 ( y4 ) z4 ' ( y4 ) 1 0.0357 1.0000 0.0000 0.2553 2 0.0714 0.8000 0.5319 0.5455 3 0.2143 0.2520 0.3617 0.4000 4 0.1071 0.6000 0.1702 0.3077 5 1.0000 0.0568 0.7447 1.0000 (2) 标准 0-1 变换