正在加载图片...
∑S 其中,S为案例和案例j在变量k上的相似性得分,Wi为加权变量 S和W的计算规则如下(见表4-4)。 对于二分类变量 在变量k上的值 案例i 案例j 0 0 0 W 1 0 即,只有当两个案例在某个变量上都取值为1时,S取值1,其他情况都取 值为0。对于二分类变量,果瓦系数等于雅科比系数。 对于序次变量:两个案例在变量上的取值相同时,S=1,取值不同时,S 对于间距测度或以上的变量 /RE 其中,x和x分别是案例和案例j在变量k上的值,R是变量k的全距 ( Range),即变量k的最大值与最小值之间的差。 4.数据的标准化问题 前面介绍的大部分相似测度,特别是距离测度,受聚类变量测量单位的影响 很大,其中数量级单位大的变量往往其变差也大,它对相似测度的贡献占主导地 位,这样就可能掩盖了其他变差小的变量的影响。另外,当变量的测量单位变化 时,相似测度的值也随之改变,有可能改变最终的聚类结果。下面我们通过一个 具体例子加以说明。 假设A、B、C三个案例在受教育年限和年收入两个变量上的值见表4-5 年收入可以分别用万元和元两种单位测量,表4-6给出了分别用这两种单位的 简单欧氏距离。当以万元为单位时,A和C之间的相似性最高,其次是A和B,B 和C之间的相似性最低,受教育年限变量在距离测度中起了主导作用。当年收入 以元为单位测量时,A和C之间的相似性变成了最低,A和B与B和C之间的相 似性相同,年收入的差异在相似性测度中占了绝对主导作用。 124
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有