第八章聚类分析 /96 聚类分析的概念 模式相似性测度 类的定义与类间距离 。聚类的算法
第八章 聚类分析 聚类分析的概念 模式相似性测度 类的定义与类间距离 聚类的算法
聚类分析的概念 /96 聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量。 ★无监督分类算法。 二、特征量的类型 ★物理量-一一一 (重量、长度、速度) ★次序量--一 (等级、技能、学识) ★名义量-一一一(性别、状态、种类)
聚类分析的概念 一、聚类分析的基本思想 ★相似的归为一类。 ★模式相似性的度量。 ★无监督分类算法。 二、特征量的类型 ★物理量----(重量、长度、速度) ★次序量----(等级、技能、学识) ★名义量----(性别、状态、种类)
特征选取不同对聚类结果的影响 J966 下列是一些动物的名称: 羊 (sheep) 狗 (dog) 蓝鲨 (blue shark) 蜥蜴 (Iizard) 毒蛇(viper) 猫 (cat) 麻雀(sparrow)! 海鸥 (seagul I) 金鱼(gold fish) 绯鲵鲣(red-mul let) 蛙 (frog) 要对这些动物进行分类,则不同的特征有不同的 分法:
下列是一些动物的名称: 羊 (sheep) 狗 (dog) 蓝鲨(blue shark) 蜥蜴 (lizard) 毒蛇(viper) 猫 (cat) 麻雀(sparrow) 海鸥 (seagull) 金鱼(gold fish) 绯鲵鲣(red-mullet) 蛙 (frog) 要对这些动物进行分类,则不同的特征有不同的 分法: 特征选取不同对聚类结果的影响
特征选取不同对聚类结果的影响 (a)按繁衍后代的方式分 蜥蜴,毒蛇, 羊,狗,猫 麻雀,海鸥,金鱼, 蓝鲨 绯鲵鲣,青蛙 哺乳动物 非哺乳动物
特征选取不同对聚类结果的影响 羊, 狗, 猫 蓝鲨 蜥蜴,毒蛇, 麻雀,海鸥,金鱼, 绯鲵鲣, 青蛙 (a) 按繁衍后代的方式分 哺乳动物 非哺乳动物
特征选取不同对聚类结果的影响 966 (b)按肺是否存在分 金鱼 羊,狗,猫 绯鲵鲣 蜥蜴,毒蛇 蓝鲨 麻雀,海鸥 青蛙 无肺 有肺
金鱼 绯鲵鲣 蓝鲨 羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥 青蛙 (b) 按肺是否存在分 无肺 有肺 特征选取不同对聚类结果的影响
特征选取不同对聚类结果的影响 966 (c)按生活环境分 羊,狗,猫 金鱼 蜥蜴,毒蛇 绯鲵鲣 青蛙 麻雀,海鸥 蓝鲨 陆地 水里 两栖
青蛙 羊,狗,猫 蜥蜴,毒蛇 麻雀,海鸥 金鱼 绯鲵鲣 蓝鲨 (c) 按生活环境分 陆地 水里 两栖 特征选取不同对聚类结果的影响
特征选取不同对聚类结果的影响 /966 ()按繁衍后代方式和肺是否存在分 羊,狗,猫 蜥蜴,毒蛇 金鱼 哺乳且有肺 麻雀,海鸥 绯鲵鲣 青蛙 蓝鲨 非哺乳且有肺 非哺乳且无肺哺乳且无肺
蓝鲨 金鱼 绯鲵鲣 蜥蜴,毒蛇 麻雀,海鸥 青蛙 羊,狗,猫 (d) 按繁衍后代方式和肺是否存在分 非哺乳且有肺 哺乳且无肺 哺乳且有肺 非哺乳且无肺 特征选取不同对聚类结果的影响
距离测度不同,聚类结果也不同 966 0 0 0 ●】 数据的粗聚类是两类,细聚类为4类
距离测度不同,聚类结果也不同 数据的粗聚类是两类,细聚类为4类
综上可见: 966 选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对聚类结果都会产生极大影响
综上可见: 选择什么特征? 选择多少个特征? 选择什么样的量纲? 选择什么样的距离测度? 这些对聚类结果都会产生极大影响
聚类过程遵循的基本步骤 /966 特征选择 尽可能多地包含任务关心的信息 二、 近邻测度 定量测定两特征如何“相似”或“不相似” 三、 聚类准则 以蕴涵在数据集中类的类型为基础 四、 聚类算法 按近邻测度和聚类准则揭示数据集的聚类结构 五、结果判定 由专家用其他方法判定结果的正确性
聚类过程遵循的基本步骤 一、特征选择 尽可能多地包含任务关心的信息 二、近邻测度 定量测定两特征如何“相似”或“不相似” 三、聚类准则 以蕴涵在数据集中类的类型为基础 四、聚类算法 按近邻测度和聚类准则揭示数据集的聚类结构 五、结果判定 由专家用其他方法判定结果的正确性