生物芯片数据分析方法 聚类和分类分析
聚类和分类分析 生物芯片数据分析方法
聚类
聚类
引言 o物以类聚,人以群分。x 1.相似性指标 基于物体的相似性将 物体分成不同的组 2.聚类算法 012
一、引言 物以类聚,人以群分。 基于物体的相似性将 物体分成不同的组 1.相似性指标 2.聚类算法
基因表达谱数据的聚类分析 聚类分析是基因表达数据分析最常用的多变量技 术。 ◎在没有关于数据的先验知识时,对不同的样本或 实验间的相似性进行研究。 机器学习:无监督学习
二、基因表达谱数据的聚类分析 聚类分析是基因表达数据分析最常用的多变量技 术。 在没有关于数据的先验知识时,对不同的样本或 实验间的相似性进行研究。 机器学习:无监督学习
二、基因表达谱数据的聚类分析 o聚类的基础是对象间的相似性。 ◎相似性指标用于度量对其进行聚类的对象之间的相似 程度。 o聚类:把相似的个体划分到相同的组别,不同的个体 划分到不同组别的过程
二、基因表达谱数据的聚类分析 聚类的基础是对象间的相似性。 相似性指标用于度量对其进行聚类的对象之间的相似 程度。 聚类:把相似的个体划分到相同的组别,不同的个体 划分到不同组别的过程
基因表达谱数据的聚类 对样本进行聚类(Q型 ●实验样本的质量控制 5555B5585表表是 ●检查样本是否按已知 类别分组 发现亚型 对基因进行聚类(R型) 识别功能相关的基因 别基因共表达模式
二、基因表达谱数据的聚类 对样本进行聚类(Q型) 实验样本的质量控制 检查样本是否按已知 类别分组 发现亚型 对基因进行聚类(R型) 识别功能相关的基因 识别基因共表达模式 样本 基因 基因表达谱
三、距离尺度函数——相似性指标 ◎相似性的计算是取输入空间中的两个点,计算出一个 正数,该正数包含了这两个点之间的相似性程度的信 息 ◎假定输入空间为n维空间,则两个数据点可以是: 两个基因在n个样本中的测量值 两个样本在在n个基因上的测量值
三、距离尺度函数——相似性指标 相似性的计算是取输入空间中的两个点,计算出一个 正数,该正数包含了这两个点之间的相似性程度的信 息。 假定输入空间为n维空间,则两个数据点可以是: 两个基因在n个样本中的测量值 两个样本在在n个基因上的测量值
三、距离尺度函数一一相似性的度量 n维空间中的两个点x、y间的距离d具有如下属性 0对称性 d(x,y)=d(y, x) 0非负性 d(xy)>=0 0三角不等性 d(x,y)<=d(x,2)+d(z2y)
三、距离尺度函数——相似性的度量 n维空间中的两个点x、y间的距离d具有如下属性: 对称性 d(x,y)=d(y,x) 非负性 d(x,y)>=0 三角不等性 d(x,y)<= d(x,z)+ d(z,y)
三、距离尺度函数一一相似性的度量 常用的距离度量指 o几何距离 o线性相关系数 o非线性相关系数 向量间的角度 其他
三、距离尺度函数——相似性的度量 几何距离 线性相关系数 非线性相关系数 向量间的角度 其他 常用的距离度量指标:
(一)几何距离 o欧氏距离 o曼哈顿距离 o切氏距离 o广义欧氏距离 o明氏距离
(一)几何距离 欧氏距离 曼哈顿距离 切氏距离 广义欧氏距离 明氏距离