正在加载图片...
主元分析(PCA)理论分析及应用 http://www.cad.zju.edu.cn/home/chenlu/pca.htm 数据集表示。P是他们之间的线性转换。 PX-Y (1) 有如下定义: 1”表示P的行向量。 1 表示的列向量(或者)。 1”表示”的列向量。 公式(1)表示不同基之间的转换,在线性代数中,它有如下的含义: 0 P是从x到严的转换矩阵。 0 几何上来说,P对x进行旋转和拉伸得到”。 0 P的行向量,…产是一组新的基,而”是原数据X在这组新的基表示下得到的重新表示。 下面是对最后一个含义的显式说明: PX- Y= P限·为 注意到Y的列向量: LPw石」 可见表示的是与P中对应列的点积,也就是相当于是在对应向量上的投影。所以,P的行向量事实上就是 一组新的基。它对原数据X进行重新表示。在一些文献中,将数据X成为“源”,而将变换后的Y称为“信 号”。这是由于变换后的数据更能体现信号成分的原因。 C.问题 在线性的假设条件下,问题转化为寻找一组变换后的基,也就是P的行向量乃,P】,这些向量就是 PCA中所谓的“主元”。问题转化为如下的形式: 1 怎样才能最好的表示原数据X? P的基怎样选择才是最好的? 解决问题的关键是如何体现数据的特征。那么,什么是数据的特征,如何体现呢? 方差和目标 “最好的表示”是什么意思呢?下面的章节将给出一个较为直观的解释,并增加一些额外的假设条件。在线 性系统中,所谓的“混乱数据”通常包含以下的三种成分:噪音、旋转以及冗余。下面将对这三种成分做出数 学上的描述并针对目标作出分析。 A.噪音和旋转 噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。噪音的横梁有 多种方式,最常见的定义是信噪比SWR(signal-io-oise ratio),或是方差比C: SNR= (2) 比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。那么怎样区分什么是 信号,什么是噪音呢?这里假设,变化较大的信息被认为是信号,变化较小的则是噪音。事实上,这个标准等 价于一个低通的滤波器,是一种标准的去噪准则。而变化的大小则是由方差来描述的。 第3页共10页 2010-3-1820:53数据集表示。 是他们之间的线性转换。 (1) 有如下定义: l 表示 的行向量。 l 表示 的列向量(或者 )。 l 表示 的列向量。 公式(1)表示不同基之间的转换,在线性代数中,它有如下的含义: Ø 是从 到 的转换矩阵。 Ø 几何上来说, 对 进行旋转和拉伸得到 。 Ø 的行向量, 是一组新的基,而 是原数据 在这组新的基表示下得到的重新表示。 下面是对最后一个含义的显式说明: 注意到 的列向量: 可见 表示的是 与 中对应列的点积,也就是相当于是在对应向量上的投影。所以, 的行向量事实上就是 一组新的基。它对原数据 进行重新表示。在一些文献中,将数据 成为“源”,而将变换后的 称为“信 号”。这是由于变换后的数据更能体现信号成分的原因。 在线性的假设条件下,问题转化为寻找一组变换后的基,也就是 的行向量 ,这些向量就是 PCA中所谓的“主元”。问题转化为如下的形式: l 怎样才能最好的表示原数据 ? l 的基怎样选择才是最好的? 解决问题的关键是如何体现数据的特征。那么,什么是数据的特征,如何体现呢? “最好的表示”是什么意思呢?下面的章节将给出一个较为直观的解释,并增加一些额外的假设条件。在线 性系统中,所谓的“混乱数据”通常包含以下的三种成分:噪音、旋转以及冗余。下面将对这三种成分做出数 学上的描述并针对目标作出分析。 噪音对数据的影响是巨大的,如果不能对噪音进行区分,就不可能抽取数据中有用的信息。噪音的横梁有 多种方式,最常见的定义是信噪比 (signal-to-noise ratio),或是方差比 : (2) 比较大的信噪比表示数据的准确度高,而信噪比低则说明数据中的噪音成分比较多。那么怎样区分什么是 信号,什么是噪音呢?这里假设,变化较大的信息被认为是信号,变化较小的则是噪音。事实上,这个标准等 价于一个低通的滤波器,是一种标准的去噪准则。而变化的大小则是由方差来描述的。 主元分析(PCA)理论分析及应用 http://www.cad.zju.edu.cn/home/chenlu/pca.htm 第3页 共10页 2010-3-18 20:53
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有