正在加载图片...
第4期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·567· 2.3基于梅尔倒谱系数的特征提取 参数,是一个关键点。在这里选取MFCC提取的 多种时域分析和频域分析的手段,比如经验 特征作为输入向量,是为了更好地进行下一步, 模态分解方法、傅里叶变换和小波分析都被广泛 即脉诊信号的聚类工作。 地应用于脉搏信号的基本分析过程中。尤其是 0.3 傅里叶分析、小波分析这样的频域分析方法,对 0.2 周期性的信号进行数值分析,将脉搏信号中复杂 0.1 的周期性变化进行分解,得到不同频率的频谱变 0 50 100150200250 化,这样的做法,利用了脉象信号自身的周期性, 频率Hz 很好地抓住了脉搏信号中的特点,从而使得后续 图3MFC℃非线性频谱(横轴与纵轴分别代表频率与滤波) 的工作可以把从其间得到的频谱数据与人体的生 Fig.3 MFCC non-linear spectrum (horizontal for fre- 理和病理相关状态关联起来4均」 quency,vertical for filter) 本文将采用梅尔倒谱系数这样更成熟而且高 2.4 基于Fuzzy C-means(FCM的聚类 层的特征。在语音处理领域,梅尔倒谱系数(MFCC) 在前述过程中,通过对数据进行一些基本处 是一个非常常用而且成熟的特征16。该特征根据 理,提取出了信号的高层特征。整个流程(如图4) 人耳听觉的特征要点,用Mel标度频率域提取出 的最后一步是聚类过程。在聚类过程中,使用了 来的倒谱参数,进行非线性转换,从而做到使得 Fuzzy C-means(FCM)聚类算法,它允许同一数据 “处理之后的特征”,与“人类的真实听觉特征”相 属于多个不同的类。FCM算法与K-means算法 符。其优点在于:当用于信噪比较低的状况时, 的不同,在于同一个数据并不单独属于一个分 仍可做到较好的识别性能。MFCC这种特征的优 类,而是可能属于几个分类。 良性质,在于它对于信号的性质并没有过高的要 脉象信号 预处理 求,对于输入的信号也没有太多的预设和限定。 原始数据 归一化 特征提取 聚类过程 所以MFCC特征与其他特征相比,具有更好的鲁 图4脉象信号处理流程 棒性。因此本文选用它来对脉诊的输入信号进行 Fig.4 Structure model of group organizations 特征提取的处理。 倒谱分析可以分为3步过程,首先,将原波形 传统的聚类算法通常需要预先确定聚类中心 的数量,其缺点是容易降低聚类结果的客观性, 信号经过傅里叶变换得到频谱: 不仅如此,传统算法得到的结果也容易陷入局部 X[k=Hk E[k (4) 在两边取自然对数: 最优解。而本文采用的模糊C均值(fuzzy c-means, logl=log]+logllE[]ll (5) FCM)算法,与传统的算法相比,在客观性上进行 最后在两边取逆傅里叶变换得到 了提升。它首先执行优化的模糊目标函数计算, xIk]h[k]+elk] (6) 以获得单个采样点相对于每个类别中心的隶属 式中:x[就是倒谱,e[与hk分别是倒谱的高频 度,并以此来进一步确定这个采样点的归属。 和低频部分,其中的低频部分飞]也就是本文真 FCM在不少应用领域均被采用,比如医学诊断和 正关心的描述性特征。只需将频谱通过一组Ml 目标识别等8。 滤波器就得到Mel频谱,在Mel频谱上面获得的 FCM算法的做法,是首先将n个向量x,(=1, 倒谱系数h就称为Ml频率倒谱系数。 2,,)分为c个模糊群,并找出每个群的聚类中 MFCC特征的特点,是在频率坐标轴上非均 心,接下来非相似性指标的计算价值函数,令这 匀的滤波。具体来说:在低频区有很多滤波器, 些聚类中心能使价值函数达到最小。传统聚类算 分布较为密集,而在高频区域,滤波器的数目就 法(含K-means算法等),可以被称作是硬聚类算 变得较少,分布也变得稀疏(如图3)。这样的特 法HCM(hard clustering method),而FCM算法与 点,可以把特征的关注点放在某些特定的频率, HCM这样的硬聚类算法之间的重要区别,是在 比较符合脉诊信号在中医诊断中的特点,因此可 FCM采用了模糊的划分,从而使得单个给定采样 以较好地抓住相关信号的本质特征。 点均使用[0,1]的隶属度数值,来明确其归属单个 因为脉象识别本质上是一个模式识别问题, 群的状况。与前面介绍的模糊划分相同,整体分 而在模式识别问题中,特征的提取是其中的关键 类中的隶属度矩阵U也是由取值在[0,1]的元素 一环。因此,在对原始的脉搏信号特征化过程中, 构成的。同时,归一化的规则明确了单个数据集 选择时域信号当中最能够反映脉象的形态特点的 的所相加得到的隶属度总和必须等于1。2.3 基于梅尔倒谱系数的特征提取 多种时域分析和频域分析的手段,比如经验 模态分解方法、傅里叶变换和小波分析都被广泛 地应用于脉搏信号的基本分析过程中[13]。尤其是 傅里叶分析、小波分析这样的频域分析方法,对 周期性的信号进行数值分析,将脉搏信号中复杂 的周期性变化进行分解,得到不同频率的频谱变 化,这样的做法,利用了脉象信号自身的周期性, 很好地抓住了脉搏信号中的特点,从而使得后续 的工作可以把从其间得到的频谱数据与人体的生 理和病理相关状态关联起来[14-15]。 本文将采用梅尔倒谱系数这样更成熟而且高 层的特征。在语音处理领域,梅尔倒谱系数 (MFCC) 是一个非常常用而且成熟的特征[16]。该特征根据 人耳听觉的特征要点,用 Mel 标度频率域提取出 来的倒谱参数,进行非线性转换,从而做到使得 “处理之后的特征”,与“人类的真实听觉特征”相 符。其优点在于:当用于信噪比较低的状况时, 仍可做到较好的识别性能。MFCC 这种特征的优 良性质,在于它对于信号的性质并没有过高的要 求,对于输入的信号也没有太多的预设和限定。 所以 MFCC 特征与其他特征相比,具有更好的鲁 棒性。因此本文选用它来对脉诊的输入信号进行 特征提取的处理。 倒谱分析可以分为 3 步过程,首先,将原波形 信号经过傅里叶变换得到频谱: X[k] = H[k]E[k] (4) 在两边取自然对数: log||X[k]|| = log||H[k]||+log||E[k]|| (5) 最后在两边取逆傅里叶变换得到 x[k] = h[k]+e[k] (6) 式中:x[k]就是倒谱,e[k]与 h[k]分别是倒谱的高频 和低频部分,其中的低频部分 h[k]也就是本文真 正关心的描述性特征。只需将频谱通过一组 Mel 滤波器就得到 Mel 频谱,在 Mel 频谱上面获得的 倒谱系数 h[k]就称为 Mel 频率倒谱系数。 MFCC 特征的特点,是在频率坐标轴上非均 匀的滤波。具体来说:在低频区有很多滤波器, 分布较为密集,而在高频区域,滤波器的数目就 变得较少,分布也变得稀疏 (如图 3)。这样的特 点,可以把特征的关注点放在某些特定的频率, 比较符合脉诊信号在中医诊断中的特点,因此可 以较好地抓住相关信号的本质特征。 因为脉象识别本质上是一个模式识别问题, 而在模式识别问题中,特征的提取是其中的关键 一环。因此,在对原始的脉搏信号特征化过程中, 选择时域信号当中最能够反映脉象的形态特点的 参数,是一个关键点。在这里选取 MFCC 提取的 特征作为输入向量,是为了更好地进行下一步, 即脉诊信号的聚类工作。 0.3 0.2 0.1 0 滤波强度值 50 100 150 200 250 频率/Hz 图 3 MFCC 非线性频谱 (横轴与纵轴分别代表频率与滤波) Fig. 3 MFCC non-linear spectrum (horizontal for fre￾quency, vertical for filter) 2.4 基于 Fuzzy C-means (FCM) 的聚类 在前述过程中,通过对数据进行一些基本处 理,提取出了信号的高层特征。整个流程 (如图 4) 的最后一步是聚类过程。在聚类过程中,使用了 Fuzzy C-means (FCM) 聚类算法,它允许同一数据 属于多个不同的类。FCM 算法与 K-means 算法 的不同,在于同一个数据并不单独属于一个分 类,而是可能属于几个分类。 ➥ᒭ᣼ं 㖆ㆧ䓳⼷ 䶰ะ⤲ ࡂ̬ᑾ 㘵䆍ԍण ᢚ໷᪜࣋ 图 4 脉象信号处理流程 Fig. 4 Structure model of group organizations 传统的聚类算法通常需要预先确定聚类中心 的数量,其缺点是容易降低聚类结果的客观性, 不仅如此,传统算法得到的结果也容易陷入局部 最优解。而本文采用的模糊 C 均值 (fuzzy c-means, FCM) 算法,与传统的算法相比,在客观性上进行 了提升。它首先执行优化的模糊目标函数计算, 以获得单个采样点相对于每个类别中心的隶属 度,并以此来进一步确定这个采样点的归属。 FCM 在不少应用领域均被采用,比如医学诊断和 目标识别等[17- 18]。 ··· FCM 算法的做法,是首先将 n 个向量 xi (i=1, 2, ,n) 分为 c 个模糊群,并找出每个群的聚类中 心,接下来非相似性指标的计算价值函数,令这 些聚类中心能使价值函数达到最小。传统聚类算 法 (含 K-means 算法等),可以被称作是硬聚类算 法 HCM(hard clustering method),而 FCM 算法与 HCM 这样的硬聚类算法之间的重要区别,是在 FCM 采用了模糊的划分,从而使得单个给定采样 点均使用[0,1]的隶属度数值,来明确其归属单个 群的状况。与前面介绍的模糊划分相同,整体分 类中的隶属度矩阵 U 也是由取值在[0,1]的元素 构成的。同时,归一化的规则明确了单个数据集 的所相加得到的隶属度总和必须等于 1。 第 4 期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·567·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有