第13卷第4期 智能系统学报 Vol.13 No.4 2018年8月 CAAI Transactions on Intelligent Systems Aug.2018 D0:10.11992/tis.201703030 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20170702.1547.032.html 中医脉诊信号的无监督聚类分析研究 冯冰,李绍滋 (厦门大学信息科学与技术学院,福建厦门361000) 摘要:随着中医客观化工作的推进,脉诊技术也越来越走向客观化和仪器化。然而,如何对仪器所检测和收 集到的信息进行解读,却还是回到了原来脉诊诊断主观化的问题上。因为传统的机器学习方法,依赖于对大量 的脉诊数据进行标注。但是在临床诊断和教学中,医生与医生之间对于脉象的体会不同,会导致他们对病人脉 象的区分标注不同。在对比了多种特征提取方法和聚类方案之后,提出了一个较好的无监督脉诊客观化方法, 在双树复小波变换(DTCWT)对数据进行预处理的基础上,以梅尔倒谱系数(MFCC)进行特征提取,在中医专 家对数据进行标注之前,先根据信号的特征,使用Fuzzy c~means(FCM)聚类算法进行粗线条的分类,使得在此 基础之上,可以开展进一步的细化分类研究。实验结果表明:该方法可取得较好的分类效果,为中医脉诊提供 了进一步客观化的依据。 关键词:脉诊:机器学习:无监督学习:聚类分析:双树复小波变换:中医客观化:梅尔倒谱系数:模糊C均值聚类 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2018)04-0564-07 中文引用格式:冯冰,李绍滋.中医脉诊信号的无监督聚类分析研究.智能系统学报,2018,13(4):564-570. 英文引用格式:FENG Bing,.LI Shaozi..Unsupervised clustering analysis of human-pulse signal in traditional Chinese medicineJ CAAI transactions on intelligent systems,2018,13(4):564-570. Unsupervised clustering analysis of human-pulse signal in traditional Chinese medicine FENG Bing,LI Shaozi (School of Information Science and Engineering,Xiamen University,Xiamen 361000,China) Abstract:With the development of a more objective basis for traditional Chinese medicine (TCM),objectivity and in- strumentation are growing trends in pulse-taking techniques.However,choosing an objective method for interpreting the data collected by newly developed TCM diagnostic machines is a recurring issue in the move toward objective pulse- taking diagnosis.Traditional machine learning methods rely heavily on annotated pulse-diagnosis data;however,in TCM practice,different doctors make different annotations based on their different experiences in pulse manifestation. After comparing various feature extraction methods and clustering schemes,in this paper,we propose an improved un- supervised human-pulse identification approach.In this method,we use the dual-tree complex wavelet transform (DTCWT)to preprocess data and Mel-frequency cepstral coefficients(MFCCs)to extract features.Before the data are annotated by TCM experts,we applied the fuzzy c-means(FCM)clustering algorithm to the signal features to classify thick lines,after which further detailed classifications can be made.The experimental results show that excellent classi- fication effects can be obtained by this method,which provides an objective basis for TCM pulse diagnosis. Keywords:pulse diagnosis;machine learning,unsupervised learning,clustering analysis;DTCWT;TCM objectifica- tion:MFCC:FCM 收稿日期:2017-03-23.网络出版日期:2017-07-02 在传统中医学中,作为中医四诊之一的脉诊 基金项目:国家自然科学基金项目(61572409,61402386):中医 健康管理福建省2011协同创新中心项目(闽教科〔2015] 扮演了相当重要的角色,传统中医师通过手指感 75号):福建省2011协同创新中心一中国乌龙茶产 知病人的脉动来获取脉搏信息,从而对人体器官 业协同创新中心专项项目(闽教科〔2015〕75号),. 通信作者:李绍滋.E-mail:szlig@xmu.edu.cn.. 的健康状况进行判断。中医师之所以能够做到这
DOI: 10.11992/tis.201703030 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.1547.032.html 中医脉诊信号的无监督聚类分析研究 冯冰,李绍滋 (厦门大学 信息科学与技术学院,福建 厦门 361000) 摘 要:随着中医客观化工作的推进,脉诊技术也越来越走向客观化和仪器化。然而,如何对仪器所检测和收 集到的信息进行解读,却还是回到了原来脉诊诊断主观化的问题上。因为传统的机器学习方法,依赖于对大量 的脉诊数据进行标注。但是在临床诊断和教学中,医生与医生之间对于脉象的体会不同,会导致他们对病人脉 象的区分标注不同。在对比了多种特征提取方法和聚类方案之后,提出了一个较好的无监督脉诊客观化方法, 在双树复小波变换 (DTCWT) 对数据进行预处理的基础上,以梅尔倒谱系数 (MFCC) 进行特征提取,在中医专 家对数据进行标注之前,先根据信号的特征,使用 Fuzzy c-means (FCM) 聚类算法进行粗线条的分类,使得在此 基础之上,可以开展进一步的细化分类研究。实验结果表明:该方法可取得较好的分类效果,为中医脉诊提供 了进一步客观化的依据。 关键词:脉诊;机器学习;无监督学习;聚类分析;双树复小波变换;中医客观化;梅尔倒谱系数;模糊 C 均值聚类 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2018)04−0564−07 中文引用格式:冯冰, 李绍滋. 中医脉诊信号的无监督聚类分析研究[J]. 智能系统学报, 2018, 13(4): 564–570. 英文引用格式:FENG Bing, LI Shaozi. Unsupervised clustering analysis of human-pulse signal in traditional Chinese medicine[J]. CAAI transactions on intelligent systems, 2018, 13(4): 564–570. Unsupervised clustering analysis of human-pulse signal in traditional Chinese medicine FENG Bing,LI Shaozi (School of Information Science and Engineering, Xiamen University, Xiamen 361000, China) Abstract: With the development of a more objective basis for traditional Chinese medicine (TCM), objectivity and instrumentation are growing trends in pulse-taking techniques. However, choosing an objective method for interpreting the data collected by newly developed TCM diagnostic machines is a recurring issue in the move toward objective pulsetaking diagnosis. Traditional machine learning methods rely heavily on annotated pulse-diagnosis data; however, in TCM practice, different doctors make different annotations based on their different experiences in pulse manifestation. After comparing various feature extraction methods and clustering schemes, in this paper, we propose an improved unsupervised human-pulse identification approach. In this method, we use the dual-tree complex wavelet transform (DTCWT) to preprocess data and Mel-frequency cepstral coefficients (MFCCs) to extract features. Before the data are annotated by TCM experts, we applied the fuzzy c-means (FCM) clustering algorithm to the signal features to classify thick lines, after which further detailed classifications can be made. The experimental results show that excellent classification effects can be obtained by this method, which provides an objective basis for TCM pulse diagnosis. Keywords: pulse diagnosis; machine learning; unsupervised learning; clustering analysis; DTCWT; TCM objectification; MFCC; FCM 在传统中医学中,作为中医四诊之一的脉诊 扮演了相当重要的角色,传统中医师通过手指感 知病人的脉动来获取脉搏信息,从而对人体器官 的健康状况进行判断。中医师之所以能够做到这 收稿日期:2017−03−23. 网络出版日期:2017−07−02. 基金项目:国家自然科学基金项目 (61572409,61402386);中医 健康管理福建省2011协同创新中心项目(闽教科〔2015〕 75 号);福建省 2011 协同创新中心—中国乌龙茶产 业协同创新中心专项项目 (闽教科〔2015〕75 号). 通信作者:李绍滋. E-mail:szlig@xmu.edu.cn. 第 13 卷第 4 期 智 能 系 统 学 报 Vol.13 No.4 2018 年 8 月 CAAI Transactions on Intelligent Systems Aug. 2018
第4期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·565· 点,是因为脉诊是对人的整体健康状况进行考察 倒谱分析。 的一种信息获取方式,在临床诊断中,脉诊扮演 此外,为了更好地梳理脉象特征和生理病理 了非常重要的角色,兼具研究和现实意义。脉搏 两者间的关联,以做到令脉诊技术进一步客观化 信号是一种人体生物信号,其中包含了大量人体 智能化,很多学者也做了大量的研究工作。李娜 生物信息。从中医的观点来看,个体脉搏信息中 等对支气管哮喘与慢性胃炎患者脉图的比较研 的内容,很多都能直接被解读为单个个体的生理 究,提取时域分析特征,通过实验证明了支气管 或者病理的信息山。因此,通过脉搏信号,我们可 哮喘与慢性胃炎在“寸”部存在脉图时域特征差异 以了解个体身体的状况和变化。脉搏信息也能够 之间的相关性。张冬雨等提出了两类基于ERP 为我们进行疾病的诊断提供一些基础的信息。 弹性测量距离的脉搏信号形态分类方法,用于脉 然而长期以来,脉诊都依赖于医生在病患身 搏信号的分类。实验证明,同现有的脉搏信号分 上采集信息之后,进行主观地判断。当然,在中 类方法相比,他所提出的弹性核函数一一高斯弹 医的研究上为了便于记忆,医师们将这些判断形 性测度距离核函数。对脉搏信号的分类和复杂时 象化为一些“脉象”。但是在临床诊断和教学中, 间序列的分类,都展现出较好的效果。 医生与医生之间对于脉象的体会不同,会导致他 在神经网络被广泛应用到中医客观化的大背 们对病人脉象的区分标注不同,也就是说,因为 景下,用计算机进行脉诊特征分析,带来了进 医生的个体差异,比如个人经验的多寡,个人主 步的效率和准确性的提升。人工神经网络是一种 观的因素,都会导致脉象判断的不同。因此, 自适应的非线性动力系统,目前有不少学者利用 这对于脉诊的客观化,以及中医的客观化,都是 人工神经网络对脉搏信号进行分类和识别,也取 一个大的制约。 得了不错的效果。如郭红霞等提出的基于小波 随着中医客观化工作的推进,脉诊技术也越 包分析和BP神经网络的中医脉象识别方法,利 来越走向客观化和仪器化。然而,如何对仪器所 检测和收集到的信息进行解读,却又回到了原来 用小波变换具有揭示信号时频两域细节和局部特 脉诊诊断主观化的问题上来。因为传统的机器学 征的能力,提出了将脉象信号的小波包分析和BP 习方法,依赖于对大量的脉诊数据进行标注,然 神经网络相结合以达到识别中医脉象的目的。小 后再利用标注的数据,从中学习到特征,从而构 波包分解中的第3层从低频到高频的8个频带的 建起一个脉诊诊断的智能算法。假若标注的过程 信号能量,被用作脉冲识别的输入层,脉冲信号 不够客观,就难免影响到最后的分类效果。 通过小波包分析,然后输入神经网络。通过该算 本文提出的方法,是先对脉搏信号数据进行 法,步长函数和迭代的改进不仅缩短了网络训练 预处理(去基线漂移和归一化),然后提取特征,最 时间,而且还利用小波包分解系数进行重建信 后用FCM聚类算法进行聚类,将结果与粗分类的 号,并在此基础上获得更好的结果。此外,Zhang 结果进行对比。本文旨在提出一个无监督的客观 等也通过小波变换提取时域和频域信息,进行 化方法。在中医专家对数据进行标注之前,先根 了相似的实验,通过更细致地调校,网络的正确 据信号的特征,进行粗线条的分类,为客观化提 识别率有了进一步的提升。 供依据。如果在更大规模的数据支持下,对特征 然而,在上述方法中,无一不严重依赖于大量 进行进一步地优化,有理由预期无监督聚类分析 中医专家对脉搏数据的分类和标记,然而正如前 可以得到更好的效果。 文所提及,医生之间因为个体差异或者主观因 素,会对脉象的判断有所不同,当数据量大,且分 1相关研究工作 别来自不同医生的标注时,难免出现标注不准确 脉诊信号的模式分类研究,在脉诊客观化的 的情况。这样的状况,对目前的中医客观化,特 过程中,扮演了核心的位置。脉诊信号的自动识 别是脉诊的客观化,起到了阻碍的作用。如果我 别以及准确分类,是完成相关模式分类工作的预 们可以提出一种方法,减少人的主观判断信号的 备条件。现阶段,在提取脉象信号特征的方法 成分,直接从脉搏信息中进行特征提取,然后通 上,较常采用的是时域分析法,但脉象信号的时 过聚类的方法进行粗分类,这样的方法具备一定 域特征存在一些自身的问题,如差异性小,区分 的理论价值。在当下医疗资源不均衡发展的现状 脉象较为困难。所以,大多数研究人员都通过在 中,医学仪器价格逐渐走低,而医学专家数量却 时域特征之上结合频域特征的方法来获取脉象的 十分有限,在解决医疗资源不匹配的问题上,粗 特征频谱,从而将可显著区分的特征从信号的频 分类可以扮演一个先期分诊的作用,使得它同时 域中找出,其中较为常用的方法为功率谱分析与 还具有一定实用价值
点,是因为脉诊是对人的整体健康状况进行考察 的一种信息获取方式,在临床诊断中,脉诊扮演 了非常重要的角色,兼具研究和现实意义。脉搏 信号是一种人体生物信号,其中包含了大量人体 生物信息。从中医的观点来看,个体脉搏信息中 的内容,很多都能直接被解读为单个个体的生理 或者病理的信息[1]。因此,通过脉搏信号,我们可 以了解个体身体的状况和变化。脉搏信息也能够 为我们进行疾病的诊断提供一些基础的信息。 然而长期以来,脉诊都依赖于医生在病患身 上采集信息之后,进行主观地判断。当然,在中 医的研究上为了便于记忆,医师们将这些判断形 象化为一些“脉象”。但是在临床诊断和教学中, 医生与医生之间对于脉象的体会不同,会导致他 们对病人脉象的区分标注不同,也就是说,因为 医生的个体差异,比如个人经验的多寡,个人主 观的因素,都会导致脉象判断的不同[2-3]。因此, 这对于脉诊的客观化,以及中医的客观化,都是 一个大的制约。 随着中医客观化工作的推进,脉诊技术也越 来越走向客观化和仪器化。然而,如何对仪器所 检测和收集到的信息进行解读,却又回到了原来 脉诊诊断主观化的问题上来。因为传统的机器学 习方法,依赖于对大量的脉诊数据进行标注,然 后再利用标注的数据,从中学习到特征,从而构 建起一个脉诊诊断的智能算法。假若标注的过程 不够客观,就难免影响到最后的分类效果。 本文提出的方法,是先对脉搏信号数据进行 预处理 (去基线漂移和归一化),然后提取特征,最 后用 FCM 聚类算法进行聚类,将结果与粗分类的 结果进行对比。本文旨在提出一个无监督的客观 化方法。在中医专家对数据进行标注之前,先根 据信号的特征,进行粗线条的分类,为客观化提 供依据。如果在更大规模的数据支持下,对特征 进行进一步地优化,有理由预期无监督聚类分析 可以得到更好的效果。 1 相关研究工作 脉诊信号的模式分类研究,在脉诊客观化的 过程中,扮演了核心的位置。脉诊信号的自动识 别以及准确分类,是完成相关模式分类工作的预 备条件。现阶段,在提取脉象信号特征的方法 上,较常采用的是时域分析法[4] ,但脉象信号的时 域特征存在一些自身的问题,如差异性小,区分 脉象较为困难。所以,大多数研究人员都通过在 时域特征之上结合频域特征的方法来获取脉象的 特征频谱,从而将可显著区分的特征从信号的频 域中找出,其中较为常用的方法为功率谱分析与 倒谱分析[5]。 此外,为了更好地梳理脉象特征和生理病理 两者间的关联,以做到令脉诊技术进一步客观化、 智能化,很多学者也做了大量的研究工作。李娜 等 [6]对支气管哮喘与慢性胃炎患者脉图的比较研 究,提取时域分析特征,通过实验证明了支气管 哮喘与慢性胃炎在“寸”部存在脉图时域特征差异 之间的相关性。张冬雨等[7]提出了两类基于 ERP 弹性测量距离的脉搏信号形态分类方法,用于脉 搏信号的分类。实验证明,同现有的脉搏信号分 类方法相比,他所提出的弹性核函数——高斯弹 性测度距离核函数。对脉搏信号的分类和复杂时 间序列的分类,都展现出较好的效果。 在神经网络被广泛应用到中医客观化的大背 景下,用计算机进行脉诊特征分析,带来了进一 步的效率和准确性的提升。人工神经网络是一种 自适应的非线性动力系统,目前有不少学者利用 人工神经网络对脉搏信号进行分类和识别,也取 得了不错的效果。如郭红霞等[8]提出的基于小波 包分析和 BP 神经网络的中医脉象识别方法,利 用小波变换具有揭示信号时频两域细节和局部特 征的能力,提出了将脉象信号的小波包分析和 BP 神经网络相结合以达到识别中医脉象的目的。小 波包分解中的第 3 层从低频到高频的 8 个频带的 信号能量,被用作脉冲识别的输入层,脉冲信号 通过小波包分析,然后输入神经网络。通过该算 法,步长函数和迭代的改进不仅缩短了网络训练 时间,而且还利用小波包分解系数进行重建信 号,并在此基础上获得更好的结果。此外,Zhang 等 [9]也通过小波变换提取时域和频域信息,进行 了相似的实验,通过更细致地调校,网络的正确 识别率有了进一步的提升。 然而,在上述方法中,无一不严重依赖于大量 中医专家对脉搏数据的分类和标记,然而正如前 文所提及,医生之间因为个体差异或者主观因 素,会对脉象的判断有所不同,当数据量大,且分 别来自不同医生的标注时,难免出现标注不准确 的情况。这样的状况,对目前的中医客观化,特 别是脉诊的客观化,起到了阻碍的作用。如果我 们可以提出一种方法,减少人的主观判断信号的 成分,直接从脉搏信息中进行特征提取,然后通 过聚类的方法进行粗分类,这样的方法具备一定 的理论价值。在当下医疗资源不均衡发展的现状 中,医学仪器价格逐渐走低,而医学专家数量却 十分有限,在解决医疗资源不匹配的问题上,粗 分类可以扮演一个先期分诊的作用,使得它同时 还具有一定实用价值。 第 4 期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·565·
·566· 智能系统学报 第13卷 2中医脉诊的无监督分类方法 树a +0回+②→ →0回→②+o回+②→ 文中提出的特征提取和分类的方法,是由 +0回+②+0可+②+ 3个主要步骤构成的:数据的预处理、特征提取过 →0回+② 程和聚类过程。在这里,首先选择一个较好的特 +1回+②+ 征来代言脉搏信号的相关数据,然后从训练数据 回+②+I回+②+ 中以一种无监督的形式,来进行聚类。 1回+②→回②+ 树b 2.1基于双树复小波变换的去除基线漂移方法 →回+②→ 脉象信号是一种相当复杂的生物医学信号, 图1双树复小波二叉树结构 它的特点包括背景噪声大以及随机性强。脉象, Fig.1 Double tree complex wavelet binary tree structure 体现了人身中的各类复杂的生理状态周期,它反 好的数据预处理,对脉搏信号的要求比较高, 映了人们在外部环境以及内部生理特征综合作用 要求获取的脉搏信号稳定性比较好,并且具有比 下的整体生理变化。因此,脉象信号具有非线 较好的可重复性。在单个个体的同一体质条件 性、整体性和可调性等特点。由于脉象信号受整 下,脉搏信号能够保持一定的持续性和稳定性。 体环境影响较大,不可避免的结果就是采集到的 在这样的条件下,我们实施以去除基线漂移的处 脉搏信号会因呼吸和仪器本身而引起基线漂移。 理,使得后续的信号分析工作成为可能。 目前,基线漂移的去除方法有很多种,如小波变 2.2基于小波变换的脉象信号的去噪与归一化 换法、自适应滤波、插值拟合法、滑动平均滤波 原始的脉搏信号是不适合作为分类器的直接 等012。其中被最广泛应用的是离散小波变换 输入信息的,首先因为原始信号在未经处理前, 法,不过离散小波变换法因为具有对平移的高度 维度过高,且有噪声干扰;其次没有进行归一化, 敏感性以及容易出现频率混叠等缺点,为实验增 相似性不易被捕捉到。为了改善后续的分析和识 加了一些不确定性因素。为了克服以上缺点,本 别,我们先将原始脉搏信号进行去噪处理,然后 论文则选取了双树复小波变换法来进行基线漂移 进行归一化过程,再利用一些通用的波形信号特 的去除工作。 征学习的手段,将波形信号转换成时空序列的表 双树复小波(dual-tree complex wavelet trans- 示,是数据预处理过程中很重要的一个步骤。在 form)的概念最早由金斯伯里(Kingsbury)率先提 本文的实验中,首先基于小波变换,用非线性阈 出,该算法在双树滤波基础之上,又进行了一层 优化,使其不单具备了一般复小波算法的优点, 值法,从而对脉象信号进行一个去噪处理,然后 还可以完全重构原始信号,它属于对一维双树复 再进行一个归一化的过程:我们将抽样频率统一 小波的一种推广。 调整为128Hz每个心动周期,即将信号进行预处 理之后,再进一步做一个归一化处理,其中包括 一维双树复小波: 对数据进行补零,然后将一个心动周期中的脉搏 (t)=(t)+j冰.(t) (1) 式中和山分别是正交或双正交的实小波。 波信号长度进行调整,最后统一为128点。图2 二维双树小波: 为补零操作完成后的一个心动周期,其中纵轴代 表信号强度,横轴则示意了每个周期内采样点的 业(,y)=山(x)w(y)= [a(x)+j冰(x][ay)+j冰,y)]= 数目(在图中第68个采样点后补零至第128个采 (2) (x)山hy)-.(x)山.0y)+ 样点) jw(x)a(y)+(x)ψ.y 1.6 由一维双树复小波推广,其中双树实小波为 1.4 1.2 少a(x)ay-少(x地.y) (3) 双树复小波方法采用了二叉树结构的两路变 0.8 换,一树生成变换的实部,一树生成虚部(如图1 延0.6 所示)。该方法的思路主要是:首先对于第1层进 0.4 0.2 行分解,如果两树滤波器间的延迟恰好等于一个 0 20 406080100120 采样间隔,那么就可通过区别b树种第1层的二 采样点数 抽取令其正好采样到α树种因二抽取所丢掉的采 图2脉搏信号归一化单心动周期 样值。 Fig.2 Pulse signal normalized single cardiac cycle
2 中医脉诊的无监督分类方法 文中提出的特征提取和分类的方法,是由 3 个主要步骤构成的:数据的预处理、特征提取过 程和聚类过程。在这里,首先选择一个较好的特 征来代言脉搏信号的相关数据,然后从训练数据 中以一种无监督的形式,来进行聚类。 2.1 基于双树复小波变换的去除基线漂移方法 脉象信号是一种相当复杂的生物医学信号, 它的特点包括背景噪声大以及随机性强。脉象, 体现了人身中的各类复杂的生理状态周期,它反 映了人们在外部环境以及内部生理特征综合作用 下的整体生理变化。因此,脉象信号具有非线 性、整体性和可调性等特点。由于脉象信号受整 体环境影响较大,不可避免的结果就是采集到的 脉搏信号会因呼吸和仪器本身而引起基线漂移。 目前,基线漂移的去除方法有很多种,如小波变 换法、自适应滤波、插值拟合法、滑动平均滤波 等 [10-12]。其中被最广泛应用的是离散小波变换 法,不过离散小波变换法因为具有对平移的高度 敏感性以及容易出现频率混叠等缺点,为实验增 加了一些不确定性因素。为了克服以上缺点,本 论文则选取了双树复小波变换法来进行基线漂移 的去除工作。 双树复小波 (dual-tree complex wavelet transform) 的概念最早由金斯伯里 (Kingsbury) 率先提 出,该算法在双树滤波基础之上,又进行了一层 优化,使其不单具备了一般复小波算法的优点, 还可以完全重构原始信号,它属于对一维双树复 小波的一种推广。 一维双树复小波: ψ(t) = ψh(t)+ jψg(t) (1) 式中 ψh和 ψg分别是正交或双正交的实小波。 二维双树小波: ψ(x, y) = ψ(x)ψ(y) = [ ψh (x)+ jψg (x) ] [ψh (y)+ jψg (y) ] = ψh (x)ψh (y)−ψg (x)ψg (y)+ j [ ψg (x)ψh (y)+ψh (x)ψg (y) ] (2) 由一维双树复小波推广,其中双树实小波为 ψh(x)ψh(y)−ψg(x)ψg(y) (3) 双树复小波方法采用了二叉树结构的两路变 换,一树生成变换的实部,一树生成虚部 (如图 1 所示)。该方法的思路主要是:首先对于第 1 层进 行分解,如果两树滤波器间的延迟恰好等于一个 采样间隔,那么就可通过区别 b 树种第 1 层的二 抽取令其正好采样到 a 树种因二抽取所丢掉的采 样值。 x[n] 树a 树b h0[n] g0[n] h0[n] g0[n] h0[n] g0[n] g1[n] g1[n] g1[n] h1[n] h1[n] h1[n] ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 ↓2 图 1 双树复小波二叉树结构 Fig. 1 Double tree complex wavelet binary tree structure 好的数据预处理,对脉搏信号的要求比较高, 要求获取的脉搏信号稳定性比较好,并且具有比 较好的可重复性。在单个个体的同一体质条件 下,脉搏信号能够保持一定的持续性和稳定性。 在这样的条件下,我们实施以去除基线漂移的处 理,使得后续的信号分析工作成为可能。 2.2 基于小波变换的脉象信号的去噪与归一化 原始的脉搏信号是不适合作为分类器的直接 输入信息的,首先因为原始信号在未经处理前, 维度过高,且有噪声干扰;其次没有进行归一化, 相似性不易被捕捉到。为了改善后续的分析和识 别,我们先将原始脉搏信号进行去噪处理,然后 进行归一化过程,再利用一些通用的波形信号特 征学习的手段,将波形信号转换成时空序列的表 示,是数据预处理过程中很重要的一个步骤。在 本文的实验中,首先基于小波变换,用非线性阈 值法,从而对脉象信号进行一个去噪处理,然后 再进行一个归一化的过程:我们将抽样频率统一 调整为 128 Hz 每个心动周期,即将信号进行预处 理之后,再进一步做一个归一化处理,其中包括 对数据进行补零,然后将一个心动周期中的脉搏 波信号长度进行调整,最后统一为 128 点。图 2 为补零操作完成后的一个心动周期,其中纵轴代 表信号强度,横轴则示意了每个周期内采样点的 数目 (在图中第 68 个采样点后补零至第 128 个采 样点)。 1.6 1.4 1.2 1.0 0.8 0.6 0.4 0.2 信号强度 0 20 40 60 80 100 120 采样点数 图 2 脉搏信号归一化单心动周期 Fig. 2 Pulse signal normalized single cardiac cycle ·566· 智 能 系 统 学 报 第 13 卷
第4期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·567· 2.3基于梅尔倒谱系数的特征提取 参数,是一个关键点。在这里选取MFCC提取的 多种时域分析和频域分析的手段,比如经验 特征作为输入向量,是为了更好地进行下一步, 模态分解方法、傅里叶变换和小波分析都被广泛 即脉诊信号的聚类工作。 地应用于脉搏信号的基本分析过程中。尤其是 0.3 傅里叶分析、小波分析这样的频域分析方法,对 0.2 周期性的信号进行数值分析,将脉搏信号中复杂 0.1 的周期性变化进行分解,得到不同频率的频谱变 0 50 100150200250 化,这样的做法,利用了脉象信号自身的周期性, 频率Hz 很好地抓住了脉搏信号中的特点,从而使得后续 图3MFC℃非线性频谱(横轴与纵轴分别代表频率与滤波) 的工作可以把从其间得到的频谱数据与人体的生 Fig.3 MFCC non-linear spectrum (horizontal for fre- 理和病理相关状态关联起来4均」 quency,vertical for filter) 本文将采用梅尔倒谱系数这样更成熟而且高 2.4 基于Fuzzy C-means(FCM的聚类 层的特征。在语音处理领域,梅尔倒谱系数(MFCC) 在前述过程中,通过对数据进行一些基本处 是一个非常常用而且成熟的特征16。该特征根据 理,提取出了信号的高层特征。整个流程(如图4) 人耳听觉的特征要点,用Mel标度频率域提取出 的最后一步是聚类过程。在聚类过程中,使用了 来的倒谱参数,进行非线性转换,从而做到使得 Fuzzy C-means(FCM)聚类算法,它允许同一数据 “处理之后的特征”,与“人类的真实听觉特征”相 属于多个不同的类。FCM算法与K-means算法 符。其优点在于:当用于信噪比较低的状况时, 的不同,在于同一个数据并不单独属于一个分 仍可做到较好的识别性能。MFCC这种特征的优 类,而是可能属于几个分类。 良性质,在于它对于信号的性质并没有过高的要 脉象信号 预处理 求,对于输入的信号也没有太多的预设和限定。 原始数据 归一化 特征提取 聚类过程 所以MFCC特征与其他特征相比,具有更好的鲁 图4脉象信号处理流程 棒性。因此本文选用它来对脉诊的输入信号进行 Fig.4 Structure model of group organizations 特征提取的处理。 倒谱分析可以分为3步过程,首先,将原波形 传统的聚类算法通常需要预先确定聚类中心 的数量,其缺点是容易降低聚类结果的客观性, 信号经过傅里叶变换得到频谱: 不仅如此,传统算法得到的结果也容易陷入局部 X[k=Hk E[k (4) 在两边取自然对数: 最优解。而本文采用的模糊C均值(fuzzy c-means, logl=log]+logllE[]ll (5) FCM)算法,与传统的算法相比,在客观性上进行 最后在两边取逆傅里叶变换得到 了提升。它首先执行优化的模糊目标函数计算, xIk]h[k]+elk] (6) 以获得单个采样点相对于每个类别中心的隶属 式中:x[就是倒谱,e[与hk分别是倒谱的高频 度,并以此来进一步确定这个采样点的归属。 和低频部分,其中的低频部分飞]也就是本文真 FCM在不少应用领域均被采用,比如医学诊断和 正关心的描述性特征。只需将频谱通过一组Ml 目标识别等8。 滤波器就得到Mel频谱,在Mel频谱上面获得的 FCM算法的做法,是首先将n个向量x,(=1, 倒谱系数h就称为Ml频率倒谱系数。 2,,)分为c个模糊群,并找出每个群的聚类中 MFCC特征的特点,是在频率坐标轴上非均 心,接下来非相似性指标的计算价值函数,令这 匀的滤波。具体来说:在低频区有很多滤波器, 些聚类中心能使价值函数达到最小。传统聚类算 分布较为密集,而在高频区域,滤波器的数目就 法(含K-means算法等),可以被称作是硬聚类算 变得较少,分布也变得稀疏(如图3)。这样的特 法HCM(hard clustering method),而FCM算法与 点,可以把特征的关注点放在某些特定的频率, HCM这样的硬聚类算法之间的重要区别,是在 比较符合脉诊信号在中医诊断中的特点,因此可 FCM采用了模糊的划分,从而使得单个给定采样 以较好地抓住相关信号的本质特征。 点均使用[0,1]的隶属度数值,来明确其归属单个 因为脉象识别本质上是一个模式识别问题, 群的状况。与前面介绍的模糊划分相同,整体分 而在模式识别问题中,特征的提取是其中的关键 类中的隶属度矩阵U也是由取值在[0,1]的元素 一环。因此,在对原始的脉搏信号特征化过程中, 构成的。同时,归一化的规则明确了单个数据集 选择时域信号当中最能够反映脉象的形态特点的 的所相加得到的隶属度总和必须等于1
2.3 基于梅尔倒谱系数的特征提取 多种时域分析和频域分析的手段,比如经验 模态分解方法、傅里叶变换和小波分析都被广泛 地应用于脉搏信号的基本分析过程中[13]。尤其是 傅里叶分析、小波分析这样的频域分析方法,对 周期性的信号进行数值分析,将脉搏信号中复杂 的周期性变化进行分解,得到不同频率的频谱变 化,这样的做法,利用了脉象信号自身的周期性, 很好地抓住了脉搏信号中的特点,从而使得后续 的工作可以把从其间得到的频谱数据与人体的生 理和病理相关状态关联起来[14-15]。 本文将采用梅尔倒谱系数这样更成熟而且高 层的特征。在语音处理领域,梅尔倒谱系数 (MFCC) 是一个非常常用而且成熟的特征[16]。该特征根据 人耳听觉的特征要点,用 Mel 标度频率域提取出 来的倒谱参数,进行非线性转换,从而做到使得 “处理之后的特征”,与“人类的真实听觉特征”相 符。其优点在于:当用于信噪比较低的状况时, 仍可做到较好的识别性能。MFCC 这种特征的优 良性质,在于它对于信号的性质并没有过高的要 求,对于输入的信号也没有太多的预设和限定。 所以 MFCC 特征与其他特征相比,具有更好的鲁 棒性。因此本文选用它来对脉诊的输入信号进行 特征提取的处理。 倒谱分析可以分为 3 步过程,首先,将原波形 信号经过傅里叶变换得到频谱: X[k] = H[k]E[k] (4) 在两边取自然对数: log||X[k]|| = log||H[k]||+log||E[k]|| (5) 最后在两边取逆傅里叶变换得到 x[k] = h[k]+e[k] (6) 式中:x[k]就是倒谱,e[k]与 h[k]分别是倒谱的高频 和低频部分,其中的低频部分 h[k]也就是本文真 正关心的描述性特征。只需将频谱通过一组 Mel 滤波器就得到 Mel 频谱,在 Mel 频谱上面获得的 倒谱系数 h[k]就称为 Mel 频率倒谱系数。 MFCC 特征的特点,是在频率坐标轴上非均 匀的滤波。具体来说:在低频区有很多滤波器, 分布较为密集,而在高频区域,滤波器的数目就 变得较少,分布也变得稀疏 (如图 3)。这样的特 点,可以把特征的关注点放在某些特定的频率, 比较符合脉诊信号在中医诊断中的特点,因此可 以较好地抓住相关信号的本质特征。 因为脉象识别本质上是一个模式识别问题, 而在模式识别问题中,特征的提取是其中的关键 一环。因此,在对原始的脉搏信号特征化过程中, 选择时域信号当中最能够反映脉象的形态特点的 参数,是一个关键点。在这里选取 MFCC 提取的 特征作为输入向量,是为了更好地进行下一步, 即脉诊信号的聚类工作。 0.3 0.2 0.1 0 滤波强度值 50 100 150 200 250 频率/Hz 图 3 MFCC 非线性频谱 (横轴与纵轴分别代表频率与滤波) Fig. 3 MFCC non-linear spectrum (horizontal for frequency, vertical for filter) 2.4 基于 Fuzzy C-means (FCM) 的聚类 在前述过程中,通过对数据进行一些基本处 理,提取出了信号的高层特征。整个流程 (如图 4) 的最后一步是聚类过程。在聚类过程中,使用了 Fuzzy C-means (FCM) 聚类算法,它允许同一数据 属于多个不同的类。FCM 算法与 K-means 算法 的不同,在于同一个数据并不单独属于一个分 类,而是可能属于几个分类。 ➥ᒭं 㖆ㆧ䓳⼷ 䶰ะ⤲ ࡂ̬ᑾ 㘵䆍ԍण ᢚ࣋ 图 4 脉象信号处理流程 Fig. 4 Structure model of group organizations 传统的聚类算法通常需要预先确定聚类中心 的数量,其缺点是容易降低聚类结果的客观性, 不仅如此,传统算法得到的结果也容易陷入局部 最优解。而本文采用的模糊 C 均值 (fuzzy c-means, FCM) 算法,与传统的算法相比,在客观性上进行 了提升。它首先执行优化的模糊目标函数计算, 以获得单个采样点相对于每个类别中心的隶属 度,并以此来进一步确定这个采样点的归属。 FCM 在不少应用领域均被采用,比如医学诊断和 目标识别等[17- 18]。 ··· FCM 算法的做法,是首先将 n 个向量 xi (i=1, 2, ,n) 分为 c 个模糊群,并找出每个群的聚类中 心,接下来非相似性指标的计算价值函数,令这 些聚类中心能使价值函数达到最小。传统聚类算 法 (含 K-means 算法等),可以被称作是硬聚类算 法 HCM(hard clustering method),而 FCM 算法与 HCM 这样的硬聚类算法之间的重要区别,是在 FCM 采用了模糊的划分,从而使得单个给定采样 点均使用[0,1]的隶属度数值,来明确其归属单个 群的状况。与前面介绍的模糊划分相同,整体分 类中的隶属度矩阵 U 也是由取值在[0,1]的元素 构成的。同时,归一化的规则明确了单个数据集 的所相加得到的隶属度总和必须等于 1。 第 4 期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·567·
·568· 智能系统学报 第13卷 24=1,j=1,2…n 对比;同时使用传统的硬聚类的方法(k-MEANS、 (7) KNN)与模糊C均值的效果进行对比。 式中:4表示了第j个元素属于第i个类群的隶属 度值。因此,FCM的目标函数就是: JU.c,)=∑=∑∑g (8) (a)分类1(b)分类2(c)分类3(d分类4 图5单脉搏信号粗分类基本类型 式中:u的取值在[0,1:c,则表示模糊群第I类的 Fig.5 Structure model of group organizations 聚类中心,d,=‖lcx则计算了第I类聚类中心与 另一方面,还比较了隶属度值对聚类结果的 第j个采样点之间的欧式L2距离;此外m∈[1,o) 影响。隶属度函数A(x)越接近于1,表示x属于 则是一个指数加权。 A的程度越高,A(x)越接近于0,则表示x属于 为了求出FCM目标函数的最小值,可以将其 A的程度越低。使用取值于区间[0,1]的隶属函数 转换成下列函数,以进行最小化的求解: A(x)是FCM中最常用的,但是如果我们放宽 J(U,c1,…,ce,1,…,n)= FCM隶属度以及其归一化的条件,令所有的样本 针对各个类的隶属度的总和值可以大于1,这样 JU,c1,…,c)+∑ (9) 的改变,是否可以获得较好的结果呢? 在实验中,对比了当模糊C均值的隶属度等 于1时,和当我们放宽条件,允许模糊C均值的 式中:,=l,2,…,n,它们是拉格朗日乘子的n个 隶属度值大于1时的结果。实验的结果显示,使 用倒谱分析获取的特征源以及模糊C均值的方 约束条件。接下来,需要对所有的输入参量进行 法进行聚类,对于脉象的识别准确率相对较高 求导,从而令式(9)取得最小值,可以得到: (如表1)。同时我们观察到,当放宽隶属度的条 ∑g 件,允许模糊C均值的隶属度值大于1时,实验 Ci= ii 10) 效果会更好一些。 表1多聚类方案与特征源实验效果对比 1 d k=1 Table 1 Comparison experiment of multi-clustering scheme and feature source % 由上述求得的解不难看出,模糊c均值聚类 算法可以被归结为一个简单的迭代过程。 聚类方案/特征提取LD FFT LPC LPCC MFCC k-MEANS 36.255.144.9 43.5 56.5 3实验结果 KNN 43.453.646.4 49.2 57.9 本文所选用的实验环境是MATLAB运行在 FCM(隶属度=1)40.571.050.7 52.1 76.8 2.8 GHz Intel is5CPU,8GB内存平台下。本实验 FCM隶属度>1)44.971.055.152.1 78.2 中采用的样本是69名健康大学生的脉搏数据,其 此外,单独考察了效果较好的3类特征提取 中脉搏数据的频率为60~80次/min,而频率则主 方案(MFCC、FFT和LPC),观察它们在相同的聚 要分布在0~40Hz的区间范围内,原始数据的采 类方案(FCM,隶属度>1)情况下,对每个单脉搏 样频率为512Hz。通过降频处理,将原512Hz 信号的准确分类数量(图6)。可以观察到,选用 频率的数据降低到了128Hz。在预处理的过程 MFCC倒谱分析获取的特征,配合以模糊C均值 中,进行了归一化和去均值,然后将一个心动周 的聚类方案,在所有的单个脉搏信号粗分类上, 期中的脉搏波信号长度进行调整,最后通过补零 都获得了较佳的效果。 统一调整为128点。为了将无监督聚类的效果进 ■MFCC■FFT■LPC 1817 行评估,将归一化之后的信号进行粗分类为标记 15 3 1413 9 10 10 10 的4种基本类型(如图5),再通过聚类的方法进行 试验。 在实验中,通过对比不同的特征源,分别使用 分类1 分类2 分类3 分类4 基于线性距离度量特征(LD)、功率谱分析(PSA)、 图63种特征方案对单脉搏信号的准确分类数量 线性预测编码(LPC)、线性预测倒谱系数(LPCC) Fig.6 Accurate classification of single pulse signals by 获取的特征,与MFCC倒谱分析获取的特征进行 three feature schemes
∑c i=1 ui j = 1,∀ j = 1,2,··· ,n (7) 式中:uij 表示了第 j 个元素属于第 i 个类群的隶属 度值。因此,FCM 的目标函数就是: J (U, c1 ,··· , cc) = ∑c i=1 Ji = ∑c i=1 ∑n j u m i jd 2 i j (8) 式中:uij 的取值在[0,1];ci 则表示模糊群第 I 类的 聚类中心,dij=||ci -xj ||则计算了第 I 类聚类中心与 第 j 个采样点之间的欧式 L2 距离;此外 m∈[1,∞) 则是一个指数加权。 为了求出 FCM 目标函数的最小值,可以将其 转换成下列函数,以进行最小化的求解: J¯(U, c1,··· , cc , λ1,··· , λn) = J (U, c1,··· , cc)+ ∑n j=1 λj ∑c i=1 ui j −1 = ∑c i=1 ∑n j u m i jd 2 i j + ∑n j=1 λj ∑c i=1 ui j −1 (9) 式中:λj,j=1,2,··· ,n,它们是拉格朗日乘子的 n 个 约束条件。接下来,需要对所有的输入参量进行 求导,从而令式 (9) 取得最小值,可以得到: ci = ∑n j=1 u m i jxj ∑n j=1 u m i j , ui j = 1 ∑c k=1 ( di j dk j)2/(m−1) (10) 由上述求得的解不难看出,模糊 c 均值聚类 算法可以被归结为一个简单的迭代过程。 3 实验结果 本文所选用的实验环境是 MATLAB 运行在 2.8 GHz Intel i5 CPU,8 GB 内存平台下。本实验 中采用的样本是 69 名健康大学生的脉搏数据,其 中脉搏数据的频率为 60~80 次/min,而频率则主 要分布在 0~40 Hz 的区间范围内,原始数据的采 样频率为 512 Hz。通过降频处理,将原 512 Hz 频率的数据降低到了 128 Hz。在预处理的过程 中,进行了归一化和去均值,然后将一个心动周 期中的脉搏波信号长度进行调整,最后通过补零 统一调整为 128 点。为了将无监督聚类的效果进 行评估,将归一化之后的信号进行粗分类为标记 的 4 种基本类型 (如图 5),再通过聚类的方法进行 试验。 在实验中,通过对比不同的特征源,分别使用 基于线性距离度量特征 (LD)、功率谱分析 (PSA)、 线性预测编码 (LPC)、线性预测倒谱系数 (LPCC) 获取的特征,与 MFCC 倒谱分析获取的特征进行 对比;同时使用传统的硬聚类的方法 (k-MEANS、 KNN) 与模糊 C 均值的效果进行对比。 (a) 分类1 (b) 分类2 (c) 分类3 (d) 分类4 图 5 单脉搏信号粗分类基本类型 Fig. 5 Structure model of group organizations 另一方面,还比较了隶属度值对聚类结果的 影响。隶属度函数 A(x) 越接近于 1,表示 x 属于 A 的程度越高,A(x) 越接近于 0,则表示 x 属于 A 的程度越低。使用取值于区间[0,1]的隶属函数 A(x) 是 FCM 中最常用的,但是如果我们放宽 FCM 隶属度以及其归一化的条件,令所有的样本 针对各个类的隶属度的总和值可以大于 1,这样 的改变,是否可以获得较好的结果呢? 在实验中,对比了当模糊 C 均值的隶属度等 于 1 时,和当我们放宽条件,允许模糊 C 均值的 隶属度值大于 1 时的结果。实验的结果显示,使 用倒谱分析获取的特征源以及模糊 C 均值的方 法进行聚类,对于脉象的识别准确率相对较高 (如表 1)。同时我们观察到,当放宽隶属度的条 件,允许模糊 C 均值的隶属度值大于 1 时,实验 效果会更好一些。 表 1 多聚类方案与特征源实验效果对比 Table 1 Comparison experiment of multi-clustering scheme and feature source % 聚类方案/特征提取 LD FFT LPC LPCC MFCC k-MEANS 36.2 55.1 44.9 43.5 56.5 KNN 43.4 53.6 46.4 49.2 57.9 FCM(隶属度=1) 40.5 71.0 50.7 52.1 76.8 FCM(隶属度>1) 44.9 71.0 55.1 52.1 78.2 此外,单独考察了效果较好的 3 类特征提取 方案 (MFCC、FFT 和 LPC),观察它们在相同的聚 类方案 (FCM,隶属度>1) 情况下,对每个单脉搏 信号的准确分类数量 (图 6)。可以观察到,选用 MFCC 倒谱分析获取的特征,配合以模糊 C 均值 的聚类方案,在所有的单个脉搏信号粗分类上, 都获得了较佳的效果。 MFCC FFT LPC 18 17 15 分类 1 12 9 7 分类 2 10 10 6 分类 3 14 13 10 分类 4 准确分类数量 图 6 3 种特征方案对单脉搏信号的准确分类数量 Fig. 6 Accurate classification of single pulse signals by three feature schemes ·568· 智 能 系 统 学 报 第 13 卷
第4期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·569· 4结束语 University of Technology,2014. [S]彭涛.脉象信号分析与中医脉象证型识别研究D苏州: 在中医研究中,脉象是对人体机能的状况进 苏州大学,2008 行分析的重要指标之一。一个有经验的中医,可 PENG Tao.Research on analysis of pulse signal and re- 以通过脉象的模式变换,判断出病症的紧迫性、 cognition of the tradition Chinese medicine syndrome[D]. 位置和相应的性征。脉诊的客观化也是中医客观 Suzhou,China:Soochow University,2008. 化研究中的一个重点。本文提出的一种客观化的 [6]李娜,邹小娟,王忆勤.支气管哮喘与慢性胃炎患者寸口 方法,首先是通过脉象信号取漂移预处理,然后 6部脉图的比较研究).世界科学技术-中医药现代化 进行归一化,再通过频域信息特征的提取和分 2015,172:343-349. 析,然后用其作为脉象信号识别过程中的输入向 LI Na,ZOU Xiaojuan,WANG Yigin.Comparative study 量,再采用模糊C均值的聚类方法,对脉象的信 on Cun-Kou six-pulse diagram between chronic gastritis 号进行识别。作为一种无监督的分析方法,它可 and bronchial asthma[J].World science and technology- modernization of traditional Chinese medicine,2015, 以在没有中医专家的参与下,进行脉象信号的粗 17(2)343-349. 分类的识别。也可以作为有监督时特征提取的依 [7]张冬雨.面向脉诊的脉搏信号与血流信号分类研究D] 据,进行进一步优化研究。 哈尔滨:哈尔滨工业大学,2010 本文旨在提出了一个无监督的脉诊客观化方 ZHANG Dongyu.Research on classification of pulse sig- 法。在中医专家对数据进行标注之前,先根据信 nal and blood flow signal for pulse diagnosis[D].Harbin, 号的特征,进行粗线条分类,为客观化提供依据。 China:Harbin Institute of Technology,2010. 同时,在解决医疗资源不匹配的问题上,粗分类 [8]郭红霞,王炳和,张丽琼,等.基于小波包分析和BP神经 可以扮演一个先期分诊的作用,可以用于人群分 网络的中医脉象识别方法.计算机应用研究,2006, 类的脉诊预判断(比如孕妇与非孕妇,心脏病人 23(6):185-187 与心脏健康人群)。在大数据的时代背景下,在医 GUO Hongxia,WANG Binghe,ZHANG Liqiong,et al. 院拥有更大规模的数据情况后,可以将无监督的 Recognition method of TCM pulse-conditions based on 算法进一步细化,从而为节省医疗资源,提高分 wavelet packet analysis and BP neural networks[J].Ap- 诊效率,做出进一步的贡献。 plication research of computers,2006,23(6):185-187 [9]ZHANG Shiru,SUN Qingfu.Human pulse recognition 参考文献: based on wavelet transform and BP network[Cl//Proceed- [1]魏红,徐刚.从中医整体、动态、平衡观论脉诊客观化研 ings of 2015 IEEE International Conference on Signal Pro- 究.中医杂志,2014,55(1):25-27. cessing,Communications and Computing (ICSPCC). WEI Hong,XU Gang.Research on objectifying pulse ex- Ningbo,China,2015:1-4. amination from overall,dynamic and balanced view of tra- [10]王群,李敏,庞枫赛,等.一种基于时变自回归模型的抗 ditional Chinese medicine[J].Journal of traditional Chinese 运动干扰心率提取算法J.航天医学与医学工程,2016, medicine,2014,55(1):25-27 291):14-20. [2]刘磊,吴秋峰,张宏志,等.脉诊客观化研究综述.智能 WANG Qun,LI Min,PANG Fengqian,et al.A motion- 计算机与应用.2013.3(3):20-24 resistant heart rate extracting algorithm based on TVAR LIU Lei,WU Qiufeng,ZHANG Hongzhi,et al.The objec- model[J].Space medicine and medical engineering,2016, tification research of pulse diagnosis[J].Intelligent com- 29(114-20. puter and applications,2013,3(3):20-24 [1]于璐.基于虚拟仪器的脉搏信号处理方法研究及应用 [3]洪光,高丹.中医脉诊客观化发展探析).国际中医中药 D].沈阳:中国医科大学,2009 杂志,2016,38(10:869-871. YU Lu.Research and application of pulse signal pro- HONG Guang,GAO Dan.Introduction and reflection on cessing methods based on virtual instrument[D].Shen the current status of objectification of Chinese pulse dia- yang,China:China Medical University,2009. gnosis[J].International journal of traditional Chinese medi- [12]王欣.中医三部脉象信号的采集及其关联性研究D].天 cine.2016.38(10:869-871. 津:天津大学,2014. [4]李凯.脉搏信号采集系统设计及算法研究D].天津:天 WANG Xin.The relevance of Cun-guan-chi pulse based 津理工大学,2014. on a signal collection system[D].Tianjin,China:Tianjin LI Kai.Design of pulse signal collecting system and re- University,2014. search of processing algorithm[D].Tianjin,China:Tianjin [13]徐黎明,宿明良,张广福,等.关脉信号数学分析法对比
4 结束语 在中医研究中,脉象是对人体机能的状况进 行分析的重要指标之一。一个有经验的中医,可 以通过脉象的模式变换,判断出病症的紧迫性、 位置和相应的性征。脉诊的客观化也是中医客观 化研究中的一个重点。本文提出的一种客观化的 方法,首先是通过脉象信号取漂移预处理,然后 进行归一化,再通过频域信息特征的提取和分 析,然后用其作为脉象信号识别过程中的输入向 量,再采用模糊 C 均值的聚类方法,对脉象的信 号进行识别。作为一种无监督的分析方法,它可 以在没有中医专家的参与下,进行脉象信号的粗 分类的识别。也可以作为有监督时特征提取的依 据,进行进一步优化研究。 本文旨在提出了一个无监督的脉诊客观化方 法。在中医专家对数据进行标注之前,先根据信 号的特征,进行粗线条分类,为客观化提供依据。 同时,在解决医疗资源不匹配的问题上,粗分类 可以扮演一个先期分诊的作用,可以用于人群分 类的脉诊预判断 (比如孕妇与非孕妇,心脏病人 与心脏健康人群)。在大数据的时代背景下,在医 院拥有更大规模的数据情况后,可以将无监督的 算法进一步细化,从而为节省医疗资源,提高分 诊效率,做出进一步的贡献。 参考文献: 魏红, 徐刚. 从中医整体、动态、平衡观论脉诊客观化研 究[J]. 中医杂志, 2014, 55(1): 25–27. WEI Hong, XU Gang. Research on objectifying pulse examination from overall, dynamic and balanced view of traditional Chinese medicine[J]. Journal of traditional Chinese medicine, 2014, 55(1): 25–27. [1] 刘磊, 吴秋峰, 张宏志, 等. 脉诊客观化研究综述[J]. 智能 计算机与应用, 2013, 3(3): 20–24. LIU Lei, WU Qiufeng, ZHANG Hongzhi, et al. The objectification research of pulse diagnosis[J]. Intelligent computer and applications, 2013, 3(3): 20–24. [2] 洪光, 高丹. 中医脉诊客观化发展探析[J]. 国际中医中药 杂志, 2016, 38(10): 869–871. HONG Guang, GAO Dan. Introduction and reflection on the current status of objectification of Chinese pulse diagnosis[J]. International journal of traditional Chinese medicine, 2016, 38(10): 869–871. [3] 李凯. 脉搏信号采集系统设计及算法研究[D]. 天津: 天 津理工大学, 2014. LI Kai. Design of pulse signal collecting system and research of processing algorithm[D]. Tianjin, China: Tianjin [4] University of Technology, 2014. 彭涛. 脉象信号分析与中医脉象证型识别研究[D]. 苏州: 苏州大学, 2008. PENG Tao. Research on analysis of pulse signal and recognition of the tradition Chinese medicine syndrome[D]. Suzhou, China: Soochow University, 2008. [5] 李娜, 邹小娟, 王忆勤. 支气管哮喘与慢性胃炎患者寸口 6 部脉图的比较研究[J]. 世界科学技术–中医药现代化, 2015, 17(2): 343–349. LI Na, ZOU Xiaojuan, WANG Yiqin. Comparative study on Cun-Kou six-pulse diagram between chronic gastritis and bronchial asthma[J]. World science and technologymodernization of traditional Chinese medicine, 2015, 17(2): 343–349. [6] 张冬雨. 面向脉诊的脉搏信号与血流信号分类研究[D]. 哈尔滨: 哈尔滨工业大学, 2010. ZHANG Dongyu. Research on classification of pulse signal and blood flow signal for pulse diagnosis[D]. Harbin, China: Harbin Institute of Technology, 2010. [7] 郭红霞, 王炳和, 张丽琼, 等. 基于小波包分析和 BP 神经 网络的中医脉象识别方法[J]. 计算机应用研究, 2006, 23(6): 185–187. GUO Hongxia, WANG Binghe, ZHANG Liqiong, et al. Recognition method of TCM pulse-conditions based on wavelet packet analysis and BP neural networks[J]. Application research of computers, 2006, 23(6): 185–187. [8] ZHANG Shiru, SUN Qingfu. Human pulse recognition based on wavelet transform and BP network[C]//Proceedings of 2015 IEEE International Conference on Signal Processing, Communications and Computing (ICSPCC). Ningbo, China, 2015: 1–4. [9] 王群, 李敏, 庞枫骞, 等. 一种基于时变自回归模型的抗 运动干扰心率提取算法[J]. 航天医学与医学工程, 2016, 29(1): 14–20. WANG Qun, LI Min, PANG Fengqian, et al. A motionresistant heart rate extracting algorithm based on TVAR model[J]. Space medicine and medical engineering, 2016, 29(1): 14–20. [10] 于璐. 基于虚拟仪器的脉搏信号处理方法研究及应用 [D]. 沈阳: 中国医科大学, 2009. YU Lu. Research and application of pulse signal processing methods based on virtual instrument[D]. Shen yang, China: China Medical University, 2009. [11] 王欣. 中医三部脉象信号的采集及其关联性研究[D]. 天 津: 天津大学, 2014. WANG Xin. The relevance of Cun-guan-chi pulse based on a signal collection system[D]. Tianjin, China: Tianjin University, 2014. [12] [13] 徐黎明, 宿明良, 张广福, 等. 关脉信号数学分析法对比 第 4 期 冯冰,等:中医脉诊信号的无监督聚类分析研究 ·569·
·570· 智能系统学报 第13卷 研究.中国中医药信息杂志,2005,12(7):16-19, PIAO Shangzhe,CHAOMURILIGE,YU Jian.Cluster XU Liming,SU Mingliang,ZHANG Guangfu,et al. validity indexes for FCM clustering algorithm[J].PR and Compared investigation of mathematical analyses for AL,2015,28(5):452-461. guan pulse tracings[J].Chinese journal of information on [18]康家银,纪志成,龚成龙.一种核C-均值聚类算法及其 TCM,2005,12(7):16-19 应用U.仪器仪表学报,2010,31(7):1657-1663. [14]焦琪玉.脉象信号的特征提取与分类识别D1.长春:长 KANG Jiayin,JI Zhicheng,GONG Chenglong.Kernel- 春理工大学,2014. ized fuzzy C-menas clustering algorithm and its applica- JIAO Qiyu.The pulse signals extraction and recognition tion[J].Chinese journal of scientific instrument,2010, [D].Changchun,China:Changchun University of Sci- 31(7):1657-1663. ence and Technology,2014. 作者简介: [15]张蔚波,齐淑敏,杜丽.基于频域分析的脉搏波信号研 冯冰,男,1987年生,硕士研究 究[.山东建筑大学学报,2010,25(4少:419-422 生,主要研究方向为机器学习、中医客 ZHANG Weibo,QI Shumin,DU Li.Study of pulse wave 观化。 based on frequency domain analysis[J].Journal of Shan- dong jianzhu university,2010,25(4):419-422 [16]周红标.融合语音和脉搏的多模态情感识别研究).微 电子学与计算机,2015,32(6:5-9. ZHOU Hongbiao.Research of multimodal emotion recog- 李绍滋,男,1963年生.教授,博 士生导师,博士,主要研究方向为人工 nition based on speech and pulse signal[J].Microelectron- 智能及其应用、机器学习、计算机视觉 ics and computer,2015,32(6):5-9. 及运动目标检测与识别。先后主持或 [17刀朴尚哲,超木日力格,于剑.模糊C均值算法的聚类有 参加过多项国家“863”项目、国家自然 效性评价J].模式识别与人工智能,2015,28(5):452 科学基金项目、教育部博土点基金项 461. 目、省科技重点项目等
研究[J]. 中国中医药信息杂志, 2005, 12(7): 16–19. XU Liming, SU Mingliang, ZHANG Guangfu, et al. Compared investigation of mathematical analyses for guan pulse tracings[J]. Chinese journal of information on TCM, 2005, 12(7): 16–19. 焦琪玉. 脉象信号的特征提取与分类识别[D]. 长春: 长 春理工大学, 2014. JIAO Qiyu. The pulse signals extraction and recognition [D]. Changchun, China: Changchun University of Science and Technology, 2014. [14] 张蔚波, 齐淑敏, 杜丽. 基于频域分析的脉搏波信号研 究[J]. 山东建筑大学学报, 2010, 25(4): 419–422. ZHANG Weibo, QI Shumin, DU Li. Study of pulse wave based on frequency domain analysis[J]. Journal of Shandong jianzhu university, 2010, 25(4): 419–422. [15] 周红标. 融合语音和脉搏的多模态情感识别研究[J]. 微 电子学与计算机, 2015, 32(6): 5–9. ZHOU Hongbiao. Research of multimodal emotion recognition based on speech and pulse signal[J]. Microelectronics and computer, 2015, 32(6): 5–9. [16] 朴尚哲, 超木日力格, 于剑. 模糊 C 均值算法的聚类有 效性评价[J]. 模式识别与人工智能, 2015, 28(5): 452– 461. [17] PIAO Shangzhe, CHAOMURILIGE, YU Jian. Cluster validity indexes for FCM clustering algorithm[J]. PR and AI, 2015, 28(5): 452–461. 康家银, 纪志成, 龚成龙. 一种核 C-均值聚类算法及其 应用[J]. 仪器仪表学报, 2010, 31(7): 1657–1663. KANG Jiayin, JI Zhicheng, GONG Chenglong. Kernelized fuzzy C-menas clustering algorithm and its application[J]. Chinese journal of scientific instrument, 2010, 31(7): 1657–1663. [18] 作者简介: 冯冰,男,1987 年生,硕士研究 生,主要研究方向为机器学习、中医客 观化。 李绍滋,男,1963 年生,教授,博 士生导师,博士,主要研究方向为人工 智能及其应用、机器学习、计算机视觉 及运动目标检测与识别。先后主持或 参加过多项国家“863”项目、国家自然 科学基金项目、教育部博士点基金项 目、省科技重点项目等。 ·570· 智 能 系 统 学 报 第 13 卷