【机器学习】结合Copula理论与贝叶斯决策理论的分类算法编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.07MB

第11卷第1期智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feb.2016 D0I:10.11992/is.201509011 网络出版地址：htp:/www.cmki.net/kcms/detail/23.1538.TP.20160105.1526.002.html 结合Copula理论与贝叶斯决策理论的分类算法钱冬1，王蓓1，张涛2，王行愚 (1.华东理工大学信息科学与工程学院，上海200237：2.清华大学自动化系，北京100086)】摘要：传统的贝叶斯决策分类算法易受类条件概率密度函数估计的影响，可能会对分类结果造成干扰。对此本文提出来一种改进的贝叶斯决策分类算法，即Bayesian-Copula判别分类器(BCDC)。该方法无需对类条件概率密度函数的形式进行假设，而是将Copula理论和核密度估计相结合进行函数构建，利用核密度估计平滑特征的概率分布，概率积分变换将特征的累计概率分布转化为均匀分布，Copula函数构建2个类别的边缘累积分布之间的相关性。随后，用极大似然估计方法确定Copula函数的参数，贝叶斯信息准则(BIC)用于选择最合适的Copula函数。通过生物电信号的仿真实验进行模型验证，结果表明相比传统的概率模型，提出的分类算法在分类精度和AUC两个性能指标上表现较好，鲁棒性更强，说明了BCDC模型充分利用Copula理论和核密度估计的优点，提高了估计的准确性和灵活性。关键词：机器学习：贝叶斯决策理论：Copula理论：核密度估计：生物电信号中图分类号：TP391.4文献标志码：A文章编号：1673-4785(2016)01-0078-06 中文引用格式：钱冬，王蓓，张涛，等.结合Copula理论与贝叶斯决策理论的分类算法[J].智能系统学报，2016,11(1)：78-83. 英文引用格式：QIAN Dong,WANG Bei,ZHANG Tao,etal.Classification algorithm based on Copula theory and Bayesian deci-- sion theory[J].CAAI Transactions on Intelligent Systems,2016,11(1):78-83. Classification algorithm based on Copula theory and Bayesian decision theory QIAN Dong',WANG Bei',ZHANG Tao2,WANG Xingyu' (1.School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China;2. Department of Automation,Tsinghua University,Beijing 100086,China) Abstract:Traditional Bavesian decision classification algorithm is easily affected by the estimation of class-condi- tional probability densities,a fact that may result in incorrect classification results.Therefore,this paper proposes an improved classification algorithm based on Bayesian decision,i.e.,Bayesian-Copula Discriminant Classifier (BCDC).This method constructs class-conditional probability densities by combining Copula theory and kernel density estimation instead of making assumptions on the form of class-conditional probability densities.Kernel densi- ty estimation is used to smooth the probability distribution of each feature.By performing probability integral trans- form,continuous distribution is converted to random variables having a uniform distribution.Then,Copula func- tions are used to construct the dependency structure between these probability distributions for two categories.More- over,the maximum likelihood estimation is applied to determine the parameters of Copula functions,and two well- fitted Copula functions for two categories are selected based on Bayesian information criterion.The BCDC method was validated with experimental datasets of physiological signals.The obtained results showed that the proposed method outperforms other traditional methods in terms of classification accuracy and AUC as well as robustness.Mo- reover,it takes full advantage of Copula theory and kernel density estimation and improves the accuracy and flexi- bility of the estimation. Keywords:machine learning;Bayesian decision theory;Copula theory;kernel density estimation;physiological signals 机器学习在人工智能领域的研究中具有十分分支，如模式识别、计算机视觉、数据挖掘、医学诊重要的地位。目前，其应用已遍及人工智能的各个断、自然语言处理等领域-6)。概率模型则是模式识别中被研究较多的一类模型，它给予了数据产生收稿日期：2015-09-06.网络出版日期：2016-01-05. 基金项目：上海市科委科技创新行动计划-生物医药领域产学研医合作的复杂现象和内在机理的描述方式。其中，贝叶斯资助项目(12DZ1940903). 理论是基于概率表达的机器学习的主要工具，其认通信作者：王蓓.E-mail:beiwang@ecust..cdu.cn

第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０１６年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０９０１１网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０１０５．１５２６．００２．ｈｔｍｌ结合Ｃｏｐｕｌａ理论与贝叶斯决策理论的分类算法钱冬１，王蓓１，张涛２，王行愚１（１．华东理工大学信息科学与工程学院，上海２００２３７；２．清华大学自动化系，北京１０００８６）摘要：传统的贝叶斯决策分类算法易受类条件概率密度函数估计的影响，可能会对分类结果造成干扰。对此本文提出来一种改进的贝叶斯决策分类算法，即Ｂａｙｅｓｉａｎ⁃Ｃｏｐｕｌａ判别分类器（ＢＣＤＣ）。该方法无需对类条件概率密度函数的形式进行假设，而是将Ｃｏｐｕｌａ理论和核密度估计相结合进行函数构建，利用核密度估计平滑特征的概率分布，概率积分变换将特征的累计概率分布转化为均匀分布，Ｃｏｐｕｌａ函数构建２个类别的边缘累积分布之间的相关性。随后，用极大似然估计方法确定Ｃｏｐｕｌａ函数的参数，贝叶斯信息准则（ＢＩＣ）用于选择最合适的Ｃｏｐｕｌａ函数。通过生物电信号的仿真实验进行模型验证，结果表明相比传统的概率模型，提出的分类算法在分类精度和ＡＵＣ两个性能指标上表现较好，鲁棒性更强，说明了ＢＣＤＣ模型充分利用Ｃｏｐｕｌａ理论和核密度估计的优点，提高了估计的准确性和灵活性。关键词：机器学习；贝叶斯决策理论；Ｃｏｐｕｌａ理论；核密度估计；生物电信号中图分类号：ＴＰ３９１．４文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０１⁃００７８⁃０６中文引用格式：钱冬，王蓓，张涛，等．结合Ｃｏｐｕｌａ理论与贝叶斯决策理论的分类算法［Ｊ］．智能系统学报，２０１６，１１（１）：７８⁃８３．英文引用格式：ＱＩＡＮＤｏｎｇ，ＷＡＮＧＢｅｉ，ＺＨＡＮＧＴａｏ，ｅｔａｌ．ＣｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＣｏｐｕｌａｔｈｅｏｒｙａｎｄＢａｙｅｓｉａｎｄｅｃｉ⁃ ｓｉｏｎｔｈｅｏｒｙ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（１）：７８⁃８３．ＣｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＣｏｐｕｌａｔｈｅｏｒｙａｎｄＢａｙｅｓｉａｎｄｅｃｉｓｉｏｎｔｈｅｏｒｙＱＩＡＮＤｏｎｇ１，ＷＡＮＧＢｅｉ１，ＺＨＡＮＧＴａｏ２，ＷＡＮＧＸｉｎｇｙｕ１（１．ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＥｎｇｉｎｅｅｒｉｎｇ，ＥａｓｔＣｈｉｎａＵｎｉｖｅｒｓｉｔｙｏｆＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，Ｓｈａｎｇｈａｉ２００２３７，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＡｕｔｏｍａｔｉｏｎ，ＴｓｉｎｇｈｕａＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１０００８６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＴｒａｄｉｔｉｏｎａｌＢａｙｅｓｉａｎｄｅｃｉｓｉｏｎｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｉｓｅａｓｉｌｙａｆｆｅｃｔｅｄｂｙｔｈｅｅｓｔｉｍａｔｉｏｎｏｆｃｌａｓｓ⁃ｃｏｎｄｉ⁃ ｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｉｅｓ，ａｆａｃｔｔｈａｔｍａｙｒｅｓｕｌｔｉｎｉｎｃｏｒｒｅｃｔｃｌａｓｓｉｆｉｃａｔｉｏｎｒｅｓｕｌｔｓ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｉｍｐｒｏｖｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＢａｙｅｓｉａｎｄｅｃｉｓｉｏｎ，ｉ．ｅ．，Ｂａｙｅｓｉａｎ⁃ＣｏｐｕｌａＤｉｓｃｒｉｍｉｎａｎｔＣｌａｓｓｉｆｉｅｒ（ＢＣＤＣ）．Ｔｈｉｓｍｅｔｈｏｄｃｏｎｓｔｒｕｃｔｓｃｌａｓｓ⁃ｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｉｅｓｂｙｃｏｍｂｉｎｉｎｇＣｏｐｕｌａｔｈｅｏｒｙａｎｄｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎｉｎｓｔｅａｄｏｆｍａｋｉｎｇａｓｓｕｍｐｔｉｏｎｓｏｎｔｈｅｆｏｒｍｏｆｃｌａｓｓ⁃ｃｏｎｄｉｔｉｏｎａｌｐｒｏｂａｂｉｌｉｔｙｄｅｎｓｉｔｉｅｓ．Ｋｅｒｎｅｌｄｅｎｓｉ⁃ ｔｙｅｓｔｉｍａｔｉｏｎｉｓｕｓｅｄｔｏｓｍｏｏｔｈｔｈｅｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｏｆｅａｃｈｆｅａｔｕｒｅ．Ｂｙｐｅｒｆｏｒｍｉｎｇｐｒｏｂａｂｉｌｉｔｙｉｎｔｅｇｒａｌｔｒａｎｓ⁃ ｆｏｒｍ，ｃｏｎｔｉｎｕｏｕｓｄｉｓｔｒｉｂｕｔｉｏｎｉｓｃｏｎｖｅｒｔｅｄｔｏｒａｎｄｏｍｖａｒｉａｂｌｅｓｈａｖｉｎｇａｕｎｉｆｏｒｍｄｉｓｔｒｉｂｕｔｉｏｎ．Ｔｈｅｎ，Ｃｏｐｕｌａｆｕｎｃ⁃ ｔｉｏｎｓａｒｅｕｓｅｄｔｏｃｏｎｓｔｒｕｃｔｔｈｅｄｅｐｅｎｄｅｎｃｙｓｔｒｕｃｔｕｒｅｂｅｔｗｅｅｎｔｈｅｓｅｐｒｏｂａｂｉｌｉｔｙｄｉｓｔｒｉｂｕｔｉｏｎｓｆｏｒｔｗｏｃａｔｅｇｏｒｉｅｓ．Ｍｏｒｅ⁃ ｏｖｅｒ，ｔｈｅｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎｉｓａｐｐｌｉｅｄｔｏｄｅｔｅｒｍｉｎｅｔｈｅｐａｒａｍｅｔｅｒｓｏｆＣｏｐｕｌａｆｕｎｃｔｉｏｎｓ，ａｎｄｔｗｏｗｅｌｌ⁃ ｆｉｔｔｅｄＣｏｐｕｌａｆｕｎｃｔｉｏｎｓｆｏｒｔｗｏｃａｔｅｇｏｒｉｅｓａｒｅｓｅｌｅｃｔｅｄｂａｓｅｄｏｎＢａｙｅｓｉａｎｉｎｆｏｒｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ．ＴｈｅＢＣＤＣｍｅｔｈｏｄｗａｓｖａｌｉｄａｔｅｄｗｉｔｈｅｘｐｅｒｉｍｅｎｔａｌｄａｔａｓｅｔｓｏｆｐｈｙｓｉｏｌｏｇｉｃａｌｓｉｇｎａｌｓ．ＴｈｅｏｂｔａｉｎｅｄｒｅｓｕｌｔｓｓｈｏｗｅｄｔｈａｔｔｈｅｐｒｏｐｏｓｅｄｍｅｔｈｏｄｏｕｔｐｅｒｆｏｒｍｓｏｔｈｅｒｔｒａｄｉｔｉｏｎａｌｍｅｔｈｏｄｓｉｎｔｅｒｍｓｏｆｃｌａｓｓｉｆｉｃａｔｉｏｎａｃｃｕｒａｃｙａｎｄＡＵＣａｓｗｅｌｌａｓｒｏｂｕｓｔｎｅｓｓ．Ｍｏ⁃ ｒｅｏｖｅｒ，ｉｔｔａｋｅｓｆｕｌｌａｄｖａｎｔａｇｅｏｆＣｏｐｕｌａｔｈｅｏｒｙａｎｄｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎａｎｄｉｍｐｒｏｖｅｓｔｈｅａｃｃｕｒａｃｙａｎｄｆｌｅｘｉ⁃ ｂｉｌｉｔｙｏｆｔｈｅｅｓｔｉｍａｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；Ｂａｙｅｓｉａｎｄｅｃｉｓｉｏｎｔｈｅｏｒｙ；Ｃｏｐｕｌａｔｈｅｏｒｙ；ｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎ；ｐｈｙｓｉｏｌｏｇｉｃａｌｓｉｇｎａｌｓ收稿日期：２０１５⁃０９⁃０６．网络出版日期：２０１６⁃０１⁃０５．基金项目：上海市科委科技创新行动计划－生物医药领域产学研医合作资助项目（１２ＤＺ１９４０９０３）．通信作者：王蓓．Ｅ⁃ｍａｉｌ：ｂｅｉｗａｎｇ＠ｅｃｕｓｔ．ｅｄｕ．ｃｎ．机器学习在人工智能领域的研究中具有十分重要的地位。目前，其应用已遍及人工智能的各个分支，如模式识别、计算机视觉、数据挖掘、医学诊断、自然语言处理等领域［１－６］。概率模型则是模式识别中被研究较多的一类模型，它给予了数据产生的复杂现象和内在机理的描述方式。其中，贝叶斯理论是基于概率表达的机器学习的主要工具，其认

第1期钱冬，等：结合Copula理论与贝叶斯决策理论的分类算法 ·79 为：先验信息反映了试验前对总体参数分布的认识，型的验证。由于从生物电信号中提取的特征之间存在观察到样本信息后，对此认识有了改变，其结果反在依赖关系，在分类精度和AUC两个指标上，相比映在后验信息中，后验信息综合了样本信息和参数于传统的GDC、GNBC和LR模型，所提出的方法呈的先验信息[。现出更好的分类效果。因此，该模型可以被用于处产生式模型(generative model)和判别式模型理特征间存在一定的相关性的实际问题，为机器学 (discriminative model)是2个比较常见的有监督学习问题提供了一种新的方法。习的分类模型。产生式模型可以指定数据结构的先验信息，但需要对观测数据建立正确的模型，而不是 1 Bayesian-Copula判别分类器对类别分布进行建模，如贝叶斯决策理论：判别式模 1.1贝叶斯决策理论型则是通过最大化类别的概率学习模型，如Logistic 贝叶斯决策理论表明对未知的数据x所属的类 Regression(LR)[s9。然而，在实际使用中，贝叶斯别做出判决，可以通过计算x属于某一个类别的概决策理论仍然存在着一定的局限性。率值得到，因此通过贝叶斯公式，该概率值可表示为贝叶斯决策理论是解决模式分类问题的一种基本统计方法。该理论的出发点是利用概率的不同分 P(C.Ix)=P(I C)P(C) p(r)】类决策与相应的决策代价之间的定量折中：目的则是对未知的数据所属的类别做出判决[1o。由于缺 p(x)=∑p(xIC)P(C) k=1 乏对于数据结构的信息，贝叶斯决策理论中类条件 k=1,2,…,K (1) 概率密度函数通常是很难准确估计的。式中：x表示特征向量，即x={x1,x2,…,x。},n为目前，估计类条件概率密度函数的方法主要有特征的个数，K为类别个数，P(C:)是类别C的先验 2种，但两者都是基于一定的假设条件。第一种是概率，P(Clx)则是相应的后验概率，p(x1C)是类假设类条件概率密度函数服从多元高斯分布，简称条件概率密度函数。此外，P(x)仅仅是一个标量，为高斯判别分类器(Gaussian discriminant classifier, 以保证各类别的后验概率总和为1。贝叶斯公式表 GDC)【。然而，多元高斯分布的边缘分布是一元明，通过观察数据x,先验概率可以转换为后验高斯分布，该一元高斯分布并非和实际特征的概率概率。分布相吻合。所以，该假设条件并不能准确地表现根据最小化误差概率的准则，未知数据x将被出多元变量的依赖结构。更重要的是，多元高斯分归于后验概率P(CIx)最大的类别。考虑到p(x) 布中的协方差矩阵只能反映出各个特征之间的线性只是一个标量因子，所以式(1)可以简化为关系，难以精确地描述特征之间的非线性关系。第 P(CIx)p(xI Cg)P(Cg) (2) 2种则是基于朴素贝叶斯条件独立的特点，假设类注意到，在式(2)中，后验概率P(C:Ix)主要由条件概率密度函数服从若干个一元高斯分布，简称先验概率P(C)和类条件概率密度函数p(xIC)的为高斯朴素分类器(Gaussian naive Bayes classifier, 乘积所决定。先验概率P(C)可以经验性地获得， GNBC)【!。该假设条件虽然可以有效地减少参数计算在训练数据中属于某一类别的数据个数，再除估计的个数，但它过于简单，直接忽略了各个特征之以训练数据的总个数即可得到。间的依赖结构。因此，该方法也不能准确地估计出在下面小节中，我们将通过Copula函数和核密多个特征的联合分布。度估计的方法来构建类条件概率密度函数。由上述可知，现有的估计方法都存在着一定的 1.2 Copula理论不足和局限性。本文考虑了特征之间存在的依赖关近年来，在统计领域里，Copula理论引起了研究系，提出了将贝叶斯决策理论和Copula理论相结合者的关注。该理论可以理解为：多维随机变量的联的分类器，简称为Bayesian-Copula判别分类器。该合分布函数可以分解成若干个一维的分布函数和一模型将Copula函数和核密度估计相结合构建类条个Copula函数，而Copula函数则将若干个分布函数件概率密度函数。Copula函数能够描述变量间的线连接起来，它可以描述随机变量间的依赖关系。目性或者非线性相关性，该理论表明多元联合分布函前，该理论被广泛应用于经济、金融等领域[1]。数可以通过Copula函数和任意的随机变量的边缘 Sklar定理是Copula理论的核心部分，也是Copula 分布函数构建135)。而核密度估计则是一种非参理论在统计学中应用的基础，在建立联合分布函数数估计方法，它不需要假设概率分布的形式，可以直和它们相应边缘分布函数之间的关联中起着关键的接计算得到概率密度值16。最后，将改进的BCDC 作用。算法用于生物电信号分类识别的实际问题中进行模定理 (Sklar定理(1959))：令H为n个随机

为：先验信息反映了试验前对总体参数分布的认识，在观察到样本信息后，对此认识有了改变，其结果反映在后验信息中，后验信息综合了样本信息和参数的先验信息［７］。产生式模型（ｇｅｎｅｒａｔｉｖｅｍｏｄｅｌ）和判别式模型（ｄｉｓｃｒｉｍｉｎａｔｉｖｅｍｏｄｅｌ）是２个比较常见的有监督学习的分类模型。产生式模型可以指定数据结构的先验信息，但需要对观测数据建立正确的模型，而不是对类别分布进行建模，如贝叶斯决策理论；判别式模型则是通过最大化类别的概率学习模型，如ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ（ＬＲ）［８⁃９］。然而，在实际使用中，贝叶斯决策理论仍然存在着一定的局限性。贝叶斯决策理论是解决模式分类问题的一种基本统计方法。该理论的出发点是利用概率的不同分类决策与相应的决策代价之间的定量折中；目的则是对未知的数据所属的类别做出判决［１０］。由于缺乏对于数据结构的信息，贝叶斯决策理论中类条件概率密度函数通常是很难准确估计的。目前，估计类条件概率密度函数的方法主要有２种，但两者都是基于一定的假设条件。第一种是假设类条件概率密度函数服从多元高斯分布，简称为高斯判别分类器（Ｇａｕｓｓｉａｎｄｉｓｃｒｉｍｉｎａｎｔｃｌａｓｓｉｆｉｅｒ，ＧＤＣ）［１１］。然而，多元高斯分布的边缘分布是一元高斯分布，该一元高斯分布并非和实际特征的概率分布相吻合。所以，该假设条件并不能准确地表现出多元变量的依赖结构。更重要的是，多元高斯分布中的协方差矩阵只能反映出各个特征之间的线性关系，难以精确地描述特征之间的非线性关系。第２种则是基于朴素贝叶斯条件独立的特点，假设类条件概率密度函数服从若干个一元高斯分布，简称为高斯朴素分类器（ＧａｕｓｓｉａｎｎａｉｖｅＢａｙｅｓｃｌａｓｓｉｆｉｅｒ，ＧＮＢＣ）［１２］。该假设条件虽然可以有效地减少参数估计的个数，但它过于简单，直接忽略了各个特征之间的依赖结构。因此，该方法也不能准确地估计出多个特征的联合分布。由上述可知，现有的估计方法都存在着一定的不足和局限性。本文考虑了特征之间存在的依赖关系，提出了将贝叶斯决策理论和Ｃｏｐｕｌａ理论相结合的分类器，简称为Ｂａｙｅｓｉａｎ⁃Ｃｏｐｕｌａ判别分类器。该模型将Ｃｏｐｕｌａ函数和核密度估计相结合构建类条件概率密度函数。Ｃｏｐｕｌａ函数能够描述变量间的线性或者非线性相关性，该理论表明多元联合分布函数可以通过Ｃｏｐｕｌａ函数和任意的随机变量的边缘分布函数构建［１３⁃１５］。而核密度估计则是一种非参数估计方法，它不需要假设概率分布的形式，可以直接计算得到概率密度值［１６］。最后，将改进的ＢＣＤＣ算法用于生物电信号分类识别的实际问题中进行模型的验证。由于从生物电信号中提取的特征之间存在依赖关系，在分类精度和ＡＵＣ两个指标上，相比于传统的ＧＤＣ、ＧＮＢＣ和ＬＲ模型，所提出的方法呈现出更好的分类效果。因此，该模型可以被用于处理特征间存在一定的相关性的实际问题，为机器学习问题提供了一种新的方法。１Ｂａｙｅｓｉａｎ⁃Ｃｏｐｕｌａ判别分类器１．１贝叶斯决策理论贝叶斯决策理论表明对未知的数据ｘ所属的类别做出判决，可以通过计算ｘ属于某一个类别的概率值得到，因此通过贝叶斯公式，该概率值可表示为Ｐ（Ｃｋ｜ｘ）＝ｐ（ｘ｜Ｃｋ）Ｐ（Ｃｋ）ｐ（ｘ）ｐ（ｘ）＝ ∑ Ｋｋ＝１ｐ（ｘ｜Ｃｋ）Ｐ（Ｃｋ）ｋ＝１，２，…，Ｋ（１）式中：ｘ表示特征向量，即ｘ＝｛ｘ１，ｘ２，…，ｘｎ｝，ｎ为特征的个数，Ｋ为类别个数，Ｐ（Ｃｋ）是类别Ｃｋ的先验概率，Ｐ（Ｃｋ｜ｘ）则是相应的后验概率，ｐ（ｘ｜Ｃｋ）是类条件概率密度函数。此外，ｐ（ｘ）仅仅是一个标量，以保证各类别的后验概率总和为１。贝叶斯公式表明，通过观察数据ｘ，先验概率可以转换为后验概率。根据最小化误差概率的准则，未知数据ｘ将被归于后验概率Ｐ（Ｃｋ｜ｘ）最大的类别。考虑到ｐ（ｘ）只是一个标量因子，所以式（１）可以简化为Ｐ（Ｃｋ｜ｘ） ∝ ｐ（ｘ｜Ｃｋ）Ｐ（Ｃｋ）（２）注意到，在式（２）中，后验概率Ｐ（Ｃｋ｜ｘ）主要由先验概率Ｐ（Ｃｋ）和类条件概率密度函数ｐ（ｘ｜Ｃｋ）的乘积所决定。先验概率Ｐ（Ｃｋ）可以经验性地获得，计算在训练数据中属于某一类别的数据个数，再除以训练数据的总个数即可得到。在下面小节中，我们将通过Ｃｏｐｕｌａ函数和核密度估计的方法来构建类条件概率密度函数。１．２Ｃｏｐｕｌａ理论近年来，在统计领域里，Ｃｏｐｕｌａ理论引起了研究者的关注。该理论可以理解为：多维随机变量的联合分布函数可以分解成若干个一维的分布函数和一个Ｃｏｐｕｌａ函数，而Ｃｏｐｕｌａ函数则将若干个分布函数连接起来，它可以描述随机变量间的依赖关系。目前，该理论被广泛应用于经济、金融等领域［１７⁃１８］。Ｓｋｌａｒ定理是Ｃｏｐｕｌａ理论的核心部分，也是Ｃｏｐｕｌａ理论在统计学中应用的基础，在建立联合分布函数和它们相应边缘分布函数之间的关联中起着关键的作用。定理（Ｓｋｌａｒ定理（１９５９））：令Ｈ为ｎ个随机第１期钱冬，等：结合Ｃｏｐｕｌａ理论与贝叶斯决策理论的分类算法 ·７９·

·80 智能系统学报第11卷变量X1,X2,…,Xn的联合分布函数，令F(x1),F2 1.4 Copula函数参数估计 (x2),…,F(xn)为随机变量的边缘分布函数，如采用极大似然估计的方法对Copula密度函数果所有的边缘分布函数都是连续的，那么存在唯一的参数0进行估计，可以得到0的估计值：一个Copula函数C满足： 0°=argmax∑logc{Fa(xi),…,Fn(xn);0 H(x1,…,xn)=C(F(x1）,…,F(xn)) (3) 联合密度函数h被定义为 (9) 此外，为了校准参数6，我们充分使用了随机数 h(x1,…,xn）=c(F(x1),…,F(xn))· 的性质，从估计的Copula密度函数中生成10000个 (4) 随机数，然后用极大似然估计的方法对生成的随机 c(E,(x),…,F(x)= aC(F(x1),…,F(xn)) 数重新进行参数拟合，估计出最终的参数0。 aF(x1)…aFn(xn) 1.5模型选择 (5) 目前广泛使用的Copula密度函数主要分为两式中：c(F(x1),…,Fn(xn)是一个n维的Copula 大类：elliptical Copulas和Archimedean Copulas。在密度函数，f(x:)则是每个随机变量的密度函数。本文中，主要使用的是elliptical Copulas中的多元推论如果C是一个Copula函数，C的值域为 Gaussian Copula函数和多元Student--t Copula函数。 [0,1]",F(x1),F(x2),…,F(xn)为随机变量的通常，Copula模型的选择会对后续步骤造成边缘分布函数，那么C(F(x),…,F(x.))可以定的影响。因此，贝叶斯信息准则(Bayesian infor- 定义一个联合分布函数。 mation criterion,BIC)用来对Copula模型进行选择，通过Copula理论，式(2)可以被推导出它是模型拟合程度和模型复杂度之间的权衡，BIC P(CsIx)ccF(x1),…,F(xn)I0;C4}· 值较小的Copula密度函数会被用于构建类条件概率密度函数。 Πf(xIC)·P(C) (6) BIC =-2logL(0)mlog(k) (10) 式中：0是Copula密度函数的参数，右边第1项表示式中：L(a·)是估计的似然值，m表示Copula密度属于类别C,的Copula密度函数，右边第2项表示属函数中参数的个数，k表示数据的个数。于类别C的核密度函数。 2生物电信号的分类识别 Copula函数连接的是每个特征的累积分布函数 F(x:),而累积分布函数的值域是[0,1]，因此，当每通过检测受试者在白天短时睡眠过程中的困倦个特征都是连续的随机变量时，需对数据进行概率状态(drowsiness)和觉醒状态(alertness)这一个实际积分变换，计算出每个特征的经验累积分布，该方法问题，验证所提出方法的有效性。通常对生物电信可以使任意给定的分布转换为均匀分布。号问题进行分析和识别，需要经过信号的数据采集、 1.3边缘分布估计特征提取和模式分类3个步骤922】。考虑到从生式(4)表明，一个联合概率密度函数可以分解物电信号中提取的特征参数能反映人的生理状态，为一个Copula密度函数和n个边缘密度函数。非而且特征之间可能存在一定的相关性，所以BCDC 参数估计的方法，如直方图和核密度估计，可以直接模型可以用于进行状态检测。利用样本来估计变量的密度函数。考虑到直方图的 2.1数据采集缺点，核密度估计被用来估计每个特征的概率密度共有8名受试者参与了白天短时睡眠的实验，函数。假设有N个样本x:,对于一个新来的样本x, 将受试者安排在一个安静舒适的环境内，记录其午核密度估计的方法可以定义为后30分钟的睡眠数据。原始睡眠数据的采集按照 f(x)= 1正K(x-)= 多导睡眠描记图(PSG,Ploysomnograph)的标准记录方式，包括了4导脑电信号(C3-A2,C4-A1,01A2, Nh (7) 02-A1),并同步采集了2导眼电信号(L0C-A1, R0C-A2),1导肌电信号和1导心电信号。其中脑式中：K(·)是核函数，h是平滑参数，本文中，采用电、眼电和心电信号的采样频率为100Hz,肌电信高斯核函数，因此，式(7)可以表示为号的采样频率为200Hz,高频截至频率是30Hz,时 f(x)= 1 。 (8) 间常数是0.3s。本文主要分析4导脑电信号 e V2T Nh i=1 (EEG)和2导眼电信号(EOG)

变量Ｘ１，Ｘ２， …，Ｘｎ的联合分布函数，令Ｆ１（ｘ１），Ｆ２（ｘ２）， …，Ｆｎ（ｘｎ）为随机变量的边缘分布函数，如果所有的边缘分布函数都是连续的，那么存在唯一一个Ｃｏｐｕｌａ函数Ｃ满足：Ｈ（ｘ１，…，ｘｎ）＝Ｃ（Ｆ１（ｘ１），…，Ｆｎ（ｘｎ））（３）联合密度函数ｈ被定义为ｈ（ｘ１，…，ｘｎ）＝ｃ（Ｆ１（ｘ１），…，Ｆｎ（ｘｎ））·∏ ｎｉ＝１ｆｉ（ｘｉ）（４）ｃ（Ｆ１（ｘ１），…，Ｆｎ（ｘｎ））＝ ∂Ｃ（Ｆ１（ｘ１），…，Ｆｎ（ｘｎ）） ∂Ｆ１（ｘ１）…∂Ｆｎ（ｘｎ）（５）式中：ｃ（Ｆ１（ｘ１）， …，Ｆｎ（ｘｎ））是一个ｎ维的Ｃｏｐｕｌａ密度函数，ｆｉ（ｘｉ）则是每个随机变量的密度函数。推论如果Ｃ是一个Ｃｏｐｕｌａ函数，Ｃ的值域为［０，１］ｎ，Ｆ１（ｘ１），Ｆ２（ｘ２）， …，Ｆｎ（ｘｎ）为随机变量的边缘分布函数，那么Ｃ（Ｆ１（ｘ１）， …，Ｆｎ（ｘｎ））可以定义一个联合分布函数。通过Ｃｏｐｕｌａ理论，式（２）可以被推导出Ｐ（Ｃｋ｜ｘ） ∝ ｃ｛Ｆ１（ｘ１），…，Ｆｎ（ｘｎ）｜ θ；Ｃｋ｝· ∏ ｎｉ＝１ｆｉ（ｘｉ｜Ｃｋ）·Ｐ（Ｃｋ）（６）式中：θ 是Ｃｏｐｕｌａ密度函数的参数，右边第１项表示属于类别Ｃｋ的Ｃｏｐｕｌａ密度函数，右边第２项表示属于类别Ｃｋ的核密度函数。Ｃｏｐｕｌａ函数连接的是每个特征的累积分布函数Ｆｉ（ｘｉ），而累积分布函数的值域是［０，１］，因此，当每个特征都是连续的随机变量时，需对数据进行概率积分变换，计算出每个特征的经验累积分布，该方法可以使任意给定的分布转换为均匀分布。１．３边缘分布估计式（４）表明，一个联合概率密度函数可以分解为一个Ｃｏｐｕｌａ密度函数和ｎ个边缘密度函数。非参数估计的方法，如直方图和核密度估计，可以直接利用样本来估计变量的密度函数。考虑到直方图的缺点，核密度估计被用来估计每个特征的概率密度函数。假设有Ｎ个样本ｘｉ，对于一个新来的样本ｘ，核密度估计的方法可以定义为ｆ＾ｈ（ｘ）＝１Ｎ∑ Ｎｉ＝１Ｋｈ（ｘ－ｘｉ）＝１Ｎｈ∑ Ｎｉ＝１Ｋ（ｘ－ｘｉｈ）（７）式中：Ｋ（·）是核函数，ｈ是平滑参数，本文中，采用高斯核函数，因此，式（７）可以表示为ｆ＾ｈ（ｘ）＝１２πＮｈ ∑ Ｎｉ＝１ｅ－（ｘ－ｘｉ）２２ｈ２（８）１．４Ｃｏｐｕｌａ函数参数估计采用极大似然估计的方法对Ｃｏｐｕｌａ密度函数的参数 θ 进行估计，可以得到 θ 的估计值： θ ∗ ＝ａｒｇｍａｘ θ ∑ Ｎｉ＝１ｌｏｇｃ｛Ｆｉ１（ｘｉ１），…，Ｆｉｎ（ｘｉｎ）；θ｝（９）此外，为了校准参数 θ，我们充分使用了随机数的性质，从估计的Ｃｏｐｕｌａ密度函数中生成１００００个随机数，然后用极大似然估计的方法对生成的随机数重新进行参数拟合，估计出最终的参数 θ。１．５模型选择目前广泛使用的Ｃｏｐｕｌａ密度函数主要分为两大类：ｅｌｌｉｐｔｉｃａｌＣｏｐｕｌａｓ和ＡｒｃｈｉｍｅｄｅａｎＣｏｐｕｌａｓ。在本文中，主要使用的是ｅｌｌｉｐｔｉｃａｌＣｏｐｕｌａｓ中的多元ＧａｕｓｓｉａｎＣｏｐｕｌａ函数和多元Ｓｔｕｄｅｎｔ－ｔＣｏｐｕｌａ函数。通常，Ｃｏｐｕｌａ模型的选择会对后续步骤造成一定的影响。因此，贝叶斯信息准则（Ｂａｙｅｓｉａｎｉｎｆｏｒ⁃ ｍａｔｉｏｎｃｒｉｔｅｒｉｏｎ，ＢＩＣ）用来对Ｃｏｐｕｌａ模型进行选择，它是模型拟合程度和模型复杂度之间的权衡，ＢＩＣ值较小的Ｃｏｐｕｌａ密度函数会被用于构建类条件概率密度函数。ＢＩＣ＝－２ｌｏｇＬ（θ ∗ ）＋ｍｌｏｇ（ｋ）（１０）式中：Ｌ（ θ ∗ ）是估计的似然值，ｍ表示Ｃｏｐｕｌａ密度函数中参数的个数，ｋ表示数据的个数。２生物电信号的分类识别通过检测受试者在白天短时睡眠过程中的困倦状态（ｄｒｏｗｓｉｎｅｓｓ）和觉醒状态（ａｌｅｒｔｎｅｓｓ）这一个实际问题，验证所提出方法的有效性。通常对生物电信号问题进行分析和识别，需要经过信号的数据采集、特征提取和模式分类３个步骤［１９⁃２２］。考虑到从生物电信号中提取的特征参数能反映人的生理状态，而且特征之间可能存在一定的相关性，所以ＢＣＤＣ模型可以用于进行状态检测。２．１数据采集共有８名受试者参与了白天短时睡眠的实验，将受试者安排在一个安静舒适的环境内，记录其午后３０分钟的睡眠数据。原始睡眠数据的采集按照多导睡眠描记图（ＰＳＧ，Ｐｌｏｙｓｏｍｎｏｇｒａｐｈ）的标准记录方式，包括了４导脑电信号（Ｃ３ ⁃Ａ２，Ｃ４ ⁃Ａ１，Ｏ１ ⁃Ａ２，Ｏ２ ⁃Ａ１），并同步采集了２导眼电信号（ＬＯＣ⁃Ａ１，ＲＯＣ⁃Ａ２），１导肌电信号和１导心电信号。其中脑电、眼电和心电信号的采样频率为１００Ｈｚ，肌电信号的采样频率为２００Ｈｚ，高频截至频率是３０Ｈｚ，时间常数是０．３ｓ。本文主要分析４导脑电信号（ＥＥＧ）和２导眼电信号（ＥＯＧ）。 ·８０· 智能系统学报第１１卷

第1期钱冬，等：结合Copula理论与贝叶斯决策理论的分类算法 ·81 2.2特征提取这主要是由于不同的受试者对2个状态存在一定的考虑到在20s的时间内，受试者的状态可能有差异性。所变化，因而特征参数可能也会有较大的波动，所以随后，对Copula密度函数的参数0进行极大似将受试者原始每段20s的脑电和眼电信号进一步然估计，并用随机数的性质重新校准参数0。最后，划分为5s一段和2.5s的重叠窗，提高特征参数的采用BIC选取最合适的Copula密度函数，并与核密准确性，并对5s的数据进行512个点的快速傅立度估计相结合，构建类条件概率密度函数，BIC选取叶变换(F℉T),计算每个5s内脑电信号和眼电信号的模型如表2所示。的特征，对所有5s的特征参数取平均值，将其作为表2基于BIC选取的2个类别的Copula密度函数 20s数据的特征参数，以减少干扰。选取的特征分 Table 2 Copula density functions for two categories based 别对应于C3/C4导联的9波(4~8Hz)和0，/02导 on BIC 联的aα波(8~13Hz)的脑电能量占空比和左、右眼 Copula密度函数觉醒状态(A) 困倦状态(D) 电信号的频域能量和(2~10Hz),即特征向量x= {Da,D.,Soc,Soc}。特征参数计算公式如表1。 Gaussian Copula -451.63 -477.25 表1脑电信号和眼电信号中提取的特征参数 Table 1 Features extracted from EEG and EOG signals Student-t Copula -459.46 -471.83 信号意义特征参数 BIC值较小的Copula函数会被选择，所以针对 D。= alertness类别选取的是Student-t Copula函数，而 S。(C) S.(C.) 能量占 max ×10%,S,(C) ×100%} drowsiness类别选取的是Gaussian Copula函数。 S(C) EEG空比/% 2.3.2模式分类和模型比较 D。= 将改进的BCDC算法与GDC、GNBC和LR对测 S.(01) S.(02) mas,(0,) 100%s,0, ×100%} 试数据进行分析和比较。ROC曲线被用来表现分类器的性能，它通过将连续变量设定出多个不同的频域阈值来揭示真阳率(true positive rate,TPR)和假阳 EOG 能量和 SLoc(LOC),SRoc(ROC) 率(false positive rate,FPR)的相互关系。其横轴表 uv 示真阳率，纵轴表示假阳率，曲线下面积越大，分类表1中0(4~8Hz),(8~13Hz),T(0.5- 器分类的能力越强。图1呈现出4个分类器在测试 25Hz);L0C,R0C(2~10Hz)。数据上的R0C曲线，其中连接点(0,0)和(1,1)的 2.3模式分类直线表示随机猜测。相比其他3个方法，BCDC算 2.3.1参数优化和模型选择法的曲线处于左上角，所以该方法表现出较好的分首先，对数据集做归一化处理，随机选取70% 类能力。的数据作为训练数据，30%的数据作为测试数据进 1.0 行分析。然后，针对每一个类别，通过概率积分变换 0.9 计算训练数据中4个特征的经验累积分布，并用 0.8 kendall秩相关系数表示两两特征之间的相关性。 0.7 相关性如下所示： 0.6 1 -0.4137-02753-028957 0.5 -04137 02288 0.2470 0.4 C"= -02753 0.2288 1 0.8018 0.3 -0.289502470 0.8018 1 0.2 GDC ----GNBC 1 -0.5399 -0.1745 -0.18757 0.1 ---BCDC +LR -0.5399 0.2541 0.1983 C 00.10.20.30.40.50.60.70.80.91.0 -0.1745 02541 1 0.7286 假阳率 -0.1875 0.1983 0.7286 1 图1GDC、GNBC、BCDC、LR的ROC曲线 (11) Fig.1 ROC curves obtained by GDC,GNBC,BCDC, 从以上2个矩阵可知，每一个类别的特征之间 LR,respectively 存在正、负相关性，有些特征间的相关性比较微弱

２．２特征提取考虑到在２０ｓ的时间内，受试者的状态可能有所变化，因而特征参数可能也会有较大的波动，所以将受试者原始每段２０ｓ的脑电和眼电信号进一步划分为５ｓ一段和２．５ｓ的重叠窗，提高特征参数的准确性，并对５ｓ的数据进行５１２个点的快速傅立叶变换（ＦＦＴ），计算每个５ｓ内脑电信号和眼电信号的特征，对所有５ｓ的特征参数取平均值，将其作为２０ｓ数据的特征参数，以减少干扰。选取的特征分别对应于Ｃ３／Ｃ４导联的 θ 波（４～８Ｈｚ）和Ｏ１／Ｏ２导联的 α 波（８～１３Ｈｚ）的脑电能量占空比和左、右眼电信号的频域能量和（２～１０Ｈｚ），即特征向量ｘ＝｛Ｄθ，Ｄα ，ＳＬＯＣ，ＳＲＯＣ｝。特征参数计算公式如表１。表１脑电信号和眼电信号中提取的特征参数Ｔａｂｌｅ１ＦｅａｔｕｒｅｓｅｘｔｒａｃｔｅｄｆｒｏｍＥＥＧａｎｄＥＯＧｓｉｇｎａｌｓ信号意义特征参数ＥＥＧ能量占空比／％Ｄθ ＝ｍａｘ｛Ｓθ（Ｃ３）ＳＴ（Ｃ３） × １００％，Ｓθ（Ｃ４）ＳＴ（Ｃ４） × １００％｝Ｄα ＝ｍａｘ｛Ｓα（Ｏ１）ＳＴ（Ｏ１） × １００％，Ｓα（Ｏ２）ＳＴ（Ｏ２） × １００％｝ＥＯＧ频域能量和／ μＶ２ＳＬＯＣ（ＬＯＣ），ＳＲＯＣ（ＲＯＣ）表１中 θ （４～８Ｈｚ），α （８～１３Ｈｚ），Ｔ（０．５～２５Ｈｚ）；ＬＯＣ，ＲＯＣ（２～１０Ｈｚ）。２．３模式分类２．３．１参数优化和模型选择首先，对数据集做归一化处理，随机选取７０％的数据作为训练数据，３０％的数据作为测试数据进行分析。然后，针对每一个类别，通过概率积分变换计算训练数据中４个特征的经验累积分布，并用ｋｅｎｄａｌｌ秩相关系数表示两两特征之间的相关性。相关性如下所示：Ｃｔａｕ１＝１－０．４１３７－０．２７５３－０．２８９５－０．４１３７１０．２２８８０．２４７０－０．２７５３０．２２８８１０．８０１８－０．２８９５０．２４７００．８０１８１ é ë ê ê ê ê ê ù û ú ú ú ú ú Ｃｔａｕ２＝１－０．５３９９－０．１７４５－０．１８７５－０．５３９９１０．２５４１０．１９８３－０．１７４５０．２５４１１０．７２８６－０．１８７５０．１９８３０．７２８６１ é ë ê ê ê ê ê ù û ú ú ú ú ú （１１）从以上２个矩阵可知，每一个类别的特征之间存在正、负相关性，有些特征间的相关性比较微弱，这主要是由于不同的受试者对２个状态存在一定的差异性。随后，对Ｃｏｐｕｌａ密度函数的参数 θ 进行极大似然估计，并用随机数的性质重新校准参数 θ。最后，采用ＢＩＣ选取最合适的Ｃｏｐｕｌａ密度函数，并与核密度估计相结合，构建类条件概率密度函数，ＢＩＣ选取的模型如表２所示。表２基于ＢＩＣ选取的２个类别的Ｃｏｐｕｌａ密度函数Ｔａｂｌｅ２ＣｏｐｕｌａｄｅｎｓｉｔｙｆｕｎｃｔｉｏｎｓｆｏｒｔｗｏｃａｔｅｇｏｒｉｅｓｂａｓｅｄｏｎＢＩＣＣｏｐｕｌａ密度函数觉醒状态（Ａ）困倦状态（Ｄ）ＧａｕｓｓｉａｎＣｏｐｕｌａ－４５１．６３－４７７．２５Ｓｔｕｄｅｎｔ⁃ｔＣｏｐｕｌａ－４５９．４６－４７１．８３ＢＩＣ值较小的Ｃｏｐｕｌａ函数会被选择，所以针对ａｌｅｒｔｎｅｓｓ类别选取的是Ｓｔｕｄｅｎｔ⁃ｔＣｏｐｕｌａ函数，而ｄｒｏｗｓｉｎｅｓｓ类别选取的是ＧａｕｓｓｉａｎＣｏｐｕｌａ函数。２．３．２模式分类和模型比较将改进的ＢＣＤＣ算法与ＧＤＣ、ＧＮＢＣ和ＬＲ对测试数据进行分析和比较。ＲＯＣ曲线被用来表现分类器的性能，它通过将连续变量设定出多个不同的阈值来揭示真阳率（ｔｒｕｅｐｏｓｉｔｉｖｅｒａｔｅ，ＴＰＲ）和假阳率（ｆａｌｓｅｐｏｓｉｔｉｖｅｒａｔｅ，ＦＰＲ）的相互关系。其横轴表示真阳率，纵轴表示假阳率，曲线下面积越大，分类器分类的能力越强。图１呈现出４个分类器在测试数据上的ＲＯＣ曲线，其中连接点（０，０）和（１，１）的直线表示随机猜测。相比其他３个方法，ＢＣＤＣ算法的曲线处于左上角，所以该方法表现出较好的分类能力。图１ＧＤＣ、ＧＮＢＣ、ＢＣＤＣ、ＬＲ的ＲＯＣ曲线Ｆｉｇ．１ＲＯＣｃｕｒｖｅｓｏｂｔａｉｎｅｄｂｙＧＤＣ，ＧＮＢＣ，ＢＣＤＣ，ＬＲ，ｒｅｓｐｅｃｔｉｖｅｌｙ第１期钱冬，等：结合Ｃｏｐｕｌａ理论与贝叶斯决策理论的分类算法 ·８１·

·82 智能系统学报第11卷为了进一步定量地检验4个分类器识别的准确分析数据可得：当训练数据较少时(10%)，4个性，通过分类精度和AUC两个性能指标对分类器进方法表现出几乎相同的平均精度，BCDC并没有产行评价。考虑到训练数据和测试数据是随机选取生显著的识别精度。当训练数据增加(30%)，提出的，数据中存在的个体差异性可能会影响分类器的的方法的分类表现很快超越了其他3个分类器。当性能评估，所以将随机实验循环50次，得到分类器数据量大于30%，BCDC表现出更高的分类表现。的平均分类精度和平均AUC,如表3所示。表3GDC、GNBC、BCDC、LR的平均精度、平均AUC值总而言之，当30%、50%、70%和90%作为训练数据和相应的标准差时，相比较GDC、GNBC、LR,改进的BCDC的分类能 Table 3 Average Accuracy,Average AUC and corre- 力更强。由图2表明，增加训练数据个数能够提供 sponding standard deviation obtained by GDC, 更多的某种特定类别的信息，从而更加准确地判断 GNBC,BCDC and LR,respectively 类别。分类器平均精度（标准差）平均AUC(标准差) 作为一种监督式学习方法，BCDC算法通过参 GDC 0.8559(0.0257) 0.9408(0.0129) 数优化和模型选择提高了类条件概率密度函数估计 GNBC 0.8588(0.0258) 0.9253(0.0169) 的准确性。虽然训练时间大约是10s,但是在不同 LR 0.8382(0.0239) 0.9120(0.0173) 数据量的条件下，BCDC算法呈现出更好的平均分 BCDC 0.9026(0.0179) 0.9634(0.0103) 从表3可知，本文提出的BCDC算法在两个分类精度和平均AUC。类指标上呈现出更好的分类表现。就平均精度而 3结束语言，BCDC识别的精度高于其他3个分类器大约5% 左右，同时标准差也小于其他3个分类器。而对于本文提出了基于贝叶斯决策理论和Copula理 AUC,尽管GDC相对接近于BCDC,但BCDC的论的分类算法。该算法在实际运用过程中，参数 AUC值大于其他3个方法，且标准差也较小，呈现 Copula模型和核密度估计相结合提升类条件概率密出更强的稳定性。度函数估计的准确性。相比较其他传统的贝叶斯决为了了解不同分类器在不同数量的数据集上的策模型，Bayesian-Copula判别分类器能够在实际的分类能力，从数据中分别随机选取10%、30%、50%、生物电信号分类识别问题中得到较好的分类效果。 70%和90%的数据作为训练数据，用剩余的测试数 Copula模型的优势主要是不需要对边缘分布的据评估4个分类方法，结果如图2所示。形式进行假设，在模型中，我们仅仅计算每个特征的 1.0 1.0 经验累积分布，用不同的Copula函数建立特征间的依赖结构。该模型简单、易懂，在对未知数据建立模 0.9 09888 型时，具有更多的灵活性。对于许多实际问题，概率米 888 冠模型中独立同分布的假设通常是不成立的。所以，通过Copula理论能够提高对联合分布估计的准腰0.8 确性。 0.7 日一GDC 0.7 参考文献： 7一GNBC 米一BCDC [1]TIPPING M E.Sparse Bayesian learning and the relevance LR 0. 0.6L vector machine[J].Journal of machine learning research, 0103050709011001030507090110 2001,1(3):211-244. 训练数据训练数据 [2XUE Jinghao,HALL P.Why does rebalancing class-unbal- (a)平均精度 (b)平均AUC anced data improve AUC for linear discriminant analysis? 图2GDC、GNBC、BCDC、LR在不同训练数据个数下 [J].IEEE transactions on pattern analysis and machine in- 的平均精度和平均AUC telligence,2015,37(5):1109-1112. Fig.2 Average accuracy and average AUC obtained by [3]FERNANDEZ-DELGADO M,CERNADAS E,BARRO S, GDC,GNBC,BCDC,and LR based on the dif- et al.Do we need hundreds of classifiers to solve real world ferent subsets of the training data classification problems?[]].Journal of machine learning research,2014,15(1):3133-3181

为了进一步定量地检验４个分类器识别的准确性，通过分类精度和ＡＵＣ两个性能指标对分类器进行评价。考虑到训练数据和测试数据是随机选取的，数据中存在的个体差异性可能会影响分类器的性能评估，所以将随机实验循环５０次，得到分类器的平均分类精度和平均ＡＵＣ，如表３所示。表３ＧＤＣ、ＧＮＢＣ、ＢＣＤＣ、ＬＲ的平均精度、平均ＡＵＣ值和相应的标准差Ｔａｂｌｅ３ＡｖｅｒａｇｅＡｃｃｕｒａｃｙ，ＡｖｅｒａｇｅＡＵＣａｎｄｃｏｒｒｅ⁃ ｓｐｏｎｄｉｎｇｓｔａｎｄａｒｄｄｅｖｉａｔｉｏｎｏｂｔａｉｎｅｄｂｙＧＤＣ，ＧＮＢＣ，ＢＣＤＣａｎｄＬＲ，ｒｅｓｐｅｃｔｉｖｅｌｙ分类器平均精度（标准差）平均ＡＵＣ（标准差）ＧＤＣ０．８５５９（０．０２５７）０．９４０８（０．０１２９）ＧＮＢＣ０．８５８８（０．０２５８）０．９２５３（０．０１６９）ＬＲ０．８３８２（０．０２３９）０．９１２０（０．０１７３）ＢＣＤＣ０．９０２６（０．０１７９）０．９６３４（０．０１０３）从表３可知，本文提出的ＢＣＤＣ算法在两个分类指标上呈现出更好的分类表现。就平均精度而言，ＢＣＤＣ识别的精度高于其他３个分类器大约５％左右，同时标准差也小于其他３个分类器。而对于ＡＵＣ，尽管ＧＤＣ相对接近于ＢＣＤＣ，但ＢＣＤＣ的ＡＵＣ值大于其他３个方法，且标准差也较小，呈现出更强的稳定性。为了了解不同分类器在不同数量的数据集上的分类能力，从数据中分别随机选取１０％、３０％、５０％、７０％和９０％的数据作为训练数据，用剩余的测试数据评估４个分类方法，结果如图２所示。（ａ）平均精度（ｂ）平均ＡＵＣ图２ＧＤＣ、ＧＮＢＣ、ＢＣＤＣ、ＬＲ在不同训练数据个数下的平均精度和平均ＡＵＣＦｉｇ．２ＡｖｅｒａｇｅａｃｃｕｒａｃｙａｎｄａｖｅｒａｇｅＡＵＣｏｂｔａｉｎｅｄｂｙＧＤＣ，ＧＮＢＣ，ＢＣＤＣ，ａｎｄＬＲｂａｓｅｄｏｎｔｈｅｄｉｆ⁃ ｆｅｒｅｎｔｓｕｂｓｅｔｓｏｆｔｈｅｔｒａｉｎｉｎｇｄａｔａ分析数据可得：当训练数据较少时（１０％），４个方法表现出几乎相同的平均精度，ＢＣＤＣ并没有产生显著的识别精度。当训练数据增加（３０％），提出的方法的分类表现很快超越了其他３个分类器。当数据量大于３０％，ＢＣＤＣ表现出更高的分类表现。总而言之，当３０％、５０％、７０％和９０％作为训练数据时，相比较ＧＤＣ、ＧＮＢＣ、ＬＲ，改进的ＢＣＤＣ的分类能力更强。由图２表明，增加训练数据个数能够提供更多的某种特定类别的信息，从而更加准确地判断类别。作为一种监督式学习方法，ＢＣＤＣ算法通过参数优化和模型选择提高了类条件概率密度函数估计的准确性。虽然训练时间大约是１０ｓ，但是在不同数据量的条件下，ＢＣＤＣ算法呈现出更好的平均分类精度和平均ＡＵＣ。３结束语本文提出了基于贝叶斯决策理论和Ｃｏｐｕｌａ理论的分类算法。该算法在实际运用过程中，参数Ｃｏｐｕｌａ模型和核密度估计相结合提升类条件概率密度函数估计的准确性。相比较其他传统的贝叶斯决策模型，Ｂａｙｅｓｉａｎ⁃Ｃｏｐｕｌａ判别分类器能够在实际的生物电信号分类识别问题中得到较好的分类效果。Ｃｏｐｕｌａ模型的优势主要是不需要对边缘分布的形式进行假设，在模型中，我们仅仅计算每个特征的经验累积分布，用不同的Ｃｏｐｕｌａ函数建立特征间的依赖结构。该模型简单、易懂，在对未知数据建立模型时，具有更多的灵活性。对于许多实际问题，概率模型中独立同分布的假设通常是不成立的。所以，通过Ｃｏｐｕｌａ理论能够提高对联合分布估计的准确性。参考文献：［１］ＴＩＰＰＩＮＧＭＥ．ＳｐａｒｓｅＢａｙｅｓｉａｎｌｅａｒｎｉｎｇａｎｄｔｈｅｒｅｌｅｖａｎｃｅｖｅｃｔｏｒｍａｃｈｉｎｅ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００１，１（３）：２１１⁃２４４．［２］ＸＵＥＪｉｎｇｈａｏ，ＨＡＬＬＰ．Ｗｈｙｄｏｅｓｒｅｂａｌａｎｃｉｎｇｃｌａｓｓ⁃ｕｎｂａｌ⁃ ａｎｃｅｄｄａｔａｉｍｐｒｏｖｅＡＵＣｆｏｒｌｉｎｅａｒｄｉｓｃｒｉｍｉｎａｎｔａｎａｌｙｓｉｓ？［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎ⁃ ｔｅｌｌｉｇｅｎｃｅ，２０１５，３７（５）：１１０９⁃１１１２．［３］ＦＥＲＮÁＮＤＥＺ⁃ＤＥＬＧＡＤＯＭ，ＣＥＲＮＡＤＡＳＥ，ＢＡＲＲＯＳ，ｅｔａｌ．Ｄｏｗｅｎｅｅｄｈｕｎｄｒｅｄｓｏｆｃｌａｓｓｉｆｉｅｒｓｔｏｓｏｌｖｅｒｅａｌｗｏｒｌｄｃｌａｓｓｉｆｉｃａｔｉｏｎｐｒｏｂｌｅｍｓ？［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１４，１５（１）：３１３３⁃３１８１． ·８２· 智能系统学报第１１卷

第1期钱冬，等：结合Copula理论与贝叶斯决策理论的分类算法 ·83 [4]RODRIGUEZ A,LAlo A.Clustering by fast search and find [18]PATTON A J.A review of Copula models for economic of density peaks[].Science,2014,344(6191):1492- time series[J].Journal of multivariate analysis,2012, 1496. 110:4-18. [5]李宏伟，刘扬，卢汉清，等.结合半监督核的高斯过程 [19]AUBASI A.Classification of EMG signals using PSO opti- 分类[J].自动化学报，2009,35(7)：888-895 mized SVM for diagnosis of neuromuscular disorders[J]. LI Hongwei,LIU Yang,LU Hanqing,et al.Gaussian Computers in biology and medicine,2013,43(5):576- processes classification combined with semi-supervised ker- 586. nels[J].Acta automatica sinica,2009,35(7):888-895. [20]TAGLUK M E,SEZGIN N,AKIN M.Estimation of sleep [6]BLEI D M,NG A Y,JORDAN M I.Latent dirichlet alloca- stages by an artificial neural network employing EEG, tion[J.Journal of machine learning research,2001,3(4- EMG and EOG[J].Journal of medical systems,2010,34 5):993-1022. (4):717-725. [7]BISHOP C M.Pattern Recognition and Machine Learning [21]CICHOCKI A,MANDIC D.DE LATHAUWER L,et al. [M].New York:Springer,2006:21-31. Tensor decompositions for signal processing applications: [8]NG A Y,JORDAN M I.On discriminative vs.generative from two-way to multiway component analysis[J].IEEE classifiers:a comparison of logistic regression and naive signal processing,2015,32(2):145-163. Bayes[C]//Advances in Neural Information Processing Sys- [22]KHUSHABA R N,KODAGODA S,LAL S,et al.Driver tems.Vancouver,British Columbia,Canada,2002,14: drowsiness classification using fuzzy wavelet-packet-based 841-848. feature-extraction algorithm[J.IEEE transactions on bio- [9]李航.统计学习方法[M].北京：清华大学出版社， medical engineering,2011,58(1):121-131. 2012:77-91 作者简介： [10]JAIN A K,DUIN R P W,MAO Jianchang.Statistical pat- 钱冬，男，1990年生，硕士研究生 tern recognition:a review[].IEEE transactions on pat- 主要研究方向为机器学习、生物电 tern analysis and machine intelligence,2000,22(1):4- 信号。 37. [11]DUDA R O,HART P E,STORK D G.Pattern Classifica- tion[M].2nd ed.New York:Wiley,2001:20-45. [12]MURPHY K P.Machine Learning:A Probabilistic Per- spective[M].England:MIT,2012:82-87. 王蓓，女，1976年生，副研究员，主 [13]NELSEN R B.An Introduction to Copulas M].2nd ed. 要研究方向为智能信息处理和模式分 Springer:Berlin,2006. 类、复杂系统及其在人工生命科学中的 [14]GENEST C,FAVRE A C.Everything you always wanted to 应用。曾参与国家自然科学基金、上海 know about Copula modeling but were afraid to ask[J]. 市科委科技创新行动计划等项目。发 Journal of hydrologie engineering.2007,12(4):347-368. 表学术论文50余篇，被SCI、EI检索30 [15]EBAN E,ROTHSCHILD G,MIZRAHI A,et al.Dynamic 余篇。 Copula networks for modeling real-valued time series [C]//Proceedings of the 16th International Conference on 张涛.男，1969年生，教授，博士生 Artificial Intelligence and Statistics.Scottsdale,AZ,USA, 导师，主要研究方向为控制理论及应 2013.4:247-255. 用、信号处理、机器人控制等。主持或 [16]KRISTAN M,LEONARDIS A,SKOC AJ D.Multivariate 参与国家973项目、国家863项目、国 online kernel density estimation with Gaussian kernels[]]. 家自然科学基金项目多项。曾获得教 Pattern recognition,.2011,44(10-11):2630-2642. 育部自然科学奖、军队科技进步奖、中 [17]CHERUBINI U,LUCIANO E,VECCHIATO W.Copula 国电子信息科学技术奖等。发表论文200余篇，其中被$CI Methods in Finance[M].England:John Wiley Sons, 检索40余篇，EI检索120余篇。 2004

［４］ＲＯＤＲＩＧＵＥＺＡ，ＬＡＩｏＡ．Ｃｌｕｓｔｅｒｉｎｇｂｙｆａｓｔｓｅａｒｃｈａｎｄｆｉｎｄｏｆｄｅｎｓｉｔｙｐｅａｋｓ［Ｊ］．Ｓｃｉｅｎｃｅ，２０１４，３４４（６１９１）：１４９２⁃ １４９６．［５］李宏伟，刘扬，卢汉清，等．结合半监督核的高斯过程分类［Ｊ］．自动化学报，２００９，３５（７）：８８８⁃８９５．ＬＩＨｏｎｇｗｅｉ，ＬＩＵＹａｎｇ，ＬＵＨａｎｑｉｎｇ，ｅｔａｌ．Ｇａｕｓｓｉａｎｐｒｏｃｅｓｓｅｓｃｌａｓｓｉｆｉｃａｔｉｏｎｃｏｍｂｉｎｅｄｗｉｔｈｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｋｅｒ⁃ ｎｅｌｓ［Ｊ］．Ａｃｔａａｕｔｏｍａｔｉｃａｓｉｎｉｃａ，２００９，３５（７）：８８８⁃８９５．［６］ＢＬＥＩＤＭ，ＮＧＡＹ，ＪＯＲＤＡＮＭＩ．Ｌａｔｅｎｔｄｉｒｉｃｈｌｅｔａｌｌｏｃａ⁃ ｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００１，３（４⁃ ５）：９９３⁃１０２２．［７］ＢＩＳＨＯＰＣＭ．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２００６：２１⁃３１．［８］ＮＧＡＹ，ＪＯＲＤＡＮＭＩ．Ｏｎｄｉｓｃｒｉｍｉｎａｔｉｖｅｖｓ．ｇｅｎｅｒａｔｉｖｅｃｌａｓｓｉｆｉｅｒｓ：ａｃｏｍｐａｒｉｓｏｎｏｆｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎａｎｄｎａïｖｅＢａｙｅｓ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓ⁃ ｔｅｍｓ．Ｖａｎｃｏｕｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００２，１４：８４１⁃８４８．［９］李航．统计学习方法［Ｍ］．北京：清华大学出版社，２０１２：７７⁃９１．［１０］ＪＡＩＮＡＫ，ＤＵＩＮＲＰＷ，ＭＡＯＪｉａｎｃｈａｎｇ．Ｓｔａｔｉｓｔｉｃａｌｐａｔ⁃ ｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ：ａｒｅｖｉｅｗ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔ⁃ ｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０００，２２（１）：４⁃ ３７．［１１］ＤＵＤＡＲＯ，ＨＡＲＴＰＥ，ＳＴＯＲＫＤＧ．ＰａｔｔｅｒｎＣｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎ［Ｍ］．２ｎｄｅｄ．ＮｅｗＹｏｒｋ：Ｗｉｌｅｙ，２００１：２０⁃４５．［１２］ＭＵＲＰＨＹＫＰ．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：ＡＰｒｏｂａｂｉｌｉｓｔｉｃＰｅｒ⁃ ｓｐｅｃｔｉｖｅ［Ｍ］．Ｅｎｇｌａｎｄ：ＭＩＴ，２０１２：８２⁃８７．［１３］ＮＥＬＳＥＮＲＢ．ＡｎＩｎｔｒｏｄｕｃｔｉｏｎｔｏＣｏｐｕｌａｓ［Ｍ］．２ｎｄｅｄ．Ｓｐｒｉｎｇｅｒ：Ｂｅｒｌｉｎ，２００６．［１４］ＧＥＮＥＳＴＣ，ＦＡＶＲＥＡＣ．ＥｖｅｒｙｔｈｉｎｇｙｏｕａｌｗａｙｓｗａｎｔｅｄｔｏｋｎｏｗａｂｏｕｔＣｏｐｕｌａｍｏｄｅｌｉｎｇｂｕｔｗｅｒｅａｆｒａｉｄｔｏａｓｋ［Ｊ］．Ｊｏｕｒｎａｌｏｆｈｙｄｒｏｌｏｇｉｃｅｎｇｉｎｅｅｒｉｎｇ，２００７，１２（４）：３４７⁃３６８．［１５］ＥＢＡＮＥ，ＲＯＴＨＳＣＨＩＬＤＧ，ＭＩＺＲＡＨＩＡ，ｅｔａｌ．ＤｙｎａｍｉｃＣｏｐｕｌａｎｅｔｗｏｒｋｓｆｏｒｍｏｄｅｌｉｎｇｒｅａｌ⁃ｖａｌｕｅｄｔｉｍｅｓｅｒｉｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ．Ｓｃｏｔｔｓｄａｌｅ，ＡＺ，ＵＳＡ，２０１３，４：２４７⁃２５５．［１６］ＫＲＩＳＴＡＮＭ，ＬＥＯＮＡＲＤＩＳＡ，ＳＫＯＣＡＪＤ．ＭｕｌｔｉｖａｒｉａｔｅｏｎｌｉｎｅｋｅｒｎｅｌｄｅｎｓｉｔｙｅｓｔｉｍａｔｉｏｎｗｉｔｈＧａｕｓｓｉａｎｋｅｒｎｅｌｓ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２０１１，４４（１０⁃１１）：２６３０⁃２６４２．［１７］ＣＨＥＲＵＢＩＮＩＵ，ＬＵＣＩＡＮＯＥ，ＶＥＣＣＨＩＡＴＯＷ．ＣｏｐｕｌａＭｅｔｈｏｄｓｉｎＦｉｎａｎｃｅ［Ｍ］．Ｅｎｇｌａｎｄ：ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，２００４．［１８］ＰＡＴＴＯＮＡＪ．ＡｒｅｖｉｅｗｏｆＣｏｐｕｌａｍｏｄｅｌｓｆｏｒｅｃｏｎｏｍｉｃｔｉｍｅｓｅｒｉｅｓ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍｕｌｔｉｖａｒｉａｔｅａｎａｌｙｓｉｓ，２０１２，１１０：４⁃１８．［１９］ＡＵＢＡＳＩＡ．ＣｌａｓｓｉｆｉｃａｔｉｏｎｏｆＥＭＧｓｉｇｎａｌｓｕｓｉｎｇＰＳＯｏｐｔｉ⁃ ｍｉｚｅｄＳＶＭｆｏｒｄｉａｇｎｏｓｉｓｏｆｎｅｕｒｏｍｕｓｃｕｌａｒｄｉｓｏｒｄｅｒｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｉｎｂｉｏｌｏｇｙａｎｄｍｅｄｉｃｉｎｅ，２０１３，４３（５）：５７６⁃ ５８６．［２０］ＴＡＧＬＵＫＭＥ，ＳＥＺＧＩＮＮ，ＡＫＩＮＭ．ＥｓｔｉｍａｔｉｏｎｏｆｓｌｅｅｐｓｔａｇｅｓｂｙａｎａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋｅｍｐｌｏｙｉｎｇＥＥＧ，ＥＭＧａｎｄＥＯＧ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍｅｄｉｃａｌｓｙｓｔｅｍｓ，２０１０，３４（４）：７１７⁃７２５．［２１］ＣＩＣＨＯＣＫＩＡ，ＭＡＮＤＩＣＤ，ＤＥＬＡＴＨＡＵＷＥＲＬ，ｅｔａｌ．Ｔｅｎｓｏｒｄｅｃｏｍｐｏｓｉｔｉｏｎｓｆｏｒｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇａｐｐｌｉｃａｔｉｏｎｓ：ｆｒｏｍｔｗｏ⁃ｗａｙｔｏｍｕｌｔｉｗａｙｃｏｍｐｏｎｅｎｔａｎａｌｙｓｉｓ［Ｊ］．ＩＥＥＥｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，２０１５，３２（２）：１４５⁃１６３．［２２］ＫＨＵＳＨＡＢＡＲＮ，ＫＯＤＡＧＯＤＡＳ，ＬＡＬＳ，ｅｔａｌ．Ｄｒｉｖｅｒｄｒｏｗｓｉｎｅｓｓｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｆｕｚｚｙｗａｖｅｌｅｔ⁃ｐａｃｋｅｔ⁃ｂａｓｅｄｆｅａｔｕｒｅ⁃ｅｘｔｒａｃｔｉｏｎａｌｇｏｒｉｔｈｍ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｂｉｏ⁃ ｍｅｄｉｃａｌｅｎｇｉｎｅｅｒｉｎｇ，２０１１，５８（１）：１２１⁃１３１．作者简介：钱冬，男，１９９０年生，硕士研究生，主要研究方向为机器学习、生物电信号。王蓓，女，１９７６年生，副研究员，主要研究方向为智能信息处理和模式分类、复杂系统及其在人工生命科学中的应用。曾参与国家自然科学基金、上海市科委科技创新行动计划等项目。发表学术论文５０余篇，被ＳＣＩ、ＥＩ检索３０余篇。张涛，男，１９６９年生，教授，博士生导师，主要研究方向为控制理论及应用、信号处理、机器人控制等。主持或参与国家９７３项目、国家８６３项目、国家自然科学基金项目多项。曾获得教育部自然科学奖、军队科技进步奖、中国电子信息科学技术奖等。发表论文２００余篇，其中被ＳＣＩ检索４０余篇，ＥＩ检索１２０余篇。第１期钱冬，等：结合Ｃｏｐｕｌａ理论与贝叶斯决策理论的分类算法 ·８３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录