时间序列相似性度量形态匹配所占比重越大；反之，则形态匹配的比重就越小。

正在加载图片...

第2期李海林，等：分段聚合近似和数值导数的动态时间弯曲方法 .253. 时间序列相似性度量形态匹配所占比重越大：反之 S.A.R.S.、S.A.R.SⅡ、S.C.分别表示Diatom Size Reduction、ECG Five 则形态匹配的比重就越小。图4也说明了时间序列 Days、Italy Power Demand、Medical Images、Mote Strain,Sony AIBO Ro-- bot Surface,Sony AlBO Robot Surface II,Synthetic Control. 数据集在大部分情况下更倾向于形态匹配而不是具表2实验分类错误率体数值上的比较。 Table 2 Classification error ratesof the experiments Datasets DTW DDTW PADD(avg) PADD(min) Beef 50.00 30.00 32.33 23.33(2) CBF 0.33 27.11 1.14 0.00(7) Coffee 17.86 14.29 2.86 0.00(3,5,10) D.S.Z. 3.27 6.21 5.49 3.27(5.10) 6 10 ECG200 23.00 19.00 12.90 9.00(2) 图4不同w下的最优参数0 E.F.D. 23.23 35.08 26.82 17.65(1) Fig.4 The best parameter for different w Face Four 17.05 29.55 20.91 15.91(5,6,7) 本次实验使用Keogh教授提供的数据集[0] fish 16.57 10.29 12.41 10.86(6) 并随机抽取20个数据集进行分类实验。如表1所 Gun-Point 9.33 1.33 5.40 2.67(5,7) 示，包含了各个数据集的基本详细信息，包括数据集 I.P.D. 4.96 8.75 6.81 4.28(6,8) 名称、类别个数、训练集个数、测试集个数、时间序列 Lighting7 27.40 41.09 28.63 23.29(1) 长度。表2包含了DTW、DDTW、PADD的平均错误 M.I. 26.32 32.24 29.89 26.45(5) 率，并且给出了PADD的最小错误率，其中括号表 M.S. 16.53 28.04 16.53 12.70(8) 示能够取得PADD的最小分类错误率的w,例如当 Olive Oil 13.33 16.67 14.00 13.33(2-9) CBF数据被降维到原始序列长度的70%时，可以取 OSU Leaf 40.91 7.02 27.89 19.42(2,5) 得最小错误率0。 S.A.R.S. 27.45 25.46 28.40 20.13(9) 表1时间序列数据集信息 S.A.R.SΠ 16.98 16.37 21.49 16.26(9) Table 1 Information of time series dataset Symbols 5.03 2.51 4.31 3.62(2,3) Datasets NO.C S.tr S.Tst length 5 S.C. 0.67 56.33 6.33 0.67(10) Beef 30 30 470 CBF 4 30 900 128 Trace 0.00 1.00 2.90 0.00(5,10) Coffee 2 28 28 286 MEAN 17.01 20.42 15.37 11.14 D.S.Z. 4 16 306 345 SD 13.42 14.74 10.78 8.89 ECG200 2 100 100 96 从实验结果来看，PADD的平均分类效果与 E.F.D. 2 23 861 136 Face Four 4 24 88 350 DTW和DDTW相比有着较大的优势，并且从最小分 Fish 7 175 175 463 类错误率的均值及标准差上来看也取得了不错的效 Gun Point 2 150 150 果，进而验证了PADD在时间序列数据挖掘中距离 I.P.D. 2 67 1029 24 度量的有效性。实验结果反映了时间序列分段聚合 Lighting7 7 70 13 319 后的特征序列长度大多数为原始序列长度的50%~ M.I. 10 381 760 99 100%,即0大多数取值为5~10时，PADD将会取到 M.S. 2 20 1252 84 比较好的效果。这也说明在进行序列转换过程中， Olive Oil 4 30 30 570 将时间序列的整体信息以及具体细节尽量完整保存 OSU Leaf 6 200 242 427 下来会取得更好的效果。 S.A.R.S. 2 20 601 70 S.A.R.SΠ 2 27 为了更为清楚地剖析分类结果在不同参数下的 953 65 Symbols 情况，给出了Sony AIBO Robot Surface和ECG这两 6 3 995 398 S.C. 6 300 300 60 个数据集的分类情况，如图5所示。从图5中可以 Trace 23 1139 82 看出，分类错误率呈高低波动状态。对于某些数据注：表头NO.C、S.Tr,S.Tst、Length分别表示类别个数、训练集个数集如Sony AIB0 Robot Surface来说，在不同w情况测试集个数、序列长度。数据集名D.S.Z.、EFD.、LP.D.、ML.、M.S.、下并非所有的PADD错误率都是最小的，但是在最时间序列相似性度量形态匹配所占比重越大；反之，则形态匹配的比重就越小。图４也说明了时间序列数据集在大部分情况下更倾向于形态匹配而不是具体数值上的比较。图４不同ｗ下的最优参数 θ Ｆｉｇ．４Ｔｈｅｂｅｓｔｐａｒａｍｅｔｅｒ θ ｆｏｒｄｉｆｆｅｒｅｎｔｗ本次实验使用Ｋｅｏｇｈ教授提供的数据集［２０］，并随机抽取２０个数据集进行分类实验。如表１所示，包含了各个数据集的基本详细信息，包括数据集名称、类别个数、训练集个数、测试集个数、时间序列长度。表２包含了ＤＴＷ、ＤＤＴＷ、ＰＡＤＤ的平均错误率，并且给出了ＰＡＤＤ的最小错误率，其中括号表示能够取得ＰＡＤＤ的最小分类错误率的ｗ，例如当ＣＢＦ数据被降维到原始序列长度的７０％时，可以取得最小错误率０。表１时间序列数据集信息Ｔａｂｌｅ１ＩｎｆｏｒｍａｔｉｏｎｏｆｔｉｍｅｓｅｒｉｅｓｄａｔａｓｅｔＤａｔａｓｅｔｓＮＯ．ＣＳ．ｔｒＳ．ＴｓｔｌｅｎｇｔｈＢｅｅｆ５３０３０４７０ＣＢＦ４３０９００１２８Ｃｏｆｆｅｅ２２８２８２８６Ｄ．Ｓ．Ｚ．４１６３０６３４５ＥＣＧ２００２１００１００９６Ｅ．Ｆ．Ｄ．２２３８６１１３６ＦａｃｅＦｏｕｒ４２４８８３５０Ｆｉｓｈ７１７５１７５４６３ＧｕｎＰｏｉｎｔ２５０１５０１５０Ｉ．Ｐ．Ｄ．２６７１０２９２４Ｌｉｇｈｔｉｎｇ７７７０７３３１９Ｍ．Ｉ．１０３８１７６０９９Ｍ．Ｓ．２２０１２５２８４ＯｌｉｖｅＯｉｌ４３０３０５７０ＯＳＵＬｅａｆ６２００２４２４２７Ｓ．Ａ．Ｒ．Ｓ．２２０６０１７０Ｓ．Ａ．Ｒ．ＳＩＩ２２７９５３６５Ｓｙｍｂｏｌｓ６２５９９５３９８Ｓ．Ｃ．６３００３００６０Ｔｒａｃｅ４２３１１３９８２注：表头ＮＯ．Ｃ、Ｓ．Ｔｒ、Ｓ．Ｔｓｔ、Ｌｅｎｇｔｈ分别表示类别个数、训练集个数、测试集个数、序列长度。数据集名Ｄ．Ｓ．Ｚ．、Ｅ．Ｆ．Ｄ．、Ｉ．Ｐ．Ｄ．、Ｍ．Ｉ．、Ｍ．Ｓ．、Ｓ．Ａ．Ｒ．Ｓ．、Ｓ．Ａ．Ｒ．ＳＩＩ、Ｓ．Ｃ．分别表示ＤｉａｔｏｍＳｉｚｅＲｅｄｕｃｔｉｏｎ、ＥＣＧＦｉｖｅＤａｙｓ、ＩｔａｌｙＰｏｗｅｒＤｅｍａｎｄ、ＭｅｄｉｃａｌＩｍａｇｅｓ、ＭｏｔｅＳｔｒａｉｎ、ＳｏｎｙＡＩＢＯＲｏ⁃ ｂｏｔＳｕｒｆａｃｅ、ＳｏｎｙＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅＩＩ、ＳｙｎｔｈｅｔｉｃＣｏｎｔｒｏｌ．表２实验分类错误率Ｔａｂｌｅ２Ｃｌａｓｓｉｆｉｃａｔｉｏｎｅｒｒｏｒｒａｔｅｓｏｆｔｈｅｅｘｐｅｒｉｍｅｎｔｓ％ＤａｔａｓｅｔｓＤＴＷＤＤＴＷＰＡＤＤ（ａｖｇ）ＰＡＤＤ（ｍｉｎ）Ｂｅｅｆ５０．００３０．００３２．３３２３．３３（２）ＣＢＦ０．３３２７．１１１．１４０．００（７）Ｃｏｆｆｅｅ１７．８６１４．２９２．８６０．００（３，５，１０）Ｄ．Ｓ．Ｚ．３．２７６．２１５．４９３．２７（５，１０）ＥＣＧ２００２３．００１９．００１２．９０９．００（２）Ｅ．Ｆ．Ｄ．２３．２３３５．０８２６．８２１７．６５（１）ＦａｃｅＦｏｕｒ１７．０５２９．５５２０．９１１５．９１（５，６，７）ｆｉｓｈ１６．５７１０．２９１２．４１１０．８６（６）Ｇｕｎ⁃Ｐｏｉｎｔ９．３３１．３３５．４０２．６７（５，７）Ｉ．Ｐ．Ｄ．４．９６８．７５６．８１４．２８（６，８）Ｌｉｇｈｔｉｎｇ７２７．４０４１．０９２８．６３２３．２９（１）Ｍ．Ｉ．２６．３２３２．２４２９．８９２６．４５（５）Ｍ．Ｓ．１６．５３２８．０４１６．５３１２．７０（８）ＯｌｉｖｅＯｉｌ１３．３３１６．６７１４．００１３．３３（２～９）ＯＳＵＬｅａｆ４０．９１７．０２２７．８９１９．４２（２，５）Ｓ．Ａ．Ｒ．Ｓ．２７．４５２５．４６２８．４０２０．１３（９）Ｓ．Ａ．Ｒ．ＳＩＩ１６．９８１６．３７２１．４９１６．２６（９）Ｓｙｍｂｏｌｓ５．０３２．５１４．３１３．６２（２，３）Ｓ．Ｃ．０．６７５６．３３６．３３０．６７（１０）Ｔｒａｃｅ０．００１．００２．９００．００（５，１０）ＭＥＡＮ１７．０１２０．４２１５．３７１１．１４ＳＤ１３．４２１４．７４１０．７８８．８９从实验结果来看，ＰＡＤＤ的平均分类效果与ＤＴＷ和ＤＤＴＷ相比有着较大的优势，并且从最小分类错误率的均值及标准差上来看也取得了不错的效果，进而验证了ＰＡＤＤ在时间序列数据挖掘中距离度量的有效性。实验结果反映了时间序列分段聚合后的特征序列长度大多数为原始序列长度的５０％～１００％，即ｗ大多数取值为５～１０时，ＰＡＤＤ将会取到比较好的效果。这也说明在进行序列转换过程中，将时间序列的整体信息以及具体细节尽量完整保存下来会取得更好的效果。为了更为清楚地剖析分类结果在不同参数下的情况，给出了ＳｏｎｙＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅ和ＥＣＧ这两个数据集的分类情况，如图５所示。从图５中可以看出，分类错误率呈高低波动状态。对于某些数据集如ＳｏｎｙＡＩＢＯＲｏｂｏｔＳｕｒｆａｃｅ来说，在不同ｗ情况下并非所有的ＰＡＤＤ错误率都是最小的，但是在最第２期李海林，等：分段聚合近似和数值导数的动态时间弯曲方法 ·２５３·

<<向上翻页向下翻页>>

点击下载：【人工智能基础】分段聚合近似和数值导数的动态时间弯曲方法编辑部