正在加载图片...
142940.000.005880.006861.960.003.92686 98013.7309858829410.7809810.78980 152.911942911940.005831940.001949.715838.74 943883888.742.9l16510.68 171.920961924811923851920.960966.7348186510582886.732889626.73865769 l8l710851.71085085256i6240857108516.245.136845983.4211.ll1715.l3I.13.42 9094 189094090.9418909410.387555669438498497555.666.6011.326.60094 200860860.001.720860.8617240862.5917215.527.765.173.454319.485.175179485.17 其中b1=a+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 b6=gcg+gg b7=tat+ttt b8=tct+tet b9 =aac+caa+atc+cta tg bll=aat+taa+att+tta b12=acc+ccatagc+cga b13=acg+gac+ctg+gte b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc bI7=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc 综合起来,形成了有41个变量的基本特征集 2.特征的提取 上述基本特征集中有41个变量,即样本处于一个高维空间中.特征的提取就是通过 变换的方法用低维空间来表示样本,使得X的大部分特性能由Y来表达,即将P维随机 向量X变换成q维随机向量Y(qp).我们用主成分分析法进行特征的提取,其步骤是: (1)求X的均方差矩阵V的特征根,记为: 1≥12=…≥>02+1=…=p=0 (2)求,12k对应的标准正交的特征向量n,n,…,k 得到第i个主成分为y=Xi=1,2,”;k (3)求第个主成分的贡献率=M λ,=l,2…k及前m个主成分的累计贡 献率m=∑li (4)求得q,使得V≥Vo(V一般在0.85到1之间),则取 W=(r,r2,“,rq Y=XW 第3步所求的贡献率,代表主成分表达X的能力,贡献率越大,对应的主成分表达X的 能力越强.只要前q个主成分的累计贡献率超过给定的百分比V就可以用低维特征 (yy2,…y)来反映高维特征(xx2…x)的变化特性 现将反映20个已知类别样本的41个特征的随机向量X进行特征提取 计算得前4个主成分的累计贡就率为96%,故提取特征为4个变量,取 H=(r1,r2r,r则F=XW,Y的4个分量就是从基本特征集提取所得的特征参数向量.程 序及结果见附录二)14 2.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.9 4 10.78 0.98 1 0.78 9.80 15 2.91 1.94 2.91 1.94 0.00 5.83 1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.68 16 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.5 2 4.76 5.71 2.86 7.62 7.62 17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7 .69 18 1.71 0.85 1.71 0.85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3.42 19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.55 5.66 6.60 11.32 6.60 0 .94 20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3 .45 4.31 9.48 5.17 5.17 9.48 5.17 其中 b1 =aaa+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta b11=aat+taa+att+tta b12=acc+cca+agc+cga b13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc b19=gat+tag+gtt+ttg b20=gct+tcg+ggt+tgg 综合起来,形成了有 41 个变量的基本特征集. 2. 特征的提取 上述基本特征集中有 41 个变量,即样本处于一个高维空间中.特征的提取就是通过 变换的方法用低维空间来表示样本,使得 X 的大部分特性能由 Y 来表达,即将 p 维随机 向量 X 变换成 q 维随机向量 Y(q<p).我们用主成分分析法进行特征的提取,其步骤是: (1)求 X 的均方差矩阵 V 的特征根,记为: λ1≥λ2≥…≥λk>0 λk+1=…=λP=0 (2)求 λ1, λ2…λK对应的标准正交的特征向量 r1,r2,…,rk 得到第 i 个主成分为 yi=riX, i=1,2,…,k. (3)求第 i 个主成分的贡献率 ui=λi / = k i 1 λj , i=1,2,…,k, 及前 m 个主成分的累计贡 献率 vm== m i 1 ui . (4)求得 q,使得 Vq≥V0(V0 一般在 0.85 到 1 之间),则取 W=(r1,r2,…,rq) Y=XW 第 3 步所求的贡献率,代表主成分表达 X 的能力,贡献率越大,对应的主成分表达 X 的 能力越强.只要前 q 个主成分的累计贡献率超过给定的百分比 V.就可以用低维特征 Y= (y1,y2, …,yq)来反映高维特征(x1,x2,…,xp)的变化特性. 现将反映 20 个已知类别样本的 41 个特征的随机向量 X 进行特征提取. 计算得前 4 个主成分的累计贡献率为 96%,故提取特征为 4 个变量,取 W=(r1,r2,r3,r4),则 Y=XW,Y 的 4 个分量就是从基本特征集提取所得的特征参数向量.(程 序及结果见附录二)
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有