正在加载图片...
·40· 智能系统学报 第13卷 式中R叫作因素f,五,…,f之间的背景关系,也叫作 p(x)的支撑集R叫作因素元之间的背景集。亦即 因素F的背景集。背景集是实际存在的笛卡尔乘 R=n{B∈BJsP(x)dr=1} (6) 积集。 13 因素数据库与背景基 显然有,F是从H(U,F)到R的同构映射。 数据工作者熟知信息系统和形式背景理论,它 定义5多用于定性因素,其中的a是指性状颗 们为数据建立了表格,为非数值信息找到了初步的 粒。但定义5也可用于连续情形,此时α细化为一 符号表示。因素空间理论正是它们的提升,为信息 个实数点。 系统建立坐标框架,把一张形式系统表可视化地变 背景关系是因素空间的核心概念,下面会看到 为因素性状空间的一组样本点,背景关系就成为它 它既可以决定概念的自动生成,又可决定概念之间 们的母体。背景关系是因素空间的形骸,塑造这个 的一切推理,由它可以建立知识描述的确定性理论 形骸的工具就是背景基。 框架。但现实中的背景关系多带有不确定性。原因 将按因素空间思想组织起来的数据叫作因素数 有二:1)性状粒度往往过大,说一个人的性状容易, 据库,主要的库表知叫作因素表,具表头=(x1,x2,…,x% 说一群人的性状就不确定了,存在着抽样的随机 若把对象u去掉,以s=(1,2,…,x)为表头,则表中 性;2)定性因素相的划分不明确,例如年龄这个因 的每一行就是因素空间中的一个点,由于与对象割 素,究竞怎样划分青年、中年和老年?存在着模糊 断了联系,这个点就不再反映个人的隐私。 性。为此,要引入背景分布和模糊背景关系的概 定义8周记S={s:=(x,x2,…,x)i=1,2, 念,为了节省篇幅,本文只介绍背景分布。 m},叫作相样本或隐私样本。 设论域U=(U,A,p)是一个概率场,中=(U,X.) 因素库中首先考虑样本怎样表现背景关系。很 是定义在U上的一个因素空间。又设X=(X,B)是总 明显的事实是,当样本逼近母体时,相样本就变成 性状空间X上的一个可测结构。若所有F中的元 背景关系。 f都是从U到X的可测映射,即对任B∈B,都有 设S是相样本,始终有SSR;所有同表头相样本 f(B)={u∈Uf()∈B}∈A,则不难证明,所有因素 的并就是背景关系: F∈P(F),包括F,都是从U到X的可测映射。 R=USS是相样本 (7) 定义6设论域U=(U,A,p)是一个概率场, 只要表头相同,对相样本不断地求并,就可以 中=(U,X)是定义在U上的一个因素空间,X=XB) 是总性状空间上的一个可测结构。若所有F中的元 单调递增地逼近目标。同表头的相样本求并就是行 的叠加。这个过程是可以并行处理的。因素库的目 f都是可测映射,记p=pr为p经过F在X上所诱导 出来的概率,亦即对任意B∈B,都有p(B)=p(F-I(B), 标是要将数据培育成背景关系,形成认知包以产生 那么p叫作因素F的背景分布。 知识。要使这一思想得以实现,关键在于信息压缩。 背景分布是背景关系的随机化。随机化后的因 定义9若每个元性状空间Xf)都是有序集, 素都可视为广义的随机变量,特别对定性因素而 且背景关系R是X中的凸集,记R的所有顶点所成的 言,因素可以叫作随机词。为了方便,我们常将因 集为B=B(R)={PP是R的顶点},叫作背景基。将 素的记号改为随机变量的记号,甚至约定:F中的元 R换作样本S,记B的所有顶点所成的集为B(⑤)= 因素的替代符号是x(i=1,2,…,m:F={x,,,x, PP是S的顶点},叫作样本背景基。 X(x)=X:。 背景基可以生成背景关系,它是背景关系的无 为了简便,我们以后讲可测因素空间就是指定 信息损失的压缩,对因素库的实际应用具有重要的 义6中所说的带有可测结构的因素空间而且所有元 意义。无论数据多大,样本背景基的数量始终保持 都是从U到x的随机变量。 在低维度上。在网上吞吐数据时,每输人一个新的 背景分布p是背景关系R的随机化。对定性因 数据,都要判断它是否是样本背景基的内点,若是, 素而言,不难证明,背景关系R就是背景分布的支 则删除此数据,否则将它纳入样本背景基,此时,要 撑,亦即 逐一检验原有的基点,它若在新基点中变成内点, R={a∈Xp(a>O} (5) 则淘汰删除之。 由此,可以将背景分布的概念推广到定量因素 给定整值样本S,怎样判定谁是它的内点?记 的情形。 O是S的中心(不一定是整值点),对于任意一点P,从 定义7对定量因素而言,背景分布密度函数 P到O引一条射线PO。f1, f2,··· , fn F ∗ 式中 R 叫作因素 之间的背景关系,也叫作 因素 的背景集。背景集是实际存在的笛卡尔乘 积集。 F ∗ H (U,F ∗ 显然有, 是从 ) 到 R 的同构映射。 定义 5 多用于定性因素,其中的 a 是指性状颗 粒。但定义 5 也可用于连续情形,此时 a 细化为一 个实数点。 背景关系是因素空间的核心概念,下面会看到 它既可以决定概念的自动生成,又可决定概念之间 的一切推理,由它可以建立知识描述的确定性理论 框架。但现实中的背景关系多带有不确定性。原因 有二:1) 性状粒度往往过大,说一个人的性状容易, 说一群人的性状就不确定了,存在着抽样的随机 性;2) 定性因素相的划分不明确,例如年龄这个因 素,究竟怎样划分青年、中年和老年?存在着模糊 性。为此,要引入背景分布和模糊背景关系的概 念,为了节省篇幅,本文只介绍背景分布。 U = (U, A, p) ϕ = (U,XF∗) U X = (X,B) X F ∗ fj B ∈ B fj −1 (B) = { u ∈ U| fj(u) ∈ B } ∈ A F ∈ P(F ∗ ) F ∗ 设论域 是一个概率场, 是定义在 上的一个因素空间。又设 是总 性状空间 上的一个可测结构。若所有 中的元 都是从 U 到 X 的可测映射,即对任 ,都有 ,则不难证明,所有因素 ,包括 ,都是从 U 到 X 的可测映射。 U = (U, A, p) ϕ = (U,XF∗ ) U X = (X,B) F ∗ fj p = pF∗ p F ∗ X B ∈ B p(B) = p ( F ∗−1 (B) ) p F ∗ 定义 6 设论域 是一个概率场, 是定义在 上的一个因素空间, 是总性状空间上的一个可测结构。若所有 中的元 都是可测映射,记 为 经过 在 上所诱导 出来的概率,亦即对任意 ,都有 , 那么 叫作因素 的背景分布。 F ∗ xi(i=1,2,···,n) F ∗ ={x1, x2,···, xn} X (xi) = Xi 背景分布是背景关系的随机化。随机化后的因 素都可视为广义的随机变量,特别对定性因素而 言,因素可以叫作随机词。为了方便,我们常将因 素的记号改为随机变量的记号,甚至约定: 中的元 因素的替代符号是 : , 。 U X 为了简便,我们以后讲可测因素空间就是指定 义 6 中所说的带有可测结构的因素空间而且所有元 都是从 到 的随机变量。 p R R 背景分布 是背景关系 的随机化。对定性因 素而言,不难证明,背景关系 就是背景分布的支 撑,亦即 R = {a ∈ X|p(a) > 0} (5) 由此,可以将背景分布的概念推广到定量因素 的情形。 定义 7 对定量因素而言,背景分布密度函数 p(x) 的支撑集 R 叫作因素元之间的背景集。亦即 R = ∩ { B ∈ B ∫ BP(x)dx = 1 } (6) 1.3 因素数据库与背景基 数据工作者熟知信息系统和形式背景理论,它 们为数据建立了表格,为非数值信息找到了初步的 符号表示。因素空间理论正是它们的提升,为信息 系统建立坐标框架,把一张形式系统表可视化地变 为因素性状空间的一组样本点,背景关系就成为它 们的母体。背景关系是因素空间的形骸,塑造这个 形骸的工具就是背景基。 t = (u; x1, x2,··· , xk) u s = (x1, x2,··· , xk) 将按因素空间思想组织起来的数据叫作因素数 据库,主要的库表叫作因素表,具表头 。 若把对象 去掉,以 为表头,则表中 的每一行就是因素空间中的一个点,由于与对象割 断了联系,这个点就不再反映个人的隐私。 S = {si = (x1i , x2i ,···, xki 定义 8 ; yi)|i = 1,2,···, [4] 记 m},叫作相样本或隐私样本。 因素库中首先考虑样本怎样表现背景关系。很 明显的事实是,当样本逼近母体时,相样本就变成 背景关系。 设 S 是相样本,始终有 S ⊆ R ;所有同表头相样本 的并就是背景关系: R = ∪ { S |S是相样本} (7) 只要表头相同,对相样本不断地求并,就可以 单调递增地逼近目标。同表头的相样本求并就是行 的叠加。这个过程是可以并行处理的。因素库的目 标是要将数据培育成背景关系,形成认知包以产生 知识。要使这一思想得以实现,关键在于信息压缩。 X ( fj ) R X R B = B(R) = { P|P是R的顶点} R S B B(S ) = { P|P是S的顶点} 定义 9 [4] 若每个元性状空间 都是有序集, 且背景关系 是 中的凸集,记 的所有顶点所成的 集为 ,叫作背景基。将 换作样本 ,记 的所有顶点所成的集为 ,叫作样本背景基。 背景基可以生成背景关系,它是背景关系的无 信息损失的压缩,对因素库的实际应用具有重要的 意义。无论数据多大,样本背景基的数量始终保持 在低维度上。在网上吞吐数据时,每输入一个新的 数据,都要判断它是否是样本背景基的内点,若是, 则删除此数据,否则将它纳入样本背景基,此时,要 逐一检验原有的基点,它若在新基点中变成内点, 则淘汰删除之。 S O S P P O PO 给定整值样本 ,怎样判定谁是它的内点?记 是 的中心 (不一定是整值点),对于任意一点 ,从 到 引一条射线 。 ·40· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有