《地理信息系统》课程教学资源（教材讲义）第五章 GIS中的数据.doc_大学文库

0(0),1(1),2(10),3(11),4(100),5(101),6(110),7(111),8(1000,9(1001) 阿拉伯数字及其二级制表示第五章GIS中的数据导读:对空间数据的处理是GiS的核心功能,GS中的数据通常描述三部分信息空间信息(位置,空间关系等等),非空间的属性信息,时间信息。数据按照其测量尺度,可以分为定名、定比、间隔、比率量四种类型。由于各方面的原因,GIS数据存在着质量问题,了解数据质量有利于数据的正确使用,避免出现“ Garbage In, Garbage Out”的情形。数据质量可以通过元数据进行描述,简单的说,元数据是对数据的描述,在GS应用不断发展、空间数据不断增长的情况下,元数据有助于数据的共享和有效使用。本章讲述了上述的内容。数据涵义与数据类型 1.1数据的涵义 1.1.1数据数据是用以载荷信息的载体。它可以是记录下来的某种可以识别的物理符号,数据的具体形式多种多样,如文本、图像、声音等都可以归入数据的范畴。虽然数据是信息的载体但并非就是信息,只有理解了数据的含义、对数据做出解释,才能得到数据中所包含的信息。在计算机化的信息系统中,数据的格式往往与具体的计算机系统有关,随着载荷它的物理设备的形式而改变。信息系统对数据进行处理(运算、排序、编码、分类、增强等)就是为了得到数据中所包含的信息在地理信息系统中,由系统建立者输入、机器存储的各种专题地图和统计图表是数据; 系统软件中所包含的代码是计算机系统中的二进制数据:用户对地理信息系统发出的各种指令也是数据,等等。因此,地理信息系统的建立和运行,就是信息或数据按一定的方式流动的过程。数据的处理和解释是非常重要的环节。所谓数据处理,是指对数据进行收集、筛选、排序、归并、转换、检索、计算以及分析、模拟和预测的操作,其目的就是把数据转换成便于

0(0),1(1),2(10),3(11),4(100),5(101),6(110),7(111),8(1000),9(1001)… 阿拉伯数字及其二级制表示第五章 GIS 中的数据导读：对空间数据的处理是 GIS 的核心功能，GIS 中的数据通常描述三部分信息：空间信息（位置，空间关系等等），非空间的属性信息，时间信息。数据按照其测量尺度，可以分为定名、定比、间隔、比率量四种类型。由于各方面的原因，GIS 数据存在着质量问题，了解数据质量有利于数据的正确使用，避免出现“Garbage In, Garbage Out”的情形。数据质量可以通过元数据进行描述，简单的说，元数据是对数据的描述，在 GIS 应用不断发展、空间数据不断增长的情况下，元数据有助于数据的共享和有效使用。本章讲述了上述的内容。 1．数据涵义与数据类型 1．1 数据的涵义 1．1．1 数据数据是用以载荷信息的载体。它可以是记录下来的某种可以识别的物理符号，数据的具体形式多种多样，如文本、图像、声音等都可以归入数据的范畴。虽然数据是信息的载体，但并非就是信息，只有理解了数据的含义、对数据做出解释，才能得到数据中所包含的信息。在计算机化的信息系统中，数据的格式往往与具体的计算机系统有关，随着载荷它的物理设备的形式而改变。信息系统对数据进行处理（运算、排序、编码、分类、增强等）就是为了得到数据中所包含的信息。在地理信息系统中，由系统建立者输入、机器存储的各种专题地图和统计图表是数据；系统软件中所包含的代码是计算机系统中的二进制数据；用户对地理信息系统发出的各种指令也是数据，等等。因此，地理信息系统的建立和运行，就是信息或数据按一定的方式流动的过程。数据的处理和解释是非常重要的环节。所谓数据处理，是指对数据进行收集、筛选、排序、归并、转换、检索、计算以及分析、模拟和预测的操作，其目的就是把数据转换成便于

2.1命名( Nominal)量定性而非定量,不能进行任何算术运算,如一个城市的名字。命名式的测量尺度也称为类型测量尺度,只对特定现象进行标识,赋予一定的数值或符号而不定量描述。例如,可以用不同数值表示不同的土地利用类型、植被类型或岩石类型,但是这些数值之间无数量关系, 对命名数据的逻辑运算只有“等于”或“不等于”两种形式,而其近似均值只能使用众数 2.2次序( Ordinal)量线性坐标上不按值的大小,而是按顺序排列的数,例如,事故发生危险程度的级别由大到小被标为1,2,3,…,级别的序号越低,其危险性越大,但危险性到底有多大并未给予定量的表达。序数值相互之间可以比较大小,但不能进行加、减、乘、除等算术运算。次序测量尺度是基于对现象进行排序来标识的,如可以把山峰按高度分级为极高山、高山、中山、低山和丘陵等,将坡度分为陡、中、缓等。不同次序之间的间隔大小可以不同。对次序数据的逻辑运算除了“等于”与“不等于”之外,还可以比较它们的大小,即“大于” 或“小于”。 2.3间隔( Interva)量不参照某个固定点,而是按间隔表示相对位置的数。按间隔量测的值相互之间可以比较大小,并且它们之间的差值大小是有意义的。间隔测量尺度与比例测量尺度相似,但是间隔尺度的测量值无真的零值。例如,温度是间隔尺度的数据而不是比例数据,因为它的“0”测量值随着所使用的不同温度测量单位而不同。不能说150F的温度是75F的温度的两倍,因为这个比例在使用摄氏单位时就改变了。相反,降水量是比例数据,因为它有真的零值。比例数据和间隔数据可用于加、减、乘、除等运算,而且可以求算术平均 2.4比率( Ratio)量比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据,比例测量尺度与使用的测量单位无关。与某一固定点的比值计算,支持多种算术操作,如加、减、乘、除等。有关该类型属性域的例子很多,如年降雨量、海拔高度、人口密度、发病率等比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转化成次序、间隔数据或比例数据。由此可见,尽管命名数据或次序数据便于使用,易于理解, 但有时不够精确,不能用于较髙级的算术运算。而比例数据或间隔数据比较精确,便于计算机处理,但是在较复杂的GIS应用中,往往上述几种测量尺度的数据均需用到。与比率量不同,间隔量中的零值往往是人为规定的,如摄氏温标中零摄氏度,时间中的零点等等

2．1 命名（Nominal）量定性而非定量，不能进行任何算术运算，如一个城市的名字。命名式的测量尺度也称为类型测量尺度，只对特定现象进行标识，赋予一定的数值或符号而不定量描述。例如，可以用不同数值表示不同的土地利用类型、植被类型或岩石类型，但是这些数值之间无数量关系，对命名数据的逻辑运算只有“等于”或“不等于”两种形式，而其近似均值只能使用众数。 2．2 次序（Ordinal）量线性坐标上不按值的大小，而是按顺序排列的数，例如，事故发生危险程度的级别由大到小被标为 1，2，3，…，级别的序号越低，其危险性越大，但危险性到底有多大并未给予定量的表达。序数值相互之间可以比较大小，但不能进行加、减、乘、除等算术运算。次序测量尺度是基于对现象进行排序来标识的，如可以把山峰按高度分级为极高山、高山、中山、低山和丘陵等，将坡度分为陡、中、缓等。不同次序之间的间隔大小可以不同。对次序数据的逻辑运算除了“等于”与“不等于”之外，还可以比较它们的大小，即“大于” 或“小于”。 2．3 间隔（Interval）量不参照某个固定点，而是按间隔表示相对位置的数。按间隔量测的值相互之间可以比较大小，并且它们之间的差值大小是有意义的。间隔测量尺度与比例测量尺度相似，但是间隔尺度的测量值无真的零值。例如，温度是间隔尺度的数据而不是比例数据，因为它的“0”测量值随着所使用的不同温度测量单位而不同。不能说 150F 的温度是 75F 的温度的两倍，因为这个比例在使用摄氏单位时就改变了。相反，降水量是比例数据，因为它有真的零值*。比例数据和间隔数据可用于加、减、乘、除等运算，而且可以求算术平均。 2．4 比率（Ratio）量比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据，比例测量尺度与使用的测量单位无关。与某一固定点的比值计算，支持多种算术操作，如加、减、乘、除等。有关该类型属性域的例子很多，如年降雨量、海拔高度、人口密度、发病率等。比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转化成次序、间隔数据或比例数据。由此可见，尽管命名数据或次序数据便于使用，易于理解，但有时不够精确，不能用于较高级的算术运算。而比例数据或间隔数据比较精确，便于计算机处理，但是在较复杂的 GIS 应用中，往往上述几种测量尺度的数据均需用到。 * 与比率量不同，间隔量中的零值往往是人为规定的，如摄氏温标中零摄氏度，时间中的零点等等

3.1.3空间分辨率( Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离 3.1.4比例尺( Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那么就不可能表示小于5m的现象 3.1.5误差( Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多边形的位置的误差;属性误差;位置和属性误差之间的关系。 3.1.6不确定性( Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地面上真实物体位置上的差别:属性不确定性是指某一物体在GlS中被描述的属性与其真实的属性之差别:时域不确定性是指在描述地理现象时,时间描述上的差错:逻辑上的不一致性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给定的目标,GIS没有尽可能完全地表达该物体。 3.2空间数据质量问题的来源从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用, 在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个方面来阐述空间数据质量问题的来源 3.2.1空间现象自身存在的不稳定性空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳

3．1．3 空间分辨率(Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化的最小距离。在一张用肉眼可读的地图上，假设一条线用来记录一个边界，分辨率通常由最小线的宽度来确定。地图上的线很少以小于 0.1mm 的宽度来画。在一个图形扫描仪中最细的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一英寸的 300 分之一，而且在高质量的激光扫描仪上，这会细化十倍。如果没有放大，最细的激光扫描仪的线是看不到的，尽管这依赖于背景颜色的对照。因此，在人的视觉分辨率和设备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间，即当人操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。 3．1．4 比例尺（Scale）比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如，在一个 1：10000 比例尺的地图上，一条 0.5mm 宽度的线对应着 5m 的地面距离。如果这是线的最小的宽度，那么就不可能表示小于 5m 的现象。 3．1．5 误差（Error）定义出一个所记录的测量和它的事实之间的准确性以后，很明显对于大多数目的而言，它的数值是不准确的。误差研究包括：位置误差，即点的位置的误差、线的位置的误差和多边形的位置的误差；属性误差；位置和属性误差之间的关系。 3．1．6 不确定性（Uncertainty）地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻辑上的不一致性及数据的不完整性。空间位置的不确定性指 GIS 中某一被描述物体与其地面上真实物体位置上的差别；属性不确定性是指某一物体在 GIS 中被描述的属性与其真实的属性之差别；时域不确定性是指在描述地理现象时，时间描述上的差错；逻辑上的不一致性指数据结构内部的不一致性，尤其是指拓扑逻辑上的不一致性；数据的不完整性指对于给定的目标，GIS 没有尽可能完全地表达该物体。 3．2 空间数据质量问题的来源从空间数据的形式表达到空间数据的生成，从空间数据的处理变换到空间数据的应用，在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性，从几个方面来阐述空间数据质量问题的来源。 3．2．1 空间现象自身存在的不稳定性空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳

定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化:空间现象在时间上的不确定性表现为其在发生时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。 3.2.2空间现象的表达数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差:用于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都有用户要求的一定设计精度,因而数据误差的产生不可避免 3.2.3空间数据处理中的误差在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下,地理特征的位置、面积和方向的表现会有差异。地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征的位置具有差异性数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的误差,如知识性误差和数据所表达的空间特征位置的变化误差。建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移,导致误差。数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值的差异。数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其中位置误差、属性误差都会出现数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位置、注记等进行调整,由此产生数据表达上的误差数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的, 前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生 3.2.4空间数据使用中的误差在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导

定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确定性指其在空间位置分布上的不确定性变化；空间现象在时间上的不确定性表现为其在发生时间段上的游移性；空间现象在属性上的不确定性表现为属性类型划分的多样性，非数值型属性值表达的不精确性。因此，空间数据存在质量问题是不可避免的。 3．2．2 空间现象的表达数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响，这对于数据的生成会出现误差。如在地图投影中，由椭球体到平面的投影转换必然产生误差；用于获取各种原始数据的各种测量仪器都有一定的设计精度，如 GPS 提供的地理位置数据都有用户要求的一定设计精度，因而数据误差的产生不可避免。 3．2．3 空间数据处理中的误差在空间数据处理过程中，容易产生的误差有以下几种：投影变换：地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形式下，地理特征的位置、面积和方向的表现会有差异。地图数字化和扫描后的矢量化处理：数字化过程采点的位置精度、空间分辨率、属性赋值等都可能出现误差。数据格式转换：在矢量格式和栅格格式之间的数据格式转换中，数据所表达的空间特征的位置具有差异性。数据抽象：在数据发生比例尺变换时，对数据进行的聚类、归并、合并等操作时产生的误差，如知识性误差和数据所表达的空间特征位置的变化误差。建立拓扑关系：拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。与主控数据层的匹配：一个数据库中，常存储同一地区的多层数据面，为保证各数据层之间空间位置的协调性，一般建立一个主控数据层以控制其它数据层的边界和控制点。在与主控数据层匹配的过程中也会存在空间位移，导致误差。数据叠加操作和更新：数据在进行叠加运算以及数据更新时，会产生空间位置和属性值的差异。数据集成处理：指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程，其中位置误差、属性误差都会出现。数据的可视化表达：数据在可视化表达过程中为适应视觉效果，需对数据的空间特征位置、注记等进行调整，由此产生数据表达上的误差。数据处理过程中误差的传递和扩散：在数据处理的各个过程中，误差是累计和扩散的，前一过程的累计误差可能成为下一个阶段的误差起源，从而导致新的误差的产生。 3．2．4 空间数据使用中的误差在空间数据使用的过程中也会导致误差的出现，主要包括两个方面：一是对数据的解释过程，二是缺少文档。对于同一种空间数据来说，不同用户对它的内容的解释和理解可能不同，处理这类问题的方法是随空间数据提供各种相关的文档说明，如元数据。另外，缺少对某一地区不同来源的空间数据的说明，如缺少投影类型、数据定义等描述信息，这样往往导