0(0),1(1),2(10),3(11),4(100),5(101),6(110),7(111),8(1000,9(1001) 阿拉伯数字及其二级制表示 第五章GIS中的数据 导读:对空间数据的处理是GiS的核心功能,GS中的数据通常描述三部分信息 空间信息(位置,空间关系等等),非空间的属性信息,时间信息。数据按照其测量 尺度,可以分为定名、定比、间隔、比率量四种类型。由于各方面的原因,GIS数 据存在着质量问题,了解数据质量有利于数据的正确使用,避免出现“ Garbage In, Garbage Out”的情形。数据质量可以通过元数据进行描述,简单的说,元数据是对 数据的描述,在GS应用不断发展、空间数据不断增长的情况下,元数据有助于数 据的共享和有效使用。 本章讲述了上述的内容。 数据涵义与数据类型 1.1数据的涵义 1.1.1数据 数据是用以载荷信息的载体。它可以是记录下来的某种可以识别的物理符号,数据的具 体形式多种多样,如文本、图像、声音等都可以归入数据的范畴。虽然数据是信息的载体 但并非就是信息,只有理解了数据的含义、对数据做出解释,才能得到数据中所包含的信息。 在计算机化的信息系统中,数据的格式往往与具体的计算机系统有关,随着载荷它的物理设 备的形式而改变。信息系统对数据进行处理(运算、排序、编码、分类、增强等)就是为了 得到数据中所包含的信息 在地理信息系统中,由系统建立者输入、机器存储的各种专题地图和统计图表是数据; 系统软件中所包含的代码是计算机系统中的二进制数据:用户对地理信息系统发出的各种指 令也是数据,等等。因此,地理信息系统的建立和运行,就是信息或数据按一定的方式流动 的过程。 数据的处理和解释是非常重要的环节。所谓数据处理,是指对数据进行收集、筛选、排 序、归并、转换、检索、计算以及分析、模拟和预测的操作,其目的就是把数据转换成便于
0(0),1(1),2(10),3(11),4(100),5(101),6(110),7(111),8(1000),9(1001)… 阿拉伯数字及其二级制表示 第五章 GIS 中的数据 导读:对空间数据的处理是 GIS 的核心功能,GIS 中的数据通常描述三部分信息: 空间信息(位置,空间关系等等),非空间的属性信息,时间信息。数据按照其测量 尺度,可以分为定名、定比、间隔、比率量四种类型。由于各方面的原因,GIS 数 据存在着质量问题,了解数据质量有利于数据的正确使用,避免出现“Garbage In, Garbage Out”的情形。数据质量可以通过元数据进行描述,简单的说,元数据是对 数据的描述,在 GIS 应用不断发展、空间数据不断增长的情况下,元数据有助于数 据的共享和有效使用。 本章讲述了上述的内容。 1.数据涵义与数据类型 1.1 数据的涵义 1.1.1 数据 数据是用以载荷信息的载体。它可以是记录下来的某种可以识别的物理符号,数据的具 体形式多种多样,如文本、图像、声音等都可以归入数据的范畴。虽然数据是信息的载体, 但并非就是信息,只有理解了数据的含义、对数据做出解释,才能得到数据中所包含的信息。 在计算机化的信息系统中,数据的格式往往与具体的计算机系统有关,随着载荷它的物理设 备的形式而改变。信息系统对数据进行处理(运算、排序、编码、分类、增强等)就是为了 得到数据中所包含的信息。 在地理信息系统中,由系统建立者输入、机器存储的各种专题地图和统计图表是数据; 系统软件中所包含的代码是计算机系统中的二进制数据;用户对地理信息系统发出的各种指 令也是数据,等等。因此,地理信息系统的建立和运行,就是信息或数据按一定的方式流动 的过程。 数据的处理和解释是非常重要的环节。所谓数据处理,是指对数据进行收集、筛选、排 序、归并、转换、检索、计算以及分析、模拟和预测的操作,其目的就是把数据转换成便于
观察、分析、传输或进一步处理的形式;把数据加工成对正确管理和决策有用的数据:把数 据编辑后存储起来,以供不断使用。数据处理是为了解释,而数据解释需要人的智慧、学识 和经验。 1.1.2地理数据(空间数据)的基本特征 地理数据一般具有三个基本特征:属性特征(非定位数据),表示实际现象或特征,例 如变量、级别、数量特征和名称等等。空间特征(定位数据):表示现象的空间位置或现在 所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示,例如笛卡尔 坐标等。时间特征(时间尺度):指现象或物体随时间的变化,其变化的周期有超短期的、 短期的、中期的、长期的等等(图5-1)。 地理数据 定位数据 非定位数据 笛卡几坐标系 拓扑关系 R圃國 图5-1:空间数据的基本特性 Jack dangermond,1984] 1.2空间数据的类型 在地理信息系统中,按照其特征,数据可分为三种类型:空间特征数据(定位数据) 时间属性数据(尺度数据)和专题属性数据(非定位数据)。对于绝大部分地理信息系统的 应用来说,时间和专题属性数据结合在一起共同作为属性特征数据,而空间特征数据和属性 特征数据统称为空间数据(或地理数据) 1.2.1空间特征数据 空间特征数据记录的是空间实体的位置、拓扑关系和几何特征,这是地理信息系统区别 于其他数据库管理系统的标志。空间特征指空间物体的位置、形状和大小等几何特征,以及 与相邻物体的拓扑关系。位置和拓扑特征是地理或空间信息系统所独有的,空间位置可以由
观察、分析、传输或进一步处理的形式;把数据加工成对正确管理和决策有用的数据;把数 据编辑后存储起来,以供不断使用。数据处理是为了解释,而数据解释需要人的智慧、学识 和经验。 1.1.2 地理数据(空间数据)的基本特征 地理数据一般具有三个基本特征:属性特征(非定位数据),表示实际现象或特征,例 如变量、级别、数量特征和名称等等。空间特征(定位数据):表示现象的空间位置或现在 所处的地理位置。空间特征又称为几何特征或定位特征,一般以坐标数据表示,例如笛卡尔 坐标等。时间特征(时间尺度):指现象或物体随时间的变化,其变化的周期有超短期的、 短期的、中期的、长期的等等(图 5-1)。 图 5-1:空间数据的基本特性[Jack Dangermond,1984] 1.2 空间数据的类型 在地理信息系统中,按照其特征,数据可分为三种类型:空间特征数据(定位数据)、 时间属性数据(尺度数据)和专题属性数据(非定位数据)。对于绝大部分地理信息系统的 应用来说,时间和专题属性数据结合在一起共同作为属性特征数据,而空间特征数据和属性 特征数据统称为空间数据(或地理数据)。 1.2.1 空间特征数据 空间特征数据记录的是空间实体的位置、拓扑关系和几何特征,这是地理信息系统区别 于其他数据库管理系统的标志。空间特征指空间物体的位置、形状和大小等几何特征,以及 与相邻物体的拓扑关系。位置和拓扑特征是地理或空间信息系统所独有的,空间位置可以由
不同的坐标系统来描述,如经纬度坐标、一些标准的地图投影坐标或是任意的直角坐标等。 人类对空间目标的定位一般不是通过记忆其空间坐标,而是确定某一目标与其他更熟悉的目 标间的空间位置关系,而这种关系往往也是拓扑关系。如一所学校位于哪个路口或哪条街道。 1.2.2专题特征数据 专题特征指的是地理实体所具有的各种性质,如地形的坡度、坡向、某地的年降雨量、 土地酸缄类型、人口密度、交通流量、空气污染程度等。这类特征在其他类型的信息系统中 均可存储和处理。专题属性特征通常以数字、符号、文本和图像等形式来表示。 1.2.3时间特征数据 时间属性是指地理实体的时间变化或数据采集的时间等。严格地讲,空间数据总是在某 一特定时间或时段内采集得到或计算产生的。由于有些空间数据随时间变化相对较慢,因而 有时被忽略:有些时候,时间可以被看成一个专题特征 1.3空间数据的表示方法 般地,表示地理现象的空间数据可以细分为 类型数据:例如考古地点、道路线和土壤类型的分布等; 面域数据:例如随机多边形的中心点、行政区域界线和行政单元等; 网络数据:例如道路交点、街道和街区等 样本数据:例如气象站、航线和野外样方的分布区等 曲面数据:例如高程点、等高线和等值区域 文本数据:例如地名、河流名称和区域名称 符号数据:例如点状符号、线状符号和面状符号(晕线)等(如图52所示)
不同的坐标系统来描述,如经纬度坐标、一些标准的地图投影坐标或是任意的直角坐标等。 人类对空间目标的定位一般不是通过记忆其空间坐标,而是确定某一目标与其他更熟悉的目 标间的空间位置关系,而这种关系往往也是拓扑关系。如一所学校位于哪个路口或哪条街道。 1.2.2 专题特征数据 专题特征指的是地理实体所具有的各种性质,如地形的坡度、坡向、某地的年降雨量、 土地酸缄类型、人口密度、交通流量、空气污染程度等。这类特征在其他类型的信息系统中 均可存储和处理。专题属性特征通常以数字、符号、文本和图像等形式来表示。 1.2.3 时间特征数据 时间属性是指地理实体的时间变化或数据采集的时间等。严格地讲,空间数据总是在某 一特定时间或时段内采集得到或计算产生的。由于有些空间数据随时间变化相对较慢,因而 有时被忽略;有些时候,时间可以被看成一个专题特征。 1.3 空间数据的表示方法 一般地,表示地理现象的空间数据可以细分为: 类型数据:例如考古地点、道路线和土壤类型的分布等; 面域数据:例如随机多边形的中心点、行政区域界线和行政单元等; 网络数据:例如道路交点、街道和街区等; 样本数据:例如气象站、航线和野外样方的分布区等; 曲面数据:例如高程点、等高线和等值区域; 文本数据:例如地名、河流名称和区域名称; 符号数据:例如点状符号、线状符号和面状符号(晕线)等(如图 5-2 所示)
类数据由 点状要素 线状要素 状要素 区域数据 209区 区域中心 境界线 行政单元 网络数据 道路交点 街道 街区 +405 样本数据 气象站 线 样方分布区 曲面数据 高程点 等值线 概略等值区 雷德兰 文本数据|分5 商业区 地点名称 线状地物名称 区域名称 符号数据 中 点符号 线状符号 面状符号 图5-2:地理信息系统中各种数据以及其表现 2.数据的测量尺度 对特定现象的测量就是根据一定的标准对其赋值或打分。为了描述地理世界,对任何事 物都要鉴别、分类和命名。这些都是量测的组成部分。它们所使用的参考标准或尺度是不同 的。测量的尺度大致可以分成四个层次,由粗略至详细依次为:命名或类型、次序、间隔以 及比例
图 5-2:地理信息系统中各种数据以及其表现 2.数据的测量尺度 对特定现象的测量就是根据一定的标准对其赋值或打分。为了描述地理世界,对任何事 物都要鉴别、分类和命名。这些都是量测的组成部分。它们所使用的参考标准或尺度是不同 的。测量的尺度大致可以分成四个层次,由粗略至详细依次为:命名或类型、次序、间隔以 及比例
2.1命名( Nominal)量 定性而非定量,不能进行任何算术运算,如一个城市的名字。命名式的测量尺度也称为 类型测量尺度,只对特定现象进行标识,赋予一定的数值或符号而不定量描述。例如,可以 用不同数值表示不同的土地利用类型、植被类型或岩石类型,但是这些数值之间无数量关系, 对命名数据的逻辑运算只有“等于”或“不等于”两种形式,而其近似均值只能使用众数 2.2次序( Ordinal)量 线性坐标上不按值的大小,而是按顺序排列的数,例如,事故发生危险程度的级别由大 到小被标为1,2,3,…,级别的序号越低,其危险性越大,但危险性到底有多大并未给予 定量的表达。序数值相互之间可以比较大小,但不能进行加、减、乘、除等算术运算。 次序测量尺度是基于对现象进行排序来标识的,如可以把山峰按高度分级为极高山、高 山、中山、低山和丘陵等,将坡度分为陡、中、缓等。不同次序之间的间隔大小可以不同。 对次序数据的逻辑运算除了“等于”与“不等于”之外,还可以比较它们的大小,即“大于” 或“小于”。 2.3间隔( Interva)量 不参照某个固定点,而是按间隔表示相对位置的数。按间隔量测的值相互之间可以比较 大小,并且它们之间的差值大小是有意义的。 间隔测量尺度与比例测量尺度相似,但是间隔尺度的测量值无真的零值。例如,温度是 间隔尺度的数据而不是比例数据,因为它的“0”测量值随着所使用的不同温度测量单位而 不同。不能说150F的温度是75F的温度的两倍,因为这个比例在使用摄氏单位时就改变了。 相反,降水量是比例数据,因为它有真的零值。比例数据和间隔数据可用于加、减、乘、 除等运算,而且可以求算术平均 2.4比率( Ratio)量 比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据,比例测量尺 度与使用的测量单位无关。 与某一固定点的比值计算,支持多种算术操作,如加、减、乘、除等。有关该类型属性 域的例子很多,如年降雨量、海拔高度、人口密度、发病率等 比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转 化成次序、间隔数据或比例数据。由此可见,尽管命名数据或次序数据便于使用,易于理解, 但有时不够精确,不能用于较髙级的算术运算。而比例数据或间隔数据比较精确,便于计算 机处理,但是在较复杂的GIS应用中,往往上述几种测量尺度的数据均需用到。 与比率量不同,间隔量中的零值往往是人为规定的,如摄氏温标中零摄氏度,时间中的零点等等
2.1 命名(Nominal)量 定性而非定量,不能进行任何算术运算,如一个城市的名字。命名式的测量尺度也称为 类型测量尺度,只对特定现象进行标识,赋予一定的数值或符号而不定量描述。例如,可以 用不同数值表示不同的土地利用类型、植被类型或岩石类型,但是这些数值之间无数量关系, 对命名数据的逻辑运算只有“等于”或“不等于”两种形式,而其近似均值只能使用众数。 2.2 次序(Ordinal)量 线性坐标上不按值的大小,而是按顺序排列的数,例如,事故发生危险程度的级别由大 到小被标为 1,2,3,…,级别的序号越低,其危险性越大,但危险性到底有多大并未给予 定量的表达。序数值相互之间可以比较大小,但不能进行加、减、乘、除等算术运算。 次序测量尺度是基于对现象进行排序来标识的,如可以把山峰按高度分级为极高山、高 山、中山、低山和丘陵等,将坡度分为陡、中、缓等。不同次序之间的间隔大小可以不同。 对次序数据的逻辑运算除了“等于”与“不等于”之外,还可以比较它们的大小,即“大于” 或“小于”。 2.3 间隔(Interval)量 不参照某个固定点,而是按间隔表示相对位置的数。按间隔量测的值相互之间可以比较 大小,并且它们之间的差值大小是有意义的。 间隔测量尺度与比例测量尺度相似,但是间隔尺度的测量值无真的零值。例如,温度是 间隔尺度的数据而不是比例数据,因为它的“0”测量值随着所使用的不同温度测量单位而 不同。不能说 150F 的温度是 75F 的温度的两倍,因为这个比例在使用摄氏单位时就改变了。 相反,降水量是比例数据,因为它有真的零值*。比例数据和间隔数据可用于加、减、乘、 除等运算,而且可以求算术平均。 2.4 比率(Ratio)量 比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据,比例测量尺 度与使用的测量单位无关。 与某一固定点的比值计算,支持多种算术操作,如加、减、乘、除等。有关该类型属性 域的例子很多,如年降雨量、海拔高度、人口密度、发病率等。 比例数据或间隔数据可以比较容易地被转变成次序或命名数据。而命名数据则很难被转 化成次序、间隔数据或比例数据。由此可见,尽管命名数据或次序数据便于使用,易于理解, 但有时不够精确,不能用于较高级的算术运算。而比例数据或间隔数据比较精确,便于计算 机处理,但是在较复杂的 GIS 应用中,往往上述几种测量尺度的数据均需用到。 * 与比率量不同,间隔量中的零值往往是人为规定的,如摄氏温标中零摄氏度,时间中的零点等等
点 线 AN代表20个对象等高线 人口密度 例 55 高程区域 商业区 主要的 次要的 州内高速公路 县高速公路 靠父 BM基准点 河流 森林 图5-3:各种数据测量尺度以及其制图表现 3.地理信息系统的数据质量 地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要通过空间及 非空间数据的操作,实现空间检索、编辑及分析功能。在GIS的几个主要因素中,数据是 个极为重要的因素。在计算机软件、硬件环境选定之后,GIS中数据质量的优劣,决定着 系统分析质量以及整个应用的成败。GiS提供的空间数据的分析方法被广泛用于各种领域 用于决策领域的数据,其质量要求应该是可知的或可预测的。 3.1数据质量的基本概念 3.1.1准确性( Accuracy) 即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的, 似乎人们己经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。 一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的 分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它 可用误差( Error)来衡量 3.1.2精度( Precision) 即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度 要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量 仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标 不可能依赖于比0.lmm还要准确的一个“真正的”数值,那么就不存在任何的点,在十分 之一的地方是以mm表示的
图 5-3:各种数据测量尺度以及其制图表现 3.地理信息系统的数据质量 地理信息系统是一个基于计算机软件、硬件和数据的集成系统,该系统主要通过空间及 非空间数据的操作,实现空间检索、编辑及分析功能。在 GIS 的几个主要因素中,数据是 一个极为重要的因素。在计算机软件、硬件环境选定之后,GIS 中数据质量的优劣,决定着 系统分析质量以及整个应用的成败。GIS 提供的空间数据的分析方法被广泛用于各种领域, 用于决策领域的数据,其质量要求应该是可知的或可预测的。 3.1 数据质量的基本概念 3.1.1 准确性(Accuracy) 即一个记录值(测量或观察值)与它的真实值之间的接近程度。这个概念是相当抽象的, 似乎人们已经知道存在这样的事实。在实际中,测量的知识可能依赖于测量的类型和比例尺。 一般而言,单个的观察或测量的准确性的估价仅仅是通过与可获得的最准确的测量或公认的 分类进行比较。空间数据的准确性经常是根据所指的位置、拓扑或非空间属性来分类的。它 可用误差(Error)来衡量。 3.1.2 精度(Precision) 即对现象描述的详细程度。如对同样的两点,精度低的数据并不一定准确度也低。精度 要求测量能以最好的准确性来记录,但是这可能误导提供了较大的精度,因为超出一个测量 仪器的已知准确度的数字在效率上是冗于的。因此,如果手工操作的数字化板所返回的坐标 不可能依赖于比 0.1mm 还要准确的一个“真正的”数值,那么就不存在任何的点,在十分 之一的地方是以 mm 表示的
3.1.3空间分辨率( Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化 的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最 小线的宽度来确定。地图上的线很少以小于0.1mm的宽度来画。在一个图形扫描仪中最细 的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是 英寸的300分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的 激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设 备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人 操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离 3.1.4比例尺( Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地 图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个1:10000比例 尺的地图上,一条0.5mm宽度的线对应着5m的地面距离。如果这是线的最小的宽度,那 么就不可能表示小于5m的现象 3.1.5误差( Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言 它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多 边形的位置的误差;属性误差;位置和属性误差之间的关系。 3.1.6不确定性( Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻 辑上的不一致性及数据的不完整性。空间位置的不确定性指GIS中某一被描述物体与其地 面上真实物体位置上的差别:属性不确定性是指某一物体在GlS中被描述的属性与其真实 的属性之差别:时域不确定性是指在描述地理现象时,时间描述上的差错:逻辑上的不一致 性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给 定的目标,GIS没有尽可能完全地表达该物体。 3.2空间数据质量问题的来源 从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用, 在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个 方面来阐述空间数据质量问题的来源 3.2.1空间现象自身存在的不稳定性 空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳
3.1.3 空间分辨率(Spatial Resolution) 分辨率是两个可测量数值之间最小的可辩识的差异。那么空间分辨率可以看作记录变化 的最小距离。在一张用肉眼可读的地图上,假设一条线用来记录一个边界,分辨率通常由最 小线的宽度来确定。地图上的线很少以小于 0.1mm 的宽度来画。在一个图形扫描仪中最细 的物理分辨率从理论上讲是由设施的像元之间的分离来确定的。在一个激光打印机上这是一 英寸的 300 分之一,而且在高质量的激光扫描仪上,这会细化十倍。如果没有放大,最细的 激光扫描仪的线是看不到的,尽管这依赖于背景颜色的对照。因此,在人的视觉分辨率和设 备物理分辨率之间存在着一个差异。一个相似的区别可以存在于两个最小距离之间,即当人 操作者操作数字化仪时所区别的最小距离和数字化仪硬件可以不断地报告的最小距离。 3.1.4 比例尺(Scale) 比例尺是地图上一个记录的距离和它所表现的“真实世界的”距离之间的一个比例。地 图的比例尺将决定地图上一条线的宽度所表现的地面的距离。例如,在一个 1:10000 比例 尺的地图上,一条 0.5mm 宽度的线对应着 5m 的地面距离。如果这是线的最小的宽度,那 么就不可能表示小于 5m 的现象。 3.1.5 误差(Error) 定义出一个所记录的测量和它的事实之间的准确性以后,很明显对于大多数目的而言, 它的数值是不准确的。误差研究包括:位置误差,即点的位置的误差、线的位置的误差和多 边形的位置的误差;属性误差;位置和属性误差之间的关系。 3.1.6 不确定性(Uncertainty) 地理信息系统的不确定性包括空间位置的不确定性、属性不确定性、时域不确定性、逻 辑上的不一致性及数据的不完整性。空间位置的不确定性指 GIS 中某一被描述物体与其地 面上真实物体位置上的差别;属性不确定性是指某一物体在 GIS 中被描述的属性与其真实 的属性之差别;时域不确定性是指在描述地理现象时,时间描述上的差错;逻辑上的不一致 性指数据结构内部的不一致性,尤其是指拓扑逻辑上的不一致性;数据的不完整性指对于给 定的目标,GIS 没有尽可能完全地表达该物体。 3.2 空间数据质量问题的来源 从空间数据的形式表达到空间数据的生成,从空间数据的处理变换到空间数据的应用, 在这两个过程中都会有数据质量问题的发生。下面按照空间数据自身存在的规律性,从几个 方面来阐述空间数据质量问题的来源。 3.2.1 空间现象自身存在的不稳定性 空间数据质量问题首先来源于空间现象自身存在的不稳定性。空间现象自身存在的不稳
定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确 定性指其在空间位置分布上的不确定性变化:空间现象在时间上的不确定性表现为其在发生 时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型 属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。 3.2.2空间现象的表达 数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对 于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差:用 于获取各种原始数据的各种测量仪器都有一定的设计精度,如GPS提供的地理位置数据都 有用户要求的一定设计精度,因而数据误差的产生不可避免 3.2.3空间数据处理中的误差 在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形 式下,地理特征的位置、面积和方向的表现会有差异。 地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋 值等都可能出现误差 数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征 的位置具有差异性 数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的 误差,如知识性误差和数据所表达的空间特征位置的变化误差。 建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化 与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层 之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与 主控数据层匹配的过程中也会存在空间位移,导致误差。 数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值 的差异。 数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。 数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其 中位置误差、属性误差都会出现 数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位 置、注记等进行调整,由此产生数据表达上的误差 数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的, 前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生 3.2.4空间数据使用中的误差 在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释 过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不 同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对 某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导
定性包括空间特征和过程在空间、专题和时间内容上的不确定性。空间现象在空间上的不确 定性指其在空间位置分布上的不确定性变化;空间现象在时间上的不确定性表现为其在发生 时间段上的游移性;空间现象在属性上的不确定性表现为属性类型划分的多样性,非数值型 属性值表达的不精确性。因此,空间数据存在质量问题是不可避免的。 3.2.2 空间现象的表达 数据采集中的测量方法以及量测精度的选择等受到人类自身的认识和表达的影响,这对 于数据的生成会出现误差。如在地图投影中,由椭球体到平面的投影转换必然产生误差;用 于获取各种原始数据的各种测量仪器都有一定的设计精度,如 GPS 提供的地理位置数据都 有用户要求的一定设计精度,因而数据误差的产生不可避免。 3.2.3 空间数据处理中的误差 在空间数据处理过程中,容易产生的误差有以下几种: 投影变换:地图投影是开口的三维地球椭球面到二维场平面的拓扑变换。在不同投影形 式下,地理特征的位置、面积和方向的表现会有差异。 地图数字化和扫描后的矢量化处理:数字化过程采点的位置精度、空间分辨率、属性赋 值等都可能出现误差。 数据格式转换:在矢量格式和栅格格式之间的数据格式转换中,数据所表达的空间特征 的位置具有差异性。 数据抽象:在数据发生比例尺变换时,对数据进行的聚类、归并、合并等操作时产生的 误差,如知识性误差和数据所表达的空间特征位置的变化误差。 建立拓扑关系:拓扑过程中伴随有数据所表达的空间特征的位置坐标的变化。 与主控数据层的匹配:一个数据库中,常存储同一地区的多层数据面,为保证各数据层 之间空间位置的协调性,一般建立一个主控数据层以控制其它数据层的边界和控制点。在与 主控数据层匹配的过程中也会存在空间位移,导致误差。 数据叠加操作和更新:数据在进行叠加运算以及数据更新时,会产生空间位置和属性值 的差异。 数据集成处理:指在来源不同、类型不同的各种数据集的相互操作过程中所产生的误差。 数据集成是包括数据预处理、数据集之间的相互运算、数据表达等过程在内的复杂过程,其 中位置误差、属性误差都会出现。 数据的可视化表达:数据在可视化表达过程中为适应视觉效果,需对数据的空间特征位 置、注记等进行调整,由此产生数据表达上的误差。 数据处理过程中误差的传递和扩散:在数据处理的各个过程中,误差是累计和扩散的, 前一过程的累计误差可能成为下一个阶段的误差起源,从而导致新的误差的产生。 3.2.4 空间数据使用中的误差 在空间数据使用的过程中也会导致误差的出现,主要包括两个方面:一是对数据的解释 过程,二是缺少文档。对于同一种空间数据来说,不同用户对它的内容的解释和理解可能不 同,处理这类问题的方法是随空间数据提供各种相关的文档说明,如元数据。另外,缺少对 某一地区不同来源的空间数据的说明,如缺少投影类型、数据定义等描述信息,这样往往导
致数据用户对数据的随意性使用而使误差扩散。 表5-1:数据的主要误差来源 数据 误差来源 数据搜 野外测量误差:仪器误差、记录误差 遥感数据误差:辐射和几何纠正误差、信息提取误差 地图数据误差:原始数据误差、坐标转换、制图综合及印刷 数据输入 数字化误差:仪器误差、操作误差 不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换 数据存储 数值精度不够 空间精度不够:每个格网点太大、地图最小制图单元太大 数据处理 分类间隔不合理 多层数据叠合引起的误差传播:插值误差、多源数据综合分析误 比例尺太小引起的误差 数据输出 输出设备不精确引起的误差 输出的媒介不稳定造成的误差 数据使用 对数据所包含的信息的误解 对数据信息使用不当 3.3常见空间数据的误差分析 GIS中的误差是指GS中数据表示与其现实世界本身的差别。数据误差的类型可以是随 机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时 间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是 一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻 辑误差,因此下面主要讨论逻辑误差和几何误差。 3.3.1误差的类型 1)逻辑误差 数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不 完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的 逻辑性检査入手。如图54所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥 或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整
致数据用户对数据的随意性使用而使误差扩散。 表 5-1:数据的主要误差来源 数据处理过程 误差来源 数据搜集 野外测量误差:仪器误差、记录误差 遥感数据误差:辐射和几何纠正误差、信息提取误差 地图数据误差:原始数据误差、坐标转换、制图综合及印刷 数据输入 数字化误差:仪器误差、操作误差 不同系统格式转换误差:栅格-矢量转换、三角网-等值线转换 数据存储 数值精度不够 空间精度不够:每个格网点太大、地图最小制图单元太大 数据处理 分类间隔不合理 多层数据叠合引起的误差传播:插值误差、多源数据综合分析误 差 比例尺太小引起的误差 数据输出 输出设备不精确引起的误差 输出的媒介不稳定造成的误差 数据使用 对数据所包含的信息的误解 对数据信息使用不当 3.3 常见空间数据的误差分析 GIS 中的误差是指 GIS 中数据表示与其现实世界本身的差别。数据误差的类型可以是随 机的,也可以是系统的。归纳起来,数据的误差主要有四大类,即几何误差、属性误差、时 间误差和逻辑误差。在这几种误差中,属性误差和时间误差与普通信息系统中的误差概念是 一致的,几何误差是地理信息系统所特有的,而几何误差、属性误差和时间误差都会造成逻 辑误差,因此下面主要讨论逻辑误差和几何误差。 3.3.1 误差的类型 1)逻辑误差 数据的不完整性是通过上述四类误差反映出来的。事实上检查逻辑误差,有助于发现不 完整的数据和其他三类误差。对数据进行质量控制或质量保证或质量评价,一般先从数据的 逻辑性检查入手。如图 5-4 所示,其中桥或停车场等与道路是相接的,如果数据库中只有桥 或停车场,而没有与道路相连,则说明道路数据被遗漏,使数据不完整
停车场 停车场 逻辑错误 补漏纠正逻辑错误 逻辑错误 调整蓄水线位置 纠正逻辑错误 高密度住宅 高密度住宅 商业区 商业区 逻辑错误 纠正后的 灌丛,幼树 针阀叶混交林 灌丛、幼树 针阔叶混交林 年火 年火场 逻辑错误 不符合植物 纠正后的 演替规律 林火植被图 图5-4:各种逻辑误差 2)几何误差 由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。 (2.1)点误差 关于某点的点误差即为测量位置(x,y)与其真实位置(xo,yo)的差异。真实位置的 测量方法比测量位置的要更加精确,如在野外使用高精度的GPS方法得到。点误差可通过 计算坐标误差和距离的方法得到。坐标误差定义为 Ax=Xxo 为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(Δx,△y)。抽样点 应随机分布于数据采集区内,并具有代表性。这样抽样点越多,所测的误差分布就越接近于 点误差的真实分布。 (2.2)线误差 线在地理信息系统数据库中既可表示线性现象,又可以通过连成的多边形表示面状现 象。第一类是线上的点在真实世界中是可以找到的,如道路、河流、行政界线等,这类的线 性特征的误差主要产生于测量和对数据的后处理:第二类是现实世界中找不到的,如按数学 投影定义的经纬线、按高程绘制的等高线,或者是气候区划线和土壤类型界限等,这类线性 特征的线误差及在确定线的界限时的误差,被称为解译误差。解译误差与属性误差直接相关
图 5-4:各种逻辑误差 2)几何误差 由于地图是以二维平面坐标表达位置,在二维平面上的几何误差主要反映在点和线上。 (2.1)点误差 关于某点的点误差即为测量位置(x,y)与其真实位置(x0,y0)的差异。真实位置的 测量方法比测量位置的要更加精确,如在野外使用高精度的 GPS 方法得到。点误差可通过 计算坐标误差和距离的方法得到。坐标误差定义为: Δx=x-x0 Δy=y-y0 为了衡量整个数据采集区域或制图区域内的点误差,一般抽样测算(Δx,Δy)。抽样点 应随机分布于数据采集区内,并具有代表性。这样抽样点越多,所测的误差分布就越接近于 点误差的真实分布。 (2.2)线误差 线在地理信息系统数据库中既可表示线性现象,又可以通过连成的多边形表示面状现 象。第一类是线上的点在真实世界中是可以找到的,如道路、河流、行政界线等,这类的线 性特征的误差主要产生于测量和对数据的后处理;第二类是现实世界中找不到的,如按数学 投影定义的经纬线、按高程绘制的等高线,或者是气候区划线和土壤类型界限等,这类线性 特征的线误差及在确定线的界限时的误差,被称为解译误差。解译误差与属性误差直接相关