2020年2月,第26卷,第1期,027-043页 高校地质学报 February 2020, Vol 26, No 1, pp. 027-043 Geological Journal of China Universities DO:10.16108/issn1006-7493.2019102 引用格式:蒋璟鑫,李超,胡修棉.2020.沉积学数据库建设与沉积大数据科学研究进展:以 Macrostrat数据库为例高校 地质学报,26(1):027-043 沉积学数据库建设与沉积大数据科学研究进展: 以 Macrostrat数据库为例 蒋璟鑫,李超,胡修棉* 内生金属矿床成矿机制研究国家重点实验室,南京大学地球科学与工程学院,南京210023 摘要:沉积岩(物)是构成地球表层的主要岩石类型。自地质学诞生以来,地质学家已经积累了海量的沉积学相关研究数 据,国内外也相继涌现出 Macrostrat等以整合沉积学、地层学相关数据为主的优秀数据库。随着沉积学、地层学、古生物 学、地球化学、地质年代学、地球观测等学科数据的快速增长,数据整合分析技术的重大突破,从全球视野研究深时沉积 过程变为了可能。文章介绍了国际沉积相关数据库的总体建设情况,并深度剖析美国 Macrostra数据库的结构及其创新工作 模式,旨在为深时数字地球( Deep-Time Digital Earth,DDE)计划建设多学科、多尺度、多层次、共享开源的大数据库提供 借鉴和参考;在此基础上,剖析了若干应用大数据思维开展的重要科研实例 关键词: Macrostrat;大数据;数据库;沉积物演化;沉积学 中图分类号:P5882;P628+4 文献标识码:A 文章编号:1006-7493(2020)01-027-17 Advances on Sedimentary Database Building and related research Macrostrat As an Example JIANG Jingxin, LI Chao, HU Xiumian State Key Laboratory of Mineral Deposit Research, School of Earth Sciences and Engineering, Nanjing University, Nanjing 210023 Abstract: Sedimentary rocks are the main rock type that constitutes the Earth's surface. During centuries a large amount of sedimentological data have been accumulated and in the meanwhile comprehensive sedimentological databases, such as Macrostrat, have established. With the rapid growth of data in all aspects of geology including sedimentology, as well as great breakthroughs in data integration and analysis technology, it is possible to employ big-data analysis methods to explore the deep-time sedimentary process from a global perspective. The currentpaper introduces the main sedimentological databases, and analyzes their structure in detail. The innovative working mode of Macrostrat database is deciphered aiming to prowide valuable experience for the sedimentological database in the Deep-time Digital Earth (DDE) Big Science Program. The database will be multi-disciplinary, multi-scaled, multi-leveled and opensource. Several study employing big data analy Key words: Macrostrat; big data; database; evolution of sediments; sedimentolog Correspondingauthor:HUXiumian,Professor:E-mail:huxm@nju.edu.cn 随着数据存储、运算、分析技术的进步,人力,新的科研范式——数据密集型科学研究应运 类具备了处理海量数据、并从中提取信息的能而生。它正在潜移默化地影响着人类生活,改变 收稿日期:2019-11-08:修回日期:2019-11-25 基金项目:国家杰出青年基金(41525007)资助 作者简介:蒋璟鑫,男,1995年生,博士研究生,主要从事沉积古环境研究;E- mail: jjxcug24@l63com *通讯作者:胡修棉,男,1974年生,教授,主要从事沉积学研究; E-mail: huxmt@nued
2020 年 2 月,第 26 卷,第 1期,027-043页 February 2020,Vol. 26,No.1, pp. 027-043 高 校 地 质 学 报 Geological Journal of China Universities _____________________________ 收稿日期:2019-11-08;修回日期:2019-11-25 基金项目:国家杰出青年基金(41525007)资助 作者简介:蒋璟鑫,男,1995年生,博士研究生,主要从事沉积古环境研究;E-mail: jjxcug24@163.com *通讯作者:胡修棉,男,1974年生,教授,主要从事沉积学研究;E-mail: huxm@nju.edu.cn 沉积学数据库建设与沉积大数据科学研究进展: 以Macrostrat数据库为例 蒋璟鑫,李 超,胡修棉* 内生金属矿床成矿机制研究国家重点实验室,南京大学 地球科学与工程学院, 南京 210023 摘要:沉积岩(物)是构成地球表层的主要岩石类型。自地质学诞生以来,地质学家已经积累了海量的沉积学相关研究数 据,国内外也相继涌现出Macrostrat等以整合沉积学、地层学相关数据为主的优秀数据库。随着沉积学、地层学、古生物 学、地球化学、地质年代学、地球观测等学科数据的快速增长,数据整合分析技术的重大突破,从全球视野研究深时沉积 过程变为了可能。文章介绍了国际沉积相关数据库的总体建设情况,并深度剖析美国Macrostrat数据库的结构及其创新工作 模式,旨在为深时数字地球(Deep-Time Digital Earth, DDE)计划建设多学科、多尺度、多层次、共享开源的大数据库提供 借鉴和参考;在此基础上,剖析了若干应用大数据思维开展的重要科研实例。 关键词:Macrostrat;大数据;数据库;沉积物演化;沉积学 中图分类号:P588.2; P628+.4 文献标识码:A 文章编号:1006-7493(2020)01-027-17 Advances on Sedimentary Database Building and Related Research: Macrostrat As an Example JIANG Jingxin,LI Chao,HU Xiumian* State Key Laboratory of Mineral Deposit Research, School of Earth Sciences and Engineering, Nanjing University, Nanjing 210023 Abstract: Sedimentary rocks are the main rock type that constitutes the Earth's surface. During centuries a large amount of sedimentological data have been accumulated and in the meanwhile comprehensive sedimentological databases, such as Macrostrat, have established. With the rapid growth of data in all aspects of geology including sedimentology, as well as great breakthroughs in data integration and analysis technology, it is possible to employ big-data analysis methods to explore the deep-time sedimentary process from a global perspective. The currentpaper introduces the main sedimentological databases, and analyzes their structure in detail. The innovative working mode of Macrostrat database is deciphered aiming to provide valuable experience for the sedimentological database in the Deep-time Digital Earth (DDE) Big Science Program. The database will be multi-disciplinary, multi-scaled, multi-leveled and opensource. Several study cases of employing big data analysis to solve scientific questions are also introduced here. Key words: Macrostrat; big data; database; evolution of sediments; sedimentology Corresponding author: HU Xiumian, Professor; E-mail: huxm@nju.edu.cn DOI: 10.16108/j.issn1006-7493.2019102 引用格式:蒋璟鑫,李超,胡修棉. 2020. 沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例[J]. 高校 地质学报,26(1):027-043 随着数据存储、运算、分析技术的进步,人 类具备了处理海量数据、并从中提取信息的能 力,新的科研范式——数据密集型科学研究应运 而生。它正在潜移默化地影响着人类生活,改变
高校地质学报 26卷1期 人类认识和科学研究世界的思维方式(姜浩端, Ava clastics,以及各种以文献形式发表的数据 2013;张维明和唐九阳,2015;翟明国等,集,如世界古水流数据集( Brand et al,2015)、世 2018)。地质学的研究突破依赖于对区域或全球各界洋底沉积物数据集( Dutkiewicz et al.,2015、世 类地质数据的综合分析,是典型的数据密集型科界气候敏感性沉积物数据集( Boucot et al,2013; 学。在大数据时代,地质学正面临着前所未有的 Cao et a,2018)、陆相冲积相泥质岩数据集 机遇与挑战,地球科学家亟需改变传统的思维方( McMahon et al.,2018)。这些数据库(集)尝试应 式,从因果关系为核心的逻辑思维方式转变为以用大数据思维,从全球视野理解深时沉积物质的 关联关系为核心的大数据思维方式(周永章等,演化和循环过程。下面进行详细介绍。 2016;陈建平等,2017)。 1.1俄罗斯 Alexander ronon数据库 沉积岩(物)占据了地球表面约70%的面 在20世纪50年代,俄罗斯 Alexander ronny团 积,是地球表层的重要组成部分。沉积物质作为队开始对地壳岩石的年龄、岩性和体积进行时空 岩石圈的一部分,其演化受多种地球系统过程控综合数据的人工编译工作。他们主要借助于小比 制(生物、气候、构造等),从而忠实地记录了地例尺(1:2500万)的地质图及钻井资料,通过相 球表层圈层的演化过程。地球表层沉积物质的总关参数提取和换算,得到岩石总体积、海洋覆盖 量、类型、通量、时空分布等直接反映了岩石面积、平均沉降速率、主要岩性组合丰度等数据 圈、生物圈、水圈、大气圈动态演化的过程,是并编制了显生宙整个过程中这些参数的变化图 探讨大尺度时空模式下构造、气候和生物演化的( Ronon et al,1969,1980)。该数据库的数据收集 重要参数和基本条件。在20世纪80年代,由全球过程长达十余年,建设目的是用定量化的方式来 沉积学家共同发起全球沉积地质计划( Global探讨岩石、古地理和构造之间的关系和规律,在 Sedimentary Geology Program,GsGP),以响应板块其建设初期取得了较多的重要研究成果。由于数 学说、古海洋学、古气候学以及沉积地质学等的据获取的局限性,以及严重依赖科学家或团队的 快速发展,旨在为开展全球尺度的沉积地质研究个体贡献, Alexander ronoy数据库早已停止发展。 提供新的方向、机会和动力。基于GSGP,沉积学1.2美国 GeoChron和 SedDB数据库 家提出了三大关键性的研究主题:(1)全球性韵 GeoChron和 SeddB是隶属于 EarthEr 律和事件;(2)全球性演化的沉积学记录;(3)全( Geochemical Databases for the Earth,ww 球性的沉积岩相分析,并将“白垩纪地质记录与 earthchem.org)的与沉积学相关的数据库。 全球地质作用、资源、韵律和事件”作为第一个 EarthChem是一个社区驱动、旨在保存、发现、访 试点项目(陈友明,1987;刘宝珺,1988;叶德问和可视化最广泛和最丰富的地球化学数据的信 燎,1988; Ginsburg,1986)。这些重大科学问题息网络平台和数据库门户,由美国科学基金委 的提出成为推动沉积学发展的主动力。随着近( National science foundation,NSF)资助。 几十年沉积学、地层学、古生物学、沉积地球 GeoChron(htp:/www.geochron.org)收集全球 化学、地质年代学、地球观测等学科的进一步沉积岩碎屑矿物年代学数据,以碎屑锆石年龄数 发展,地质学家积累了海量的沉积学相关的数据为主;同时捕获其元数据,以允许将来重新计 据。如何高效地整合各类数据,并从中挖掘这算,并与其它类型的数据集成。该数据库基于网 些数据中的价值,已经成为沉积学家急需解决页端口,由哥伦比亚大学进行管理。主要的数据 的新时代课题。 来源有:从已发表文献人工录入、全球科学家的 1国际沉积相关数据库建设情况 合作贡献以及定年实验仪器的联网自动上传。目 前该数据库共收录全球范围内1630个年代学样 目前,国际上已涌现出一大批优秀的沉积学品,并进行不定时更新(数据来自:htp:/w 相关数据库,如 Macrostrat、 GeoChron、 SeddB、 geochron.org)。整体上数据覆盖极不均匀,中国地 O The global sedimentary geology program: report of an intemational workshop. Fisher Island, Florida, August, 1986
高 校 地 质 学 报 2 6 卷 1 期 人类认识和科学研究世界的思维方式 (姜浩端, 2013; 张 维 明 和 唐 九 阳 , 2015; 翟 明 国 等 , 2018)。地质学的研究突破依赖于对区域或全球各 类地质数据的综合分析,是典型的数据密集型科 学。在大数据时代,地质学正面临着前所未有的 机遇与挑战,地球科学家亟需改变传统的思维方 式,从因果关系为核心的逻辑思维方式转变为以 关联关系为核心的大数据思维方式 (周永章等, 2016;陈建平等,2017)。 沉积岩 (物) 占据了地球表面约 70%的面 积,是地球表层的重要组成部分。沉积物质作为 岩石圈的一部分,其演化受多种地球系统过程控 制 (生物、气候、构造等),从而忠实地记录了地 球表层圈层的演化过程。地球表层沉积物质的总 量、类型、通量、时空分布等直接反映了岩石 圈、生物圈、水圈、大气圈动态演化的过程,是 探讨大尺度时空模式下构造、气候和生物演化的 重要参数和基本条件。在20世纪80年代,由全球 沉积学家共同发起全球沉积地质计划 (Global Sedimentary Geology Program, GSGP① ),以响应板块 学说、古海洋学、古气候学以及沉积地质学等的 快速发展,旨在为开展全球尺度的沉积地质研究 提供新的方向、机会和动力。基于GSGP,沉积学 家提出了三大关键性的研究主题:(1) 全球性韵 律和事件;(2)全球性演化的沉积学记录;(3)全 球性的沉积岩相分析,并将“白垩纪地质记录与 全球地质作用、资源、韵律和事件”作为第一个 试点项目 (陈友明,1987;刘宝珺,1988;叶德 燎,1988;Ginsburg, 1986)。这些重大科学问题 的提出成为推动沉积学发展的主动力。随着近 几十年沉积学、地层学、古生物学、沉积地球 化学、地质年代学、地球观测等学科的进一步 发展,地质学家积累了海量的沉积学相关的数 据。如何高效地整合各类数据,并从中挖掘这 些数据中的价值,已经成为沉积学家急需解决 的新时代课题。 1 国际沉积相关数据库建设情况 目前,国际上已涌现出一大批优秀的沉积学 相关数据库,如 Macrostrat、GeoChron、SedDB、 Ava Clastics,以及各种以文献形式发表的数据 集,如世界古水流数据集 (Brand et al., 2015)、世 界洋底沉积物数据集 (Dutkiewicz et al., 2015)、世 界气候敏感性沉积物数据集 (Boucot et al., 2013; Cao et al., 2018)、 陆 相 冲 积 相 泥 质 岩 数 据 集 (McMahon et al., 2018)。这些数据库 (集) 尝试应 用大数据思维,从全球视野理解深时沉积物质的 演化和循环过程。下面进行详细介绍。 1.1 俄罗斯Alexander Ronov数据库 在20世纪50年代,俄罗斯Alexander Ronov团 队开始对地壳岩石的年龄、岩性和体积进行时空 综合数据的人工编译工作。他们主要借助于小比 例尺 (1: 2500万) 的地质图及钻井资料,通过相 关参数提取和换算,得到岩石总体积、海洋覆盖 面积、平均沉降速率、主要岩性组合丰度等数据 并编制了显生宙整个过程中这些参数的变化图 (Ronov et al.,1969,1980)。该数据库的数据收集 过程长达十余年,建设目的是用定量化的方式来 探讨岩石、古地理和构造之间的关系和规律,在 其建设初期取得了较多的重要研究成果。由于数 据获取的局限性,以及严重依赖科学家或团队的 个体贡献,Alexander Ronov数据库早已停止发展。 1.2 美国GeoChron和SedDB数据库 GeoChron 和 SedDB 是 隶 属 于 EarthChem (Geochemical Databases for the Earth, www. earthchem.org) 的 与 沉 积 学 相 关 的 数 据 库 。 EarthChem是一个社区驱动、旨在保存、发现、访 问和可视化最广泛和最丰富的地球化学数据的信 息网络平台和数据库门户,由美国科学基金委 (National science foundation, NSF)资助。 GeoChron (http://www.geochron.org) 收集全球 沉积岩碎屑矿物年代学数据,以碎屑锆石年龄数 据为主;同时捕获其元数据,以允许将来重新计 算,并与其它类型的数据集成。该数据库基于网 页端口,由哥伦比亚大学进行管理。主要的数据 来源有:从已发表文献人工录入、全球科学家的 合作贡献以及定年实验仪器的联网自动上传。目 前该数据库共收录全球范围内 1630 个年代学样 品,并进行不定时更新 (数据来自:http://www. geochron.org)。整体上数据覆盖极不均匀,中国地 ① The global sedimentary geology program: report of an international workshop, Fisher Island, Florida, August, 1986. 28
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 区仅有约50个样品(数据由本文作者在 GeoChron(SMRG, Shallow Marine Research Group)为主导 官网统计得到)。用户可以在网页界面根据岩石类的、主要存储浅海沉积露头数据的关系型数据 型、矿物类型、定年实验方法、地区等参数进行库,目的是数字化浅海沉积体系的所有基本特征 数据筛选,并以HTML、ⅪLS和XML等格式获取数并对浅海油气开发和勘探提供模型。目前收录130 据集。 个研究实例,共14633个浅海相单元数据(数据来 Seddb(http://www.earthchem.org/seddb)je H:https://www.pds.group/ava-clastics/databases# 个可检索的、以海洋和陆地沉积物地球化学数据 SMAKS); 为主的关系型数据库,主要根据已发表的文献数 (3)DMAKS(Deep Marine Architecture Knowl 据汇编而成。该数据库由美国 Lamont- Doherty地 edge System),主要存储来自古代露头数据和现代 球天文台、俄勒冈州立大学、波士顿大学和博伊深水碎屑岩系统观测数据的关系型数据库,目的 西州立大学联合开发,由 Lamont- Doherty地球天文是为深水碎屑岩储层的特征识别提供新的定量模 台负责运营和维护。 SeddB汇编了大量地球表层沉型。目前收录66个深海盆地体系硏究实例,共 积物质的地球化学数据,用于沉积学、地球化9688个深海相单元数据(数据来自:htps!/w. 学、岩石学、海洋学和古气候研究,同时用于学pd. group/ava- clastics/ Databases# DMAKS)。 科教育领域。与 GeoChron类似, SedDB也归档了 除上述数据库外,世界范围内还有很多与沉 大量的元数据,以便于后期的数据整合、重新计积学相关的数据库(集)(表1),如以沉积地化数 算和分析。截至2013年,该数据库收录了近据为主的 GSSID( The global sedimentary sulfur isotope 10400个沉积岩样品的近75万个独立分析数据(数 database),以露头数据和模拟为主的SAND(Sedi- 据统计来自:https://en.wikipedia.org/wiki/SedDB),mentaryANalogsDatabase),以及隶属于各个国家 用户可以在web端口根据经纬度、地理位置、样品的地质调查相关机构的数据库,如英国地质调查 类型等参数进行数据检索。该数据库2014年以来局( British Geological Survey,BGS),拥有400多个 已停止更新。 数据集,如物理数据集(钻孔岩心、岩石、矿 1.3英国 Ava clastics数据库 物)、文字记录、档案;中国地质调查局( China AvaClasticshttps:/www.pds.group/ava--clastics)GeologicalSurvey)自主开发的地质云(Geocloud) 是一个世界级的沉积学模拟商用数据库,由英国涵盖了大量地质图,包括大量地层、沉积相关的 PDS( Petrotechnical Data Systems)集团和利兹大数据 学地球与环境学院合作创立,主要由利兹大学管 综上,在大数据潮流到来之际,沉积学领域 理。主要收录古代和现代河流、浅海和深海序列已经涌现了大量优秀的数据库,这些数据库主要 的研究实例,作为储层的类似物,并将其数字化关注某一类或某几类数据,依靠人工数字化团队 (转化为石油行业软件的岩相代码),为能源行业对文献中的数据进行结构化,是利用大数据思维 提供服务。根据所收录的数据和应用目的,分为模式拟解决区域、小规模和短时间尺度特定沉积 三个子数据库 学问题的有效尝试,但是在面临全球、大规模和 (1) FAKTS( Fluvial architecture Knowledge长时间尺度综合性的科学问题时,这些数据库仍 Transfer Systen),是利兹大学河流研究小组然有很多的局限和不足之处:(1)规模小,数据 (FRG, Fluvial Research Group)为主导的、主要存储形式单一,建设和运营多依赖于个人科学家或单 河流沉积露头数据的关系型数据库,目的是详细个科研团队;(2)发展前景有限,运行状态完全 描述河流相储层特征并对其中储藏的烃源岩进行依赖于资助项目的情况,一旦资助结束,数据库 预测。目前收录270个河流研究实例,共50544个即更新停滞;(3)数据覆盖不均匀,数据收集过 河流相单元数据(数据来自:htts:/wpds.程受到科学家自身的研究兴趣和主动性的影响 group/ava-clastics/ Databases## FAKTS); (4)时空分辨率低,无法反映真实的信息;(5) (2) SMAKS( Shallow Marine Architecture很多文献和数据库资源不开源,难以二次引用和 Knowledge System),是利兹大学浅海研究小组进一步整合。因此,在当前数据更充足、技术更
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 区仅有约50个样品 (数据由本文作者在GeoChron 官网统计得到)。用户可以在网页界面根据岩石类 型、矿物类型、定年实验方法、地区等参数进行 数据筛选,并以HTML、XLS和XML等格式获取数 据集。 SedDB (http://www.earthchem.org/seddb) 是 一 个可检索的、以海洋和陆地沉积物地球化学数据 为主的关系型数据库,主要根据已发表的文献数 据汇编而成。该数据库由美国 Lamont -Doherty 地 球天文台、俄勒冈州立大学、波士顿大学和博伊 西州立大学联合开发,由Lamont-Doherty地球天文 台负责运营和维护。SedDB汇编了大量地球表层沉 积物质的地球化学数据,用于沉积学、地球化 学、岩石学、海洋学和古气候研究,同时用于学 科教育领域。与 GeoChron 类似,SedDB 也归档了 大量的元数据,以便于后期的数据整合、重新计 算和分析。截至 2013 年,该数据库收录了近 10400个沉积岩样品的近75万个独立分析数据(数 据统计来自:https://en.wikipedia.org/wiki/SedDB), 用户可以在web端口根据经纬度、地理位置、样品 类型等参数进行数据检索。该数据库2014年以来 已停止更新。 1.3 英国Ava Clastics数据库 Ava Clastics (https://www.pds.group/ava-clastics) 是一个世界级的沉积学模拟商用数据库,由英国 PDS (Petrotechnical Data Systems) 集团和利兹大 学地球与环境学院合作创立,主要由利兹大学管 理。主要收录古代和现代河流、浅海和深海序列 的研究实例,作为储层的类似物,并将其数字化 (转化为石油行业软件的岩相代码),为能源行业 提供服务。根据所收录的数据和应用目的,分为 三个子数据库: (1) FAKTS (Fluvial Architecture Knowledge Transfer System), 是 利 兹 大 学 河 流 研 究 小 组 (FRG,Fluvial Research Group)为主导的、主要存储 河流沉积露头数据的关系型数据库,目的是详细 描述河流相储层特征并对其中储藏的烃源岩进行 预测。目前收录270个河流研究实例,共50544个 河 流 相 单 元 数 据 (数 据 来 自 : https://www.pds. group/ava-clastics/ Databases# FAKTS); (2) SMAKS (Shallow Marine Architecture Knowledge System),是利兹大学浅海研究小组 (SMRG,Shallow Marine Research Group) 为主导 的、 主要存储浅海沉积露头数据的关系型数据 库,目的是数字化浅海沉积体系的所有基本特征 并对浅海油气开发和勘探提供模型。目前收录130 个研究实例,共14633个浅海相单元数据(数据来 自 : https://www.pds.group/ava-clastics/ Databases# SMAKS); (3) DMAKS (Deep Marine Architecture Knowl⁃ edge System),主要存储来自古代露头数据和现代 深水碎屑岩系统观测数据的关系型数据库,目的 是为深水碎屑岩储层的特征识别提供新的定量模 型。目前收录 66 个深海盆地体系研究实例,共 9688 个深海相单元数据 (数据来自:https://www. pds.group/ava-clastics/ Databases# DMAKS)。 除上述数据库外,世界范围内还有很多与沉 积学相关的数据库(集)(表1),如以沉积地化数 据为主的GSSID(The global sedimentary sulfur isotope database),以露头数据和模拟为主的SAND (Sedi⁃ mentary ANalogs Database),以及隶属于各个国家 的地质调查相关机构的数据库,如英国地质调查 局 (British Geological Survey, BGS),拥有400多个 数据集,如物理数据集 (钻孔岩心、岩石、矿 物)、文字记录、档案;中国地质调查局 (China Geological Survey) 自主开发的地质云 (Geocloud) 涵盖了大量地质图,包括大量地层、沉积相关的 数据。 综上,在大数据潮流到来之际,沉积学领域 已经涌现了大量优秀的数据库,这些数据库主要 关注某一类或某几类数据,依靠人工数字化团队 对文献中的数据进行结构化,是利用大数据思维 模式拟解决区域、小规模和短时间尺度特定沉积 学问题的有效尝试,但是在面临全球、大规模和 长时间尺度综合性的科学问题时,这些数据库仍 然有很多的局限和不足之处:(1) 规模小,数据 形式单一,建设和运营多依赖于个人科学家或单 个科研团队;(2) 发展前景有限,运行状态完全 依赖于资助项目的情况,一旦资助结束,数据库 即更新停滞;(3) 数据覆盖不均匀,数据收集过 程受到科学家自身的研究兴趣和主动性的影响; (4) 时空分辨率低,无法反映真实的信息;(5) 很多文献和数据库资源不开源,难以二次引用和 进一步整合。因此,在当前数据更充足、技术更 29
高校地质学报 26卷1期 表1国际主要沉积学相关数据库(集) Table 1 Table of major sedimentological database or dataset 数据库名称 开发者运营者 数据类型 数据库建设目的 威斯康辛大学 从盆地和大陆尺度对整个地表和地下沉积 Macrostrat https://macrostrat.orgShananE.Peters若性、古生物数据若、火成岩和变质岩的组合进行定量的空间 Alexander ronoy's 静态数据库 Mbt、e体各类沉积物总用定量化的方式来探讨岩石、古地理和构造 团队 之间的关系和规律 SeddblEarthchemhttp://www.earthehem.Lamont-dob 沉积岩石地球化学数收集汇编海洋和大陆沉积物的地球化学数 据,用于沉积学、地球化学、岩石学、海洋 学和古气候研究,并用于教育目的 GeochronIeArthchemhttp:/www.geochron.org哥伦比亚大学全球沉积岩碎屑矿 athChem和 Eathtime,记录地质年 年龄数据 捕获元数据以满足重新计算以及基 行集成 http://www.pds.group 代、古代的河 Ava-elasties 利兹大学 海、深海沉积对不同环境的沉积实例进行分析转换,为能 例数据 htp:∥ oastler.usgs USGS LASED 路易斯安那州沉积岩提供基于多种底图的地质数据共享平台 (美国地质调查和沉积环境数据 dimentaryanalogsdata-罗拉多矿业大沉积岩露头数据 http://www 通过构建沉积岩系统体系结构、开发和响应 SAND 积储层模拟数据 变化的预测模型,促进对全球大陆边缘演化 过程的科学理解 MARS htpe/ dbforms ga.gov.a/澳大利亚 收录澳大利亚海域的为沉积动力学、沉积物定量分析、沉积地球 pls/www/ np m. mars, search地球科学中心现代海相沉积物数据化学研究提供数据基础 The global 西澳大学 收录全球含硫沉积物 sedimentary sulfur 为科学界提供一个完整和更新的全球数据 isotope database gsid- global-- sedimentary Selvaraj V团队的年龄和硫同位素相库,描述沉积岩的多种硫特征随时间的变化 关数据 The global 罗马琳达大学大陆前寒武和 生音 为盆地分析、烃源岩研究、板块重建和检验 paleocurrent database 5.25(2015 古水流数据 全球性构造事件的时间等提供数据基础 收录大洋钻探原始 the world's oc Doi: 10.1 130/G.1 Dutkiewicz A 次报告中的沉积物数解全球海洋沉积物分布规律,对气候变化 Alluvial mudrock 剑桥大学 dataset Doi:10.26 /science. McMahon WJ收录石炭纪之前全球研究太古代-石炭纪冲积相泥质岩的演化及 团队 冲积相泥质岩数据其控制因素 Doi:org/10.2110 俄勒冈州立大学收录地质历史时期全总结全球古气候带的特征,结合古地理位置 lithologies dataset sepmesp II BcdA团队球气候敏感性沉积岩重建气候敏感性沉积岩的古纬度,为研究气 先进的条件下,有必要建立更高精度、更全面的形成和破坏、大规模古生物演化等问题提供了可 地学数据库,更高效地收集和挖掘沉积地质领域能( Peters and husson,2018),是现阶段沉积大数 的“暗数据”和长尾数据,进一步探索和理解深据库建设的一个范例。这里详细介绍其数据库的 时地质历史的演化过程和机制。 结构、创新的工作模式以及相关的研究实例。 2 Macrostrat数据库剖析 2.1数据库结构 Macrostrat是以沉积学为主的地质数据库,由 Macrostrat是一个综合多学科、多尺度、多层美国威斯康辛大学 Shanan e. Peters团队创立,于 次方法的数据共享平台,侧重于定量总结岩石记2005年正式启动,由NSF资助。是基于 MariaDB 录时空分布格局,为科学家研究全球沉积岩记录和 PostGIS- enabled PostgreSQL环境开发的关系型 D MariaDB:一种数据库管理系统,由社区开发,与 MySQL(目前最常见的开源关系型数据库系统)高度兼容 ② PostgresQL:一种开源的对象一关系数据库管理系统; PostGIs是 PostgreSQL的一个扩展,提供空间对象、空间索引、空间操作函数和空间操作符 等空间信息服务功能(https:/zh.wikipedia.org)
高 校 地 质 学 报 2 6 卷 1 期 先进的条件下,有必要建立更高精度、更全面的 地学数据库,更高效地收集和挖掘沉积地质领域 的“暗数据”和长尾数据,进一步探索和理解深 时地质历史的演化过程和机制。 2 Macrostrat数据库剖析 Macrostrat是一个综合多学科、多尺度、多层 次方法的数据共享平台,侧重于定量总结岩石记 录时空分布格局,为科学家研究全球沉积岩记录 形成和破坏、大规模古生物演化等问题提供了可 能 (Peters and Husson, 2018),是现阶段沉积大数 据库建设的一个范例。这里详细介绍其数据库的 结构、创新的工作模式以及相关的研究实例。 2.1 数据库结构 Macrostrat是以沉积学为主的地质数据库,由 美国威斯康辛大学 Shanan E. Peters 团队创立,于 2005年正式启动,由NSF资助。是基于MariaDB① 和 PostGIS-enabled PostgreSQL②环境开发的关系型 表1 国际主要沉积学相关数据库 (集) Table 1 Table of major sedimentological database or dataset ① MariaDB:一种数据库管理系统,由社区开发,与MySQL(目前最常见的开源关系型数据库系统)高度兼容. ② PostgreSQL:一种开源的对象—关系数据库管理系统;PostGIS是PostgreSQL的一个扩展,提供空间对象、空间索引、空间操作函数和空间操作符 等空间信息服务功能(https://zh.wikipedia.org/). 数据库名称 Macrostrat Alexander Ronov's Database SedDB |EarthChem GeoChron |EarthChem Ava-clastics LASED SAND MARS The global sedimentary sulfur isotope database The global paleocurrent database Seafloor sediments in the world's ocean Alluvial mudrock dataset Climate-sensitive lithologies dataset 网址 https://macrostrat.org 线下静态数据库 http: //www.earthchem . org/seddb http: //www.geochron.org http: //www.pds.group/ ava-clastics http: //coastal.er.usgs . gov/lased http://www. sedimentaryanalogsdata base.com http://dbforms ga. gov.au/ pls/www/np m.mars.search http://ww.cet.edu.au/res earch-projects/ special-projects/ gssid-global-sedimentary -sulfur-isotope-database Doi: 10.1038/sdata 2015.25 (2015). Doi:10.1130/G36883.1 Doi: 10.1126/science. aan4660 Doi: org/10.2110/ sepmcsp.11 开发者运营者 威斯康辛大学 Shanan E. Peters 团队 Alexander Ronov 团队 Lamont-Doherty 地球天文台 哥伦比亚大学 利兹大学 USGS (美国地质调查 局) 科罗拉多矿业大 学 澳大利亚 地球科学中心 西澳大学 Selvaraja V团队 罗马琳达大学 悉尼大学 Dutkiewicz A 团队 剑桥大学 McMahonW J 团队 俄勒冈州立大学 Boucot A J团队 数据类型 北美地区地层、 岩性、古生物数据 由地质图或钻井获得 的全球各类沉积物总 量和分布的数据 沉积岩石地球化学数 据 全球沉积岩碎屑矿物 年龄数据 收录现代、古代的河 流、浅海、深海沉积 序列实例数据 路易斯安那州沉积岩 和沉积环境数据 沉积岩露头数据和沉 积储层模拟数据 收录澳大利亚海域的 现代海相沉积物数据 收录全球含硫沉积物 的年龄和硫同位素相 关数据 收集已发表文献中各 大陆前寒武和显生宙 古水流数据 收录大洋钻探原始航 次报告中的沉积物数 据 收录石炭纪之前全球 冲积相泥质岩数据 收录地质历史时期全 球气候敏感性沉积岩 数据 数据库建设目的 从盆地和大陆尺度对整个地表和地下沉积 岩、火成岩和变质岩的组合进行定量的空间 和地质年代学分析 用定量化的方式来探讨岩石、古地理和构造 之间的关系和规律 收集汇编海洋和大陆沉积物的地球化学数 据,用于沉积学、地球化学、岩石学、海洋 学和古气候研究,并用于教育目的 服务于EathChem和Eathtime,记录地质年 代,同时捕获元数据以满足重新计算以及基 他数据进行集成 对不同环境的沉积实例进行分析转换,为能 源行业提供服务 提供基于多种底图的地质数据共享平台 通过构建沉积岩系统体系结构、开发和响应 变化的预测模型,促进对全球大陆边缘演化 过程的科学理解 为沉积动力学、沉积物定量分析、沉积地球 化学研究提供数据基础 为科学界提供一个完整和更新的全球数据 库,描述沉积岩的多种硫特征随时间的变化 为盆地分析、烃源岩研究、板块重建和检验 全球性构造事件的时间等提供数据基础 了解全球海洋沉积物分布规律,对气候变化 及其对海洋环境的影响进行重建和预测 研究太古代-石炭纪冲积相泥质岩的演化及 其控制因素 总结全球古气候带的特征,结合古地理位置 重建气候敏感性沉积岩的古纬度,为研究气 候分带和气候变化提供依据 30
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 地理空间数据库和辅助性的网络基础设施,可以理(图1a-c)为每个控制点分配控制范围,该方 通过网页进行访问(https://macrostrat.org) 法保证了每个多边形内的任意一点与其控制点的 Macrostrat目前主要涵盖北美、加勒比、新西距离,都小于与其他控制点的距离,并默认该范 兰地区及IODP部分研究区的地层数据、PBDB围内的地层信息与地层柱一致。该过程是在R语 ( Paleobiology Database)的化石数据、 USGS( United言环境下完成的,同时允许对多边形进行人为编 States Geological Survey)的地球化学数据、 Mindat辑,以保证多边形的边界与有地质意义的特征边 的矿物数据以及涵盖全球范围的地质图数据。界保持一致,如大的不整合面、断层面等。由于 Macrostrat致力于应用这些新的数据来开展研究 多边形的大小取决于地层柱的密度,因此其大小 22空间信息 并不一致(图1e) (1)地层柱( Column),是 Macrostrat的主要 (3)单元( Units),是组成地层柱的基本元 空间数据对象,是代表某个区域整体地质概况的素,也是 Macrostrat数据库的核心要素,在数据录 地层综合体,最早由美国科学家在编制北美地层人时被识别为与其他相邻单元在古生物、岩性和/ 对比表( Correlation of Stratigraphic Units of North或年代上不同的岩体或沉积物。在 Macrostrat中 America, COSUNA)时提出。在 COSUNA提供的每个单元具备地层名称、测量数据(如厚度)、沉 地层对比表中,每个 Column本质上是一个复合地积环境、矿物、化石、组成单元的岩性(一种或 层柱,代表了整个盆地的综合地质信息。由于不多种)等信息。所有单元属性信息均以表格形式 同区域的构造格架不同,因此人为地决定地层柱进行存储(图2)。 的分布密度,在构造程度复杂的区域(如大陆边23时间信息 缘)进行加密,以保证获取最有代表性的地质信2.3.1地质年代信息 息(图1d)。 Macrostrat储存了多种相互关联、在相对和绝 (2)多边形( Polygon),是地层柱映射的地理对意义上与数值年龄相关的地层划分方案(如年 分区。多边形提出的目的是定量分析整个北美区代地层、生物地层、岩石地层等)。其中年代地层 域的岩石地层信息。 Macrostrat以地层柱为区域岩单元具有数值年龄,主要参考由国际地层学委员 石地层信息的控制点,按照Delaunary三角划分原会发布的最新数据(www.stratigraphy.org);对于没 (d地层柱位置 e)多边形面积 a-() Delaunary三角划分示意图:(a)地层柱控制点C1、C2、C3;(b)控制点连线(灰色)及垂直平分线(蓝色);()控制点的控制范围(垂直平分线 相交的多边形彩色区域);(d-(e)北美大陆的多边形划分(据 Mevers et a.2011改):(d)北美地区地层柱的分布位置;(e)每个地层柱代表的区域 图1多边形面积划分原理 Fig 1 Schematic of polygon DR语言:一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖据(https://zh.wikipedia.orgf)
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 地理空间数据库和辅助性的网络基础设施,可以 通过网页进行访问(https://macrostrat.org)。 Macrostrat目前主要涵盖北美、加勒比、新西 兰地区及 IODP 部分研究区的地层数据、PBDB (Paleobiology Database)的化石数据、USGS(United States Geological Survey) 的地球化学数据、Mindat 的矿物数据以及涵盖全球范围的地质图数据。 Macrostrat致力于应用这些新的数据来开展研究。 2.2 空间信息 (1) 地层柱 (Column),是 Macrostrat 的主要 空间数据对象,是代表某个区域整体地质概况的 地层综合体,最早由美国科学家在编制北美地层 对 比 表 (Correlation of Stratigraphic Units of North America,COSUNA) 时提出。在 COSUNA 提供的 地层对比表中,每个Column本质上是一个复合地 层柱,代表了整个盆地的综合地质信息。由于不 同区域的构造格架不同,因此人为地决定地层柱 的分布密度,在构造程度复杂的区域 (如大陆边 缘) 进行加密,以保证获取最有代表性的地质信 息(图1d)。 (2) 多边形 (Polygon),是地层柱映射的地理 分区。多边形提出的目的是定量分析整个北美区 域的岩石地层信息。Macrostrat以地层柱为区域岩 石地层信息的控制点,按照Delaunary三角划分原 理 (图1 a-c) 为每个控制点分配控制范围,该方 法保证了每个多边形内的任意一点与其控制点的 距离,都小于与其他控制点的距离,并默认该范 围内的地层信息与地层柱一致。该过程是在 R 语 言①环境下完成的,同时允许对多边形进行人为编 辑,以保证多边形的边界与有地质意义的特征边 界保持一致,如大的不整合面、断层面等。由于 多边形的大小取决于地层柱的密度,因此其大小 并不一致(图1e)。 (3) 单元 (Units),是组成地层柱的基本元 素,也是Macrostrat数据库的核心要素,在数据录 入时被识别为与其他相邻单元在古生物、岩性和/ 或年代上不同的岩体或沉积物。在 Macrostrat 中, 每个单元具备地层名称、测量数据 (如厚度)、沉 积环境、矿物、化石、组成单元的岩性 (一种或 多种) 等信息。所有单元属性信息均以表格形式 进行存储(图2)。 2.3 时间信息 2.3.1 地质年代信息 Macrostrat储存了多种相互关联、在相对和绝 对意义上与数值年龄相关的地层划分方案 (如年 代地层、生物地层、岩石地层等)。其中年代地层 单元具有数值年龄,主要参考由国际地层学委员 会发布的最新数据(www.stratigraphy.org);对于没 (a) (b) (c) (d) (e) (a)-(c) Delaunary三角划分示意图:(a) 地层柱控制点(C1、C2、C3);(b) 控制点连线(灰色)及垂直平分线(蓝色);(c) 控制点的控制范围(垂直平分线 相交的多边形彩色区域);(d)-(e) 北美大陆的多边形划分(据Meyers et al., 2011 改):(d) 北美地区地层柱的分布位置;(e) 每个地层柱代表的区域 图 1 多边形面积划分原理 Fig. 1 Schematic of polygon areas’ division ①R语言:一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘(https://zh.wikipedia.org/). 31
高校地质学报 26卷1期 文献 年龄+位置… Plate 测试方法 测试元数据 属性 地层柱群 地层柱 吉地理 单元 矿物 项目 岩石属性 时间尺度 地质图单元 地层名称 名称级别 术语 原始地质图 地层名称概念 图2 Macrostrat:数据库核心元素及其关系示意图(据 Peters et al.2018) Fig.2Simplified schematic of core database elements and their relationships in Macrostrat (from Peters et. 2018) 有数值年龄限制的地层单元, Macrostrat以相邻地而是默认遍历整个地质年代间隔,如图3a中的A 层单元的数值年龄为标尺,按照间隔进行内插标单元被限定在整个泥盆系艾菲尔阶,F单元被限定 定,系统不直接赋予数值年龄,但其在时间序列在吉维特阶一弗拉阶。而真实情况是,地层单元 上的位置是确定的。这种管理地层划分方案和地的持续时间往往比它们可以相互关联的地质年代 质年代信息的方法更加简洁、透明,并具有数据间隔要短,因此利用箱式年龄模型进行定量化必 管理优势。 定产生较大的误差。 2.3.2连续年龄模型 为了进行精确的地层量化, Macrostrat提出了 传统的地层划分普遍采取“箱式”年龄模型地层的连续年龄模型(图3),(1)在时间轴上, (图3a),即地层单元没有精确数值年龄的限制 根据古生物谱系、接触关系等时代判断指标,叠 加地层单元A-F;(2)选择顶、底具有数值年龄 箱式年龄模型 连续年龄模型 的地层段,对其内部的岩石分布时间进行调整。 如已知单元A的底部为389Ma,并非遍历艾菲尔 阶,单元F的顶部为380Ma,也并非遍历整个弗 拉阶,则将A-F限定在389-380Ma之间;对于无 精确年龄限定的BCDE单元,将进行内插标定数值 年龄。 Macrostrat建立这一模型的目的是进行时间 轴上的岩石量化,因此不强调各单元之间的物理 接触关系,而强调单元之间的时间连续性。这种 沿时间轴以一定时间间隔获取单元数量的量化方 B A 式,极大的推动了岩石通量随时间演化的研究。 24岩石地层名称和级别 Macrostra通过三种方式来管理岩石地层名 称:(1)标识相同地质实体的地层名称,如“ Takata 图3“箱式”年龄模型(a)与连续年龄模型(b) 砂岩”、“ Nakata组”和“ Nakata砾岩”,会被分别 (据 Peters et a,2018) Fig 3(a)"binned versus(b)continuous age model 储存,但指示相同的岩石单元,同时这些名称会 from Peters et al., 2018) 与附加信息建立关联,包括地质年龄、地理区
高 校 地 质 学 报 2 6 卷 1 期 有数值年龄限制的地层单元,Macrostrat以相邻地 层单元的数值年龄为标尺,按照间隔进行内插标 定,系统不直接赋予数值年龄,但其在时间序列 上的位置是确定的。这种管理地层划分方案和地 质年代信息的方法更加简洁、透明,并具有数据 管理优势。 2.3.2 连续年龄模型 传统的地层划分普遍采取“箱式”年龄模型 (图 3a),即地层单元没有精确数值年龄的限制, 而是默认遍历整个地质年代间隔,如图 3a 中的 A 单元被限定在整个泥盆系艾菲尔阶,F单元被限定 在吉维特阶—弗拉阶。而真实情况是,地层单元 的持续时间往往比它们可以相互关联的地质年代 间隔要短,因此利用箱式年龄模型进行定量化必 定产生较大的误差。 为了进行精确的地层量化,Macrostrat提出了 地层的连续年龄模型 (图3b),(1) 在时间轴上, 根据古生物谱系、接触关系等时代判断指标,叠 加地层单元 A-F;(2) 选择顶、底具有数值年龄 的地层段,对其内部的岩石分布时间进行调整。 如已知单元 A 的底部为 389 Ma,并非遍历艾菲尔 阶,单元 F 的顶部为 380 Ma,也并非遍历整个弗 拉阶,则将A-F限定在389~380 Ma之间;对于无 精确年龄限定的BCDE单元,将进行内插标定数值 年龄。Macrostrat建立这一模型的目的是进行时间 轴上的岩石量化,因此不强调各单元之间的物理 接触关系,而强调单元之间的时间连续性。这种 沿时间轴以一定时间间隔获取单元数量的量化方 式,极大的推动了岩石通量随时间演化的研究。 2.4 岩石地层名称和级别 Macrostrat 通过三种方式来管理岩石地层名 称:(1)标识相同地质实体的地层名称,如“Dakata 砂岩”、“Dakata组”和“Dakata砾岩”,会被分别 储存,但指示相同的岩石单元,同时这些名称会 与附加信息建立关联,包括地质年龄、地理区 图2 Macrostrat数据库核心元素及其关系示意图(据Peters et al., 2018) Fig. 2 Simplified schematic of core database elements and their relationships in Macrostrat (from Peters et al., 2018) (a) (b) 地质年龄/Ma 图3 “箱式”年龄模型(a)与连续年龄模型(b) (据Peters et al., 2018) Fig. 3 (a)“binned”versus (b) continuous age model ( from Peters et al., 2018) 380 375 385 390 32
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 域、参考文献等;(2)对岩石地层名称建立基于 Macrostrat为数据提供了基于 PLates平台的板块构 从属关系的层级体系,如“ Takata组”是三个造框架,可实现板块构造重建的交互式操作及各 “段”级别的更高一级名称,这样便于访问者以任类数据在地质时间尺度上的可视化,并能够通过 何名称作为关键词访问数据库时,可以获得所有地球动力学计算将 Macrostrat的各类数据与板块构 相关的地层数据;(3)通过u来链接相关岩石地造模型有效结合。 Macrostrat数据与 Plates模型的 层名称术语的原始数据页。 结合是基于 Python语言来实现的,其中, Macrostrat Macrostate术语管理方式,不仅可以满足岩石提供岩石地层单元的地质年龄和现代地理位置 地层名称的高效存储,同时由于其岩石地层名称 Plates提供相应古地理位置,目前只针对560Ma 体系的动态性和关联性,数据库能够及时发现潜以来的古地理重建。 在的歧义和错误术语并进行改善和补充。 2.8系列产品 2.5地质图 为了充分挖掘 Macrostrat的现有数据,其团队 Macrostrat嵌入和链接了4种比例尺的全球地开发了一系列快捷方便的网页端口或者移动端的 质图,目前已涵盖超过200张地质图,超过15000软件工具,满足于各类用户需求。 个 Macrostrat单元。 Macrostrat的地质图数据库存储 (1) Macrostrat Beta 三种信息:(1)基于矢量的原始地图对象(多边 是 Macrostrat专门用于数据访问的网页端口 形、直线、点)及其属性,并将其转换为 Postgis目前已经更新至0.3版本。通过该端口,用户可以 环境;(2)所有进行标准化的地图,包括所有地了解数据库当前的建设情况以及进行相关数据和 质图对象共有的元素;(3)存储地质图对象和文献下载;同时新开发的功能也将在该平台进行 Macrostrat实体的表格。 Macrostrat地质图数据的核示 心是建立地质图多边形与单元之间的联系,同时 (2)Sift 任何其他与 Macrostrat单元相关联的数据,如PBDB 是 Macrostrat的搜索网络界面,是一款面向大 化石数据、古水流测量数据等都可以作为地图多众的可视化信息筛选器,目前可以根据时代、地 边形的属性进行继承,其最终目的是将地质图所层单元、岩性、地层柱、地层柱组、沉积环境 包含的资料和信息用于现场地质考察、数据综合矿产类型对数据进行筛选。但Sif目前无法进行筛 分析等。 选条件的组合,如同时限定岩性和时代,另外也 2.6地形数据 无法做到CSV源文件的导出。 Macrostrat提供美国国家海洋和大气局( National 对于有更精确的数据分析需求的用户 eanic and Atmospheric Administration, NOAA) Fll Macrostrat tE it API(Application Program Interface 美国国家航空和宇宙航行局( National aeronautics应用程序界面)接口,通过AP接口可以实现更自 and Space Administration,NASA)开发的 ETOPO1由的筛选数据,并获得CSⅤ等格式的源数据。用 和SRTM数字高程模型,将这些基于栅格的地形户可以通过网页浏览器按照 Macrostrat的预设规 数据与 Macrostrat基于Gs环境的地理数据相匹则,直接以AP命令行形式访问数据库核心,筛选 配,用户可以通过移动应用程序或者网页界面进并导出数据。 行访问。 2.7 Plates模型 是基于 Macrostrat所收录的地质图开发的网络 古地理环境对地球系统科学的众多问题具有搜索界面,用于检索全球不同比例尺的地质图。 重要意义,如重建气候敏感性沉积岩的时空分布 (4)Rock ( Cao et al,2018)、研究大陆漂移对碳酸盐沉积的 是 Macrostrat团队开发的移动端APP,利用 影响( Walker et al.2002)、探索板块构造与生物 Macrostrat的API进行数据勘探和可视化,内部包 多样性之间的联系( Zaffos et al.,2017)。因此括全球范围的地质图以及指向 Macrostrat和 ① ETOPOI:一种地形高程数据,包括陆地高程数据和海洋海底地形数据 ②sRTM( Shuttle Radar Topography Mission),即航天飞机雷达地形测绘任务,主要任务为获取地表雷达影像,绘制数字地形高程模型(百度百科)
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 域、参考文献等;(2) 对岩石地层名称建立基于 从属关系的层级体系,如“Dakata 组”是三个 “段”级别的更高一级名称,这样便于访问者以任 何名称作为关键词访问数据库时,可以获得所有 相关的地层数据;(3) 通过url来链接相关岩石地 层名称术语的原始数据页。 Macrostrat术语管理方式,不仅可以满足岩石 地层名称的高效存储,同时由于其岩石地层名称 体系的动态性和关联性,数据库能够及时发现潜 在的歧义和错误术语并进行改善和补充。 2.5 地质图 Macrostrat 嵌入和链接了 4 种比例尺的全球地 质图,目前已涵盖超过200张地质图,超过15000 个Macrostrat单元。Macrostrat的地质图数据库存储 三种信息:(1) 基于矢量的原始地图对象 (多边 形、直线、点) 及其属性,并将其转换为PostGIS 环境;(2) 所有进行标准化的地图,包括所有地 质图对象共有的元素;(3) 存储地质图对象和 Macrostrat实体的表格。Macrostrat地质图数据的核 心是建立地质图多边形与单元之间的联系,同时 任何其他与Macrostrat单元相关联的数据,如PBDB 化石数据、古水流测量数据等都可以作为地图多 边形的属性进行继承,其最终目的是将地质图所 包含的资料和信息用于现场地质考察、数据综合 分析等。 2.6 地形数据 Macrostrat提供美国国家海洋和大气局(National Oceanic and Atmospheric Administration, NOAA) 和 美国国家航空和宇宙航行局 (National Aeronautics and Space Administration, NASA) 开发的 ETOPO1① 和SRTM②数字高程模型,将这些基于栅格的地形 数据与 Macrostrat 基于 GIS 环境的地理数据相匹 配,用户可以通过移动应用程序或者网页界面进 行访问。 2.7 Gplates模型 古地理环境对地球系统科学的众多问题具有 重要意义,如重建气候敏感性沉积岩的时空分布 (Cao et al., 2018)、研究大陆漂移对碳酸盐沉积的 影响 (Walker et al., 2002)、探索板块构造与生物 多样性之间的联系 (Zaffos et al., 2017)。因此 Macrostrat为数据提供了基于GPlates平台的板块构 造框架,可实现板块构造重建的交互式操作及各 类数据在地质时间尺度上的可视化,并能够通过 地球动力学计算将Macrostrat的各类数据与板块构 造模型有效结合。Macrostrat数据与Gplates模型的 结合是基于Python语言来实现的,其中,Macrostrat 提供岩石地层单元的地质年龄和现代地理位置, Gplates提供相应古地理位置,目前只针对560 Ma 以来的古地理重建。 2.8 系列产品 为了充分挖掘Macrostrat的现有数据,其团队 开发了一系列快捷方便的网页端口或者移动端的 软件工具,满足于各类用户需求。 (1)Macrostrat Beta 是 Macrostrat 专门用于数据访问的网页端口, 目前已经更新至0.3版本。通过该端口,用户可以 了解数据库当前的建设情况以及进行相关数据和 文献下载;同时新开发的功能也将在该平台进行 展示。 (2)Sift 是Macrostrat的搜索网络界面,是一款面向大 众的可视化信息筛选器,目前可以根据时代、地 层单元、岩性、地层柱、地层柱组、沉积环境、 矿产类型对数据进行筛选。但Sift目前无法进行筛 选条件的组合,如同时限定岩性和时代,另外也 无法做到CSV源文件的导出。 对 于 有 更 精 确 的 数 据 分 析 需 求 的 用 户 , Macrostrat 提 供 API (Application Program Interface 应用程序界面)接口,通过API接口可以实现更自 由的筛选数据,并获得 CSV 等格式的源数据。用 户可以通过网页浏览器按照 Macrostrat 的预设规 则,直接以API命令行形式访问数据库核心,筛选 并导出数据。 (3)Map 是基于Macrostrat所收录的地质图开发的网络 搜索界面,用于检索全球不同比例尺的地质图。 (4)Rockd 是 Macrostrat 团队开发的移动端 APP,利用 Macrostrat 的 API 进行数据勘探和可视化,内部包 括 全 球 范 围 的 地 质 图 以 及 指 向 Macrostrat 和 ① ETOPO1:一种地形高程数据,包括陆地高程数据和海洋海底地形数据. ② SRTM(Shuttle Radar Topography Mission),即航天飞机雷达地形测绘任务,主要任务为获取地表雷达影像,绘制数字地形高程模型(百度百科). 33
高校地质学报 26卷1期 Geodeepdive的链接。 Rock用户可以轻松地记录 实时地质现象,掌握实时考察的构造位置、地层 T时间面 概况,并使用实地的位置为附近的地质单元、化 仅跨越顶界 沉积包 石提供空间信息建议。 同时跨越顶底界 限定在时间间隔之内 3 Macrostrat数据库沉积物质的量化 解析地质记录的时空分布结构,需要获取以 b和t表示跨越区间的底部(botm)和顶部(top)边界,F和L表示在 区间内的第一次(frst)和最后一次(last)出现(据Fote,2000改) 下量化数据:岩石数量、岩石类型、岩石地理 图4给定时间间隔内的沉积包类型 岩石沉积环境以及岩石记录的时间连续性。时间 Fig. 4 Types of gap-bounded sediment packages present 连续性指的是地质记录以一定的时空分辨率不间 within a stratigraphic interval 断地保存地质历史的程度。 3.1量化的基本单元— Packages (bt)、沉积包仅跨越了时间间隔顶界(Ft)。从而, Macrostrat地层岩石量化的核心思想是:在地地质记录可以借鉴古生物学的算法,计算时间轴上 球表面的某特定位置的稳定沉积环境下,沉积物沉积包的“多样性”、“起源率”和“灭绝率”。 随时间流逝不断就位、沉积,直到稳定环境发生32盆地尺度的沉积物质量化 改变。 Macrostrat将形成于稳定沉积阶段的三维沉 地层柱代表了盆地的综合地质信息,模拟盆 积体定义为一个沉积包( Packages)。沉积包之间发地尺度的量化是大陆尺度量化的基础。模拟的假 生沉积环境的变化,表现为两个方面,一是沉积停设前提是在相邻时间间隔内的沉积包的持续分布 止甚至开始侵蚀,二是沉积物的性质发生变化,将概率遵循 Poisson过程,即每个时间间隔内不同沉 这两种环境变化对应的阶段称为“间断”(gap)。 积包的发生是随机事件。通过统计时间轴上沉积 沉积包类似于由层序边界所限定的沉积体系包的类型和数量,即可对盆地的地层演化进行量 域,不同之处在于层序地层界面是穿时的,而沉积化分析(图5) 包在时间轴上具有时间连续性。为了对地层柱进行 (1)以单个地层柱为对象,确定纵向每一时 量化, Macrostrat类比古生物学描述物种时间跨度间间隔内沉积包的类型。如图5,红色阴影代表 的方式,将一个被“间断”所约束的沉积包设想为地层柱( Column5),由沉积间断划分为两个沉积 个生物分类单元(图4),则给定任意的时间间包 Package package2。在t1-16的所有时间间隔内 隔,所有沉积包将归属于以下四种之一:沉积包仅 Packager均为bt类型沉积包;t6-t7内, Package仅 跨越时间间隔底界(bL)、沉积包限定在时间间隔跨越了t6,为b类型沉积包;t-t18对应沉积间 内(HL)、沉积包同时跨越时间间隔顶、底界断;tl8-t19的顶部出现沉积, Package2为F类型 地层柱的位置 地层生长率地层灭绝率地多样性 ntn Pagkag 0051015005101505101520c1c3c5c7c9c11c13c15c1701c21c23 陆地方向 -19:时间间隔,C1-C23:地层柱,浅蓝色阴影部分:沉积作用,空白:沉积间断,A-E:各沉积阶段,详见正文(据 Peters,2006) 图5理想化盆地尺度地层量化模型 Fig. 5 Schematic of stratigraphic quantificatic lel at basin scale
高 校 地 质 学 报 2 6 卷 1 期 Geodeepdive 的链接。Rockd 用户可以轻松地记录 实时地质现象,掌握实时考察的构造位置、地层 概况,并使用实地的位置为附近的地质单元、化 石提供空间信息建议。 3 Macrostrat数据库沉积物质的量化 解析地质记录的时空分布结构,需要获取以 下量化数据:岩石数量、岩石类型、岩石地理、 岩石沉积环境以及岩石记录的时间连续性。时间 连续性指的是地质记录以一定的时空分辨率不间 断地保存地质历史的程度。 3.1 量化的基本单元——Packages Macrostrat地层岩石量化的核心思想是:在地 球表面的某特定位置的稳定沉积环境下,沉积物 随时间流逝不断就位、沉积,直到稳定环境发生 改变。Macrostrat将形成于稳定沉积阶段的三维沉 积体定义为一个沉积包(Packages)。沉积包之间发 生沉积环境的变化,表现为两个方面,一是沉积停 止甚至开始侵蚀,二是沉积物的性质发生变化,将 这两种环境变化对应的阶段称为“间断”(gap)。 沉积包类似于由层序边界所限定的沉积体系 域,不同之处在于层序地层界面是穿时的,而沉积 包在时间轴上具有时间连续性。为了对地层柱进行 量化,Macrostrat类比古生物学描述物种时间跨度 的方式,将一个被“间断”所约束的沉积包设想为 一个生物分类单元 (图4),则给定任意的时间间 隔,所有沉积包将归属于以下四种之一:沉积包仅 跨越时间间隔底界 (bL)、沉积包限定在时间间隔 内 (FL)、沉积包同时跨越时间间隔顶、底界 (bt)、沉积包仅跨越了时间间隔顶界 (Ft)。从而, 地质记录可以借鉴古生物学的算法,计算时间轴上 沉积包的“多样性”、“起源率”和“灭绝率”。 3.2 盆地尺度的沉积物质量化 地层柱代表了盆地的综合地质信息,模拟盆 地尺度的量化是大陆尺度量化的基础。模拟的假 设前提是在相邻时间间隔内的沉积包的持续分布 概率遵循Poisson过程,即每个时间间隔内不同沉 积包的发生是随机事件。通过统计时间轴上沉积 包的类型和数量,即可对盆地的地层演化进行量 化分析(图5)。 (1) 以单个地层柱为对象,确定纵向每一时 间间隔内沉积包的类型。如图5,红色阴影代表一 地层柱 (Column 5),由沉积间断划分为两个沉积 包Package1、Package2。在t1-t6的所有时间间隔内, Package1均为bt类型沉积包;t6-t7内,Package1 仅 跨越了 t6,为 bL 类型沉积包;t7-t18 对应沉积间 断;t18-t19 的顶部出现沉积,Package2 为 Ft 类型 b和t表示跨越区间的底部(bottom)和顶部(top)边界,F和L表示在 区间内的第一次(first)和最后一次(last)出现(据Foote, 2000 改) 图4 给定时间间隔内的沉积包类型 Fig. 4 Types of gap-bounded sediment packages present within a stratigraphic interval t1-t19:时间间隔,C1-C23:地层柱,浅蓝色阴影部分:沉积作用,空白:沉积间断,A-E:各沉积阶段,详见正文(据Peters, 2006) 图5 理想化盆地尺度地层量化模型 Fig. 5 Schematic of stratigraphic quantification model at basin scale 变年轻 限定在时间间隔之内 仅跨越底界 仅跨越顶界 同时跨越顶底界 沉积包 T T时间面 T bL FL Ft bt 34
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 35 沉积包;t19-120内, Package2为bt类型沉积包 同类型、不同岩性、不同沉积环境的沉积包数量及 (2)统计每一时间间隔内所有地层柱各类型其总量。以该数据为基础, Shanan e. Peters团队对 沉积包的数量。如在t1-12时间间隔内,仅C3-C8北美大陆显生宙沉积物的演化模式及相关科学问题 地层柱有沉积作用,C3、C8表现为仅跨越顶界口进行了深入研究,将在第五部分进行详细论述。 的bL类型沉积包,C4-C7表现为同时跨越顶34面积和体积的提取 (t2)、底(t)界的bt类型沉积包,即Xs=2, (1) Macrostrat借助计算机技术为地层柱分配 X=4,Xn=0,Xn=0(X代表沉积包的数量)。 了地理多边形,每个多边形具有确定的面积(图 (3)根据经验公式计算各项量化指标 1)。根据地层柱给出的厚度,可以计算沉积物质 N=X+X+X+Xn,N代表地层多样性,的体积( Meyers and Peters,2011)。 用于衡量盆地在某时间段内岩石沉积包多样性 (2)借助于对地质图的解析来计算地层分布 p=-ln[X/(Xa+X,p代表地层起源率,用面积。由计算机地质制图得到的电子地质图,其 于衡量盆地在某时间段内岩石沉积包新生的速率;岩石单元包括了一系列数字属性数据:面积、时 q=-lnX/(Xm+X),q代表地层灭绝率,用代、岩石类型和名称信息等,因此可以通过直观 于衡量盆地在某时间段内岩石沉积包灭绝的速率。的统计学手段得到各时间间隔内的不同种类岩石的 (4)绘制演化曲线,解释定量化数据产生的面积分布。非电子版地质图,首先要对其进行数字 曲线的地质学意义。如对图5的模拟可以得到以下扫描,利用图像分析软件将地质图转化为地理信息 结论:1)沉积地区收缩并快速向盆地移动时,形系统(GIS)格式,对图上每种岩石类型或每个岩 成不整合,对应地层多样性的大幅度脉冲(A);石单元占据的像素计数,通过在每张地质图上的若 2)当向盆地的沉积转变停止并且保存的沉积记录干个1°×1°的区域中,将累计像素缩放到真实区域 向空间扩张时,地层灭绝率下降为0(B);3)随从而将其转化为大陆面积( Wilkinson et al.,2009)。 海侵使得沉积向陆转变,地层灭绝率和起源率都4 Macrostrat文本挖掘技术 开始增加,即向陆的沉积作用提高了地层起源 综合分析已发表的海量的文献数据,人工操 率,但是由于盆地内缺乏沉积物,地层灭绝率也作非常耗时,并且会生成一个与主要数据源断开 相应提高(D);5)最大洪泛面时对应最高的地层连接的非扩展数据库。因此亟需建设一个可动态 多样性(E)。 扩展的、可靠的网络基础设施,以促进发现、获 3.3大陆尺度的沉积物质量化 取、利用和引用已发表文献中的数据和知识 整个北美大陆由多个沉积盆地组成,沉积盆 Macrostate除了提供开源的沉积学数据外,还 地的地质信息由地层柱来表示,因此大陆尺度的提供了针对文献的机器阅读技术平台: Geodeepdive 量化将按照单个盆地依次处理,不同盆地的贡献即自动从已发表文献的文本、表格和图片中锁定 将根据其面积进行加权。 并提取有用信息的技术。 Geodeepdive机器阅读主 地层综合柱状图反映了区域的地质信息,其要涉及的计算机技术包括光学字符辨识、文档布 具备了岩石种类、时代范围、厚度以及岩石地层局识别、自然语言处理和结构化查询语言。 单元、接触关系等属性,以国际地层委员会给出 Geodeepdive的目的是:(1)降低数据集成的时间 的地质年代为时间间隔,很容易提取每个时间间和成本,将科学家的工作重心从缓慢且昂贵的数 隔对应的沉积包类型及数量。 Macrostrat按照该方据整合工作转移到创造性的假设测试;(2)测试 法人工编录统计了 COSUNA和加拿大地质调查局关键结论的重现性,加深对重大科学问题的理 ( Geological Survey of Canada,GSC)显生宙所有地解;(3)促进机器阅读技术发展,尤其是在科研领 层柱的沉积包,并按照沉积环境或岩性对沉积包域中得到部署和验证;(4)基于现有文献中的字段 进行分类。 和样本,更集中、高效、智能地生成衍生数据。为 Macrostrat通过以上大陆尺度的量化过程,获得了实现以上目的, Geodeepdive与8大出版商(图 初步量化数据:以“阶”(1-3Ma)为时间间隔的不6)达成协议,获取巨大的文献数据库用于机器阅
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 沉积包;t19-t20内,Package2为bt类型沉积包。 (2) 统计每一时间间隔内所有地层柱各类型 沉积包的数量。如在t1-t2时间间隔内,仅C3-C8 地层柱有沉积作用,C3、C8表现为仅跨越顶界t2 的 bL 类型沉积包,C4-C7 表现为同时跨越顶 (t2)、底 (t1) 界的 bt 类型沉积包,即 Xbl =2, Xbt =4,XFt =0,XFL =0(X代表沉积包的数量)。 (3)根据经验公式计算各项量化指标: N = Xbt + XFt + Xbl + XFL,N 代表地层多样性, 用于衡量盆地在某时间段内岩石沉积包多样性; p= -In [ Xbt / (Xbt + XFt)],p代表地层起源率,用 于衡量盆地在某时间段内岩石沉积包新生的速率; q= -In[ Xbt /(Xbt + Xbl )],q代表地层灭绝率,用 于衡量盆地在某时间段内岩石沉积包灭绝的速率。 (4) 绘制演化曲线,解释定量化数据产生的 曲线的地质学意义。如对图5的模拟可以得到以下 结论:1) 沉积地区收缩并快速向盆地移动时,形 成不整合,对应地层多样性的大幅度脉冲 (A); 2) 当向盆地的沉积转变停止并且保存的沉积记录 向空间扩张时,地层灭绝率下降为0 (B);3) 随 着沉积区的扩张,地层多样性必然增加 (C);4) 海侵使得沉积向陆转变,地层灭绝率和起源率都 开始增加,即向陆的沉积作用提高了地层起源 率,但是由于盆地内缺乏沉积物,地层灭绝率也 相应提高(D);5)最大洪泛面时对应最高的地层 多样性(E)。 3.3 大陆尺度的沉积物质量化 整个北美大陆由多个沉积盆地组成,沉积盆 地的地质信息由地层柱来表示,因此大陆尺度的 量化将按照单个盆地依次处理,不同盆地的贡献 将根据其面积进行加权。 地层综合柱状图反映了区域的地质信息,其 具备了岩石种类、时代范围、厚度以及岩石地层 单元、接触关系等属性,以国际地层委员会给出 的地质年代为时间间隔,很容易提取每个时间间 隔对应的沉积包类型及数量。Macrostrat按照该方 法人工编录统计了 COSUNA 和加拿大地质调查局 (Geological Survey of Canada, GSC) 显生宙所有地 层柱的沉积包,并按照沉积环境或岩性对沉积包 进行分类。 Macrostrat通过以上大陆尺度的量化过程,获得 初步量化数据:以“阶”(1~3 Ma)为时间间隔的不 同类型、不同岩性、不同沉积环境的沉积包数量及 其总量。以该数据为基础,Shanan E. Peters团队对 北美大陆显生宙沉积物的演化模式及相关科学问题 进行了深入研究,将在第五部分进行详细论述。 3.4 面积和体积的提取 (1) Macrostrat借助计算机技术为地层柱分配 了地理多边形,每个多边形具有确定的面积 (图 1)。根据地层柱给出的厚度,可以计算沉积物质 的体积(Meyers and Peters, 2011)。 (2) 借助于对地质图的解析来计算地层分布 面积。由计算机地质制图得到的电子地质图,其 岩石单元包括了一系列数字属性数据:面积、时 代、岩石类型和名称信息等,因此可以通过直观 的统计学手段得到各时间间隔内的不同种类岩石的 面积分布。非电子版地质图,首先要对其进行数字 扫描,利用图像分析软件将地质图转化为地理信息 系统 (GIS) 格式,对图上每种岩石类型或每个岩 石单元占据的像素计数,通过在每张地质图上的若 干个1°×1°的区域中,将累计像素缩放到真实区域, 从而将其转化为大陆面积(Wilkinson et al., 2009)。 4 Macrostrat文本挖掘技术 综合分析已发表的海量的文献数据,人工操 作非常耗时,并且会生成一个与主要数据源断开 连接的非扩展数据库。因此亟需建设一个可动态 扩展的、可靠的网络基础设施,以促进发现、获 取、利用和引用已发表文献中的数据和知识。 Macrostrat除了提供开源的沉积学数据外,还 提供了针对文献的机器阅读技术平台:Geodeepdive, 即自动从已发表文献的文本、表格和图片中锁定 并提取有用信息的技术。Geodeepdive机器阅读主 要涉及的计算机技术包括光学字符辨识、文档布 局 识 别 、 自 然 语 言 处 理 和 结 构 化 查 询 语 言 。 Geodeepdive的目的是:(1) 降低数据集成的时间 和成本,将科学家的工作重心从缓慢且昂贵的数 据整合工作转移到创造性的假设测试;(2) 测试 关键结论的重现性,加深对重大科学问题的理 解;(3)促进机器阅读技术发展,尤其是在科研领 域中得到部署和验证;(4)基于现有文献中的字段 和样本,更集中、高效、智能地生成衍生数据。为 了实现以上目的,Geodeepdive 与 8 大出版商 (图 6) 达成协议,获取巨大的文献数据库用于机器阅 35
高校地质学报 26卷1期 读,且保证文献库中的原文保密,但数据公开。 概率,且与其源文件中的上下文紧密耦合,甚至 Geodeepdive的工作模式分为3个步骤。第1提供u链接。因此,只要对任何一个组件给出反 步,科学家提岀科学问题,确定需要挖掘的数馈,或者向系统添加额外的规则或数据,就可以 据,然后使用 Python、 Javascript、 PostgreSQL等计系统地提高整个数据库的质量。更重要的是 算机语言写出算法,描述数据挖掘思路,即如何PDD的数据采集过程是基于对整个文档的可视化 提取特征信息;第2步,使用超级计算机高速处理和文本分析的,并且系统可以很容易地容纳更复 文献库的海量文献,按照预设算法进行挖掘,并杂的数据类型,例如生物插图中的形态学数据和相 生成因子图(用于表征各实体之间的关系);第3关的文本描述。因此,利用 Paleodeepdive的系统能 步,输出机器挖掘的结构化数据和学习结果(图够识别和提取当前不属于数据库但与上下文相关 6)。通过机器阅读的工作模式我们可以发现,机的复杂数据( Peters et al.,2014b)。 器阅读或者文本挖掘过程是一个边工作边学习的 Geodeepdive数字图书馆和机器阅读体系与 过程,随着前提的改变或者新的数据的加人,产 Macrostrat平台相连,随时添加、编辑和发布新的 生的结果可能发生变化。同时,机器阅读系统能地层、岩性、环境等数据,致力于用新的数据不 够利用非结构化的多源科学文献构建一个结构化断产出新的结果 的数据库。其中的数据都是具有概率的事实,整 体上是一个与主要数据源紧密耦合的概率数据5基于 Macrostrat数据库的科学研究 库,其数据质量可以与人工阅读和编译数据生成 Macrostrat收录了以北美地区为主的大量的地 的数据库相媲美( Zhang et al,2013; Peters et al,层和沉积学相关数据,但其核心价值不是体现在 2014a)。 数据量的规模效应,而是基于数据相关性分析提 例如基于 Geodeepdive的衔生T具 Paleodeepdive供科学预测和假设(张旗和周永章,2017)。Mac (PDD),主要服务于对化石数据的挖掘,用于加 rostral的首要目的就是帮助沉积学家解决全球尺度 深对大规模生命演化史的理解,包括长期的分类的大科学问题,如验证岩石保存和再旋回的地质 多样性和基因组级灭绝和起源速率等问题的研假说、探索生物及生物化学演化的驱动力 究。通过PDD自动提取生物分类单元、地质岩5.1沉积物质循环 层、地理位置和地质时间间隔等数据所建立的综 前人对地质历史时期沉积物质总量的循环规 合古生物数据库,在生物宏演化模式研究上获得律主要有两种认识。 了与人工汇编的PBDB相似的结果,因此有理由相 传统观点认为:由于侵蚀作用的累积,沉积 信由机器阅读产生的结果是真实可信的。除此之岩总量必然随年龄增长而减少,并且具有指数衰 外机器阅读更大优势在于,它生成的数据库类型减的趋势( Gregor,1968)。该观点得到不同学者的 与手动填充的数据库有本质的不同。在PDD生成进一步验证。 Wilkinson等(2009)通过地质图面 的概率数据库中,每条数据都具有相应的准确性积提取发现沉积岩和火山岩的量具有随年龄增长 逾900万份文献 WILEY 第一步-根据需求设计算法 第二步-超算处理 科学家 Geodeepdive 第三步一输出机器挖掘出 的结构化数据 PDF可供计算机挖据,⊙AGU 但内容对人保密 Canad 图6 Geodeepdive工作模式图
高 校 地 质 学 报 2 6 卷 1 期 读,且保证文献库中的原文保密,但数据公开。 Geodeepdive 的工作模式分为 3 个步骤。第 1 步,科学家提出科学问题,确定需要挖掘的数 据,然后使用Python、JavaScript、PostgreSQL等计 算机语言写出算法,描述数据挖掘思路,即如何 提取特征信息;第2步,使用超级计算机高速处理 文献库的海量文献,按照预设算法进行挖掘,并 生成因子图 (用于表征各实体之间的关系);第3 步,输出机器挖掘的结构化数据和学习结果 (图 6)。通过机器阅读的工作模式我们可以发现,机 器阅读或者文本挖掘过程是一个边工作边学习的 过程,随着前提的改变或者新的数据的加入,产 生的结果可能发生变化。同时,机器阅读系统能 够利用非结构化的多源科学文献构建一个结构化 的数据库。其中的数据都是具有概率的事实,整 体上是一个与主要数据源紧密耦合的概率数据 库,其数据质量可以与人工阅读和编译数据生成 的数据库相媲美 (Zhang et al., 2013; Peters et al., 2014a)。 例如,基于Geodeepdive的衍生工具,Paleodeepdive (PDD),主要服务于对化石数据的挖掘,用于加 深对大规模生命演化史的理解,包括长期的分类 多样性和基因组级灭绝和起源速率等问题的研 究。通过 PDD 自动提取生物分类单元、地质岩 层、地理位置和地质时间间隔等数据所建立的综 合古生物数据库,在生物宏演化模式研究上获得 了与人工汇编的PBDB相似的结果,因此有理由相 信由机器阅读产生的结果是真实可信的。除此之 外机器阅读更大优势在于,它生成的数据库类型 与手动填充的数据库有本质的不同。在PDD生成 的概率数据库中,每条数据都具有相应的准确性 概率,且与其源文件中的上下文紧密耦合,甚至 提供url链接。因此,只要对任何一个组件给出反 馈,或者向系统添加额外的规则或数据,就可以 系统地提高整个数据库的质量。更重要的是, PDD 的数据采集过程是基于对整个文档的可视化 和文本分析的,并且系统可以很容易地容纳更复 杂的数据类型,例如生物插图中的形态学数据和相 关的文本描述。因此,利用Paleodeepdive的系统能 够识别和提取当前不属于数据库但与上下文相关 的复杂数据(Peters et al.,2014b)。 Geodeepdive 数字图书馆和机器阅读体系与 Macrostrat平台相连,随时添加、编辑和发布新的 地层、岩性、环境等数据,致力于用新的数据不 断产出新的结果。 5 基于Macrostrat数据库的科学研究 Macrostrat收录了以北美地区为主的大量的地 层和沉积学相关数据,但其核心价值不是体现在 数据量的规模效应,而是基于数据相关性分析提 供科学预测和假设 (张旗和周永章,2017)。Mac⁃ rostrat的首要目的就是帮助沉积学家解决全球尺度 的大科学问题,如验证岩石保存和再旋回的地质 假说、探索生物及生物化学演化的驱动力。 5.1 沉积物质循环 前人对地质历史时期沉积物质总量的循环规 律主要有两种认识。 传统观点认为:由于侵蚀作用的累积,沉积 岩总量必然随年龄增长而减少,并且具有指数衰 减的趋势(Gregor, 1968)。该观点得到不同学者的 进一步验证。Wilkinson 等 (2009) 通过地质图面 积提取发现沉积岩和火山岩的量具有随年龄增长 图6 Geodeepdive工作模式图 Fig. 6 Geodeepdive work pattern diagram 36