项目研究与进展
- 21 - 项目研究与进展
22
- 22 -
面向微生物领域的大规模知识图谱研究 一国家重点研发项目“科学大数据管理系统” 2016年,科技部依据《国家中长期科学和技术发展规划纲要(2006-2020年)》、《关 于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展 行动纲要的通知》等文件,会同相关部门组织开展了《云计算和大数据重点专项实施方案》 编制工作,并在此基础上启动“云计算和大数据重点专项”2016年度项目。该专项的总体 目标是形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大 数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与 大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提 升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键 技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信 息强国。 科学大数据管理系统即面向特定领域的大数据管理系统是该专项之下的项目之一。随着 大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使 得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒必 争的重大科学发现中胜出的关键。同时,科学大数据管理面临一系列问题和挑战,主要表现 在:(1)超大规模关系数据管理;(2)多源数据关联和知识发现;(3)科学计算的高效 数据处理。 研究背景 生命科学领域100亿级RDF知识图谱数据来源于上百个分布在全球的不同数据源,包 括欧洲生物信息研究所、美国国家人类基因组研究中心以及由中国科学院微生物研究所牵头 的世界微生物数据中心等。其中,由中科院微生物所牵头的世界微生物数据中心( Word data Center for Microorganism,wDcM)隶属于国际生命科学联盟下属的世界微生物菌种保藏联 合会和国际教科文组织下属的国际微生物资源中心。2010年,该数据中心落户中科院微生 物研究所。这是我国生物学领域的第一个世界数据中心,也是国际生物学领域第一个设立在 发展中国家的世界数据中心。如何进一步充分利用现有计算机技术,挖掘微生物大数据乃至 科学大数据中的巨量信息成为亟待解决的问题之 “图数据管理关键技术及系统”课题面向大规模图数据管理需求,研究图数据索引方法 和査询优化策略,分布式系统设计及联邦査询方法,图数据交互式检索和分析。其围绕图数 据管理的核心问题,以微生物大数据为应用背景,研究海量图数据的索引方法和查询优化策 略,实现基于结构感知的高通量、并行化的图模式查询;研究基于数据划分的分布式系统设 计及联邦査询方法,实现跨地域多节点的分布式RDF图数据管理;研究并实现图数据的交 互式检索和分析。 二、研究意义 通过本课题的研究,计划实现一个高效的大规模科学RDF知识图谱数据管理系统。这
- 23 - 面向微生物领域的大规模知识图谱研究 —国家重点研发项目“科学大数据管理系统” 2016 年,科技部依据《国家中长期科学和技术发展规划纲要(2006-2020 年)》、《关 于促进云计算创新发展,培育信息产业新业态的意见》、《国务院关于印发促进大数据发展 行动纲要的通知》等文件,会同相关部门组织开展了《云计算和大数据重点专项实施方案》 编制工作,并在此基础上启动“云计算和大数据重点专项”2016 年度项目。该专项的总体 目标是形成自主可控的云计算和大数据系统解决方案、技术体系和标准规范;在云计算与大 数据的重大设备、核心软件、支撑平台等方面突破一批关键技术;基本形成以自主云计算与 大数据骨干企业为主体的产业生态体系和具有全球竞争优势的云计算与大数据产业集群;提 升资源汇聚、数据收集、存储管理、分析挖掘、安全保障、按需服务等能力,实现核心关键 技术自主可控,促进我国云计算和大数据技术的研究与应用达到国际领先水平,加快建成信 息强国。 科学大数据管理系统即面向特定领域的大数据管理系统是该专项之下的项目之一。随着 大规模巡天望远镜、大型粒子加速器、高通量基因测序仪等源源不断产生巨量科学数据,使 得全球科技创新进入科学大数据时代。科学大数据的管理与分析水平,是能否在未来分秒必 争的重大科学发现中胜出的关键。同时,科学大数据管理面临一系列问题和挑战,主要表现 在:(1)超大规模关系数据管理;(2)多源数据关联和知识发现;(3)科学计算的高效 数据处理。 一、 研究背景 生命科学领域 100 亿级 RDF 知识图谱数据来源于上百个分布在全球的不同数据源,包 括欧洲生物信息研究所、美国国家人类基因组研究中心以及由中国科学院微生物研究所牵头 的世界微生物数据中心等。其中,由中科院微生物所牵头的世界微生物数据中心(Word Data Center for Microorganism,WDCM)隶属于国际生命科学联盟下属的世界微生物菌种保藏联 合会和国际教科文组织下属的国际微生物资源中心。2010 年,该数据中心落户中科院微生 物研究所。这是我国生物学领域的第一个世界数据中心,也是国际生物学领域第一个设立在 发展中国家的世界数据中心。如何进一步充分利用现有计算机技术,挖掘微生物大数据乃至 科学大数据中的巨量信息成为亟待解决的问题之一。 “图数据管理关键技术及系统”课题面向大规模图数据管理需求,研究图数据索引方法 和查询优化策略,分布式系统设计及联邦查询方法,图数据交互式检索和分析。其围绕图数 据管理的核心问题,以微生物大数据为应用背景,研究海量图数据的索引方法和查询优化策 略,实现基于结构感知的高通量、并行化的图模式查询;研究基于数据划分的分布式系统设 计及联邦查询方法,实现跨地域多节点的分布式 RDF 图数据管理;研究并实现图数据的交 互式检索和分析。 二、 研究意义 通过本课题的研究,计划实现一个高效的大规模科学 RDF 知识图谱数据管理系统。这
个系统能支持在生命科学领域中对关于生物资源、文献、序列和疾病等内容的100亿级关联 数据上进行知识发现和“六步”以上的关联挖掘。这个系统还能支持对分布在全球各个科研 机构的跨地域、多中心RDF知识图谱网络进行统一的检索与查询。这个系统能极大地协助 中科院微生物所牵头的国际微生物中心进行更加高效的研究,进而加快我国在生命科学研究 领域的研究发展。 此外,本系统还支持构建RDF知识图谱服务平台来辅助国际微生物中心将自身的研究 成果以RDF知识图谱的形式进行发布并提供浏览和查询接口服务。这将极大地提高我国在 生命科学研究领域的影响力。 另外,随着生物技术的日益发展,特别是测序技术的迅猛发展,目前微生物学的研究已 经全面步入基因组研究时代。随之而来的便是对大规模数据有效应用的需求。传统的数据分 析方法很难配备生命科学的数据产生速度和对数据分析的需求,因此,对面向生物技术发展 和产业应用的大规模数据分析已经成为必然。本课题采用了先进的数据管理及分析技术,将 极大地帮助生物学家从数据中挖掘宝贵的财富,更好地用好这笔资源,从而推动生物技术进 步和生物产业发展。 三、研究内容 本课题的主要研究内容包括四个方面,即基于图结构的索引和查询优化策略、分布式 RDF知识图谱数据管理系统构建、RDF知识图谱数据上的分布式大规模知识并行推理框架研 究以及面向海量图数据的交互式检索和分析平台 (1)基于图结构的索引和查询优化策略 科学大数据的重要特点之一是数据的复杂关联性,即数据的图结构特征。我们拟研究和 构建海量图数据管理系统,支持两类图数据的管理,一类是数据库系统中存在百万量级的小 规模图结构数据(图中节点规模小于1000),例如化学(生物、药物)分子结构式库;另 外一类是数据库系统中存储一张规模巨大的数据图,例如蛋白交互网络、文献引用关联图等。 本课题将重点研究以下两类查询的优化策略:一类是结构模式匹配查询;另外一类是节点关 联发现查询。 结构模式匹配査询优化策略。研究模式匹配在图査询及在结构检索化学、药物领域的査 询方法与策略。在设计面向持续更新数据图的图模式匹配查询处理算法基础上,研究基于结 构和节点内容相似性相结合的图模式匹配查询。针对科研数据呈现的复杂关联、多边性,对 索引的轻量级更新有了新的要求,为提高动态图中索引更新问题,拟研究基于树状多层摘要 图的方式,将索引更新约束在局部范围内 节点关联发现査询策略。硏究关联数据中“语义路径模式”挖掘,通过挖掘路径实现与 自然语言中关系短语的语义表达的直接对应,从而更加准确地发现知识图谱中不同实体之间 的语义关联。 (2)分布式RDF知识图谱数据管理系统构建 科学领域的海量信息可通过RDF方式表示为知识图谱,领域知识图谱数据量已经远超 出单机存储管理能力。本课题研究通过利用跨地域计算中心实现分布式知识图谱数据管理策 略与支持高效图数据检索策略,并硏制不同策略分布式知识图谱管理系统
- 24 - 个系统能支持在生命科学领域中对关于生物资源、文献、序列和疾病等内容的 100 亿级关联 数据上进行知识发现和“六步”以上的关联挖掘。这个系统还能支持对分布在全球各个科研 机构的跨地域、多中心 RDF 知识图谱网络进行统一的检索与查询。这个系统能极大地协助 中科院微生物所牵头的国际微生物中心进行更加高效的研究,进而加快我国在生命科学研究 领域的研究发展。 此外,本系统还支持构建 RDF 知识图谱服务平台来辅助国际微生物中心将自身的研究 成果以 RDF 知识图谱的形式进行发布并提供浏览和查询接口服务。这将极大地提高我国在 生命科学研究领域的影响力。 另外,随着生物技术的日益发展,特别是测序技术的迅猛发展,目前微生物学的研究已 经全面步入基因组研究时代。随之而来的便是对大规模数据有效应用的需求。传统的数据分 析方法很难配备生命科学的数据产生速度和对数据分析的需求,因此,对面向生物技术发展 和产业应用的大规模数据分析已经成为必然。本课题采用了先进的数据管理及分析技术,将 极大地帮助生物学家从数据中挖掘宝贵的财富,更好地用好这笔资源,从而推动生物技术进 步和生物产业发展。 三、 研究内容 本课题的主要研究内容包括四个方面,即基于图结构的索引和查询优化策略、分布式 RDF 知识图谱数据管理系统构建、RDF 知识图谱数据上的分布式大规模知识并行推理框架研 究以及面向海量图数据的交互式检索和分析平台。 (1)基于图结构的索引和查询优化策略 科学大数据的重要特点之一是数据的复杂关联性,即数据的图结构特征。我们拟研究和 构建海量图数据管理系统,支持两类图数据的管理,一类是数据库系统中存在百万量级的小 规模图结构数据(图中节点规模小于 1000),例如化学(生物、药物)分子结构式库;另 外一类是数据库系统中存储一张规模巨大的数据图,例如蛋白交互网络、文献引用关联图等。 本课题将重点研究以下两类查询的优化策略:一类是结构模式匹配查询;另外一类是节点关 联发现查询。 结构模式匹配查询优化策略。研究模式匹配在图查询及在结构检索化学、药物领域的查 询方法与策略。在设计面向持续更新数据图的图模式匹配查询处理算法基础上,研究基于结 构和节点内容相似性相结合的图模式匹配查询。针对科研数据呈现的复杂关联、多边性,对 索引的轻量级更新有了新的要求,为提高动态图中索引更新问题,拟研究基于树状多层摘要 图的方式,将索引更新约束在局部范围内。 节点关联发现查询策略。研究关联数据中“语义路径模式”挖掘,通过挖掘路径实现与 自然语言中关系短语的语义表达的直接对应,从而更加准确地发现知识图谱中不同实体之间 的语义关联。 (2)分布式 RDF 知识图谱数据管理系统构建 科学领域的海量信息可通过 RDF 方式表示为知识图谱,领域知识图谱数据量已经远超 出单机存储管理能力。本课题研究通过利用跨地域计算中心实现分布式知识图谱数据管理策 略与支持高效图数据检索策略,并研制不同策略分布式知识图谱管理系统
研制基于数据划分的分布式知识图谱管理系统。在知识图谱的实际存储过程中,研究 RDF型知识图谱数据在不同计算节点上的存储策略。研究系统局部计算特性,构建分布式知 识图谱数据管理系统。研究图数据进行结构化查询在各计算中心本地局部计算与局部匹配方 法。研究局部匹配结果归并与连接方法。系统框架如图1所示 上本地局部匹 结构化查询 →上本地同部匹配一阳并所有 本地局部 最终查询匹配 回→区地局图 初始化 图1基于数据划分的分布式知识图谱管理系统架构图 联邦型分布式知识图谱管理系统。在利用RDF管理知识图谱过程中,研究RDF知识图 谱数据在不同机器上分布与数据源“自治”方法,构建联邦型分布式RDF知识图谱。研究 图数据结构化査询分解方法,构建子查询分配与通信策略。研究不同RDF数据源局部匹配 结果连接方法。系统框架如图2所示 淘分解与数 控制机器 图2联邦型分布式知识图谱管理系统架构图 (3)RDF知识图谱数据上的分布式大规模知识并行推理框架研究 本课题将基于固态硬盘SSD的 MapReduce框架和基于图形处理器GpU的 Spark框架 分别构建大规模知识的并行推理框架。具体包括:设计GpU+ MapReduce框架,构建 RDF/RDFS/OwL- Horst上的并行推理框架,基于图技术构建能支持轻量级 OWL-Lite上的并行 推理框架,构建RDF/RDFS流的并行推理框架,研究提议并行推理机制的基础理论问题,实 现相应的并行推理系统 (4)面向海量图数据的交互式检索和分析平台 目前图数据管理的挑战之一是其具有“弱模式”特点,即图数据不同于关系数据具有明 确的模式( Schema)信息。“弱模式”的图数据对于用户査询和检索提出了挑战。因此 在本课题中我们拟构建面向图数据的交互式检索和分析平台。具体研究内容包括面向RDF 知识图谱的自然语言检索方法和复杂图数据的语义摘要和交互式检索方法 面向知识图谱的自然语言交互式检索方法。研究知识图谱中自然语言查询接口方法。研 究交互式检索方法,允许用户交互式修正Q/A系统并将自然语言问题翻译成结构化查询语 句,提高知识图谱Q/A系统的准确性 复杂图数据的语义摘要和交互式检索方法。研究图结构的层次化摘要表示方法,协助用 户理解复杂图数据模式与复杂图数据交互式浏览。硏究不同层次的图结构摘要(图立方)
- 25 - 研制基于数据划分的分布式知识图谱管理系统。在知识图谱的实际存储过程中,研究 RDF 型知识图谱数据在不同计算节点上的存储策略。研究系统局部计算特性,构建分布式知 识图谱数据管理系统。研究图数据进行结构化查询在各计算中心本地局部计算与局部匹配方 法。研究局部匹配结果归并与连接方法。系统框架如图 1 所示。 图 1 基于数据划分的分布式知识图谱管理系统架构图 联邦型分布式知识图谱管理系统。在利用 RDF 管理知识图谱过程中,研究 RDF 知识图 谱数据在不同机器上分布与数据源“自治”方法,构建联邦型分布式 RDF 知识图谱。研究 图数据结构化查询分解方法,构建子查询分配与通信策略。研究不同 RDF 数据源局部匹配 结果连接方法。系统框架如图 2 所示。 图 2 联邦型分布式知识图谱管理系统架构图 (3)RDF 知识图谱数据上的分布式大规模知识并行推理框架研究 本课题将基于固态硬盘 SSD 的 MapReduce 框架和基于图形处理器 GPU 的 Spark 框架, 分别构建大规模知识的并行推理框架。具体包括:设计 GPU + MapReduce 框架,构建 RDF/RDFS/OWL-Horst 上的并行推理框架,基于图技术构建能支持轻量级 OWL-Lite 上的并行 推理框架,构建 RDF/RDFS 流的并行推理框架,研究提议并行推理机制的基础理论问题,实 现相应的并行推理系统。 (4)面向海量图数据的交互式检索和分析平台 目前图数据管理的挑战之一是其具有“弱模式”特点,即图数据不同于关系数据具有明 确的模式(Schema)信息。“弱模式”的图数据对于用户查询和检索提出了挑战。因此, 在本课题中我们拟构建面向图数据的交互式检索和分析平台。具体研究内容包括面向 RDF 知识图谱的自然语言检索方法和复杂图数据的语义摘要和交互式检索方法。 面向知识图谱的自然语言交互式检索方法。研究知识图谱中自然语言查询接口方法。研 究交互式检索方法,允许用户交互式修正 Q/A 系统并将自然语言问题翻译成结构化查询语 句,提高知识图谱 Q/A 系统的准确性。 复杂图数据的语义摘要和交互式检索方法。研究图结构的层次化摘要表示方法,协助用 户理解复杂图数据模式与复杂图数据交互式浏览。研究不同层次的图结构摘要(图立方)
展示复杂图数据中不同粒度的结构模式。研究不同粒度的图结构模式挖掘与语义立方图构建 方法,构建复杂关联数据在不同粒度上的图摘要(语义立方图)。研究基于语义立方图的复 杂关联数据的浏览方法,进行语义主题对结构模式进行分类管理。研究语义立方图中利用语 义结构模式提高 SPARQL子图匹配查询的过滤效率方法
- 26 - 展示复杂图数据中不同粒度的结构模式。研究不同粒度的图结构模式挖掘与语义立方图构建 方法,构建复杂关联数据在不同粒度上的图摘要(语义立方图)。研究基于语义立方图的复 杂关联数据的浏览方法,进行语义主题对结构模式进行分类管理。研究语义立方图中利用语 义结构模式提高 SPARQL 子图匹配查询的过滤效率方法
27
- 27 -
面向天文大数据实时存储查询研究 国家重点研发项目“科学大数据管理系统” 研究背景 全球科技创新已进入一个前所未有的科学大数据时代。大规模巡天望远镜、大型粒子加 速器、高通量基因测序仪等源源不断产生巨量科学数据。仅我国科学家参与的世界大型巡天 望远镜LSST( Large Synoptic Survey Telescope),将每三天完成对南半球的天空巡天 次,每15秒记录3幅10亿像素图像(每幅图像包含百万个天体),每晚需对30TB原 始数据准实时的分析,生成的大规模星表数据需及时插入到分布在多个数据中心的超大规模 关系型数据库中,并在入库过程中快速完成天体分类及与其它巡天数据库的交叉认证。该数 据库系统需具备存储约3万亿行点源星数据,和约370亿行目标星数据(每行超过200个 属性);同时对转瞬即逝的千万级突发天体事件,需在60秒之内完成数据分析、插入和分 发,并向全世界发出预警。这一典型的科学大数据应用挑战着当今所有数据管理系统的极限, 也成为当下科学界和数据管理领域携手攻坚的“难题” 由此可见,科学大数据已成为科学发现的新型战略资源,而且一个国家的科学研究水平 将直接取决于其在科学大数据的优势以及将数据转换为知识的能力。为了抢占科技竞争的至 高点,世界各国已纷纷把科学大数据纳入国家战略,并开始重点部署。美国国立卫生研究院 2013年启动了“从大数据到知识”(BD2K计划,总投资达到6.56亿美元。欧盟“地平 线2020”计划将科学大数据关键技术和基础设施列为了重点支持领域。欧盟刚刚宣布,将 投资65亿欧元用于建设“欧洲开放科学云”( Europe Open Science cloud),重点支持 大数据驱动的科学发现。在我国发布的《大数据发展行动纲要》中,首次将科学大数据上升 到国家战略层面,明确提出“发展科学大数据”的战略目标。中国科学院在“十三五”发展 规划中,也提出将实施科学大数据工程,全面提升大数据驱动的科技创新能力。 在“十二五”期间,中国科学院通过信息化专项项目“科技数据资源整合与共享工程” 在国内率先建成了科学数据云,形成了52PB云存储和上万个虚拟机的云计算环境,实现对 全国12个分中心资源统一管理与调度;面向科学数据全生命周期的管理,形成了较为完善 的标准规范体系和数据管理云服务技术体系,硏发部署了科学数据管理软件 TeamDR、数据 发布与集成软件ⅦDB/ VDBCloud、数据服务注册系统RSR、可视化服务平台DVIZ等20余 项软件工具;整合形成了多学科融合的约10PB的科学数据资源,并开放共享,在基础与前 沿研究方面取得了一系列的成果,在支撑国家战略与社会发展等方面发挥了重要作用。但是, 面对源源不断快速产生的大量数据文件以及从中分析生成的千亿级科学对象的管理,我们还 面临着一系列的挑战,包括EB级文件和千亿行关系数据的高效率、低成本、一体化存储和 管理,科学大数据快速索引,以支持大规模、交互式的查询和处理;海量多源、多学科数据 的自动关联与融合;瞬时产生的海量数据实时或准实时的高效分析;以流水线的方式实现海 量数据资源与科学模型的快速融合与并行处理等。 针对科学大数据管理问题,国际上一些相关的研究也刚刚开始,如 SkyServer项目是 个基于 MonetDB实现TB量级天文管理的探索,LSST刚启动研发可管理百亿级天文对 象的数据库 Sever,俄亥俄州立大学提出了构化/半结构化数据存储结构 RCFile/ ORC File 等。在我国,针对科学大数据管理研究工作尚未系统展开,但在结构化/半结构化数据存储 半结构化数据库、RDF数据管理以及科学大数据处理技术等方面,已经开展了相关研究工作
- 28 - 面向天文大数据实时存储查询研究 —国家重点研发项目“科学大数据管理系统” 一、 研究背景 全球科技创新已进入一个前所未有的科学大数据时代。大规模巡天望远镜、大型粒子加 速器、高通量基因测序仪等源源不断产生巨量科学数据。仅我国科学家参与的世界大型巡天 望远镜 LSST(Large Synoptic Survey Telescope),将每三天完成对南半球的天空巡天一 次,每 15 秒记录 3 幅 10 亿像素图像(每幅图像包含百万个天体),每晚需对 30TB 原 始数据准实时的分析,生成的大规模星表数据需及时插入到分布在多个数据中心的超大规模 关系型数据库中,并在入库过程中快速完成天体分类及与其它巡天数据库的交叉认证。该数 据库系统需具备存储约 3 万亿行点源星数据,和约 370 亿行目标星数据(每行超过 200 个 属性);同时对转瞬即逝的千万级突发天体事件,需在 60 秒之内完成数据分析、插入和分 发,并向全世界发出预警。这一典型的科学大数据应用挑战着当今所有数据管理系统的极限, 也成为当下科学界和数据管理领域携手攻坚的“难题”。 由此可见,科学大数据已成为科学发现的新型战略资源,而且一个国家的科学研究水平 将直接取决于其在科学大数据的优势以及将数据转换为知识的能力。为了抢占科技竞争的至 高点,世界各国已纷纷把科学大数据纳入国家战略,并开始重点部署。美国国立卫生研究院 2013 年启动了“从大数据到知识” (BD2K)计划,总投资达到 6.56 亿美元。欧盟 “地平 线 2020”计划将科学大数据关键技术和基础设施列为了重点支持领域。欧盟刚刚宣布,将 投资 65 亿欧元用于建设 “欧洲开放科学云”(Europe Open Science Cloud),重点支持 大数据驱动的科学发现。在我国发布的《大数据发展行动纲要》中,首次将科学大数据上升 到国家战略层面,明确提出“发展科学大数据”的战略目标。中国科学院在“十三五”发展 规划中,也提出将实施科学大数据工程,全面提升大数据驱动的科技创新能力。 在“十二五”期间,中国科学院通过信息化专项项目“科技数据资源整合与共享工程”, 在国内率先建成了科学数据云,形成了 52PB 云存储和上万个虚拟机的云计算环境,实现对 全国 12 个分中心资源统一管理与调度;面向科学数据全生命周期的管理,形成了较为完善 的标准规范体系和数据管理云服务技术体系,研发部署了科学数据管理软件 TeamDR、数据 发布与集成软件 VDB/VDBCloud、数据服务注册系统 RSR、可视化服务平台 DVIZ 等 20 余 项软件工具;整合形成了多学科融合的约 10PB 的科学数据资源,并开放共享,在基础与前 沿研究方面取得了一系列的成果,在支撑国家战略与社会发展等方面发挥了重要作用。但是, 面对源源不断快速产生的大量数据文件以及从中分析生成的千亿级科学对象的管理,我们还 面临着一系列的挑战,包括 EB 级文件和千亿行关系数据的高效率、低成本、一体化存储和 管理,科学大数据快速索引,以支持大规模、交互式的查询和处理;海量多源、多学科数据 的自动关联与融合;瞬时产生的海量数据实时或准实时的高效分析;以流水线的方式实现海 量数据资源与科学模型的快速融合与并行处理等。 针对科学大数据管理问题,国际上一些相关的研究也刚刚开始,如 SkyServer 项目是 一个基于 MonetDB 实现 TB 量级天文管理的探索, LSST 刚启动研发可管理百亿级天文对 象的数据库 Qsever,俄亥俄州立大学提出了构化/半结构化数据存储结构 RCFile/ORC File 等。在我国,针对科学大数据管理研究工作尚未系统展开,但在结构化/半结构化数据存储、 半结构化数据库、RDF 数据管理以及科学大数据处理技术等方面,已经开展了相关研究工作
具备了良好的基础 综上所述,科学大数据已经成为科技创新的引擎。一个国家的科研水平及在国际上的科 技竞争力,将越来越取决于其在数据的优势及数据管理的能力。本项目针对科学大数据的特 点和需求,将重点解决超大规模关系数据管理、多源异构数据关联和知识发现、高效数据处 理等关键技术,进而研发开源的科学大数据管理系统,为确保我国国际科技竞争力奠定基础。 二、研究目标 科学观测数据的抽取,将会产生千亿级别的科学对象(事例、星系天体、事件等),关 系型数据管理系统作为科学对象信息描述的重要载体必将面临重要挑战。本课题针对超大规 模关系型数据的管理问题,重点研究如何实现超大规模关系型数据存储与索引,如何实现超 大规模关系数据动态管理,如何实现跨区域数据分布与备份,以及如何实现关系型数据加工 分析过程的流程化与精细化管理。 三、研究内容 针对如上研究目标,本课题将从分片策略和索引机制入手,研究千亿级别时空数据存储 与索引策略,实现超大规模关系型数据动态管理,支持数据中心级分布式存储、查询及副本 策略,并通过流水线处理机制加速超大规模数据分析与系统性调优。主要内容如下: (1)研究千亿级关系数据存储策略与索引机制 研究可靠与可扩展的超大规模关系数据的存储方法与机制。研究超大关系数据分片存储 策略。结合科学领域关系型数据主要特点,研究千亿级超大规模关系数据划分方法。硏究分 片物理分布策略,设计高可靠性、易扩展分布方案。研究分片间共享策略,设计低网络开销、 少冗余、快速备份共享方案。研究超大规模关系数据层次索引方法,设计低内存消耗的索引 存储方案。针对不同层次数据,设计不同索引策略加速大规模数据索引过程。结合数据分片 与存储策略,研究片内、片间的数据索引方法。 (2)研究超大规模关系型数据动态管理与关键技术 研究科学大数据对象特点,根据科学数据内容、应用范围、处理特点设计大规模关系数 据的模式。研究切实、有效的分割方法,满足科学大数据处理过程中高精度、高查询频率的 要求。研究超大关系数据表分割策略与实际应用需求、物理存储之间约束关系,设计可动态 伸缩分割策略。硏究基于分片数据深度融合与优化方法。设计并硏制具有可验证数据库模式 与表分割方法的原型系统 3)研究跨数据中心分布式查询与副本调度策略 设计自动化数据副本保证方案,研究机器学习副本策略,在副本调度过程中快速检测异 常点与错误数据。研究启发式副本放置与查询调度算法,设计低延迟、高可靠性副本存放策 略。研究跨地域的数据副本放置问题,提出网络感知的大规模云数据的跨数据中心优化部署 算法
- 29 - 具备了良好的基础。 综上所述,科学大数据已经成为科技创新的引擎。一个国家的科研水平及在国际上的科 技竞争力,将越来越取决于其在数据的优势及数据管理的能力。本项目针对科学大数据的特 点和需求,将重点解决超大规模关系数据管理、多源异构数据关联和知识发现、高效数据处 理等关键技术,进而研发开源的科学大数据管理系统,为确保我国国际科技竞争力奠定基础。 二、 研究目标 科学观测数据的抽取,将会产生千亿级别的科学对象(事例、星系天体、事件等),关 系型数据管理系统作为科学对象信息描述的重要载体必将面临重要挑战。本课题针对超大规 模关系型数据的管理问题,重点研究如何实现超大规模关系型数据存储与索引,如何实现超 大规模关系数据动态管理,如何实现跨区域数据分布与备份,以及如何实现关系型数据加工、 分析过程的流程化与精细化管理。 三、 研究内容 针对如上研究目标,本课题将从分片策略和索引机制入手,研究千亿级别时空数据存储 与索引策略,实现超大规模关系型数据动态管理,支持数据中心级分布式存储、查询及副本 策略,并通过流水线处理机制加速超大规模数据分析与系统性调优。主要内容如下: (1)研究千亿级关系数据存储策略与索引机制 研究可靠与可扩展的超大规模关系数据的存储方法与机制。研究超大关系数据分片存储 策略。结合科学领域关系型数据主要特点,研究千亿级超大规模关系数据划分方法。研究分 片物理分布策略,设计高可靠性、易扩展分布方案。研究分片间共享策略,设计低网络开销、 少冗余、快速备份共享方案。研究超大规模关系数据层次索引方法,设计低内存消耗的索引 存储方案。针对不同层次数据,设计不同索引策略加速大规模数据索引过程。结合数据分片 与存储策略,研究片内、片间的数据索引方法。 (2)研究超大规模关系型数据动态管理与关键技术 研究科学大数据对象特点,根据科学数据内容、应用范围、处理特点设计大规模关系数 据的模式。研究切实、有效的分割方法,满足科学大数据处理过程中高精度、高查询频率的 要求。研究超大关系数据表分割策略与实际应用需求、物理存储之间约束关系,设计可动态 伸缩分割策略。研究基于分片数据深度融合与优化方法。设计并研制具有可验证数据库模式 与表分割方法的原型系统。 (3)研究跨数据中心分布式查询与副本调度策略 设计自动化数据副本保证方案,研究机器学习副本策略,在副本调度过程中快速检测异 常点与错误数据。研究启发式副本放置与查询调度算法,设计低延迟、高可靠性副本存放策 略。研究跨地域的数据副本放置问题,提出网络感知的大规模云数据的跨数据中心优化部署 算法
(4)研究基于流水线的准实时数据提取方法 针对特定科学数据任务,研究流水线处理方法进行科学实验数据的精准、快速提取。研 究流水线任务中提高数据处理准确度方法。研究模型、算法、体系结构、数据划分、放置多 角度优化方法,设计全流水过程性能优化策略
- 30 - (4)研究基于流水线的准实时数据提取方法 针对特定科学数据任务,研究流水线处理方法进行科学实验数据的精准、快速提取。研 究流水线任务中提高数据处理准确度方法。研究模型、算法、体系结构、数据划分、放置多 角度优化方法,设计全流水过程性能优化策略