正在加载图片...
宋洪庆等:油气资源开发的大数据智能平台及应用分析 185 Spark framework Storm framework NoSOL DB (quasi real-time computing) (real-time computing) Tamino:Structured data storage MLlib Graphx Spark streaming Nimbus Zookeeper (Dynamic production data, Machine Graphics Real-time data Task submission and Cluster seismic inversion...) learning processin stream processing cluster monitoring coordination Couch DB:Semi-structured data storage Worker Spark SQL-RDD Supervisor (Seismic interpretation, Data execution basic unit Running Supervisory task logging reports...) process NEO4J:Unstructured data storage (Drilling logging curves, Hadoop architecture(data storage and offline computing) digital core pictures...) HDFS MapReduce YARN Cassandra:Column storage mode of Distributed storage of Big data processing Cluster management distributed architecture oil and gas data framework and deployment 因6油气大数据智能平台Hadoop、Spark及Storm混合存储计算架构 Fig.6 Oil and gas big data intelligent platform with Hadoop,Spark,and Storm hybrid storage computing architecture 因此,利用大数据技术将不同部门的存储数 对油藏数据进行清洗,解决数据中的缺失、冗余、 据进行清洗和融合显得尤为重要.如图7所示,首 冲突等质量问题.接着需要依靠各专业领域的专 先以各石油公司、研究机构现有的专业数据库为 家根据数据中参数涉及专业频率,明确参数权重, 基础,通过油气工业大数据平台按照结构化、半结 分析相关参数逻辑关系,确定参数转化公式等,建 构化、非结构化数据进行统一的整合与存储,建立 立统一参数围度及加强数据间的逻辑关联,实现 基础的数据共享资源池.然后基于完整性约束、 油气工业各领域之间的数据融合,从而打破“数据 修复规则P7、统计理论2及人机结合等方法, 孤岛”现象 Structured data Partial cleaning Geophysics Semi-structured data Global cleaning onomic Geologic Unstructured data Rule-based Cleaning Fusion "Multi-source" Data fusion Data resource pool Statistics Databases of oil companies research institutions, Man-machine universities.. integration Data integration and extraction Data cleaning 图7油气工业多源异构数据体的清洗融合 Fig.7 Cleaning and fusion of multi-source data in the oil and gas industry 3.4数据的挖掘与分析 机器学习是企图从大量的历史数据中捕获其变 石油工业数据的存储和融合至关重要,但更 化特征、分析内在联系从而挖掘数据间的隐含规律 重要的是如何通过人工智能的算法去进行数据的 的算法统称.如图8所示,应用在石油工业的主要 挖掘与分析.随着机器学习和深度学习的飞速发 算法有:支撑向量机(SVM),模糊逻辑(FZ),遗传算 展,人工智能已经在各领域已经展现了其强大的 法(GA),随机森林(RF),粒子群优化算法(PSO)以 预测、分析、决策及指导能力,逐步开始引领工业 及广泛应用的人工神经网络(ANN)等.基于RF算 4.0变革.因此,近年来许多机器学习和深度学习 法,Aliyuda等Bo1建立了对采收率和油井产量的预 算法也已经逐步融入到石油工业智能化的研究 测模型,预测结果与实际的输出极为匹配.Ahmadi 中,无论是在石油工业上游的勘探与开发,还是在 和Bahadori利用最小二乘支撑向量机(LSSVM) 中游的运输及提炼,乃至下游的销售都产生了积 方法准确预测在油井开发过程中水气的突破时间,并 极的影响,大大提高了研究效率及经济效益 通过GA进行算法优化.同时,支撑向量回归方法因此,利用大数据技术将不同部门的存储数 据进行清洗和融合显得尤为重要. 如图 7 所示,首 先以各石油公司、研究机构现有的专业数据库为 基础,通过油气工业大数据平台按照结构化、半结 构化、非结构化数据进行统一的整合与存储,建立 基础的数据共享资源池. 然后基于完整性约束[26]、 修复规则[27]、统计理论[28] 及人机结合[29] 等方法, 对油藏数据进行清洗,解决数据中的缺失、冗余、 冲突等质量问题. 接着需要依靠各专业领域的专 家根据数据中参数涉及专业频率,明确参数权重, 分析相关参数逻辑关系,确定参数转化公式等,建 立统一参数围度及加强数据间的逻辑关联,实现 油气工业各领域之间的数据融合,从而打破“数据 孤岛”现象. Structured data Semi-structured data Unstructured data Data integration and extraction Data cleaning Databases of oil companies research institutions, universities... Data resource pool Cleaning Partial cleaning Global cleaning Rule-based Statistics Man-machine integration Fusion Geophysics Geological analysis Economic evaluation Drilling engineering Production engineering Reservoir engineerin ...... “Multi-source” Data fusion 图 7    油气工业多源异构数据体的清洗融合 Fig.7    Cleaning and fusion of multi-source data in the oil and gas industry 3.4    数据的挖掘与分析 石油工业数据的存储和融合至关重要,但更 重要的是如何通过人工智能的算法去进行数据的 挖掘与分析. 随着机器学习和深度学习的飞速发 展,人工智能已经在各领域已经展现了其强大的 预测、分析、决策及指导能力,逐步开始引领工业 4.0 变革. 因此,近年来许多机器学习和深度学习 算法也已经逐步融入到石油工业智能化的研究 中,无论是在石油工业上游的勘探与开发,还是在 中游的运输及提炼,乃至下游的销售都产生了积 极的影响,大大提高了研究效率及经济效益. 机器学习是企图从大量的历史数据中捕获其变 化特征、分析内在联系从而挖掘数据间的隐含规律 的算法统称. 如图 8 所示,应用在石油工业的主要 算法有:支撑向量机(SVM),模糊逻辑(FZ),遗传算 法(GA),随机森林(RF),粒子群优化算法(PSO)以 及广泛应用的人工神经网络(ANN)等. 基于 RF 算 法,Aliyuda 等[30] 建立了对采收率和油井产量的预 测模型,预测结果与实际的输出极为匹配. Ahmadi 和 Bahadori[31] 利用最小二乘支撑向量机(LSSVM) 方法准确预测在油井开发过程中水气的突破时间,并 通过 GA 进行算法优化. 同时,支撑向量回归方法 Spark framework (quasi real-time computing) MLlib Machine learning Graphx Graphics processing Spark streaming Real-time data stream processing Storm framework (real-time computing) Nimbus Task submission and cluster monitoring Zookeeper Cluster coordination Spark SQL-RDD Data execution basic unit Supervisor Supervisory task Worker Running process Hadoop architecture (data storage and offline computing) HDFS Distributed storage of oil and gas data MapReduce Big data processing framework YARN Cluster management and deployment NoSQL DB Tamino: Structured data storage (Dynamic production data, seismic inversion...) Couch DB: Semi-structured data storage (Seismic interpretation, logging reports...) NEO4J: Unstructured data storage (Drilling logging curves, digital core pictures...) Cassandra: Column storage mode of distributed architecture 图 6    油气大数据智能平台 Hadoop、Spark 及 Storm 混合存储计算架构 Fig.6    Oil and gas big data intelligent platform with Hadoop, Spark, and Storm hybrid storage computing architecture 宋洪庆等: 油气资源开发的大数据智能平台及应用分析 · 185 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有