中国地质调查局发展研究中心总工程师、教授级高工 谭永杰
摘要:大数据发展应用已成为当前社会和学术界的研究热点。本文基于地质工作实际情况,从地质数据的采集、汇聚、处理、成果综合等环节,系统分析了地质数据的形成过程及其数据特性,认为地质工作是一个大数据的完整生态过程,其形成的数据具有多元(源)、多模态、异构、高度时空性、大容量高相关、低价值密度、复杂性与不确定性等特点,既具有大数据的共有特性,又有其自身特点,是大数据的重要组成部分,并以此提出了目前地质大数据发展应用中的主要技术问题。
关键词:大数据;地质大数据;数据特性;关键技术问题
一、研究背景
大数据已成为当前社会和技术发展的热点。国务院于2015年印发了《促进大数据发展行动纲要》,国土资源部、农业部、环保部、贵州省、北京市等纷纷印发促进大数据发展的实施意见。美国于2012年发布“大数据研发计划”(1),美国地质调查局等6个联邦部门和机构参与,旨在提高和改进从海量和复杂的数据中,获取信息和知识的能力。大数据发展应用受到国内外各级政府、社会及学术界、产业界高度关注。
中国地质调查局高度重视大数据技术及其地质应用,从2015年至今,连续3年列为局重中之重工作。2014年即开始设立地质大数据与信息服务工程,开展地质大数据的相关研究和应用工作,工作内容包括地质大数据的顶层设计、关键技术研究,涵盖地质大数据的采集、汇聚管理、处理应用与服务全过程。在地质大数据的技术体系、建设框架和部分基础理论、方法及应用等方面形成了一系列成果(2)(3) 。但是地质数据的数据特性、其与大数据的关系等问题,在研究发展过程中存在争论,影响地质大数据的进一步发展,本文对此进行了深入思考、系统归纳,形成了一些基本认识。
二、地质数据的生命周期与大数据过程
大数据系统通常涉及多个不同的阶段(4)(5),最广为接受的是4个连续阶段(6),包括数据生成、获取、存储和分析。地质工作旨在采用7种主要手段,包括野外调查、钻探槽探等山地工程、地球物理探测、地球化学探测、遥感、分析测试和综合研究,研究探索地球表层及地球的物质构成、结构及演化。基于上述手段,大范围长时间采集巨量地质数据,通过项目汇聚、资料汇交等途径,形成稳定汇聚,而地质成果均来自对已有数据和新采集数据的分析综合。因此,地质工作就是一个巨量数据采集、汇聚存储管理、分析利用与成果综合的大数据完整生态过程。
2.1地质数据采集
通过各种手段采集地球各圈层数据是地质工作的首要任务,且呈现以下主要特点:
1.多种采集手段。包括野外调查、钻探槽探等山地工程、地球物理探测、地球化学探测、遥感、分析测试和综合研究等主要手段。野外调查就是地质人员到野外现场进行实地观察,包括点观察、路线观察和剖面测制,记录描述各种地质现象;钻探槽探等山地工程就是利用钻机、人工挖槽等方式,对地球及表层研究进行一定范围的揭露,方便地质人员现场观察和其他探测手段的实施,常常形成钻孔数据和测井数据;地球物理探测利用地球及表层物质组成的物性差异,采用物理的方法进行探测,主要有电法、磁法、地震勘探、重力勘探、放射性勘探、地球物理测井等,形成相应的数据记录,分析地球及表层物质组成及结构;地球化学探测利用地球及表层物质化学组成差异,采用地球化学采样及分析的方法研究地球及表层物质组成及结构,形成相应的数据记录;遥感就是利用地球及表层物质物性和光性的差异,制作一定的传感器,在不和观察物直接接触的情况下,分析地球及表层物质组成及结构,目前主要有多光谱遥感、红外遥感、高光谱遥感、测试雷达等,形成海量的遥感数据;分析测试就是对野外观察或钻探、槽探中采取的地物样品进行物理和化学分析,形成物理、化学分析测试数据,研究地球及表层物质组成及结构;综合分析就是对各种手段采集数据的综合研究,形成成果数据。
2. 多层次采集平台。地质数据采集平台多样,包括航空、航天、地表(下)、海洋等类型。其中,航空平台如固定翼飞机、直升飞机、无人机及其机载探测设备;航天平台包括光学、重力等多类型遥感卫星及其载荷等;地表(下)平台包括在常规地面、矿井下及钻孔中开展的各种调查和勘探;海洋平台包括海洋地质调查船、海洋钻探平台、深海潜水器等各类平台。
3. 多尺度基本单元。地质探测的一组数据代表着一定的空间大小,也就是说地质观察研究基本单元的空间尺度是不一样的,例如4公里*4公里的化探、15米*15米的遥感等,有人把这种描述称为地质数据的基本粒度。这样,地质数据的精度就有两种概念,一是数据本身精确性,二是描述对象的空间尺度大小(空间分辨率)。
地质数据的采集逐步走向现代化。随着计算机、物联网、对地观测、LBS等技术发展,传统的野外调查、物探、化探等手段从模拟到数字化,信息化水平不断提高;野外地质调查正结合3S、大数据等技术走向智能化(7);国家地下水、地质灾害等监测网络建设、航空、航天遥感等新型采集平台的发展,使得地质数据采集走向现代化。
地质数据的采集逐步走向大范围高精度。更高空间光谱时间分辨率的遥感卫星、万米大陆深钻、“海马”深海潜水器等地质装备研发,使得地质数据采集逐步走向深空、深地与深海,数据采集范围越来越广、效率与精度越来越高。
2.2地质数据汇聚管理
在我国,财政投入的地质工作通过项目、社会投入的通过资料汇交,形成了稳定和较为完整的数据汇聚体系,实现对多专业多类型巨量数据的汇聚管理。从上世纪80年代颁布《全国地质资料汇交管理办法》,到2002年的《地质资料管理条例》,国家通过法律形式,对地质资料的汇聚形成了稳定体系,由全国地质资料馆、各省级地质资料馆及委托保管单位构成。《条例》规定,在中华人民共和国领域及管辖的其他海域范围内开展的地质工作,都要施行地质资料统一汇交。国家财政投入的地质项目,通过项目组织体系完成数据汇聚。2016年地质大数据工程启动地质数据汇聚管理系统建设,通过云计算、互联网等信息技术实现项目数据的云端汇聚,进一步提升地质数据的汇聚管理的效率与质量。
2.3地质数据分析应用
大数据的重要核心是向数据要价值。地质工作采集的各类原始数据,只有通过各类地学分析模型与方法工具,才能形成有价值的地质认识或发现。从地质遥感解译到物化探异常提取等专业分析,从资源潜力评价到资源环境承载力评价等综合分析,地质成果均来自数据的分析利用与成果综合。
其次,地质数据均具有重要的分析利用价值。数据的新鲜度(8) 是数据的潜在价值体现。地球的演变相对人类历史来说缓慢的,地球演化以万年及数十万年为单元,人对于地球及表层的勘探记录只有数百年的历史,因此历史上的任何一次地质工作形成的成果记录都具有现实性,加之地质工作比较艰难成本比较高,因此地质工作特别强调对已有工作成果的综合利用。近百年来探测和积累的地质数据,都有具有重要价值。
第三,地质数据分析利用就是一个大数据分析应用过程。具体的地质工作探测研究的对象是唯一的,采用各种手段对其进行探测,只是利用其物质组成及结构的不同特性从不同角度进行研究认识,其理想的结果应该是高度一致,这也是地质工作强调综合研究的内在原因。地质工作往往需要地质、地球物理、地球化学、遥感地质等多元地质数据的综合分析。且地质问题都是多因素的复杂影响,因此多元数据的综合关联分析在地质数据分析中尤为重要。此外,地震数据、遥感数据等大规模数据分析处理,需要高性能、分布式的计算支撑;各类实时监测数据分析,需要采用流数据分析等手段;数据分析与挖掘等算法在地质统计学与各类地质建模中广泛应用。大数据技术将助力地质数据分析利用,为解决更综合、更复杂的资源环境问题提供新的解决方案。
三、地质数据是大数据的重要组成部分
李学龙等(6)将大数据分为商业、网络和科学研究三大领域,并指出在对地观测等领域需要获取海量的科学研究大数据,且学科的发展极度依赖于对这些海量数据的分析。地质大数据具有多元(源)异构、多模态、高度时空性、大容量高相关、低价值密度、复杂性与不确定性等特点,具有大数据的共有特征,又有其自身特点,对大数据相关研究极具代表性。地质大数据就是要用大数据、云计算等现代理念,重新思考与解决地质问题,对支撑国家经济社会与学科发展具有重要作用。不论从大数据概念的实质,还是从大数据概念的演化来看,地质数据属于大数据,地质大数据是国家大数据的重要组成部分。
3.1大数据的特性
大数据目前没有唯一确定的定义。国际数据中心IDC认为“大数据技术描述了一个技术和体系的新时代, 被设计于从大规模多样化的数据中通过高速捕获、发现和分析技术提取数据的价值”(1),并提出“4V”的大数据特点。IT分析公司META集团提出数据的增长是三维的, 即容量、多样性和速度的增长(3Vs)(9),Gartner和多数产业界巨头(10)(11)使用“3Vs”模型描述大数据。Mc Kinsey公司将大数据定义为“超过了典型数据库软件工具捕获、存储、管理和分析数据能力的数据集”,美国国家标准和技术研究院NIST同样认为(12),“大数据是指数据的容量、数据的获取速度或者数据的表示限制了使用传统关系方法对数据的分析处理能力,需要使用水平扩展的机制以提高处理效率”。从大数据概念的形成来看,更加强调数据来源的广泛性和全社会的广泛应用。总体而言,大数据是大容量、多样性、高速增长、低价值密度,且传统手段已经难于管理和有效发挥其价值的、具有社会广泛应用的数据集。
3.2地质数据的数据特性
1.多元(源)异构与多模态。地质工作对象的空间单元是不一样的,地质数据代表的基本空间单元是多种尺度的,现有的地质数据映射多种空间单元。各种手段采集的数据、同一类手段不同方法采集的数据各自采用不同的数据管理方式进行存储管理,形成了多种数据源。多种平台与手段采集形成各类地质数据,如野外填图、分析测试等汇聚GIS与结构化数据,遥感获取的栅格影像数据,地质报告的文档数据,地质环境灾害监测获得实时点位数据等。不同工作平台形成不同数据格式,不同数据组织造成不同数据结构,地质本体描述不一致带来严重的语义异构,地质数据采用的不同空间基准、空间时间的不同尺度等,使得形成的地质数据严重异构。同一个地质对象,通过不同的方法或平台,从不同角度与方式描述,形成了多模态的地质数据。
2.高度时空性。地质数据的描述对象是地球,空间属性是其固有属性,且在两个方面充分体现。一方面,地质数据均是描述特定位置对象的属性,如某一位置的岩性、地球化学成分等,脱离了空间位置的地质数据没有意义。其次,地质科学研究具有明显的区域性,研究对象往往带有明显的区域特点,如特定区域内的岩石类型、成矿特点等存在明显区域特征。
地质数据的时间属性也体现在两方面。一是地质数据本身获取的时间属性,任何观测数据都是在某一时间点获取的,具有时间属性;二是地质对象本身的时间属性,地球的演化与地质对象都具有特定的地质年代与时间点,其对于地质研究至关重要,同位素测试地质年龄等是获取对象时间的重要手段。
地质数据具有高度的时空性,加之定义其空间属性的坐标系、投影参数、探测精度及基本粒度变化多样,时间尺度从分秒跨越至数十万年,更进一步增加了地质数据的复杂度。因此,地质数据的融合分析一定要强调时间基准和空间基准。
3.大容量:地质工作观测对象广阔、手段多样、探测历史悠久形成巨量数据。目前全国地质工作年投入1000多亿元,累计投入数万亿元,依托稳定的汇聚体系,积累了巨量数据,现存于各地质单位、地质工作者和各级地质资料馆藏机构。其次,地质数据采集技术与手段的提升,使数据量呈爆发式增长,一景幅宽45千米的0.8米分辨率全色影像达到1G,一个测点面积约12平方千米的高密度三维地震测量获取的原始数据达600G左右。
4.高相关、低价值密度。地质数据描述的对象相对稳定,所有数据均是针对同一客观对象的不同描述,数据间相关性高,且内容多样,不仅包括本身探测的地质数据,也含有测绘地理数据,并依附了社会经济发展相关数据,对多类型数据的综合与关联分析有重要价值。相对于巨量的数据规模,其价值密度偏低,需要科学高效的方法技术来管理与利用。
5.复杂性与模糊不确定性。地质数据之间关系是复杂的,综合分析的结果具有模糊不确定性。主要体现在三个方面:首先,地球及近表层等数据描述对象的高度复杂与模糊不确定,地球是一个复杂巨系统,各圈层多因素相互影响,地球演化与各类地质现象本身是一个高度复杂过程,地质规律或结论往往存在模糊性。其次,地质数据与数据描述本身的高度复杂性与模糊性,主要由描述对象的复杂与定量化困难,人类各种认识手段对地球及近表层的研究对象来说,多为间接的,各种手段认识能力有限;加上数据巨量、异构、高度时空性等特点造成。第三,地质对象与地质数据的复杂决定了地质数据的分析、建模与计算等都存在高度复杂性,加上无法采集地球全样本数据,因此地质数据分析结果大多模糊不确定,对观测对象的认识是一个无穷尽的逼近过程。
四、地质大数据应用的关键技术问题
海量数据催生了一种新的科研模式,吉姆·格雷(Jim Gray)提出了数据密集型科学研究的“第四范式”(The Fourth Paradigm)(13),并提出其可能是解决全球性挑战问题唯一具有系统性的方法。李国杰院士等认为(14)未来可能形成数据探矿等新兴产业,《国土资源大数据应用发展实施意见》提出,发展智能调查与监测、培育智慧探矿等新业态。全面推进地质大数据发展,深化其在资源潜力评价、资源环境承载力评价、地质环境灾害监测评估等各方面应用,势必成为地质工作创新驱动发展的重要手段,但其分析应用仍存在不少科学与技术的基本问题。
1、地质数据的描述与建模。地质大数据多元(源)异构、多实体和多空间之间的交互动态性,难以用传统的方法描述与度量,处理的复杂度高,缺乏科学有效的特征描述与对象建模基础,影响其有效组织与分析。需要解决多粒度地质实体抽象方法、异构多粒度地质大数据描述模型、形式化表达模型等关键问题,以异构多粒度地质大数据构建的事物空间来描述从微观到宏观的异构现实世界。
2、多元(源)异构大容量地质数据的有效组织管理。从分布式文件系统 GFS(15)等新型文件系统,到键值(key-value)数据库、Bigtable(16)列式数据库、Mongo DB(17)文档数据库等No SQL数据库,为大数据存储管理提供了新的方式。传统方式下地质数据的查询、统计、更新等操作不但低效,而且不利于检索、查询、挖掘等应用,数据组织管理能力极低(7)。异构数据组织管理的核心问题,包括多样化碎片化海量地质数据存储管理模型、集成共享等。涉及异构多粒度地质大数据的一体化数据模型与全生命周期管理等技术,涵盖异构多粒度地质大数据模型、数据生成与转换、存取与索引、管理与查询、基本操作与基本计算等。
3、地质数据的有效处理与融合挖掘。传统统计分析分为描述性和推断性统计,多元统计分析包括回归、因子分析、聚类和判别分析等(18),为地质统计分析奠定了理论基础。数据挖掘技术及一系列新的数据处理模型也为大数据分析处理提供了新的思路和工具,C4.5、k-means、神经网络等数据挖掘算法已经在人工智能、机器学习等领域得到应用(19),通用处理模型如MapReduce(20)、图处理模型如Google的Pregel(21)、流处理模型如Storm等。但是地质数据的多源异质、基准不一致、特征多元、语义复杂等问题,结合地质专家知识、地学计算、地学专业模型等地质大数据分析专业特点,使得地质大数据的有效处理与融合挖掘比较困难,多模态地质时空对象分析、不同模态不同粒度地质数据融合、唯一地质对象的多数据综合分析建模等问题有待解决。
4、地质数据的可视化与服务于有效决策。复杂性及结果模糊性为有效决策与可视化带来困难。地质大数据有效辅助决策是指通过分析应用实现知识获取,从而对决策给予支撑。数据可视化的目标是以图形方式清晰有效地展示信息(22),使结果更直观以便于洞察(23)。然而地质现象本身的复杂与模糊不确定性、地质大数据描述及分析结果的复杂性与不确定性都对地质大数据可视化的困难,影响支撑有效决策。需要研究多粒度地质对象数据复杂性和不确定性特征描述模型,从根本上对数据的处理方式能够提出新的模型方法,并能够把握模型的表达能力与复杂程度之间的平衡,突破地质大数据的复杂性和不确定性描述及建模等问题。
五、 结语
通过近年来地质大数据研究实践得出,地质工作就是一个大数据的完整生态过程,其形成的数据具有多元(源)、多模态、异构、高度时空性、大容量高相关、低价值密度、复杂性与不确定性等特点,既具有大数据的共有特性,又有其自身特点,是大数据的重要组成部分。其研究与应用在大数据领域极具代表性,大数据的理论技术与思维给各行各业带来新的驱动力,大数据革命将对地质工作带来创新发展,地质大数据的应用前景广阔,但是仍面临不少的问题,需要进一步的研究探索。
参考文献
[1] Tom Kalil. Big Data is a Big Deal[R], March 29, 2012.
[2] 谭永杰.地质大数据与信息服务工程技术框架[J].地理信息世界,2016,23(1):1-9.
[3] 谭永杰.地质大数据体系建设的总体框架研究[J].中国地质调查,2016,3(3):1-6.
[4] Agrawal D, Bernstein P, Bertino E, et al. Challenges and opportunities with big data — a community white paper developed by leading researchers across the United States[M]. Computing Research Association, 2012
[5] Fisher D, De Line R, Czerwinski M, et al. Interactions with big data analytics[J]. Interactions, 2012, 19: 50–59
[6] 李学龙, 龚海刚.大数据系统综述[J]. 中国科学:信息科学. 2015年第45卷第1期: 1–44
[7] 李超岭,李健强等.智能地质调查大数据应用体系架构与关键技术[J].地质通报.2015年第34卷第7期:1288-1299
[8] Tatbul N. Streaming data integration: Challenges and opportunities[C]. Proceedings of the 26th International Conference on Data Engineering Workshops, California, 2010. 155–158
[9] Manyika J, Chui M, Brown B, et al. Big data: the next frontier for innovation, competition, and productivity[M]. Mc Kinsey Global Institute, 2011
[10] Zikopoulos P, Eaton C. Understanding big data: analytics for enterprise class hadoop and streaming data[M]. New York: Mc Graw-Hill Osborne Media, 2011
[11] Meijer E. The world according to LINQ[J]. Commun ACM, 2011, 54: 45–51
[12] Cooper M, Mell P. Tackling Big Data[R]. NIST, 2012
[13] Tony Hey, Stewart Tansley, Kristin Tolle(Editors). The Fourth Paradigm: Data-Intensive Scientific Discovery[M]. Microsoft, 2009, October 16.
[14] 李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域—大数据的研究现状与科学思考[J].中国科学院院刊.2012年第6期:647-657
[15] Ghemawat S, Gobioff H, Leung S T. The Google file system. In: Proceedings of the nineteenth ACM symposium on Operating systems principles[M], New York, NY, USA, 2003. 29–43
[16] Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Trans Comput Syst, 2008, 26: 4:1–4:26
[17] Labrinidis A, Jagadish H V. Challenges and opportunities with big data[J]. Proc VLDB Endowment, 2012, 5: 2032–2033
[18] Anderson T W. An Introduction to Multivariate Statistical Analysis. 3rd ed[M]. New York: John Wiley & Sons, 2003
[19] Wu X, Kumar V, Ross-Quinlan J, et al. Top 10 algorithms in data mining[J]. Knowl Inf Syst, 2007, 14: 1–37
[20] Dean J, Ghemawat S. Map Reduce: simplified data processing on large clusters[J]. Commun ACM, 2008, 51: 107–113
[21] Malewicz G, Austern M H, Bik A J, et al. Pregel: a system for large-scale graph processing[C]. Proceedings of the ACM SIGMOD International Conference on Management of Data, Indianapolis, 2010. 135–146
[22] Laurila J K, Gatica-Perez D, Aad I, et al. The mobile data challenge: big data for mobile computing research. In: Proceedings of the Workshop on the Nokia Mobile Data Challenge[C], the 10th International Conference on Pervasive Computing, Newcastle, 2012. 1–8
[23] 邬贺铨. 大数据时代的机遇与挑战[J].求实杂志.2013.4:47-49
参与作者:文敏、朱月琴、屈红刚
(本文发布已得到作者同意,如需转载请联系本站,谢谢!)