1 、引言 大数据是一种新的研究模式和应用生态系统,它改变了之前以个别案例为基础的研究方式,更多地使用大规模的数据作为研究驱动。大数据时代的到来,无疑会对公共卫生领域的统计调查和信息化建设产生巨大的影响和推动,传统卫生统计分析方法已经不能完全适应日新月异的数据环境,无法满足对海量数据进行分析的需求,公共卫生大数据资源的价值还远远没有得到挖掘和利用,如何从大数据中发现有用的知识以及提高信息的利用率是迫在眉睫的任务。 2、国内外现状 大数据在公共卫生领域的尝试起始于谷歌流感预测,随着谷歌在2008年成功地预测了美国大西洋沿岸中部地区的流感疫情,大数据被越来越多的大众所认知,也得到更广泛的应用。之后其他社交媒体和网络公司如推特、维基百科也利用其平台的发布和浏览信息来预测流感等疾病的发生情况。2014年谷歌发布了GoogleFit应用平台,可使手机上的APP具备监测用户健康数据的能力,甚至根据监测结果给用户提出针对性的建议。苹果公司也有类似的HealthKit健康平台,能将用户的健康和身体数据直接传送至医疗中心数据库,利用大数据评估用户的健康指标。《科学》杂志于2014年底和2015年初分别刊登了“公共卫生遇上了大数据”和“将大数据纳入公共卫生系统”两篇文章,提出强大的流行病学基础,稳健的知识整合、循证医学原则及拓展的转化研究议程可以推动大数据在公共卫生方面的应用,预示着公共卫生大数据研究的前景广阔。 我国作为世界人口基数最大国,具有其他国家难以比拟的基础数据优势,海量公共卫生大数据亟待挖掘、整合和利用。2014年,百度宣布和中国CDC在流感预测上开展合作,这是大数据在中国公共卫生领域发挥作用的一个不错开始。公共卫生各个领域也都逐渐引入大数据技术,探索研究各自领域的大数据应用。在营养学方面,大数据的利用能够使得历届全国性、专项及地方性的营养和健康状况调查的数据得以汇总,并进行深度系统的挖掘,可以全面描述其流行病学特点及变化规律,找出不同时期存在的营养健康问题,为政府部门制定营养与健康相关政策和疾病防控措施提供基础数据。慢性病方面,大数据的发展和应用为创新慢病管理模式,提供个体化管理措施提供了机会,有研究者利用大数据技术设计研发了慢病管理健康云平台,通过数据的快速分析处理,将结果与建议准确及时传递给患者,实现健康监护和实时预警,有利于患者进行及早干预。 2015年国家卫生计生委提出积极推进健康医疗大数据应用示范,研究制定促进健康医疗大数据应用指导意见,推动健康医疗大数据依法有序安全开放,为我国健康大数据在公共卫生领域应用奠定了基础。
3、 研究对象
近年来,随着信息技术和互联网的快速发展,公共卫生领域也在向着信息化进程推进,逐步建立和完善了公共卫生信息平台和业务系统,公共卫生工作实现了从手工报告向网络报告,从统计报表向个案数据报告方式转变,逐渐积累了丰富的公共卫生数据资源。公共卫生数据资源中,不仅包括传染病、慢病,还有健康危险因素等;既有以人群为基础的个案信息、以实验室为基础的生物与环境信息,还有以组织机构为基础的管理信息、以人群社会化活动为基础的结构化、半结构化和非结构化信息;有手工录入信息,如调查问卷、访谈记录等,还有机器自动产生的信息,如电子病历、互联网舆情信息、卫星遥感信息。这些信息汇集起来,不仅数量庞大(Volume)、产生速度快(Velocity)、数据结构复杂多样(Variety),而且对数据真实性要求高(Veracity),价值密度低(Value),符合典型的大数据特征。这些公共卫生大数据资源对于深入地认识疾病危险因素、因果关系,提高疾病的预测预警能力,改善促进健康具有重要作用。
4 、主要方法和技术
大数据需要经过相关处理之后,才能凸显其潜在价值,基于大数据的特点,需要强大的新技术用以提取各类有用的信息,从而得出医疗保健解决方案。纵观当前我国公共卫生大数据的研究状况,目前对于大数据分析有数据挖掘与传统统计分析两大类方法共存,两者相互补充,此外人工智能如自然语言处理、模式识别、机器学习等新方法也逐渐用于大数据分析中。
4.1 数据挖掘技术
数据挖掘是指从大量、不完全、有噪声、模糊、随机的数据中提取蕴含其中的、事先不得知但又潜在有用的信息和知识的过程,广泛用于科学、工程、医学、商业等领域。随着数据挖掘理论和技术的不断发展完善,其在解决数据处理难题方面表现出了强大的生命力,成为大数据分析的有效武器。数据挖掘包括预测性和描述性算法,前者产生用于预测和分类的模型,后者用于发现数据中的关联、聚集和亚组等关系。公共卫生领域常用的数据挖掘方法有关联分析,分类与预测,聚类分析,可视化分析,联机分析处理等。
关联规则是通过关联分析找出数据中隐藏的关联,利用关联根据已知情况对未知问题进行预测,它主要反映事件之间的依赖或关联,描述数据之间的密切程度,与传统方法不同,关联规则挖掘算法不需人为引入设置变量,通过设置参数能自动地对数据进行分析,得到有意义的规则,对于卫生决策和控制具有重要的参考价值。有研究者将关联规则运用于细菌性痢疾和甲型肝炎的疾病风险预测中,通过对疾病和气象数据的分析,得到易理解的疾病与季节气象等影响因素之间的关联关系,为采取有针对性的预防控制策略提供理论依据。
神经网络模拟大脑的神经组织结构和工作机制,由节点和相互连接的输入输出结构构成自适应非线性预测模型,能够自身适应环境、总结规律、完成运算识别,具有良好的预测效果。有研究利用遗传神经网络模型模拟了登革热的时空扩散,基于登革热和环境、气象、人口等数据,分析与登革热相关的影响因子,将所有因子带入模型,通过数据训练、机器学习、模型优化最终构建一个基于复杂地理因素驱动的遗传神经网络模型,模拟效果较好。
决策树是一种分类方法,利用信息增益寻找最大信息量的属性建立节点,自顶向下据节点属性不同取值建立分支,构建树的模型,使分类规则可视化。例如将气象因素用于疾病预警,把每日发病信息及相关气象资料存入数据仓库,利用C4.5决策树挖掘算法,建立实时预警预报模型,实现突发公共卫生事件早期预警。 聚类分析是根据特征的相似性将对象进行分类,事先类别未知,主要用于模式识别。有研究利用聚类分析对流行病学调查资料中的混杂因素进行分层,提高了分层分析效率,解决了混杂因素分层界限不清时分层困难的问题,有效控制了混杂偏倚。 数据可视化分析是以图形、图像、虚拟现实等易为人们所理解的方式展现原始数据间的复杂关系、潜在信息及发展趋势。研究者根据1973到2010年的食源性疾病暴发和弧菌监测数据,利用可视化分析软件研究各州食源性疾病暴发情况、传染源、传播途径等,从而指导暴发调查中疾病预防和控制。 联机分析处理(OLAP)是一种基于多维方法的数据探索和分析工具,它是由用户驱动的,可以根据不同人群的需求,将历史数据按照不同的维度进行汇总和呈现。有研究者将GIS与OLAP相结合提出了一种新的分析工具SOLAP,将其用于环境卫生研究,增强了GIS的分析能力,更好地分析危险因素、聚集、干预和结局的相互关系从而用于决策。 数据挖掘的工具和方法有很多,需要根据数据的特点和研究的目的选择合适的分析方法,常常会将几种方法结合使用,弥补各自不足或比较选出最佳方法。 由于公共卫生数据大都具有空间属性,进行大数据分析时也常结合地理信息系统(GIS)来分析研究其空间特征和规律。GIS是指能够对地理相关信息进行获取、存储、分析、展示等的计算机系统,近年来在公共卫生领域得到了广泛的应用。有研究探讨了将GIS空间信息与电子健康档案(EHR)健康信息进行对接,充分挖掘EHR的数据价值,多维动态地展现疾病、健康危险因素等的空间分布情况,更好地指导疾病预防和健康管理。 大数据分析虽然数据挖掘是主体,但经典的统计分析方法在大数据研究中仍占有重要地位,某些数据挖掘方法本身就是建立在统计分析基础上。在进行数据挖掘前,需要对数据分布进行描述性分析,对所分析数据有总体把握。利用大数据也可进行假设检验,只要明确大数据特点,设定合理的科学假说,通过适宜的统计学分析可解决相应问题。此外一些统计模型如生存分析、逻辑回归等也可用于对大数据进行分析。 4.2 其他支持技术 为了满足当前信息社会背景下,数据的大规模处理需求,一般还需要应用非关系数据库、云计算、云存储等技术对健康大数据进行挖掘、处理和利用,在许多情况下是多种技术被一起使用,如人工智能与并行计算平台的联合使用,或与一些大数据挖掘技术联合使用。 并行计算是用于处理大数据的基础架构之一,该技术使得计算机集群能够同时执行并行的算法任务。并行计算模型需要分布式数据管理系统。Hadoop是使用Hadoop分布式文件系统的数据存储系统,支持群集计算机同时访问数据。在公共卫生领域,Hadoop软件以可靠、高效和可伸缩的分布式处理机能,应用最为普遍。Map Reduce能够实现对大数据编程模型的并行处理,在Hadoop框架背景下,可以应用多种语言方式,按照Map Reduce的编程模型,实现同一程序的编写和运行。 云计算技术是一种利用互联网实现随时随地、按需、便捷地访问共享资源的计算模式。云计算主要用于共享使用集中的数据存储和网络计算服务或资源,从而利用规模效应使得工作效率和经济效益最大化。云计算的实质是业务模式,其主要对数据进行并行和分布式处理,进而为数据提供存储、访问和计算空间。云计算技术对传统的数据分析技术进行了彻底的变革,运用Map Reduce编程模型对计算分析任务进行分割,对计算资源、服务资源和信息资源进行最优化的配置利用。云计算平台的分布式文件系统、分布式运算模式和分布式数据库管理技术都为解决大数据问题提供了思路和现成的平台。 5、典型应用 目前,大数据在公共卫生领域的应用还处于探索研究阶段,应用范围还远远不足,使健康大数据有着非常广阔的应用前景。 5.1 疾病预测与预防-谷歌流感预测(GET) 在公共卫生领域对健康大数据进行应用,可以对疾病进行有效的预测和预防,有效避免重大疾病的发生,在很大程度上降低人们的医疗成本和医疗压力,为人们提供健康保障。一直以来预测疾病的发生都极为困难,但利用大数据技术,基于处方药和非处方药销售量、卫生服务咨询电话接到患者电话的数量和内容、关键词点击量或搜索次数、社交网络浏览偏好等,使人群疾病预测成为可能。 2008年11月谷歌公司上线了“谷歌流感预测(GET)”,它的运行原理是:如果一个人患了流感,那么他很可能上网搜索流感相关信息,通过监测一个地区某些与流感相关检索词的数量,就有可能估计出该地区流感流行的情况。虽然并不是每个检索流感的人都会患流感,但是将所有的流感相关检索词汇总后,会发现一些词汇在流感流行的高峰期检索数目明显升高,通过计算这些词汇被检索的频率,就有可能获得该地区流感流行的趋势。GET由此建立了模型来预测流感样病例相关的就诊比例,可以在1天之后给出每周的流感流行报告,比美国CDC的官方报告早了10-14天,其在2008年的预测结果与美国CDC流感监测系统的结果高度相关,受到了巨大关注,并被推广到许多国家。虽然在之后2009年流感大流行及近几年其预测结果出现偏差,但总体预测结果与美国CDC监测结果相关,随着模型的不断升级,偏差得到了明显的控制。这是大数据在公共卫生领域的首次尝试,使大数据在公共卫生领域真正从理论走向实际。 谷歌公司利用网络用户日常进行网络检索时输入的关键词,进行识别和模型分析,成功实现了美国季节性流感实时预报。目前这种实时预报只是基于人们的搜索行为,如果将气候因素、医院症状监测系统和其他行为结合在一起,将会大大提高这种预报的准确性。此外,将基因组信息、气候信息、地理信息、植被信息、动物宿主和昆虫媒介监测信息等与医院症状监测信息和CDC疫情报告信息等数据进行整合,有希望实现更多传染病的预测预报。 5.2 循证公共卫生决策-全球疾病负担研究 健康大数据能够为循证公共卫生决策提供相应的保障。近年来,循证医学在卫生决策和临床实践过程中应用较为普遍,但是我国循证公共卫生意识仍然比较欠缺,而且缺乏专门的公共卫生决策数据库,很难形成正确的循证公共卫生思维。当前,我国在循证公共卫生决策方面的研究较少,不利于公共卫生领域的快速革新和发展。 相关研究人员可以在健康大数据中加入个人数据集,为循证医学提供充足的理论支撑,并对其细微差别进行明确的认识,为公共卫生决策者提供有力的证据,从根本上确保卫生政策制定的科学性、合理性及实践的有效性。相关部门要结合健康大数据在医疗卫生领域的应用状况,努力建立循证公共卫生决策数据库,加快其研究进度和建设速度。 全球疾病负担(GBD)研究是对由于疾病和伤害、危险因素等引起的健康损失进行定量度量的系统科学研究。全球疾病负担研究对各国制定公共卫生决策以及评估千年发展目标(MDG)的进展起着非常重要的作用,研究结果已被各国政府、非政府组织、世界银行和世界卫生组织用于确定研究、卫生发展和资金投入的重点领域和方向以及确定疾病预防控制的优先领域。 最新的GBD2010研究对全球分地区、性别和年龄,评估了21个地区、291种疾病和伤害的疾病负担,1160种疾病结局,收集了235种根本死因的死亡资料及67种危险因素的资料,343个社会经济指标,其应用的数据源范围广、数据量巨大,近4700台并行台式计算机完成了数据准备、数据仓库建立以及数据挖掘分析的自动化和规范化计算。 为了应对本次全球疾病负担研究所涉及数据海量、数据种类繁多、更新速度快等挑战,研究中采用了基于云计算的大数据相关技术思路,包括多源数据采集、数据整理与集成、数据仓库、数据挖掘、数据可视化分析等,总体技术架构如图1。
图1 疾病负担大数据平台技术架构
图2 健康云平台系统
(本文发布已得到作者同意,如需转载请联系本站,谢谢!)