虽然大数据为解决各种生态环境问题提供了新的机遇,然而生态环境大数据的大规模应用才刚刚起步。生态环境大数据的真正实施在数据开放和共享、大数据处理技术、资金投入、专业人才、应用创新和数据管理等方面还面临着诸多挑战。
1 缺乏数据共享
生态环境大数据需要整合和集成政府多部门和社会多来源的数据(例如个人和企业等),只有不同类型的生态环境大数据相互连接、碰撞和共享,才能释放生态环境大数据的价值。因此,要想挖掘隐藏在生态环境大数据背后的潜在价值,实现数据共享是关键,也是解决生态环境问题的前提和基础。然而,实现数据共享还面临巨大挑战。首先,我国生态环境大数据包括气象、水利、生态、国土、农业、林业、交通、社会经济等其他部门的大数据,涉及多领域、多部门和多源数据,虽然目前这些部门已经建立了自己的数据平台,但这些平台之间互不连通,只是一个个的“数据孤岛”。大部分数据只是公开,而非开放,即数据只是发布和公开,而无法下载和利用数据,仅限于“看’,,而无法真正去“用’,,很多生态环境数据还在档案柜里“睡大觉’,。其次,数据没有规范化,数据存储格式不一样,即使在同一个行业,数据也是“一人一个模样”,形成了“拥有者不一定觉得有用,看得懂、用得着的不一定能拥有”的局面。我国至今还有大量与生态环境相关的历史资料还不是电子形式,由于缺乏有效的数字化技术和手段,早期积累的很多纸质档案资料面临破损与消失的风险,这些宝贵档案资料的数字化也是一个较大的挑战。另外,数据开放严重不足,主要表现在数据开放总量偏低,可机读性差,大多为静态数据,且集中在经济发达、政府信息化基础和IT产业发展好的城市。最后,生态环境数据的整合和脱敏也是一项重大挑战,因为开放数据即任何人都能自由下载和利用机器可读的数据格式,所以哪些数据可以公开,哪些数据敏感,需要脱敏等等,这些都是需要耗费巨大人力物力的工作。
2 缺乏技术创新和落地
在数据来源方面,生态环境大数据来源多种多样,既包括各种“空天地”的监测和调查数据,也包含各种影像、声音和视频等非结构化数据,这些庞大的数据杂乱无章、参差不齐,如何将这些多源异构数据转换成合适的格式和类型,并在存储和处理之前对采集的数据进行去粗取精,并保留原有数据的语义以便后面分析,是生态环境大数据面对的一个技术挑战。目前常用的是通过数据清洗和整理技术对其填补数据残缺,纠正数据错误,去除数据冗余,将所需的数据抽取出来进行有效集成,并将数据转换成要求的格式,从而达到数据类型统一、数据格式一致、数据信息精练和数据存储集中等要求。例如,LSI公司开发了一款多核处理器可对数据进行实时分类,降低网络流量。在数据存储方面,当前生态环境大数据由于各种移动终端和网络的视频、文本、图片、照片等非结构性数据流正在爆发性增长,未来存储技术的效率对于提高大数据的价值至关重要,包括存储的成本和性能。相比于传统的物理机器存储(包括单机文件和网络文件系统),适用于生态环境大数据的分布式存储系统提高数据的冗余性、可扩展性、容错能力、低成本和并发读写能力。例如,LSI的闪存技术可以大大提升数据的应用速度。因此,需要不断研发进行存储技术创新,将操作便捷性的关系型数据库和灵活性的非关系型数据库融合,是未来技术创新的发展目标。在数据分析方面,目前Googl。的MapReduc。系统、Yaho。的S4系统、Twine:的Storm系统、Pregel系统等分别从离线批量计算、实时计算、图数据处理,都是针对不同的计算场景建立了不同的计算平台,管理运营成本很高,所以研发适合多种计算模型的通用架构是生态环境大数据建设和发展的急切需求。另外,数据分析已经从传统的通过先验知识人工建立数学模型到建立人工智能系统,通过人工智能和机器学习技术分析生态环境大数据是未来解决生态环境问题的关键手段。但对于他们的深度学习还需要大量工程和理论问题[az-as },例如,基于深度神经网络的机器学习,其模型的迁移适应能力以及大规模神经网络的工程实现。众所周知,工具、开源以及框架设施是大数据技术发展的方向,因此,当前大数据的技术创新形成了“互联网公司原创—开源扩散—扩散制造商产品化—其他企业使用”的产业链格局。不过,要想实现生态环境大数据的技术和应用一体化发展,企业和政府部门必须抛弃“拿来主义”态度,只有加强对技术开源社区的贡献,才能加强对技术的深入理解,也才能更好的发挥大数据在生态环境领域的应用。同时,还要加强管理制度配套和工作人员能力提升等方面,实现技术落地。
3 资金投入不足
目前,国内外对生态环境大数据的资金投入不足。缺乏大数据重大示范项目,大部分国家缺乏生态环境监测设备、计算机资源和数据资源等基础设施的投入,包括网络服务器、数据处理和存储系统、数据仓库系统、云计算平台等。同时也缺乏对生态环境大数据拓展融资渠道,缺少地方政府、工商企业和有实力、有需求的生产经营主体参与大数据融资。还没有成熟的大数据产业推广模式。
4 缺乏大数据专业人才
大数据时代的到来,对各国现有教育体系提出了全新的挑战。大数据时代需要大量的复合型人才,尤其是生态环境大数据涉及的学科众多,既需要计算机、通讯等工程技术,也需要数学、统计、人工智能等模型技术,更需要生态、环境、气象、水文、土壤等专业知识。当前许多地区的教育体系不符合未来生态环境大数据发展的战略需要,尤其是现有的高等教育体系学科分类明确,独立性比较强,缺乏学科之间的交叉融合。很多地方还没有开设大数据相关的专业和课程,也缺少大数据环境监测、生态信息学和环境信息学等方面人才培养。
5 应用活力不足
我国生态环境大数据的创新应用还很有限,大数据的威力远远未能发挥出来,政府综合运用生态环境大数据的能力较低,没有形成成熟的生态环境大数据产业链和有影响力的数据企业。生态环境大数据在气象、水利、国土、农业、林业、交通、社会经济等各部门的应用才刚刚起步,跨领域的应用寥寥无几。如何促进大数据在生态环境领域中的应用创新,使大数据真正成为提高生态环境监管能力现代化的有力手段,是目前世界各国正在探索的课题。
6 缺乏数据管理
2015年9月5日,国务院公开发布《国务院关于印发促进大数据发展行动纲要的通知》(以下简称《纲要》)。《纲要》系统部署了大数据各项工作,并指出大数据已成为提升政府治理能力的新途径。2016年3月,环保部刚刚发布了《生态环境大数据建设总体方案》,为环保系统开展生态环境大数据建设提供了强有力的政策支持和技术框架。在大数据时代,我国政府严重缺乏对数据的管理,同时在利用大数据治理生态环境问题的方式上也面临严峻挑战。
首先,政府生态环境领域职能部门缺乏“大数据”思维和意识。我国已经数字化的生态环境数据资源数量和质量都表现出“双低”状态,例如,很多纸质档案资料面临破损与消失的风险,如气象资料。有些政府部门不知道自己有什么数据,自己甚至没有“数据清单”。另外,生态环境大数据目前还没有形成统一标准的数据格式,地方和各个系统都在制定自己的数据标准,目前急需对数据格式进行统一的标准规范,这是实现数据共享和开放的关键。
其次,政府的现代管理理念和运作方式不适应“大数据”管理决策的要求。生态环境大数据开发的根本目的是以数据分析为基础,帮助政府在解决生态环境问题的过程中作出明智的决策。因此,要改善我们政府的管理模式,需要管理方式和整体结构与大数据技术工具相适配。例如,在应急管理的事前准备、事中响应和事后救援与恢复的每一阶段都可以引入大数据的应用,每个阶段对大数据的应用程度也会因其需要应对内容的不同而有所差别。如果各个部门不能改变管理模式和协同配合,常造成人为的损害。例如,最近我国南方遭遇的台风和强降雨事件,如果我们利用大数据的思维去管理,可以通过收集地面气象站和卫星的温度、风速和降雨量的小时数据,对台风和降雨进行预测时空分布,可以事前疏散大众,挽救国家和人民财产及生命。
最后,生态环境大数据面临严重安全隐患。大数据的安全主要包括大数据自身安全和大数据技术安全,大数据自身安全指在数据采集、存储、挖掘、分析和应用过程中的安全,在这些计算和存储过程中由于黑客外部网络攻击和人为操作不当造成数据信息泄露,外部攻击包括对静态数据和动态数据的数据传输攻击、数据内容攻击、数据管理和网络物理攻击。例如,很多野外生态环境监测的海量数据需要网络传输,这就加大了网络攻击的风险,如果涉及到军用的一些生态环境数据,本来我们可以国内共享,但如果被黑客获得这些数据,就可能推测到我国军方的一些信息,后果不堪设想。大数据技术安全是利用大数据技术解决信息系统安全的问题,即黑客利用大数据技术对生态大数据进行攻击,轻松获得很多涉及国家机密和比较敏感的生态环境领域的数据。随着云计算技术的发展,数据在云端的存储存在严重的安全隐患。例如,美国“棱镜门”事件,美国政府就是通过云计算和大数据技术收集大量数据也包括各国生态环境敏感数据。因此,我国未来应加强生态环境大数据安全技术研发、生态环境大数据信息安全体系的建设和管理等方面。