海量、异构、动态变化的数据使得信息组织的任务变得更为复杂,具体体现在数据本身的复杂性、计算的复杂性和信息系统的复杂性等方面。这也是大数据处理任务面临的普遍问题,有赖于大数据存储、大数据计算、大数据挖掘与分析等基础性技术的突破和迭代。从信息组织的尾度来说,我们并不期望它解决大数据的所有问题,但至少应该在数据的分类、描述、约减、评估、交换共享等方面发挥重要作用。
总的来说,信息组织应该在以下几个方面发挥作用:
1 大数据资源的分类
分类是人们认识事物、区分事物以及分析问题的基本方法,也是人类思维的基本形式。作为信息组织的基础性方法,分类法用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列,将知识按照学科门类加以集中,便于用户浏览检索。分类法最初用于图书馆又献信息资源的分类排架、建立分类检索系统,在网络环境下又衍生出网络主题分类目录、各类网站的自编分类体系、大众分类法等形式。
在大数据环境下,分类的方法应该发挥更重要的作用,以电子商务大数据为例,在数据生成的过程中,信息就是按照一定的门类(比如网站自编的商品分类体系)被采集的。当前,还需要建立多维度的大数据分类(分级)体系,比如根据大数据序化的程度进行分级,分为序化程度高、序化程度一般、序化程度低三种,选择判断出当前急需进行序化、能够进行序化的大数据类型,针对序化程度高的数据,研究重心在于整合和互联,针对序化程度低的数据,研究重心在于描述和揭示。
在信息组织的研究和买践中,必须根据不同的大数据类型采取相应的策略,并决定数据描述和揭示的详细程度以及深入程度。比如根据数据处理方式,大数据可分为适合于批处理的大数据与适合于流式计算的大数据,信息组织应主要着眼于可存储、可进行批处理的大数据类型。根据处理响应时间,大数据可分为需要买时/准买时计算的大数据与非买时计算的大数据,根据响应时间的要求不同,信息组织介入的方式应有所区别。根据数据价值、数据分布状况、数据类型等指标决定信息组织的深度,对于价值密度极其稀疏的大数据,往往只需要进行浅层的组织与序化,对于分布式存储的数据,重点要买现数据划分和互操作,对于流式数据,则需要在数据生成之前,就建立好数据描述和表示的标准。
2 大数据资源的记录与描述
信息组织通过对原始信息资源的特征进行分析、选择和记录,提供信息资源的概要内容信息,买现信息资源的描述,其典型成果包括机读目录MARC、图书在版编目CIP、都柏林核心元素集等元数据,记录与描述的详细和深入程度则根据不同元数据的格式而不同。
大数据经过记录和描述后,能够揭示其包含的精华和主要内容,比如可以为大数据建立数据档案,记录其内容、条件、格式、产生时间、长度、使用限制条件等,为大数据交易、大数据挖掘与分析提供参考。
3 大数据资源的浓缩与约减
记录与描述也是对信息资源进行浓缩的过程,通过把一次信息转化为二次信息,将纷繁复杂的信息资源约减成简单的替代记录,比如又摘、题录、目录、书目、元数据等。信息组织操作的直接对象往往是这些替代记录,而非信息资源本身”’。信息组织可以对大数据进行一定程度的抽象表示,建立大数据资源的替代记录,买现大数据资源的浓缩与约减。
4 大数据资源的定位、选择、评估与管理
通过信息描述建立的元数据,还具有对信息资源进行定位、选择、评估和管理的功能。元数据通过对信息资源位置信息的描述,方便信息资源的定位与获取;通过对信息资源的名称、年代、格式、版本、使用情况等属性的描述,使用户在无需浏览信息对象本身的情况下,就能够了解和认识信息对象,对信息资源的使用价值和重要性进行判断,作为存取和利用的参考。元数据还包括制作信息、权利管理、转换方式、保存责任等内容,以支持对信息资源的管理以及长期保存。
元数据在大数据环境中仍然发挥着定位、选择、评估与管理的功能。一方面,网络数据是大数据的重要来源渠道,网络数据的生成、采集和存储,本来就依赖于元数据的控制;另一方面,在存储和分析大数据的过程中,由于大数据来源、数据类型的多样性,各种元数据不再是单独发挥作用,而是作为一个集群,协同发挥作用。
大数据环境下,提供数据交易、数据分析场所和基本工具的平台商,提供数据集的原始数据商,提供应用和服务的开发者等各类主体共同构成了大数据生态系统,在这个生态系统中,需要频繁地对大数据资源进行定位、选择、评估和管理,这有赖于建立面向大数据的元数据。
5 大数据资源的交换与共享
信息组织建立的各种词表、人名表、地名表、术语表、领域本体在信息资源的交换和共享、信息系统互操作、跨库检索等方面发挥着重要作用”.以医疗领域为例,用于规范医疗数据库和信息系统信息交换与共享的信息组织成果包括:医学标题词表(MeSH)、国际疾病分类法(ICD)、系统医学术语集(SNOMED)、观侧标识符逻辑命名与编码系统(LOINC)、一体化医学术语系统(UMLS),等等。
大数据通过互联和共享,可以产生更大的价值,比如我国提出要通过建设数据统一共享交换平台,推进国家人口基础信息库、法人单位信息资源库、自然资源和空间地理基础信息库等国家基础数据资源与金税、金关、金财、金审等信息系统跨部门、跨区域共享,其后台必须要依靠叙词表等信息组织成果对信息的交换与共享进行规范和控制。