“大数据”( Big Data)是一个新兴的概念,全球范围内大数据的研究热潮方兴未艾,大数据俨然成为21世纪热同。对大数据的定义学界一直存在争议,美国科技基金协会定义大数据为描述大量高速度、复杂和可变数据的术语,需要先进的技术来实现信息的捕获、存储、分配、管理、分析。我国有学者提出大数据是指无法在短期内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理、服务的数据集合。
Laney认为大数据首先表现出“3V"的特征:体量、速率、变化。体量是指数据的规模大,但是多少数据量是大并没有具体规定。一般认为,当规模超过一般可用的硬件和软件的计算能力时,数据就可以称之为大规模。速度是指生存数据的速度以及满足需求的分析速度。多样性指的是大数据可以采取的多种形式,包括结构化的数字数据、文本文档、音频、视频和社交媒体信息等。"3V"特征也为部分学者定义大数据和扩充其特点提供框架基础。也有研究认为大数据的特点可以总结为"4V",即体量浩大(Volume)、模态繁多(Variety、生成快速(Velocity )、价值巨大但密度很低(ValueIBM基于“4V”特征又提出第五个“V”即精确性。
大数据的产生和发展是信息科学技术推动的,但是当这个概念广泛传播发展并成为社会趋势后,社会科学纷纷引入这一概念。如美国语言学家Mitchell基于500万本Google图书的内容进行挖掘,探讨了百年来时代热点同汇出现的频率变化、语法演变、集体意识改变和技术适应等方面的内容,揭示人类百年历史发展轨迹日。陈军基于谷歌图书的最新语料库,包括811万种书籍和8613亿个同汇,通过设计、检索社会学的学科关键同以获得历年同频数据,分析社会学一百年的学科发展轨迹[[A]。大数据在零售商业的运用最明显,也是与我们生活切实相关的,如阿里巴巴旗下的淘宝可以通过用户购买记录和浏览习惯,推送个性化的热点和商品,同时结合购买历史和社交媒体数据来为买方提供优惠券、折扣提高销售额和成交记录。
大数据也逐渐运用于医疗健康行业,为发展医疗技术和提升国民健康作出重要贡献。具体来说,IT的发展为大量医疗数据累积提供技术支持,一方面它可以详细、准确追踪个人疾病史和身体状况,制订个性化的健康评估和预警;另一方面大量临床样本会推动医学进步。俞国培等人全面总结大数据在医疗健康领域的运用,提出大数据在健康行业中的六种应用形式,包括医院医疗、区域卫生服务平台数据,基于大量人群的疾病研究或疾病监测大数据、自我量化大数据、网络大数据、生物信息大数据。作为美国国家健康战略的OpenFDA在2014年上线,它收集了从2004年到2013年全美药品不良反应和医疗过失记录,形成300万种药物不良反应数据库,这无疑是国家健康战略的大跨步。
大数据对身体健康和医疗研究的贡献是无可争议的,那么大数据之于心理健康和心理研究有何意义呢?事实上,相较于身体健康,心理健康是一个难以测量的指标,比如情绪、品格、幸福感等,这些指标相比身体健康较为抽象和模糊,不易直接测量。尽管如此,国内外已有学者探讨大数据在心理学中的运用,主要集中于情绪、幸福感等非医疗健康心理学领域。因此,本文介绍国内外大数据在心理学运用的几个案例,并通过这几个案例阐述大数据如何运用于心理学研究、大数据为心理学研究带来的可能性,提出大数据心理学研究中必须注意的几个问题以及可能存在的不足之处,以为我国大数据在心理学上的运用提供参考。