由于支持数字人文的技术一直处于不断变化完善过程中且新技术不断涌现,数字人文的方法论基础尚未稳定,典型特征还不明显,应用领域也未形成相对成熟的范式,学术共同体内也缺乏共识。
整体而言,数字人文的方法学基础主要是映射和模拟。映射是指将某一学科的研究对象和历史材料经过数字化之后在虚拟世界里建立起一套相对应的系统;模拟是指新系统是对学科领域真实场景的仿真。仅仅将文献数字化是不够的,还必须建立起与真实世界相一致的概念抽象和逻辑框架,当然仿真的程度可以因问题和目标的不同而不同。这其实就是“基于数据的研究”。
美国著名数字人文专家约翰·安斯沃斯(John Unsworth)提出数字人文活动具有的特性可以用七个“学术原语(Scholarly primitives)’,来概括,分别是“发现(Discovering)、注释(Annotating)、比较(Comparing)、参考(Referring),抽样(Sampling)、说明(Illustrating)和表示(Representing)",可以理解成数字人文常用的七种基本方法。该理论后来被欧洲学者Tobias Blanke和SheilaAnderson等规范为五个基本原语:发现(Discovering )、收集(Collecting )、比较(Comparing )、发布(Delivering)和协作(Collaborating),以及多个“二级原语”。这种归纳其实是Willard McCarty和Harold Short于2002年总结的数字人文研究“方法共同体(Methodological Commons)',的抽象化和理论化。
将这些抽象活动与数字人文研究的生命周期过程结合起来,可以清晰地了解在数字人文研究的不同阶段,信息技术在各类活动中是如何起作用的。由此可以进一步明确,信息技术平台作为数字人文研究的基础设施,一方面提供所有数字人文研究所需的素材、工具和交流平台,同时也必然带来数字人文在宏观上的整合和一体化现象,而在内部形成问题跨界、学科融合和工具共通的领域特征。
1 数字化技术:构造数字人文的资源基础
越来越多的图书馆、博物馆、文化机构以及大学科研机构己开始进行人文资料的数字化和网络化,建立了大量的人文主题网站、专题数据库,并向大众开放。同时,大量的原生数字资源也被纳入这些人类记忆机构的馆藏,作为应对数字化时代挑战的基本策略。例如,许多国家图书馆都有规模不等的万维网存档项目(Web Archiving ),推特公司每年都把它的完整记录交由美国国会图书馆保存,还有一些非盈利性公司(如Internet Archive)有计划地从事互联网存档。这些工作不仅丰富了数字图书馆的内容,也加快了人文学者间的知识共享以及人文知识的大众化普及。支撑数字人文研究是数字图书馆建设重要的目标之一,这也构成图书馆学关注数字人文的重要原由。在应用驱动下,人文知识的网络数据库正在发展。
2 数据管理技术:构造数字人文服务系统
数字化只是实现传统数字人文素材向数字世界的映射,能够被计算机所存储、处理和展示,仅仅转换了一种存在方式而己。要充分发挥数字媒体的作用,还必须进行“数据化”,即按照知识单元的方式来组织领域知识,从而能够构造一个模拟领域应用的知识环境。要做到这一步,通常的“文本化”也是不够的,虽然文本化能够支持基于字符匹配的全文检索,但字符串还不是严格意义上的数据,必须把子串所表达的人名、事物名、时间、地点等析取出来,赋予独立的标识符(正像古希腊哲学家巴门尼德所认为的那样,没有名称的事物是无法独立存在的,近年来数据科学发展迅猛,己形成一整套数据管理方法论体系,其中本体技术、语义万维网相关技术(如关联数据)等是专门针对知识单元(语义单位)提供解决方案的技术,在数字人文领域己经有了非常成功的应用。
3 数据分析技术:构造数字人文应用平台
科研工作除了必须有原始素材之外,还必须有一系列科学方法。基于数据的研究之所以成为一种新型的科研“范式”,主要原因在于其己形成了特色鲜明、行之有效的基于数据的研究方法体系。通常数字人文的研究方法有文本分析(包括词频分析、共现分析、关联关系分析等、内容(主题)分析、时序分析、空间分析、社会关系分析等,例如数字文学研究就通常要用到文本分析、内容分析,社会关系分析及可视化等,而数字史学在文本分析、内容分析之外,还经常用到时空分析、实体关系分析以及有关历史人物的社会关系分析等。一个好的数字人文应用平台除了提供海量和规范的数字化信息和数据之外,还应该提供大量的软件应用和统计分析工具等。
4 可视化技术:构造数字人文的直观形象
可视化(Visualization )手段也是数字人文平台应该提供的重要服务内容。可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化技术的直观操控和实时交互为数据表示、数据处理、决策分析等提供了强有力的支持技术。对于数字人文研究而言,可视化技术能够让复杂庞大的数据形象地展示出来,直观明显地呈现结果。此外,正飞速发展的VR/AR技术也需要图形图像可视化技术支撑。
5 VR/AR技术:构造数字人文的交互环境
虚拟现实(VR)和增强现实(AR)技术,也称灵境技术或人工环境,是利用电脑模拟产生三维空间的虚拟世界,通过用户视觉、听觉、触觉等感官实时、直接观察或操控虚拟空间中的事物,能让用户具有身临其境的感觉。V卿AR技术集成了计算机图形、计算机仿真、人工智能、传感、显示及网络并行处理等技术,是数字人文技术中的高新技术。VR和AR的结合被称为MR (Mixed Reality),其最大的可能应用是给数字人文以超越时空的“场景再现”的能力,即在人工智能等技术的辅助下,历史学家可以借助穿戴设备,“穿越到”一定的历史场景中,与“古人”进行随心所欲的对话和交流。
6 机器学习技术:构造智能系统实现智慧服务
人工智能的目标是让机器学会做人的工作,而机器学习作为人工智能的核心,目的是让机器学会编程后自动找到解决问题的办法,完成复杂的任务。机器学习意味着计算机掌握的知识将会远多于人。前不久阿尔法狗为代表的深度神经网络算法在下围棋方面取得突破性进展,预示着计算机的认知对人类而言是一个黑箱,这将成为常态,而我们人类只需通过输入输出来控制其算法的改进,使其作为一个“超级大脑”,更好地继续为人类服务。目前机器学习在诸多领域执行专门任务己超越了人类的能力,有望大规模取代人的工作,例如金融分析师、法律文员、汽车驾驶员等。对于数字人文来说,机器学习能够大规模代替人工,进行资料的分类、组织、图像语音识别、名称识别、模式识别、关系发现、跨媒体检索、知识搜索等等,过去我们梦寐以求的自动标引己经基本不成问题。机器学习还能在智能化服务方面发挥独特优势,使数字图书馆的服务更加人性化和个性化,更加精准。人工智能正在改变人类社会的几乎所有方面,也将影响到数字人文的研究。
在上述技术支持下建立的数字人文平台能够使同样的素材可以被不同角度、不同领域进行研究,各类研究过程和成果又能反过来丰富数字人文平台的数据资料和服务性能,使数字人文系统自身也处在一个不断递归和发展完善的过程中。这正是数字人文技术体系展示的力量。