中国历史地理数据开放应用的技术实现方案
论文作者:同为论文网 论文来源:caogentz.com 发布时间:2017年03月27日

基于本体的时空数据模型,其功能实现需要相关技术的支持。在W3C提出的语义网框架中,本体处于数据模型的层面,其目的是将现实世界中的实体对象数据化,使得机器能够对实体对象的特征和实体对象间的关系进行查询、计算甚至简单的推理。要达到这一目的,需要相应的底层实现技术来支持,本节从数据的编码、数据的发布和开放应用两个方面来说明中国历史地理数据开放应用的技术实现方案。

数据的编码

为了历史地理数据在更广泛的范围内得到利用,建议历史地理数据的编码借鉴GeoNames的做法,采用W3C的推荐标准—RDF作为数据抽象模型和数据编码格式。RDF标准规范体系包括以“主体一谓词一客体”组成的三元组为最小单位的RDF抽象数据模型,和RDF/XML,Turtle , N3 , JSON等一系列满足不同数据传输或处理目的、适应不同应用开发环境的数据编码格式,也叫序列化(Serialization)格式。“主一谓一宾”是知识组织与描述的通用模型,与本体的“对象一属性一属性值”一脉相承,有着很好的通用性和兼容性。RDF的各种编码格式是W3C的推荐标准,可很好地支持异构系统间的数据交换和传输,也可方便地被各种流行的编程语言处理。更重要的是,编码后的RDF数据可以存储在专用的RDF存储库而非关系数据库中,这样的RDF存储库也被称为“图数据库(Graph Database)”。

与关系数据库相比,图数据库是以三元组而非记录为数据的最小单位,以主体作为节点,以可重复、不限量的属性作为节点的分支,如果属性所指向的客体是另一个实体对象,则该客体又可作为另一组属性的主体,如此循环往复,成为相互关联的网状图形,如图3所示。这样的结构决定了数据的开放性和可扩展性。一方面,往某一个节点上增加属性和属性值时不会影响节点本身和整个数据库;另一方面,RDF存储库所用的RDF数据查询语言SPARQL,具有跨网域查询的功能,可对互联网上位于不同网域的数据源进行联邦查询,超越了关系数据库只能在局域网内对同一数据库进行查询的限制。

数据的发布和开放应用

Berners Lee提出开放数据的五星标准:将数据发布到Web上为一星,以机器可读的格式(如EXCEL)提供数据为二星,数据格式为非专业的机读格式(如CSV)为三星,采用开放的数据标准(如RDF,SPARQL)为四星,为数据建立更多的外部关联为五星。为了实现中国历史地理数据在更广泛的范围内开放应用,笔者建议参照该标准进行数据发布。

以本体、RDF和关联数据为技术框架,可以很好地实现开放数据的五星标准,也有利于互联网环境下的规范控制。关联数据是一种在Web上发布数据的方法,以HTTP URI(可理解为遵循Cool URI稳定性、永久性原则的URL)作为各种对象的统一标识符(URI ),例如“安昌县”以<http ; //data. library. sh. c;n/plac;ename/an-ohangxian/>作为U RI,即可实现全网域范围内的唯一标识和定位(访问)。地名一旦被赋予HTTP URI,就具备了发布到Web的条件,并可方便地与Web上的其他数据集如GeoName、中的地名建立关联。关联数据要求数据以RDF序列化格式编码,可存储于本地RDF存储库中,以SPARQL进行数据查询,可联合查询本地RDF存储库和已发布在W eh上的地名数据集如GeoNames,与本体结合,可以在不同的对象之间建立可被机器理解的关联关系。整体技术框架如图4所示。

在}Ph上除了为人文学者和图书馆的读者提供查询和浏览界面之外,还要为其他应用系统提供历史地理数据的开放应用服务,这是本知识库建设的重要目标和需求之一,因而设计可被计算机应用程序调用的数据应用程序接口( API)就显得尤为重要,以关联数据为基础的数据服务接口技术也被称为关联数据消费技术。

关联数据的消费接口有多种方式,如DBPedia,FreeBase, GeoName、等大型数据集均提供SPARQL Endpoint,Restful API、定制开发工具包等多种多样的数据消费接口,以下三种方式基本可以满足程序员不同技术层次的需求。

(l)内容协商。访问特定地点、地名的HTTPURI时,可获得其详细的RDF数据。当用普通的浏览器访问时,系统返回供人阅读的HTML页面,当用语义浏览器或程序访问HTTP URI时,系统按照请求方通过HTTP Header传送的关于内容格式的请求返回相应序列化格式的RDF数据,如RDF/XML, RDF/Turtle ,JSON-LD等。

(2) Restful API。是一种轻量级的WebService技术框架,基于HTTP协议提供应用程序接口供程序调用,一般表现为包含各种输人参数的U RL。参数的数量、调用方法和返回数据的结构和格式由开发人员事先定义。这种方式因其简便性和跨平台性,已逐步成为数据应用程序接口的主流方式,可被多种程序语言如C,JHVH,PHP,  Python等调用。

( 3 ) SPARQL Endpoint。为熟悉RDF专用查询语言SPARQL的开发人员调用,与Restful API相比,可为开发人员提供更多的灵活性。要求开发人员对本体有着详细的了解。

表2以中国历史地理数据的Restful API为例,说明如何找到已知地名在不同时间范围内的不同地点及其他特征信息。表3以中国历史纪年的Restful API为例,其主要目的是实现中国历史纪年和公元纪年之间的相互转换。


相关推荐
联系我们

代写咨询
 362716231

发表咨询
 958663267


咨询电话

18030199209

查稿电话

18060958908


扫码加微信

1495607219137675.png


支付宝交易

ali.jpg