一种融合语义资源的生物医学查询理解方法
论文作者:同为论文网 论文来源:caogentz.com 发布时间:2017年08月28日

  

近年来,随着生物医学(Biomedicine)领域的}h};速发展,生物医学相关研究取得较多有价值的成果,这些成果不仅促成一些疾病的治疗,也推动了人类对于自身认识的发展和深入。与此同时,生物医学文献数量也与日俱增,文献中涵盖的信息量呈指数性增长,这些文献和所包含的信息能够辅助生物医学研究人员和相关从业人员把握最新研究进展,推动相关研究进一步开展。    

然而,海量的文献信息很难通过传统的手工方式获取,因此需要借助于现代信息检索技术和方法,协助相关人员获取所需的信息。信息检索技术能够根据用户提交的查询,对文献进行相关性排序,并将排序结果返回给用户。而直接将传统的信息检索方法应用于生物医学文献的检索任务中,很难取得较好的检索性能。其原因在于未能充分考虑生物医学领域的固有特点,例如生物医学词汇的专业性和多样性等,同时,这些专业词汇往往存在很多同义词和缩写词的情况。如果能在传统的信息检索方法中充分考虑生物医学领域的特点,在检索中融入语义资源,将会进一步提高生物医学信息检索的性能。    

查询扩展技术是传统信息检索领域的关键技术之一。它能够在用户提交的原始查询的基础上,根据用户的检索意图,对查询进行补充和完善,从而得到更符合用户检索意图的查询,提高检索的性能。现有的查询扩展方法按照扩展词的来源不同可以分为两大类:一类是基于文档集合的查询扩展方法,这类方法以全部数据文档集合或者部分数据文档集合为研究对象,从中提取与查询相关的内容,完善原始查询;另一类是基于外部扩展资源的查询扩展技术,外部资源主要包括有词典资源、检索系统查询日志,锚文本和维基百科等,很多研究表明利用外部扩展资源完善原始查询,可以更好地完成查询扩展任务,进而提升检索的性能。    

查询扩展按照其扩展词选择过程不同可以划分为非监督式查询扩展和监督式查询扩展。传统经典查询扩展方法以非监督式查询扩展为主,这些方法以特定扩展词评估函数为依据,选择高质量扩展词扩展原始查询,进而提升检索效果;近年来,一些研究表明基于单一扩展词评估函数的非监督式查询扩展方法在泛化过程中具有一定局限性,其原因主要源自单一评估函数很难充分考虑扩展词与原始查询在不同维度上的相关性,而监督式查询扩展方法能够很大程度上弥补这些局限。    

所谓监督式查询扩展是采用监督式机器学习方法选择扩展词,其优势在于能够以特征的形式从不同维度充分度量扩展词与原始查询的相关性,并通过损失函数最小化的方法训练得到扩展词选择模型,用于扩展词的选择和精炼。这类方法在多个检索任务中均被证明具有较好的查询扩展效果,因此本文拟采用监督式查询扩展提升生物医学文献检索的性能。    

同时,考虑到生物医学领域存在较多语义资源,如果能在信息检索的过程中,充分利用这些资源对用户提交的查询进行补充和完善,检索的性能将有很大可能性得到进一步提升。基于以上考虑,本文提出一种基于医学主题词表(Me SH)的生物医学文献检索方法。该方法分为两个阶段:非监督式候选扩展词选择阶段和监督式查询扩展阶段。    

在非监督式候选扩展词选择阶段,本文方法一方面通过伪相关反馈过程,从反馈文档集合中提取候选扩展词,并根据候选扩展词和原始查询词的共现关系对扩展词加权;另一方面基于医学主题词表中的词分布情况,对候选扩展词的重要性进行进一步衡量,从而综合权衡扩展词在文档集合和外部资源中的重要性;在监督式查询扩展阶段,本文提出一种基于组排序学习的扩展词选择模型,该模型以扩展词特征向量为输入,扩展词特征向量主要基于扩展词在上下文中的分布信息和扩展词在语义资源中的分布信息进行抽取,并根据扩展词和原始查询的相关性对扩展词进行自动化标注作为模型训练的目标值,采用组排序学习方法,通过迭代优化组排序损失,训练得到扩展词选择模型,用于查询扩展和二次检索。    

TREC数据集上的实验结果表明,本文方法能够有效提升生物医学文献检索的性能,在非监督式候选扩展词选择阶段选出大量具有潜在有用性的扩展词,并通过监督式查询扩展过程,对扩展词进一步精炼和优化,更好地完成查询扩展,提升生物医学文献检索的整体性能。   

下文组织结构如下:2章介绍相关工作;3章详细阐述本文提出的基于医学主题词表的非监督式候选扩展词选择过程;4章详细阐述本文提出的基于组排序学习的监督式查询扩展过程;5章通过实验检验本文方法的性能,并对结果进行分析和讨论;6章总结全文并对未来工作给予展望。


相关推荐
联系我们

代写咨询
 362716231

发表咨询
 958663267


咨询电话

18030199209

查稿电话

18060958908


扫码加微信

1495607219137675.png


支付宝交易

ali.jpg