1 监督式查询扩展流程
本节简要介绍监督式查询扩展的算法流程,并在后续小结详细介绍如何改进该方法并将其应用于生物医学文献检索任务,算法流程如算法1所示。
监督式查询扩展算法主要分为两个阶段:模型训}练阶段和基于模型的查询扩展阶段。在模型训练阶段,首先通过非监督查询扩展方法为每一个训练查询选择大量候选扩展词,其中非监督查询扩展方法采用本文第3章提出的基于Me SH的查询扩展方法;然后根据扩展词对检索性能的影响,对扩展词质量进行有用性标注;同时抽取扩展词特征,将每一个扩展词都表示出特征向量;最后基于组排序学习算法训练得到扩展词选择模型。在基于模型的查询扩展阶段,针对于每一个测试查询采用非监督查询扩展方法获取大量候选扩展词,并将每一个扩展词表示为特征向量;之后应用训练好的模型,选择其中最为有效的扩展词,重构原始查询,实现二次检索。
算法1.监督式查询扩展流程.
ü训练扩展词选择模型M:
1:基于非监督查询扩展方法为每一个训练查询q选择k 个候选扩展词;
2:扩展词有用性标注;
3:扩展词特征抽取,将每一个扩展词表示为特征向量;
4:基于组排序学习算法训练扩展词选择模型。
ü基于扩展词选择模型M的查询扩展:
1:基于非监督查询扩展方法为每一个训练查询R选择k 个候选扩展词;
2:扩展词特征抽取,将每一个扩展词表示为特征向量;
3:基于模型M选择前m个扩展词用于查询扩展;
4:基于扩展查询二次检索。
接下来主要针对扩展词有用性标注、扩展词特征抽取以及基于组排序学习的扩展词选择模型训练过程进行详细介绍。
2 候选扩展词有用性标注
候选扩展词有用性标注是为每一个候选扩展词赋予一个真实标签,该标签能够反映出该扩展词相对于原始查询的作用,同时该标签也作为模型训练过程中的真实值,用于损失函数计算和模型优化。在监督式查询扩展中,当前常用的一种候选扩展词有用性标注策略是根据候选扩展词对检索性能的潜在影响将其标注为相关或者不相关。具体标注策略可通过如下公式描述。
(8)其中,t为某一个候选扩展词,q为原始查询,Eval为某一种检索性能评价指标,例如平均准确率C MAP等。该标注策略的核心思想在于首先根据原始查询进行初次检索,并记录其检索性能值为Eval(q);然后将与之相关的某一候选扩展词加入原始查询,构成扩展查询,并基于该扩展查询进行检索,记录其检索性能值为Eval(t,q);若原始查询的检索效果优于该扩展查询,则说明该候选扩展词未能提升原始查询的效果,因此将该扩展词标注为0,即不相关,反之,则将该扩展词标注为1,即查询相关。
在将该标注策略应用于生物医学文献检索时,为充分考虑该任务的特点,本文将该策略进行改进。与其他检索任务不同,生物医学文献检索任务的文档相关性标注不仅标注了与某一查询相关的一系列文档,同时也针对每一篇相关文档,标注其所能反应出的查询的主题信息,因此生物医学文献检索任务的目标就转化为获得相关文档列表,同时该列表尽可能多地覆盖相应查询的主题信息,从而为用户提供更加全面的检索结果,满足其信息需求。例如针对生物医学查询“How does P53 affectapoptosis?"(蛋白质P53如何影响细胞凋亡),所标注的主题短语包括“apoptosis regulatory proteins" (凋亡调节蛋白质)"tumor suppressor protein P53" (肿瘤抑制蛋白P53)和“gene expression(基因表达)等。考虑到主题短语与原始查询的相关性,本文在公式(8)标注策略的基础上进一步考虑候选扩展词在主题短语中出现的情况,对标注策略做如下改进,如表1所示
其中,TopicTerm(t, q)表明候选扩展词t是否出现在相应查询q的主题词中,若出现则说明该词有助于获取某一主题相关的文档,因此与查询较为相关。该标注策略同时兼顾候选扩展词对检索性能的影响和与查询主题的相关性,将既能提升检索性能又可以作为查询主题词的候选扩展词标注为2,即确定相关,将仅能提升检索性能或者仅能覆盖查询主题的候选扩展词标注为1,即可能相关,将既不能提升检索性能也不能作为查询主题词的候选扩展词标注为0,即不相关。该设置既考虑了候选扩展词对检索性能的潜在影响,又考虑生物医学文献检索任务的特点,因此能对候选扩展词的有用性给出更为精确的标注。