作为一门新兴的研究学科,数据挖掘结合了统计学、数据库、人工智能、机器学习等多个领域的知识和技术,是一个多学科相互交融且具有广泛应用前景的领域,已经取得了广泛和重大的进展,应用到许多的领域,出现了大量商品化数据挖掘系统。医学数据挖掘也是一门涉及面广、操作难度大的新兴交叉学科,不仅需要具有相关数据处理能力的技术人员,还需要相关的医务工作人员和医疗机构提供医学数据和专业医疗活动支持,并且要实现医学信息和挖掘技术的整合和技术上的突破。
1数据挖掘概述
1.1数据挖掘的含义数据挖掘一同首次出现在1989年举行的第十一届国际联合人工智能学术会议上,又称“知识抽取”“信息发现”“知识发现”等。数据挖掘就是从大量的、不完全的、模糊随机的数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。从本质上来讲,数据挖掘是智能信息处理的一种技术,它在对大量数据深刻而全面认识的基础上,经过统计、归纳和推理等过程,从中抽取一般的、普遍的和本质的特征或规律。它对数据的本质进行高度抽象与概括,使数据由感性认识升华到理性认识。
1.2数据挖掘的方法数据挖掘技术利用的技术越多,得出的结果越精确。数据挖掘涉及许多学科领域和方法,可分为分类、关联规则、预测、聚类分析、异常和趋势发现等。中医药研究中常用的数据挖掘方法有关联规则、频数分析、聚类分析、粗糙集、人工神经网络等,不同研究领域使用的数据挖掘方法稍有差异。邓宏勇等}z}通过检索历年中医药数据挖掘文献,经人工拆分整理分析后,发现关联规则在方剂应用中最广泛,其次是频数分析和聚类分析,而中药现代研究常用的方法是人工神经网络。
1.3数据挖掘软件数据挖掘软件是进行数据挖掘的必需工具,中医药数据挖掘常用的软件是通用型数据挖掘工具,如SPSS ( Clementine ) , Weka , SAS(Enterprise Miner),Matlab等。另外,在研究过程中逐渐出现了专业数据挖掘软件,如中药复方配伍规律的数据多维分析系统[f37、针灸处方分析软件[fal、处方智能分析系统CPIAS }5}、中医传承辅助系统[+}等,它们为中医药数据挖掘提供了方便而快捷的使用平台,有利于中医药的现代化研究,为中医药的发展提供了良好的基础。
1.4数据挖掘的过程数据挖掘的过程主要分为三个阶段(图1):数据准备、数据挖掘、结果的描述与评价。数据准备是在对数据理解和掌握的基础上,完成对大量数据的选择、转换、缩减和整理等数据预处理。数据挖掘阶段即采用合适的数据挖掘方法或软件对整理好的数据进行处理和分析。结果的描述与评价主要是确定数据挖掘的信息或知识是否准确有效,以便发现有意义的结论。
2数据挖掘在方剂学研究中的应用现状
数据挖掘是从大量的模糊数据中提取有用信息的信息处理技术。目前,数据挖掘在国际国内都受到了前所未有的重视,并广泛应用于各个领域。数据挖掘技术使数据处理进人更高级的阶段,不仅能对以往的数据进行查询和遍历,还能够找出数据间潜在的联系,促进信息的传播。
很多学者在方剂学的数据挖掘方面作了大量的工作,并取得了一些重要成果。宋宇等圈通过正则表达式实现方剂数据的自动抽取,并对方剂的配伍规律进行数据挖掘研究,为中药方剂的信息化提供一种新的研究视角。王润林等将从《中华名医名方薪传》中收集的治疗胃病的中医处方录人计算机,建立数据库,采用数据挖掘技术从中药的种类、四气五味、归经功效及核心药物等角度寻找治疗胃病的用药规律。卢绪香等应用频数分析、聚类分析、因子分析方法,对所收集的26}个处方进行数据挖掘,对主要药对、药对规律进行探讨,并应用以药推证法,探讨其病机变化。李强等利用关联规则的Apnon算法对痹证方剂进行了配伍规律的挖掘研究,数据挖掘软件运用SPSS Clementine,对痹证临床治疗具有一定的参考价值。陈能等采用关联规则算法、复杂系统嫡聚类等无监督数据挖掘方法对收集到的治疗跟痛症的处方进行分析,通过中医传承辅助平台分析跟痛症中药熏洗处方的用药规律。毛斌等从配伍规律研究、方一药一证对应研究、类方研究等方面展示了关联规则在中医方剂学中的应用,展望了关联规则在方剂数据库研究中的发展前景,认为方剂数据库标准化与关联规则算法创新是该领域未来的研究方向。李文林等利用关联规则方法,分析了明清两个时代中医治疗疫病的药一症关系,为指导传染性疾病的预防和治疗提供了借鉴。翁思颖等收集钟一棠先生临床治疗不寐症处方,采用Apnon算法、嫡聚类法等数据挖掘方法,确定各处方用药频次和药物之间的关联规则,分析了其用药规律。杨艳平等收集了3本中医文献中治疗湿疹的病案,采用无监督数据挖掘方法,如关联规则Apriori算法、复杂系统嫡聚类等,分析处方中药物的使用频次、药物之间的关联规则和处方用药规律。程德斌等收集、整理治疗心悸的处方,录人中医传承辅助系统,利用无监督数据挖掘方法,如复杂系统嫡聚类、嫡层次聚类、改进互信息法等,对筛选出的385首治疗心悸方剂进行分析,使用频次均在20次以上的药物有43味,其关联系数均在0.01以上的常用药对43个,获得38个核心组合。龙晓华等从《医理真传》与《医法圆通》中收集组成明确的方剂,利用Excel建立方药数据库,采用SPSS 17.0和Clementine 12.0软件对数据进行描述统计分析、双变量相关性分析、关联规则分析和聚类分析,发现郑钦安在用药上具有如下几个特点:法宗伤寒,推崇仲景;辨分二纲,药有阴阳;善补脾胃,协和营卫;配伍灵活,用药圆通。赵艳青等应用中医传承辅助平台软件构建中医药治疗抑郁症的方剂数据库,采用软件集成的数据挖掘方法,对方剂数据库进行四气五味、归经分布及频次统计、证型分布、组方规律、新方分析,确定了处方中药物出现的频次、常用药对及组合,演化得到新处方22首。蒋志滨等综合运用频次统计、关联分析以及配伍网络等技术方法,分析了目标方剂集上中药使用频次及配伍特点等规律,经筛选与标准化处理后,共纳人方剂116首,含中药1 269味次,涉及17类212个中药,得出结论:中医治疗胃癌重视以扶正为本,随证常配伍活血化疲、清热解毒、消痰散结、理气行滞之品。吴嘉瑞等利用中医传承辅助系统构建数据库,使用软件的统计报表功能、数据分析功能,分析了含赤芍处方中单味药物频次、药物组合频次、核心药物组合等。江建忠等}zzl通过检索中国生物医学文献数据库(CBM),筛选2004 -- 2013年中医药治疗缺血性卒中的临床文献,筛选出治疗缺血性卒中的文献1 332篇,治疗缺血性卒中的方剂169首,涉及中药217味,使用频次)10的药物有35味。得出138种药物组合,其中2味药的药对组合31种,3,4,5味药的核心组合分别为45,35,21种。康晨等收集具有催乳功效的方剂及中药等相关资料,并进行数据标准化处理,构建数据库,用频数分析及关联规则方法挖掘催乳方剂中的中药组成和配伍规律,结果显示,在治疗产后缺乳的方剂中,木通与黄蔑、桔梗与获菩、猪蹄与人参等都是临床常用的配伍。杨雯晴等利用改进互信息法、复杂系统嫡聚类、无监督的嫡层次聚类等无监督数据挖掘方法,分析了315首中医治疗头痛的方剂,确定了处方中药物出现的频次,并演化得到核心组合26个,新处方13个。吴嘉瑞等利用数据挖掘对国医大师颜正华含牡砺处方的用药规律进行了挖掘,得到了以往传统研究未发现的新知识和新信息,为寻找药物临床配伍规律提供了有效方法。周亚男等通过收集严世芸门诊治疗心律失常医案,采用SPSS 19.0统计软件中频数法对其处方中单味药物和常用方剂的频次、频率进行分析,得出严世芸治疗心律失常处方中所用的药物多含补气、活血等功效。徐慧明等采用频次分析、聚类分析和关联规则分析方法对中药治疗非酒精性脂肪肝的复方进行数据挖掘,共获得治疗非酒精性脂肪肝的中药复方107个,涉及药物179种、频次1 499次;以使用频次)10次的37种作为主要药物进行聚类分析,归为活血药、清热药、利湿药、补气药、消积药、化痰药、补阴药、行气药和泻下药9大类;经关联规则分析,共得有趣关联规则33条,药对30对。孙卉丽等[2A]收集郭维琴教授治疗冠心病处方,利用关联规则算法、复杂系统嫡聚类等无监督数据挖掘方法,分析处方中药物的使用频次、药物之间的关联规则和处方规律,挖掘出治疗冠心病基础用方及20个常用药物组合。陈桂芬等通过筛选整理《千金方》中养生方剂,构建包含药物、方名、主治组成等字段的方剂数据库,分别作药物频数分析、用药关联规则挖掘等研究,从多角度探讨了养生方剂的用药规律,并且分析了其挖掘结果,给出了养生方剂常用药组和药对。田茸等应用中医传承辅助系统,收集、整理治疗脾虚型噎,呢逆、暖气、十呕、呕吐、反胃的方剂,录人系统并利用嫡方法与Apriori算法进行组方规律分析。得出治疗脾虚型胃气上逆病证组方多以健脾益气为主,和胃降逆为辅。潘碧琦等通过收集近5年治疗痛风文献的中药处方,运用关联规则Apriori算法、复杂系统嫡聚类等无监督数据挖掘方法,分析处方中药物的使用频次和药物之间的关联规则,挖掘出14个核心组合和7首新处方。
综上所述,中医方剂数据挖掘主要涉及三个方面:①“方一病一证”研究;②复方配伍研究;③类方研究。虽然数据挖掘在方剂研究中的应用取得了许多可喜的成果,但是也有很多不足之处,仍然需要技术的进步来弥补这些不足。
3总结与展望
数据挖掘技术在方剂研究中发挥着巨大作用,利用数据挖掘可以从庞大的方剂数据集中提取有用的信息,包括用药频次、高频药对组合、组方规律等,并且可以发现新处方,为中医临床治疗和新药研发提供指导,为中医药的现代化研究提供强有力的技术支持。尽管数据挖掘技术快速发展,但是目前数据挖掘技术与中医药结合的深度仍旧改变不了中医药数据庞大难以处理的局面。只有在把握方剂的基本知识和思维规律的前提下,合理运用并充实数据挖掘技术,才能保证研究结果的准确,并将方剂数据处理能力提高到新的阶段。
总之,为了使数据挖掘更好地应用于方剂研究,可以从两方面着手:第一,完善方剂信息。方剂数据集的复杂性、重复性和冗余性等特征都不利于数据挖掘技术的开展。因此对方剂信息的处理和完善是数据挖掘的基础工作,包括方剂信息的统一和规范,另外,还应不断寻找数据处理的新方法。第二,寻找方剂学与数据挖掘技术的最仕契合点。需要通过多领域、多学科专家的协调与合作,在保留中医药特色的前提下,找到合适的数据挖掘方法,从而更好地促进数据挖掘技术在方剂研究中的应用。