辨证论治是中医学的特色,病证结合是目前中医药现代研究的一种新模式。中、西医学的不同临床诊断方式与疾病临床表现的复杂性有关。因此,如何在同一疾病中辨识中、西医诊断的特色及其异同,成为发掘中医特色,并推动其深入研究的重要前提和基础。日前,清华信息国家实验室生物信息学研究部、中国中医科学院基础理论研究所、皖南医学院弋矶山医院科研人员,采用文献数据采集与分析技术,以常见的复杂性疾病类风湿性关节炎(RA)为例,对中、西医诊察的异同及其关联进行初步探讨,为中医辨证论治提供了一定的科学方法和依据。
研究人员共采集85项RA常见的临床信息,归为病变部位、量化诊断、症状描述、普遍状况、环境因素5类;并从中国期刊网和Medline网中分别提取RA西、中医诊察的数据集,分析5类临床信息在中西医数据集中的出现频数并进行卡方检验;再基于“同时出现”方法分析中医若干诊察与RA有关生物因素的关联。
研究人员发现,在所调查Medline网的9495篇文献中,RA的症状出现率依次为:疼痛(32.8%),晨僵(6.6%),握力(5.3%),骨质疏松(4.5%)等,均侧重于对RA中客观病理变化有关临床表现的诊察与研究;在CNKI的1012篇中医文献中,除重视RA的共性临床表现外,RA中、西医临床诊察比较结果具有极显著性差异(P
研究人员认为,中医学对RA诊察的特点在于侧重于症状描述及内外环境因素;而西医学诊察侧重于RA客观的量化诊断。中医学侧重于对RA机体与内、外环境因素的关联,如RA患者对寒冷、温热等环境刺激的反应,以及地域、时令等等的诊察。同时,中医学对患者症状的证候属性诊察与判断侧重于症状的属性描述、动态变化以及症状与外界刺激的关系。
此外,研究人员还发现,若干中医诊察数据与RA生物学因素的关联。如以RA中医辨证论治中具有一定代表性的“口渴”症状以及“舌”诊为例,通过Medline网文献挖掘,结果发现“口渴”及“舌”诊与部分RA相关的生物学因素存在一定的关系。其中一次关联(直接关联)者涉及肿瘤坏死因子α(TNF-α)、白细胞介素(IL)-6等炎症细胞因子以及免疫细胞,二次关联则涉及激素、神经肽等。
研究人员认为,RA是一种免疫系统调节紊乱所致的炎症反应性疾病,涉及全身多系统受损。RA在中医学属于“痹病”的范畴。中医药治疗RA的常用辨证方法为寒热辨证、气血津液辨证、脏腑辨证等。由于个体差异、遗传因素、内外环境影响、精神心理等原因,RA虽然在病理学和免疫学上具有一定的共性,然而RA临床表现及其基因表达(基因型与表型)均具有明显的多样性,导致了RA在机理研究和治疗上的困惑。研究人员指出,RA等常见复杂性疾病具有多样的临床表现,是目前西医以“疾病”为主体的诊疗模式和中医以“证候”为主体的诊疗模式并存的背景,也从一个侧面反映了“病证结合”研究的合理性和必要性。因此,探索中、西医学对于疾病(RA)的不同诊察方式,是深入研究疾病病理生理变化、临床表现、分子机制及其与证候类型之间关系的重要基础。
数据挖掘是从大量的、模糊的、随机的数据中,提取潜在有用的信息和知识的过程。目前已经建立了大量的医学、生物学数据库,文献数据挖掘方法已在基因表达网络等研究上取得成果。研究人员采用基于文献的数据挖掘方法,对RA的中、西医诊断标准及文献调查显示,现代医学侧重于诊察、研究与RA客观病理变化密切相关的临床表现。与此不同的是,中医学诊察不仅重视RA的共性因素,还侧重于诊察疾病与环境因素(自然环境,社会环境)的关联,体现了中医“整体观”的诊疗思维;侧重于对RA症状的属性描述、动态变化以及症状与外界刺激关系的诊察,体现了中医“辨证论治”的诊疗实践。以上这些为现代医学诊察RA所忽视的信息,正是中医证候分类的基础,也是“异病同证,同病异证”的重要依据。同时,中医学对于RA的共性临床表现的重视,也反映了“病证结合”研究思维在中医药现代研究中的发展与进步。“同时出现”是文献挖掘中寻找相互关系的重要方法之一。研究人员前期研究中还发现RA“寒热”证候与神经、内分泌等状态间的联系,与此次研究具有较好的一致性。
研究人员指出,通过以上研究提示,中医学与西医学是有所分野的、具有中医自身特色的诊断,在一定程度上也客观反映了RA发生发展过程中的一些生物化学变化。总之,对于疾病过程中环境因素的考察以及症状信息的全面采集与提炼,这是中、西医学诊断RA有所区别的重要原因之一。即中医学通过并非特异的病因病理所导致的、但却客观体现于患者的整体、动态的诊察,为RA等疾病的诊疗提供了更为丰富的资料,并有助于RA等疾病复杂临床信息的归类,以及寒、热等机体不同整体状态(证候)的提取和判别。
研究人员相信,中医学辨证论治的有效实践,可在与RA疾病特异性病理改变的比较中显示特色,并有望为推动疾病复杂性状的研究,提供一定的途径。研究人员从文献挖掘的角度分析还认为,虽然中医学与现代医学对同一疾病的诊察各有侧重,中医学诊察与机体内的生物分子却存在潜在的关联,提示以“证候”为特点的中医学诊察可成为现代医学“疾病”诊疗体系的重要借鉴,同时也为探索中医学的诊断与观察特点,提供了一种方法和途径。
写给新人数据挖掘基础知识介绍
对企业来,堆积如山的数据无异于一个巨大的宝库。但是如何利用新一代的计算技术和工具来开采数据库中蕴藏的宝藏呢?
在市场需求和技术基础这两个因素都具备的环境下,数据挖掘技术的概念和技术就应运而生了。
基本概念数据挖掘(Data Mining)旨在从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。
还有很多和这一术语相近似的术语,如从数据库中发现知识(KDD)、数据分析、数据融合(Data Fusion)以及决策支持等。
基本任务数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。
1、关联分析 association analysis关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。
2、聚类分析 clustering聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚 类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系。
3、分类 classification分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这 种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。
4、预测 predication预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。 预测关心的是精度和不确定性,通常用预测方差来度量。
5、时序模式 time-series pattern时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。
6、偏差分析 deviation在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。
基本技术1、统计学统计学虽然是一门“古老的”学科,但它依然是最基本的数据挖掘技术,特别是多元统计分析,如判别分析、主成分分析、因子分析、相关分析、多元回归分析等。
2、聚类分析和模式识别聚类分析主要是根据事物的特征对其进行聚类或分类,即所谓物以类聚,以期从中发现规律和典型模式。这类技术是数据挖掘的最重要的技术之一。除传统的基于多元统计分析的聚类方法外,近些年来模糊聚类和神经网络聚类方法也有了长足的发展。
3、决策树分类技术决策树分类是根据不同的重要特征,以树型结构表示分类或决策集合,从而产生规则和发现规律。
4、人工神经网络和遗传基因算法人工神经网络是一个迅速发展的前沿研究领域,对计算机科学 人工智能、认知科学以及信息技术等产生了重要而深远的影响,而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描述,有了这个基础,预测的难题就会迎刃而解。目前在数据挖掘中,最常使用的两种神经网络是BP网络和RBF网络 不过,由于人工神经网络还是一个新兴学科,一些重要的理论问题尚未解决。
5、规则归纳规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律,这大致包括以下几种形式:IF … THEN …
6、可视化技术可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。
实施步骤
数据挖掘的过程可以分为6个步骤:1) 理解业务:从商业的角度理解项目目标和需求,将其转换成一种数据挖掘的问题定义,设计出达到目标的一个初步计划。2) 理解数据:收集初步的数据,进行各种熟悉数据的活动。包括数据描述,数据探索和数据质量验证等。3) 准备数据:将最初的原始数据构造成最终适合建模工具处理的数据集。包括表、记录和属性的选择,数据转换和数据清理等。4) 建模:选择和应用各种建模技术,并对其参数进行优化。5) 模型评估:对模型进行较为彻底的评价,并检查构建模型的每个步骤,确认其是否真正实现了预定的商业目的。6) 模型部署:创建完模型并不意味着项目的结束,即使模型的目的是为了增进对数据的了解,所获得的知识也要用一种用户可以使用的方式来组织和表示。通常要将活动模型应用到决策制订的过程中去。该阶段可以简单到只生成一份报告,也可以复杂到在企业内实施一个可重复的数据挖掘过程。控制得到普遍承认。
应用现状人工智能研究领域的科学家普遍认为,下一个人工智能应用的重要课题之一,将是以机器学习算法为主要工具的大规模的数据库知识发现。尽管数据挖掘还是一个很新的研究课题,但它所固有的为企业创造巨大经济效益的潜力,已使其很快有了许多成功的应用,具有代表性的应用领域有市场预测、投资、制造业、银行、通讯等。
英国广播公司(BBC)也应用数据挖掘技术来预测电视收视率,以便合理安排电视节目时刻表。信用卡公司Alllelicall KxT,ress自采用数据挖掘技术后,信用卡使用率增加了10% 一15%。AT&T公司赁借数据挖掘技术技术侦探国际电话欺诈行为,可以尽快发现国际电话使用中的不正常现象。
数据挖掘是一个新兴的边缘学科,它汇集了来自机器学习、模式识别、数据库、统计学、人工智能以及管理信息系统等各学科的成果。多学科的相互交融和相互促进,使得这一新学科得以蓬勃发展,而且已初具规模。
以上是小编为大家分享的关于写给新人数据挖掘基础知识介绍的相关内容,更多信息可以关注环球青藤分享更多干货
本文地址:http://www.dadaojiayuan.com/zhongyizatan/77381.html.
声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:602607956@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!
上一篇: 哈医大大肠癌治疗研究有新进展
下一篇: 胸痹程度与冠脉病变程度不成正比