999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫方劑數據庫文本挖掘數據預處理的嘗試

2015-09-09 20:49:23吳磊李舒
中國中醫藥圖書情報 2015年3期
關鍵詞:文本挖掘

吳磊+李舒

摘要:目的針對中醫方劑數據挖掘需要提出一套以數據清洗為主的數據預處理方法,使數據規范、準確和有序,利于后續處理。方法通過檢索技術,在方劑數據庫中獲取文本數據源,將非規范化的數據通過輔助詞群行處理、正則表達式替換、異名處理等步驟進行清洗,改進數據質量。結果在中國方劑數據庫共檢索到1758條記錄,在方劑現代應用數據庫共檢索到91條記錄。源文本數據經預處理后共得到有效記錄6913味藥,可成功導入相關信息挖掘系統進行方劑名稱和中藥名詞的信息抽取。結論本方法適用于基于中醫方劑數據庫的文本挖掘和知識發現,可成功對源文本數據實施清洗,得到標準統一、無噪聲的數據,實現所需方藥信息的有效抽取,可為中醫方劑文本型數據信息分析與挖掘研究提供有益的借鑒。

關鍵詞:中醫方劑:方劑數據庫:文本挖掘:數據預處理:數據清洗

doi:10.3969/j.issn.2095-5707.2015.03.003An Attempt on Data Preprocessing for Text Mining in TCM Prescription DatabaseWU Leil, LI Shu2(1. Information Engineering College, Liaoning University of TCM, Shenyang Liaoning 110847, China;2. Department of Medical Informatics, China Medical University, Shenyang Liaoning 110001, China)

Abstract: Objective To propose a set of data preprocessing method based on data cleaning for TCMprescription database; To make data more standard, accurate and orderly, and convenient for follow-up processing.Methods The text data source was retrieved from prescription databases by bibliographic searching techniques.Non-nonnalized data were processed through steps followed by auxiliary word group line processing, regularexpression substitution, and synonyms processing, with a purpose to unprove data quality. Results Totally 1758effective records were retrieved from TCM prescription database, and 91 records were retrieved from prescriptionmodern application database. 6913 effective Chinese herbal medicines were retrieved after preprocessing, whichcan be successfully imported into relevant information mining system, and information about prescription andherb names can be extracted. Conclusion This method is applicable for text mining and knowledge discovery in TCM prescription database. It can successfully implement data cleaning for source text data, get data with unifiedstandard and without noise, and finally realize the effective extraction of prescription information, which canprovide references for researches on analysis and mining ofTCM prescription text data.

Key words: TCM prescriptions; prescription database; text mining; data preprocessing; data cleaning

近年來中醫藥信息化發展迅速,已構建及完善了大量的中醫方劑數據庫,中醫方劑數據挖掘和文本挖掘方興未艾。雖然方劑數據庫是經過一定校對勘誤后的結構化數據庫,但庫中原始數據通常因年代跨度大,并保留了不同時期原方的信息特點,對方劑、藥物信息的表述準確性及規范統一方面存在一些問題,存在錯誤的、冗余的、無效的和不一致的噪聲數據。因而直接抽取原生信息無法滿足數據挖掘和知識發現的具體要求,需要對數據進行必要的預處理,使之規范、準確和有序,實現數據的正確表達和合理組織,達到數據挖掘的基本條件。

數據預處理是數據挖掘中極為重要的方面。數據挖掘過程的大部分工作都在數據預處理環節。根據統計,在一個完整的數據挖掘過程中,數據預處理占用約60%的時間,而后的挖掘工作僅占總工作量的10%左右。數據清洗( data cleaning)是解決問題數據的主要預處理過程,對確保數據質量具有重要作用。本文以中醫治療中風病方劑數據挖掘為例,探討一種以數據清洗為主的數據預處理方法,為后續配伍規律知識發現研究提供數據支持。

資料與方法

數據來源

由于本研究主要針對方劑名稱和藥物名稱進行預處理,因此選用了兩個具備方劑和藥物名稱的數據庫,即中國方劑數據庫和方劑現代應用數據庫,均隸屬于中國中醫科學院中醫藥信息研究所自1984年開始進行建設的中醫藥學大型數據庫群。

在中醫藥在線(http://www.cintcm.com/)的中醫藥多庫融合平臺( http://cowork.cint cm.com/engine/windex.jsp)中,選擇方劑類數據庫中的中國方劑數據庫和方劑現代應用數據庫,字段選擇均用“主治”,模糊檢索,輸入“中風”,年代不限,檢索時間為2013年11月27日。

研究方法與工具

基于輔助詞群的行處理工具 文本行抽取和處理是文本數據預處理中的常用方法,而基于輔助詞群的方法可有效提升其靈活度。該方法是基于預先建立的包含輔助詞群的輔助文件,可對源文件實現抽取或去除包含輔助文件中詞群的行輸出;并可按給定的批量行號提取行。

本研究中的行處理由數字人文研究內容挖掘系統ROST CM實現。

正則表達式文本處理工具正則表達式是一種可以用于模式匹配和替換的規范,一個正則表達式就是由普通的字符以及特殊字符組成的文字模式,它用以描述在查找文字主體時待匹配的一個或多個字符串。在很多文本編輯器或其他工具里,正則表達式通常被用來檢索和/或替換那些符合某個模式的文本內容。

正則表達式可用來驗證字符串是否符合指定特征并用來查找字符串,比查找固定字符串更加靈活方便;可以用來替換,比普通的替換更強大。例如表達式“ab+”描述的特征是一個“a”和任意個“b”,那么“ab”“abb”“abbbbbbbbbb”都符合這個特征。

本研究中的正則表達式處理由文本處理工具Textpro實現。

納入和排除標準

納入標準:以方劑主治病證中明確出現中風、半身不遂、偏枯、癱瘓、神識昏蒙、言語蹇澀或不語、口眼歪斜及其同義詞或近義詞為主癥,篩選出主治這些主癥的方劑或其主治內容所包含的信息與已知的中風病病因病機符合的方劑。

排除標準:排除方劑所治癥狀可明確為其他因素(非中風)所引起的偏枯、偏癱、口眼歪斜等,無主癥或主癥不符合,及屬于治療外感表證和類中風(中寒、中暑、中濕、痰厥等致半身不遂、偏枯癱瘓)的中風方劑,如風痹;外風、風濕/類風濕型產后中風、小兒中風;風寒/傷寒中風,破傷中風,心肺中風,脾胃中風,肝臟中風,中毒等。2結果與分析

中國方劑數據庫共檢索到1758條記錄,在方劑現代應用數據庫共檢索到91條記錄。以“一般模板”進行套錄,保存為HTML格式;再將源文件的HTML格式轉為ANSI編碼的TXT格式;最后來自兩個數據庫的兩組文本合并。之后經標準過濾并整理去重后,共得到有效記錄648條,重新編號后形成待處理源文本,其中取自中國方劑數據庫1號源文件的部分文本數據如圖1所示。

基于輔助詞群的文本行處理

為提取源數據中主要關注的方藥信息,使用ROSTCM的基于輔助詞群的行抽取與處理方法對信息進行清理,“方名”和“藥物組成”兩字段除外。輔助詞群設置為[別名][處方來源][劑型][功效][加減][主治][制備方法][用法用量][用藥禁忌][用法用量][各家論述][臨床應用][備注][藥理作用]。經過文本行處理后,源文件內容轉為如下形式,如圖2所示。

基于正則表達式的文本處理

本研究中,因特殊制法和劑量信息暫不考慮,這些信息需要被屏蔽。文本源數據的特殊制法部分都采用了中文括號表示,故使用正則表達式替換操作,表達式設置為“\([^)]冰\)”(意為從一個開括號到最近的閉括號)。該操作在支持REGEX的Textpro工具中進行,如圖3所示。

如“何首烏1斤(赤、白色者各半,米泔浸3宿取出,用竹刀刮去皮,薄切,焙干)”,處理完形后,為“何首烏1斤(p)”。

對于劑量信息,首先刪除藥名后的“等”和“各等分”字符,如“川芎等”、“當歸各等分”,去掉后為“川芎”“當歸”;再使用自定義替換功能將中文劑量字符統一轉換為數字字符,如將“半兩”轉為“0.5兩”;最后再清除劑量和制法信息。具體做法為:使用正則表達式“\d[^:]冰\:”(意為從一個數字字符到最近的英文分號),將其替換為英文分號,可將劑量信息去除。

藥物名稱不一致處理

源文本中的“藥物組成”字段為長文本類型,包括各種中草藥的名稱,是非規范化的數據,存在不一致問題。中藥品種眾多,名稱復雜,因時代、地域不同而有別,常根據藥物的形態、產地、顏色、功效等特征來命名。因此源文本數據中同藥異名、同名異藥的現象十分普遍。例如僵蠶處方名有天蟲、僵蟲、白僵蟲等多種名稱,但均實屬同一藥物,應都規范為僵蠶。

本研究的中藥異名問題,主要參考《中藥學》教材及《中藥大辭典》進行規范化處理。原則上將長名轉為短名,如:明天麻轉為天麻,甘菊花轉為菊花等,如反之,則會出現如“甘甘菊花”的無效結果;但有些藥確要將短名化長名,則需確認源文本中藥名前后皆以英文分號結尾(無劑量等信息):如將“芎”化為“川芎”,“白附”化為“白附子”。

依據參考書建立藥名轉換規范對照表,使用Textpro的自定義替換功能載入該表,對源文本數據批量處理,規范化藥名,如表1所示。

對于“芎?”這類特殊字符構成形式,在部分系統處理完畢后出現未能匹配成功替換情況,可使用單獨替換功能重新處理一遍。 此外,源數據中某些藥物與現代中藥存在差別,有一些藥名≥2個中藥合并起來的簡稱,為了統一藥名,需要將其拆分開來,如將蒼白術拆分為蒼術、白術。

源文本數據經預處理后共得到有效記錄6913味藥,部分結果如圖4所示。

本研究表明,該預處理方法可成功地對源文本數據實施清洗,得到標準統一、無噪聲的數據,因此是有效的。結果數據可導入書目信息共現挖掘系統(BICOMB)進行方劑名稱和中藥名詞的信息抽取,為進一步進行知識發現提供了有力的數據支撐。

小結

數據清洗就是通過各種措施,從準確性、一致性、無冗余、符合應用的需求等方面提高數據的質量,實質是消除數據中的錯誤和不一致。目前,中醫藥信息處理與分析中的數據預處理方法種類繁多,本文試用一種定制的以數據清洗為主的數據預處理方法對非規范的原始數據進行了有效的處理,是中醫藥數據挖掘和文本領域的一次有益嘗試,希望對后續研究起到拋磚引玉的作用,并推廣至其他中醫方劑類文本型數據庫數據挖掘的數據預處理中,為中醫方劑數據挖掘和文本挖掘研究提供新方法和技術手段。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識
科技資訊(2017年5期)2017-04-12 15:18:52
網絡教育資源中的跨語言知識管理研究
基于潛在特征的汽車評論要素挖掘
基于評論信息的淘寶服裝類評分體系優化
商情(2016年32期)2017-03-04 00:27:28
數據挖掘技術在電站設備故障分析中的應用
軟件導刊(2016年12期)2017-01-21 15:55:21
基于LDA模型的95598熱點業務工單挖掘分析
文本數據挖掘在電子商務網站個性化推薦中的應用
商(2016年34期)2016-11-24 16:28:51
從《遠程教育》35年載文看遠程教育研究趨勢
基于文獻的中西醫結合治療腦梗死藥物使用情況分析
基于改進Hadoop云平臺的海量文本數據挖掘
主站蜘蛛池模板: 日韩高清成人| 欧美精品亚洲精品日韩专区va| 亚洲人成影院在线观看| 青草午夜精品视频在线观看| 成年人国产网站| 狠狠干欧美| 国产免费精彩视频| 亚洲一区二区三区中文字幕5566| 成年午夜精品久久精品| 国产精品片在线观看手机版| 国产成人久久综合777777麻豆| 亚洲AV无码久久精品色欲| 亚洲女同欧美在线| 一本一道波多野结衣av黑人在线| 54pao国产成人免费视频| 91久久偷偷做嫩草影院精品| 69视频国产| 91久久偷偷做嫩草影院电| 亚洲高清无在码在线无弹窗| 亚洲色大成网站www国产| 色偷偷一区二区三区| 久久精品视频亚洲| 91久久国产热精品免费| 亚洲成人一区二区三区| 97se亚洲综合| 91久久国产综合精品女同我| 精品久久777| 国产麻豆精品久久一二三| 日韩午夜片| 欧美国产日韩在线| 欧美另类第一页| 欧美一区二区三区香蕉视| 超碰91免费人妻| 亚洲综合网在线观看| 一区二区日韩国产精久久| 欧美综合激情| 国产综合另类小说色区色噜噜| 国产亚洲精品无码专| 国产在线麻豆波多野结衣| 欧美精品二区| 无码福利视频| 欧美日韩高清| 成人午夜网址| 国产99在线观看| 亚洲人在线| 最新国产麻豆aⅴ精品无| 美女被操91视频| 成人国产精品网站在线看| 国产自在线拍| 国产69精品久久久久妇女| 国产亚洲欧美另类一区二区| 她的性爱视频| 国产成人综合亚洲网址| 中文字幕无码制服中字| 美女免费黄网站| 亚洲精品第五页| 高清视频一区| 一本无码在线观看| 午夜性刺激在线观看免费| 99re这里只有国产中文精品国产精品| 精品少妇人妻无码久久| 国产精品永久久久久| 亚洲精品动漫在线观看| 国产综合网站| 美女国内精品自产拍在线播放| 六月婷婷综合| 婷婷色狠狠干| 成人字幕网视频在线观看| 国产精品成人免费综合| 免费国产小视频在线观看| 国产精品精品视频| 日韩激情成人| 国产黄在线观看| 国产精品无码一二三视频| 国产在线自揄拍揄视频网站| 亚洲第一黄片大全| 福利在线一区| 精品国产香蕉在线播出| 亚洲欧洲日产国产无码AV| 99久久国产自偷自偷免费一区| 国产美女精品人人做人人爽| 热99精品视频|