999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

藥品安全話題發現技術研究

2019-05-24 14:17:58徐靜張文學
軟件導刊 2019年5期

徐靜 張文學

摘 要:運用中文信息處理方法,從大量醫藥新聞報道中進行有價值話題挖掘,為后續話題跟蹤提供訓練測試文本。從醫藥新聞特點入手,使用輪廓系數評價法對k-means的聚類性能進行評估,選取最佳聚類中心數。利用LDA對選取的最佳主題進行提取,從而得到相應的話題。輪廓系數評價法與k-means方法相結合,有助于從海量信息中篩選出有價值的話題。當樣本量足夠大、聚類效果不好時,人工標記可在一定程度上改善聚類效果。

關鍵詞:醫藥新聞;k-means;LDA;話題發現

DOI:10. 11907/rjdk. 182740

中圖分類號:TP319 文獻標識碼:A 文章編號:1672-7800(2019)005-0151-04

Abstract: By using the method of Chinese information processing, valuable topics are mined from a large number of medical news reports, and training test texts are provided for follow-up topic tracking. Starting from the characteristics of medical news, the clustering performance of K-means is evaluated by using contour coefficient evaluation method, and the optimal number of clustering centers is selected. Then we use LDA to extract the best topics and get the corresponding topics. The combination of contour coefficient evaluation method and K-means method is helpful to select valuable topics from mass information. When the sample size is large enough and the clustering effect is not good, artificial markers can improve the clustering effect to a certain extent.

Key Words: Medical News; k-means; LDA; Topic discovery

0 引言

大數據時代,藥品生產企業的藥品安全輿情動態是企業決策的重要依據,從網絡媒體發布的藥品安全事件、藥品安全監管及藥品安全形勢等醫藥新聞報道中發現價值,進行快速、準確、有效的數據收集與分析具有重要意義。從海量網絡信息中發掘出有價值的藥品安全相關話題,給藥品生產企業提供決策引導,需應用話題發現技術。

話題發現技術集中在算法改進及新聞分類語料利用兩個方面。路榮等[1]通過利用隱主題分析技術及混合聚類方法實現微博客中新聞話題的發現,并通過實驗驗證算法的可行性;孫紅光等[2]通過改進Single-Pass算法并以話題為粒度組織新聞信息,實現對網絡新聞話題的發現。其改進方法充分考慮了網絡新聞的實時性、特征詞不同位置的權重比例及話題的相似度計算3個方面,驗證了改進算法的準確性及有效性;車蕾等[3]通過融合新聞標題、段落、文本語義等特征實現多特征融合的新聞話題發現模型;魏德志等[4]提出基于時間序列的熱點話題發現模型和算法,在改進算法的基礎上以網頁內容相似度和頁面鏈接分析為依據,按照權重值大小獲取話題。鑒于藥品安全領域相關語料分析缺乏,話題發現技術是直接采用分類語料這一現狀,本文嘗試通過k-means方法對大量無標記醫藥新聞進行聚類分析,幫助藥品生產企業從醫藥新聞數據中識別出藥品生產市場發展動態及重要政策方針等有價值信息,在進行分類訓練后對藥品生產企業關注的問題進行有效跟蹤,從而為企業相關決策提供有力的信息支撐。

1 話題發現流程

本文藥品安全話題發現框架如圖1所示,包含數據預處理、文本表示和話題發現技術3個部分。

1.1 數據預處理

在網站上采集到醫藥新聞語料后,需要對這些原始新聞網頁信息進行預處理,為后續文本聚類作準備。數據預處理步驟如下:

(1)數據清洗。對采集到的網頁信息進行噪聲數據清除[5],去掉網頁鏈接、重復數據、多余標簽等無用信息,實現數據去噪目的,保留有效信息。

(2)預處理。是進行自然語言處理的基本過程,包含中文分詞、停用詞過濾、詞性標注3部分:①進行中文分詞[6],即對文本內容中的句子按照詞的含義進行切分,是對文本內容進行處理的一項基礎性工作;②對停用詞進行過濾[7],去除文本中的標點符號及無意義的虛詞。文本中出現頻率很高的虛詞如冠詞、感嘆詞、介詞、連詞等,它們在構建語法時并不能獨立承擔句子成分,沒有實在意義。去除這些虛詞,不僅可以減少對文本中有效信息的噪聲干擾,提高檢測精度,而且可以減輕算法開銷,降低后續處理難度;③對詞性進行標注[8],即對分詞后的每個詞匯確定詞性并標注。通過詞性標注可以消除歧義,強化單詞特征,保證句法分析的精確率。

由于中文分詞技術并不是本文重點研究內容,因此直接選用Python開發的中文分詞模塊——jieba分詞進行文本預處理。jieba分詞具有開源性和靈活性,可以完成文本內容的中文分詞和詞性標注,并通過調用包含1 893個符號和詞的停用詞表剔除標點符號及無意義的虛詞。語料庫預處理效果如表1所示。

1.2 文本表示

(1)特征選擇及權重計算。原始語料在經過預處理后其維度得到有效降低,但由于詞、詞組和短語構成的詞條數量眾多,存在很多無效詞,因此需要去掉無效詞構造較為精簡的特征空間。醫藥新聞文本中不同的詞對主題的貢獻度不同,需要根據重要程度賦予對應權重。在進行文本向量化之前,通過詞頻統計方法對預處理后文檔中詞語出現的頻數進行統計,并從中抽取出標識性的特征詞,利用詞頻-逆文檔頻率[9](TF-IDF)方法得出詞向量的權重值。TF-IDF體現了詞語對文本的區分能力,過濾掉文本中出現頻率低和對聚類作用權重值較小的詞,使主要特征詞成為后續文本表示模型中有效的數據輸入。這樣既可以對特征進行有效降維,又有助于提高聚類效率和精度 [10]。

(2)文本向量化。指既能將文本表示成計算機可以理解的形式,又能將文本描述的內容進行完整表示的模型。潛在狄利克雷分布模型(LDA)[11]認為一篇文檔對應多個主題,而每個主題又對應著不同的詞,從而形成文檔-主題矩陣和主題-詞性矩陣。LDA是一種概率生成模型,可以將文檔集中的每一篇文檔主題按概率分布的形式給出[12]。

1.3 話題發現技術

1.3.1 k-means算法

k-means算法[13]是一種解決聚類問題的典型無監督學習算法,在處理無標記數據集方面可以極大減少工作量。通過該算法可以找到無標記數據集的模式特征,對不同數據所屬類型進行分類。k-means聚類的輸入是一組無標記樣本,在堅持組內距離最小化和組間距離最大化原則下,根據數據自身距離將其分成若干組[14],實現流程如圖2所示:①給聚類中心分配點。從數據對象中選擇k個點作為聚類中心,遍歷數據集計算無標記數據點到聚類中心點的距離,將無標記數據點分配到距其最近的聚類中心點;②移動聚類中心。遍歷所有聚類中心,將聚類中心移動到這個聚類的均值處;③重復上述步驟,直到聚類中心不再移動達到穩定分布為止。

K-means算法原理簡單,計算復雜度小,容易實現[15]。但其過分依賴初始聚類中心k的選取,一旦k值選擇不好會直接影響最后結果,造成無法得到有效聚類結果[16]。因此,預先給定k值是最困難的一步。

1.3.2 k-means算法改進

無監督學習算法一個顯著優點是不需要對數據集進行標注,而輪廓系數[17](Silhouette Coefficient)可以在無標注數據集基礎上對聚類算法的好壞進行有效度量。本文利用輪廓系數對聚類性能評估的優勢,合理選擇k-means的聚類中心,以解決k值設置不合理影響聚類結果的問題。

輪廓系數是1986年Peter J. Rousseeuw?在結合內聚度和分離度兩種因素基礎上提出的評價聚類效果好壞的一種方式,適用于實際類別信息未知的情形[18],可在原始數據相同的基礎上,對不同算法或算法的不同運行方式對聚類結果產生的影響進行性能評價。輪廓系數取值介于[-1,1]之間,其中1表示完美的聚類,0表示聚類重疊,-1表示完全錯誤的聚類。輪廓系數評價法需根據不同類別數目下的輪廓系數走勢尋找最佳的聚類數目,一般將畸變程度最大處作為最佳值[19]。輪廓系數指標構成如表2所示。

2 實驗

2.1 實驗數據

本文利用八爪魚采集器[20]從某醫藥網獲取2015年5月1日到2018年9月1日間15 910條醫藥新聞作為分析數據源,后續實驗結果均由原始數據處理得到。

2.2 實驗環境

本文在PC上搭建整體測試環境,以保證后續系統測試順利進行。實驗環境如表3所示。

2.3 模型參數確定

LDA模型的主題個數對模型推理和聚類質量影響較大,當主題個數較小時,主題會包含多重語義;當主題個數較大時,主題會缺乏明顯語義信息。因此本文通過輪廓系數對k-means評估最佳主題數來選定LDA的理想主題數,避免主題數選取不合理問題。

2.4 實驗結果分析

實驗一:k-means算法參數。

本實驗以醫藥新聞為研究對象,通過輪廓系數評價法對聚類效果性能進行評估,選取最佳聚類中心數。在k-means算法結構保持不變的前提下,將預處理后數據源控制在15 773例時,探討數據集主題個數為5、10、11、12、13、14、15、20、25、40的聚類性能,實驗結果見表4。

從表4可以看出,聚類結果比較一般。結合指標含義和數值表達意義,可以推測出原因可能是數據集質量不高,因此后續嘗試通過選取一部分原始數據集進行人工標記,檢驗人工標記是否在一定程度上提高文章正確分類的準確性。

實驗二:手工標記數據集后的參數。

在數據集主題個數分別為5、10、11、12、13、14、15、20、25、40時,以手工標記的方式從原始數據集中選取7類藥品安全領域數據共5 637例,作為后續檢驗手工標記對聚類結果的影響。手工標記的實驗數據類別分布情況如表5所示,實驗結果如表6所示。

從表4和表6結果可以看出,手工標記的數據集在一定程度上可以提高聚類效果,說明在樣本量足夠大但聚類效果不好的情況下,對原始數據集進行手工標注是改善聚類效果的一種可行方式。手工標記數據集的輪廓系數在聚類個數不同時,聚類結果的畸變程度走勢更為清晰。在考慮輪廓系數走勢及其定義最佳主題數的基礎上,最終選取聚類個數為12的主題數作為聚類初始中心的最佳值。

實驗三:LDA模型對聚類主題的提取。

以輪廓系數評價法確定的最佳主題數12作為主題數進行實驗,從每個類簇中提取權重值最大的10個主題詞來限定主題,提高主題詞的專指度并確定主題范圍空間。通過LDA主題模型對每個類簇進行主題詞提取后,可將主題限定在一定范圍內,有助于各主題的概括。LDA模型提取的主題結果如表7所示。

3 結語

本文以醫藥新聞為數據源,通過話題聚類及相應的主題提取實驗發現藥品安全話題,取得一定效果。在聚類效果一般時,采用人工標記方式在一定程度上提高了聚類效果。文中對于藥品安全話題的聚類只是檢測出了話題類簇,未進行后續話題跟蹤。如果進一步追蹤話題發展規律和趨勢,將更有利于相關決策制定。

參考文獻:

[1] 路榮,項亮,劉明榮,等. 基于隱主題分析和文本聚類的微博客中新聞話題的發現[J]. 模式識別與人工智能,2012,25(3):382-387.

[2] 孫紅光,高星,孫鐵利,等. 基于改進Single-Pass算法的網絡新聞話題發現[J]. 吉林大學學報:理學版,2018,56(1):114-118.

[3] 車蕾,楊小平. 多特征融合文本聚類的新聞話題發現模型[J]. 國防科技大學學報,2017,39(3):85-90.

[4] 魏德志,陳福集,林麗娜. 一種基于時間序列的熱點話題發現模型和算法[J]. 情報科學,2017,35(10):142-146.

[5] 米允龍,米春橋,劉文奇. 海量數據挖掘過程相關技術研究進展[J]. 計算機科學與探索,2015,9(6):641-659.

[6] 劉澤文,丁冬,李春文. 基于條件隨機場的中文短文本分詞方法[J]. 清華大學學報:自然科學版,2015,55(8):906-910,915.

[7] 范佳健. 微博評論信息的聚類分析[D]. 合肥:安徽大學,2017.

[8] 王國龍,杜建強,郝竹林,等. 中醫診斷古文的詞性標注與特征重組[J]. 計算機工程與設計,2015,36(3):835-841.

[9] 唐明,朱磊,鄒顯春. 基于Word2Vec的一種文檔向量表示[J]. 計算機科學,2016,43(6):214-217,269.

[10] 商憲麗,王學東. 微博話題識別中基于動態共詞網絡的文本特征提取方法[J]. 圖書情報知識,2016(3):80-88.

[11] 陳曉美,高鋮,關心惠. 網絡輿情觀點提取的LDA主題模型方法[J]. 圖書情報工作,2015,59(21):21-26.

[12] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學,2015,33(1):63-68.

[13] 周潤物,李智勇,陳少淼,等. 面向大數據處理的并行優化抽樣聚類K-means算法[J]. 計算機應用,2016,36(2):311-315,329.

[14] 李亞,劉麗平,李柏青,等. 基于改進K-Means聚類和BP神經網絡的臺區線損率計算方法[J]. 中國電機工程學報,2016,36(17):4543-4552.

[15] 朱曉峰,陳楚楚,尹嬋娟. 基于微博輿情監測的K-Means算法改進研究[J]. 情報理論與實踐,2014,37(1):136-140.

[16] 翟東海,魚江,高飛,等. 最大距離法選取初始簇中心的K-means文本聚類算法的研究[J]. 計算機應用研究,2014,31(3):713-715,719.

[17] 劉睿倫,葉文豪,高瑞卿,等. 基于大數據崗位需求的文本聚類研究[J]. 數據分析與知識發現,2017,1(12):32-40.

[18] 王學賀. 一種基于改進微粒群和輪廓系數的劃分聚類方法[J]. 云南民族大學學報:自然科學版,2016,25(4):367-371.

[19] 朱連江,馬炳先,趙學泉. 基于輪廓系數的聚類有效性分析[J]. 計算機應用,2010,30(S2):139-141,198.

[20] 崔玉潔,廖坤. 借助八爪魚采集器實現過刊網刊元數據的自動提取[J]. 編輯學報,2016,28(5):485-488.

(責任編輯:杜能鋼)

主站蜘蛛池模板: 亚洲,国产,日韩,综合一区| 亚洲,国产,日韩,综合一区| 伊人久久综在合线亚洲91| 97成人在线视频| 日本三区视频| 久久人妻xunleige无码| 久久精品最新免费国产成人| 在线一级毛片| 成人国产小视频| 999国内精品视频免费| 99视频在线免费| 91口爆吞精国产对白第三集| yy6080理论大片一级久久| 国产成本人片免费a∨短片| 67194亚洲无码| 国产九九精品视频| 超碰精品无码一区二区| 国产在线一区视频| 激情爆乳一区二区| 国产精品区视频中文字幕| AⅤ色综合久久天堂AV色综合| 欧美一级夜夜爽| 国产a v无码专区亚洲av| 亚洲免费成人网| 国模极品一区二区三区| 人妻熟妇日韩AV在线播放| 亚洲人成网站18禁动漫无码| 91综合色区亚洲熟妇p| av在线5g无码天天| 国产激情无码一区二区三区免费| 国产午夜一级毛片| 日韩国产黄色网站| 少妇露出福利视频| 91精品国产无线乱码在线| 国产极品美女在线播放| 波多野结衣国产精品| 国产网站免费| 欧美不卡视频在线观看| 欧美午夜理伦三级在线观看| 在线观看热码亚洲av每日更新| 成人午夜福利视频| 国产日本欧美亚洲精品视| 国产乱人免费视频| 手机看片1024久久精品你懂的| 东京热av无码电影一区二区| 91精品伊人久久大香线蕉| 色婷婷丁香| 波多野结衣在线一区二区| 成人小视频在线观看免费| 久久综合五月| 91福利片| 亚洲永久精品ww47国产| 国产日韩久久久久无码精品| 久久成人国产精品免费软件| 2024av在线无码中文最新| 四虎国产精品永久一区| 亚洲天堂成人在线观看| 久久综合九色综合97婷婷| 亚洲精品国产精品乱码不卞| 污污网站在线观看| 伊人精品视频免费在线| 亚洲综合第一页| 久久国产免费观看| 亚洲福利片无码最新在线播放| 国产手机在线观看| 国产伦精品一区二区三区视频优播 | 亚洲网综合| 久久国产乱子| 高清码无在线看| 久久九九热视频| 91精品情国产情侣高潮对白蜜| 中文字幕一区二区人妻电影| 欧美性猛交xxxx乱大交极品| 亚洲丝袜第一页| 日韩无码黄色| 福利姬国产精品一区在线| 青青草国产一区二区三区| 国产午夜不卡| 国产高清在线观看| 99视频国产精品| 国产91透明丝袜美腿在线| 青青草国产在线视频|