999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Tri—Training算法的中文電子病歷實(shí)體識(shí)別研究

2018-01-15 10:05:06王潤(rùn)奇關(guān)毅
關(guān)鍵詞:監(jiān)督效果模型

王潤(rùn)奇+關(guān)毅

摘要: 關(guān)鍵詞: 中圖分類號(hào): 文獻(xiàn)標(biāo)志碼: A文章編號(hào): 2095-2163(2017)06-0132-04

Abstract: Semisupervised learning is a method of machine learning combining supervised learning with unsupervised learning. It improves the result of model established by the labeled data with the use of unlabeled data, aiming to reduce the need of large amount of labeled data and the labor cost. In the field of Named Entity Recognition(NER) of Chinese electronic medical records, semi-supervised learning could be used to improve the training result of a few labeled data, due to the lack of enough labeled data, the professionality of medical texts and the high cost of manual annotation. This paper introduces the background of NER in Chinese electronic medical records and related researches of semisupervised learning, and applies the improved TriTraining algorithm to improve the effect of NER model of Chinese electronic medical records.

0引言

信息技術(shù)的發(fā)展帶來(lái)了各行業(yè)的信息化建設(shè)。醫(yī)學(xué)信息系統(tǒng)在醫(yī)院中迅速興起,海量的電子病歷也隨之產(chǎn)生。越來(lái)越多的電子病歷取代了傳統(tǒng)紙質(zhì)病歷,不僅避免了實(shí)體介質(zhì)易污損、病例易缺失造成的重復(fù)檢查的困擾,也方便了資料在科室、醫(yī)院等不同單位間的傳遞。

近年來(lái),隨著人們對(duì)健康的關(guān)注,智能醫(yī)療成為研究熱點(diǎn)。借助人工智能的醫(yī)療服務(wù)系統(tǒng),可以減少目前由于醫(yī)療資源緊缺導(dǎo)致的看病難、醫(yī)患關(guān)系緊張等問(wèn)題。電子病歷中包含了患者就醫(yī)過(guò)程中,醫(yī)務(wù)人員記錄下的真實(shí)臨床信息。如果能自動(dòng)化識(shí)別電子病歷中的寶貴信息,不僅能讓患者隨時(shí)了解自身健康狀況,對(duì)未來(lái)的疾病風(fēng)險(xiǎn)有所了解與預(yù)防,還能為醫(yī)療決策支持、詢證醫(yī)學(xué)、疫情監(jiān)測(cè)等實(shí)際應(yīng)用提供可靠的數(shù)據(jù)支持。

實(shí)體識(shí)別研究作為信息處理與數(shù)據(jù)挖掘的基礎(chǔ),是開(kāi)展針對(duì)電子病歷文本研究的前提[1]。但是,與開(kāi)放領(lǐng)域的實(shí)體識(shí)別研究一樣,中文電子病歷的實(shí)體識(shí)別研究也需要大量標(biāo)注語(yǔ)料。國(guó)內(nèi)電子病歷的實(shí)體識(shí)別工作才剛剛起步,缺少充足的標(biāo)注語(yǔ)料,且標(biāo)注語(yǔ)料的獲取需要醫(yī)學(xué)專業(yè)人員的手工標(biāo)注,人工與時(shí)間成本高。因此,通過(guò)主動(dòng)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等方法,利用未標(biāo)注數(shù)據(jù)對(duì)學(xué)習(xí)性能做進(jìn)一步效果提升,成為近年來(lái)的研究熱點(diǎn)。

1相關(guān)研究

命名實(shí)體識(shí)別作為醫(yī)學(xué)自由文本數(shù)據(jù)中抽取信息并結(jié)構(gòu)化的關(guān)鍵技術(shù),一直是臨床醫(yī)學(xué)自然語(yǔ)言處理(NLP)的研究基礎(chǔ)與熱點(diǎn)。通用NLP領(lǐng)域的大量名實(shí)體識(shí)別方法被應(yīng)用到了臨床醫(yī)學(xué)信息抽取領(lǐng)域,其中包括早期采用的基于詞典與規(guī)則相結(jié)合的方法,和隨著醫(yī)療信息語(yǔ)料庫(kù)構(gòu)建而興起的基于機(jī)器學(xué)習(xí)的方法。在一系列公開(kāi)測(cè)評(píng)任務(wù)中,基于機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)模型取得了較好的性能。

Dingcheng Li等[2]對(duì)比了條件隨機(jī)域(CRF)和支持向量機(jī)(SVM)兩種模型,并結(jié)合SNOMED-CT詞典進(jìn)行了電子病歷命名實(shí)體識(shí)別,其中SVM模型的F值只有0.64,而CRF模型F值達(dá)到了0.86。Jonnalagadd等[3]在基本特征的基礎(chǔ)上,增加分布式語(yǔ)義特征,采用CRF模型對(duì)電子病歷中的醫(yī)療問(wèn)題、檢查、治療進(jìn)行識(shí)別。de Bruijn等[4]在2010年美國(guó)國(guó)家集成生物與臨床信息學(xué)研究中心(Informatics for Integrating Biology and the Bedside,I2B2)組織的概念識(shí)別及關(guān)系抽取評(píng)測(cè)中排名第一,其引入了UMLS、cTAKES、Medline等醫(yī)學(xué)知識(shí)庫(kù)與臨床醫(yī)學(xué)NLP系統(tǒng)作為特征,并采用Self-training方法擴(kuò)大訓(xùn)練語(yǔ)料,基于半馬爾科夫模型(一種隱馬爾科夫模型)進(jìn)行訓(xùn)練,取得了85.23%的結(jié)果。此外,研究中還采用了雙層分類器的方法來(lái)進(jìn)行實(shí)體修飾類別識(shí)別,首先用三個(gè)獨(dú)立分類器分別對(duì)單詞進(jìn)行實(shí)體修飾類別識(shí)別,而后整合三個(gè)分類器的結(jié)果得出最后的識(shí)別預(yù)測(cè)。

然而傳統(tǒng)有監(jiān)督機(jī)器學(xué)習(xí)依賴于大量的標(biāo)注語(yǔ)料,而對(duì)樣本的標(biāo)注工作耗時(shí)耗力,像電子病歷這樣專業(yè)領(lǐng)域的樣本標(biāo)注還需要專業(yè)人員的協(xié)助。因此在沒(méi)有大量已標(biāo)注的中文電子病歷情況下,傳統(tǒng)的監(jiān)督學(xué)習(xí)方法效果將受到限制。半監(jiān)督學(xué)習(xí)能夠基于少量的標(biāo)注語(yǔ)料,且依據(jù)一定的策略,自動(dòng)選擇并標(biāo)注未標(biāo)注語(yǔ)料,擴(kuò)充模型的訓(xùn)練集。伴隨利用未標(biāo)注樣例的強(qiáng)烈需求,半監(jiān)督學(xué)習(xí)在近年來(lái)逐漸成為研究熱點(diǎn)[5]。

2算法

2.1協(xié)同訓(xùn)練算法

半監(jiān)督學(xué)習(xí)中,學(xué)習(xí)器獨(dú)立利用未標(biāo)記數(shù)據(jù),不需要人工參與交互。目前的半監(jiān)督學(xué)習(xí)方法常常基于兩種假設(shè):一種是聚類假設(shè),即相同聚類中的數(shù)據(jù)很可能標(biāo)記相同。在這種假設(shè)下,學(xué)習(xí)器的決策邊界應(yīng)該盡可能通過(guò)數(shù)據(jù)稀疏的地方,同時(shí)應(yīng)當(dāng)盡量避免把數(shù)據(jù)稠密的區(qū)域劃分到?jīng)Q策邊界兩端;另一種是流形假設(shè),這種假設(shè)認(rèn)為處于局部相鄰區(qū)域的數(shù)據(jù)性質(zhì)相似,其標(biāo)記也應(yīng)該相似。在聚類假設(shè)下,未標(biāo)記數(shù)據(jù)可以幫助學(xué)習(xí)器學(xué)習(xí)數(shù)據(jù)空間稠密和稀疏區(qū)域的分布,進(jìn)而調(diào)整監(jiān)督學(xué)習(xí)的決策邊界;在流形假設(shè)下,未標(biāo)記數(shù)據(jù)可以更準(zhǔn)確地刻畫(huà)數(shù)據(jù)空間的局部特征,從而更好地進(jìn)行數(shù)據(jù)擬合[6]。endprint

半監(jiān)督學(xué)習(xí)常用的算法有自訓(xùn)練、協(xié)同訓(xùn)練、基于圖的半監(jiān)督學(xué)習(xí)算法等。其中,協(xié)同訓(xùn)練算法利用兩個(gè)或兩個(gè)以上學(xué)習(xí)器,互相為對(duì)方挑選置信度高的未標(biāo)記數(shù)據(jù)進(jìn)行標(biāo)記,協(xié)同互助地更新模型,是半監(jiān)督學(xué)習(xí)中最重要的算法之一。

標(biāo)準(zhǔn)的協(xié)同訓(xùn)練算法[7]最早由Blum和Mitchell提出。該算法要求數(shù)據(jù)集具備兩個(gè)滿足“充分冗余”的屬性集:每個(gè)屬性集都足以說(shuō)明該問(wèn)題,且兩個(gè)屬性集之間相互條件獨(dú)立。如網(wǎng)頁(yè)分類問(wèn)題中,網(wǎng)頁(yè)本身的內(nèi)容與網(wǎng)頁(yè)的超鏈接就可以認(rèn)為是兩個(gè)充分冗余的屬性集。在兩個(gè)屬性集上分別利用有標(biāo)記數(shù)據(jù)訓(xùn)練出學(xué)習(xí)器甲、乙,在訓(xùn)練過(guò)程中,學(xué)習(xí)器甲將未標(biāo)注集中自己預(yù)測(cè)的置信度較高的數(shù)據(jù)標(biāo)為自身所預(yù)測(cè)的標(biāo)記,并加入學(xué)習(xí)器乙的訓(xùn)練集中,同樣學(xué)習(xí)器乙也將自己預(yù)測(cè)的數(shù)據(jù)加入學(xué)習(xí)器甲中,隨后二者各自利用新訓(xùn)練集進(jìn)行模型更新。這樣迭代進(jìn)行訓(xùn)練,直至訓(xùn)練停止。但是事實(shí)上,在大部分研究領(lǐng)域,包括中文電子病歷領(lǐng)域,“充分冗余”這個(gè)要求很難滿足。因此,Goldman和Zhou提出了一種不再需要“充分冗余”屬性集的協(xié)同訓(xùn)練改進(jìn)算法[8]。該算法在構(gòu)造學(xué)習(xí)器時(shí),使用同一屬性集,利用不同的決策樹(shù)算法,訓(xùn)練出兩個(gè)不同的學(xué)習(xí)器。預(yù)測(cè)時(shí),選擇兩個(gè)分類中對(duì)目標(biāo)數(shù)據(jù)預(yù)測(cè)置信度較高的學(xué)習(xí)器進(jìn)行預(yù)測(cè)。改進(jìn)算法雖然對(duì)協(xié)同訓(xùn)練算法中的“充分冗余”要求做了改進(jìn),但是引入了新的條件:不同的決策樹(shù)算法。為了進(jìn)一步放松約束條件,Zhou和Li提出了Tri-Training算法[9]—一種既不要求“充分冗余”,也不需要不同決策樹(shù)算法的半監(jiān)督學(xué)習(xí)方法。該算法通過(guò)對(duì)標(biāo)注集進(jìn)行有放回抽樣,獲取到三個(gè)訓(xùn)練集,分別訓(xùn)練出三個(gè)學(xué)習(xí)器甲、乙、丙。在迭代訓(xùn)練過(guò)程中,如果學(xué)習(xí)器甲、乙對(duì)某個(gè)未標(biāo)記數(shù)據(jù)的預(yù)測(cè)相同,則認(rèn)為該數(shù)據(jù)的置信度較高,將其標(biāo)注后加入學(xué)習(xí)器丙的訓(xùn)練集中。同理,學(xué)習(xí)器甲、乙的訓(xùn)練集以同樣方法擴(kuò)充。在進(jìn)行預(yù)測(cè)時(shí),采用三個(gè)學(xué)習(xí)器投票的方式進(jìn)行預(yù)測(cè)。

但是,Tri-Training利用三個(gè)學(xué)習(xí)器投票一致性來(lái)隱式表示置信度的方式,雖然可以減少頻繁交叉驗(yàn)證所需的時(shí)間,但是不夠準(zhǔn)確,初始學(xué)習(xí)器較弱時(shí),未標(biāo)記數(shù)據(jù)很可能被標(biāo)記錯(cuò)誤,進(jìn)而導(dǎo)致第三個(gè)學(xué)習(xí)器的訓(xùn)練集中引入噪音。因此,Liu等人在投票值的基礎(chǔ)上加入貝葉斯后驗(yàn)概率,使得投票結(jié)果區(qū)分度更強(qiáng),減少噪音的引入[10];三個(gè)學(xué)習(xí)器采用同樣的屬性與學(xué)習(xí)器算法,可能會(huì)導(dǎo)致學(xué)習(xí)器之間過(guò)于雷同,影響學(xué)習(xí)效果。因此Qian[11]等人在利用Tri-Training算法對(duì)文檔進(jìn)行作者識(shí)別模型訓(xùn)練時(shí),分別利用字符、語(yǔ)法和句法屬性構(gòu)造三個(gè)學(xué)習(xí)器,使學(xué)習(xí)器的視角產(chǎn)生差異。但是這些開(kāi)放領(lǐng)域的方法不能直接套用到中文電子病歷實(shí)體識(shí)別中。首先,電子病歷實(shí)體識(shí)別是序列標(biāo)注問(wèn)題而不是分類問(wèn)題,無(wú)從獲得貝葉斯后驗(yàn)概率;其次,病例文本具有特殊的語(yǔ)言特征,并不符合通用句法規(guī)范[12],難以構(gòu)造出三個(gè)學(xué)習(xí)器視角。因此,本文基于中文電子病歷的實(shí)際情況,對(duì)原始的Tri-Training算法進(jìn)行了改進(jìn)。

2.2Tri-Training算法改進(jìn)

針對(duì)Tri-Training中的問(wèn)題,本文提出以下改進(jìn)方法:

1)使用部分隨機(jī)的方法構(gòu)建初始訓(xùn)練集。原始Tri-Training算法中,為了保證三個(gè)學(xué)習(xí)器之間既有共性、又有差異性,采用有放回抽樣的方法構(gòu)建初始訓(xùn)練集。這樣抽取出的數(shù)據(jù),很可能未覆蓋全部標(biāo)注數(shù)據(jù),造成標(biāo)注資源浪費(fèi),進(jìn)而導(dǎo)致效果減弱。本文使用部分隨機(jī)的方法構(gòu)建初始訓(xùn)練集,具體做法是:三個(gè)學(xué)習(xí)器平分標(biāo)注數(shù)據(jù)集,而后通過(guò)對(duì)標(biāo)注數(shù)據(jù)隨機(jī)抽樣的方式擴(kuò)充訓(xùn)練集。這樣學(xué)習(xí)器訓(xùn)練集之間互有重合又互有區(qū)分,而且能覆蓋標(biāo)注集的所有信息。

2)選用相同的機(jī)器學(xué)習(xí)算法和不同的參數(shù)構(gòu)建三個(gè)學(xué)習(xí)器。Tri-Training算法采用同樣方法構(gòu)造三個(gè)學(xué)習(xí)器,減弱了對(duì)學(xué)習(xí)器的約束。但是在病歷數(shù)據(jù)中,文本的行文內(nèi)容與風(fēng)格較為統(tǒng)一,完全相同的學(xué)習(xí)器構(gòu)造方式會(huì)導(dǎo)致學(xué)習(xí)器之間的區(qū)分度不夠,進(jìn)而導(dǎo)致學(xué)習(xí)器的集成效果受到影響。本文中對(duì)學(xué)習(xí)器算法設(shè)置了不同的參數(shù),訓(xùn)練出三個(gè)學(xué)習(xí)器,既沒(méi)有新增數(shù)據(jù)預(yù)處理的工作量,也使得學(xué)習(xí)器之間有所區(qū)分。不同的參數(shù)可能會(huì)對(duì)學(xué)習(xí)器性能產(chǎn)生影響,因此需要在對(duì)不同參數(shù)進(jìn)行對(duì)比實(shí)驗(yàn)的基礎(chǔ)上,選取結(jié)果較優(yōu)的參數(shù)。

3)對(duì)學(xué)習(xí)器投票結(jié)果進(jìn)行過(guò)濾。Tri-Training通過(guò)委員會(huì)投票的一致性選擇數(shù)據(jù),減少了協(xié)同訓(xùn)練中交叉驗(yàn)證的時(shí)間,但隱式表示置信度的方式不夠準(zhǔn)確。比如對(duì)于待選擇樣本x,學(xué)習(xí)器A對(duì)其的預(yù)測(cè)為:P(y1|x)=0.3,P(y2|x)=0.25,P(y3|x)=0.25,學(xué)習(xí)器B對(duì)其的預(yù)測(cè)為:P(y1|x)=0.25,P(y2|x)=0.20,P(y3|x)=0.20,顯然A、B對(duì)其的預(yù)測(cè)結(jié)果均為y1,但其中樣本被分類成y1的置信度并不高,不宜將其標(biāo)為y1加入迭代訓(xùn)練中。在選擇過(guò)程中,可以將Tri-Training與自訓(xùn)練的簡(jiǎn)單結(jié)合,設(shè)置學(xué)習(xí)器預(yù)測(cè)概率閾值,對(duì)學(xué)習(xí)器的投票結(jié)果進(jìn)行過(guò)濾。當(dāng)學(xué)習(xí)器預(yù)測(cè)的概率值低于閾值時(shí),不將其加入到迭代訓(xùn)練集。

算法步驟流程如下:

輸入:標(biāo)注文檔集L,未標(biāo)注文檔集U,過(guò)濾閾值t

輸出:新標(biāo)注文檔集L′,模型M

1)將標(biāo)注集L打亂并平分為標(biāo)注集L1、 L2、 L3;再分別從L中隨機(jī)抽取相同數(shù)量的若干文檔到L1、 L2、 L3,合并為初始訓(xùn)練集L1′、 L2′、 L3′。

2)基于不同參數(shù)的監(jiān)督學(xué)習(xí)模型與標(biāo)注集L1′、 L2′、 L3′,訓(xùn)練出初始模型M1、 M2、 M3,并評(píng)價(jià)三個(gè)模型的集成模型測(cè)試結(jié)果。

3)基于模型M1和模型M2對(duì)U中未加入訓(xùn)練集L3′的句子進(jìn)行預(yù)測(cè),若結(jié)果一致,且預(yù)測(cè)結(jié)果的概率值高于t,則將句子擴(kuò)充到訓(xùn)練集L1′。

4)模型M2和M3、模型M1和M3類比步驟3)操作,分別得到新訓(xùn)練集L1′、 L2′。基于新訓(xùn)練集分別訓(xùn)練新模型M1、 M2、 M3,并進(jìn)行集成評(píng)價(jià)。endprint

5)若評(píng)價(jià)結(jié)果連續(xù)兩次不高于上一次訓(xùn)練的結(jié)果,或步驟3)中可擴(kuò)充句子數(shù)為0,則終止算法,并返回上一次迭代過(guò)程的中間結(jié)果L1′、 L2′、 L3′的并集L′和模型M1、 M2、 M3的集成模型M;否則重復(fù)步驟3)~5)。

3實(shí)驗(yàn)與結(jié)果分析

本文以60份已標(biāo)注電子病歷文檔和1 000份未標(biāo)注電子病歷文檔作為訓(xùn)練數(shù)據(jù),以40份已標(biāo)注電子病歷文檔作為測(cè)試用例。60份已標(biāo)注電子病歷文檔作為數(shù)據(jù)集L,1 000份未標(biāo)注電子病歷作為數(shù)據(jù)集U。監(jiān)督學(xué)習(xí)模型采用適合序列標(biāo)注任務(wù)的條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)模型。

實(shí)驗(yàn)以原始Tri-Training算法為對(duì)照,證明改進(jìn)后的Tri-Training算法的有效性。如圖1所示,標(biāo)注文檔集L=60,閾值t=0.5,初始分類器訓(xùn)練集大小為標(biāo)注文檔集的二分之一時(shí)(即|L1′|=|L2′|=|L3′|=1/2|L|),研究得到了改進(jìn)前后算法產(chǎn)生的集成模型效果對(duì)比。

將三個(gè)模型擴(kuò)展后的訓(xùn)練集L1′、L2′、L3′合并成新的標(biāo)注集L′,并訓(xùn)練模型,得到半監(jiān)督學(xué)習(xí)前及算法改進(jìn)前后的各類醫(yī)療實(shí)體(分類標(biāo)準(zhǔn)參考文獻(xiàn)[8])識(shí)別效果則如表1所示。

由圖1可以看出,由于對(duì)初始訓(xùn)練集的構(gòu)建做出優(yōu)化,改進(jìn)后算法相對(duì)原始算法,在第一次訓(xùn)練時(shí)就具備優(yōu)勢(shì)。原始算法由于起始模型較弱,在半監(jiān)督學(xué)習(xí)過(guò)程中效果不僅沒(méi)有提高,反而因?yàn)槟P鸵氲脑胍簦瑢?dǎo)致模型效果變差。而改進(jìn)后算法由于對(duì)擴(kuò)展的未標(biāo)注數(shù)據(jù)有所過(guò)濾,所以在半監(jiān)督學(xué)習(xí)后模型的效果得到提升。但是由于數(shù)據(jù)集數(shù)量限制,在第5次迭代后,模型就無(wú)法再找到合適的未標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練集擴(kuò)展,因此半監(jiān)督學(xué)習(xí)的提升效果比較有限。由表1可以得出,相對(duì)于改進(jìn)前,模型的效果已由78.88%提升到80.90%,尤其是在癥狀與檢查結(jié)果兩項(xiàng),效果提升比較顯著,說(shuō)明算法的改進(jìn)是有效的。

4結(jié)束語(yǔ)

本文提出的對(duì)Tri-Training算法的改進(jìn),模型相對(duì)于原始算法,在中文電子病歷上識(shí)別效果由78.88%提升到80.90%,在不增加人工標(biāo)注工作量的基礎(chǔ)上,該算法能有效地提高模型的識(shí)別效果。

但是由于數(shù)據(jù)量限制,使得模型選出的擴(kuò)展數(shù)據(jù)數(shù)量受到限制,因此半監(jiān)督學(xué)習(xí)提升的效果不夠明顯。在后續(xù)的研究中,一方面需要擴(kuò)充數(shù)據(jù)集,進(jìn)一步驗(yàn)證算法在大數(shù)據(jù)量情況下的優(yōu)化效果;一方面可以采用多種算法方式構(gòu)造三分類器,使分類器之間的差異更顯著,從而提高集成效果。

參考文獻(xiàn):

[1] WASSERMAN R C. Electronic medical records (EMRs), epidemiology, and epistemology: Reflections on EMRs and future pediatric clinical research[J]. Academic pediatrics, 2011, 11(4): 280-287.

[2] LI Dingcheng, KIPPER-SCHULER K, SAVOVA G. Conditional random fields and support vector machines for disorder named entity recognition in clinical texts[C]//BioNLP '08 Proceedings of the Workshop on Current Trends in Biomedical Natural Language Processing. Stroudsburg, PA, USA:ACM, 2008:94-95.

[3] JONNALAGADDA S, COHEN T, WU S, et al. Using empirically constructed lexical resources for named entity recognition[J]. Biomedical Informatics Insights, 2013, 6(S1):17-27.

[4] De BRUIJN B, CHERRY C, KIRITCHENKO S, et al. Machinelearned solutions for three stages of clinical information extraction: The state of the art at i2b2 2010[J]. Journal of the American Medical Informatics Association, 2011, 18(5):557-562.(下轉(zhuǎn)第138頁(yè))[5] 孫承杰. 基于判別式模型的生物醫(yī)學(xué)文本挖掘相關(guān)問(wèn)題研究[D]. 哈爾濱:哈爾濱工業(yè)大學(xué), 2008.

[6] 周志華. 半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練風(fēng)范[M]// 機(jī)器學(xué)習(xí)及其應(yīng)用. 北京:清華大學(xué)出版社, 2006: 259-271.

[7] BLUM A, MITCHELL T. Combining labeled data and unlabelled data with cotraining[C]// Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT-98).Madison, WI, USA:ACM, 1998:92-100.

[8] GOLDMAN S A, ZHOU Yan. Enhancing supervised learning with unlabeled data[C]// Proceedings of the Seventeenth International Conference on Machine Learning. San Francisco, CA, USA:ACM, 2000:327-334.

[9] ZHOU Zhihua, LI Ming. Tri-Training: Exploiting unlabeled data using three classifiers[J]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17(11):1529-1541.

[10]LIU Kun, GUO Yuwei, WANG Shuang, et al. Semi-supervised learning based on improved co-training by committee[M]// Intelligence Science and Big Data Engineering. Big Data and Machine Learning Techniques.Lecture Notes in Computer Science, Cham:Springer International Publishing, 2015:413-421.

[11]QIAN Tieyun, LIU Bing, CHEN Li, et al. Tri-training for authorship attribution with limited training data:A comprehensive study[J]. Neurocomputing, 2016, 171(C):798-806.

[12]楊錦鋒, 關(guān)毅, 何彬,等. 中文電子病歷命名實(shí)體和實(shí)體關(guān)系語(yǔ)料庫(kù)構(gòu)建[J]. 軟件學(xué)報(bào), 2016, 27(11):2725-2746.endprint

猜你喜歡
監(jiān)督效果模型
一半模型
按摩效果確有理論依據(jù)
重要模型『一線三等角』
突出“四個(gè)注重” 預(yù)算監(jiān)督顯實(shí)效
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
迅速制造慢門(mén)虛化效果
抓住“瞬間性”效果
監(jiān)督見(jiàn)成效 舊貌換新顏
夯實(shí)監(jiān)督之基
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产亚洲欧美在线中文bt天堂 | 美女无遮挡被啪啪到高潮免费| 亚洲另类国产欧美一区二区| 免费全部高H视频无码无遮掩| 日韩一区二区三免费高清| 91久久国产综合精品女同我| 久久网欧美| 亚洲二三区| 欧美亚洲国产精品久久蜜芽| 久久国产V一级毛多内射| 国产亚洲精品资源在线26u| a级毛片一区二区免费视频| 日韩欧美国产精品| 国产女人在线| 亚洲中文字幕23页在线| 精品一区二区三区波多野结衣| 国产午夜精品一区二区三| 国产精品一区二区不卡的视频| 久久亚洲天堂| www.亚洲色图.com| 国产视频你懂得| 91偷拍一区| 成人91在线| 任我操在线视频| 日本成人不卡视频| 免费高清a毛片| 亚洲国产精品国自产拍A| 国产欧美日韩综合一区在线播放| 国产成人欧美| 欧美在线综合视频| 国产乱码精品一区二区三区中文 | 欧美专区在线观看| 日韩成人午夜| 婷婷综合色| 99精品国产高清一区二区| 91精品福利自产拍在线观看| 国内熟女少妇一线天| 国产精品太粉嫩高中在线观看| 免费在线一区| 2021国产乱人伦在线播放| 少妇被粗大的猛烈进出免费视频| 久久一日本道色综合久久| 亚洲愉拍一区二区精品| 91 九色视频丝袜| 91在线播放免费不卡无毒| 日韩欧美国产三级| 国产全黄a一级毛片| 久99久热只有精品国产15| 2022精品国偷自产免费观看| 青草娱乐极品免费视频| 国产精品蜜芽在线观看| 亚洲综合激情另类专区| 亚洲第一区欧美国产综合| 日韩精品毛片| 国产精品区视频中文字幕| 一级一级一片免费| 亚洲国产第一区二区香蕉| 日本影院一区| 亚洲人成网址| 婷婷99视频精品全部在线观看| 在线精品亚洲一区二区古装| 欧美性色综合网| 韩国自拍偷自拍亚洲精品| 久久人人97超碰人人澡爱香蕉| 一区二区自拍| 99热在线只有精品| 国产裸舞福利在线视频合集| 欧美色视频在线| 日韩精品专区免费无码aⅴ| 国产网站免费| 国内精品自在欧美一区| 玖玖免费视频在线观看| 久久综合久久鬼| 国产成人毛片| 毛片卡一卡二| 四虎成人在线视频| 尤物国产在线| 欧美a级完整在线观看| 人妻丰满熟妇AV无码区| 免费国产好深啊好涨好硬视频| 孕妇高潮太爽了在线观看免费| 亚洲欧美在线精品一区二区|