999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的藏文文本分類

2019-03-04 11:05:01包晗西熱旦增郭龍銀尚慧杰
電腦知識與技術(shù) 2019年34期

包晗 西熱旦增 郭龍銀 尚慧杰

摘要:針對藏文文本及其語法和詞法結(jié)構(gòu),采用條件隨機場進行分詞,利用人工統(tǒng)計和標(biāo)注進行停用詞詞典建立,然后采用tf-idf的詞向量空間,予以權(quán)重計算,最后采用隨機森林算法構(gòu)建分類器,進行文本分類。并使用查全率、查準(zhǔn)率和F1值三種評價函數(shù)與邏輯回歸、多項式樸素貝葉斯、支持向量機三種算法相比,結(jié)果顯示,隨機森林算法在高維特征的藏文文本分類上優(yōu)于其他分類器。

關(guān)鍵詞:藏文;條件隨機場;TF-IDF;隨機森林;文本分類

中圖分類號:TP391

文獻標(biāo)識碼:A

文章編號:1009-3044(2019)34-0178-03

隨著藏語言在互聯(lián)網(wǎng)的傳播,藏語語言信息數(shù)據(jù)及資源呈現(xiàn)海量特征,而研究藏文文本分類可有效管理和利用這些海量信息。其中,文本分類(textcategorization,簡稱TC)技術(shù)是信息檢索和文本挖掘的重要基礎(chǔ),其中主要任務(wù)時在預(yù)先給定的類別標(biāo)記(label)集合下,根據(jù)文本內(nèi)容判定它的類別1。藏文文本分類目前還處于統(tǒng)計學(xué)習(xí)和深度學(xué)習(xí)的過渡階段,尤其是在藏文文本數(shù)據(jù)語料不龐大和標(biāo)注程度深度不夠的前提下,隨機森林(Random Forest)算法能夠處理高維特征的輸入樣本,且不需要降維處理。

1 藏文文本分詞

藏文自動分詞可以看作是計算機自動辨識藏文文本字符流中的詞,并在詞與詞之間加入明顯的詞切分標(biāo)記符的過程2目前,已有多種分類方法,例如:最大匹配算法3、基于格助詞和接續(xù)特征的書面藏語自動分詞-等,在比較多種分詞方法后,確定以洛桑嘎登的基于知識融合的條件隨機場s進行藏文分詞。

x為音節(jié),ξ為閾值,第一種為黏著詞、歧義詞等音節(jié)組合規(guī)則庫建立,第二種為人名、地名、非藏文字符等固定音節(jié)規(guī)則庫。最后統(tǒng)計和人工篩選出最終的庫的元素,將閾值極高的元素在分詞之間先行篩除,其余元素在分詞中將閾值與條件隨機場輸出比較。

2 tf-idf特征提取

2.1 文本向量空間模型

向量空間模型(VSM)6由哈佛大學(xué)的G Salton提出,是基于統(tǒng)計的代數(shù)模型。文本向量空間模型(TVSM)則是擬定一個向量空間概念,將文本中的每一個詞轉(zhuǎn)換為空間的不同維度,文本的表達與向量之和相似,形成一個在高維度上的帶方向的點,而一個詞的權(quán)重即是該點在對應(yīng)維度上的絕對值。一個文本的表達式為:

在文本向量空間模型中,單個文本的維度一般在百維至千維以上,高緯度的文本所包含的內(nèi)容更為豐富,詞與詞之間的聯(lián)系也更為緊密,允許文本分類的種類更為多且層次更深。

2.2 tf-idf特征提取

Trf-idf(Term-frequency times inverse document-frequenry)詞頻乘以逆文本頻率,公式:

tf(t,d)為詞頻函數(shù),表示某個藏文詞在一個文本中出現(xiàn)的次數(shù),他和文本越相關(guān),則在文本中出現(xiàn)的次數(shù)越多。但在大型語料庫中,一些許多特定的詞出現(xiàn)的頻率極高,例如藏語中的連接詞等,他們不具有分類特征,會影響分類器的判斷,我們應(yīng)當(dāng)在構(gòu)建詞頻矩陣前排除。

idf(t)為逆文本頻率函數(shù),表示某個藏文詞在某文本類別的影響頻率,即該詞在某個類別出現(xiàn)的頻率越高而在其他類別出現(xiàn)的頻率越低,則該詞對某類別的分類影響程度越高,公式6:

其中n是語料集中所有文本數(shù),d (t)是語料集中擁有t維度的所有文本數(shù)。

Ridge回歸,使用Frobenius范數(shù),將單文本中所有的tf-idf值進行回歸,最終將所有文本轉(zhuǎn)換為多維浮點數(shù)矩陣,公式為:

3 隨機森林分類器

3.1 決策樹

決策樹是將文本中的詞作為節(jié)點,計算該詞加上所有父節(jié)點構(gòu)成的詞序列對某一類別的分類誤差率,設(shè)立閾值,根據(jù)閾值判別產(chǎn)生不同的子節(jié)點,循環(huán)此過程,直到閾值為0或無子序列。決策樹主要分三個步驟:特征選擇、決策樹生成、剪枝。

特征選擇,本文采用CART算法來進行特征選擇,CART(Classification And Regression Tree)。是Breiman等人在1984年提出的,是一種二分決策樹,它判別規(guī)則是要么為某一類,要么就是其他類,它使用基尼系數(shù)(Gini)來對二叉樹的節(jié)點進行選擇。Gini系數(shù)的公式:

決策樹生成,即決策過程,根節(jié)點為特定的詞序列,即只有一個詞,該詞在所有詞中分類誤差率最好,對某一個類別概率最大。隨后的子節(jié)點依據(jù)上一個判定劃分成左右兩個子樹,若基尼系數(shù)不為零或者詞序列無子序列則停止決策,若不為零且不唯一,則在可能的類別里繼續(xù)決策。具體決策樹如圖1所示(該決策樹僅演示所用,取少量數(shù)據(jù)構(gòu)建的部分子樹)。

剪枝,裁剪決策樹的一些子樹并將該子樹作為葉節(jié)點。決策樹有時會根據(jù)所有訓(xùn)練樣本的形成一個非常龐大的決策樹,在訓(xùn)練樣本上準(zhǔn)確率很高而對于測試樣本準(zhǔn)確率往往不理想,形成過擬合現(xiàn)象。過擬合現(xiàn)象的解決方式需要人工的觀察和調(diào)試,觀察和控制每一層決策樹大小,設(shè)置最小葉節(jié)點的樣本個數(shù),調(diào)整葉節(jié)點的最小權(quán)重等等。

3.2 隨機森林

隨機森林( RandomForest),是在bagging算法8基礎(chǔ)上更進一步。

bagging算法是從所有文本中重采樣出n個文本構(gòu)建分類器,然后重復(fù)m次此過程獲得m個分類器最后根據(jù)這m個分類器的投票結(jié)果決定文本屬于哪一類。隨機森林不需要交叉驗證,步驟如下:

其中I(.)是示性函數(shù),avk表示取平均值,邊際函數(shù)表示了在正確分類Y之下X的得票數(shù)目超過其他錯誤分類的最大得票數(shù)目的程度。邊際函數(shù)可有效地展示隨機森林的決策樹組合效果,此外還可以根據(jù)邊際函數(shù)進行決策樹的n文本個數(shù)的調(diào)整,決策樹中詞數(shù)的調(diào)整以及分類的組合方式。

4 實驗結(jié)果

本文的數(shù)據(jù)集的文本總數(shù)為12090篇,共分為10個類。分別為:藝術(shù)、文化、教育、歷史、哲學(xué)、科技、體育、政治、經(jīng)濟、自然。文本分布如圖2:

本文為了快速比較四種算法的效果,采用scikit_learn7的skleam. naive_bayes. MultinomiaINB, sklearn. linear_model. Logisti-cRegression,sklearn.svm作為多項式貝葉斯算法、邏輯回歸算法、支持向量機算法的分類器。根據(jù)精度值(precisionscore),召回值(recallscore),fl值(fl score)對比效果,如圖3所示。

結(jié)果顯示隨機森林分類器的效果要優(yōu)于其他分類器。

5 結(jié)束語

本文從分詞到最終的文本預(yù)測,完成了基于隨機森林的藏文文本分類的全部任務(wù)。實驗結(jié)果顯示文本分類效果良好,且相比于多項式貝葉斯、邏輯回歸、支持向量機效果更為優(yōu)秀。但進步空間仍然很大,1)應(yīng)該擴充語料庫為大型語料庫進而再做測試,在大型語料庫上單一的統(tǒng)計算法分類器不能很好地滿足分類需求,要構(gòu)建多種算法加權(quán)預(yù)測。2)分類效果上還有上升空間,且目前深度學(xué)習(xí)研究前景更好,我們應(yīng)該將統(tǒng)計算法與神經(jīng)網(wǎng)絡(luò)相互融合,從而提高分類效果。

參考文獻:

[1]蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展[J].軟件學(xué)報,2006(9):1848-1859.

[2]茂松,鄒嘉彥.漢語自動分詞研究評述[J]當(dāng)代語言學(xué),2001,3(1):22-23.

[3]羅秉芬,江荻.藏文計算機自動分詞的基本規(guī)則[C]//中國少數(shù)民族語言文字現(xiàn)代化文集.北京:民族出版社,1999.

[4]陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應(yīng)用,2003(1):75-82.

[5]洛桑嘎登,楊媛媛,趙小兵.基于知識融合的CRFs藏文分詞系統(tǒng)[J].中文信息學(xué)報,2015,29(6):213-219。

[6] Salton G,Wang A,Yang C S.A vector space model for automat-ic indexing[J]. Communication of the ACM, 1975, 18(11):613-620.

[7] https://scikit-leam.org/stable.

[8] Breiman J. Bagging predictors[J]. Machine Learning, 1996, 24(2):123 -140.

【通聯(lián)編輯:唐一東】

收稿日期:2019-08-15

基金項目:2018年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目“基于隨機森林的藏文文本分類”(項目編號:2018XCX045)

作者簡介:包晗(1998-),男,浙江麗水人,本科;通信作者:西熱旦增(1989-),男,西藏那曲人;郭龍銀(1997-),男,江西九江人,本科,主要研究方向為自然語言處理;尚慧杰(1996-),女,河南周口人,本科。

主站蜘蛛池模板: 国产丝袜91| 国产精品视频系列专区| 米奇精品一区二区三区| 国产福利不卡视频| 国产亚洲欧美另类一区二区| 99热精品久久| 特级毛片免费视频| 亚洲日本中文字幕乱码中文| 高清不卡一区二区三区香蕉| 免费在线观看av| 欧美日本在线观看| 亚洲AV永久无码精品古装片| 国产特级毛片| 国产黄网站在线观看| 伊伊人成亚洲综合人网7777| 亚洲国产欧美目韩成人综合| 国产区在线看| 国产福利影院在线观看| 精品视频在线一区| 99国产在线视频| 国产91视频观看| 欧美人在线一区二区三区| 中文字幕av无码不卡免费| 欧美激情视频二区| 永久免费av网站可以直接看的| 在线免费亚洲无码视频| 久久精品人人做人人爽| 久久精品女人天堂aaa| 国产丰满大乳无码免费播放| 国产理论最新国产精品视频| 久久大香香蕉国产免费网站| 午夜精品福利影院| 污视频日本| 伦伦影院精品一区| 精品国产污污免费网站| 国产成人精品一区二区三区| 日韩高清一区 | 日韩毛片免费观看| 国产亚洲视频中文字幕视频| 性喷潮久久久久久久久| 亚洲视屏在线观看| 免费又黄又爽又猛大片午夜| 亚洲永久免费网站| 亚洲黄色成人| 一级看片免费视频| 四虎精品免费久久| 国产乱子伦无码精品小说| 亚洲综合久久一本伊一区| 国产一级一级毛片永久| 专干老肥熟女视频网站| 伊人无码视屏| 999国产精品永久免费视频精品久久 | 久久久久久尹人网香蕉| 国产一级片网址| 999福利激情视频| 色婷婷亚洲十月十月色天| AV在线天堂进入| 蜜桃视频一区| 国产另类视频| 麻豆精品在线| 亚洲视频在线青青| 四虎在线高清无码| 亚洲天堂视频网站| 亚洲一级毛片免费看| 精品国产网| 成人免费视频一区| 国产午夜人做人免费视频中文| 91无码视频在线观看| 欧美国产日韩在线观看| 国产性生大片免费观看性欧美| 97se亚洲| 免费一级无码在线网站| 久久精品视频亚洲| 国产无码精品在线播放| 国产精品网址在线观看你懂的| 亚洲福利视频一区二区| 欧美精品在线视频观看| 久久 午夜福利 张柏芝| 国产成人h在线观看网站站| 欧美国产日韩一区二区三区精品影视| 毛片网站在线播放| 动漫精品啪啪一区二区三区|