999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于特征權重的文本分類新算法

2023-02-24 09:02:00胡曉輝
科技創新與應用 2023年4期
關鍵詞:分類特征文本

胡曉輝

(江西機電職業技術學院 信息工程學院,南昌 330013)

如今計算機、通信技術快速發展,文本數據量急劇增多,文本分類顯得尤為重要,本文研究的分類技術正是目前人工智能研究的一個分支。經典的文本分類模型大多是基于概率、內容和向量空間的分類模型[1-2]。其中經典的文本分類方法有BAYES[3-4]、神經網絡[5-6]、SVM[7-8]和KNN[9]等,這些基于向量空間模型的經典算法最大優勢體現在表示方法上。

目前,傳統TF-IDF算法[10]是通過詞語在文本中出現的頻率來判斷其重要性的,未充分考慮文檔的結構特征信息,Araqueo[11]基于詞嵌入模型和線性機器學習,該文獻對一種基于深度學習的算法進行研究。Hang[12]未根據詞語所在的位置信息來進行評估,導致文本分類的準確性受到限制。綜合詞的位置信息、作者的關聯信息、鏈接信息等結構信息到分類模型中,可以有效地提高分類器效果。本文研究NEWTF-IDF算法是一種新穎的權重算法,基于傳統的TF-IDF模型,通過挖掘文檔的結構信息,增加了關鍵信息權重,考慮特征詞的類內外分布密度,較好地聚焦在對文檔分類貢獻更大的詞語上。復旦大學分類數據集是較為廣泛使用的中文語料庫,網頁數據集使用的是SEWM中文網頁,本文基于這2個數據集進行了實驗,在2個數據集上的結果表明本文的方法較傳統的方法效果相對較好。

1 新的特征權重優化算法

傳統TF-IDF算法,詞文本中出現的頻率越小就越能區分開文本類別,反之,如果一個詞在文本中出現的頻率越大,該詞的重要性就越低[13]。事實是這樣的思想有一定的局限性,該算法并非有效地體現出詞的重要度,而且該算法也沒有考慮詞語出現的位置,這就導致該算法的精度并不理想。針對以上問題,本文基于該算法提出了一種新的NTF-IDF(New Term Frequency Inverse Document Frequency)算法,該算法考慮了關鍵信息的權重,對不同位置的詞賦予了不同的權重,在詞權重的處理中同時考慮詞密度分布,以使獲得的特征詞更加具有區分類別的能力。N-TF-IDF算法主要針對的應用場景是網頁、論文和專利等文本的分類。這類文本往往包含,如:鏈接信息、標題、頁面描述、關鍵詞、發表單位和摘要等等,這些信息對文本分類均有較大的作用。在預處理時,關鍵位置詞語對文本分類貢獻更大,因而對不同位置出現的詞語賦予不同權重,如果一個詞越是能反映類別的特征那么該詞在類內的分布密度就越均勻。

1.1 獲取關鍵信息

在文本中,特征分布對其權重有一定影響,對于這一點,傳統TF-IDF算法并未考慮到。新NTF-IDF算法綜合考慮詞語的位置和出現的概率分布,獲取更好的能反映類特征的詞項,對于這樣的詞賦予更高的權值。

對文檔的分類包括對網頁的分類和對純文本的分類,無論是對于網頁還是純文本,都需要獲取能更好區分類別的特征,因此對于期刊論文或者網頁文本的分類可以使用文本分類的相關方法。一般網頁包含正文、超文本標記和錨文本等特殊元素,標簽則反映網頁不同區域重要程度,錨文本文字描述鏈接所指向的網頁主題,其反映網頁內容和性質,對建立相關主題網頁之間的聯系有著特別重要的意義;標題、摘要及關鍵詞是期刊論文的重要元素,標題讓人們快速了解文章的體裁,摘要使得人們快速準確地把握文章的內容,而關鍵詞則反映文章涉及的專業領域。網頁頁面和期刊論文中的這些特殊詞在很大程度上是對文本內容的高度概括和提煉,因此要賦予更高的權重。在綜合分析文檔內容和結構的基礎上,獲取文本中不同位置的內容,賦予這些關鍵特征更高的權值。獲取關鍵信息確定權重系數過程如圖1所示。

圖1 權重系數獲取流程圖

通過HtmlParser工具對頁面信息進行抽取,過濾掉非法字符,頁面信息經過預處理后,去除了停用詞,對于出現在網頁中不同位置的詞賦予了不同權重,權重系數對分類結果有一定的影響,經過多次實驗后,對分類結果進行對比,確定TITLE、BODY、ANCHOR三者的最終權重比是2∶1∶1;對于期刊論文等文本,標題中的詞和關鍵詞、摘要段落內的詞及正文中的詞的權重之比為2∶1.5∶1。為了確定某個文檔所屬的類別,只要計算該文檔中的特征項在不同的類中聯合分布,然后對不同的類所對應的值進行比較,概率值較大者所對應的類,即為該文檔的所屬類別。

1.2 詞密度對特征詞權重的影響

傳統TF-IDF算法僅考慮某個特征項與其所在文本數量間的關系,計算方法比較簡單,因此該算法認為某個詞文本頻率越小那么就越能把文本類別區分開,反之文本頻率越大的詞對區分文本類別的能力越弱,這就忽略了詞語出現在所屬類別和類別外的概率。NTF-IDF算法在衡量特征詞的類別區分能力時考慮了詞的類內分布密度和詞的類外分布密度這2個因素。詞的類內分布密度度量該詞與類別的相關性,詞的類外分布密度度量該詞區分類別的能力。詞類內分布密度表示該詞在其所屬類文本中的密度,記為TCI;詞的類外分布密度表示該詞出現在其他類的文本中的分布密度,記為TCO。

如果某詞在一個類所有文檔幾乎平均出現,但是在其他類中出現率極低,那么該詞具有極強的類別代表性。基于這種思想,詞類內外分布密度跟該詞在某類中每篇文檔的出現頻率有關,用F(t,Cij)代表特征t出現在第j類中的第i篇文檔的頻率,F(t,Cij)代表特征t出現在第j類中的頻率

式中:n代表第j類中所有的文檔數量0≤TCI≤1。

式中:N為訓練集總的類別數0≤TCO≤1。

當TCI的值越小時,表明特征詞t在j類中分布密度就越平均,也就越能體現該類別的特征,當取極端值0時,該特征極大體現此類的共性;反之,當TCI的值越大時,就越不具備代表性。當TCO的值越小時,表明特征詞Ti在不同類別中的分布密度就越均勻,那么該特征區分類別的能力就越弱,當達到極端值0時,該詞對分類貢獻幾乎為0;反之,當TCO的值越大時,表明特征詞t在不同類別中的分布密度就越不均勻,越能體現其所在密度分布較高的類的特征。因此,當t使得TCI值較小而TCO值較大時,應該賦予t更大的權重,權重計算公式如下

2 實驗設計和實驗結果

2.1 語料庫

SEWM和復旦大學分別提供了網頁訓練和中文分類訓練數據集,其在文本處理領域具有一定的代表性,因此本實驗將采用這2個數據集進行分析。

SEWM中文網頁分類語料庫共有11個大類,部分網頁結構不夠完整,實驗過程中剔除了這些網頁后共有11 000多個訓練頁面和3 600個測試頁面。復旦大學數據集中有部分重復或者損壞的文檔,同樣對這部分文檔也進行了剔除,該語料庫共有文檔19 630篇分布在20個類別中,其中有11個類別的正例訓練文本數不到100篇,本實驗中對該數據集按照1∶1的比例來劃分訓練文本和測試文本。

對于SEWM中文網頁在預處理時,將超文本轉化成普通文本,去除網頁中的停用詞,并對單詞做了詞干化。對于復旦大學數據集在預處理時,首先剔除數據集中的稀有詞,然后使用中科院計算所分詞效果較好的開源項目。

2.2 實驗結果與分析

文本分類技術中常用準確率、召回率、F1值、微平均和宏平均來進行評價,本次試驗將采用微平均、宏平均及F1值來對新的算法NTF-IDF進行分析。在以上2個數據集上對傳統的特征選取方式和本文優化后的特征選取方式進行對比。

圖2和圖3都顯示了本文提出的新的優化算法NTF-IDF,在2個數據集上的10個常見類F1值都比傳統的TF-IDF算法要高。

圖2 復旦大學數據集上2種方法實驗結果對比圖

圖3 網頁分類語料庫上2種方法實驗結果對比圖

表1表明了2種特征權重算法在同一分類器上的10個大類及在所有類別上的微平均和宏平均,本次實驗表明新的算法有效提高了分類結果。

表1 在復旦數據集上2種方法微平均、宏平均對比表

由圖2和圖3可以看出,本文新算法的F1值比TFIDF算法要高,F1值的取值情況隨著數據集的數量增加而有所提高,當數據集的數量800多時,2種算法對應的F1值較大,NTF-IDF對應的F1值隨著數據集的增加基本呈現上升趨勢。本文NTF-IDF算法和原有TF-IDF算法相比較,增加考慮了特征詞的位置信息以及特征詞的類內外分布密度。因TF-IDF算法未涉及詞的結構特征而存在一定的局限性,故本文NTF-IDF算法比傳統的算法分類效果有所提升。

3 結束語

本文對訓練文檔集進行學習,提出了一種有效的特征權重計算方法,該方法結合特征詞位置信息,考慮文本的結構特征,增加考慮特征詞的類內外分布密度,以獲得能更好地區分類別的特征信息。不同數據集上實驗表明,本文新的計算特征權重的方法切實可行。未來將更進一步完善和優化算法,賦予較優的權重分配比,并與其他經典的算法進行比較,以更進一步提高分類性能。

猜你喜歡
分類特征文本
分類算一算
如何表達“特征”
在808DA上文本顯示的改善
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
主站蜘蛛池模板: a国产精品| 久久中文无码精品| 国产精品成人第一区| 青青草国产免费国产| 精品视频一区在线观看| 中美日韩在线网免费毛片视频| 日本在线视频免费| 国产SUV精品一区二区| 国产一级视频在线观看网站| 国产农村妇女精品一二区| 亚洲一区二区三区在线视频| 99资源在线| 99re热精品视频中文字幕不卡| 成人年鲁鲁在线观看视频| 久久人午夜亚洲精品无码区| 美女被狂躁www在线观看| 99这里精品| 女人18毛片久久| 看你懂的巨臀中文字幕一区二区| 久久中文字幕2021精品| 国产呦精品一区二区三区下载 | 尤物亚洲最大AV无码网站| 婷婷六月激情综合一区| 国产好痛疼轻点好爽的视频| 视频一本大道香蕉久在线播放| 国产第四页| 99这里只有精品免费视频| 91网址在线播放| 香蕉eeww99国产在线观看| 精品视频91| 大乳丰满人妻中文字幕日本| 亚洲国产精品无码久久一线| 日本www在线视频| 国产精品爽爽va在线无码观看| 久久亚洲黄色视频| 青青草91视频| 日韩欧美国产精品| 国产亚洲男人的天堂在线观看| 欧美不卡视频在线| 久久国产精品麻豆系列| 日韩性网站| 欧美一级专区免费大片| 91po国产在线精品免费观看| 日韩欧美中文在线| 国产性猛交XXXX免费看| 欧美日韩v| 亚洲美女一区| 国产小视频免费观看| 亚洲综合18p| AⅤ色综合久久天堂AV色综合| 国产农村1级毛片| 国产在线精品99一区不卡| 先锋资源久久| 亚洲午夜国产精品无卡| 女人18毛片久久| 成人年鲁鲁在线观看视频| 欧美午夜视频在线| 亚洲精品中文字幕午夜| 在线网站18禁| 波多野结衣一级毛片| 欧美a在线| 久久窝窝国产精品午夜看片| 日韩AV无码免费一二三区| 人人看人人鲁狠狠高清| 午夜日b视频| 精品福利国产| 不卡无码网| 亚洲精品在线91| 波多野结衣第一页| 久久一日本道色综合久久| 日本a级免费| 无码福利日韩神码福利片| 成人韩免费网站| 国产真实二区一区在线亚洲| 日本一区二区不卡视频| 免费观看国产小粉嫩喷水| 亚洲国产av无码综合原创国产| 色综合五月| 精品无码日韩国产不卡av| 午夜国产小视频| 久热这里只有精品6| 97国产在线播放|