999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于詞匯相關度的網絡文本分類算法研究

2012-10-17 03:07:10邱前智劉忠
網絡安全技術與應用 2012年5期
關鍵詞:詞匯分類特征

邱前智 劉忠

桂林理工大學 廣西 541004

0 引言

隨著信息技術的飛速發展特別是互聯網的廣泛普及,網絡文本以指數級別增長,網絡文本成為人們進行信息交流的重要方式。如何對浩如煙海的文檔、資料和數據進行自動分類、組織、挖掘和管理,已經成為一個具有重要用途的研究課題。文本分類是在預定義的體系下與一個或者多個類別相關聯的過程。文本分類作為信息檢索和數據挖掘的基礎技術和研究熱點,從上個世紀50年代至今,已經取得長足發展。廣泛應用于郵件分類、自動文摘、信息過濾、電話會議等。特征選擇(Feature Selection,FC)作為文本分類的關鍵一步,具有降低向量空間維數、簡化計算、以及去除噪聲等作用,征提取的好壞將直接影響著文本分類的準確率和效率。特征選擇一般是通過構造一個特征評分函數,把測量空間的數據投影到特征空間,得到在特征空間的值,然后根據特征空間中的值對每個特征進行評估,特征選擇就成了選擇值最高的若干個特征。常用的特征選擇方法(如信息增益、互信息)采用統計方法處理詞語與類別,忽略特征詞之間的語義關系。本文提出一種基于上下文的詞匯相關度的特征選擇方法,通過計算詞語與類別關鍵詞詞匯相關度,設定相關度閥值,進行特征取舍,降低特征空間的高維性,并有效減少噪聲,得出最優特征空間,從而提高了分類精度和算法效率。

1 網絡文本分類流程及相關技術

網絡文本作為一種結構化的特殊文本,除了文本信息之外,還有其他描述信息,如標題、頁面描述和超鏈接等標簽(tag)。所以文本分類具有特殊性。一般包含如下幾個重要的步驟,每個步驟都涉及各自相關技術。

預處理包括兩個具體步驟:第一步將網絡文本的所有標簽(tag)去除,轉化為一般文本;第二步去除停用詞,既去除高頻詞和情感詞。

預處理之后,進行中文分詞。中文文本不像英語等,中文詞與詞之間沒有顯示標志。因此中文分詞成為處理計算機處理中文時面臨的首要基礎性工作。常用的分詞工具有很多,比如:中科院的 ICTCLAS中文分詞工具、IK Analyzer等。

文本表示模型常用的是向量空間模型(VSM),其他常用模型還有詞組表示法、概念特征表示法。

傳統的特征選擇方法主要有:基于文檔頻率(document frequency, DF)法、信息增益(information gain, IG)法、互信息(mutual information, MI)法。

特征權重是衡量某個特征項在文檔表示中的重要程度。權重計算方法一般有絕對詞頻(TF)、倒排序文檔頻率(IDF)、TF-IDF等。

分類器是相當重要的一個步驟,常用的分類算法包括:樸素貝葉斯分類法、基于支持向量機、k-最近鄰法、神經網絡法、決策樹法、Rocchio分類法和Boosting算法。

圖1 分類流程圖

2 基于詞匯相關度的分類算法

2.1 詞匯相關度計算

詞匯相關性計算在很多領域中都有廣泛應用,例如信息檢索、信息抽取、文本分類等等。詞匯相關性計算的兩種基本方法是基于世界知識(Ontology)或某種分類體系(Taxonomy)的方法和基于上下文統計的方法。這兩種方法各有優缺點。

基于上下文統計的方法計算詞匯相關度假設:兩個詞經常共同出現在文檔的同一窗口單元(如一句話、一個自然段等),則認為這兩個詞在意義上是相互關聯的,并且,共現的概率越高,其相互關聯越緊密。

本文采用的 Jaccard系數計算兩個詞語的詞匯相關度是一種基于上下文統計的方法。

Jaccard系數計算公式如下:

P和Q是代表文檔中的兩個詞匯;H(P)代表P在窗口出現的次數,H(Q)代表Q在窗口出現的次數,H(P∩Q)則代表P和Q一起出現的次數。

2.2 改進后的文本分類算法

詳細步驟如下:

(1) 確定領域,確定需要分類文本的所屬領域,經濟、政治、等等。既是語料庫所包含的文本的類別;

(2) 自定義一個語義范圍,根據《知網》對每個領域確定好類別關鍵詞,建立1-10的相關度。例如:經濟領域,我們選取出資人、收入、股票、貨物、商人、貿易、公司、商業、金融、經濟;

(3) 對文本進行預處理;

(4) 分詞;

(5) 將訓練文本中的詞匯與類別關鍵詞用 1式進行相關計算。形式如下:Jaccard(類別關鍵詞,待選詞匯);設定閥值,進行特征選擇,得出最終特征集合;

(6) 選擇文本表示模型;

(7) 選擇文本分類器;

(8) 對測試文本,用特征集,進行文本表示;

(9) 測試評估,動態調整算法。

3 實驗結果

我們在Weka平臺上,進行對比試驗(如表1)。在特征權重選用TF-IDF,分類器用KNN算法,樸素貝葉斯算法。用搜狗2008迷你版語料庫分為訓練文本和測試文本,其包含軍事、文化等十個為本類別,每個類別分別有100篇文檔,是一個平衡語料庫。將本方法與信息增益、互信息法進行比較。我們采用了查準率(Precision,p)和算法時間(Time,T)作為評價指標。

表1 實驗結果

經過實驗結果,我們得出基于詞匯相關性的特征選擇比傳統的特征選擇方法在分類精度和算法運行時間均有穩定的提高。

4 結論

文本分類是信息檢索、信息過濾和搜索引擎工作的技術基礎。文本特征的高維性是影響分類精度和效率的一個重要因素,如何進行有效的特征降維成為文本分類的一個研究熱點。本文采用詞匯相似度進行特征選擇改進文本分類算法,有效地提高了分類精度和算法效率。

[1]宗成慶.統計自然語言處理[M].北京:清華大學出版社.2008.

[2]申紅,呂寶糧,內山將夫,井佐原均.文本分類的特征提取方法比較與改進[J].計算機仿真.2006.

[3]劉群,李素建.基于《知網》的詞匯語義相似度算[J].Computational Linguistics and Chinese Language Processing.2002.

[4]張燕平,史科,徐慶鵬,謝飛.基于詞共現模型的垃圾郵件過濾方法研究[J].中文信息學報.2009.

[5]Boll gala,D.,Matsuo,Y.,and Ishizuka,M.(20-07) Measuring.semantic similarity between words using web search engines.In Proc.2007.

猜你喜歡
詞匯分類特征
分類算一算
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
如何表達“特征”
本刊可直接用縮寫的常用詞匯
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 久久亚洲日本不卡一区二区| 人妻无码中文字幕一区二区三区| 久久久久青草线综合超碰| 久草视频中文| 1级黄色毛片| 亚洲综合激情另类专区| 91美女在线| 亚洲精品无码抽插日韩| 中文纯内无码H| 亚洲—日韩aV在线| 国产国拍精品视频免费看 | 2024av在线无码中文最新| 在线欧美一区| 在线无码私拍| 欧美区国产区| 国产一区二区影院| 中文一级毛片| 欧洲成人免费视频| 国产99在线观看| 精品亚洲麻豆1区2区3区 | 国产精品手机视频一区二区| 日韩美一区二区| 亚洲香蕉久久| 久无码久无码av无码| 国产一级毛片网站| 不卡无码网| 中文字幕第4页| 亚洲精品第一页不卡| 99热这里只有免费国产精品| 久久久久久久久久国产精品| 58av国产精品| 国内99精品激情视频精品| 日韩欧美中文字幕一本| 青青草a国产免费观看| 午夜限制老子影院888| 丰满人妻被猛烈进入无码| 无码一区二区波多野结衣播放搜索| 亚洲天堂久久| 国产毛片高清一级国语| 国产十八禁在线观看免费| 欧美日韩v| 中文字幕亚洲乱码熟女1区2区| 欧美亚洲一二三区| 亚洲看片网| 国产日韩丝袜一二三区| 亚洲人成在线免费观看| 日韩天堂在线观看| 久久伊人操| 亚洲视频色图| 丰满的少妇人妻无码区| 日韩第一页在线| 露脸国产精品自产在线播| 丝袜国产一区| 极品国产一区二区三区| 中文字幕第1页在线播| 亚洲三级a| 欧美成人h精品网站| 性网站在线观看| 女人爽到高潮免费视频大全| 麻豆精选在线| 国产va在线观看| 亚洲一区国色天香| 亚洲无线视频| 高清无码不卡视频| 亚洲日本中文字幕天堂网| 九九久久精品国产av片囯产区| 四虎永久在线| 日韩无码视频专区| 91精品国产一区| 国产精品极品美女自在线看免费一区二区| 18黑白丝水手服自慰喷水网站| 91丝袜乱伦| 亚洲日本中文字幕乱码中文| 国产污视频在线观看| 久久国产高潮流白浆免费观看| 国产精品免费电影| 黄色网页在线播放| 99re在线视频观看| 亚洲国产AV无码综合原创| 视频二区亚洲精品| 欧美激情第一欧美在线| 伊伊人成亚洲综合人网7777|