999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于特征提取算法的輔助機器翻譯系統設計與開發

2016-02-10 10:09:47林楊
關鍵詞:特征提取分類文本

林楊

內蒙古大學外國語學院,內蒙古呼和浩特010021

基于特征提取算法的輔助機器翻譯系統設計與開發

林楊

內蒙古大學外國語學院,內蒙古呼和浩特010021

隨著電子信息技術的發展,如何準確、高效、快捷的將數據分類,已成為當前的熱點問題。本文設計了一種基于x2統計算法和規則判斷方法相結合的多特征提取方法,利用該多特征提取算法生成特征詞集,采用TF-IDF頻率算法生成文本特征向量,使用支持向量機(SVM)分類器模型進行文本分類。并且為分類系統設計了相應的調用接口,保證了該分類模塊的可用性。同時還設計了分類詞庫,保存各個類別的獨有特征詞,用于優先判斷待分類文件的類別。

特征提取;翻譯系統;設計

隨著電子信息技術的發展,越來越多的人開始接觸網絡,從網上獲取和交流各種信息。隨之而來的,就是對海量數據的處理。如何準確高效的從大量數據中找到我們關心的信息已成為當前自然語言處理領域的一大機遇和挑戰[1]。對于文本信息,傳統的人工分類方法不但耗費大量的人力和時間,而且不同人的標準不同,分類結果一致性低。自動文本分類技術可以幫助人們更高效的實現文本分類,提高了文本分類的實用性[2]。因此,對于文本分類技術的研究,具有重要意義。

1 多特征文本分類方案設計

1.1 架構設計

整個文本分類系統的架構設計如下圖1所示,對于接口層,用戶可通過圖形界面進行文本分類;實現層完成了整個文本分類系統的各個流程的算法及程序設計,以及內存數據存儲結構設計,并為接口層提供了各個功能的調用接口;數據層為實現層和接口層提供數據支持,通過文件的讀寫對數據層數據進行操作。

圖2 改進后的各特征詞集獲取算法分類準確率Fig.2 Improved classification accuracy of each feature word set

1.2 特征提取設計及改進

1.2.1 構造數據結構對于語料的處理,不但要獲取到各個類別中的文件信息,還要保存詞的信息。因此通過鏈表進行存儲[3]。對于每個類別中詞信息的存儲,采用二維鏈表。通過定義Head頭結點,然后通過讀取文件,依次保存語料各類別中的詞信息,便于后續計算,對于每個類別中文件信息的存儲,同樣采用二維鏈表。通過定義File head頭結點,然后通過讀取文件,依次保存語料各類別中的文件信息,便于后續計算。

1.2.2 結果分析實驗得到各個特征提取算法的結果文件后,統計得到各個特征詞集獲取算法的判斷結果中屬于各類別的文章數,通過對準確率、召回率、精確率[4]的計算,得到各算法的文本分類效果如下表1所示。

表1 各特征詞集獲取算法的準確率、召回率、精確率Table 1Accuracy rate,recall rate and precision rate of each feature word set

通過表中各個特征集獲取算法的分類結果可以看出,DF和x2統計算法的分類準確率和精確率相對較高,但分析算法可知,DF算法不能有效的去除不同類別中的共用詞,這往往會導致一些不能用來區分類別的“常用詞”被選為特征詞,使得分類結果不準確。并且DF算法對小語料集的分類效果好,但對大語料集的分類效果較差。因此,對于該系統而言,決定使用x2統計算法作為最終的特征詞集獲取算法。

1.2.3 算法改進分析系統生成的特征詞集文件可以看出,得到的特征詞集中包含了大量的無用詞,同時,經查看發現,除漢字外,其他字符都需要考慮半碼和全碼兩種形態。在使用x2統計算法得到每個詞的開方值并排序后,在函數Get FE()中添加了規則判斷,通過規則,對這些詞進行篩選,然后再取每個類別的最多前1000個詞,生成相應的特征詞集[5]。分析改進的特征詞集獲取方法獲得的結果文件,并計算各個算法的分類準確率,得到分類效果如下圖2所示。通過上述實驗,擬采用基于x2統計算法和規則判斷方法相結合的多特征提取方法,來獲取特征詞集。

1.2.4 本系統的特征提取方法基于x2統計算法和規則判斷方法相結合的多特征提取方法,能夠最大程度的提高系統的分類準確率,因此采用此種方法實現本系統的特征集獲取方法。文本特征向量的生成則采用TF-IDF頻率算法實現[6]。同時,設計了分類詞庫,保存各個類別的獨有特征詞,用于優先判斷測試文件的類別。

1.3 分類器模型設計

在分類過程中,發現了一個現象:每個類別都有其獨有的一些特征詞。比如對于測試語料,當“聯賽”、“射門”等詞在文檔中出現時,該文檔很有可能屬于“體育”類別,而當“航空母艦”、“戰斗機”等詞反復出現時,該文檔則很有可能屬于“軍事”類別。

針對這種現象,設計了分類詞庫,保存各個類別的獨有特征詞。通過各個類別的獨有特征詞在測試文件中出現的頻率,優先判斷該文件的類別,作為SVM分類方法[7]的補充。

對于一篇輸入文本,經過預處理后,得到去停用詞后的文件。這時,依次統計各個類別分類詞庫中的特征詞在該文檔中出現的次數。當某一類別滿足公式1時,則直接將該文檔設為該類別,否則按照SVM結果進行分類。

式1中,Count(i)表示當前類別分類詞庫中的特征詞在該文檔中出現的次數,Total(N)表示所有類別分類詞庫中的特征詞在該文檔中出現的總次數。

1.4 界面設計

為了方便用戶使用操作,使用MFC的Dialog對話框為系統設計了簡單的用戶界面,方便分類操作。界面內容應包含四個模塊,分別是路徑選擇模塊、預處理模塊、分類模塊,以及更改分類結果模塊。為了方便用戶操作,適應分類的操作流程,故從上到下根據操作流程將界面分成四部分。

當點擊生成文件目錄模塊的“選擇目錄”、訓練模塊的“選擇語料”以及測試模塊多測試文件的“選擇語料”時,會彈出文件夾選擇窗口。窗口只有選擇正確的路徑后,確定按鈕才會可點。當點擊生成文件目錄模塊的“選擇目錄”、訓練模塊的“選擇語料”以及測試模塊多測試文件的“選擇語料”時,會彈出文件夾選擇窗口,選擇圖中只有選擇正確的路徑后,確定按鈕才會可點。在測試模塊中選擇單測試文件,然后點擊“選擇語料”時,會彈出文本文檔選擇窗口,系統設定一次只能選擇一個文件。

其中,當依次完成對訓練語料的預處理和生成模型,以及對測試語料的預處理和分類后,系統在生成文件目錄下生成中間文件,如下圖3所示。

圖3 生成的中間文件Fig.3 The generated mediate files

圖4 分類結果展示Fig.4 The classification results

通過該系統實現對文件的分類后,分類結果保存在結果文件中,同時會在界面上實時顯示出來,如圖4所示。分類結果會按照文件名和類別相對應的形式展示出來,方便用戶的對比查看。如果想更改分類結果,點擊更改分類,在彈出的“修改分類結果”對話框中選擇文件和類別,進行結果更改,如圖5所示。

圖5 修改分類結果對話框Fig.5 The dialog box to modify the classification results

圖6 系統分類流程圖Fig.6 The process of system classification

“選擇文件”下拉列表中包括了當前進行分類的所有文件名,“選擇類別”下拉列表中包含了所有的預置類別。系統在對測試語料預處理時,將語料中的文件名和路徑統一保存在結果目錄下的Test File Path.txt文件中,將類別預置文件Category.txt保存在程序運行目錄下,通過文件的讀取操作獲得下拉列表中的數據。

2 系統實現及結果分析

2.1 系統流程圖

整個文本分類系統得到了完整的實現,用戶可通過界面對文本進行分類操作,也可以通過引用鏈接庫,通過分類接口進行相關分類操作。最后,給出整個系統的分類運行流程圖,如圖6所示。

2.2 結果分析

利用系統對語料進行學習并分類,得到分類結果后,通過對準確率、召回率、精確率的計算,得到該系統的文本分類效果,結果如表2所示。從表2中可以看出,最終系統分類的準確率達到了89.58%,精確率為83.19%。從表中可以明顯的發現,分類結果中類別16(旅游)的分類準確率非常低,三次的平均準確率只有9.23%,從而使得整個系統的分類準確率和精確率相對較低。其次,類別8(財經)的分類準確率也相對較低,平均只有70.68%。

分析分類結果文件發現,造成旅游類別和財經類別分類結果不理想的原因是由于訓練語料文件中類別重疊造成的。由于語料來源于網頁文件,多數語料中的內容都與IT類別有交集,涉及到了“網頁”、“互聯網”等一些IT類別中的高頻詞。因此,如果能夠進一步保證語料的質量,使得各類別不出現特征詞交叉,采用該系統進行分類的精確率還能得到進一步提升。

表2 系統分類的準確率、召回率、精確率Table 2Accuracy rate,recall rate and precision rate of system classification

3 結論

本文通過對文本分類各環節所需理論的探討和技術算法的研究,主要完成了以下工作:算法設計通過實驗對比,設計了基于x2統計算法和規則判斷方法相結合的多特征提取方法,優化了特征詞集,有效提高了原單一特征提取算法下文本分類的精確率;分類詞庫分類設計了分類詞庫,保存各個類別的獨有特征詞;設計并實現的文本分類系統,綜合分類準確率可以達到83.19%,是一種穩定性強,效率高,且準確率相對較高的實用型文本分類技術;輔助機器翻譯系統分類接口設計該系統提供了調用分類功能的接口,作為輔助翻譯系統的文本分類模塊,保證了程序可應用于輔助機器翻譯系統中;分類結果修改功能程序能夠對分錯類別的文本進行手工修正,通過相應接口,可以更改結果文件中某一文檔的分類;分類修正功能程序能夠將已分類的測試語料加入訓練語料中,進行重新學習,對分類模型進行修正。

[1]奉國和.文本分類性能評價研究[J].情報雜志,2011,30(8):66-70

[2]宋淑彩,龐慧,丁學鈞.GA-SVM算法在文本分類中的應用[J].計算機仿真,2011,28(1):222-225

[3]王法波,許信順.文本分類中一種新的特征選擇方法[J].山東大學學報:工學版,2010,40(4):8-11

[4]李新福,趙蕾蕾,何海斌,等.使用Logistic回歸模型進行中文文本分類[J].計算機工程與應用,2009,45(14):152-

[5]王雪松,程玉虎,郝名林.一種支持向量機參數選擇的改進分布估計算法[J].山東大學學報:工學版,2009,39(3):7-10

[6]張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應用[J].計算機工程,2006,32(19):76-78

[7]王元珍,錢鐵云,馮小年.基于關聯規則挖掘的中文文本自動分類[J].小型微型計算機系統,2005,26(8):1380-1383

[8]余俊英,王明文,盛俊.文本分類中的類別信息特征選擇方法[J].山東大學學報:理學版,2006,41(3):10-13

Design and Development of the Auxiliary Machine Translation System Based on Feature ExtractionAlgorithm

LIN Yang
College of Foreign Languages/Inner Mongolia University,Hohhot 010021,China

With the development of electronic information technology,how to classify the data accurately,efficiently and quickly has become a hot issue.In this paper,a multi feature extraction method based on x2statistical algorithm and rule judgment method was designed and implemented the text classification system through using the multi feature extraction algorithm to generate a set of feature words,taking TF-IDF frequency algorithm to generate text feature vectors and using support vector machine(SVM)classifier model to classify text And the corresponding call interface was designed for the classification system, which ensured the engineering availability of the classification module.At the same time,the classified lexicon was designed to save unique feature words in each category for the judgment of priority to be classified document categories.

Feature extraction;translation system;design

TP311.1

A

1000-2324(2016)06-0949-04

2016-06-19

2016-08-18

林楊(1980-),女,廣東新會人,碩士,講師.主要研究方向為翻譯理論與實踐.E-mail:linyangimu@163.com

猜你喜歡
特征提取分類文本
分類算一算
在808DA上文本顯示的改善
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
教你一招:數的分類
一種基于LBP 特征提取和稀疏表示的肝病識別算法
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
基于MED和循環域解調的多故障特征提取
主站蜘蛛池模板: 国产男人天堂| 婷婷色婷婷| 久久久久久久蜜桃| 超碰精品无码一区二区| 全部免费毛片免费播放| 亚洲一本大道在线| 国产高清无码麻豆精品| 伊人五月丁香综合AⅤ| 蝴蝶伊人久久中文娱乐网| 国产黄色片在线看| 欧美一级高清视频在线播放| 久久香蕉国产线看观看式| 免费人欧美成又黄又爽的视频| 亚洲成av人无码综合在线观看| 91外围女在线观看| 综合色亚洲| 在线观看热码亚洲av每日更新| 国产欧美中文字幕| 五月天福利视频| 国产91精品久久| 高清亚洲欧美在线看| 亚洲乱伦视频| 不卡网亚洲无码| 欧洲av毛片| 亚洲综合网在线观看| 美女国内精品自产拍在线播放| 亚洲视频免| 国产人免费人成免费视频| 国产精品视频导航| 99在线视频免费| 在线亚洲精品福利网址导航| 高清国产va日韩亚洲免费午夜电影| 欧美在线综合视频| 久久国产精品国产自线拍| 国产亚洲精久久久久久久91| 99青青青精品视频在线| 欧美精品一区在线看| 国产日韩av在线播放| 亚洲高清中文字幕| 国产成人久久777777| 亚洲无码电影| 国产成人a在线观看视频| 女人18毛片一级毛片在线| 国产精品爽爽va在线无码观看| 国产91全国探花系列在线播放 | 亚洲无码免费黄色网址| 亚洲精品国偷自产在线91正片| 色一情一乱一伦一区二区三区小说 | 在线另类稀缺国产呦| 婷婷中文在线| 久久精品亚洲专区| 99精品在线看| 草逼视频国产| 在线视频精品一区| 欧美成人国产| 国产精品成人一区二区| 国产青榴视频| 在线观看91香蕉国产免费| 在线观看无码av五月花| 91外围女在线观看| 国内精自视频品线一二区| swag国产精品| 国产精品女在线观看| 一本色道久久88| 国产精品黄色片| 日韩av在线直播| 91亚洲精选| 亚洲三级成人| 香蕉综合在线视频91| 亚洲欧美日本国产综合在线 | 国产91视频观看| 狠狠躁天天躁夜夜躁婷婷| 亚洲男人的天堂在线观看| 国产无遮挡裸体免费视频| 欧美精品在线看| 97视频精品全国免费观看 | 国产激情无码一区二区APP| 九色最新网址| 亚洲AV无码久久精品色欲| 啪啪永久免费av| 国产日本一区二区三区| 毛片国产精品完整版|