李芳
摘 要: 針對傳統的基于支持向量機的高相似度英語詞語自主選取系統一直存在選取效果差、精度低的問題,提出一種基于數據挖掘的高相似度英語詞語自主選取系統設計方法。首先根據英語詞語的相似度概念,計算出兩個英語詞語義項的最短路徑與其距離最近的公共父節點之間的深度。利用數據挖掘法將英語詞語文本特征選擇轉換為一個多目標優化問題;然后以英語詞語特征維數最少、分類正確率相對最高為選取標準,采用蟻群算法找到英語詞語的最優特征子集;最后通過建立神經網絡分類器完成高相似度英語詞語自主選取系統設計。實驗結果證明,所提方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。
關鍵詞: 高相似度英語詞語; 數據挖掘; 自主選?。?系統設計
中圖分類號: TN02?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)23?0147?04
Abstract: Since the traditional high?similarity English words autonomous selection system based on support vector machine has the problems of poor selection effect and low accuracy, a design method of high?similarity English words autonomous selection system based on data mining is put forward. According to the similarity concept of English words, the shortest path of the semantic item between the two English words and its nearest depth among the common parent nodes are calculated. The data mining method is used to convert the text feature selection issue of English words into a multi?objective optimization problem. Taking the least English words feature dimensions and relatively?high classification accuracy as the selection standards, the ant colony algorithm is adopted to find out the optimal feature subset of English words. The neural network classifier is established to complete the design of the high?similarity English words autonomous selection system. The experimental results show that the proposed method can select the English words with high similarity accurately, and has short selection time and broad practicability.
Keywords: high?similarity English word; data mining; autonomous selection; system design
0 引 言
英語詞語之間的語義相似度研究課題作為自然語言處理和計算機人工智能的基礎性研究[1?3],如選取、搜索、分類以及歧義消除等,需要依賴于包含現實世界概念的知識體系[4]。英語詞語的相似度是對英語詞語之間語義相似緊密程度的度量,在機器翻譯、數據信息檢索等方面具有重要的實用價值[5]。在不同的實際應用場景中,英語詞語相似度具有不同的用途[6]。另外,在構造統計英語詞語語言模型的過程中,由于數據分布稀疏導致未登錄英語詞語的統計信息無法計算的問題[7],需要進行高相似度英語詞語自主選取系統設計。在國內,隨著計算機人工智能的不斷發展,更準確地進行高相似度英語詞語自主選取系統設計引起了很多國內外專家與學者的重視。
文獻[8]提出基于樸素貝葉斯的高相似度英語詞語自主選取系統設計,首先介紹知網中的英語詞語相似度基本概念和體系結構,利用知網的義原層次體系結構計算得到英語詞語的義原相似度,計算出英語詞語概念的相似度;然后通過支持向量機分類器完成自主選取系統設計。該方法較為簡單,但是存在英語詞語相似度計算不清的問題,導致在自主選取過程中準確率不高。文獻[9]提出基于Corpus庫的高相似度英語詞語自主選取系統設計,首先構建英語詞語語義關聯庫,利用該庫使英語詞語空間與關系空間結構化,保存英語詞語與其上下文之間的總體信息,通過閱讀大量的英語詞語語料數據來訓練相似度英語詞語的相關數據,并對訓練過程中涌現的大量英語詞語關系進行剪裁,利用樸素貝葉斯分類器完成對高相似度英語詞語的自主選取。該方法存在對高相似度英語詞語的自主選取時間過長,且英語詞語的相似度計算準確率較低的問題。
針對上述問題,本文提出一種基于數據挖掘的高相似度英語詞語自主選取系統設計方法,所提系統設計方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。
1 高相似度英語詞語自主選取系統設計
1.1 高相似度英語詞語選取系統設計endprint
考慮到人們對高相似度英語詞語自主選取系統設計需求的精準性與靈活性[10],將英語詞語的相似度計算結果與數據挖掘特點相結合,設計出一種高相似度英語詞語自主選取系統,如圖1所示。
本文高相似度英語詞語的自主選取系統設計對硬件系統設計不作考量,主要研究軟件和算法。
1.2 基于路徑和深度的英語詞語高相似度計算方法
1.3 基于數據挖掘的高相似度英語詞語自主選取
為了能夠有效地在網絡中挖掘出高相似度英語詞語,在處理兩個英語詞語義項的最短路徑與其距離最近公共父節點的基礎上,利用數據挖掘將英語詞語文本特征選擇轉換為一個多目標優化問題;然后以英語詞語特征維數最少、分類正確率相對最高為選取標準,采用蟻群算法找到英語詞語的最優特征子集;最后通過神經網絡建立英語詞語相似度文本自動分類器。具體描述過程如下:
式中:[σ]為英語詞語神經網絡隱節點寬度;[c]表示英語詞語第[r]個神經網絡隱節點中點;[w]為英語詞語神經網絡輸出權值。參數[w,][c,][σ]對神經網絡分類起決定性作用,要想獲得高性能神經網絡,需要對參數進行優化。在此基礎上完成對高相似度英語詞語的自主選擇。
2 實驗結果與分析
實驗環境建立的PC機配置為:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系統,通過Java語言編寫實現。實驗過程中設置32個存儲節點,每個節點的最大存儲容量為1 TB,數據通道為2 000 Mb/s,英語詞語文本采集與數據存儲均為10 TB。根據參與對比的系統設計使用的英語詞語語義資源所收錄的英語詞語情況,本文從該英語詞語測試集中篩選出一些無法計算的英語詞語對,最終結果保留10對英語詞語用于測試,如表1所示。
從表1中可以看出,[S1]的英語詞語相似度計算結果在數值上普遍較低,主要是由于基于Corpus庫的高相似度英語詞語自主選取系統設計方法考慮眾多英語詞語特征,加上一些其他干擾因素的影響,從而造成英語詞語特征高維向量的相似度普遍偏低;[S2]數值跨度較大,這是由于基于百度百科的高相似度英語詞語自主選取系統設計方法通常情況下在某些方面與人工思維沒有較好的符合。
利用1.3節中的平衡最大英語詞語特征識別率與英語詞語特征維數的權值[λ,]對高相似度英語詞語自主選取系統設計方法的選取效率影響,如圖2所示。
由圖2可知,選取參與測試的英語詞語數據集為700個,選取英語詞語測試數據為200,400,600時對應的高相似度英語詞語自主選取系統設計的選取效率,其中,當[λ=1]時,高相似度英語詞語自主選取系統設計的選取效率分別為30%,38%和60%;當[λ=3]時,高相似度英語詞語自主選取系統設計的選取效率分別為42%,48%和72%;當[λ=5]時,當高相似度英語詞語自主選取系統設計的選取效率分別為60%,70%和90%。通過分析可知平衡最大英語詞語特征識別率與英語詞語特征維數的權值[λ]在區間[1,5]時,本文所提系統設計方法的選取效率最高。
3 結 語
采用當前系統設計方法對高相似度英語詞語進行自主選取時,存在選取效率低、選取時間過長等問題。本文提出基于數據挖掘的高相似度英語詞語自主選取系統設計方法。通過實驗證明,所提系統設計方法可精確地對高相似度英語詞語進行自主選取,具有良好的應用價值。
參考文獻
[1] 黃宏濤,程清杰,萬慶生,等.基于語義信息內容的FCA概念相似度計算方法[J].計算機應用研究,2015,32(3):731?735.
[2] 陳海燕.基于搜索引擎的詞匯語義相似度計算方法[J].計算機科學,2015,42(1):261?267.
[3] 王立印,張輝,陳勇.一種基于Dice?Euclidean相似度計算的協同過濾算法[J].計算機應用研究,2015,32(10):2891?2895.
[4] 李中,劉洋洋,張鐵峰.基于形態相似距離的時間序列相似度計算[J].計算機工程與設計,2016,37(3):679?683.
[5] 王濤,覃錫忠,賈振紅,等.基于相似度和信任度的關聯規則微博好友推薦[J].計算機應用,2016,36(8):2262?2267.
[6] 郭勝國,邢丹丹.基于詞向量的句子相似度計算及其應用研究[J].現代電子技術,2016,39(13):99?102.
[7] 于蕾,吳強.一個基于社區相似度分析的物流網絡優化算法[J].現代電子技術,2016,39(6):45?48.
[8] 薛蘇琴,牛永潔.基于向量空間模型的中文文本相似度的研究[J].電子設計工程,2016,24(10):28?31.
[9] 王俊華,左萬利,閆昭.基于樸素貝葉斯模型的單詞語義相似度度量[J].計算機研究與發展,2015,52(7):1499?1509.endprint