999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高相似度英語詞語自主選取系統設計

2017-12-20 22:56:06李芳
現代電子技術 2017年23期
關鍵詞:數據挖掘

李芳

摘 要: 針對傳統的基于支持向量機的高相似度英語詞語自主選取系統一直存在選取效果差、精度低的問題,提出一種基于數據挖掘的高相似度英語詞語自主選取系統設計方法。首先根據英語詞語的相似度概念,計算出兩個英語詞語義項的最短路徑與其距離最近的公共父節點之間的深度。利用數據挖掘法將英語詞語文本特征選擇轉換為一個多目標優化問題;然后以英語詞語特征維數最少、分類正確率相對最高為選取標準,采用蟻群算法找到英語詞語的最優特征子集;最后通過建立神經網絡分類器完成高相似度英語詞語自主選取系統設計。實驗結果證明,所提方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。

關鍵詞: 高相似度英語詞語; 數據挖掘; 自主選?。?系統設計

中圖分類號: TN02?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)23?0147?04

Abstract: Since the traditional high?similarity English words autonomous selection system based on support vector machine has the problems of poor selection effect and low accuracy, a design method of high?similarity English words autonomous selection system based on data mining is put forward. According to the similarity concept of English words, the shortest path of the semantic item between the two English words and its nearest depth among the common parent nodes are calculated. The data mining method is used to convert the text feature selection issue of English words into a multi?objective optimization problem. Taking the least English words feature dimensions and relatively?high classification accuracy as the selection standards, the ant colony algorithm is adopted to find out the optimal feature subset of English words. The neural network classifier is established to complete the design of the high?similarity English words autonomous selection system. The experimental results show that the proposed method can select the English words with high similarity accurately, and has short selection time and broad practicability.

Keywords: high?similarity English word; data mining; autonomous selection; system design

0 引 言

英語詞語之間的語義相似度研究課題作為自然語言處理和計算機人工智能的基礎性研究[1?3],如選取、搜索、分類以及歧義消除等,需要依賴于包含現實世界概念的知識體系[4]。英語詞語的相似度是對英語詞語之間語義相似緊密程度的度量,在機器翻譯、數據信息檢索等方面具有重要的實用價值[5]。在不同的實際應用場景中,英語詞語相似度具有不同的用途[6]。另外,在構造統計英語詞語語言模型的過程中,由于數據分布稀疏導致未登錄英語詞語的統計信息無法計算的問題[7],需要進行高相似度英語詞語自主選取系統設計。在國內,隨著計算機人工智能的不斷發展,更準確地進行高相似度英語詞語自主選取系統設計引起了很多國內外專家與學者的重視。

文獻[8]提出基于樸素貝葉斯的高相似度英語詞語自主選取系統設計,首先介紹知網中的英語詞語相似度基本概念和體系結構,利用知網的義原層次體系結構計算得到英語詞語的義原相似度,計算出英語詞語概念的相似度;然后通過支持向量機分類器完成自主選取系統設計。該方法較為簡單,但是存在英語詞語相似度計算不清的問題,導致在自主選取過程中準確率不高。文獻[9]提出基于Corpus庫的高相似度英語詞語自主選取系統設計,首先構建英語詞語語義關聯庫,利用該庫使英語詞語空間與關系空間結構化,保存英語詞語與其上下文之間的總體信息,通過閱讀大量的英語詞語語料數據來訓練相似度英語詞語的相關數據,并對訓練過程中涌現的大量英語詞語關系進行剪裁,利用樸素貝葉斯分類器完成對高相似度英語詞語的自主選取。該方法存在對高相似度英語詞語的自主選取時間過長,且英語詞語的相似度計算準確率較低的問題。

針對上述問題,本文提出一種基于數據挖掘的高相似度英語詞語自主選取系統設計方法,所提系統設計方法可以精確地選取出高相似度英語詞語,且選取時間較短,實用性廣泛。

1 高相似度英語詞語自主選取系統設計

1.1 高相似度英語詞語選取系統設計endprint

考慮到人們對高相似度英語詞語自主選取系統設計需求的精準性與靈活性[10],將英語詞語的相似度計算結果與數據挖掘特點相結合,設計出一種高相似度英語詞語自主選取系統,如圖1所示。

本文高相似度英語詞語的自主選取系統設計對硬件系統設計不作考量,主要研究軟件和算法。

1.2 基于路徑和深度的英語詞語高相似度計算方法

1.3 基于數據挖掘的高相似度英語詞語自主選取

為了能夠有效地在網絡中挖掘出高相似度英語詞語,在處理兩個英語詞語義項的最短路徑與其距離最近公共父節點的基礎上,利用數據挖掘將英語詞語文本特征選擇轉換為一個多目標優化問題;然后以英語詞語特征維數最少、分類正確率相對最高為選取標準,采用蟻群算法找到英語詞語的最優特征子集;最后通過神經網絡建立英語詞語相似度文本自動分類器。具體描述過程如下:

式中:[σ]為英語詞語神經網絡隱節點寬度;[c]表示英語詞語第[r]個神經網絡隱節點中點;[w]為英語詞語神經網絡輸出權值。參數[w,][c,][σ]對神經網絡分類起決定性作用,要想獲得高性能神經網絡,需要對參數進行優化。在此基礎上完成對高相似度英語詞語的自主選擇。

2 實驗結果與分析

實驗環境建立的PC機配置為:CPU Core i7?4790 3.60 GHz,RAM=4 GB,Windows7操作系統,通過Java語言編寫實現。實驗過程中設置32個存儲節點,每個節點的最大存儲容量為1 TB,數據通道為2 000 Mb/s,英語詞語文本采集與數據存儲均為10 TB。根據參與對比的系統設計使用的英語詞語語義資源所收錄的英語詞語情況,本文從該英語詞語測試集中篩選出一些無法計算的英語詞語對,最終結果保留10對英語詞語用于測試,如表1所示。

從表1中可以看出,[S1]的英語詞語相似度計算結果在數值上普遍較低,主要是由于基于Corpus庫的高相似度英語詞語自主選取系統設計方法考慮眾多英語詞語特征,加上一些其他干擾因素的影響,從而造成英語詞語特征高維向量的相似度普遍偏低;[S2]數值跨度較大,這是由于基于百度百科的高相似度英語詞語自主選取系統設計方法通常情況下在某些方面與人工思維沒有較好的符合。

利用1.3節中的平衡最大英語詞語特征識別率與英語詞語特征維數的權值[λ,]對高相似度英語詞語自主選取系統設計方法的選取效率影響,如圖2所示。

由圖2可知,選取參與測試的英語詞語數據集為700個,選取英語詞語測試數據為200,400,600時對應的高相似度英語詞語自主選取系統設計的選取效率,其中,當[λ=1]時,高相似度英語詞語自主選取系統設計的選取效率分別為30%,38%和60%;當[λ=3]時,高相似度英語詞語自主選取系統設計的選取效率分別為42%,48%和72%;當[λ=5]時,當高相似度英語詞語自主選取系統設計的選取效率分別為60%,70%和90%。通過分析可知平衡最大英語詞語特征識別率與英語詞語特征維數的權值[λ]在區間[1,5]時,本文所提系統設計方法的選取效率最高。

3 結 語

采用當前系統設計方法對高相似度英語詞語進行自主選取時,存在選取效率低、選取時間過長等問題。本文提出基于數據挖掘的高相似度英語詞語自主選取系統設計方法。通過實驗證明,所提系統設計方法可精確地對高相似度英語詞語進行自主選取,具有良好的應用價值。

參考文獻

[1] 黃宏濤,程清杰,萬慶生,等.基于語義信息內容的FCA概念相似度計算方法[J].計算機應用研究,2015,32(3):731?735.

[2] 陳海燕.基于搜索引擎的詞匯語義相似度計算方法[J].計算機科學,2015,42(1):261?267.

[3] 王立印,張輝,陳勇.一種基于Dice?Euclidean相似度計算的協同過濾算法[J].計算機應用研究,2015,32(10):2891?2895.

[4] 李中,劉洋洋,張鐵峰.基于形態相似距離的時間序列相似度計算[J].計算機工程與設計,2016,37(3):679?683.

[5] 王濤,覃錫忠,賈振紅,等.基于相似度和信任度的關聯規則微博好友推薦[J].計算機應用,2016,36(8):2262?2267.

[6] 郭勝國,邢丹丹.基于詞向量的句子相似度計算及其應用研究[J].現代電子技術,2016,39(13):99?102.

[7] 于蕾,吳強.一個基于社區相似度分析的物流網絡優化算法[J].現代電子技術,2016,39(6):45?48.

[8] 薛蘇琴,牛永潔.基于向量空間模型的中文文本相似度的研究[J].電子設計工程,2016,24(10):28?31.

[9] 王俊華,左萬利,閆昭.基于樸素貝葉斯模型的單詞語義相似度度量[J].計算機研究與發展,2015,52(7):1499?1509.endprint

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 91精品国产一区| 怡红院美国分院一区二区| av在线手机播放| 97青青青国产在线播放| 久久婷婷色综合老司机| 激情视频综合网| 幺女国产一级毛片| 日韩人妻少妇一区二区| 欧美一区二区三区国产精品| 色综合久久88| 国产激爽大片高清在线观看| 性视频久久| 欧美无专区| 国内精品小视频在线| 日本在线欧美在线| 最新国产你懂的在线网址| 99在线免费播放| 国产成人AV大片大片在线播放 | 国产aⅴ无码专区亚洲av综合网| jizz在线免费播放| 国产精品亚洲一区二区三区z| 无码'专区第一页| 啪啪永久免费av| 亚洲av无码久久无遮挡| 97久久人人超碰国产精品| 看你懂的巨臀中文字幕一区二区| 国产超碰在线观看| 国产欧美日韩视频怡春院| 尤物午夜福利视频| 国产av色站网站| 91久久国产热精品免费| 精品国产一二三区| 黄网站欧美内射| 欧美一区二区精品久久久| 2021国产精品自拍| 精久久久久无码区中文字幕| 国产成人三级在线观看视频| 国产人成网线在线播放va| 亚洲国产精品无码AV| 伊人成人在线| 欧美精品成人一区二区在线观看| 国产精品v欧美| 日本亚洲欧美在线| 国产美女主播一级成人毛片| 亚洲二三区| 久久不卡国产精品无码| 人妻精品久久无码区| 国产高清毛片| 亚洲欧洲综合| 亚洲国产日韩视频观看| 99视频免费观看| 欧美精品伊人久久| 在线视频一区二区三区不卡| 国产精品片在线观看手机版| 日本在线欧美在线| 极品国产一区二区三区| 亚洲成a∧人片在线观看无码| 亚洲人成影院午夜网站| 日韩成人高清无码| 欧美日韩免费| 欧美第二区| 国产精品久久自在自线观看| 91无码网站| 亚洲免费三区| 思思99思思久久最新精品| 国产一级做美女做受视频| 亚洲天堂精品在线观看| 亚洲精品久综合蜜| 五月婷婷综合色| 日本人真淫视频一区二区三区 | 99久久精品久久久久久婷婷| 中文字幕 欧美日韩| 亚洲黄色成人| 国产96在线 | 蜜臀av性久久久久蜜臀aⅴ麻豆| 日韩一区精品视频一区二区| 九九这里只有精品视频| 国产国产人成免费视频77777| 精品人妻系列无码专区久久| 国产免费网址| 欧美日在线观看| 亚洲最大综合网|