999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向語義文本的WEB數據挖掘研究

2009-09-29 08:58:18
新媒體研究 2009年14期

王 靜

[摘要]針對傳統的面向語義文本的WEB數據挖掘研究集中在文本信息特征處理方面而忽略了文本信息預處理的現狀,結合語義文本的WEB挖掘流程,采用最大匹配法對語義文本進行預處理,通過建立語義文本的索引機制減少對數據庫的訪問,從而提高文本WEB挖掘的效率,對于語義文本的WEB挖掘優化研究具有一定的借鑒意義。

[關鍵詞]語義化 WEB挖掘 算法研究

中圖分類號:TP3 文獻標識碼:A 文章編號:1671-7597(2009)0720053-01

一、引言

隨著網絡的飛速發展,傳統Web在信息顯示和處理上的不足之處也更加顯著,而語義網作為一種新型的網絡結構,較好地克服了這些問題,而基于語義的Web挖掘作為與這一趨勢相適應的技術,也必將成為Web挖掘研究的新熱點。

Web文本數據的挖掘是對Web頁面上的數據內容進行挖掘,它是從WWW的組織結構和鏈接關系中推導知識。Web內容挖掘通過分析一個網頁上的內容,建立數據庫,通過不同的數據庫之間的元記錄之間的關聯性獲得有關不同頁面間相似度和關聯度的信息規則,從而實現對WEB網頁上的語義內容的挖掘。

二、面向語義化的WEB文本挖掘分析

(一)挖掘流程。文本的WEB挖掘并不是一件容易的事情,尤其是在分析方法方面還有很多需要研究的專題。面向語義化的WEB文本挖掘一般可以分為以下幾個流程:

1.特征的抽取建立。與數據庫中的結構化數據相比,文檔無法直接提取結構,此外,現有的數據挖掘技術無法直接應用于文本數據,因此,需要對文本進行特征抽取,抽取代表其特征的元數據,這些特征可以用結構化的形式保存,作為文檔的中間表示形式。

2.特征集的縮減。當我們將文檔轉化為一種類似于關系數據庫中記錄的較規整且能反映文檔內容特征的表示文檔特征向量后,我們會發現一個不合人意的地方:文檔特征向量具有驚人的維數,使得特征集的縮減成為文本數據挖掘中必不可少的一步。

3.學習與知識模式的提取。完成文檔特征向量維數的縮減后,便可利用機器學習的各種方法來提取面向特定應用目的的知識模式。

4.模型質量的評價。對所獲取的知識模型進行質量評價,若評價的結果滿足一定的要求,則存儲該知識模式,否則返回到以前的某個環節分析改進后進行新一輪的挖掘工作。

(二)文本信息處理的優化設計。目前對于面向語義的文本WEB挖掘研究的較多,但是大多是面向如何提高特征的抽取效率及特征集的縮減而設計不同的算法,將算法集中在文本的特征抽取和特征集的建立上,對于文本內容的預處理方面,幾乎很少涉及,忽略了文本信息的索引機制,這也是造成目前面向語義文本的WEB挖掘算法效率偏低的主要原因。

在對文檔進行特征提取前,需要先進行文本信息的預處理,主要包括英文文本的stemming處理和中文文本的詞條切分。

在本論文中對中文自動分詞采用最大匹配算法。最大匹配法的思想是:從輸入流中取最大長度(本系統中取6)字符串,在詞典中進行查找,匹配則輸出,繼續取,否則,回溯,繼續查找,直到長度為1,此時需在輸入流中前進一格,此過程進行到取完輸入流。由此可以看出,此方法的思想簡單明了,便于實現,但該算法效率不會很高,因為需要頻繁進行數據庫查找。若能在匹配過程中減少數據庫操作,則有可能使效率提高。

我們在實現最大匹配法時,作了如下考慮:

Step1:對詞典建索引,并將輸入流放入字符串變量中;

Step2:取輸入流的當前字符,查找詞典將以當前字符開頭的詞條取出,放入記錄集變量中;

Step3:按照傳統的算法,在記錄集變量中進行匹配,并根據匹配情況將輸入流移動;

Step4:重復第2步,直至輸入流結束,退出。

由上面的處理過程可以看出,通過對詞典建索引,并將匹配操作均在記錄集中進行,從而避免了最大匹配法頻繁查找詞典的缺陷。這樣在允許一定的分詞錯誤率的情況下,通過減少查找數據庫的時間(特別是在詞典龐大的情況下),能使分詞速度提高。

文本信息經過上述的預處理,再采用目前主流的特征抽取算法及特征集的分類算法,即可實現面向語義文本的WEB快速挖掘。

(三)挖掘算法性能測試。為了比較本論文所提出的面向語義文本的預處理方法的有效性,將該方法與傳統的采用Apriori算法進數據挖掘的方法進行了對比仿真。用VisualC++在內存為512MB的C41.7G計算機上實現了Apriori算法與本論文提出的文本挖掘方法的性能比較。測試數據集共包括2個數據層各含有5個屬性,每個屬性泛化后有2~10個屬性值,采用的元模式形如P(t,x)∧Q(t,y)→R(t,z),而各層的最低支持度均為12%,最低信任均為50%。

測試了算法的隨記錄的增加時間的變化(時間復雜性),將測試數據庫的元組數從1000開始,逐漸遞增到5000。兩算法的時間復雜性數據曲線如圖1所示,從圖中可以發現,兩個算法的時間復雜性均較好,不過隨數據庫規模的增大,本論文所采用的挖掘方法,由于對文本信息進行了預處理,因而在執行時間更為迅速,而且在時間的增長上更為平緩一些,所以本論文提出的挖掘方法是可行的。

三、結語

語義Web上的數據挖掘算法可以應用于各種領域。例如當前Web上的搜索引擎主要是使用基于關鍵詞的查找策略,這使得查找效率非常低下,本研究課題通過運用對語義化的內容進行預處理實現了語義化的WEB快速挖掘,從而大大提高了Web搜索的工作效率。下一步的研究重點是在Web挖掘中如何利用語義Web上的本體知識,從而從本質上大大改進Web挖掘的結果和提高Web挖掘的效率。

參考文獻:

[1]Wang Jicheng,Huang Yuan,Wu Gangshan,Zhang Fuyan.Web mining:knowledge discovery on the Web Systems[C].Man,and Cybernetics,1999.IEEE SMC'99 Conference Proceedings.1999,116-121.

[2]T.R.Gruber.Towards Principles for the Design of Ontologies used for Knowledge Sharing[J].International Journal of Human-Computer Studies,1995,43:907-928.

[3]Ying Ding,Dieter Fensel.Ontology Library Systems:The Key to sueeessful Ontology Reuse.In The First Semantie Web Working SymPosium[C].Stanford University,California,USA,2001,(l):104-111.

[4]Chen J P,Bian F L,Fu Z L,et al.An Imp roved Algorithm of Apriori[J].Geomatics and Information Science of Wuhan University,2003,(1):94-99.

作者簡介:

王靜,女,北京人,長春理工大學光電信息學院-信息工程分院,助教。

主站蜘蛛池模板: 久久夜色精品国产嚕嚕亚洲av| 欧美在线国产| 亚洲三级电影在线播放| 无码网站免费观看| 午夜激情福利视频| 玖玖精品视频在线观看| 久草中文网| 亚洲精品无码成人片在线观看| 色屁屁一区二区三区视频国产| 午夜激情福利视频| 亚洲成av人无码综合在线观看| 亚洲一区二区日韩欧美gif| 亚洲精品高清视频| 亚洲日韩第九十九页| 一级做a爰片久久免费| 精品在线免费播放| 亚洲国产综合精品一区| 欧亚日韩Av| 97亚洲色综久久精品| 在线免费观看AV| 日韩欧美91| 亚洲熟女偷拍| 五月天久久婷婷| 国产国拍精品视频免费看| 搞黄网站免费观看| 少妇高潮惨叫久久久久久| 亚洲午夜天堂| 欧美色综合网站| 欧美成人一级| 狠狠做深爱婷婷久久一区| 四虎国产精品永久一区| 中国特黄美女一级视频| 国产自视频| 欧美成人第一页| 亚洲成年人片| 色男人的天堂久久综合| 亚洲丝袜中文字幕| 天堂成人在线视频| av午夜福利一片免费看| 亚洲第一视频区| 亚洲人在线| 国产三级国产精品国产普男人 | 亚洲无线一二三四区男男| 青青草原偷拍视频| 亚洲人成亚洲精品| 欧美国产在线一区| 凹凸精品免费精品视频| 国产成人喷潮在线观看| 久久无码av三级| 亚洲色图狠狠干| 久久黄色免费电影| 呦视频在线一区二区三区| 国产精品午夜福利麻豆| 18禁色诱爆乳网站| 欧美日本二区| 亚洲日本中文综合在线| av大片在线无码免费| 亚洲最大在线观看| 国产欧美视频一区二区三区| 中文字幕亚洲乱码熟女1区2区| 午夜福利在线观看成人| 亚洲第一极品精品无码| 99热最新网址| 激情综合五月网| 亚洲综合18p| 污污网站在线观看| 亚洲中文字幕在线观看| 国产精品部在线观看| AV片亚洲国产男人的天堂| 午夜三级在线| 国产精品性| 在线人成精品免费视频| 在线精品亚洲一区二区古装| 亚洲bt欧美bt精品| 国产老女人精品免费视频| 亚洲丝袜中文字幕| 伊人久久精品亚洲午夜| 国产精品视频999| 国产激情无码一区二区APP| 无码日韩人妻精品久久蜜桃| 国产亚洲精久久久久久久91| 美女免费黄网站|