999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識發現(KD)研究熱點與前沿的信息可視化分析

2011-07-16 08:25:30郭凌輝武漢大學信息管理學院武漢430072
圖書館理論與實踐 2011年8期
關鍵詞:數據挖掘研究

●郭凌輝(武漢大學 信息管理學院,武漢 430072)

1 前言

知識發現(KD)是計算機科學發展最快的領域之一。

知識發現(KD)就是從大量數據中提取出可信的、新穎的、潛在有用的并能被人理解的模式的高級處理過程。[1]知識發現一個重要步驟是數據挖掘(DM),數據挖掘是從數據中提取知識的實際過程。在實踐中,人們通常把數據挖掘(DM)、知識發現(KD)以及數據挖掘和知識發現(DMKD)看做同義語。隨著信息時代和知識經濟的到來,KD理論和技術,已成為計算機應用的重點領域,知識發現的研究范圍在不斷擴大,研究熱度不斷升溫。

近年來,國內外知識發現研究學者對知識發現的研究現狀、前沿與熱點、發展趨勢等進行了一定程度的研究。如楊炳儒等(2005) 認為目前國際上KDD的研究主要是以知識發現的任務描述、知識評價與知識表示為主線,以有效的知識發現算法為中心,這是在相當長的一段時間內保持的主流基調。[2]Krzysztof J.Cios,LukaszA.Kurgan(2006) 認為,除了設計和實施一個新的DMKD框架之外,還需要更多的實際行動。它包括設計一種高性能的新一代數據挖掘系統,該系統具備復合數據挖掘方法,能從海量復雜數據中特別是多媒體數據中挖掘有用的知識,并能可視化分析結果。[3]孫吉紅和焦玉英(2006) 認為知識發現研究的重點領域和趨勢集中在:文本挖掘、數據挖掘(查詢)語言的設計、數據立方的數據挖掘、概念知識庫挖掘、基于可視化的知識發現、復雜數據類型挖掘的新方法、可伸縮的數據挖掘方法。除此之外,知識發現與數據隱私保護和信息安全、開發知識發現語言、專項挖掘查詢語言及其優化等領域也是數據挖掘未來發展的趨勢。[4]黃紫菲(2006) 則認為,目前,國外對KDD的研究主要有:對Bayes(貝葉斯)方法以及Boosting方法的研究和提高;傳統的統計學回歸法在KDD中的應用;KDD與數據庫的緊密結合。在應用方面包括KDD商業軟件工具不斷產生和完善,注重建立解決問題的整體系統,而不是孤立的過程。[5]靳展(2008) 認為知識發現的研究重點也逐漸從發現方法轉向系統應用,并且注重多種發現策略和技術的集成,以及各種學科之間的相互滲透。[6]楊炳儒(2008)認為當前KD&DM研究的趨向主要有:原有理論方法的深化與拓展;復雜類型(系統)數據挖掘成為熱點;新技術方法的引入(其他學科領域的滲透);理論融合交叉性研究;強化基礎理論研究等。[7]李進華(2009)認為網格環境下的分布式知識發現將朝著更廣范圍與更大規模的數據集、更豐富的知識發現工具、更加智能化的知識發現調度策略、更高程度自動化的知識發現流程、更加個性化的知識服務等方面發展。[8]

前述有關研究基本均是定性分析,是主觀思辯的結果。筆者擬在相關文獻研究的基礎上,基于科學計量學的方法,從科學知識圖譜的角度,對近年來國際上對知識發現(KD) 前沿主流研究領域與相關熱點問題進行初步的以定量分析為主,定性分析為輔的探析,希望對知識發現(KD)的研究有所裨益。

2 數據來源與研究方法

本文所使用的數據,全部來源于美國的科學情報研究所(Institute for Scientific Information,縮寫為ISI) 出版的Web of Science數據庫中的 (SCI-EXPANDED,SSCI,A&HCI,CPCI-S,CPCI-SSH) 文獻。數據的檢索策略是“TS(主題)=Knowledge discovery AND 語言 =(English)AND文獻類型 =(Article) 數據庫 =SCI-EXPANDED,SSCI,A&HCI AND入庫時間 =1986-2009,檢索結果為3987條文獻記錄,數據下載日期為2010年3月10日。

本文采用以定量分析為主的科學知識圖譜的繪制方法,[9,10]借助陳超美博士開發的信息可視化軟件Citespace,[11]形象地展示出國際KD研究的熱點與前沿。通過繪制科學知識圖譜,可以將知識和信息中令人注目的最前沿領域或學科制高點,以可視化的圖像直觀地展現出來,幫助人們挖掘、分析和顯示科學知識以及它們之間相互關系,并能夠較為直觀地識別學科前沿的演進路徑及學科領域的經典基礎文獻。分析共被引作者,可以發現該學科的重要核心人物及相互之間的學術親緣關系。[12,13]此外,CiteSpace還具有關鍵詞聚類和膨脹詞探測功能,以此便可確定某研究領域的前沿領域和發展趨勢。

3 結果分析

3.1 國際知識發現研究的關鍵節點文獻與作者

我們將1986—2009年發表的全部3987篇“知識發現”的題錄數據輸入Citespace軟件中,這些題錄數據主要包括標題、關鍵詞、摘要和參考文獻等。選擇網絡節點確定為參考文獻,將1986—2009年這24年跨度分為8個時間分區(每3年一個分區),閾值分別設置為 (2,2,20),(4,3,20),(4,3,20),運行Citespace軟件,得到國際知識發現研究共引網絡知識圖譜(見圖1)。字體越大表明越是重要的節點文獻。

圖1 國際知識發現(KD)研究的關鍵節點文獻

通過圖1我們可以清晰地看到國際知識發現研究領域經典文獻之間的共被引關系。在這張圖譜中我們可以看到6個最突出的關鍵節點文獻。根據陳超美博士的定義,共引網絡圖譜中的關鍵節點是圖譜中連接2個以上不同聚類,且相對中心度和被引頻次較高的節點。這些節點可能成為網絡中由一個時間段向另一個時間段過度的關鍵點。[14]從知識領域的角度看,關鍵節點文獻一般是提出重要的新理論或是具有重大理論創新的經典文獻,也是最有可能形成科學研究前沿熱點的文獻。

從圖1可以看出,按照節點在共引網絡中的大小,視圖中最突出的是Agrawal R,Imielinski T和Swami A(1993) 年發表的《Miningassociationrules betweensets of items in large databases》。在該文中,Agrawal等首先提出了挖掘顧客交易數據庫中項集間的關聯規則問題,其核心方法是基于頻集理論的遞推方法。關聯規則是Agrawal等人提出的數據挖掘領域中的一個重要課題,它是描述在一個交易中物品之間同時出現的規律的知識模式。關聯規則的分析方法用于隱藏在大型數據集中令人感興趣的聯系。所發現的聯系可以用關聯規則或頻繁項集的形式表示。關聯規則可以揭示事物之間的聯系,也用于購物籃分析,金融服務和科學數據分析等。[15]

并列排在第一位的作者是QuinlanJ R,他在1993年出版了《C4.5:Programs for Machine Learning》一書。決策樹方法在機器學習、知識發現等領域具有廣泛應用。在該書中,他提出了ID方法的改進版本C4.5算法。C4.5決策樹算法的核心思想是利用信息熵原理,選擇信息增益率最大的屬性作為分類屬性,遞歸地構造決策樹的分枝,完成決策樹的構造。[16,17]

排在第三位的是Agrawal R和Srikant R 1994年發表的Fast algorithms for mining association rules in large databases一文,文中Agrawal等人提出了著名的Apriori算法,改進了1993年提出的算法中支持度的計算方法,利用支持度的單調性來對候選項集進行剪枝,從而大大減少了候選項集的數量和計算時間,其后的許多關聯規則算法都是基于Apriori算法或者是其變種。[18,19]

此外,Breiman L,Friedman J H,Olshen R A,Stone C J在1984年出版的Classification and Regression Trees[20]一書提出了分類與回歸樹算法CART(Classification and RegressionTree),Quinlan J R在1986年發表的《Induction ofdecision trees》[21]一文提出了 ID3決策樹算法。

以上這些文獻都是國際知識發現(KD)研究中的關鍵文獻,在知識發現知識圖譜中均處于較重要的中心位置,對推動國際知識發現研究起了重要作用。而這些文獻的作者是國際知識發現研究的重要節點文獻作者。

3.2 國際知識發現的研究熱點

關鍵詞在一篇文章中所占的篇幅雖然不大,但卻是文章的核心與精髓,是文章主題的高度概括和凝練,因此對文章的關鍵詞進行分析,頻次高的關鍵詞常被用來確定一個研究領域的熱點問題。[22,23]Citespace是一個由Java語言編寫的基于共引分析的引文網絡可視化軟件。運行該軟件時,可以選擇使用關鍵路徑(pathfinder)算法或最小生成樹(minimumspanning trees)算法對科學文獻引文共引網絡的路徑進行分析和處理,并可以通過顯示高頻關鍵詞來確定國際KD研究的主要研究領域和研究熱點。

我們將1986—2009年發表的全部3987篇“KD”相關文獻數據輸入到Citespace軟件中,網絡節點確定為關鍵詞(keyword),主題詞來源選擇標題(title)、摘要(abstract)和關鍵詞(descriptors與identifiers),詞項選擇名詞短語(noun phrases),調節Citespace閾值為 (2,2,20),(4,3,20),(4,3,20),選擇pathfinder算法,經整理生成主題詞被引頻次大于10的主題詞列表(見表2) 以及圖2所示的國際KD研究熱點領域知識圖譜。

表2 “KD”研究文獻出現頻次〉50的主題詞

圖2 國際KD研究的研究熱點知識圖譜

圖2顯示的是高頻關鍵詞共現網絡圖,從圖2和表2中可以清晰地看出,出現頻次最高的主題詞是knowledge discovery,出現的頻次達541次;其次是datamining,出現的頻次為305次,表明數據挖掘與知識發現不可分割,數據挖掘也是國際KD研究的核心和基點。高頻主題詞反映出國際KD研究的其他主要熱點領域還包括drug discovery(藥物發現)、prior knowledge(先驗知識)、neural network(神經網絡)、associationrule(關聯規則)等。數據挖掘技術為新藥發現提供一種新的思路和方法。數據挖掘技術能夠幫助科研人員在大的數據庫中發現隱含的知識,更好、更快、更有效地決策,增強競爭力,加快藥物研發速度,提高藥物研發水平。此外neuralnetwork(神經網絡)、associationrule(關聯規則)也是當前知識發現領域人們研究的熱點。

3.3 國際知識發現的研究前沿和發展趨勢

同樣是針對1986—2009年發表的全部3987篇“KD”相關文獻的題錄數據,我們利用Citespace軟件中提供的膨脹詞探測(burst detection) 技術和算法,通過考察詞頻的時間分布,將其中頻次變化率高的詞(burstterm)從大量的主題詞中探測出來,依據詞頻的變動趨勢,而不僅僅是頻次的高低,來確定國際KD研究的前沿領域和發展趨勢。24網絡節點選擇為(keyterm),并選擇膨脹詞短語(burstphrases),閾值選擇默認值 (2,2,20),(4,3,20),(4,3,20),點擊探測膨脹詞(findburstphrases),通過運行Citespace軟件,探測出的膨脹詞居于前7位的是,false discovery rate(錯誤發現率)、pharmaceutical industry(醫藥產業)、gene expression data(基因表達數據)、bindingsite(結合點位)、clusteringalgorithm(聚類算法)、genetic algorithm(遺傳算法)、potential discovery(潛能發現)。可以認為,這些方向是近年來國際知識發展研究的前沿領域,代表著國際知識發現研究的發展趨勢。

[1] Fayyad UM.Advances in Knowledge Discovery and Data Mining[M].AAAi/MITPress,1996.

[2] 楊炳儒,等.基于內在認知機理的知識發現理論及其應用[J].自然科學進展,2005,15(12):107互115.

[3] KrzysztofJ Cios,LukaszA Kurgan.Trendsin Data Mining and Knowledge Discovery[M].Springer Berlin/Heidelberg,2006:6互32.

[4] 孫吉紅,焦玉英.知識發現及其發展趨勢研究[J].情報理論與實踐,2006,29(5):528互531.

[5] 黃紫菲.內容分析與知識發現的比較研究[J].情報理論與實踐,2006,29(5):524互527.

[6] 靳展.基于語義Web的知識發現方法研究[D].哈爾濱:哈爾濱工程大學,2008.

[7] 楊炳儒.知識發現領域中當今面臨的五類重大問題[J].中國工程科學,2008,11(11):76互83.

[8] 李進華.網格環境下的分布式知識發現研究進展[J].情報理論與實踐,2009,32(11):120互124.

[9] 陳悅,劉則淵.悄然興起的科學知識圖譜[J].科學學研究,2005,23(2):149互154.

[10] 侯海燕,等.當代國際科學學研究熱點演進趨勢知識圖譜 [J].科研管理,2006,27(3):90互96.

[11] Visualizing Patterns and Trends in Scienific Literature.[EB/OL]. [2010互03互14].http://cluster.cis.drexel.edu/~cchen/citespace/.

[12] Chen C. Measuring the movement of a research paradigm[J]. Proc.of SPIE- IST: Visualization and Data-Analysis,2005 (17互18):5669.

[13] Chen C.Searching for intellectual turning points:progressive know ledgedomainvi sualization [J].Proc.Nat.l Acad.Sc.iUSA,2004 (101) :5303互5310.

[14] ChenC.The centrality of pivotal points in the evolution of the scientific networks[C]//in proceedings of the international conference on intelligent user interfaces(IUI2005).San Diego,CA,2005:37互43.

[15] R Agrawal.Mining Association Rules Between Sets of Items in Large Databases[C].Washington:Proceedings of the ACMSIG MOD International Conference Management of Data,1993:207互216.

[16] Quilan JR.C4.5:Programs for Machine Learning[M].San Mateo,CA:Morgan Kaufman Publisher,1993:10互51.

[17] 李強.創建決策樹算法的比較研究—ID3,C4.5,C5.0算法的比較 [J].甘肅科學學報,2006(12):84互87.

[18] Agrwal R,SrikanR.Fast Algorithms for Mining Association Rules in Large Databases[C].Proceedings of the Twentieth International Conference on Very Large Databases,Santiago,Chile 1994,9:487互499.

[19] 王卉,張紅君.關聯挖掘研究綜述[J].軟件導刊,2009(3):7互8.

[20] Breiman L,et al.Classification and Regression Tree[M].Wadsworth,Inc.1984.

[21] QuinlanJR.Induction of decision trees[J].Machine Learning,1986(1):81互106.

[22] Bailon-Moreno R,etal.Analy sis of the field of physical chemistry of surfactants with the unified scienc to metric mode.l fit of relational and activity indicators[J].Sciento metrics,2005,63 (2):259互276.

[23] BelvauxG,WolseyLA.Bc-prod:aspecialized branch-and-cutsystem forlot-sizing problems[J].Management Science,2000,46 (5):724互738.

[24] 欒春娟,等.國際科技政策研究熱點與前沿的可視化分析 [J].科學學研究,2009,127(2):240互243.

猜你喜歡
數據挖掘研究
FMS與YBT相關性的實證研究
2020年國內翻譯研究述評
遼代千人邑研究述論
探討人工智能與數據挖掘發展趨勢
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統研究
新版C-NCAP側面碰撞假人損傷研究
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
主站蜘蛛池模板: 香蕉eeww99国产在线观看| 国产91蝌蚪窝| 青青久视频| 欧美区在线播放| 中文字幕日韩视频欧美一区| 免费看久久精品99| 国产福利影院在线观看| 久热re国产手机在线观看| 浮力影院国产第一页| 国产极品美女在线观看| 一级高清毛片免费a级高清毛片| 国产乱人乱偷精品视频a人人澡| 亚洲精品成人福利在线电影| 夜夜爽免费视频| 国产鲁鲁视频在线观看| 亚洲国产精品日韩专区AV| 国产精品9| 亚洲人成影院午夜网站| 国产成人av大片在线播放| 夜色爽爽影院18禁妓女影院| 九色视频一区| 国产内射在线观看| 黄色网页在线观看| 中文字幕在线看| 日韩国产欧美精品在线| 在线视频精品一区| 欧美亚洲国产视频| 五月婷婷综合色| 污视频日本| v天堂中文在线| 丁香六月激情综合| 亚洲系列无码专区偷窥无码| 一级毛片在线免费看| 亚洲第一页在线观看| 91探花国产综合在线精品| 色视频国产| 欧美日韩另类国产| 国产在线视频二区| 色婷婷在线影院| 2022精品国偷自产免费观看| 四虎影视8848永久精品| 亚洲AV无码一二区三区在线播放| 国产免费网址| 国产久操视频| 亚洲系列中文字幕一区二区| 国产精品永久久久久| 人妻丰满熟妇av五码区| 91色在线视频| 日本欧美午夜| 免费看黄片一区二区三区| 999国内精品视频免费| 青青青国产视频| 亚洲男人天堂网址| 久久公开视频| 国产91丝袜在线播放动漫 | 亚洲Av激情网五月天| 综合社区亚洲熟妇p| 久久国产热| 福利在线一区| 成人福利在线看| 国产精品手机在线观看你懂的| 91久久精品日日躁夜夜躁欧美| 99久视频| 尤物视频一区| 成人精品亚洲| 精品福利国产| 丁香婷婷综合激情| 不卡色老大久久综合网| 国产在线啪| 色屁屁一区二区三区视频国产| 欧美亚洲激情| 久久免费观看视频| 免费又黄又爽又猛大片午夜| 亚洲精品无码人妻无码| 国产精品美女自慰喷水| 手机看片1024久久精品你懂的| 国产精品亚洲va在线观看| 成人噜噜噜视频在线观看| 国产成人盗摄精品| 永久在线精品免费视频观看| 在线看免费无码av天堂的| 久久久久人妻精品一区三寸蜜桃|