999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高維稀疏聚類的知識結構識別研究

2019-02-25 03:14:45黃月王鑫
現代情報 2019年12期
關鍵詞:數據挖掘

黃月 王鑫

摘要:[目的/意義]基于文獻對某一領域的知識結構進行識別是文獻計量分析的一個重要任務,可以揭示該領域的研究特征。[方法/過程]傳統知識結構識別是二步式的,即首先基于某種分析思想構建同種元素間的關聯程度矩陣,然后再對該矩陣進行結構識別。本研究構建一個直接基于“文獻一關鍵詞”矩陣進行高維稀疏聚類來識別知識結構的方法,然后以2009-2018年國內數據挖掘領域期刊論文為例,與傳統基于關鍵詞共現進行知識結構識別方法進行了對比分析。[結果/結論]實驗結果表明,基于高維稀疏聚類探測知識結構是有效的,并且該方法可以獲得差異度較大的子類,結果解讀可以獲取更多信息。

關鍵詞:知識結構;識別;高維稀疏;聚類;共詞分析;數據挖掘

DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .009

[中圖分類號]G201 [文獻標識碼]A [文章編號]1008-0821( 2019) 12-0072-09

文獻是科學知識的載體,基于文獻對某一個領域的知識結構進行識別是信息計量學領域的一個重要任務。探尋一個領域的知識結構不但能夠揭示該領域的基本特征,而且對該領域研究人員也有重要指導作用。

知識結構( Intellectual Structure),指根據某一領域的科學文獻進行分析,通過對基于某種關系構成的文獻矩陣進行聚類而得到的組群及其關系。其中,每一組群對應該領域的一個研究子領域(或稱研究主題)。

利用文獻探尋知識結構方法大約可以分為3類:基于共被引分析、基于耦合分析和基于共詞分析。1)基于共被引分析的方法。1973年,美國情報學家Small H首次提出了文獻共被引(Co - cita-tion)的概念[1],最早用來測度文獻之間的關系程度,后被用來研究特定領域的知識結構[2]。1981年White H D等提出了作者共被引分析(Author Co-citation Analysis,ACA)[3],也可以用來探測知識結構[4-5]。2)基于耦合分析的方法。1963年Kessler提出了文獻耦合分析(Bibliographic Cou-pling Analysis,BCA)[6],將引證同一篇論文的兩篇或多篇論文稱為耦合論文( Coupled Papers),并將文獻之間的這種關系稱為文獻耦合。國內外均有實證研究表明文獻耦合能夠揭示某個研究領域的知識結構[7-8]。2008年Zhao D等提出作者文獻耦合分析( Author Bibliographic Coupling Analysis, AB-CA)[9],將文獻耦合的方法擴展到作者層次,不但能夠用于揭示作者研究內容之間的關系、作者之間的關系,也能用于知識結構識別[9-11]。由于通過共同的詞語( Term)聯系到一起的文獻可能表示一個共同的研究主題( Research Topic)[12],近年來又出現了作者關鍵詞耦合分析( Author KeywordCoupling Analysis,AKCA),與ACA相比,更能反映目前的研究現狀,不必等文獻被引才建立關系。3)基于共詞分析的方法。關鍵詞是論文作者對文獻研究主題的一種人為專業術語標引,相對于作者、期刊、機構等元素而言更能表達文獻內容。共詞分析法( Co - term Analysis)認為兩個關鍵詞在同一篇文獻中出現表明二者之間具有一定的內在關系,并且出現的次數越多表明它們的關系越密切[13]。采用共詞分析法能夠實現對文獻微觀層面的分析,實證研究也表明共詞分析可以用來揭示國內外知識管理知識結構[13-4]。

無論基于上述何種分析思想,知識結構的識別過程整體上是二步式的,即首先要構建相似性矩陣,然后對該矩陣進行結構識別。分析方法不同,導致所建立的矩陣類型和矩陣元素取值規則均不相同,例如,采取文獻共被引思想構建文獻耦合強度矩陣、利用作者文獻耦合思想建立作者耦合強度矩陣。進而基于構建的矩陣利用因子分析、層次聚類分析、多維尺度分析等多元統計技術進行結構分析,但是這3種分析方法不適宜對包含過多0模塊的矩陣進行操作,針對這一問題,使用基于三角形不等式原理和最小生成樹算法的Pathfinder算法[10]可以有效規避0模塊的影響[10.15]。近十幾年來各種知識圖譜軟件[16]逐步盛行,繪制的知識圖譜節點規模較上述的多元統計分析方法提高很多,而且可以直觀表示領域的知識結構,因此備受關注和推廣。但是利用此類軟件進行領域知識結構識別的本質并沒有深刻改變,仍然要先選擇使用何種相似性矩陣分析方法,再輔以利用社會網絡分析或復雜網絡分析的中心性分析、社團發現等方法進行分析[17]。然而文獻是由多元素構成的,包含作者、關鍵詞、期刊、機構等,但上述方法一般建立的都是單模方陣,即矩陣的取值表明同類元素之間的相似程度。當從兩種元素進行分析時,首先將其關系轉化為一種元素之間的關系,在這一轉化過程中,信息受到了損失,轉化方法有時也較為主觀。

聚類分析,作為一項基本的數據挖掘任務,能夠發現海量數據中未知的對象類,本質與從文獻數據中探測知識結構是一致的。關鍵詞是每篇文獻由其作者認為最能反映其內在內容的,因此從這個角度可以認為文獻是由關鍵詞來標識的。很顯然,“文獻一關鍵詞”矩陣必定具有高維性和稀疏性。本文探索利用高維稀疏聚類方法進行知識結構識別的有效性,以我國近十年(2009-2018年)數據挖掘領域期刊論文為例進行實證研究,并與基于關鍵詞共現分析進行知識結構識別的結果進行對比分析。

1 研究方法

1.1 高維稀疏聚類算法介紹

高維稀疏聚類問題是指每個對象有很大一部分屬性取值為0的高維聚類問題。本文將要面對的“文獻一關鍵詞”矩陣,是一個二值矩陣,因此擬定使用專門用于求解二態變量高維稀疏聚類問題的CABOSFV(Clustering Algorithm Based On SparseFeature Vector)算法[18],即基于CABOSFV來進行后續的知識結構識別。

CABOSFV是一種基于稀疏特征向量的聚類算法,該算法針對二態變量,通過定義“稀疏差異度( Sparse Feature Distance,SFD)”描述集合內對象間的相似程度,通過定義“集合的稀疏特征向量( Sparse Feature Vector,SFV)”概括一個對象集合所包含的全部聚類相關信息,為數據的有效壓縮提供了重要的手段。此外,該算法只對數據庫進行一次掃描,大大提高了聚類的效率。下面給出結合本文使用場景“文獻一關鍵詞”的稀疏差異度、稀疏特征向量的具體定義和算法的具體步驟。

定義1(文獻集合的稀疏差異度):假設有n個文獻,描述每個文獻的關鍵詞有m個,X為其中的一個文獻子集,其中的文獻個數記為X,在該子集中所有文獻稀疏特征取值皆為1的關鍵詞個數為a,稀疏特征取值不全相同的關鍵詞個數為e,文獻集合的稀疏差異度SFD(X)定義為:

一個文獻集合的稀疏差異度表明了該集合內部各文獻間的差異程度。差異度越大,文獻之間越不相似;差異度越小,文獻之間越相似。文獻集合的稀疏差異度是高維稀疏聚類算法進行相似度計算和數據壓縮的基礎。

當文獻集合X中只包含一個文獻時,文獻的個數|X|為1,該惟一文獻稀疏特征取值為1的關鍵詞序號集合為S,稀疏特征取值不全相同的關鍵詞序號集合NS為空集φ,稀疏差異度SFD( X)為0,那么稀疏特征向量SFV(X)=|1,S,φ,0|。

給定某領域的學術研究論文集合L=(P,K),其中P是該領域所有學術研究論文文獻的集合,K是論文包含的關鍵詞的集合。使用二維表對高維稀疏聚類的輸人數據進行表示(表1),行代表文獻集合;列代表關鍵詞集合。表中的“1”表示該文獻使用過該關鍵詞,例如文獻P1關鍵詞列表中沒有K1但有關鍵詞K2。

假設有n個文獻,一個文獻類內文獻集合的稀疏差異度SFD(X)上限為6,則基于高維稀疏聚類算法CABOSFV進行文獻聚類的具體過程是:由每一個文獻建立一個集合,用稀疏特征向量SFV(X)描述各集合。從第一個SFV(X)開始進行數據掃描,在掃描的過程中完成文獻類的創建和文獻集合的歸并。首先創建文獻類1,將文獻1歸人文獻類1,然后考察是否可以將文獻2并人文獻類1(若文獻2并人文獻類1后形成的新SFD( X)大于6,則認為文獻2并入文獻類1不可行;否則,認為可行)。如果可行,則將文獻2并入文獻類1;否則,創建一個新的文獻類,將文獻2歸人該新文獻類。然后考察是否可以將文獻3并入已存在的文獻類1或文獻類2中,將文獻3加入使得歸人后的SFD(X)最小的那個文獻類中;否則,創建一個新的文獻類,將文獻3歸人該新文獻類。依此類推,直到所有對象掃描結束。這樣,通過對論文數據的一次掃描就完成了全部文獻類的創建和文獻到文獻類的歸并??梢钥吹?,差異度上限6在聚類過程中起著十分重要的作用,6可以通過式(1)來估算。

1.2 基于高維稀疏聚類的知識結構識別方法

利用高維稀疏聚類方法直接對原始文獻數據進行聚類,需要將每一篇文獻使用關鍵詞進行標識,即算法輸入是“文獻一關鍵詞”矩陣。根據常識,每一篇文獻作者所使用的關鍵詞一般不超過10個,因此這個“文獻一關鍵詞”矩陣是十分稀疏的,即使利用專門針對高維稀疏聚類的算法也會失效。因此,提出如下基于高維稀疏聚類算法對“文獻一關鍵詞”矩陣進行知識結構識別的迭代方法。

輸入:“文獻一關鍵詞”矩陣。

步驟1:根據式(1)估算文獻集合的稀疏差異度上限6,計算CABOSFV算法輸入。

步驟2:運行CABOSFV聚類算法,得到文獻聚類結果。

步驟3:針對文獻聚類結果,反查每個類對應的關鍵詞,根據關鍵詞分布情況判斷文獻類之間的相似性是否很高:如果很高,繼續步驟4;如果不高,算法結束,將此時的文獻聚類結果作為最終的知識結構。

步驟4:將聚類結果轉換為新一輪算法的輸入,跳轉到步驟1。

1.3 研究工具

為了分析利用高維稀疏聚類對“文獻一關鍵詞”矩陣進行知識結構識別的有效性,采用基于關鍵詞共現進行知識結構識別對比。為了排除其他因素影響,擬定這兩種方法的輸入文獻規模大小盡可能一致,均根據詞頻來選擇,選取前100位的關鍵詞?;贑ABOSFV算法的知識結構識別采用自編的C++程序和Python程序來實現。另外,本文選擇的是文獻計量網絡可視化軟件VOSviewer[19],它提供的默認聚類算法是一種基于距離的聚類,聚類結果采用圖譜顯示,圖譜中各個節點距離是依據共現關系的強度通過整體相加計算而生成,圖譜中節點之間的距離反映著兩者之間的相似性,相似性高的兩個節點之間距離很近。此聚類算法結果表示方式為[20],為每個節點提供一個分值,通過節點的顏色、大小、聚類群組劃分情況可以判讀不同群組的強度及其相互作用關系。

2 實驗數據獲取

2.1 原始數據獲取及探查

在中國知網CNKI上搜索以“數據挖掘”為關鍵詞的文獻,選定范圍為期刊,將時間設定為近十年,即2009-2018年,檢索得到18 712條結果。為了防止下載一種格式文件會出現數據不一致的情況,將數據下載成Refworks、NoteExpress和Excel

3 種格式進行數據探查。

由于共詞分析和高維稀疏聚類都是關于關鍵詞的分析,因此將所有數據中沒有關鍵詞的數據都刪除。此時就利用自編的Python對題錄之中K1(即關鍵詞)為空的內容刪除,最終驗證到所有題錄的K1(即關鍵詞)沒有為空的。因此可以直接使用數據進行接下來的分析。

2.2 實驗數據準備

實驗數據準備的任務是確定使用高維稀疏聚類的矩陣維度及基于此構建“文獻一關鍵詞”矩陣。本文選取量級為百維量級的關鍵詞,最終得出頻次排在前100位的關鍵詞一共有104個(表2)。其中,“數據挖掘”出現16 711次,和其他關鍵詞出現頻次差距太大,在后來分析中的關聯性很強,對實驗分析影響較大,所以在后續實驗中會把關鍵詞“數據挖掘”刪除。

3 實驗結果

3.1 基于關鍵詞共現分析的知識結構識別結果

利用VOSviewer軟件選擇共詞分析對實驗數據進行處理,對其詞頻前100位關鍵詞進行知識圖譜繪制。同樣地,此處去除了關鍵詞“數據挖掘”。經過測試,將每一類的最小規模設定為5,其余參數默認,得到2009-2018年國內數據挖掘研究的知識圖譜(圖1),可以歸納為8個研究主題。

第1個研究主題可以歸納為“大數據應用研究”,類規模為27,關鍵詞主要包括:大數據( Big Data)、數據分析、電子商務、應用。

第2個研究主題可以歸納為“時間序列與預測研究”,類規模為19,關鍵詞主要包括:神經網絡、預測、時間序列、遺傳算法、粗糙集。

第3個研究主題可以歸納為“聚類算法研究”,類規模為18,關鍵詞主要包括:聚類分析、聚類。

第4個研究主題可以歸納為“關聯規則研究”,類規模為13,關鍵詞主要包括:關聯規則、Apriori算法。

第5個研究主題可以歸納為“數據倉庫與商務智能”,類規模為8,關鍵詞主要包括:數據倉庫、決策支持系統、商務智能。

第6個研究主題可以歸納為“分類算法研究”,類規模為7,關鍵詞主要包括:決策樹、id3算法。

第7個研究主題可以歸納為“基于數據挖掘技術的中醫藥應用研究”,類規模為7,關鍵詞主要包括:用藥規律、組方規律。

第8個研究主題可以歸納為“云計算研究”,類規模為5,關鍵詞主要包括:云計算。

3.2 基于高維稀疏聚類的知識結構識別結果

經探測發現,很多文獻都是由“數據挖掘”和其他某一個關鍵詞標識,則可以用來聚類文獻的有效關鍵詞個數太少。所以,本文首先將關鍵詞“數據挖掘”去掉,再統計表示每篇文獻的關鍵詞個數,去掉為0和1的文獻,最終得到第一輪高維稀疏聚類算法的輸入為3 508條文獻。

第一輪:

步驟1:根據式(1)估算差異度上限b。這里為了取b為最大上限,因此保證e最大,X最小,所以e取100,X取2。a的取值依據按照關鍵詞詞頻統計結果來確定(見表3),除去被0個和1個關鍵詞標注的文獻,還剩余3 508篇文獻??梢?,當a為b或者7所代表對象太少,因此當a取5時合適,經計算,按照式(1),得到第一輪的b取值為10。

步驟2:按照b=10,運行CABOSFV,得到57個類(見表4)。

步驟3:利用自編的Python程序,獲得每一類的文獻名稱集合。查看文獻名稱及對應關鍵詞,發現類之間的相似性很高,還需要進行第二輪聚類。

步驟4:將聚類結果轉換為第二輪算法輸入。由表4知第二輪算法輸入的對象個數是57,維度是100。利用自編Python程序,得到下一輪算法輸入。

第二輪:

步驟1:為估算差異度上限b,進行關鍵詞詞頻統計(見表5)??梢奱的值在0-5之中選擇較為合適。當a為2時有2個類,對象數相對較少,a為3時有6個類更為合適,也可以讓差異度6盡可能大。因此取a為3合適,經計算,按照上述公式,得到第二輪的6取值為16。

步驟2:按照b=16,運行CABOSFV,得到16個類(見表6)。

步驟3:利用自編的Python程序,獲得每一類的文獻名稱集合。查看文獻名稱及對應關鍵詞,發現類之間的相似性很高,還需要進行第三輪聚類。

步驟4:將聚類結果轉換為第三輪算法輸入。由表6知第三輪算法輸入的對象個數是16,維度是100。利用自編Python程序,得到下一輪算法輸入。

第三輪:

步驟1:類似地,為估算差異度上限b,獲得第三輪聚類時關鍵詞詞頻統計(見表7)。可見,a選擇在1-10之中選擇比較合適,為了使6達到最大,a盡可能取得最小值,關鍵詞共現詞頻在a中分別為9、9、8、6、3、2。因此此時應該選擇中位數合適,定a為6,經計算,得到第三輪的6取值為9。

步驟2:按照b=9,運行CABOSFV,得到7個類(表8)。

步驟3:對聚類結果分析得到每一類的文獻名稱集合。統計每一個文獻類對應的關鍵詞及詞頻(見表9),可見,此時聚類可以終止。

結合反查得到的這些關鍵詞對應的文獻標題,將上述7個類的研究主題歸納如下。

第1類研究主題可以歸納為“基于數據挖掘技術的各類應用”,包含基于數據倉庫進行的商業銷售,基于關聯規則挖掘的Weka數據挖掘應用,基于改進遺傳算法的K - means聚類分析,這類研究很少涉及單純的數據挖掘方法改進,往往是結合領域進行應用。

第2類研究主題可以歸納為“數據挖掘在客戶關系管理中的應用”,包含基于數據挖掘的客戶智能分析和研究、數據挖掘細分客戶群等文獻。

第3類研究主題可以歸納為“推薦算法及分類算法研究”,這類文獻用到了“分類算法”、“個性化推薦”等,這類還包含了數據挖掘在高校圖書館個性化推薦服務中的有效應用

第4類研究主題可以歸納為“時間序列研究及大數據應用”,這類文獻用到了“大數據時代”、“時間序列”等,這類還包含了序列模式挖掘在教學管理上的應用、基于時間序列的模式挖掘研究、大數據時代的數據挖掘技術研究等文獻。

第5類研究主題可以歸納為“中醫數據挖掘”,這類文獻用到了“用藥規律”、“中醫傳承輔助平臺”、“組方規律”、“醫案”等,研究基于數據挖掘方法的用藥規律。

第6類研究主題可以歸納為“商務智能”,其中聯機分析處理( OLAP)是數據倉庫中的一種分析方法,而商務智能本身也是依托于數據倉庫發展起來的。第7類研究主題可以歸納為“推薦系統與物聯網應用”。

3.3 結果對比分析

基于關鍵詞共現分析的知識結構識別和基于高維數據聚類的知識結構識別,兩種方法都可以將文獻從不同角度進行聚類,并且聚類的效果與數據挖掘研究普遍認識符合度均較好。其中,基于關鍵詞共現分析獲得了數據挖掘研究主要包括8個類別,分別為:1)大數據應用研究;2)時間序列與預測研究;3)聚類算法研究;4)關聯規則研究;5)數據倉庫與商務智能;6)分類算法研究;7)基于數據挖掘技術的中醫藥應用研究;8)云計算研究;基于高維稀疏聚類獲得了數據挖掘研究主要包括7個類別,分別為:1)基于數據挖掘技術的各類應用;2)數據挖掘在客戶關系管理中的應用;3)推薦算法及分類算法研究;4)時間序列研究及大數據應用;5)中醫數據挖掘;6)商務智能;7)推薦系統與物聯網應用。可見,兩種結果中識別出來的研究主題中大部分都是一致的,兩種分類都有大數據應用研究、中醫數據挖掘、聚類研究、分類研究、時間序列研究、基于數據倉庫的商務智能應用,并且基于關鍵詞共現分析的類(1)與基于高維稀疏聚類的類(1)大體是一致的。

但是,經過比較亦可發現,基于關鍵詞共現分析獲得的某些類比基于高維稀疏聚類獲得的文獻類更為詳細。例如,高維稀疏聚類中的大數據應用類包含關聯分析、分類算法研究等基于關鍵詞共現析已有的其他類別。但是高維稀疏聚類對于差異度特別大的類區分更加仔細,例如數據挖掘在客戶關系管理中的應用、商務智能、推薦系統與物聯網應用都能夠進行單獨區分出來。

此外,基于高維稀疏聚類探測知識結構的時候,需要觀察論文題目來進行分類,但是如果因為論文題目較多,最后通過論文題目直接總結分類難度較大,最終解讀聚類會借助每種類別文獻的高頻關鍵詞來分析,所以和基于關鍵詞共現分析相比,可以用來解讀分析結果的可用信息更多。

4 結論

已有進行知識結構識別的方法首先基于某種分析思想構建同質元素間的關聯程度矩陣,然后再對該矩陣進行結構識別。本文使用高維稀疏聚類的方法對“文獻一關鍵詞”矩陣直接進行學科結構識別,采用迭代策略,首先利用詞頻來估計高維稀疏聚類算法參數和輸入,然后運行高維稀疏聚類算法,最后通過統計聚類結果各個類的關鍵詞重合情況來判斷算法是否停止。通過與基于關鍵詞共現分析知識結構識別效果來對比分析,最終發現基于高維稀疏聚類進行知識結構識別是有效的,并且該方法可以獲得差異度較大的子類,而且進行結果解讀可以獲取更多信息。在未來研究中,在維度進一步提升的同時,希望能夠進一步探測對象的輸入順序是否對聚類結果有影響及不同的差異度上限估算方式,從而得到更準確的結果分析。

參考文獻

[1] Small H.Co-citation in the Scientific Literature:A New Measureof the Relationship Between Two Documents[J].Joumal of the A—merican SocietY for information Science, 1973, 24 (4): 265 - 269.

[2]馬瑞敏,邱均平.基于CSSCI的論文同被引實證計量研究——以圖書館學、情報學為例[J].圖書情報知識,2005,(5):77-79.

[3] White H D,Griffith B C.Author Cocitation:A Literature Measureof Intellectual Structure[J].Joumal of the American Societv forInformation Science,

1981, 32(3):163-171.

[4]馬瑞敏,倪超群.基于作者同被引分析的我國圖書情報學知識結構及其演變研究[J].中國圖書館學報,2011. 37( 6): 17-26.

[5]馬費成,宋恩梅.我國情報學研究分析:以ACA為方法[J].情報學報,2006, 25 (3):259-268.

[6] Kessler M M. Bibliographic Coupling Between Scientific Papers[J]. American Documentation,1963,14(1):10-25.

[7]肖明,李國俊,袁浩,基于引文耦合的數字圖書館研究結構可視化分析[J].圖書情報工作,2010. (7):51-54.

[8] Jameving B.Bibliographic Coupling and Its Application to Research-front and Other Core Documents[J].Joumal of Informetrics,2007,l(4):287-307.

[9] Zhao D, Strotmann A.Evolution of Research Activities and Intel-lectual Influences in Information Science 1996-2005: ImroducingAuthor Bibliographic-coupling Analysis[J].Journal of the Ameri-can Societv for Information Science and Technology, 2008, 59( 13):2070-2086.

[10]馬瑞敏,倪超群,作者耦合分析:一種新學科知識結構發現方法的探索性研究[J].中國圖書館學報,2012. 38 (2):4 -11.

[11]王知津,周鵬,謝麗娜,用ABCA方法識別和闡釋我國當代情報學研究領域[J].情報學報,2013. 32 (1):4-12.

[12] Morris S A, Yen G G.Crossmaps: Visualization of OverlappingRelationships in Collections of Journal Papers[J]. Proceedings ofthe National Academv of Sciences, 2004, 101 (1): 5291-5296.

[13]張勤,馬費成,國內知識管理研究結構探討——以共詞分析為方法[J].情報學報,2008, 27(1):93-101.

[14]張勤,徐緒松,共詞分析法與可視化技術的結合:揭示國外知識管理研究結構[J].管理工程學報,2008, 22 (4):30- 35.

[15]孫海生.作者關鍵詞共現網絡及實證研究[J].情報雜志,2012, 31 (9):63-67.

[16] Chen C. CiteSpace Ⅱ: Detecting and Visualizing EmergingTrends and Transient Pattems in Scientific Literature[ J]. Joumalof the American Socieiy for Information Science and Technology,2006, 57 (3):359-377.

[17]丁晟春,王楠,吳靚嬋媛.基于關鍵詞共現和社區發現的微博熱點主題識別研究[J].現代情報,2018, 38 (3):10-18.

[18]武森,高學東,M.巴斯蒂安.高維稀疏聚類知識發現[M].北京:冶金工業出版社,2003: 38-54.

[19]N Van Eck, Waltman L VOS:A New Method for VisualizingSimilarities Between Objects[C]//Advances in Data Analysis:Proceedings of the 30th Annual Conference of the German Oassifi- cation Society. 2007: 299-306.

[20]李杰.科學知識圖譜原理及應用-VOSviewer和CitNetEx-plorer初學者指南[M].北京:高等教育出版社,2018:49 - 52.

(責任編輯:郭沫含)

收稿日期:2019-07-19

基金項目:教育部人文社會科學研究青年基金項目“面向語言學的文獻計量及知識可視化分析”(項目編號:17YJCZH069);全國高等院校計算機基礎教育研究會2018年度計算機基礎教育教學研究項目“教育數據聚類分析及個性化推薦”(項目編號:2018-AFCEC- 176);北京語言大學院級科研項目(中央高校基本科研業務專項資金資助)“基于文獻計量的不同學科差異分析”(項目編號:19YJ040001);北京市級大學生創新創業計劃項目支持(項目批準號:201910032038)。

作者簡介:黃月(1986-),女,副教授,博士,研究方向:數據挖掘、信息計量。王鑫(1995 -),男,學士,研究方向:聚類分析。

猜你喜歡
數據挖掘
基于數據挖掘的船舶通信網絡流量異常識別方法
探討人工智能與數據挖掘發展趨勢
數據挖掘技術在打擊倒賣OBU逃費中的應用淺析
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
一種基于Hadoop的大數據挖掘云服務及應用
數據挖掘在高校圖書館中的應用
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數據挖掘研究
利用數據挖掘技術實現LIS數據共享的開發實踐
主站蜘蛛池模板: 国产乱人免费视频| 亚洲91精品视频| 四虎永久在线视频| 国产丝袜丝视频在线观看| 亚洲精品少妇熟女| 亚洲一区二区无码视频| aa级毛片毛片免费观看久| 国产自在线播放| 国产视频你懂得| 国产精品内射视频| 日韩成人高清无码| 久热中文字幕在线| 久久夜色精品国产嚕嚕亚洲av| 啪啪啪亚洲无码| 久久99热66这里只有精品一| 亚洲一级色| 欧美中文字幕一区二区三区| 欧美色亚洲| 久久一日本道色综合久久| 精品视频一区二区观看| 亚洲一欧洲中文字幕在线| 国产97区一区二区三区无码| 在线观看无码av五月花| 国产va在线观看免费| 性欧美精品xxxx| 97se亚洲综合在线天天| 欧美成人aⅴ| 香蕉视频在线观看www| 香蕉蕉亚亚洲aav综合| 91精品情国产情侣高潮对白蜜| 欧美成人影院亚洲综合图| a级毛片一区二区免费视频| 欧美国产综合色视频| 波多野结衣无码AV在线| 国产91av在线| 51国产偷自视频区视频手机观看| 91青草视频| 午夜视频日本| 欧美成人区| 欧美成a人片在线观看| 国产jizzjizz视频| 99在线观看国产| AV老司机AV天堂| 国产精品偷伦在线观看| 91精品国产丝袜| 亚洲久悠悠色悠在线播放| 亚洲国产精品不卡在线 | 精品伊人久久大香线蕉网站| 蜜臀av性久久久久蜜臀aⅴ麻豆| 国内精品视频| 最新亚洲av女人的天堂| 欧美国产日韩在线| 久久网欧美| 国产精品嫩草影院视频| 2022国产无码在线| 午夜性刺激在线观看免费| 久久久精品久久久久三级| 色婷婷色丁香| 日本欧美精品| 精品国产自在在线在线观看| 亚洲国产天堂久久综合| 国产精品刺激对白在线| 日韩国产高清无码| 亚洲国产精品久久久久秋霞影院| AV天堂资源福利在线观看| 中文无码精品a∨在线观看| 99国产在线视频| h视频在线观看网站| 美女无遮挡免费网站| 国产无遮挡裸体免费视频| 欧美一级夜夜爽www| 国产成人精品亚洲77美色| 青青青国产视频手机| 婷婷伊人五月| 国产夜色视频| 在线观看亚洲成人| 五月激情综合网| www.91中文字幕| 无码一区18禁| 亚洲va视频| 亚洲性影院| 欧美激情综合一区二区|