999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

知識群落在文獻資源動態主題聚類中的有效性

2019-12-16 06:14:28徐漢青王思茗孫熊蘭滕廣青東北師范大學信息科學與技術學院
圖書館理論與實踐 2019年11期
關鍵詞:關聯

徐漢青,王思茗,孫熊蘭,滕廣青(東北師范大學信息科學與技術學院)

隨著科學技術的進步,各種科技文獻數量與日俱增,科研工作者面臨的文獻資源篩選困難的難題更加突出。圖書館如何在海量科技文獻中識別科學研究主題及其演變模式、實現有效的知識組織,成為學術界共同關注的重點。目前,通過引文網絡分析[1]和共詞網絡分析等方法,幫助人們快速從海量科技文獻中提取出具有代表性的文獻以及知識概念,并采用聚類分析等方法識別領域知識主題的研究成果已經屢見不鮮。然而,傳統主題聚類主要從靜態知識組織分析的角度出發,已無法適應知識快速發展演化的當今科技環境。本研究將復雜網絡分析方法(Complex Network Analysis,CNA)[2]融入關鍵詞知識網絡,基于社群發現算法和關聯頻度提取層次知識群落,結合時間序列因素,對知識群落在文獻資源動態主題聚類中的有效性進行研究。

1 相關研究現狀

在圖書情報學領域,對于知識主題的探測主要通過兩種途徑。其一是在宏觀層面上將領域知識劃分為遠近有別的層級,這種層級思想在杜威十進制分類法(DDC) 和主題詞表中均有體現;另一種則是根據不同的聚類算法將領域知識劃分為不同的知識群落。X.Qin 等以“Corporate social responsibility”為檢索詞提取WoS 數據庫詞間關系,其研究工作將關鍵詞知識網絡分為核心層、中間層以及邊緣層,以三個層級當中的關鍵詞作為該領域的研究熱點和前沿。[3]L.Xiao 等以CJFTD 為基礎數據來源,根據知識節點之間的聚類系數和密度的不同,采用社會網絡分析當中的k-core 分解方法,將關鍵詞網絡劃分為4 個不同的層級(基礎層、中間層、細節層、邊緣層),并據此呈現知識節點分布狀況和捕捉領域知識中不同的研究主題。[4]

綜上所述,基于知識群落發現和識別領域知識主題聚類已經得到學術界的普遍認可。然而,在圖書館知識組織與服務的實踐中,繁雜的參考信息和推薦信息會一定程度上增加讀者的認知負擔。因此,如何在海量數據中以更高效簡潔的方法提取知識主題同時兼顧科學知識發展的動態變遷,成為圖書館知識組織與服務工作需要解決的現實問題。

2 理論框架

近年來,學術界在領域知識發展的相關研究中開始注重知識之間的結構關系。如,在圖書情報學界,學者們在知識網絡的宏觀結構層面發現了小世界(Small World)網絡以及無標度(Scale Free)網絡的特征,[10]在微觀結構層面則發現了知識網絡當中的模體(Motif)演化特征。[11]而知識群落則是介于宏觀結構與微觀結構之間的網絡結構,知識群落在時間序列上的演化變遷,為揭示領域知識主題的演化進程、潛在模式以及對于新興主題的探測具有至關重要的意義。

在圖書情報學領域,對于某一知識領域的研究主題識別和發現研究中,傳統的文獻計量學方法是:齊普夫第二定律選取法、普賴斯公式選取法、自選取方法等,確定高頻關鍵詞與低頻關鍵詞的選定界限,根據所選定的高頻知識節點之間的關聯關系采用相似性算法以及相關聚類方法,最終凝聚若干個知識群落用于探測領域研究主題。這種靜態的分析方法對知識主題的動態變化具有一定的局限性,也無法檢測新誕生的、規模較小的潛力主題。基于高頻詞的聚類分析,容易導致一些重要知識概念以及知識關聯關系的遺失。如,知識網絡當中的結構洞(Structural Holes) 知識節點,盡管往往頻次較低,但是在領域知識中起到非常重要的橋接作用。依靠知識概念的出現頻次無法獲取不同知識之間的結構關系,甚至會掩蓋領域知識中知識關聯和結構的一些重要信息,無法準確跟蹤和掌握相關知識領域的核心主題及其發展變遷。

2004 年,M. E. J. Newman 等提出了測量網絡社群聚類程度的模塊度算法,[12]該方法對關聯程度不同的網絡節點進行有效聚類進而劃分群落,并將該方法擴展至加權網絡。在此基礎上,V. D. Blondel 等對該方法加以改進,動態考察海量數據背景下群落節點的流入流出以及節點間關聯關系的改變,學術界稱為Louvain 算法,[13]具體如公式(1)所示。

研究工作將采用Louvain 算法識別領域知識群落,并以其表征文獻資源的主題聚類。課題組在之前的研究工作中發現,即使通過社群發現算法將領域知識劃分成不同的知識群落,但是在領域知識演化生長過程中會充斥著大量頻度僅為1 次的關系。此類結構關系中難免帶有一定程度的偶然性或隨機性,不利于領域知識主題聚類與主題演化分析。為了排除這種偶然性或隨機性,研究工作基于關聯頻度提取一定閾值水平之上的知識群落,將低頻度的關聯關系剔除,使知識群落更加緊密和更具有代表性,從而探測和驗證知識群落在文獻資源主題聚類中的有效性。

3 研究數據與流程

3.1 研究數據

研究工作以中國知網(CNKI)文獻數據庫為基礎數據來源,以“Folksonomy OR 社會化標注OR 社會標注OR 大眾分類”為檢索式進行高級檢索。期刊級別鎖定為CSSCI,檢索時間跨度從2002-2018 年,累計獲取相關文獻194 篇,關鍵詞數量369 個,關鍵詞關聯關系1,019 對。具體數據如表1 所示。

在表1 中,以自然年份為時間刻度,從2002 年至2018 年劃分為t1-t17 共17 個時間窗口,統計出歷年時間窗口下文獻、關鍵詞、關鍵詞關聯關系的累計值以及單年增長量,通過累計值可以初步了解該領域知識整體生長演化的趨勢。通過單年增長量則可以觀察該知識領域中相鄰時間窗口的增長情況。以關鍵詞為節點,以關鍵詞關聯關系為連線構建時間序列領域知識網絡。結合表1 中的數據發現,t1-t17 時間區間內,除t1-t3 時段外,文獻、關鍵詞、關鍵詞關聯關系數量隨著時間軸的延展一直處于增長狀態。這一現象驗證了知識網絡具有許多真實復雜網絡共同具有的生長特性。[14]由于t1-t3 時間窗口領域知識無生長變化,下文的相關研究中將把該時間段合并進行測算。需要說明的是,研究中構建的領域知識網絡以關鍵詞之間的關聯關系頻度作為連線權重,所構建的知識網絡為無向加權網絡。

表1 文獻及相關數據

3.2 關聯頻度演化分析

領域知識網絡的構建主要以知識單元和知識關聯關系為基礎,其中知識單元構成網絡的節點,知識關聯關系則以節點之間的連線表示。如果兩個知識單元之間存在高頻度關聯,則視為這一知識領域中重要的知識關聯。研究工作首先對時間序列知識網絡的關聯頻度進行統計分析,統計結果如表2 所示。

按照 GB/T 16291.1—2012中的方法選拔和培訓評價員[19]。根據200名西南大學本科生的興趣動機、健康狀況、表達能力及可用性等情況,篩選出60人在感官分析實驗室進行感官靈敏度、感官能力和描述能力的測試。對選出的20人進行50 h的感官描述性分析培訓,培訓內容包括感官分析基礎知識的講解、長期感官記憶的訓練、感官描述詞語義及標度的學習等。由5名考核合格的評價員組成怪味胡豆的感官描述分析小組[20] 。

表2 時間序列知識關聯頻度分布

表2 中的數據表明,在時間序列知識網絡中,關聯頻度最高為8 次,最低為1 次。隨著領域知識的發展生長,不同頻度的關聯關系關數量一直在發生變化。其中,頻度為1 的知識關聯關系數量增長幅度較大,關聯頻度大于等于2 的知識關聯關系增長緩慢,這說明在領域知識網絡的生長演化過程中,網絡中核心的知識關聯關系(高頻度關聯關系)趨于相對穩定狀態。以關聯頻度F=2 為分界線可以明顯地觀察出知識網絡演化過程核心知識關聯的發展過程。同時,表2 中的數據還表明,關聯頻度數值越大,其占有的比重就越小,符合領域知識關聯頻度分布呈現冪律(Power Law)分布的知識網絡特征。[15]因此,研究工作基于關聯頻度對知識網絡進行提取層次知識群落,能夠有效保證領域知識中結構關系的代表性與顯著性,也使得網絡中重要的主題聚類得以凸顯。

3.3 知識群落動態演化提取

研究中采用Louvain 算法對所構建的時間序列知識網絡進行聚類,對網絡中潛在的知識群落進行識別(見表3)。該算法能夠兼顧網絡節點以及節點之間的關聯頻度的改變,結合時間序列分析,可以有效地探測出領域知識網絡中知識群落及其演進狀況。

表3 時間序列原始知識群落演化數據

由表3 可見,原始知識群落數量的變化趨勢與網絡節點數量以及關聯關系數量的增加情況并非完全一致。關鍵詞數量或關聯關系的增加并不意味著知識群落數量一定增加。現實工作中,參與主題聚類的文獻數量越多,對領域知識主題的解析也就越復雜。出于減少主題聚類復雜程度的目的,進一步基于關聯關系頻度對原始知識網絡進行提取,通過關聯頻度閾值提取知識網絡中具有代表性和顯著性的網絡結構,從而提高數據的價值密度。基于關聯頻度(F=2) 提取的時間序列層次知識群落如表4 所示。

表4 中,通過關聯頻度閾值水平F=2 進行提取之后,所形成的層次知識群落數量明顯降低,節點和關聯關系數量也大幅度減少。同時,原始知識網絡中一些顯著的演化特征被保留。t10-t11、t12-t13、t13-t17時間段中層次知識群落的演化特征與表3 中原始知識群落的演化特征一致。在數據價值密度得以改善的情況下,層次知識群落在演化特征方面與原始知識群落等效,能夠有效精簡圖書館知識組織與知識推薦的復雜性,從而降低用戶的認知負擔。研究工作進一步對原始知識群落與所提取的層次知識群落演化細節進行比較分析,并對層次知識群落在文獻資源主題聚類中的有效性進行驗證。

表4 時間序列層次知識群落演化數據

4 分析結果

4.1 知識群落演化分析

研究工作在原始知識群落總體演化趨勢(參見表3)的基礎上,進一步深入分析每個時間窗口中各個原始知識群落的節點屬性特征。以知識節點度值為橫坐標,以知識節點在群落中的度分布概率為縱坐標建立直角坐標系,得到時間序列原始知識群落中節點的度序列分布情況(見下圖)。

圖 原始知識群落度序列分布

上圖中,相同形狀的節點為處于同一個知識群落中的節點。隨著領域知識的發展,知識群落數量在總體上呈現增長態勢,群落內部知識節點的度序列分布逐漸向近似于冪律分布的長尾狀態趨近。即群落內大多數知識節點擁有較低的知識關聯關系,少部分知識節點擁有較多的知識關聯關系,這一結果與知識網絡整體的度序列分布較為近似。結合各個知識群落的規模數據還發現,知識網絡的Hub 節點并非存在于節點數量最多的知識群落,縱觀全序列中所有時間窗口的知識群落,都體現出這一現象。盡管擁有眾多知識關聯的Hub 節點能夠依據A-L. Barabási 等刊發于《Science》雜志的論文中提出的擇優連接(Preferential Connectivity)機制,[14]吸附更多的知識關聯關系,但針對知識群落的分析數據卻表明Hub 知識節點并不具備良好的成團優勢。這一現象表明在知識群落層面上,如果以單純以高度值知識節點表征該領域知識主題,一些低頻關聯的知識也將在主題聚類中凸顯。

此外,研究中還發現全時間序列中,始終存在個別知識群落規模在時間序列上沒有發生變化的現象,這一結果意味著領域知識網絡中存在若干完全不生長的知識群落。靜止與生長的差異在以往的靜態分析中通常被忽略,即使在以往大多數全網層面的動態分析中也難以體現,研究工作基于這一現象將知識群落分為兩種類型:靜止型知識群落和生長型知識群落。靜止型知識群落意味著在知識發展進程中主題穩定不發生變化;而生長型知識群落則意味著主題演化變遷,是動態分析需要關注的重點。在篩選剔除上述完全不生長的知識群落后,原始知識網絡中生長型知識群落數量如表5所示。

表5 中,剔除完全不生長的靜止型知識群落之后,網絡中的知識群落數量有所減少,同時發現,t12 時間窗口仍然是群落數量比較突出的時間窗口。研究工作進一步以F=2 為關聯頻度閾值提取層次知識群落,力求以更少量的知識節點表征知識主題,以降低知識組織與服務實踐中用戶的認知負擔。

表5 知識群落數量對比

研究中發現,由于關聯頻度閾值F=2 剔除了大量頻度較低的知識關聯關系,一些在原始知識網絡中表現突出的高度值節點的度值優勢被壓縮,而一些原本在知識網絡中度值較低卻擁有高頻關聯的知識節點被凸顯出來。而且知識群落內部同樣表現出較強的異配性。層次知識群落在弱化長尾分布的同時,知識節點之間強關系的作用得以浮現,K. Popper 當年對于知識關聯關系重要性的論斷得以體現。[16]

4.2 主題聚類有效性驗證

層次知識群落相比原始知識群落,在精簡了大量知識節點的同時,彰顯了知識節點之間強關系的作用。為了驗證提取后的層次知識群落在主題聚類中的有效性,這部分研究從兩個角度進行比較分析:一是檢測層次知識群落表征的主題聚類包含的高度值知識節點(通常視為核心知識節點)占原始知識網絡中高度值節點數量的比重;二是層次知識群落表征的主題聚類中的知識節點是否能夠有效關聯原始知識網絡中的生長型知識群落(反映領域知識的生長性)。研究工作首先對主題聚類實際節點數量和群落中高度值的節點數量進行測算,即主題聚類包含的N 個節點中有多少個節點的度值排在原始知識網絡的前N 位。測算結果如表6 所示。

表6 主題聚類中高度值節點數量

由表6 可見,t1-t5 時間窗口由于數據稀疏性的原因,以層次知識群落表征的主題聚類中僅有的2 個節點并非高度值的節點。在其后的時間窗口中,主題聚類的知識節點涵蓋高度值節點的比率始終保持在65.5%以上。以t17 時間窗口為例,該時刻主題聚類共包含53 個知識節點,其中41 個知識節點在原始知識網絡中的度值排名在前53 位。另一方面,通過對主題聚類包含的節點數與原始知識網絡節點總數的對比可知,各個時間窗口主題聚類的節點數量在原始知識網絡節點總數中占比<18.2%,即層次知識群落表征的主題聚類以低于18.2%的節點數量囊括了高達65.5%的高度值知識節點,數據的價值密度得到有效的改善。考慮到生長型知識群落在演化進程中的重要性,進一步對層次知識群落表征的主題聚類中的知識節點對原始知識網絡中生長型群落的關聯情況進行測算(見表7)。

表7 主題聚類對生長型群落的關聯

表7 中,領域知識演化初期,主題聚類中的節點沒能很好地關聯到原始知識網絡中所有的生長型知識群落。隨著領域知識的發展,主題聚類與越來越多的生長型知識群落建立有效關聯。從t13 時間窗口開始,主題聚類中的知識節點與原始知識網絡中所有生長型知識群落建立了有效關聯,這意味著建基于高頻關聯關系和少量知識節點的層次知識群落,在承載知識網絡演化特征的同時,能夠表征原始知識網絡中全部具備成長性的主題聚類。

5 結論與討論

研究工作基于復雜網絡的理論方法融合時間序列因素,對特定領域的相關文獻及文獻當中的關鍵詞、關鍵詞關聯關系進行抓取;以自然年份為時間刻度,構建時間序列領域知識網絡;采用社群發現算法識別網絡中的知識群落,并基于關聯頻度提取層次知識群落;對知識群落展開時間序列動態分析,并對知識群落在圖書館動態主題聚類方面的有效性進行了驗證。基于上述分析過程和結果,初步可以得出以下結論。

(1) 層次知識群落能夠凸現知識之間的強關系。研究結果表明,基于關聯頻度提取的層次知識群落剔除了大量低頻度的知識關聯關系,使得知識網絡中度值較低卻擁有高頻關聯的知識節點凸顯出來。高頻關聯代表著知識之間的強關聯關系,基于大量文獻產生的高頻度同現關系,也意味著這類關聯關系得到學術界的普遍認可。建基于高頻關聯的層次知識群落相比單純依靠關聯數量組成的群落可以獲得更高質量的主題聚類,也更能夠體現J. Gleick 在《信息簡史》中強調的知識連通的重要性。[17]

(2)層次知識群落能夠有效表征文獻資源動態主題聚類。研究中的實驗數據表明,層次知識群落僅需要領域中少量的知識節點(<18.2%)就涵蓋了領域中大量的核心知識內容(>65.5%),能夠有效提高知識網絡動態分析中數據的價值密度。同時,剔除了大量節點的層次知識群落能夠與原始生長型知識群落建立有效的關聯,并且隨著領域知識的發展,達到與全部生長型知識群落建立關聯的穩定狀態。保持和呈現領域知識的生長特性,為基于層次知識群落探測知識主題的動態演化分析提供了有力的支撐與可行的途徑。

研究工作基于知識關聯頻度提取層次知識群落,極大地簡化了原有的知識網絡規模,并且凸顯了原始網絡中所有生長型知識群落和高頻知識關聯,有助于在海量的文獻資源中,快速精準定位知識領域當中的核心知識族群和具有潛力的知識簇。但同時研究工作也存在局限性,固定閾值在知識群落的動態演化分析中尚不能很好地揭示知識衰退問題。未來的研究中,將采用更加靈活的動態閾值提取方法,進一步保障和提升知識群落在文獻資源主題聚類中的有效性。

猜你喜歡
關聯
不懼于新,不困于形——一道函數“關聯”題的剖析與拓展
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
船山與宋學關聯的再探討
原道(2020年2期)2020-12-21 05:47:06
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
新制度關聯、組織控制與社會組織的倡導行為
奇趣搭配
基于廣義關聯聚類圖的分層關聯多目標跟蹤
自動化學報(2017年1期)2017-03-11 17:31:17
智趣
讀者(2017年5期)2017-02-15 18:04:18
探討藏醫學與因明學之間的關聯
西藏科技(2016年5期)2016-09-26 12:16:39
GPS異常監測數據的關聯負選擇分步識別算法
主站蜘蛛池模板: 啪啪永久免费av| 最新国产高清在线| 丁香婷婷久久| 成人免费视频一区二区三区| 亚洲天堂伊人| 亚洲精品成人片在线播放| 免费高清毛片| 夜夜高潮夜夜爽国产伦精品| 在线观看国产精美视频| 亚洲大尺码专区影院| 中文无码精品A∨在线观看不卡| 亚洲天堂视频在线观看免费| 91精品综合| av大片在线无码免费| 成人福利一区二区视频在线| 一级香蕉视频在线观看| 成人小视频在线观看免费| 91免费国产高清观看| 国产色伊人| 国产三区二区| 久久99国产综合精品女同| 国产欧美精品一区二区| 日韩精品免费在线视频| 成人国内精品久久久久影院| 国产微拍一区| 黄色成年视频| 性激烈欧美三级在线播放| 亚洲日本韩在线观看| 青青青伊人色综合久久| 免费人成网站在线高清| 日韩精品无码免费专网站| 免费av一区二区三区在线| 2021国产乱人伦在线播放| 国产一级毛片网站| 欧美国产在线一区| 人妻中文久热无码丝袜| 婷婷综合缴情亚洲五月伊| 久久久91人妻无码精品蜜桃HD| 日韩视频福利| 国产第八页| 精品久久久久无码| 国产精品自在在线午夜区app| 日韩成人免费网站| 国产成人AV男人的天堂| 狠狠v日韩v欧美v| 亚洲午夜综合网| 国产一区二区三区在线观看免费| 中国毛片网| 九九视频免费在线观看| 亚洲中文无码av永久伊人| av天堂最新版在线| 亚洲AV成人一区国产精品| 久操线在视频在线观看| 伊人久久青草青青综合| 最新亚洲人成网站在线观看| 中文字幕在线一区二区在线| 先锋资源久久| 在线va视频| 波多野结衣一区二区三区AV| 亚洲免费三区| 精品福利一区二区免费视频| 久久99精品久久久久久不卡| 91精品啪在线观看国产60岁| 欧美性精品| 色偷偷综合网| 丁香六月综合网| 五月天久久综合| 97无码免费人妻超级碰碰碰| 自拍中文字幕| 丰满人妻一区二区三区视频| 国产欧美日韩视频怡春院| 亚洲天堂网在线播放| 亚洲色图欧美| 亚洲无线一二三四区男男| 国产精品男人的天堂| 喷潮白浆直流在线播放| 无码网站免费观看| 最新亚洲av女人的天堂| 日韩视频福利| 成人亚洲天堂| 欧美精品xx| 毛片在线播放网址|