張立說,陳天文
(濰坊市圖書館,山東 濰坊 261000)
隨著科技的不斷進步與發展,科學研究的交叉性與高動態性等特點日益顯著[1],因此學科交叉熱點研究成了當下學者們的研究熱點。研究學科交叉熱點可揭示當下學科主題之間的內在聯系、了解前言動態,更能有效地分析研究主題發展的潛在規律[2]。
學科交叉研究早在20世紀70年代就已被學者提出,目前學科交叉研究已進入實證研究階段[3],Rhoten等[4]人在文章中提出,從大學研究項目和青年學者的調研入手,強調了學科交叉研究的意義與其發展前景。蔣永新等[5]對圖書情報研究論文做關鍵詞聚類分析,研究其熱點論題的分布與變化趨勢。閔超等[6]在更細粒度上做聚類類團分析、戰略坐標分析,進一步探索學科交叉研究熱點。
筆者擬在前期學者的研究基礎上,運用CONCOR迭代相關收斂法對關鍵詞進行聚類,借助SPSS、UCINET和NETDRAW軟件進一步對當下學科交叉熱點進行分析,以圖書情報學與互聯網技術學為例,挖掘兩學科關鍵詞之間的內部關系,揭示兩個學科的研究熱點與發展趨勢,為研究者深入了解學科背景知識與掌握前言動態打下堅實基礎。
筆者選取圖書情報與互聯網技術兩門學科文獻對應主題詞進行研究與分析,首先將提取后的文本進行預處理,生成結構化的矩陣,然后分別對其進行CONCOR迭代相關收斂分析與聚類分析,揭示兩學科當前研究熱點,分析兩學科交叉熱點發展趨勢。
CONCOR(convergent correlation)是一種迭代相關收斂法,可對數據樣本重復訓練從而實現凝聚子群分析。CONCOR的主要思想為:首先提取樣本特征項,生成樣本矩陣;然后CONCOR算法會根據矩陣各行或列之間的關系生成相關系數,得到相關系數矩陣CO1;CONCOR算法再將矩陣CO1作為輸入矩陣繼續訓練樣本,根據CO1矩陣各行或列存在關系得到新的系數矩陣CO2;繼續迭代計算,最終通過樹形圖(tree-diagram)將各位置間結構對等程度展示出來,并將各網絡成員標記出來。
CONCOR算法生成的相關系數矩陣中包含皮爾遜積距系數,此系數可用來衡量各對象間的相似性,將樣本的凝聚子群關系展示出來,根據樣本對象特點,形成一個個不重疊的子群,并能根據子群密度分析子群的重要程度或孤立點,從而實現深度分析群體的功能。
聚類分析(群分析)是運用統計分析的方法對樣本進行分類,是數據挖掘中的重要方法。聚類,就是通過分析樣本數據間的內在關系,將具有相同屬性或相似的對象聚集在一起,不相同的對象分成不同類別的過程。與分類不同的是,聚類可根據樣本自身特點,訓練分類標準,從而得到合適的類別。
常用的聚類算法有K-means方法、K-medoids方法、CLARANS方法、BIRCH方法等[7~10],筆者選擇系統聚類方法,其主要思想是:首先將樣本中各對象看成一類,然后根據各類之間的距離,將距離最小的進行合并,生成新一類;再根據新類與其他類之間距離,合并距離最近的兩類;重復此步驟,直至所有樣本對象合為一類為止。用此方法處理學科關鍵詞,可根據當前關鍵詞出現頻率進行有效分類,有助于分析學科關鍵詞之間的關系,深入分析學科研究熱點。
為了清楚展現兩門學科交叉研究領域的組成結構及其演化情況,筆者以中國知網論文被引數量為基礎,選取從2013年開始7年的文章數據為支撐,其中,圖書情報技術與互聯網技術兩學科交叉的文章3 000篇,互聯網技術學科文章3 000篇。研究這兩門學科當下的研究熱點,并對研究熱點進行預測。由于關鍵詞最能反映文章核心,因此,根據需要將所選文獻導出其文獻關鍵詞,并對這些關鍵詞進行去重、關鍵詞抽取、詞頻統計、矩陣生成,在生成矩陣時筆者選用經典的相似度矩陣公式,根據關鍵詞在文章中出現的詞頻生成相似度矩陣。
由于圖書情報技術與互聯網技術交叉學科在很大程度上借鑒了互聯網技術的領先優勢,因此,將當下互聯網技術學科的研究熱點進行分析,從而支撐交叉學科熱點的研究與預測。筆者將處理好的相似度矩陣導入Ucinet軟件中進行CONCOR凝聚子群分析,可生成對應凝聚子群,并計算出密度最大的子群,從而得到貢獻最大的學科關鍵詞。因此,本文選擇將互聯網技術學科關鍵詞矩陣導入,生成可視化圖形,如圖1所示,分析當下互聯網技術學科中較熱的關鍵詞。

圖1 互聯網技術學科關鍵詞凝聚子群分析
CONCOR算法將詞頻大于30的關鍵詞分成8個子群,每個子群對應的密度矩陣,如圖2所示,其中密度最大的子群為第2和第6個子群,證明這兩個子群在整個群體中貢獻度最大,其對應的關鍵詞分別為{服務質量,云制造,服務組合,遺傳算法,協同過濾,Web服務}、{新浪微博,用戶體驗,互聯網},而根據關鍵詞詞頻統計(部分截圖,如圖3所示),詞頻最高的并不是密度最大的,因此CONCOR算法可幫助找到互聯網技術學科研究熱點。

圖2 互聯網技術學科凝聚子群密度分析

圖3 互聯網技術學科關鍵詞詞頻統計部分截圖
筆者運用系統聚類方法對圖書情報技術與互聯網技術交叉學科關鍵詞進行聚類操作,根據2.2節中分析得到的互聯網技術學科密度較大的關鍵詞集合,將兩交叉學科的關鍵詞矩陣用NetDraw工具生成可視化關系圖譜,并標記出聚類后含有{服務質量,云制造,服務組合,遺傳算法,協同過濾,Web服務}、{新浪微博,用戶體驗,互聯網}的關鍵詞類別,如圖4所示。

圖4 兩學科交叉關鍵詞可視化圖譜
圖4中,網絡安全、信息安全、云服務、網絡技術、服務、高校、圖書館管理、計算機、服務質量為一類,其中服務質量為2.2節中標記的密度較大關鍵詞組中一員,這證明了當下服務、網絡安全等不僅是互聯網行業的熱點話題,在圖書情報行業中依舊是研究者們的熱點,更是下一步的研究趨勢,隨著互聯網的不斷發展與普及,數字圖書館、云服務成了當下圖書館發展的趨勢,但同時面臨著網絡安全、信息竊取等問題,因此網絡安全、網絡技術等已成為當下研究的熱點和趨勢。社交網絡、移動信息服務、研究熱點、微信公眾平臺、微博等被分為一類,其中微博為2.2節中標記密度較大關鍵詞組中一員,這證明了網絡信息研究已成為熱點話題,網絡平臺中隱藏著許多需要挖掘的信息,由于信息技術的不斷發展,線上閱讀、討論已成為人們生活中必不可少的一部分,例如微博、微信等平臺,這已成為研究者們不斷關注的焦點。
從以上分析可以看出,運用CONCOR算法可挖掘出當下學科的關注熱點,以單學科熱點數據為基礎,借助聚類方法,可分析得到交叉學科中的熱點信息,預測交叉學科研究發展方向。
筆者運用CONCOR迭代相關收斂法,對交叉學科其中一門學科關鍵詞做凝聚子群分析,得到最大密度子群;再對交叉學科關鍵詞做系統聚類,以數據可視化的形式展現出來,借助單門學科最大密度子群中的熱點話題,分析交叉學科當下的研究熱點與發展趨勢,提出了基于CONCOR的學科交叉熱點分析與預測方法,為研究者掌握學科知識演化方向提供支持。但本文在研究過程中還存在許多不足之處:①隨著科研的不斷發展與進步,許多文獻關鍵詞并不能很好的概括文獻重點,許多關鍵知識會散落在摘要或是正文中,本文在研究時以關鍵詞為依據,其數據不夠全面,需要深度研究。②在研究方法上,研究熱點會隨著時間的推移不斷改變,因此,在熱點研究時應考慮時間等多方面的因素,這也是今后的研究重點。