張麗萍,陳凌凌,萬校基
(1.華僑大學 發展規劃處,福建 泉州 362021;2.華僑大學 工商管理學院,福建 泉州 362021)
高校科研人員在開展科研選題時,需要對相關學科領域發展趨勢和熱門研究主題有比較清晰的認識。為了精準識別相關學科領域主題,亟需通過高效研究方法對海量文獻資源進行挖掘分析。
目前,傳統學科領域文獻主題研究經常使用文獻計量方法,如詞頻分析法[1-3]、共詞分析法[4-6]等。詞頻分析法主要是利用關鍵詞或主題詞在某一研究領域文獻中出現頻率的高低來確定領域研究熱點和發展趨勢[3]。共詞分析法是根據兩兩統計一組關鍵詞在同一篇文獻中出現的次數進行聚類分析,生成共詞文獻簇,進而分析這些關鍵詞所代表的學科和主題的結構變化,從而進行學科發展預測[4]。雖然這些方法簡單直觀且易于被研究者接受,但是由于詞頻閾值設定偏主觀,共詞分析又經常將所有關鍵詞視為同等重要,顯然由這些方法獲取到的主題不可避免會存在一定偏差。
為了客觀認識關鍵詞在不同文獻中的主題體現,現有研究大多以高頻低頻詞分界公式、Zipf 第二定律、詞頻h 指數、詞頻g 指數等數理統計方法作為關鍵詞頻率顯著性變化的判斷標準,并將其作為某領域研究主題發展或變遷的判斷依據[7]。然而,上述統計方法僅以詞頻來計算關鍵詞權重,容易出現“同量不同質”的問題。為了克服“同量不同質”問題,李海林,等[8]根據關鍵詞排列順序,度量了關鍵詞在不同文獻中的重要性程度,這種根據重要順序計算關鍵詞權重的辦法,雖然一定程度上提高了關鍵詞權重質量,但是由于可能受到作者潛意識行為習慣的影響,在某種程度上也會偏離真實性。為了客觀度量文獻關鍵詞的重要性,本文將在前人研究成果的基礎上,結合作者潛意識行為習慣和數理統計等角度來度量關鍵詞的重要性,即基于關鍵詞排列順序和其在標題、摘要中出現的次數來綜合計算關鍵詞權重。與此同時,再借助近鄰傳播聚類算法對學科領域主題進行自適應識別與分析。
本文的貢獻主要體現在以下幾個方面:(1)依關鍵詞排列順序和出現頻次計算關鍵詞重要性,不僅有考慮到大部分作者按照重要順序擺放關鍵詞的潛意識行為習慣,而且也兼顧到了數理統計等定量方法的應用,客觀呈現了關鍵詞在不同文獻中的語義表現力和重要性,進一步提高了主題分析質量。(2)借助共詞分析法、相似性度量法和AP聚類算法對高頻關鍵詞進行自適應聚類,消除了傳統層次聚類、多維尺度分析等人為設定聚類個數和尺度大小等主觀因素的影響,為快速有效識別相關學科領域主題提供了理論支撐。(3)從自適應聚類視角挖掘分析出物流學科熱門主題,為高校物流科研人員的學術活動提供了方向指導。
針對傳統文獻主題分析法獲取到的主題質量不高的問題,結合關鍵詞排列順序和其在標題、摘要中出現的頻次,綜合計算了關鍵詞在不同文獻中的重要性,通過共詞分析法構建加權關鍵詞相似性矩陣,借助近鄰傳播(Affinity Propagation,AP)聚類算法對該相似性矩陣進行自適應聚類,以每個簇中心代表對應簇核心主題,再結合關鍵詞綜合權重,客觀歸納總結相關學科研究熱點。本文具體研究思路如圖1所示。

圖1 研究思路
關鍵詞可以清晰、直觀地表達文獻論述的主題,是文獻主題描述的重要參考。一篇文獻的主題會用多個關鍵詞來共同描述,而這些關鍵詞對這一篇文獻主題描述的程度也不是相同的,并且同一個關鍵詞在不同的文獻中同樣具有不同的重要性。因此,需要對關鍵詞在每一篇文獻中的重要性分別進行度量。李海林,等[8]結合關鍵詞在文獻中的不同順序計算了關鍵詞的權重,然而其在計算權重過程中,可能存在部分學者并不按文獻主題的相關程度給出關鍵詞的問題,因此容易受到作者主觀意識行為的影響,導致所計算出來的權重偏離實際。詞頻表示一個詞在文中出現的頻率,通常我們認為一個詞若是頻繁地出現,就可能是文獻的核心詞,對文獻主題描述的貢獻程度就越高。標題、摘要是一篇文獻的重要組成部分,概括了整篇文獻研究的重要內容,因此出現在標題、摘要中的關鍵詞具有一定的代表性。本文將基于關鍵詞排列順序和其在標題和摘要中出現的次數,綜合計算關鍵詞在不同文獻中的重要性程度,具體計算過程如下:
(1)計算關鍵詞順序權重。設文獻p中作者給出了X 個關鍵詞來描述主題,根據先后順序形成關鍵詞集合Keyp*={keyp1,keyp2,...,keypX} ,根據文獻[8]可知,文獻p中的第k個關鍵詞的順序權重為:

(2)計算關鍵詞頻率權重。設文獻p中第k個關鍵詞在標題和摘要中出現的頻次為ck,則文獻p中的第k個關鍵詞的頻率權重為:

(3)計算關鍵詞綜合權重。綜合考察關鍵詞排列順序和其在標題摘要出現的頻次,以式(1)和式(2)計算出的權重平均值來代表文獻p中第k個關鍵詞的綜合權重:

(4)關鍵詞重要性。根據式(3)計算每個關鍵詞在每篇文獻中的綜合權重,將不重復關鍵詞的綜合權重平方和作為對應關鍵詞在文獻集中的重要性,即文獻數據中第i個關鍵詞的重要性為:

其中 N 表示文獻數量,i ∈ keyp*表示第 i 個關鍵詞出現在第p 篇文獻關鍵詞集keyp*中,wkeypi"表示第i個關鍵詞在第p篇文獻中對應相同關鍵詞i"的權重,若其出現在相應文獻中,則其對應權重由式(3)給出;否則,記為0。
傳統方法中,衡量不同關鍵詞之間的相似性經常采用Ochiai系數,但Ochiai系數只是考慮了關鍵詞共同出現的頻次,不能體現關鍵詞對不同文獻主題描述的貢獻程度大小。為了使相似性度量能夠體現關鍵詞的重要程度,在Ochiai 系數的基礎上加入權重,帶權重的相似性計算公式為:

其中N為文獻集合中總文獻數量,wkeypi"*wkeypj"表示關鍵詞i 和j 共同出現在第p 篇文獻關鍵詞集中keyp*的權重,wkeypi"和wkeypj"的定義類似公式(4)提供的定義。顯然,關鍵詞i和j之間的相似性在0到1之間,相似性越高的兩個關鍵詞,計算出來的值就會越大。
傳統聚類算法,如Kmeans 算法對起始中心點的選擇具有隨機性,且容易造成局部最優解情況。為避免這個問題,Frey,等[9]提出了近鄰傳播(Affinity Propagation,AP)聚類方法。該算法是把所有數據點當作網絡的節點,根據每一條邊的消息傳遞得出數據集的聚類中心。聚類過程中,吸引度和歸屬度會在每個節點之間傳遞,并在迭代過程中不斷更新每一個點的吸引度和歸屬度值,一直到有一定數量的高質量聚類中心為止,最后把所有的數據點劃分到對應的聚類中。與傳統聚類算法相比,該算法不需要設定聚類中心數量,不需要人為選擇或者概括聚類中心,同時對相似性矩陣無對稱性要求,在處理數據時運行速度較快,性能較好[10-13]。因此,本文將借助該聚類算法對學科文獻主題進行自適應提取與分析。
設任意兩個數據點i和k之間的信息量為吸引度r(i,k)和歸屬度a(i,k),其中r(i,k)說明點i 作為點k的類代表點的支持程度,a(i,k)說明點 k 選擇點 i 作為其類代表的適合程度。AP算法的具體實現步驟如下:
近鄰傳播聚類C=AP(S)。
輸入:數據之間的相似性矩陣S。
輸出:數據點的代表對象集合C。
S1:更新信息傳遞中的r(i,k)、a(i,k)和a(k,k)。


S2:引入阻尼系數λ,降低可能出現的震蕩。

S3:確定數據點i的代表點。

S4:當聚類結果趨于穩定或達到設置的迭代次數后停止算法,輸出數據點代表對象集合C;否則,執行步驟S1至步驟S3。
AP聚類算法通過更新和傳遞吸引度r(i,k)和歸屬度a(i,k),使得數據在不同的替代次數下數據點Zi存在具有吸引度和歸屬度信息量最大的點Zk作為Zi的代表對象,記為Oi,直到達到結束條件為止。
為了驗證本文所提方法的有效性和可行性,下面將以物流學科領域文獻為例開展主題分析。
以CSSCI數據庫收錄的期刊文獻為數據來源,檢索“篇名”或“關鍵詞”中含有“物流”一詞,并且時間范圍為2015年1月-2019年12月的期刊文獻,最終獲得物流相關研究文獻1 271 篇,剔除無關鍵詞文獻,合并文獻中共同關鍵詞,最后可得到有效文獻1 269篇和3 081個不重復關鍵詞。
根據關鍵詞重要性計算公式(4),提取重要性在排名前50的關鍵詞,見表1。
從表1中可以看出,重要性排名前四位的關鍵詞分別為物流業、物流產業、物流和物流企業,其重要性均超過5,它們是物流領域各個方面都會涉及到的概念。重要性排在第五位至第八位的關鍵詞分別是區域物流、冷鏈物流、綠色物流和農產品物流,是近五年物流領域研究的重要方面。在前五十個重要關鍵詞中,長江經濟帶、絲綢之路經濟帶、一帶一路、物流產業集聚、京津冀、區域經濟等與區域物流息息相關;與綠色物流關系較大的有碳排放、逆向物流等;與農產品物流相關的有農產品、農村物流、生鮮農產品等。供應鏈、物流成本、物流效率、智慧物流、跨境電商等方面也是物流領域研究的重要方面。

表1 2015-2019年物流領域前50個重要關鍵詞
考慮到AP 聚類算法在迭代過程中可以進行更好的簇劃分,并且聚類后得到的每個簇中心代表關鍵詞與同一簇中其它關鍵詞最為相關,因此可借助AP聚類算法實現物流核心主題提取。
以表1中50個重要關鍵詞為基礎,通過式(5)構建50*50 關鍵詞相似性矩陣,借助AP 聚類算法對其進行自適應聚類。當迭代次數達到154次時,可以得到13個穩定的主題簇,簇中心分別為一帶一路、絲綢之路經濟帶、眾包物流、供給側改革、農產品、農產品物流、區域物流、物流、物流業、物聯網、電子商務、跨境電商、長江經濟帶等。AP聚類具體結果見表2。
2.4.1 物流學科主題簇內涵分析。從簇內成員數量來看,與核心主題“絲綢之路經濟帶”同屬一個主題簇的成員數量最多,一共有8 個成員與之存在聯系,而核心主題“跨境電商”與“長江經濟帶”包含的成員數量次之,一共有5個成員。其它核心主題包含的成員均在4 個以內。特別地,核心主題“眾包物流”“區域物流”周邊沒有任何主題成員,表明與“眾包物流”和“區域物流”有關聯的研究尚屬空白。

表2 物流核心主題及簇內成員
從簇內成員相互關系來看,核心主題與同一簇內成員關系緊密,或相似或高度相關,其具體關系如下:
(1)核心主題“一帶一路”沿線各個地域和國家物流業態多元,涉及范圍廣,關系到眾多國家和地區經濟、社會、文化、政治等方面的問題。在這種情況下,大數據的應用就顯得格外重要。面對一帶一路上多元文化信息繁多,亟需完善大數據體系建設。
(2)核心主題“絲綢之路經濟帶”概念的提出以及相關政策與戰略的實施給中國物流業帶來了新的發展機會。近5 年物流領域從多個方面對絲綢之路經濟帶進行了研究。絲綢之路經濟帶上物流發展應以點帶面,從線到網,形成區域物流網絡。實現沿線交通基礎設施和中心城市資源的合理利用,實現經濟帶內貿易和生產要素的優化配置,促進物流業效率提升,促進物流發展。
(3)核心主題“供給側改革”對農村物流的發展是一次巨大挑戰,農業發展矛盾不再以生產矛盾為主,而以流通矛盾為主,亟需進行農產品供給側改革。同時,物流業供給側改革需要不斷創新,首先是服務創新,物流服務應該更加專業化、多元化,改變物流產業的內容和結構;其次是物流技術創新,以信息技術為核心,結合管理手段、商業模式以及供應鏈整合;最后是物流組織創新,物流組織形式在向大型化、集群化、平臺化方向轉變,促進了第四方物流發展。
(4)核心主題“農產品”和“農產品物流”主要內容都是關于農產品的流通。農產品是農村經濟發展重要的一環,農產品物流缺乏效率將導致農產品無法順暢流通,有些農產品需要很高的時效性且對保鮮具有高要求,否則將造成巨大的損失。國家積極出臺農產品流通扶持政策,出臺冷鏈標準。同時隨著環境可持續發展理念的深入,農產品綠色物流也持續受到關注。農產品綠色物流一是強調流通過程中農產品質量的保持,減少產品的破損和變質;二是強調流通過程中不對環境造成污染。農產品物流園區是農產品物流向著規模化、功能化、集約化發展的關鍵,農產品配送效率的提高、損耗率和流通成本的降低都要依賴農產品物流園區的發展。
(5)核心主題“區域物流”與區域經濟發展是相互促進、相互制約的,應促進二者協調發展、可持續發展?,F代物流產業是經濟發展的新增長點,區域物流對區域經濟發展做出重要貢獻。
(6)核心主題“物流”涵蓋內容廣泛。京津冀區域經濟發展離不開當地區域物流的發展,京津冀地區產業結構的調整推動了物流體系的發展。供應鏈的相關研究也是物流領域研究非常重要的一部分。
(7)核心主題“物流業”與制造業聯系密切,物流業為制造業提供服務,二者相互促進與制約。我國物流業碳排放量比較高,且處于比較快增長的趨勢,推進物流業向低碳物流轉型十分必要,也是政府、企業、研究者關注的重點。
(8)核心主題“物聯網”在物流業中使用廣泛,主要用于物流信息的傳遞、轉換和處理。物聯網的應用對物流業智能化、自動化和信息化水平有很大的提升,有助于智慧物流的發展。利用物聯網技術可以有效解決生鮮物流配送、逆向物流中數據采集效率低下、實時調度性差等問題,實現實時監控。
(9)核心主題“第三方物流”是由中間商來承擔物流業務的一種模式,其以買賣之外第三方的身份提供物流服務,可以提高物流資源利用率,從而降低物流成本,促進電子商務的發展。

圖2 關鍵詞重要性及聚類結果
(10)隨著經濟全球化格局的形成,核心主題“跨境電商”已成為電商發展的趨勢,物流企業的經營模式和理念發生了巨大變革。物流企業想要保持并提高企業的競爭力就要注重物流成本的管理。同時,信息技術的發展提高了物流企業優化和整合資源的能力,促進了現代物流的發展。
(11)核心主題“長江經濟帶”區域物流產業集聚現象越來越明顯,物流產業集聚有助于物流發展向集約化、規模化、效益化轉變,對各區域的物流運行質量和經濟競爭力有明顯的改善和提高,顯然,能夠進一步提升物流產業效率和物流效率。
2.4.2 物流學科熱點主題分析。圖2 為關鍵詞重要性及聚類結果,圖中柱形圖高度代表關鍵詞重要性,從左至右,每一個簇的第一個柱形圖表示主題簇的核心主題,并且各個主題簇之間空一格。
由圖2可知,具有高重要性的關鍵詞不一定是核心主題,核心主題與同簇內其它成員關鍵詞最為密切,重要性高的關鍵詞表示自身受到的關注程度高,二者既有聯系也有區別。結合物流學科領域核心主題與關鍵詞重要性,可以歸納出以下七個物流學科研究熱點:
(1)降本增效。降低物流成本,提高物流效率一直都是物流發展的首要目標,也是物流學科理論研究的重要話題。其中“物流成本”“物流效率”“物流產業效率”“物流業效率”“效率”在關鍵詞重要性中分別排在第17、29、39、42、50 位,相關的核心主題包括跨境物流、長江經濟帶、絲綢之路經濟帶、農產品物流。我國物流運營效率低,物流成本很高,特別是生鮮農產品物流。從政府角度來看,物流業降本增效有助于國民經濟發展,2017 年國務院辦公廳印發《關于進一步推進物流降本增效促進實體經濟發展的意見》,對物流相關工作進行部署,為物流業發展提供了良好的環境;從企業角度來看,物流被看作是第三利潤源,是企業降低成本、提升競爭力的關鍵。企業要做到降低物流費用的同時保證物流服務水平,只有通過新的維度、新的模式去實現物流的降本增效。因此,物流降本增效相關理論和創新也一直持續受到關注。
(2)區域物流一體化。區域物流一體化指在一定的經濟區域范圍內,對區域物流資源進行優化整合和一體化運作而形成的區域性物流綜合體系。區域物流作為核心主題,包括區域物流和區域經濟兩個成員,區域物流重要性排名第五,自身受到的關注程度高,并且其中長江經濟帶、絲綢之路經濟帶、一帶一路、京津冀都屬于區域性物流。全球經濟一體化是大勢所趨,各地政府都在積極推動區域經濟與區域物流的發展。我國區域經濟發展不平衡,物流業發展具有區域性特點。區域物流的發展有利于優化產業結構與資源配置,改善投資環境,提升物流效率,促進區域經濟發展。區域物流一體化研究建立在區域經濟一體化研究的基礎上,所以近幾年區域物流以及區域物流一體化的相關理論多是從京津冀、長江經濟帶、絲綢之路經濟帶等經濟圈的角度進行研究。
(3)現代物流技術研究與創新。現代物流發展需要依托現代信息技術,互聯網的發展、物聯網的應用大大提高了物流過程的優化與整合。全社會物流需求量劇增,同時要求物流服務質量不斷提高,現代物流業必須采用更加先進的設備和技術,需要不斷加強倉儲、運輸、包裝等環節的技術創新,這就促進了物流技術的研究和應用。以往物流技術更注重于產品運輸的效益,后來隨著計算機技術的普及,促進了電商物流的發展,如今物流行業逐漸向“數智化”轉變。近幾年,智慧物流、物聯網、大數據、云計算等逐漸成為社會關注的熱點和理論研究的重點。
(4)物流體制改革與產業轉型升級。我國物流體制改革要求建立完善的物流管理體制;搭建完備的物流網絡;建設完善的物流基礎設施,開發物流技術。深化物流體制改革,需要不斷推進物流供給側改革,推廣供應鏈管理模式,發展第三方、第四方物流,促進物流業轉型升級。對此,物流相關理論研究也在加強對物流體制改革、建立物流綜合管理體制、物流產業轉型升級的探討。
(5)農村物流與農產品物流。國家對“三農”問題十分重視,著力農村物流發展,促進農業現代化發展。相關的核心主題包括農產品、農產品物流以及供給側改革,相關關鍵詞中冷鏈物流、綠色物流、農產品物流的重要性很高,說明本身關注程度很高。在農村物流的相關研究中,農產品物流受到很大的關注。農產品物流對保鮮、時效具有非常高的要求,需要有高效率的流通模式和物流體系,對冷鏈物流、綠色物流要求嚴格。農產品物流園區可以借助園區物流基礎設施,優化農產品配送模式,所以對于農產品物流園區的探索也是農村物流的重要內容。農產品物流問題已成為當下經濟研究的一個熱點話題,通過研究農村物流、農產品物流,可以促進現代化農產品流通體系建立,有效解決農村物流中貨流不暢的問題。
(6)電子商務與跨境電商。全球經濟一體化促進貿易一體化發展,進而促進跨境電子商務的發展?;ヂ摼W技術、第三方支付平臺以及第三方物流的發展為電子商務中信息流、資金流、物流的實現提供了必要條件,國際物流發展促進電子商務向跨境電商延伸。電商物流、跨境物流也成為了研究者關注的重點。
(7)可持續發展理念??沙掷m發展理念日益受到人們的關注,綠色物流、碳排放是其在物流領域的重要體現,是物流理論研究的重點。綠色物流、碳排放在關鍵詞重要性中分別排在第7 位、第9 位,涉及到農產品、物流業兩個重要性同樣很高的核心主題,可見近幾年在這方面的理論研究是非常多的。雖然可持續發展理念在物流研究中受到特別關注,但要真正落實好并取得成效還有很長的路要走。必須進一步發展綠色物流,提倡綠色運輸、綠色包裝、開發綠色技術、制定綠色法規等,減少物流活動中碳排放量,減少能源消耗,注重效率與效益的統一,將可持續發展的理論研究與實際物流發展相結合。
本文提出了一種學科領域文獻主題分析方法,結合關鍵詞排列順序和其在標題和摘要中出現的頻率對關鍵詞重要性進行了定量綜合計算,借助近鄰傳播AP 聚類算法對高頻關鍵詞相似性矩陣進行了主題自適應聚類,以物流學科領域文獻為例,驗證了主題分析方法的可行性和有效性。研究結果表明:(1)重要性程度更高的關鍵詞不一定是核心主題,核心主題是與其它主題成員關系更為密切的關鍵詞。(2)近五年,物流學科存在“降本增效”“區域物流一體化”“現代物流技術研究與創新”“物流體制改革與產業轉型升級”“農村物流與農產品物流”“電子商務與跨境電商”“可持續發展理念”等七大熱點主題。本文改進了過去單獨以詞頻或者排列順序度量關鍵詞重要性的方式,提升了關鍵詞在主題分析過程中的質量,同時也避免了人為設定聚類數目及尺度大小等主觀因素的影響,不僅豐富補充了數據挖掘技術在主題分析上的應用,也為高校相關科研人員的研究方向選擇提供了參考。
本文在具體研究過程中仍存在一些不足,如在獲取關鍵詞在標題和摘要中的頻次時,容易忽略“同義不同形”關鍵詞對關鍵詞權重計算的影響。同時,在借助AP 聚類算法自適應獲取核心主題過程中,有可能會獲得一些相似的核心主題。借助語義挖掘分析工具降低“同義不同形”關鍵詞的影響,多次進行主題聚類,避免核心主題近似等方面的研究仍值得未來進一步探索。