劉 偉 李秀霞
(曲阜師范大學傳媒學院,山東 日照 276826)
“大數據”時代,在線評論成為主要的信息源之一。從海量的評論數據中發掘有用的信息已成為數據分析的熱點問題,也是圖書館開展信息組織、日常管理、信息服務的需要。高校圖書館服務質量的網絡評論文本良莠不齊,主題特征不明顯,對在線評論文本進行聚類,挖掘這些評論文本主題,能從大量的文本數據中發現很多潛在問題,有利于圖書館提高服務質量?;诖?,筆者通過爬取高校圖書館服務質量的在線評論,通過Word2vec獲得在線文本內容的詞義向量,利用K-means實現主題聚類,發現高校圖書館服務質量領域的主題特征,可為提升圖書館的服務質量和服務水平提供依據,有利于圖書館據此提高資源利用率,提升高校圖書館的公眾形象,同時也為師生的文化閱讀和科研創新提供更好的環境。
文本挖掘又稱為文本知識發現,是利用相關方法、工具、手段,從大量模糊的、隨機的、有噪聲影響的文本資料庫中,提取具有預測性或潛在分析價值的信息的過程[1]。對文本聚類的研究,在社會學、生物醫學以及圖書情報學領域都有所涉獵。作為一種典型的非監督學習方法,文本聚類可大致分為劃分的方法、層次的方法、基于密度的方法和基于網格的方法等[2]。對于文本聚類算法,可以分為兩種類型:一類是層次聚類法,另一類是以K-means算法為代表的基于劃分的聚類算法。在文本聚類過程中,為了減少聚類過程中迭代的次數,田詩宵[3]等人對K-means算法進行了改進,提高了聚類精準度。邱云飛[4]等人對短文本特征關鍵詞的稀疏性問題做了相關研究。隨著數據科學的發展,文本聚類環境下數據驅動的計算范式與方法體系正在形成[5],主題聚類在圖書館學領域也得到了普遍的應用。李鵬飛[6]通過對青海民族大學圖書館的借閱信息進行處理,通過K-means算法對用戶行為進行主題聚類,實現個性化服務與大數據挖掘的有效結合。吳茵茵[7]借助LDA聚類模型對國外圖書館的在線展覽內容進行聚類,分析其對展覽主題的選擇。蔡曉峰[8]通過在數字圖書館和用戶之間建立網絡模型分析圖書館用戶群組。薩支斌[9]等人提出了基于個性化推送服務的數字圖書館學習資源提取方法。在主題聚類思想的影響下,楊帆[10]提出了構建圖書館大數據分析平臺的方法。
隨著互聯網在線社交平臺的蓬勃發展,越來越多的用戶通過在線評論的方式發表對產品或服務的意見[11]。由于在線評論來源廣、數據量大、更新快,越來越被企業和用戶所重視[12]。高校圖書館是學校的文化服務與傳播的中心,提高圖書館的服務質量是高校圖書館建設的重點方向。雖然多位學者都對其有所研究,但基于高校圖書館在線評論并通過分析其主題特征開展服務質量的研究卻很少。基于此,筆者通過爬取在線評論,在分析高頻主題詞的基礎上,利用Word2vec獲取評論文本的詞義向量,分析評論的語義關系,借助Kmeans算法實現評論文本的主題聚類,發掘用戶對高校圖書館服務的關注點,提出改進高校圖書館服務質量的策略。
(1)Word2vec
Word2vec是Google在2013年開源的一款詞向量訓練工具[13]。與其他詞向量模型相比,Word2vec的優勢在于能借助上下文語義,將相似性高的詞語聚為一類,從大規模未經標注的語料中高效生成詞向量,因此具有極強的適用性和靈活性。該算法包含CBOW和Skip-Gram兩種模式,前者根據上下文推測特征詞,后者通過特征詞推測上下文概率。由于Skip-Gram可以改善文本特征的稀疏性和可解釋性,但不會增加聚類算法的復雜性,可得到更好的聚類效果[14]。所以筆者選擇Word2vec的第二種模式。Skip-Gram模式的基礎形式如圖1所示。

圖1 Skip-Gram模式的基礎形式圖
該模型本質上采用的是3層神經網絡來訓練詞向量,模型輸入的是某個特定詞上下文相關的詞,輸出的是該詞特定的詞向量,筆者運用Skip-Gram模式進行高頻主題詞向量的輸出,假設給定文本序列詞A={a1,a2,a3…an},運用Skip-Gram實現整個序列詞的對數概率平均值最大化。
該詞序列的訓練目標函數為:

在該目標函數中,c為該詞所在的上下文,c值越大,結果越精準。但同時會加劇計算時間,k指文本窗口的大小。
對于P(at+c|at),則有:

該式中,vt為詞語at的詞向量輸出,那vc即該詞在文本中相鄰詞ac的詞向量。
在爬取的文本集中,由于數據量較為龐大,且不同高校圖書館服務質量方面的在線評論文本數量不一,僅舉例來說明在線評論語義特征的表示。對5所高校圖書館的相關評論文本,即建立了5個文本集,表示為M={M1,M2,M3,M4,M5},數據預處理后,運用Word2vec中的Skip-Gram模型,將數據集中每一個高頻主題詞映射成一個向量,最終的文本語義采用向量加權平均法,計算公式如下所示。

該式中,V(dj)表示第jt條評論文本內容所輸出的語義向量,Wi為評論文本中的第i個詞,V(wi)表示詞Wi的詞向量,N表示評論文本的長度。
(2)K-means算法
K-means算法由MacQueen于1967年提出。其算法的核心思想是按照樣本的相似度進行聚類。該聚類算法適合大容量數據集,操作簡單,計算速度快,通常與Word2vec結合使用。筆者利用K-means算法實現在線評論的主題聚類。Kmeans算法的計算分為以下4步:
第一步,記隨機選取的樣本均值點為k,第i個均值為ui。
第二步,通過歐式距離求各個樣本點到各均值點的距離,把距離最短的歸為一類,其中,d為第i個點到第j個均值距離,xi為第i個數據點。公式為:

第三步,對第二步得到的新的k類,求取均值,得到新的均值點。

第四步,重復步驟二、三,直至樣本均值點不再顯著變化。
Word2vec詞義向量模型在自然語言處理領域進行數據分析得到了廣泛的應用,其本質是在神經網絡模型下進行非線性的變換。李賀教授團隊利用該模型對電子產品進行評論與需求之間的主題關聯度,促進了Word2vec進行文本語義相似度的深入發展。Word2vec詞向量模型依據中文詞義的相似性,這是源于認知語言學中的“距離相似性”原理,已經得到了業內外學者的廣泛認同。到目前為止,對Word2vec的相關理論論證已經非常充分,其處理程序也實現了部分開源。
K-means聚類算法是典型的目標函數聚類算法的代表,以歐氏距離作為相似度測度,其原理是通過距離相似度進行聚類。隨著需求的增加,專家學者對其算法不斷優化,k-means+,k-means++等應運而生。其算法在教育學、經濟學、管理學等領域都得到了運用。
研究框架如圖2所示。

圖2 研究框架圖
根據圖2,首先利用Python抓取數據源,篩選有用的評論文本,剔除與內容無關的在線評論。對文本進行預處理,包括去停用詞、NLTK分詞以及詞性的標注等。抽取評論文本的高頻主題詞,形成語料數據。再將高頻主題詞通過Word2vec轉化為詞向量,然后利用K-means進行聚類,確定K值,實現主題聚類,進一步進行聚類分析。
大眾點評網是全球最早建立的第三方言論發布網站,因此所有在線評論均來源于大眾點評網。筆者借助Python的Scrapy網頁爬取工具,爬取大眾點評網上有關上海大學、天津大學、浙江大學、西安電子科技大學以及武漢大學等評論數量較多的圖書館的在線評論文本,時間跨度為2018年1月—2021年5月。5所高校圖書館的原始在線評論共獲得2703條,初步剔除圖片、表情等非文本評論后共獲得2456條。抓取評論發布時間、評論內容、文本長度以及評論回復等字段。將爬取的在線評論文本存儲在文本編輯器中,以“.csv”格式進行保存。在線評論的數據預處理包括剔除無關評論、對評論文本進行去重、降噪、切詞,為下一步主題抽取提供數據源;之后進行詞性標注,形成待處理語料集。
利用Python對所爬取的高校圖書館服務質量領域的在線評論文本做詞頻的統計,利用哈爾濱工業大學停用詞表,通過軟件ROST對爬取的評論文本進行數據分詞、去重、去停用詞、消除噪音等預處理操作,同義合并后得到高頻詞表,根據高頻詞,將其劃分為名詞詞性高頻詞、動詞詞性高頻詞和形容詞詞性高頻詞。高頻詞表(部分)如表1所示。

表1 在線評論文本高頻主題詞(部分)
表1中的高頻詞分3類,有名詞詞性高頻詞、動詞詞性高頻詞、形容詞詞性高頻詞,不同類型的高頻詞反映了高校圖書館的不同服務水平和服務質量。在名詞詞性高頻詞中,讀者最重視的是圖書館的借閱環境和藏書量,大部分讀者評價為“館藏豐富”并給予較高的評價,但也不乏出現“資源老舊,圖書更新速度慢”這樣的評語。此外,圖書館閱讀氛圍、配套基礎設施如座椅等,也是讀者關注的地方。在動詞詞性高頻詞中,最受關注的高頻詞是“借閱圖書”“檢索效率”等,說明高校師生最關注的是圖書借閱與資源檢索;除了與圖書館業務直接相關的詞外,也有“咨詢”“自修”等高頻詞,說明高校圖書館是學子們備考的主要場所。在形容詞詞性高頻詞中,大多涉及“干凈”“舒適”及圖書館建筑方面的評價,結合原始在線評論語料庫中“圖書館占地面積大,規模宏偉”“干凈衛生,服務細致”,發現基本為正向評級的詞語,說明高校圖書館作為一個文化傳遞機構,對高校學生具有極大的吸引力。
詞向量反映了文本的基本結構,良好的詞向量便于使語義相近的詞聚集在一起。將高頻詞映射到詞向量空間,可為后續實現文本聚類提供語義分析基礎。借助Word2vec訓練詞向量,將處理好的評論文本通過Word2vec獲得詞向量,Word2vec輸出的詞向量矩陣(部分)如圖3所示。

圖3 詞向量輸出圖
(1)K值的選取
聚類數K值可根據平均輪廓系數法和手肘法來確定[15]。筆者采用手肘法,評估公式為:

SSE是誤差平方和,代表聚類結果的好壞,ci是第i個簇,p是ci的樣本點,mi是ci的質心。隨著聚類數k的增大,樣本劃分會更加精細,同時隨著每個簇的聚合程度提高,誤差平方和SSE會逐漸變小。也就是說,SSE和k的關系圖是一個手肘的形狀,這個肘部對應的K值就是最佳的聚類數。
筆者采取各個簇內的樣本點到所在簇質心的距離平方和(SSE)作度量,SSE越小,則各個類簇越收斂,通過肘部圖中曲線下降的拐點,即可較好地確定K值。在數據集上實驗,得到圖4所示的肘部圖,該圖中肘部對應的K值取5,說明該數據集最佳的聚類數為5,即在線評論文本的主題可聚為5類。

圖4 肘部圖
(2)聚類結果與分析
通過K-means對評論主題詞進行聚類,得到評論數據的聚類結果(見表2)。

表2 高校圖書館在線評論文本聚類
根據K-means算法將共2456條評論語句聚為5類,每個類簇評論條數分別為875條,510條,417條,266條,388條(見表3)。

表3 各主題評論占比及相應的高頻詞
(3)結果驗證及效果評估
目前,由于聚類算法不同,聚類原理也有差異,聚類結果尚無統一的評估標準,在實際運用中,聚類常用的評估指標有純度(purity)、蘭德系數(Rand Index)以及F值,已有文獻中多采用純度評估K-means聚類效果,因此筆者采用純度計算。
純度計算公式如下:

其中,N為樣本數,A為聚類后的簇類數量,B為正確的類別,wk為某一簇中的樣本,cj為類別中真實的樣本,P的取值范圍為[0-1],數值越大,聚類效果越好。
通過每一簇主題與總評論主題去交集,得到5類簇中每一簇的有效聚類樣本為617條,406條,288條,218條,304條。由于類簇中樣本較多,通過數據導入Excel中,運用此法進行計算,得到結果為:

聚類結果受多種因素的影響,運用K-means算法聚類,得到的聚類效果評估為0.746,在[0-1]的范圍之內,聚類效果比較理想,能夠真實反映聚類的數量及準確度。但是,在聚類過程中,由于機器語言聚類的限制,不可避免地將某些主題聚集到與之不相關的類簇中,例如“自助借閱”本應歸為自動化服務的類簇中,但聚類結果卻為面向讀者服務的類簇中,這種情況極大影響聚類效果。另外,K值的選擇也客觀影響聚類的效果,在實際聚類中,共有9個類簇,但是類簇的選取要看肘部圖中拐點前的類簇,故舍棄了4個與之關系不大的類簇。
根據表2、表3分析高校圖書館在線評論文本的5類主題特征。
(1)基礎服務。基礎服務類的評論占比最高,讀者更重視圖書館的閱讀環境和閱讀氛圍。對于圖書館來說,服務是第一位的,培養具有高素質的館員為讀者服務是圖書館基礎性的服務,館員要加強自身職業道德的培養,要定期參加圖書館相關知識培訓,提升自身職業技能,擺正為讀者服務的位置,把個人利益與服務業績相結合。在圖書館設施布局的過程中,不僅要注重美觀,合理利用經費,為讀者提供良好的閱讀場所,還要注重用戶的閱讀體驗。此外,由高頻主題詞看出,讀者對圖書館內部裝潢也比較看重,在設計布置時,要考慮到讀者閱讀舒適度,加強配套設施的建設,形成聚合效應,從而吸引更多人到館閱讀。
(2)自動化、數字化建設服務。從這5所高校圖書館的在線評論中,可以看到“圖書資源更新慢”“難以找到特定書目”“部分電子資源付費”等評論,可見,高校圖書館應加強館藏紙質和電子文獻的建設工作。吸納學生志愿者幫助讀者查找圖書;定期征詢讀者所需書目并進行購買,進一步加強館藏資源的建設。在圖書館自動化、數字化建設過程中,要注重學科數字資源的建設,增添專業化較強的電子館藏。借助數據庫,將各種有價值的信息進行匯集。通過配備高性能的借閱設備,提高借閱效率。此外,還要注重信息系統的建設,定期對電子化、數字化文檔進行維護。為了減少圖書亂架的現象,有條件的高校圖書館可以引入RFID射頻識別技術。
(3)面向讀者服務。服務是高校圖書館的核心要素,通過高頻詞句如“電子設備充電”“借閱機長期占用”“開館時間晚”等,筆者認為,圖書館員應定期對基礎配套設施進行維護,還要更大限度地開放館員和讀者之間的情感認同,只有具備專業素養的館員才能給讀者提供滿意的圖書館現代化的服務。在該主題下,讀者普遍圍繞“圖書借還”“館際互借”“開放時間”等進行咨詢。因此,圖書館員要具備極強的服務意識,積極主動服務,才能真正做好服務讀者工作。在開展咨詢活動時,可以定期組織校園志愿者參與其中,提高讀者滿意度。
(4)科研創新服務。美國圖書館學家謝拉(JesseH.Shera)認為“早期的圖書館員都是學者”,科研工作是館員自身成長的重要因素,館員做科研引領是一種新理念,一種把服務者與研究者合二為一的工作模式。通過在線評論了解到,讀者愈加看重館員的專業知識及具備科學準確的查詢技能。館員的服務能力主要取決于其科研能力,而科研成果的產出量是館員科研能力的標志。因此,要建立起較強科研能力的圖書館團隊,集中力量科研攻關[16]。在制度層面上,高校圖書館應建立起科研工作管理體系,定期進行科研規劃,提高館員的創新能力和創新素養。
(5)文化傳承的過程中,要多渠道加強對優秀文化資源的搜集,創新文化載體的表達方式。近年來,各級圖書館都在積極探索以人為本、服務育人。充分融合“互聯網+”,一方面將信息化、網絡化的時代背景融入圖書館服務育人的總體框架內;另一方面積極利用網絡作為傳播媒體,宣傳圖書館,以圖書館為媒介,積極宣傳地域文化和校本文化,創新性開展文化推廣活動,提高高校的知名度和地域影響力。通過圖書館文化傳播媒介,推動當地文化發展。
基于高校圖書館在線評論的文本數據,將在線評論通過名詞性高頻詞、動詞詞性高頻詞、形容詞詞性高頻詞來表達;利用Word2vec詞向量獲取評論文本高頻詞的語義特征,通過K-means算法將評論文本聚為5個主題,分別是基礎服務、自動化及數字化建設服務、面向讀者服務、科研創新服務和文化傳承服務。根據5類評論主題,從館員培訓、圖書館設施配置、分學科館藏建設及校本文化的傳播等角度,給出提升高校圖書館服務質量的策略。
當然,由于本算法不能有效處理圖片、音頻以及視頻信息,對此作了刪除處理,丟失了部分評論信息。后期將通過圖片、音頻、視頻等處理技術,挖掘相關內容,豐富評論主題,提高在線評論文本分析的可靠性。