吳晨菁
摘 要:文章將二分網絡運用到檔案部門服務工作中,根據檔案利用者的類型、需求特征和檔案信息特點建立檔案小眾化推薦服務模型,通過物質擴散和熱傳導推薦算法的加權融合計算利用者與檔案信息之間的網絡關系,生成具有針對性的推薦列表,以期為檔案部門向利用者提供縱深服務提供參考。
關鍵詞:檔案少用性;二分網絡;推薦服務模型;小眾服務
當前,我國檔案利用熱情逐漸冷卻,依據二分網絡建立的小眾推薦服務模型就是一種針對檔案少用性提供縱深推薦的服務方式。近年來,依托計算機而高度發達的數據存儲及運算,使復雜網絡的構建得以實現。復雜網絡的研究主要集中于自然科學、工程科學領域,在圖書館領域的研究也逐漸增多,在檔案領域僅有一篇涉及檔案學術語的探討,二分網絡在檔案領域的研究為零。因此,筆者研究二分網絡相關內容,對其在小眾推薦服務的應用進行初探。
1 檔案小眾推薦服務模型構建的依據
1.1 實踐依據。檔案的現實少用性是檔案小眾推薦服務模型建立的實踐依據。我國檔案利用活動經歷過三次高峰期:平反冤假錯案、上山下鄉工齡檔案查詢、編史修志工作。[1]此后,類似的利用高峰再未出現。現階段,一方面,檔案的原始記錄性、機密性、區域性及價值轉移致使其無法時常處于高利用狀態;[2] 另一方面,大部分的檔案利用需求來自工作查考、學術研究,檔案利用需求表現出明顯的階段性針對性。歷史上,雖然檔案已從封建統治的高閣走向人民身邊,然而民眾的檔案意識尚未完全覺醒。但我們說檔案的少用性現實狀態,并不是指不利用。檔案部門開展基于二分網絡的小眾推薦服務,針對特定用戶分不同群組開展服務,是追求縱深服務的方式。[3]
1.2 理論依據。二分網絡是檔案小眾推薦服務模型建立的理論依據,通過二部分圖可以探測到利用者之間、利用者與檔案之間的互動關系,社團結構是有針對性的服務模式。
1.2.1 二分網絡概述。二分網絡用于挖掘主體與客體的關系,是符合利用者利用需求長尾現象的網絡形式。[4]二部分圖是其表現形式,它由兩方面組合,利用者及檔案構成頂點集V,利用者和檔案的鏈接構成邊集E,表達式為G=(V,E),如圖1(a)。V包含利用者子集U和檔案子集A,基于圖1建立的連接,可以得出集合U和集合A的單模映射,如圖1(b)、圖1(c)。二部分圖及單模映射可以反映出利用行為的集聚特點及小眾化特征。
1.2.2 二分網絡的特性。度與度分布度。一個節點的度是指與該節點相連接的另一部分節點的數量,在圖1(a)中,u8節點僅與a5相連接,因此u8的度為1,如圖1(b)所示。度分布是某選定節點與另一子集中節點連接的數目的分布情況。[5]度分布反映了最為活躍的利用者群體,以及被利用最為頻繁的檔案。
集聚系數。同一卷宗中每份檔案之間有很強的關聯性,這就形成了無形的網絡鏈接結構,卷宗中某一份檔案也會在年份、人物等上與其他卷宗產生聯系,這樣的聚集鏈接就反映了該二分網絡的聚集程度,即集聚系數,表示二分網絡結構中各部分的聯系程度。
社團結構。利用者多為因某個原因而聚集在一起的一類群體,檔案也會集聚,這些群體就是二分網絡中的社團結構。其形成以網絡中的節點為基礎,首先設定相似度,然后合并相似度最高的社團,形成新的社團結構,接著以新的社團結構為基礎,設定新的相似度,重復合并重復計算,最后組成一個大社團。[6]
2 檔案小眾推薦服務模型的建立
結合二分網絡和檔案利用者小眾群組的相關內容,構建了如圖2所示的檔案小眾推薦服務模型。
2.1 利用者群組。根據檔案的少用特性,檔案的主要利用者多以專業、興趣等聚集,他們就是二分網絡中的社團結構,在社團結構中形成了利用者與利用者之間的聚類關系、利用者與檔案之間的小眾偏好關系。分析群組中利用者之間的影響方式、影響程度,挖掘隱藏關系,完善利用者群組之間的網絡結構。[7]
2.2 二分網絡。建立利用者集合與檔案信息集合是利用者與檔案資源二分網絡形成的基礎。分析利用者建立利用者模型,根據檔案語義建立檔案資源模型,結合檔案資源主題詞、關鍵詞進行利用者與檔案之間的信息過濾,析出利用者之間的概率偏好關系,建立利用者與檔案資源二部分結構。然后根據二部分圖中利用者與檔案之間連接關系,給利用者賦予初始值。
2.3 推薦算法的加權。
2.3.1 推薦算法。二部分圖中,利用者與檔案都將視為單純的節點納入推薦算法中,以利用與被利用的選擇關系為依托,預測利用者對尚未接觸過檔案的喜好程度。物質擴散和熱傳導是主流的推薦算法。物質擴散滿足守恒定律,節點a會把能量平均傳遞給相連的u節點,每個u節點的能量是從所有a中獲得能量的總和。如圖1,給u1相連的節點賦予能量1,不相連的為0,則u1的最終能量值為1/3的a1加1/2的a2。u會把收集到的能量再平均返回給a,算法如上。最后,將能量值最大的未利用過的檔案推薦給該利用者。熱傳導算法中每個u節點的能量是相連的a節點能量的平均值,如u1的能量值為(1+1)/2;能量返回子集A后,a的能量就為相連的所有u節點能量的平均值。由此,便會推薦某利用者尚未使用過的檔案信息中能量最高者。物質擴散算法最后結果傾向于推薦熱門的檔案信息;熱傳導算法在能量傳遞中,熱源存在,冷門檔案資源也不會被忽略。物質擴散和熱傳導推薦算法相結合,涵蓋更全面的檔案信息,這對檔案利用者主力軍提供更深入的推薦服務很有必要。[8]
2.3.2 加權融合。物質擴散偏向于呈現給利用者熱點性的檔案信息,而熱傳導偏向于不易被發現的檔案信息,更加注重多樣性,兩種算法各有其側重的方面。設定一個動態的可調權重,通過檔案利用者對推薦服務評價的變化,建立加權模型,調節物質擴散和熱傳導推薦算法的比例,達到兩者有效的結合。對兩種算法的加權融合同時滿足了利用者對熱門資源與冷門資源的多樣需求,最大限度地將館藏檔案資源納入到小眾化推薦服務中去,使推薦服務更加全面深入。
3 檔案小眾推薦服務模型的實現
3.1 理念支撐。社會全體尤其是檔案部門要正確認識目前我國檔案利用不高的現象,這是推薦模型實現的理念支撐。無論理論上、實踐上,還是歷史的角度,都造就了目前我國檔案少用性的現狀。利用者與檔案二分網絡結構可以平衡熱門與冷門資源的度,理性認識檔案的少用特性,才能理性地開展推薦服務工作。
3.2 資源保障。
3.2.1 利用者調研。利用者群組(社團)是在一定的興趣、專業、行業等范圍內形成的,對群組的分析基于客觀、全面的基礎上。所以,形成利用者社團首先要對利用者進行充分的調研。利用者調研不必追求廣而泛,側重于精而深的縱向數據收集及數據分析。
3.2.2 檔案信息整合。檔案信息集合是二分網絡中的另一個數據集合,館藏檔案的收集、整理、存儲是數據挖掘與分析的前提。提供縱深服務需要海量的檔案信息支撐,檔案信息的有效整合是二分網絡中算法實現的基礎。檔案信息的整合注重寬而廣的特點,收集、存儲會應用到一些技術手段,特別是云存儲技術。
3.3 技術支持。在進行利用者、檔案信息相互之間的數據分析時,需要運用數據挖掘技術來挖掘出不易被發現的關系,通過建模技術建立模型。因此,靈活使用數據挖掘工具、掌握先進建模技術,將會對推薦結果的準確性、推薦服務的可靠性大有裨益。
4 結語
檔案的少用性質決定了當前我國檔案部門不會像圖書館那樣門庭若市,檔案利用者也因職業、學術研究、興趣愛好等利用需求而形成小眾的利用者群組。因此,針對有需求的檔案利用者群組,檔案部門可以運用二分網絡的相關內容,建立檔案利用者與檔案信息之間的二分結構,深度挖掘利用者之間、利用者與檔案信息之間復雜的聯系,進而將工作重點從由如何擴大服務數量切實轉移到如何提高檔案部門服務的質量上來,真正創造縱深服務和精深服務。