徐繼維
(長安大學 圖書館, 陜西 西安 710064)
隨著計算機、大數據技術的發展,數字圖書館已經成為了社會數字信息資源的重要組成部分[1-2]。數字圖書館的基礎信息是數字信息資源,這些資源一部分來自于圖書、期刊、報紙、音像等傳統文獻的電子版,還有一部分來源于各種數據庫和互聯網[3-4]。20 世紀70 年代初,聯機公共檢索目錄(Online Public Access Catalog,OPAC)誕生,這是最早的因特網館藏資源遠程檢索工具。但隨著網絡資源信息的爆炸式增長,各高校、公共圖書館、政府情報部門等單位的數字圖書資源不斷涌入網絡,數字資源的形式也由單純的文本信息向多媒體形式轉變。因此,信息資源的數字化、信息形式的多媒體化和信息存取的網絡化成為了數字圖書資源信息的顯著特點。在這種趨勢下,如何快速地檢索出有效信息并提升讀者的用戶體驗,成為了目前的研究熱點之一。
優化、提升圖書信息檢索效率的關鍵在于梳理清楚信息的檢索流程,圖1 所示為本文梳理出的用戶在進行信息檢索時前端和后端的業務交互流程。

圖1 數字圖書信息檢索流程
如圖1 所示,為了實現數字圖書信息的檢索,在采集完所有的圖書信息后,首先進行海量的信息存儲;然后,為了便于用戶的檢索,需要實現信息的自動化標注;隨后用戶通過相關檢索系統的查詢接口,利用索引詞在系統中通過標注得到所需的信息[5-7]。綜上所述,數據信息的自動化標注是實現信息快速檢索的關鍵。因此,文中主要對基于人工智能理論的自動化標注方法進行研究。在設計圖書信息的檢索算法時,基于現有理論進行優化與改進可以提升設計效率,故本文在信息標注時,引入了相似度作為深度學習模型的特征。對于多媒體信息,可以從圖像屬性相似度、文本相似度以及參與檢索的用戶相似度方面進行分析[8-10]。
圖像相似度主要是指采集的圖書圖像信息在采集時間、地點、類別、文本描述等相關屬性信息上的相似度,具體計算公式如下:
式中:a、b分別代表兩個采集的不同圖像;PP、PT分別為基于屬性和文本描述的相似度;w1、w2分別為其權重,且滿足:
文本相似度主要用于評價所采集的數字圖書相關描述信息的相似度,其計算公式如下:
式中:T1、T2分別是兩條待比對的文本;DIS 為文本的編輯距離,該距離通過計算一個字符串轉換到另一個字符串的最小操作數來評估文本的相似性;len(·)為文本長度的計算函數。
用戶相似度則是指用戶進行檢索時,可以根據用戶對于某時間的關注度、對于某領域的興趣進行快速推薦,從而提高檢索效率。其具體計算公式如下:
式中:u、v分別代表兩個不同的用戶;SL、ST、SF分別是用戶的位置、標簽和社交信息的相似度;w1、w2、w3分別是各自的權重。w1、w2、w3的關系為:
當得到信息的總相似度后,若直接根據數據庫已有的標簽對其進行標注則可能會引入錯誤標注,降低信息標注的準確性。因此,文中采用TF-IDF 作為標注降噪的標準[11-12]:
式中:Ti為算法生成的標注;Ni表示Ti在相似標注中出現的頻次;N為所有相似標注的總和;Di為Ti的逆文檔率。本文算法為所有生成的標注設置了一定的TFIDF 閾值,當低于閾值時,數據庫中將不再保留算法生成的標注。
在進行數字圖書多媒體信息標注時,如果僅采用1.1 節所述方法,則可能存在原始數據庫中無相似信息的情況,此時就會出現待標注的信息本身不夠豐富或者無法完成標注的情況。為此,本文針對圖書的圖像信息,引入了RCNN 網絡[13-14]選取圖像的最相關區域:

劃分區域的RCNN 網絡框架如圖2 所示。所設計的RCNN 網絡包含兩個通道,其中左通道對主要區域進行標注,右通道對候選的次要區域進行標注。在進行特征提取時,主要使用卷積和全連接運算,其中Score 運算的定義如式(8)所示。疊加后,通過Softmax 層確定該信息的具體標注:

圖2 劃分區域的RCNN 網絡
式中:s為當前待識別的數字圖書圖像信息;S為信息的標識集合;I為區域r中的特征向量。
模型在訓練時,基于誤差的反向傳播思想,使用梯度下降法實現訓練[15],定義模型標識時所采用的損失函數為:

為了評估模型的性能,本文從某高校圖書館的數據庫中導出了現有數字圖書的圖像信息作為數據集進行驗證仿真,表1 為圖像的類別及數量信息。

表1 數據集中數字圖書信息
為了評估模型在進行信息檢索時的識別準確度,采用準確率P和召回率R作為評價指標。提取信息特征的網絡由多個卷積層與池化層組成,文中以目前業界較成熟的兩個網絡ZF-Net 和VGG-16 作為特征提取網絡,網絡的區別如表2 所示。

表2 ZF-Net 和VGG-16 的網絡特征
通過對比兩個網絡的性能和適用場景,本文選擇VGG-16 作為特征提取網絡。在使用時,主要利用其全連接層之前的結構,具體的網絡參數如表3 所示。

表3 VGG-16 的具體參數設置
文中的特征提取網絡包括13 個卷積層和4 個池化層,卷積層中使用ReLU 作為激活函數,網絡中所有的卷積運算使用的卷積核尺寸均為3×3,訓練參數如表4所示。

表4 VGG-16 的訓練參數
信息經過特征提取網絡后,被劃分為3 個通道,其中一個是所設計的RCNN 候選框調整網絡,另外兩個通道的結構如表5 所示。
首先評估算法在單純依靠相似度時對于圖書信息的標注效率,計算結果如表6 所示。

表6 基于相似度的信息標注結果
從表6 中可以看出:通過文本的方式對數字圖書信息進行標注時,由于采集的文本信息夾雜了大量與圖書信息不相關的內容,導致正確標注剛剛過半;單純引入多維相似度標注方法時,由于未經過降噪,因此也會生成不相關的標注,這反而惡化了實際的標注效果。在對已標注的信息進行TF-IDF 降噪后性能明顯提升,相比基于文本的傳統信息標注方式,其準確率提升了0.121,召回率提升了0.291。圖3 給出了不同相似度時準確率的變化趨勢,可以看出本文引入的相似度指標與標注的準確率呈正相關,這證明了多源評價指標體系的可行性。

圖3 相似度與準確率的關系曲線
隨后對引入RCNN 網絡的標注方法進行評估,記k為次要區域的個數,對模型在不同k取值時進行訓練,所得到的P值如表7 所示。

表7 不同次要區域下的訓練準確率
當k=0 時,RCNN 網絡和普通的CNN 網絡結構相同。當k取值增加時,P隨之增加。當k=6 時,P取得最大值,因此文中選取k=6。此時,訓練完成的模型在測試集上得到的準確率如表8 所示。

表8 不同算法在測試集上的準確率
由表8 可以看出,引入RCNN 網絡后,多源信息相似度標注方法的精確度有所提升,證明了多區域信息特征提取的必要性。此外,相較于現有OTC、Mop-CNN、ImageNet-CNN 等人工智能網絡,在本算法框架下,準確率分別提升了0.372、0.093、0.201。
針對當前數字圖書信息的檢索問題,本文研究了基于融合數據的信息標注方法,通過提升信息標注的準確性,優化圖書信息的檢索流程,降低了用戶在信息檢索時的消耗,并提升了在線查找時的用戶體驗。仿真結果表明,本算法可以有效提取多媒體形式的數字圖書信息特征。隨著數字圖書資源的不斷豐富,所提算法將有更為廣闊的應用前景。