邱 盼
(貴州財經大學,貴陽 550000)
隨著開放存取資源運動的迅速發展,開放存取資源逐漸成為建設數字圖書館不可或缺的數據源。其開放獲取模式也為研究者提供了獲取學術論文的新途徑,有效促進了學術資源的共享。為了促進科學信息的廣泛傳播,學術信息的交流與發布,提高科學研究的程度,確保科學信息的長期保存。
近年來,深度學習作為機器學習的另一個分支,得到了廣泛的研究和應用。 它通過使用由復雜結構或多個隱藏層感知器組成的多個處理層來替換具有高級數據抽象的手冊。在文本分類任務中,基于文本分布式詞向量表示的深度學習方法,卷積神經網絡,循環神經網絡等深度學習模型對文本進行分類可以獲得更高的準確率。
本文將重點介紹基于深度學習的開放存取資源分類過程和Bi-LSTM 模型和Text-CNN 模型。

圖1
現在的開放存取資源有多個平臺,本文選擇Worldlib 獲取數據,worldlib 國外文獻整合平臺整合了國外各種開放數據,文獻數量近千萬篇,以英語為主,學科覆蓋范圍為全學科。本文采用python 爬蟲來獲取開放存取資源。Python 爬蟲相對Java,C++是比較簡單易上手的。
數據標注意味著人們判斷和標注數據集內的每一條數據根據數據分類規則,找到預測的目的目標y。標注的主要原因是基于深度學習的訓練和測試過程需要使用帶安全標注的數據。在訓練過程中,需要將訓練集的數據和數據類別作為學習材料,供計算機學習、處理和構造神經網絡模型中的意義。測試過程相當于測試,數據分類是測試的答案,為了研究計算機的影響進行深度研究,需要輸入電腦不帶安全標注的數據時,計算機自動輸出數據的分類結果,計算機的輸出結果與答案相比,可以計算學習模型的準確性,因此,數據集的所有數據必須在類別標注中。一般來說,數據標注越準確,數據量越大,訓練模型越好。
在開放存取資源文本分類之前,我們要先開始對資源進行預處理,一般主要包含文本分詞和進行大量的詞向量訓練。本研究為了更好地進行分詞,提升分詞的準確性,構建了開放存取資源語料庫。由于本文的開放存取資源主要是英文,因此對于英文的數據預處理要做的工作主要是按照關鍵字分詞。
自然語言模型訓練的產物,我們通常叫做詞向量,而詞匯由固定長度的向量來表示,通過大量收集的相關詞匯訓練,最終形成一個詞向量空間,而在空間中的每個點則代表一個詞匯。計算機通過大量的對開放存取資源的詞向量訓練,可以對資源進行分類識別,最終達到文本的可計算性。在對開放存取資源進行模型訓練時,如果沒有指定與之相對應的詞向量,自然語言模型則會選擇對開放存取資源詞匯進行相對的詞向量訓練,這是屬于隨機初始化的word2evc 向量,這個詞向量方法在深度學習領域中是常用的,在其他領域中也可以運用的到。
目前常用的文本分類模型有很多種,特征提取的好壞直接影響到分類的效果,因此基于傳統分類模型的文本分類方法的工作重點主要集中在特征提取和選擇上,常用方法有 TF-IDF、詞頻、文檔頻次、N-Gram、互信息等。
隨著深度學習的不斷發展,學者們將文本分類的研究重點轉向了基于人工神經網絡的分類模型。人工神經網絡是模擬生物神經網絡進行信息處理的數學模型。人工神經網絡由多個連接權值可調的神經元組成。其參數學習基于BP 算法,具有較強的非線性映射能力。神經網絡處理文本分類的優點之一,而不必花大量的時間在特征提取和選擇,將分布式說這個詞作為特征輸入到網絡,神經網絡可以自動提取文本分類的有價值的信息,這些信息通常是通過卷積,點,非線性函數,矩陣乘法操作等,和高度的信息編碼并不容易解釋。
隨著深度學習研究范圍的擴大,在很多領域中我們會發現,在常見的圖像、音頻處理方面,我們也會經常運用到深度學習方面的知識。由于本研究是針對開放存取資源進行的研究,屬于自然語言處理領域,因此,本文通過對自然語言處理相關的神經網絡模型進行研究,選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學習模型。
(1)embedding 層
利戴工業技術服務(上海)有限公司客戶項目經理趙慶山先生也以“智能工廠的整體解決方案”為題,介紹了工業服務體系在智能制造發展過程中扮演的角色及地位,同時也分享了其在上汽大眾動力總成有限公司等典型項目案例。這些項目不僅包括了加工設備的安裝調試和維護保養,同時也涉及了智能制造的落地,為推動企業轉型升級發揮了積極作用。
該層,作為神經網絡的第一層,它用作尋找輸入數據中的所有詞匯,并根據詞匯找到與其對應的詞向量,是用來將輸入數據中的所有詞語找到其對應的詞向量,最后再將所有得到的詞向量構造形成一個相應的矩陣。在這一層中,不需要添加訓練過的詞向量,并且詞向量在該層是隨機初始化的。
(2)bidirectional 層
在該層,通常采用雙向傳播的64個LSTM 神經單元進行文本分類訓練。
(3)dropout 層
可以有效的防止過擬合。過擬合是學習過程中把樣本數據中的所有特征都記錄了下來。因此,在這個學習過程中,計算機學習了大量的局部特征,而這個特征會對測試集在測試時造成一定的干擾,造成干擾后,會降低測試集的精度,這種局部特征在測試集進行預測時造成干擾,從而使測試集準確率下降,誤差可以用于判斷測試集是否過擬合,測試集內的誤差不斷減少,促使測試集外誤差逐漸減小在逐漸變大。
(4)dense 層
改成在整個神經網絡中起到了重要作用,主要負責的是分類的工作,這個過程是對數據集中的每條數據進行標記,在dense 層,也加入了sigmoid 激活函數,該函數的主要作用是對數據的某一分類的類別概率進行預測該,并完成分類任務。
(1)輸入層
Text-CNN 模型的輸入層需要輸入一個定長的文本序列,我們需要通過分析語料集樣本的長度指定一個輸入序列的長度L,比L 短的樣本序列需要填充(自己定義填充符),比L 長的序列需要截取。最終輸入層輸入的是文本序列中各個詞匯對應的分布式表示,即詞向量。
(2)卷積層
在NLP 領域一般卷積核只進行一維的滑動,即卷積核的寬度與詞向量的維度等寬,卷積核只進行一維的滑動。在Text-CNN 模型中一般使用多個不同尺寸的卷積核。卷積核的高度,即窗口值,可以理解為N-gram 模型中的N,即利用的局部詞序的長度,窗口值也是一個超參數,需要在任務中嘗試,一般選取2-8之間的值。
(3)池化層
在Text-CNN 模型的池化層中使用了Max-pool(最大值池化),即減少模型的參數,又保證了在不定長的卷基層的輸出上獲得一個定長的全連接層的輸入。
(4)全連接層
全連接層的作用就是分類器,原始的Text-CNN 模型使用了只有一層隱藏層的全連接網絡,相當于把卷積與池化層提取的特征輸入到一個LR 分類器中進行分類。
現如今,開放存取資源的發展越來越快,我們也發現學者發表的學術論文的也呈很大的比例增長,學術研究學者對學術論文的需求也逐漸增多。在此研究背景下,本文就是對開放存取資源進行分類,并方便學術研究學者檢索和研究。本文主要介紹了基于深度學習的文本分類過程和幾類經典的文本分類網絡模型,本文研究選取Bi-LSTM 模型和Text-CNN 模型作為處理開放存取資源的深度學習模型。