999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于LDA模型的圖書館文獻分類系統設計與開發

2018-08-25 08:14:44劉芳
電子設計工程 2018年16期
關鍵詞:分類圖書館文本

劉芳

(陜西學前師范學院陜西西安710100)

人類在獲得知識過程中的方式主要包括兩種,第一種為實踐,第二種為閱讀。雖然實踐非常重要,但是能夠通過閱讀有效掌握先輩們的實踐成果及經驗,圖書館屬于學校及整個社會尤為重要的部分,其使我們站在巨人肩膀中學習[1]。在現代信息大爆炸時代不斷來臨及專業分類不斷細化的過程中,對于圖書文獻分類具有大量的要求。為了能夠有效滿足現代圖書館設備管理需求,避免因為人為管理出現的錯誤,就要實現圖書館文獻分類系統的設計和開發[2]。目前,國內外圖書館文獻分類系統的主要趨勢為網絡化、資源化、個性化及小型化,其不僅能夠實現分布式資源相互操作的特點,還能夠實現并行處理高速查詢。大部分的圖書館已經實現編目、采訪、閱覽、流通及信息咨詢等工作自動化統計及管理,提高了圖書館服務質量及工作效率。但是部分圖書館并沒有得到完善,其分類系統更新比較緩慢,學科分類比較單一,無法滿足現代全新文獻分類需求[3]。基于此,文中實現了基于LDA模型的圖書館文獻分類系統的設計。

1 系統需求分析

因為傳統圖書館文獻在手工操作模式中,圖書編目及借閱的工作量比較大,并且精準性較低,所以就要創建圖書館多種功能,詳見圖1,根據需求對主要功能需求進行歸納[4]。

圖1 圖書館文獻分類系統的功能模塊

通過圖1可以看出來,用戶不需要登錄就能夠對圖書館圖書信息及文獻信息進行檢索及瀏覽,如果用戶使用借書證號及密碼實現系統的登錄,可以使用讀者論壇、圖書館及資源共享等模塊功能[5]。圖2為管理員的需求功能結構。

圖2 系統管理員的需求功能結構

圖書管理人員主要是圖書館文獻分類系統的使用人員,參與到圖書館中的所有業務,其比普通用戶具有更多的需求。其能夠實現圖書信息、借閱人員信息、總體借閱情況信息管理及統計,并且還能夠對圖書基本信息進行瀏覽、添加及查詢等操作[6]。

2 圖書館文獻分類系統總體設計

目前,學科分類越來越細化,單一學科逐漸朝著跨學科及學科交叉方向發展,同一個文獻能夠同時屬于多個學科及多個主題。傳統圖書館分類系統是利用詞和詞之間對比對文獻相似性進行判斷。但是,基于現實語言環境,兩個共同語句較少文獻有可能表達相同主題,只是使用不同闡述方式。所以,在對比文獻的時候,可以通過其對相同主題的描述對其相似度進行描述。本文所研究的基于LDA模型的圖書館文獻分類系統全面考慮了標簽及頻率相關性,提高了系統的性能[7]。圖3為基于LDA模型的圖書館文獻分類系統的用例圖。

圖3 基于LDA模型的圖書館文獻分類系統的用例圖

文中設計的系統主要包括特征抽取、預處理、文獻分類及分類訓練器模塊。其中預處理模塊的功能就是實現圖書館現有格式文獻資源的格式轉換,統一使其轉換成為文本文檔格式,并且實現格式文檔分詞處理等;其中分類器訓練模塊的主要目的為將包括語義信息特征到判別式分類模型中放入實現分類器參數訓練,使用訓練參數實現分類器的定義;特征抽取模塊使用LDA模型實現文本特征的表示,并且實現特征提取,對其進行權值賦予;文獻分類模型的功能為用戶通過對需要分類的文檔進行有效的選擇,實現分類結果目錄的指定,實現所有文檔分類,之后到結果文件中輸入[8]。圖4為圖書館文獻分類系統的主要結構。

3 基于LDA模型的圖書館文獻分類系統的設計

3.1 系統硬件設計

文中所設計的基于LDA模型的文獻分類系統主要目的為實現移動數字圖書館內容的數字化,也就是實現相關文獻資料的數字化。其能夠以圖書分類系統為基礎,根據讀者需求實現不同形式的制作,所以制作之后的形式并不同[9]。圖5為圖書館文獻分類系統的硬件結構。

圖4 圖書館文獻分類系統的主要結構

圖5 圖書館文獻分類系統的硬件結構

3.2 系統的詳細設計

文中研究系統的開發使用的軟件及硬件環境主要為:應用層使用功能VStuido集成化開發環境,在實現文本規范化處理的過程中,主要包括去停用詞及中文分詞等,利用分詞實現文本的為基本詞集合。其中特征抽取模塊指的是從文本中選擇能夠有效將文本類別反應出來的詞作為特征,之后實現特征提取;文獻分類模塊使用戶利用需要分類的文檔選擇實現分類結果目錄的制定,之后實現所有文檔分類;分類器訓練模塊將包括語義信息特征到分類模型中存放,之后實現分類器參數的訓練,使用訓練之后的參數進行分類器的定義[10]。圖6為圖書館文獻分類系統的詳細設計結構。

圖6 圖書館文獻分類系統的詳細設計結構

3.2.1 預處理模塊

圖書館文獻資源格式各不相同,首先要實現多種格式數據的轉化,使其能夠成為計算機便于處理的格式,在此過程中要刪除文本標點符號及空格。出國文檔處理之后,要使用正向最大匹配及CRF方法相互結合實現分詞處理,之后對文本中的詞進行逐一的掃描,將詞實現相互匹配,實現停用詞的過濾處理,最后得出文檔分解的詞列表,在本次磁盤中存儲[11]。圖7為圖書館文獻資源轉換格式的流程。

圖7 圖書館文獻資源轉換格式的流程

3.2.2 特征抽取模塊

在文本分類中,要想能夠提高計算機對真實文本的處理效果,就要尋找理想形式化表示方法,此種表示方法要能夠將文檔內容充分的反映出來。傳統圖書館文獻分類系統是利用詞之前對比實現文獻相似性判斷,但是現實語境中的共同詞語較少文獻在表達相同主題的時候使用參數方式不同,所以還要全面了解其對主題的判斷。LDA屬于實現文本數據主題信息建模的方式,其能夠簡單描述文檔,保存本質統計信息,從而有效提高文檔集大規模處理的高效性。所以本系統使用LDA主題模型表示文本特征,從而實現文本特征抽取模塊的創建[12-13]。圖8為特征抽取模塊處理的過程。

圖8 特征抽取模塊處理的過程

3.2.3 分類器訓練模塊

圖9為分類器訓練模塊的算法流程,首先實現模型的加載,之后得到加載的類別,最后將模型進行銷毀。

圖9 分類器訓練模塊的算法流程

3.2.4 文獻分類模塊

以文本主題條件為基礎,使系統對此矩陣矩陣模塊進行讀取,對于需要分類的文本使用此矩陣實現文本分類,將分類的結果到本地硬盤中實現序列化[14-16]。圖10為文獻分類模塊的流程。

圖10 文獻分類模塊的流程

3.3 數據庫的設計

表1為圖書館文獻分類系統中相應的信息表。

表1 用戶基本信息表

表2 圖書文獻信息表

4 結束語

現在多標簽的文本分類還并沒有滿足理想分類性能需求,并且也無法滿足圖書館學術文獻分類實際使用需求,其具有一定的提高空間。對本文所研究系統進行全面的分析,表示其能夠有效滿足用戶需求,確定主題模型的數量,實現大規模主體模型的訓練,實現大量數據的處理。

猜你喜歡
分類圖書館文本
分類算一算
在808DA上文本顯示的改善
分類討論求坐標
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據分析中的分類討論
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
教你一招:數的分類
飛躍圖書館
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
圖書館里的是是非非
主站蜘蛛池模板: 国产精品黄色片| 日韩在线中文| 最新日本中文字幕| 91精品啪在线观看国产| 国产成人精品亚洲日本对白优播| 欧美日韩中文国产| 国产人碰人摸人爱免费视频| 亚洲一区免费看| 91福利片| 91成人免费观看| 欧日韩在线不卡视频| 欧美啪啪一区| 制服丝袜一区二区三区在线| 91成人在线观看| 欧美日韩精品一区二区视频| 夜夜操国产| 国产探花在线视频| 亚洲成人黄色在线观看| 日本高清免费一本在线观看| av色爱 天堂网| 国产精品无码在线看| 国产精品免费p区| 亚洲 欧美 偷自乱 图片 | 久久一日本道色综合久久| 国产精品视频免费网站| 综合色亚洲| 日本a级免费| 成年人久久黄色网站| 成年人福利视频| 国产一区二区三区免费观看| 性欧美精品xxxx| 国模视频一区二区| 中文字幕中文字字幕码一二区| 国产精品尤物在线| 日韩av在线直播| 国产精品黑色丝袜的老师| 99久久精品免费看国产电影| 欧美午夜在线播放| 精品国产电影久久九九| 制服丝袜 91视频| 91精品专区| 高清欧美性猛交XXXX黑人猛交| 国产亚洲精| 国产精品视频3p| 全部免费毛片免费播放| 免费va国产在线观看| 在线观看国产黄色| 亚洲精品第1页| 激情综合网激情综合| 日韩色图在线观看| 一级爆乳无码av| 欧美日韩成人在线观看| 亚洲aaa视频| 日韩欧美国产综合| jizz在线免费播放| 99999久久久久久亚洲| 日韩成人在线一区二区| hezyo加勒比一区二区三区| 国产成人亚洲综合A∨在线播放| 福利小视频在线播放| 77777亚洲午夜久久多人| 欧美三级视频网站| 亚洲swag精品自拍一区| 国国产a国产片免费麻豆| 国产女人喷水视频| 国产乱人视频免费观看| 国产污视频在线观看| 5555国产在线观看| 欧美国产在线看| 国内99精品激情视频精品| 欧美日韩中文国产va另类| 91在线一9|永久视频在线| 国产视频大全| 亚洲精品高清视频| 亚洲精品无码专区在线观看| 国产又色又爽又黄| 日本免费精品| 国产在线精品美女观看| 91国内在线观看| 国产剧情国内精品原创| 国产H片无码不卡在线视频| 久久成人18免费|