999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的圖書智能采編模式的構建

2018-06-06 00:48:48
中華醫學圖書情報雜志 2018年12期
關鍵詞:分類智能

圖書館編目業務外包是指圖書館將編目業務以合同的形式委托給書商或專業機構處理的方式[1]。徐州醫科大學圖書館(以下簡稱“我館”)2017年開始將編目業務全部外包給書商,通過編目外包縮短了新進圖書的上架時間,降低了圖書館的運營成本,提高了圖書館的咨詢和學科服務水平[2-3]。但由于外包編目人員知識水平欠缺、流動性大,導致編目質量低下,需要我館的編目人員進行審核,加大了數據校驗的難度,難以提高工作效率[4-5]。編目數據的著錄、分類、標引等工作外包的模式也一直存在爭議。如董劍平曾指出圖書著錄、分類、標引是關系到圖書館實現知識組織功能和社會文獻流整序功能的核心工作,外包不利于圖書館的讀者服務和的可持續發展[6]。

鑒于圖書館編目外包模式中存在書商編目人員不夠專業、不甚了解各個圖書館編目細則和流動性大等問題,難以保證外包的編目質量著錄、分類和標引由本館編目人員完成的部分外包模式雖然保證了編目質量,但效率低,外包效果不夠明顯,使編目外包陷入了兩難的境地。因此,以匯文系統為例,在現有圖書管理系統和編目部分外包的基礎上,結合機器學習技術實現自動批量智能采訪、批量智能套錄、智能分類和智能生成索書號的功能,提高采訪和編目效率,最后由本館的編目人員進行編目數據審核和圖書實物驗收。嚴把編目質量關的編目外包智能采編新模式,對圖書館編目外包模式和流程進行了創新研究,對圖書館編目外包業務的深入開展具有一定的借鑒意義,有利于圖書館的可持續發展。

1 基于機器學習技術的圖書館智能采編解決方案

1.1 機器學習在中文書目自動分類中的應用

機器學習(Machine Learning)技術是指采用計算機模擬人類的學習行為,通過學習訓練從已知樣本中尋找規律,并利用規則對未知數據進行預測,目前已廣泛應用于圖書自動分類。機器學習技術能夠根據中文圖書的題名、關鍵詞和摘要等內容特征自動給出中圖法分類號,常用的方法有樸素貝葉斯法、K近鄰、支持向量機以及人工神經網絡等[7-8]。楊曉花提出使用多父差分進化策略挖掘上一代更多的額外信息,提高樸素貝葉斯的分類精度,以便獲取全局最優的解決方案[9];楊敏提出構建基于詞頻和TFIDF(Term Frequency-inverse Document Frequency)混合特征的向量矩陣,再利用支持向量機(SVM)算法對圖書進行自動分類效果更好[10];郭利敏提出構建基于題名、關鍵詞的多層次卷積神經網絡模型,使之能夠根據文獻的題名和關鍵詞自動給出中圖分類號,以此提高圖書分類的準確性[11]。

1.2 圖書自動分類器的構造方法

基于機器學習的圖書分類器的構造主要包括預處理、特征提取和機器學習3個關鍵環節[12-14]。

本文預處理首先提取MARC數據中的題名、主題、摘要和索書號等信息并轉化為Excel格式,再采用Python的pandas庫的DataFrame對象進行數據清洗,采用jieba分詞對題名、摘要(或主題等)進行分詞處理,得到文本所包含的詞條信息,將非結構化的文本信息轉換為結構化的詞條信息。

本文使用詞頻加TFIDF混合特征提取方法,將詞條信息描述為向量空間模型。圖書的書名對揭示圖書內容和主題的作用更加重要,所以將書名用于詞頻特征提取能更明顯地區分圖書的類別。摘要是圖書內容的簡介和主旨介紹,能夠提取更多的特征,使機器學習的效果更好,分類更準確。但由于其內容較多,重復的、與書目主題關聯性不大的內容易產生噪音,把“了”“的”“本書”等無意義的詞剔除后,提取詞頻特征和TFIDF特征進行修正,并為每個特征分配不同權重。對于候選特征需要將其轉換為SVM機器學習所需要的特征向量矩陣,其中每行代表一個書目,每列代表測試數據中抽取出的一個特征,矩陣中的每個元素代表特征的值。如公式1所示,Bi代表書目i的特征向量, Cij代表書目i中第J個特征的值。

Bi=[Ci1,Ci2,Ci3,......Cij]

(公式1)

式中,Cin= H1×FTin + H2×FAin + H3×TFIDF(n,i)

(公式2)

式中,TFIDF(n,i)= TF(n,i) × IDF(n)

(公式3)

公式2中,H1表示特征詞出現在書名中的權重,FTin表示特征詞n在i書名中出現的頻率;H2代表特征詞出現在書目摘要中的權重,FAin表示特征詞在i書目摘要中出現的頻率;H3表示特征詞在摘要中的TFIDF值的權重,TFIDF(n,i)表示特征詞n在i書目摘要中的TFIDF值。H1+H2+H3=1。

公式3中,TFIDF特征用兩個項的乘積表示。TF(n,i)項表示特征n在書目i摘要中出現的頻度,該值越大說明特征n在書目i的相關性越強和該特征n對書目i越重要;IDF(n)項表示逆文檔頻度,可以表示為IDF(n)-log10(N/DF(n)),其中N表示訓練書目總數,DF(n)表示特征 n 在所有訓練書目摘要中出現的總次數。可見在所有書目中,特征n出現的頻度越大,說明該特征n對書目的區分能力越弱。在書目分類時,特征的TFIDF 值越高,表明該特征的區分能力越強。經過測試發現,H1取值0.7、H2取值0.2、H3取值0.1時能達到最佳的分類效果。支持向量機算法具有泛化能力強、計算復雜度樣本空間維數關聯小的特點,所以本文使用支持向量機算法進行機器學習構建中文圖書多級分類器。先構建大類分類器(支持22個圖書大類),然后再構建每個大類的子分類器。在應用中,第一步先用大類分類器進行大類預測,大類分好后再用其子分類器進行子類預測,可根據具體大類的相關情況進行多級分類器設計,以達到更好的分類效果。

1.3 基于機器學習的圖書智能采編模式

本文在現有圖書管理系統和圖書物理加工外包的基礎上,提出利用機器學習實現圖書自動分類,增加批量采訪、著錄、分類和標引的功能進行智能采訪和編目,最后由本館的編目人員進行數據審核和實物驗收的圖書編目外包方案。對現有的圖書編目外包進行流程再造,構建圖書智能采編新模式,使圖書編目更加自動化和智能化,既能提高工作效率,又能發揮本館編目人員的專業優勢,保障編目質量。智能采編模式流程如圖1所示。

圖1 圖書館智能采編模式總體流程

2 智能采訪

書商先把ISBN、條碼號(圖書館分配)、題名、責任者、出版社、版本、叢書項、金額、摘要、主題等書目信息整理成Excel表格,和新進圖書及清單按一定的順序一起提供給圖書館采訪人員,由他們對圖書進行人工初核、預驗收。確定合格后,采訪人員將Excel表格的數據在圖書管理系統中批量進行智能采訪[15]。以匯文系統為例,原匯文系統中需要采訪人員一一掃描ISBN號、條碼號進行關聯、核對書目信息是否在預訂數據之中、輸入金額等。智能采訪模塊將批量導入書商提供的書目數據,并與對應的預訂數據進行智能匹配,匹配條件為ISBN、題名、價格、冊數等(系統可配置)。全匹配成功進入準入庫單,匹配不成功時數據不一致進入待復核清單,預訂數據中沒有的進入未預訂清單,書商數據中沒有的進入未配清單。待復核清單需要采訪人員與書商共同確認,修改書商數據后進行人工復核,進入準入庫單,有問題的退回書商。未預訂清單需要圖書館與書商協商哪些書目可以訂購,采訪員復核后新增數據進入準入庫單,其他退回書商。未配清單需要書商注明理由,如遺漏、缺貨或是分批供應等。所有問題都處理完后,將準入庫單進行入庫,并在系統中與條碼進行綁定,生成財產號,寫入MARC數據[16]。可提前配置好財產號的產生規則,如是否與條碼號一致、編碼規則和自增規則等。入庫后打印入庫單,進行批量送編。整個智能采訪的流程如圖2所示。

圖2 圖書館圖書智能采訪流程

3 智能編目

智能編目可以按送編批次批量套錄、智能分類和種次號分配,因此可以極大地提高編目效率。具體流程圖如圖3所示。這部分模塊需要對現有圖書管理系統進行升級改造。套錄以使用較廣泛的中國高等教育文獻保障文獻系統(CALIS)為例。

圖3 圖書館圖書智能編目流程

3.1 編目智能套錄

系統支持根據ISBN從CALIS批量套錄MARC數據。匯文系統只支持單個書目從CALIS套錄MARC數據,需要增加批量套錄的功能[17]。套錄成功后將關鍵字段(題名、責任者、版本、出版社等)與書商提供的數據進行智能比對,一致則數據等級標記為一級,不一致標記為二級。若通過CALIS找不到,則根據書商提供的數據進行編目數據加工,數據等級標記為三級,以便編目人員在核對編目數據時分類差別化處理,提高編目數據質量和工作效率。

3.2 編目智能分類

圖書館要根據本校的類別、本館的性質、任務和讀者閱讀需求,制定《中圖法》本館使用本,規定各類圖書的分類詳簡級次,復分、仿分的使用規則,參見類目的使用規則,組配號的使用規則和并列關系的使用規則等[18]。參見類目:如某種疾病的食養、食療入相關各類,同時可以參見TS972.161。如《糖尿病健康食療圖典》,我校醫學院校分為R587.1,其他學校分為TS972.161。組配分類:如H319.4讀物,以提高閱讀能力為目的的各科簡易讀物、對照讀物、注釋讀物,如愿細分,可用組配編號法。如我館的《亞馬孫恐怖之旅》為H319.4:I,《胃腸病學》為H319.4:R,我館規定組配后面的分類不需要再細分,只到大類即可。并列關系:如《解剖學與組織胚胎學》,人體胚胎學為R321,人體解剖學為R322。有這種并列類目的時候,可以選擇上位類R32為分類號,也可以根據本館的規定,分到下位類。另外,各個大類在分類中,具體分到幾級類目,也可以根據自身情況進行規定,然后根據每個圖書館的具體規則進行智能分類校正。根據圖書MARC數據的題名(200字段)、摘要(330字段),各個主題字段(600、601、602、604、605、606、607、610等)利用機器學習技術掌握各館的分類細則并對新進書目進行智能分類,不需對每一個細則在系統里進行人工設置。

我館有100多萬冊圖書和30多萬MARC數據。按22個大類下載我館的MARC數據中,I類有5萬多條,R類有8萬多條,只下載了30%的數據,其余的大類全部下載共計199 060條。首先進行MARC數據轉換,提取題名、摘要、主題、索書號、作者、出版社等相關圖書信息。經分析發現有多個分類號的圖書在其各個大類下載的數據之中均有重復,同一本書在系統內有多個MARC數據有重復。然后進行數據清洗,利用索書號分配MARC數據的大類,這樣有多個分類號的MARC數據(6 654條)大的分類號與我館的實際應用一致,保證通過學習構造的分類器符合我館的分類細節。再根據題名和摘要去重,保留有效數據,清洗后書目數據為192 574條,最后選取語料集。

為了提高圖書分類器的分類精度,分類MARC數據小于2 000條的大類不再參與本文研究,其他大類每類取35%的數據(30%的訓練語料,5%的測試語料),訓練語料不滿2 000條的按2 000選取,測試語料不滿400條的按400選取。按上述規則從14個大類18萬多書目數據中隨機選取57 270條書目數據為訓語料集,隨機選取9 871條書目數據為測試語料集(表1)。

表1 智能分類語料集構成明細

分類器設計為2級分類,先按14個大類進行智能分類,分配完大類后再進行大類的子類智能分類,這樣可以逐步縮小語料范圍,提高分類精度和速度。以題名、摘要和各個主題字段為輸入,分類號為類目標簽,進行TFIDF特征提取,利用SVM算法進行監督學習,構建各級分類器。由于測試語料包括分類號,智能分類號與此分類號相同或互為上位類就算分類正確。如《軟件工程》測試語料的原分類號為TP311.5,智能分類為TP311.5或TP311都算正確。實驗表明一級大類分類器的測試正確率大概在94%~97%之間,二級分類器的測試正確率大概在88%~92%之間,綜合正確率達到85%以上,符合日常工作的需求(表2)。

圖書分類器為套錄的MARC數據分配中圖分類號,一、二級套錄數據標記為校正中圖分類號,與套錄MARC數據中的中圖分類號進行比對,不一致的標記供編目人員審核數據時進行處理;三級MARC數據直接采用此中圖分類號。

3.3 索書號智能生成

索書號是由分類號加書次號組成。書次號即同類圖書的區分號碼,用來確定相同分類號圖書的排架次序。圖書編目時書次號的形成方式主要有分類種次號、四角著者號和漢語著者號3種,其中分類種次號最常用[19]。分類種次號是用流水號區分相同分類號的不同圖書,即圖書編目時,當第一次錄入某個分類號時,對應的種次號為1,再錄入時依次遞增。系統支持批量多層次檢索,智能分配種次號(支持多卷書、再版書等情況的復雜邏輯處理),生成索書號。我館種次號分配規則如圖4所示。

種次號生成的判斷條件包括ISBN、題名、責任者、出版社、分類號、分輯題名或分卷題名、叢編、出版發行附注、責任者附注和版本附注等,生成規則包括與原書數據合并、再版書處理、多卷書處理和順序生成種次號等。

智能圖書編目系統支持批量用ISBN、題名及從編項進行檢索,根據規則智能生成種次號,并支持各館根據其自己的編目細則進行個性化設置,該系統符合各館建設的標準和規范。最后分類號加種次號生成索書號,由本館的編目人員進行數據審核和實物驗收。

表2 基于混合特征的SVM分類器語料測試實驗結果

圖4 我館種次號生成規則

4 數據審核和實物驗收

系統支持批量智能數據審核。編目外包必須對書商提供的數據和系統進行批量采訪和對編目生成的數據進行審核,才能在提高效率的同時保障編目的質量,所以編目人員要對編目數據進行分類差別化審核處理。對一級編目數據或分類校正一致的編目數據實行5%的隨機抽查,對二級編目數據或分類校正不一致的一級編目數據實行50%的隨機重點審核,對三級編目數據實行全面審核(3種類型的抽查比例可根據本館的具體運營情況進行調整)。審核人員首先對圖書MARC數據的內容、詳盡程度和是否符合文獻著錄標準與規范等進行校對,可與圖書的實物、清單進行核查,然后重點審核分類號和種次號是否按照本館的編目細則進行選取、是否符合規定標準等,不合格的由審核人員進行手工處理。審核完成后打印審核驗收單和書標,交給書商進行統一加工,包括蓋館藏章、加印財產號、貼書標和貼磁條或RFID標簽等[20]。加工完成后交給編目部門,對財產號、條碼、書標是否清晰、端正,磁條的磁性等進行實物驗收。系統支持對書商編目業務外包質量進行評價,為下次圖書采購招標提供依據[21-22]。圖書經過編目、實物驗收后,統一送典藏、上架,就可以正常流通了。

5 結語

本文介紹了我館編目外包以來的運行情況,指出了編目質量難以保障的相關問題,分析了機器學習技術在圖書智能分類的應用情況,提出了基于圖書的題名、摘要的詞頻與TFIDF的混合特征構建向量空間模型,利用支持向量機算法實現圖書的智能分類,最終構建圖書批量采訪、套錄、智能分類、智能生成種次號和本館編目人員統一審核的采編模式。經過測試發現圖書智能分類綜合正確率達到85%以上,符合日常工作的需求,但發現TFIDF特征在分析交叉學科圖書分類時效果相對較差。下一步將繼續研究基于混合特征的多種機器學習算法分級組合應用,各種算法取長補短,爭取達到最佳的圖書分類效果,真正解決編目外包質量問題,提高工作效率。

猜你喜歡
分類智能
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
智能制造 反思與期望
分類討論求坐標
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
智能制造·AI未來
商周刊(2018年18期)2018-09-21 09:14:46
數據分析中的分類討論
主站蜘蛛池模板: 国产一级毛片在线| 国产欧美自拍视频| 亚洲欧美成人网| 精品视频一区二区三区在线播| 狠狠色狠狠综合久久| 日韩 欧美 国产 精品 综合| 亚洲自偷自拍另类小说| 亚洲日本精品一区二区| 2020亚洲精品无码| 国产成人免费| 国产成人一级| 九九精品在线观看| 国产美女91呻吟求| 国产精品欧美在线观看| 日韩欧美网址| 一级香蕉人体视频| 日本成人在线不卡视频| 亚洲 日韩 激情 无码 中出| 久久精品人人做人人爽97| 国产人成在线观看| 亚洲无码日韩一区| 九色在线观看视频| 国产传媒一区二区三区四区五区| 麻豆精选在线| 伊人久久精品亚洲午夜| 亚洲精品动漫| 免费在线视频a| 国产美女免费| 园内精品自拍视频在线播放| 久久精品国产亚洲AV忘忧草18| 亚洲色图在线观看| 免费aa毛片| 成人福利在线视频| 无码 在线 在线| 狠狠亚洲五月天| 尤物视频一区| 亚洲欧美日韩精品专区| 国产精品亚洲欧美日韩久久| 国产精品尤物在线| 精品国产一区二区三区在线观看| 自偷自拍三级全三级视频| 亚洲专区一区二区在线观看| 国产美女精品在线| 日韩a在线观看免费观看| 麻豆a级片| 真人高潮娇喘嗯啊在线观看 | 亚洲精品无码AⅤ片青青在线观看| 青青草国产免费国产| 免费激情网站| 日韩中文无码av超清| 夜夜拍夜夜爽| 亚洲女同一区二区| 高清欧美性猛交XXXX黑人猛交 | 亚洲欧美自拍视频| 永久天堂网Av| 国产视频欧美| 国模在线视频一区二区三区| 在线亚洲精品福利网址导航| 久久99久久无码毛片一区二区| 国产一在线观看| 91无码网站| 国产精品冒白浆免费视频| 日本精品中文字幕在线不卡| 国产精品久久自在自2021| 亚洲综合专区| 中文字幕在线免费看| 国产呦视频免费视频在线观看| 日本一本正道综合久久dvd| 五月天天天色| www亚洲天堂| 国产午夜人做人免费视频| 免费不卡在线观看av| 她的性爱视频| 亚洲男人在线天堂| 一级毛片免费播放视频| 日日噜噜夜夜狠狠视频| 日本人妻丰满熟妇区| 欧美精品导航| 国产精品人成在线播放| 欧美精品亚洲精品日韩专区va| 国产乱子伦无码精品小说| 日韩AV手机在线观看蜜芽|