999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

移動圖書館詞典構建與應用

2019-12-16 06:14:30朱婷婷鄭德俊
圖書館理論與實踐 2019年11期
關鍵詞:圖書館用戶

朱婷婷,鄭德俊

(1.寧波職業技術學院圖書館;2.南京農業大學信息管理系)

1 引言

移動圖書館研究如火如荼,已有研究主要關注服務模式、平臺建設推廣、用戶體驗、用戶需求等方面,尤其重視對用戶的研究,近年來,移動圖書館用戶評論挖掘也成為研究熱點。[1]對于移動圖書館用戶評論挖掘,評論數據的預處理工作尤為重要,預處理將影響到后續的評論數據處理效果,其中,中文分詞是最關鍵的一步。分詞詞典是機械分詞的基礎,通用的分詞詞典主要收集的是日常用語及中華大辭海的詞匯。但是通用詞典不能滿足特定領域語料的分詞要求,且通用詞典中生僻字數量龐大,影響了分詞的準確性、合理性和時間性能。

對移動圖書館用戶評論進行預處理需要用到分詞詞典,但目前國內還沒有一部完善的大規模移動圖書館詞典。移動圖書館詞典是進行移動圖書館用戶評論預處理的前提,如何多渠道獲取移動圖書館相關詞條,構建移動圖書館詞典,并將其應用到分詞中來,已成為移動圖書館研究亟需解決的問題。

2 國內外研究現狀

目前,有三種構造分詞詞典的方法:① 人工輸入詞條信息為主、機器操作為輔的方式;② 從印刷版的詞典里獲取詞條并手動錄入的方式;③ 對大規模文本采用簡單的語言模型和概率統計,并分析有關詞匯信息的方式。前兩種方法主要是從印刷版文本中獲取信息,利用人工參與的方式去描述詞條信息,已有的很多語言信息庫、語義詞庫和詞典都是利用前兩種方法實現的。但前兩種方法存在明顯缺點:費時、費力、成本高,相較而言,第三種方法更為實用。[2]

在為構建詞典收集詞條時,可以采用基于現有詞庫資源的方法、基于語料庫的方法、兩者結合的方法。[3]①基于現有詞庫資源的方法主要利用現有詞庫資源(如,英文的WordNet、GI,中文的HowNet、同義詞詞林)來進行詞條擴展。Hu 和Liu 選取了一些褒義和貶義的形容詞作為種子集,利用WordNet 的同義詞和反義詞聯系對種子集進行擴展,建立情感詞典;[4]路斌等利用同義詞詞林中的同義詞詞群,根據褒貶義種子詞進行擴展,建立情感詞典;[5]張啟宇等利用網絡詞庫設置了農業詞匯的詞性編碼,以 MySQL 數據庫為例設計了農業領域專用的分詞詞典。[6]②基于語料庫的方法是指通過對相關語料庫進行抽詞獲得詞條信息,從而構建詞典。Huang 等使用句法分析和主觀線索字典抽取情感詞,根據PMI 建立情感詞之間的聯系圖,并以語言學規則以及語料中的并列、轉折關系作為限制條件;[7]孫霞等對領域生語料進行分詞處理,提出了基于切分單元的最大匹配算法得到候選詞串集,并最終生成領域詞典。[8]

經過文獻調研,筆者發現,面向移動圖書館領域的詞典研究幾乎空白。移動圖書館服務既包含傳統圖書館服務的數字化、信息化,又包含信息化、電子化時代用戶新需求所帶來的新型的圖書館服務,不斷更新、不斷拓展是移動圖書館服務的一大特點。移動圖書館用戶在評論語言的表達上具有一定的隨意性,口語化程度高,單一的收集詞條的方法難以保證收詞的全面性與可靠性。因此,本文提出一種移動圖書館詞典構建的收詞方法,并構建了一部移動圖書館詞典,為后續移動圖書館用戶評論的分詞研究提供便利。

3 詞典構建思路與方法

本研究以機器操作為主、人工判別為輔的方式構建移動圖書館詞典,旨在為移動圖書館用戶評論分析提供依據和基礎。移動圖書館詞典構建的詞條收集框架見圖1:①對移動圖書館用戶評論進行切分、詞頻統計,構造基礎詞典;②應用CiteSpace 分析中國知網期刊數據庫中與“移動圖書館”相關的文章的摘要與關鍵詞,并將其添加到基礎詞典中;③ 借鑒圖情領域相關詞典擴展詞條;④ 考慮到用戶評論語言口語化特點,融合輸入法詞庫;⑤基于《同義詞詞林》進行同義詞擴展,保證移動圖書館詞典全面而實用。

圖1 詞條收集框架圖

3.1 基于評論語料的基礎詞庫的構建

筆者將結巴分詞包導入Python 2.7 平臺,并對移動圖書館用戶評論進行分詞及詞頻統計。詞頻分析法利用關鍵詞或主題詞在領域文獻中出現的頻次來確定該領域的研究熱點和發展動向,其依據的基本理論為齊普夫定律(Zip’s law)。[9]依據關鍵詞頻次的高低排序,筆者去除專指度低、無法反映出具體研究內容的詞(如價值、越來越好等),最終得到符合集中分散“二八定律”的1,431 個關鍵詞,其中頻次top30 的關鍵詞樣例見表1。

表1 詞頻統計結果樣例

3.2 基于“中國知網”語料的詞匯擴展

本文選擇中國知網的中國學術期刊網絡出版總庫為數據源,檢索時間截至2018 年12 月31 日。為了保證檢索質量,筆者對檢索工作做了要求:① 以“移動圖書館”為中心詞,檢索篇名包括“移動圖書館”“數字圖書館”“移動信息服務”“手機圖書館”“掌上圖書館”的文獻;②選擇核心期刊和CSSCI 來源刊里的文獻作研究,其余的不作考慮;③ 將會議通知、簡訊、稿約、征文通知、編者序等不相關的文獻排除在外。筆者在Note-Express 里建立了題錄,題錄包括年份、標題、作者、刊名、關鍵詞、摘要等字段,題錄里共收錄了4,987 篇相關文獻。

以CiteSpace Ⅱ為分析工具,將文獻數據導入CiteSpaceII 中進行分析,設置相關參數:時間為1998-2018 年;主題詞來源選擇為標題(Title)、摘要(Abstract) 和關鍵詞(Author Keywords),最終得到13,409 個主題詞,其中top20 見表2。

表2 詞頻統計樣例表(部分)

3.3 基于圖情領域已有詞庫的借鑒

國家圖書館的圖書情報紙本詞典收藏全面,可通過各館館藏目錄或聯合目錄進行檢索。20 世紀90 年代以來,隨著網絡和信息技術的發展,基于互聯網開發的數字化參考源及其檢索系統有了迅速發展,圖書情報詞典也如其他參考工具書一樣有了新的發展平臺,出現了網絡版,如《圖書情報詞典》(1990 年)、《英漢-漢英文獻信息詞典》(1996 年)、《英漢圖書館學情報學詞匯》(2006 年)等。[10]本文借鑒已有的圖書情報相關詞典和圖書館詞典,在人工大致判別后將其加入基礎詞庫,共收集到18,416 個關鍵詞。

3.4 網絡詞語擴展

移動圖書館的用戶評論屬于在線評論,用戶輸入多采用拼音輸入法??紤]到詞條收集的完整性與全面性,筆者借助網絡上的詞庫進行詞條擴展。輸入法提供的詞庫都有其固定格式,筆者下載搜狗拼音輸入法、百度輸入法、紫光輸入法等相關詞庫,并利用深藍詞庫轉換工具將其轉換成無拼音格式的txt 文件。通過借鑒各輸入法的相關詞庫,整理合并得到7,152個關鍵詞,將其加入基礎詞庫。

3.5 基于《同義詞詞林》的詞匯擴展

漢語言博大精深,一詞多義、一義多詞,把名稱不同但表達意思相同的詞條叫做同義詞。哈爾濱工業大學信息檢索研究中心同義詞詞林擴展版[HIT-CIR Tongyici Cilin(Extended)] 是一部比較完善的同義詞的參考詞典,共收錄了77,343 條詞語,不僅包括同義詞,還包括同類詞,即廣義的相關詞?!锻x詞詞林》為了明顯區分每個詞的分類,在每行詞的前邊用編碼標記(見圖3)。編碼的第八位有3 種不同的表示符號,分別是:“=”“#”“@”,其中,“=”代表相等且同義,“#”代表不等但同類,“@”代表自我獨立、封閉(該類詞在詞典中既沒有同義詞也沒有相關詞)。

圖3 《同義詞詞林》樣例

本文中用到的只有同義詞,因此要先對《同義詞詞林》進行篩選整理。從《同義詞詞林》的編碼規則可以判斷出,只有末尾是“=”組詞是同義詞。

Step1:把整個《同義詞詞林》讀入list,循環對每個編碼的第八位進行識別,選出第八位為“=”的編碼組放在list_U 中,即list_U 中存放的就是同義詞;

Step2:按空格對list_U 中每個元素進行分詞,存入s_Word[]中,再比對s_Word[]中的詞匯與詞典中已有的詞匯;

Step3:把 Step2 中找到的情感詞與詞典進行比對,除了詞典中已經有的詞之外的所有的詞按照:“詞” “屬性” “值”的形式寫入到詞典中。

通過以上流程,筆者篩選出《同義詞詞林(擴展版)》中符合條件的擴展詞匯17,632 個。

最終,在對基礎詞典中的關鍵詞進行去重處理后,共得到51,930 個關鍵詞。至此,已完成了移動圖書館詞典的構建工作。

4 自定義詞典分詞測評

目前,國內移動圖書館主要有兩種形式,一是購買商業公司的移動圖書館App 服務,二是自建移動圖書館服務平臺。受限于圖書館自有的技術團隊和后期維護水平,國內絕大多數圖書館的移動圖書館服務以購買為主,因此,用戶評論數據也在商業公司服務器上,一般很難被公開查詢。2017 年以來,在國內某著名商業公司移動圖書館服務平臺的支持下,本研究獲取了26,976 條數據,筆者隨機抽取1,850 條有效評論作為實驗數據進行分詞,分詞結果的部分樣例見表3。

表3 分詞結果樣例(部分)

評判分詞效果的指標主要包括分詞的正確率和分詞速度。[11,12]移動圖書館詞典和結巴自帶詞典的分詞效果對比見表4。本文以P 為分詞正確率,N 為參與實驗的用戶評論數,n 為分詞錯誤的評論數,定義P=(N-n)/N;人工判別分詞結果,發現有17 條用戶評論分詞錯誤,分詞準確率為P=94.08%。在時間性能上,使用結巴自帶詞典耗時6 秒01,使用自定義專屬詞典耗時1 秒77,顯然使用自定義專屬詞典更高效。

表4 分詞效果對比

在分詞合理性上,使用自定義專屬詞典明顯優于結巴自帶詞典。由表5 可以看出,結巴自帶詞典分詞對于很多雙字詞識別不了,如“連接”“平臺”“及時”“字體”“改進”等,所以只能拆分成單字詞,而使用自定義專屬詞典則可大大減少此類分詞錯誤。

表5 分詞合理性對比(部分)

自定義詞典并不能實現100%的正確率。人工判別分詞結果時,發現有一些詞結巴自帶詞典和自定義詞典均不能識別,一共有17 條用戶評論出現錯誤(見表6),如“學號”“予人方便”“觸控系統”“越辦越好”“音量鍵”等??梢姡远x詞典還有很大的改進完善空間。

表6 分詞錯誤樣例(部分)

綜上,將自定義的移動圖書館詞典運用到移動圖書館用戶評論分詞中,其準確率、合理性和時間性能得到了明顯提升,可見本文一系列收集詞條的方法構建出的移動圖書館詞典具有較高的可靠性與有效性。

猜你喜歡
圖書館用戶
圖書館
文苑(2019年20期)2019-11-16 08:52:12
時間重疊的圖書館
文苑(2018年17期)2018-11-09 01:29:40
圖書館
小太陽畫報(2018年1期)2018-05-14 17:19:25
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
飛躍圖書館
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
圖書館里的是是非非
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 亚洲伦理一区二区| 国产综合色在线视频播放线视| 尤物午夜福利视频| 2021天堂在线亚洲精品专区| 久久精品一卡日本电影| 免费播放毛片| 日本成人一区| 国内精品91| 成人在线天堂| 少妇被粗大的猛烈进出免费视频| 欧美成人a∨视频免费观看 | 91系列在线观看| 色综合天天综合中文网| 一级毛片无毒不卡直接观看| 91小视频在线观看| 91九色视频网| 欧美国产在线精品17p| 国产激情无码一区二区免费| 啦啦啦网站在线观看a毛片| 欧美日韩成人| 日本欧美中文字幕精品亚洲| 国产第一福利影院| 草逼视频国产| 欧美精品影院| 华人在线亚洲欧美精品| 成色7777精品在线| 色偷偷男人的天堂亚洲av| 午夜国产在线观看| 亚洲日本韩在线观看| 热99精品视频| 国产自在线拍| 毛片大全免费观看| 茄子视频毛片免费观看| 88国产经典欧美一区二区三区| 97se亚洲| 久久香蕉国产线看观| 欧美人与牲动交a欧美精品| 无码又爽又刺激的高潮视频| 丁香五月亚洲综合在线| 综合五月天网| 欧美精品aⅴ在线视频| 国产91小视频| 日韩乱码免费一区二区三区| 亚洲 成人国产| 狠狠色狠狠色综合久久第一次| 中文字幕无码av专区久久| a级毛片网| 三区在线视频| 亚洲另类色| 91青草视频| 亚洲精品国产精品乱码不卞| 亚洲精品国产日韩无码AV永久免费网| 男人天堂伊人网| 国产黄网永久免费| 欧美日韩动态图| 国产欧美日韩综合一区在线播放| AV老司机AV天堂| 亚洲AⅤ综合在线欧美一区| 国产69囗曝护士吞精在线视频 | 亚洲中文字幕国产av| 国产精品视频观看裸模| 国内精自视频品线一二区| 欧美激情,国产精品| 毛片免费网址| 久久国语对白| 久久精品日日躁夜夜躁欧美| 国产激情国语对白普通话| 国产大片喷水在线在线视频| 亚洲系列中文字幕一区二区| 欧美性精品不卡在线观看| 免费观看国产小粉嫩喷水| 国产精品国产三级国产专业不| 国产成人做受免费视频| 亚洲最大看欧美片网站地址| 国产色伊人| 国产成人高清亚洲一区久久| 国内精品视频在线| 国产高清精品在线91| 国产一级片网址| 久久夜色撩人精品国产| 亚洲AV无码乱码在线观看裸奔 | 福利在线一区|