王繼華
關鍵詞:?大數(shù)據(jù)時代;圖書館數(shù)據(jù)挖掘;情報分析;中文發(fā)現(xiàn)系統(tǒng)
摘 要:?大數(shù)據(jù)時代,對大量數(shù)據(jù)進行挖掘、分析、處理、提取成為圖書館服務升級及服務范圍拓展的主要工作內(nèi)容,而海量數(shù)據(jù)中存在的暗數(shù)據(jù)對相關數(shù)據(jù)的實際應用價值造成了嚴重的阻礙。文章以大數(shù)據(jù)時代圖書館中文發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)挖掘及情報分析功能為例,結(jié)合大數(shù)據(jù)的概念及應用特點,對大數(shù)據(jù)時代圖書館的數(shù)據(jù)挖掘及情報分析進行了探究,旨在為大數(shù)據(jù)時代圖書館服務效率的提升提供一些參考。
現(xiàn)階段,全球信息總量呈爆炸式增長,大數(shù)據(jù)時代已經(jīng)到來。目前學界還沒有明確的關于大數(shù)據(jù)的概念,一般來說,大數(shù)據(jù)主要是指管理PB級的數(shù)據(jù)存儲,并通過數(shù)據(jù)挖掘及情報分析技術,獲得對應數(shù)據(jù)的潛在價值,從而為相關人員提供信息數(shù)據(jù)支持。圖書館大數(shù)據(jù)主要用于學術性質(zhì)的數(shù)據(jù)集合,其在數(shù)據(jù)大小方面遠遠超出了常規(guī)運行軟件可以承受的處理范圍。因此,對圖書館大規(guī)模數(shù)據(jù)進行分析,對數(shù)據(jù)挖掘及情報分析技術進行適當探究具有非常重要的意義。
1 大數(shù)據(jù)的特點
相較于以往的海量數(shù)據(jù)而言,大數(shù)據(jù)具有價值密度低、多樣性、體量大、速度快的特征。大數(shù)據(jù)時代,人們可以利用數(shù)學運算的方式對內(nèi)部數(shù)據(jù)進行綜合分析,從而得出相應事件的未來發(fā)展趨勢,獲得未知領域相關學術信息的關聯(lián)性。大數(shù)據(jù)時代,系統(tǒng)、完整、全面的數(shù)據(jù)深度剖析,可以對以往知識體系進行逐步完善,并獲得更深層次的知識脈絡,如亞馬遜、奈飛依據(jù)用戶類似查詢,可以進行相關產(chǎn)品推薦,從而提高對應商品的銷售效益。
2 大數(shù)據(jù)時代下圖書館的數(shù)據(jù)挖掘及情報分析的困境及優(yōu)化思路
2.1 大數(shù)據(jù)時代圖書館數(shù)據(jù)挖掘困境及優(yōu)化思路
大數(shù)據(jù)時代,數(shù)據(jù)科學得到了迅速的發(fā)展,圖書館大數(shù)據(jù)開發(fā)處理效率得到了有效提升。首先,大數(shù)據(jù)時代圖書館內(nèi)部學術信息資源規(guī)模的提升,對圖書館數(shù)據(jù)挖掘工作提出了更高的要求。大數(shù)據(jù)時代,數(shù)字館藏規(guī)模不斷擴大,數(shù)據(jù)類型也呈現(xiàn)出多樣化的特征。以往隨機取樣的大數(shù)據(jù)分析方法,已不能滿足現(xiàn)階段圖書館數(shù)字化服務的要求,再加上大數(shù)據(jù)環(huán)境中相關數(shù)據(jù)價值往往隱藏在海量數(shù)據(jù)中,單一的機器及取樣方式已無法獲取相應數(shù)據(jù)的細節(jié)問題。針對這種情況,在數(shù)據(jù)挖掘模型構(gòu)建過程中,圖書館就需要進行分布式計算框架的設置,如利用Spark、Map Reduce等軟件進行集群計算環(huán)境的設置,同時,結(jié)合數(shù)據(jù)前期清洗也可在時間一定的情況下獲得相應的文獻關聯(lián)信息。其次,隨著圖書館內(nèi)部數(shù)據(jù)類型的多元化發(fā)展,圖書館數(shù)據(jù)也由以往的多維、一維逐步轉(zhuǎn)化為巨維。而在巨維數(shù)據(jù)分析過程中,以往多維數(shù)據(jù)模型就無法發(fā)揮良好的分析能力。在這種情況下,圖書館就需要結(jié)合主成分分析、奇異值分解等維度規(guī)約技術,適當降低數(shù)據(jù)維度,保證數(shù)據(jù)模型的可靠性。最后,在當前數(shù)據(jù)挖掘分析過程中,圖書館仍然無法在常規(guī)數(shù)據(jù)挖掘任務中有效識別詞語語義關聯(lián)、近義詞或同義詞的聯(lián)系,如信息檢索、自動摘要等。此時,短文本處理環(huán)節(jié)就無法保證整體數(shù)據(jù)文獻處理的效果,再加上目前圖書館數(shù)據(jù)知識庫在規(guī)模及應用方式上的限制,也對圖書館提供全方位的數(shù)據(jù)信息服務造成了一定的阻礙。筆者認為,以上問題都可通過應用語義處理技術加以解決,即適當提升相關數(shù)據(jù)挖掘算法的語義化等級,提高整體數(shù)據(jù)的處理效率。在語義處理過程中,圖書館主要依靠中文知網(wǎng)、WordNet、維基百科、互動百科等結(jié)構(gòu)化程度較高的知識庫,結(jié)合Word2 Vcctor工具的應用,進行大規(guī)模預料詞語矩陣的建立,以便為圖書館圖像、視頻、語音挖掘效率的提升提供依據(jù)?[1]。利用語義處理技術還可以將音頻數(shù)據(jù)轉(zhuǎn)換為文本,并通過聲音信號時間位置的記錄,提高整體音頻數(shù)據(jù)標準的準確性。結(jié)合語義標注方式及微信等社會化API網(wǎng)絡接口的設置,圖書館也可以確定相應數(shù)據(jù)概念的本體,便于明確信息間的聯(lián)系,構(gòu)建多維度知識處理網(wǎng)絡。
2.2 大數(shù)據(jù)時代圖書館情報分析困境及優(yōu)化思路
以往圖書館情報分析大多為專利資源、Web資源、文獻資源等文本信息,而現(xiàn)階段數(shù)據(jù)源除文本數(shù)據(jù)外,還包括科技計劃項目立項書、政府公文、科技報告等非機構(gòu)文檔,致使傳統(tǒng)數(shù)據(jù)情報分析的弊端日益凸顯。同時,基于大數(shù)據(jù)存儲量的TB或PB級別,圖書館還需要在統(tǒng)一數(shù)據(jù)非結(jié)構(gòu)情報分析模型中,進行有效信息抽取算法的設置,以便實現(xiàn)多數(shù)據(jù)源情報的有效融合?[2]。在大數(shù)據(jù)情報分析數(shù)據(jù)挖掘算法設置過程中,圖書館需要在以往關聯(lián)規(guī)則、分類算法的基礎上,對分析結(jié)果的準確度要求進行螺旋式處理,并設置相應的實時數(shù)據(jù)動態(tài)情報分析工具,以保證大量情報資源的有效分析。以往圖書館情報資源大多為純凈情報資源,相關資源可采用人工分析方式進行清洗,而在大數(shù)據(jù)時代,數(shù)據(jù)規(guī)模的巨大化導致大量臟數(shù)據(jù)存在于圖書館數(shù)據(jù)庫中,這對整體數(shù)據(jù)分析的真實性造成了嚴重的影響。針對這種情況,圖書館可以對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進行預處理,利用特征屬性提取的方式將冗余數(shù)據(jù)去除,然后對相應數(shù)據(jù)進行集中整合分析,以保證情報分析的效率。
3 大數(shù)據(jù)時代下圖書館中文發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)挖掘及情報分析
3.1 中文發(fā)現(xiàn)系統(tǒng)機理
大數(shù)據(jù)時代,圖書館中文發(fā)現(xiàn)系統(tǒng)主要是在非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的基礎上,利用現(xiàn)代化數(shù)據(jù)儲存及挖掘工具,結(jié)合搜索引擎技術的應用,對圖書館內(nèi)部及外部各項學術信息進行深度挖掘探究,以便為圖書館用戶提供更加全面的服務?[3]。中文發(fā)現(xiàn)系統(tǒng)數(shù)據(jù)挖掘具有發(fā)現(xiàn)知識、洞察全局、價值再生的效果。其中,發(fā)現(xiàn)知識主要是針對圖書館內(nèi)部工作人員與圖書館用戶之間的數(shù)據(jù)進行搜集,通過對信息資源的深度關聯(lián)分析,可在資源與服務之間建立系統(tǒng)聯(lián)系,提升信息搜索定位的效率;洞察全局主要是在統(tǒng)一的文獻信息資源中,將各個獨立的信息模塊進行有機整合,從而形成一個完整的情報分析系統(tǒng),便于全面分析研究學習趨勢,為文獻機構(gòu)提供全局形式的文獻學術信息;價值再生主要是對文獻內(nèi)部資源立體聯(lián)系的總體分析,通過對學位論文、圖書、期刊等文獻資源的關聯(lián)分析,可確定最終學術發(fā)展的趨勢,便于挖掘圖書館大數(shù)據(jù)暗信息。
3.2 中文發(fā)現(xiàn)系統(tǒng)引文及學術源流分析
在實際應用中,圖書館中文發(fā)現(xiàn)系統(tǒng)可以提供圖書間、圖書與期刊、期刊間、期刊與圖書的前后引證聯(lián)系,同時也可以為圖書館用戶提供施引文獻列表、鏈接及被引文獻列表、鏈接,為相關學術反向研究提供有效的數(shù)據(jù)支持?[4]。現(xiàn)階段,圖書館中文發(fā)現(xiàn)系統(tǒng)已擁有7,000多萬條的引用分析數(shù)據(jù),而引文關聯(lián)數(shù)據(jù)總體數(shù)量也在11億條以上。通過對圖書、期刊、會議論文等相關學術文獻的立體引文分析,圖書館可進一步完善立體服務網(wǎng)絡。在中文發(fā)現(xiàn)系統(tǒng)運行過程中,圖書館可以綜合利用抽象、歸納等多種統(tǒng)計學和數(shù)學方法,對內(nèi)部學術對象引用、被引用情況進行統(tǒng)一概況敘述,便于獲得相應學術資源內(nèi)部學術情報特征。在實際應用中,中文發(fā)現(xiàn)系統(tǒng)引文分析功能可以打破時間、空間及學科的限制,通過有序化的學術文獻排列,從外向內(nèi)、由表及里地對相應學術文獻進行量化分析,這有利于明確學術研究環(huán)節(jié)文獻引用頻率,進而確定相關研究科目的影響情況。同時,中文發(fā)現(xiàn)系統(tǒng)引文研究也可以明確不同學科間的聯(lián)系和不同文獻信息要素間的引證關系及其信息來源特征,而通過對相關文獻信息被引用頻率、引用頻率的關聯(lián)分析,也可以明確相應學術文獻的老化規(guī)律,以便確定相關文獻的學術價值。圖書館中文發(fā)現(xiàn)系統(tǒng)主要具有知識相關鏈條、作者相關鏈條、作者機構(gòu)相關鏈條等幾個方面的搜索功能。其中,知識相關鏈條主要是對知識源頭、知識主體、知識活動進行相關關聯(lián)分析,通過立體知識鏈條的設置,確定相關知識主體之間的聯(lián)系。通過對知識主體、作者機構(gòu)、作者立體聯(lián)系的分析,圖書館可確定對應學科、文獻信息及學術關聯(lián)的關系,為學術信息與文獻信息建立反向聯(lián)系,為后續(xù)學術研究提供有效的數(shù)據(jù)支持。圖書館中文發(fā)現(xiàn)系統(tǒng)學術源流功能的作用是在以往單一文獻資源研究單位的基礎上,進行深入分析,對學術文獻中數(shù)據(jù)與對應研究單位之間的聯(lián)系進行逐步明確,最終形成知識概念鏈條。在實際應用過程中,圖書館中文發(fā)現(xiàn)系統(tǒng)的學術源流模塊可以從單向、雙向線性兩個方面對整體知識關聯(lián)鏈狀架構(gòu)進行合理分析,直至得到需要的信息?[5]。?結(jié)合文獻基本要求,中文發(fā)現(xiàn)系統(tǒng)還可以對文獻學科領域與文獻學術寫作人員之間的信息關聯(lián)進行綜合分析,并依據(jù)學術文獻創(chuàng)作人員所在機構(gòu)的特征,進一步創(chuàng)建機構(gòu)間的聯(lián)系,從而確定相應學術研究人員的工作方向及對應學術研究的發(fā)展趨勢。
3.3 中文發(fā)現(xiàn)系統(tǒng)知識關聯(lián)及生長方向評估
圖書館中文發(fā)現(xiàn)系統(tǒng)主要是在提供同一主題、領域及學科學術文獻信息的基礎上,對相應知識關聯(lián)及生長方向進行合理評估,并對不同主題、領域及學科的學術文獻信息進行挖掘分析,從而確定相關學術研究機構(gòu)之間的聯(lián)系。在圖書館中文發(fā)現(xiàn)系統(tǒng)中,知識不僅僅是一個立體網(wǎng)絡架構(gòu),而是具有較為廣闊的空間范圍。而相關學術知識間也具有較為密切的聯(lián)系,相關知識間的聯(lián)系也被稱為知識延伸及情報分析的關鍵節(jié)點,因此,為了保證知識間組織的科學性及實際效用,圖書館對知識關系進行科學管理就顯得非常重要。知識關聯(lián)是知識發(fā)現(xiàn)、知識創(chuàng)造的節(jié)點,其在知識載體間聯(lián)系的判定方面具有重要的作用。而通過某個知識點的觸發(fā),也可以帶動另外的知識點過渡到迅速發(fā)展階段,以便對同一主題或不同主題間學術產(chǎn)出情況進行綜合對比分析,并得出不同學術研究的發(fā)展情況。在學術領域一定的情況下,對相關學術知識的關聯(lián)度分析,也可以確定相關學術研究行為的連續(xù)性及生長方向,以便建立具有學術參考價值的學術研究體系?[6]。
3.4 中文發(fā)現(xiàn)系統(tǒng)可視化及智能輔助評估
圖書館中文發(fā)現(xiàn)系統(tǒng)可視化功能主要包括學術要素查看、學術檢索結(jié)果輸出等模塊,同時還可以提供研究主題、學科關聯(lián)對比分析曲線圖表、圖書文獻現(xiàn)狀及生長方向可視化處理等服務。圖書館中文發(fā)現(xiàn)系統(tǒng)主要利用計算機可視化技術,對統(tǒng)一結(jié)構(gòu)化文獻進行深度剖析,并利用對比、歸一等數(shù)理方法,將學術文獻創(chuàng)作時間、學術文獻創(chuàng)作人員、學術文獻創(chuàng)作類型、學術文獻價值等相關要素進行集中整合,形成系統(tǒng)科學的數(shù)理統(tǒng)計分析文件,并結(jié)合計算機可視化圖表處理,展示相關學術研究的主題熱門程度,為相關學術研究人員提供更加直觀的學術研究參考信息,為其學術研究工作的正常開展及明確開題方向提供依據(jù)。圖書館中文發(fā)現(xiàn)系統(tǒng)智能輔助模塊具有檢索關鍵詞相關詞條解釋、期刊及圖文導航、用戶搜索行為分析、學術研究產(chǎn)出推送、用戶潛在搜索需求主動推送、常用學科分析推送等功能?[7]。現(xiàn)階段,圖書館中文發(fā)現(xiàn)系統(tǒng)在運行過程中對智能輔助系統(tǒng)的應用,徹底改變了以往單一用戶檢索詞輸入、提交、尋找的信息檢索模式,通過主動信息推送的形式對圖書館用戶檢索詞輸入環(huán)節(jié)信息輸送需求進行自動評估,并為其提供相關文獻信息的來源及類似信息。
3.5 中文發(fā)現(xiàn)系統(tǒng)趨勢評估
圖書館中文發(fā)現(xiàn)系統(tǒng)趨勢分析主要包括產(chǎn)出量指標劃分、學術發(fā)展現(xiàn)狀展示、規(guī)定時間段學術發(fā)展趨勢總結(jié)、學術信息發(fā)展趨勢深度挖掘及相關主題關聯(lián)指標搜索等。圖書館中文發(fā)現(xiàn)系統(tǒng)趨勢分析主要是通過對搜索主題、篇數(shù)等數(shù)字性質(zhì)資料的分析,確定指標一定時多個連續(xù)關聯(lián)之間的增減變動趨勢變化。在中文發(fā)現(xiàn)系統(tǒng)實際運行過程中,文獻搜集人員可以通過主題搜索,獲得相應主題變動趨勢數(shù)字曲線,并結(jié)合相關內(nèi)容數(shù)據(jù),得出對應學術主題的發(fā)展情況。而對不同年代的學術主題進行數(shù)據(jù)分析,有助于對學術發(fā)展的趨勢進行預估判定,以便為后續(xù)學術研究主題的確定提供數(shù)據(jù)指導?[8]。在圖書館中文發(fā)現(xiàn)系統(tǒng)學術變化曲線中,若相應曲線在某一環(huán)節(jié)處于波峰階段,則表明相應環(huán)節(jié)內(nèi)相關主題學術研究工作的開展較為頻繁;若相應曲線在某一環(huán)節(jié)處于波谷階段,則表明相應環(huán)節(jié)內(nèi)該主題學術研究處于低迷狀態(tài)。
4 結(jié)語
綜上所述,大數(shù)據(jù)時代下的圖書館數(shù)據(jù)挖掘及情報分析工作主要是指在新技術思維的指導下,針對現(xiàn)階段圖書館數(shù)據(jù)處理需求,從智能輔助、生長方向分析、趨勢分析等方面進行多模塊數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建。而在基礎數(shù)據(jù)挖掘及情報專業(yè)分析的前提下,通過第三方軟件或其他技術工具的應用,不僅可以展示圖書館內(nèi)部學術資源的關聯(lián)情況,而且便于相關決策數(shù)據(jù)進行單個圖像元素的描述,從而為數(shù)據(jù)各個屬性值的多維展示提供有效幫助。
參考文獻:
[1] ??史夢楚.數(shù)據(jù)挖掘在大數(shù)據(jù)時代下的應用?[J].?中國新通信,2017(8):88.
[2]?劉春霞.基于數(shù)據(jù)挖掘的用戶借閱行為分析:以河南理工大學圖書館為例?[J].圖書情報導刊,2017(8):1-8.
[3]?程晏萍.大數(shù)據(jù)在高校圖書館中的數(shù)據(jù)挖掘?流程及應用分析?[J].高校圖書情報論壇,??2016(3):33-35.
[4] ?張宏偉,史惠媛.數(shù)據(jù)挖掘在高校圖書館文獻采購決策中的應用:以黑龍江中醫(yī)藥大學圖書館為例?[J].中國中醫(yī)藥圖書情報雜志,2016?(2):22-24.
[5]?李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務研究?[J].圖書情報知識,2016(2):60-68.
[6]?陳靜榮.圖書借閱分析系統(tǒng)的數(shù)據(jù)挖掘技術?[J].農(nóng)業(yè)圖書情報學刊,2017(2):69-72.
[7]?王紅.數(shù)據(jù)挖掘在數(shù)字化圖書館中的應用研究?[J].農(nóng)業(yè)圖書情報學刊,2016(1):39-41.
[8]?余鵬,李艷,呂鵬.高等院校大數(shù)據(jù)挖掘與決?策分析體系的應用研究?[J].現(xiàn)代教育技術,??2016(8):102-108.