房棟
摘要:本文提出,知識圖譜系統(tǒng)通過大數(shù)據(jù)和可視化技術(shù),建立以關(guān)鍵詞為中心的知識體系,能讓資源以結(jié)構(gòu)化、可視化的方式呈現(xiàn),讓知識的獲取更加快速、準確。同時,在移動互聯(lián)時代為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)提供了一個獲取、存儲、組織、管理、更新和展示的有效手段。
關(guān)鍵詞:知識圖譜;大數(shù)據(jù);數(shù)字資源;可視化
中圖分類號:G434 文獻標識碼:A 論文編號:1674-2117(2018)15/16-0164-04
當今的信息化社會,從商業(yè)經(jīng)濟運行到科研醫(yī)療創(chuàng)新,從政府管理到互聯(lián)網(wǎng)服務(wù)支持,各個領(lǐng)域都爆炸式產(chǎn)生巨量的數(shù)據(jù),谷歌公司每天要處理超過24拍字節(jié)的數(shù)據(jù),谷歌子公司YOUTUBE每月接待多達8億的訪客,平均每一秒鐘就有一段長度在一小時以上的視頻上傳,F(xiàn)ACEBOO每天更新的照片量超過1000萬張,每天人們在網(wǎng)站上點贊或評論次數(shù)大約有三十億次,TEITTER上的信息量幾乎每年翻一倍,每天都會發(fā)布超過4億條微博,這些數(shù)據(jù)支撐了社會各方面的運行,也成為人類發(fā)展進步歷程的寶貴財富積累。2015年,一個名為AlphaGo的計算機程序橫空出世,在短短25個月的時間里斬落了中日韓的圍棋頂尖高手,不斷地挑戰(zhàn)人類對圍棋的認知。從這些事例可以看出,知識圖譜、大數(shù)據(jù)和深度學(xué)習(xí)成為推動人工智能發(fā)展的核心驅(qū)動力。高校作為人類社會知識創(chuàng)造、記錄和傳承的智力機構(gòu),聚集了大量的科研和教學(xué)數(shù)據(jù)資源,因此,高??衫萌斯ぶ悄芗夹g(shù)整合校內(nèi)外數(shù)字數(shù)據(jù)資源,構(gòu)建基于校本特色的知識圖譜,為學(xué)校的智力支持構(gòu)建一個智能、高效的知識組織方式,形成信息技術(shù)與資源的新融合,幫助師生更加快速而準確地查找自己需要的信息。
谷歌公司于2012年首先提出知識圖譜的概念,表示將在其搜索結(jié)果中加入知識圖譜的功能,同年5月推出谷歌知識圖譜,強化其搜索引擎的搜索結(jié)果,標志著大規(guī)模知識在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用。知識圖譜力求通過將知識進行更加有序、有機的組織,對用戶提供更加智能的訪問接口,使用戶可以更加快速、準確地訪問自己需要的知識信息,并進行一定的知識挖掘和智能決策。近年來在機構(gòu)知識庫和互聯(lián)網(wǎng)搜索引擎等方面,學(xué)者和機構(gòu)紛紛在知識圖譜上深入研究,希望以更加清晰、動態(tài)的方式展現(xiàn)各種概念之間的聯(lián)系,實現(xiàn)知識的智能獲取和管理。有調(diào)查數(shù)據(jù)顯示,Google在2015年時完成KG知識圖譜系統(tǒng)的構(gòu)建,實體超過5億個,實體關(guān)系信息達到35億條;微軟公司在2016年構(gòu)建的知識圖譜系統(tǒng)Probase已經(jīng)擁有總量超過千萬級的概念,核心概念數(shù)達到了270萬個;上海交通大學(xué)是國內(nèi)最早構(gòu)建知識庫的單位,建設(shè)的shizhi.me系統(tǒng)通過提供關(guān)聯(lián)開放數(shù)據(jù)進行知識庫服務(wù);中國科學(xué)院后來建設(shè)了國內(nèi)規(guī)模最大的知識庫CAS-IR,累計采集和保存超過44萬個科研成果供搜索下載;國內(nèi)知名的搜索引擎百度公司推出的“知心”、數(shù)字資源知識服務(wù)供應(yīng)商維普資訊公司推出的“智立方”和超星公司推出的“發(fā)現(xiàn)系統(tǒng)”都是利用知識圖譜技術(shù)搭建的知識服務(wù)平臺。與以往的搜索引擎相比,知識圖譜系統(tǒng)通過大數(shù)據(jù)和可視化,讓知識更加快速、準確和智能地獲取,使數(shù)據(jù)以結(jié)構(gòu)化、可視化的方式呈現(xiàn),同時建立以關(guān)鍵詞為中心的知識體系,直觀地展示數(shù)據(jù)間的相互關(guān)系。
知識圖譜的構(gòu)建基礎(chǔ)是龐大的數(shù)據(jù),高校擁有大量的數(shù)字資源供科研和學(xué)習(xí)用,數(shù)字資源作為當今資源重要的存在形式,存儲于光盤、硬盤、閃存等非紙質(zhì)介質(zhì)載體中,并通過網(wǎng)絡(luò)通信、計算機或移動終端再現(xiàn)出來,數(shù)字資源有動態(tài)的也有靜態(tài)的,具體呈現(xiàn)為文字、視頻、音頻、動畫等多種形式。為數(shù)字資源構(gòu)建知識圖譜系統(tǒng),需要突破不同數(shù)據(jù)庫的限制,通過提升搜索能力來實現(xiàn)更快速更精準的知識查找,為此就必須對繁雜的結(jié)構(gòu)化數(shù)字資源數(shù)據(jù)進行包括數(shù)據(jù)標記格式標準和數(shù)字資源描述標準建設(shè)。
1.格式規(guī)范
通過規(guī)范不同類型數(shù)字資源的標準文件格式,實現(xiàn)數(shù)字資源在不同計算機系統(tǒng)間無障礙交換,格式規(guī)范有文本格式標準(如TXT、WORD、PDF)、圖形格式標準(如JPEG、TIFF、GIF)、音頻格式標準(如WAV、APE、MP3)、結(jié)構(gòu)信息標準(如SGML)等。其中SGML通用標記語言、HTML超文本標記語言與XML可擴展標記語言作為元數(shù)據(jù)編碼語言,是用于數(shù)字資源組織標準化的典型語言,所有數(shù)據(jù)庫都需要參照標準進行各自的規(guī)范。數(shù)據(jù)標記格式標準的制定是數(shù)字資源組織標準化的必要保證。
2.描述規(guī)范
數(shù)字資源的數(shù)據(jù)庫以字段為單位,需對每個數(shù)字資源的屬性進行標準化描述,如標題、作者、單位、關(guān)鍵詞等。描述方法主要有元數(shù)據(jù)規(guī)范和著錄規(guī)范兩種,元數(shù)據(jù)規(guī)范提供框架體系和行為方法來描述數(shù)字資源的基本特征,使用通用編碼將來源各異的數(shù)字資源歸納到一個標準元數(shù)據(jù)體系中;著錄規(guī)范提供了對數(shù)字資源描述的著錄規(guī)則,按規(guī)則對數(shù)字資源著錄項目、著錄順序、著錄用的符號、各個著錄項目的著錄方法以及參考文獻在正文中的標注等內(nèi)容進行描述,從而實現(xiàn)數(shù)字資源的共享。
數(shù)字資源知識圖譜以Nodejs為開發(fā)平臺,異步、時間驅(qū)動模型和非阻塞式的IO處理使得系統(tǒng)在相對低資源消耗下仍具備出眾的負載能力。系統(tǒng)采用B/S架構(gòu),用戶可隨時查詢和瀏覽信息。系統(tǒng)結(jié)構(gòu)分為客戶層、服務(wù)層、數(shù)據(jù)處理層和數(shù)據(jù)存儲層,采用分層設(shè)計,可降低耦合性提高維護性。客戶層需考慮用戶的使用體驗,實現(xiàn)系統(tǒng)的交互和可視化呈現(xiàn),滿足知識點的伸縮、移動和保存功能。服務(wù)層需解析用戶請求,獲取Post參數(shù),訪問不同數(shù)據(jù)集合以JSON格式回傳驗證。數(shù)據(jù)處理層包含數(shù)據(jù)爬取和數(shù)據(jù)解析兩個模塊,數(shù)據(jù)爬取因數(shù)據(jù)源中URL數(shù)據(jù)量巨大,應(yīng)采用多線程的廣度優(yōu)先的爬蟲策略,數(shù)據(jù)解析則是為了得到結(jié)構(gòu)清晰統(tǒng)一的數(shù)據(jù),因HTML網(wǎng)頁語言規(guī)范化程度低,需要對數(shù)據(jù)進行容錯、過濾和提取等操作,將其轉(zhuǎn)化為DOM樹進行封裝和抽象化。數(shù)據(jù)存儲層需要建立校本知識數(shù)據(jù)庫以提高圖譜繪制的實效性,選用NoSQL類型的MongoDB能夠隨時存儲自定義的數(shù)據(jù)格式,具有較高的易擴展性和讀寫性能。
系統(tǒng)構(gòu)建所需數(shù)據(jù)資源主要來自兩個方面:一類是校本已有的結(jié)構(gòu)化和半結(jié)構(gòu)化異構(gòu)語義資源,一類是互聯(lián)網(wǎng)空間中,開放的、共享的海量非結(jié)構(gòu)化異構(gòu)資源。
對于校本資源知識圖譜的構(gòu)建需要重視知識的表達和組織工作,需要服從于數(shù)字資源知識系統(tǒng)整體的需求定位和框架,目前采用面向師生用戶對象的思想來搭建知識表示框架,將教學(xué)課件、教學(xué)案例、研究報告、制度流程等數(shù)據(jù)庫知識拆解成實體、實體屬性和實體之間的關(guān)系三個要素,基于現(xiàn)有存儲的校內(nèi)知識數(shù)據(jù),將其格式和描述進行規(guī)范,經(jīng)過分類和序化,結(jié)合系統(tǒng)的分析等深度學(xué)習(xí)功能,對知識系統(tǒng)中的實體和關(guān)系進行表示學(xué)習(xí),將知識中蘊含的語義信息表示為稠密低維實值向量,從而實現(xiàn)在低維空間中高效計算實體和關(guān)系的語義聯(lián)系,實現(xiàn)結(jié)構(gòu)化校本資源數(shù)據(jù)的處理,從而幫助師生實現(xiàn)知識獲取、融合和推理的目的。
購買的數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)整齊、順序存儲,便于重新組織,所以可聯(lián)系供應(yīng)商按照知識圖譜構(gòu)建中實體、實體屬性和實體之間的關(guān)系三個要素制定開放獲取資源統(tǒng)一接口協(xié)議來獲取結(jié)構(gòu)化數(shù)據(jù)和擴充其他數(shù)據(jù)??山梃b與OA相關(guān)的重要標準,如解決開放獲取系統(tǒng)之間數(shù)據(jù)互通問題的OAI協(xié)議、支持全文檢索的OAI-PMH協(xié)議、解決開放獲取版權(quán)問題的創(chuàng)作共同署名許可等標準。
通過知識交換和互聯(lián)網(wǎng)平臺爬取的共享數(shù)據(jù)往往呈現(xiàn)出結(jié)構(gòu)不一致、規(guī)范化程度低等問題。互聯(lián)網(wǎng)平臺網(wǎng)頁共享數(shù)據(jù)作為知識圖譜最大的數(shù)量來源,通過爬取來獲得。針對百科類的網(wǎng)頁包含了許多結(jié)構(gòu)化的信息,標題、分類標簽、分類系統(tǒng)、信息模塊、摘要等都作為固定條目出現(xiàn),可以將其結(jié)構(gòu)化處理,還有大量的其他普通類網(wǎng)頁也是知識圖譜構(gòu)建的重要數(shù)據(jù)來源,因大量的冗余信息和不可信信息,所以需要建立構(gòu)造一個面向網(wǎng)站的包裝器,利用網(wǎng)站的相似性對代表性網(wǎng)頁進行標注,利用模式學(xué)習(xí)算法實現(xiàn)對網(wǎng)站中知識的自動化抽取,這種方法也需通過手動調(diào)整和添加適當?shù)哪J絹韽浹a數(shù)據(jù)挖掘質(zhì)量。
1.知識服務(wù)的中心化
基于數(shù)字資源知識圖譜系統(tǒng)的建設(shè)從底層實現(xiàn)了“資源聚合、信息共享”,面向師生提供知識服務(wù)對學(xué)校的學(xué)習(xí)管理和資源建設(shè)都提出了更高的要求,以用戶為中心的服務(wù)理念和系統(tǒng)設(shè)計都要求我們在客戶應(yīng)用層建設(shè)集中統(tǒng)一的知識服務(wù)中心,這里有四個“中心”的概念:一是“資源中心”,將教學(xué)資源集中、教學(xué)工具集中、研究材料集中,將傳統(tǒng)檔案等多種資源進行匯聚共享,將數(shù)字資源進行分類,形成資源、學(xué)習(xí)和專題三大板塊;二是“工具中心”,整合期刊、論文、圖書、報紙、視頻、專刊等資源元數(shù)據(jù),利用知識圖譜系統(tǒng)進一步提升一站式檢索的高效性和精準性;三是“推薦中心”,通過收集用戶在使用知識服務(wù)平臺過程中產(chǎn)生的數(shù)據(jù)基礎(chǔ)上,在個人中心里進行關(guān)注熱點和研究領(lǐng)域的知識協(xié)同推薦;四是“服務(wù)中心”,收集熱門實用問題建設(shè)知識庫,搭建以問題形式呈現(xiàn)的智能問答系統(tǒng),對師生在使用過程中遇到的問題進行智能機器人服務(wù),利用知識圖譜系統(tǒng)的語義學(xué)習(xí)功能對新產(chǎn)生的問題和描述進行分析,形成新的知識條目。在整個知識服務(wù)中心化的建設(shè)過程中要注意知識服務(wù)實體與虛擬的融合,將物理環(huán)境的建設(shè)與虛擬空間的建設(shè)打通,將服務(wù)從線下延伸到線上。
2.知識服務(wù)的跨平臺呈現(xiàn)
基于數(shù)字資源知識圖譜系統(tǒng)的建設(shè),其經(jīng)梳理整合的數(shù)字資源不僅可以提高檢索質(zhì)量和效益,還可以將相關(guān)知識實體和關(guān)系描述以節(jié)點關(guān)系圖的方式直觀化呈現(xiàn),這不僅打破了原有以單個數(shù)據(jù)庫為單位的信息壁壘,形成并凝聚起某領(lǐng)域?qū)W術(shù)共同體,而且適應(yīng)了用戶閱讀習(xí)慣向移動端轉(zhuǎn)型的問題。數(shù)字資源知識圖譜系統(tǒng)的構(gòu)建,實現(xiàn)了具有時代特征的流媒體格式多終端同時上線,無并發(fā)、使用次數(shù)和時空的限制,方便解決個性化閱讀需求的采集、專業(yè)化閱讀線索和閱讀方案的提供、社區(qū)化閱讀的交流與傳播、線上閱讀和線下閱讀的互動以及知識的全媒體解讀與可視化呈現(xiàn)。
在信息大爆炸的時代,大數(shù)據(jù)、深度學(xué)習(xí)和人工智能已經(jīng)成為決勝未來的重要技術(shù),知識圖譜作為人工智能的重要應(yīng)用,為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)等提供了有效手段。在教育部啟動教育信息化2.0建設(shè)的重要歷史節(jié)點上,利用好知識圖譜系統(tǒng),為師生用戶提供更友好和便捷的知識服務(wù)方式是助力學(xué)校優(yōu)質(zhì)校建設(shè)的重要任務(wù)。
參考文獻:
[1]劉靜.“互聯(lián)網(wǎng)+”時代數(shù)字資源組織標準研究[J].河南圖書館學(xué)刊,2016(9):129-131.
[2]李濤,王次臣,李華康.知識圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報,2017,41(1):22-34.
[3]李涓子,侯磊.知識圖譜研究綜述[J]山西大學(xué)學(xué)報:自然科學(xué)版,2017,40(3):454-459.
基金項目:本文系浙江省教育技術(shù)研究規(guī)劃重點課題“高校數(shù)字資源在移動互聯(lián)下的再分配策略研究”(項目編號:JA056)研究成果。