高校知識圖譜的構(gòu)建與數(shù)字資源分配新融合

2018-09-08 11:15:56房棟

中國信息技術(shù)教育 2018年16期

房棟

摘要：本文提出，知識圖譜系統(tǒng)通過大數(shù)據(jù)和可視化技術(shù)，建立以關(guān)鍵詞為中心的知識體系，能讓資源以結(jié)構(gòu)化、可視化的方式呈現(xiàn)，讓知識的獲取更加快速、準確。同時，在移動互聯(lián)時代為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)提供了一個獲取、存儲、組織、管理、更新和展示的有效手段。

關(guān)鍵詞：知識圖譜；大數(shù)據(jù)；數(shù)字資源；可視化

中圖分類號：G434 文獻標識碼：A 論文編號：1674-2117（2018）15/16-0164-04

引言

當今的信息化社會，從商業(yè)經(jīng)濟運行到科研醫(yī)療創(chuàng)新，從政府管理到互聯(lián)網(wǎng)服務(wù)支持，各個領(lǐng)域都爆炸式產(chǎn)生巨量的數(shù)據(jù)，谷歌公司每天要處理超過24拍字節(jié)的數(shù)據(jù)，谷歌子公司YOUTUBE每月接待多達8億的訪客，平均每一秒鐘就有一段長度在一小時以上的視頻上傳，F(xiàn)ACEBOO每天更新的照片量超過1000萬張，每天人們在網(wǎng)站上點贊或評論次數(shù)大約有三十億次，TEITTER上的信息量幾乎每年翻一倍，每天都會發(fā)布超過4億條微博，這些數(shù)據(jù)支撐了社會各方面的運行，也成為人類發(fā)展進步歷程的寶貴財富積累。2015年，一個名為AlphaGo的計算機程序橫空出世，在短短25個月的時間里斬落了中日韓的圍棋頂尖高手，不斷地挑戰(zhàn)人類對圍棋的認知。從這些事例可以看出，知識圖譜、大數(shù)據(jù)和深度學(xué)習(xí)成為推動人工智能發(fā)展的核心驅(qū)動力。高校作為人類社會知識創(chuàng)造、記錄和傳承的智力機構(gòu)，聚集了大量的科研和教學(xué)數(shù)據(jù)資源，因此，高?？衫萌斯ぶ悄芗夹g(shù)整合校內(nèi)外數(shù)字數(shù)據(jù)資源，構(gòu)建基于校本特色的知識圖譜，為學(xué)校的智力支持構(gòu)建一個智能、高效的知識組織方式，形成信息技術(shù)與資源的新融合，幫助師生更加快速而準確地查找自己需要的信息。

數(shù)字資源分配中知識圖譜的構(gòu)建價值

谷歌公司于2012年首先提出知識圖譜的概念，表示將在其搜索結(jié)果中加入知識圖譜的功能，同年5月推出谷歌知識圖譜，強化其搜索引擎的搜索結(jié)果，標志著大規(guī)模知識在互聯(lián)網(wǎng)語義搜索中的成功應(yīng)用。知識圖譜力求通過將知識進行更加有序、有機的組織，對用戶提供更加智能的訪問接口，使用戶可以更加快速、準確地訪問自己需要的知識信息，并進行一定的知識挖掘和智能決策。近年來在機構(gòu)知識庫和互聯(lián)網(wǎng)搜索引擎等方面，學(xué)者和機構(gòu)紛紛在知識圖譜上深入研究，希望以更加清晰、動態(tài)的方式展現(xiàn)各種概念之間的聯(lián)系，實現(xiàn)知識的智能獲取和管理。有調(diào)查數(shù)據(jù)顯示，Google在2015年時完成KG知識圖譜系統(tǒng)的構(gòu)建，實體超過5億個，實體關(guān)系信息達到35億條；微軟公司在2016年構(gòu)建的知識圖譜系統(tǒng)Probase已經(jīng)擁有總量超過千萬級的概念，核心概念數(shù)達到了270萬個；上海交通大學(xué)是國內(nèi)最早構(gòu)建知識庫的單位，建設(shè)的shizhi.me系統(tǒng)通過提供關(guān)聯(lián)開放數(shù)據(jù)進行知識庫服務(wù)；中國科學(xué)院后來建設(shè)了國內(nèi)規(guī)模最大的知識庫CAS-IR，累計采集和保存超過44萬個科研成果供搜索下載；國內(nèi)知名的搜索引擎百度公司推出的“知心”、數(shù)字資源知識服務(wù)供應(yīng)商維普資訊公司推出的“智立方”和超星公司推出的“發(fā)現(xiàn)系統(tǒng)”都是利用知識圖譜技術(shù)搭建的知識服務(wù)平臺。與以往的搜索引擎相比，知識圖譜系統(tǒng)通過大數(shù)據(jù)和可視化，讓知識更加快速、準確和智能地獲取，使數(shù)據(jù)以結(jié)構(gòu)化、可視化的方式呈現(xiàn)，同時建立以關(guān)鍵詞為中心的知識體系，直觀地展示數(shù)據(jù)間的相互關(guān)系。

數(shù)字資源知識圖譜的數(shù)據(jù)基礎(chǔ)

知識圖譜的構(gòu)建基礎(chǔ)是龐大的數(shù)據(jù)，高校擁有大量的數(shù)字資源供科研和學(xué)習(xí)用，數(shù)字資源作為當今資源重要的存在形式，存儲于光盤、硬盤、閃存等非紙質(zhì)介質(zhì)載體中，并通過網(wǎng)絡(luò)通信、計算機或移動終端再現(xiàn)出來，數(shù)字資源有動態(tài)的也有靜態(tài)的，具體呈現(xiàn)為文字、視頻、音頻、動畫等多種形式。為數(shù)字資源構(gòu)建知識圖譜系統(tǒng)，需要突破不同數(shù)據(jù)庫的限制，通過提升搜索能力來實現(xiàn)更快速更精準的知識查找，為此就必須對繁雜的結(jié)構(gòu)化數(shù)字資源數(shù)據(jù)進行包括數(shù)據(jù)標記格式標準和數(shù)字資源描述標準建設(shè)。

1.格式規(guī)范

通過規(guī)范不同類型數(shù)字資源的標準文件格式，實現(xiàn)數(shù)字資源在不同計算機系統(tǒng)間無障礙交換，格式規(guī)范有文本格式標準（如TXT、WORD、PDF）、圖形格式標準（如JPEG、TIFF、GIF）、音頻格式標準（如WAV、APE、MP3）、結(jié)構(gòu)信息標準（如SGML）等。其中SGML通用標記語言、HTML超文本標記語言與XML可擴展標記語言作為元數(shù)據(jù)編碼語言，是用于數(shù)字資源組織標準化的典型語言，所有數(shù)據(jù)庫都需要參照標準進行各自的規(guī)范。數(shù)據(jù)標記格式標準的制定是數(shù)字資源組織標準化的必要保證。

2.描述規(guī)范

數(shù)字資源的數(shù)據(jù)庫以字段為單位，需對每個數(shù)字資源的屬性進行標準化描述，如標題、作者、單位、關(guān)鍵詞等。描述方法主要有元數(shù)據(jù)規(guī)范和著錄規(guī)范兩種，元數(shù)據(jù)規(guī)范提供框架體系和行為方法來描述數(shù)字資源的基本特征，使用通用編碼將來源各異的數(shù)字資源歸納到一個標準元數(shù)據(jù)體系中；著錄規(guī)范提供了對數(shù)字資源描述的著錄規(guī)則，按規(guī)則對數(shù)字資源著錄項目、著錄順序、著錄用的符號、各個著錄項目的著錄方法以及參考文獻在正文中的標注等內(nèi)容進行描述，從而實現(xiàn)數(shù)字資源的共享。

數(shù)字資源知識圖譜的構(gòu)建模式（如下圖）

數(shù)字資源知識圖譜以Nodejs為開發(fā)平臺，異步、時間驅(qū)動模型和非阻塞式的IO處理使得系統(tǒng)在相對低資源消耗下仍具備出眾的負載能力。系統(tǒng)采用B/S架構(gòu)，用戶可隨時查詢和瀏覽信息。系統(tǒng)結(jié)構(gòu)分為客戶層、服務(wù)層、數(shù)據(jù)處理層和數(shù)據(jù)存儲層，采用分層設(shè)計，可降低耦合性提高維護性。客戶層需考慮用戶的使用體驗，實現(xiàn)系統(tǒng)的交互和可視化呈現(xiàn)，滿足知識點的伸縮、移動和保存功能。服務(wù)層需解析用戶請求，獲取Post參數(shù)，訪問不同數(shù)據(jù)集合以JSON格式回傳驗證。數(shù)據(jù)處理層包含數(shù)據(jù)爬取和數(shù)據(jù)解析兩個模塊，數(shù)據(jù)爬取因數(shù)據(jù)源中URL數(shù)據(jù)量巨大，應(yīng)采用多線程的廣度優(yōu)先的爬蟲策略，數(shù)據(jù)解析則是為了得到結(jié)構(gòu)清晰統(tǒng)一的數(shù)據(jù)，因HTML網(wǎng)頁語言規(guī)范化程度低，需要對數(shù)據(jù)進行容錯、過濾和提取等操作，將其轉(zhuǎn)化為DOM樹進行封裝和抽象化。數(shù)據(jù)存儲層需要建立校本知識數(shù)據(jù)庫以提高圖譜繪制的實效性，選用NoSQL類型的MongoDB能夠隨時存儲自定義的數(shù)據(jù)格式，具有較高的易擴展性和讀寫性能。

系統(tǒng)構(gòu)建所需數(shù)據(jù)資源主要來自兩個方面：一類是校本已有的結(jié)構(gòu)化和半結(jié)構(gòu)化異構(gòu)語義資源，一類是互聯(lián)網(wǎng)空間中，開放的、共享的海量非結(jié)構(gòu)化異構(gòu)資源。

對于校本資源知識圖譜的構(gòu)建需要重視知識的表達和組織工作，需要服從于數(shù)字資源知識系統(tǒng)整體的需求定位和框架，目前采用面向師生用戶對象的思想來搭建知識表示框架，將教學(xué)課件、教學(xué)案例、研究報告、制度流程等數(shù)據(jù)庫知識拆解成實體、實體屬性和實體之間的關(guān)系三個要素，基于現(xiàn)有存儲的校內(nèi)知識數(shù)據(jù)，將其格式和描述進行規(guī)范，經(jīng)過分類和序化，結(jié)合系統(tǒng)的分析等深度學(xué)習(xí)功能，對知識系統(tǒng)中的實體和關(guān)系進行表示學(xué)習(xí)，將知識中蘊含的語義信息表示為稠密低維實值向量，從而實現(xiàn)在低維空間中高效計算實體和關(guān)系的語義聯(lián)系，實現(xiàn)結(jié)構(gòu)化校本資源數(shù)據(jù)的處理，從而幫助師生實現(xiàn)知識獲取、融合和推理的目的。

購買的數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)整齊、順序存儲，便于重新組織，所以可聯(lián)系供應(yīng)商按照知識圖譜構(gòu)建中實體、實體屬性和實體之間的關(guān)系三個要素制定開放獲取資源統(tǒng)一接口協(xié)議來獲取結(jié)構(gòu)化數(shù)據(jù)和擴充其他數(shù)據(jù)?？山梃b與OA相關(guān)的重要標準，如解決開放獲取系統(tǒng)之間數(shù)據(jù)互通問題的OAI協(xié)議、支持全文檢索的OAI-PMH協(xié)議、解決開放獲取版權(quán)問題的創(chuàng)作共同署名許可等標準。

通過知識交換和互聯(lián)網(wǎng)平臺爬取的共享數(shù)據(jù)往往呈現(xiàn)出結(jié)構(gòu)不一致、規(guī)范化程度低等問題。互聯(lián)網(wǎng)平臺網(wǎng)頁共享數(shù)據(jù)作為知識圖譜最大的數(shù)量來源，通過爬取來獲得。針對百科類的網(wǎng)頁包含了許多結(jié)構(gòu)化的信息，標題、分類標簽、分類系統(tǒng)、信息模塊、摘要等都作為固定條目出現(xiàn)，可以將其結(jié)構(gòu)化處理，還有大量的其他普通類網(wǎng)頁也是知識圖譜構(gòu)建的重要數(shù)據(jù)來源，因大量的冗余信息和不可信信息，所以需要建立構(gòu)造一個面向網(wǎng)站的包裝器，利用網(wǎng)站的相似性對代表性網(wǎng)頁進行標注，利用模式學(xué)習(xí)算法實現(xiàn)對網(wǎng)站中知識的自動化抽取，這種方法也需通過手動調(diào)整和添加適當?shù)哪Ｊ絹韽浹a數(shù)據(jù)挖掘質(zhì)量。

基于知識圖譜的數(shù)字資源分配新模式

1.知識服務(wù)的中心化

基于數(shù)字資源知識圖譜系統(tǒng)的建設(shè)從底層實現(xiàn)了“資源聚合、信息共享”，面向師生提供知識服務(wù)對學(xué)校的學(xué)習(xí)管理和資源建設(shè)都提出了更高的要求，以用戶為中心的服務(wù)理念和系統(tǒng)設(shè)計都要求我們在客戶應(yīng)用層建設(shè)集中統(tǒng)一的知識服務(wù)中心，這里有四個“中心”的概念：一是“資源中心”，將教學(xué)資源集中、教學(xué)工具集中、研究材料集中，將傳統(tǒng)檔案等多種資源進行匯聚共享，將數(shù)字資源進行分類，形成資源、學(xué)習(xí)和專題三大板塊；二是“工具中心”，整合期刊、論文、圖書、報紙、視頻、專刊等資源元數(shù)據(jù)，利用知識圖譜系統(tǒng)進一步提升一站式檢索的高效性和精準性；三是“推薦中心”，通過收集用戶在使用知識服務(wù)平臺過程中產(chǎn)生的數(shù)據(jù)基礎(chǔ)上，在個人中心里進行關(guān)注熱點和研究領(lǐng)域的知識協(xié)同推薦；四是“服務(wù)中心”，收集熱門實用問題建設(shè)知識庫，搭建以問題形式呈現(xiàn)的智能問答系統(tǒng)，對師生在使用過程中遇到的問題進行智能機器人服務(wù)，利用知識圖譜系統(tǒng)的語義學(xué)習(xí)功能對新產(chǎn)生的問題和描述進行分析，形成新的知識條目。在整個知識服務(wù)中心化的建設(shè)過程中要注意知識服務(wù)實體與虛擬的融合，將物理環(huán)境的建設(shè)與虛擬空間的建設(shè)打通，將服務(wù)從線下延伸到線上。

2.知識服務(wù)的跨平臺呈現(xiàn)

基于數(shù)字資源知識圖譜系統(tǒng)的建設(shè)，其經(jīng)梳理整合的數(shù)字資源不僅可以提高檢索質(zhì)量和效益，還可以將相關(guān)知識實體和關(guān)系描述以節(jié)點關(guān)系圖的方式直觀化呈現(xiàn)，這不僅打破了原有以單個數(shù)據(jù)庫為單位的信息壁壘，形成并凝聚起某領(lǐng)域?qū)W術(shù)共同體，而且適應(yīng)了用戶閱讀習(xí)慣向移動端轉(zhuǎn)型的問題。數(shù)字資源知識圖譜系統(tǒng)的構(gòu)建，實現(xiàn)了具有時代特征的流媒體格式多終端同時上線，無并發(fā)、使用次數(shù)和時空的限制，方便解決個性化閱讀需求的采集、專業(yè)化閱讀線索和閱讀方案的提供、社區(qū)化閱讀的交流與傳播、線上閱讀和線下閱讀的互動以及知識的全媒體解讀與可視化呈現(xiàn)。

結(jié)束語

在信息大爆炸的時代，大數(shù)據(jù)、深度學(xué)習(xí)和人工智能已經(jīng)成為決勝未來的重要技術(shù)，知識圖譜作為人工智能的重要應(yīng)用，為學(xué)校的數(shù)字資源建設(shè)、管理、服務(wù)等提供了有效手段。在教育部啟動教育信息化2.0建設(shè)的重要歷史節(jié)點上，利用好知識圖譜系統(tǒng)，為師生用戶提供更友好和便捷的知識服務(wù)方式是助力學(xué)校優(yōu)質(zhì)校建設(shè)的重要任務(wù)。

參考文獻：

[1]劉靜.“互聯(lián)網(wǎng)+”時代數(shù)字資源組織標準研究[J].河南圖書館學(xué)刊，2016（9）：129-131.

[2]李濤，王次臣，李華康.知識圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報，2017，41（1）：22-34.

[3]李涓子，侯磊.知識圖譜研究綜述[J]山西大學(xué)學(xué)報：自然科學(xué)版，2017，40（3）：454-459.

基金項目：本文系浙江省教育技術(shù)研究規(guī)劃重點課題“高校數(shù)字資源在移動互聯(lián)下的再分配策略研究”（項目編號：JA056）研究成果。