李書欽
(北方工業(yè)大學(xué),北京 100144)
科研管理是高??蒲泄ぷ鞯闹匾h(huán)節(jié),貫穿于高??蒲谢顒尤^程,對高??蒲泄ぷ髌鹫?、導(dǎo)向、激勵、服務(wù)及監(jiān)督作用[1]。在“雙一流”建設(shè)背景下,對高校提出了高質(zhì)量特色內(nèi)涵式發(fā)展的新要求,高質(zhì)量特色內(nèi)涵式發(fā)展離不開高水平的科研支撐,而高水平的科研又與科學(xué)的科研管理密不可分,因此提高高校科研管理效率和決策的科學(xué)性變得日益重要[2]。
高校承擔(dān)了大量的科研項目,會產(chǎn)生海量的異構(gòu)化科研數(shù)據(jù)。長期以來,采用傳統(tǒng)的數(shù)據(jù)統(tǒng)計分析方法對相關(guān)數(shù)據(jù)進行加工整理,不僅費時費力,而且無法對數(shù)據(jù)背后隱藏的科研價值進行有效挖掘,造成科研資源的巨大浪費[3]。大數(shù)據(jù)、人工智能等信息技術(shù)為高??蒲泄芾淼膭?chuàng)新提供了新機遇,通過采用新技術(shù)深入挖掘數(shù)據(jù)信息背后潛在的價值,發(fā)現(xiàn)對科研工作和決策分析有價值的信息,對提高科研管理水平,促進高??蒲袆?chuàng)新具有重要意義[4]。
信息是決策的基礎(chǔ),信息和情報對科研管理的作用日益重要,借助知識圖譜等技術(shù)手段,可以把科研管理系統(tǒng)中的人員、項目、專著、論文、獲獎、發(fā)明專利、學(xué)術(shù)影響力等數(shù)據(jù)進行綜合分析,通過算法模型對各類科研數(shù)據(jù)進行可視化展現(xiàn),指導(dǎo)科研決策和科研政策制定,從而提高科研管理的科學(xué)性和服務(wù)水平[5]。
針對科研管理工作中的上述瓶頸和問題,本文借助Google知識圖譜,以高校科研管理系統(tǒng)為數(shù)據(jù)來源,以科研人員、論文、專著、項目、獲獎、專利和標(biāo)準(zhǔn)等為切入點,繪制高??蒲泄芾碇R圖譜,對高校科研管理數(shù)據(jù)進行可視化展示,從而為科學(xué)的科研管理決策提供參考,提高科研管理工作的效率和水平。
2012年5月,Google提出知識圖譜(Knowledge Graph)的概念,不同于傳統(tǒng)圖情領(lǐng)域的科學(xué)知識圖譜,Google知識圖譜是一種描述實體之間關(guān)系的語義網(wǎng)絡(luò),是知識工程的重要表現(xiàn)形式,在智能搜索、電子商務(wù)、醫(yī)療、情報分析等領(lǐng)域應(yīng)用廣泛[6]。
知識圖譜可以用G=(E,R)表示,其中E和R分別表示知識圖譜中多類型的實體和關(guān)系集合,知識圖譜由許多RDF三元組組成,表示形式為T=〈vh,r,vt〉,其中vh代表頭實體,vt代表尾實體,r代表頭實體和尾實體之間的關(guān)系。實體是知識圖譜中的最基本元素,比如科研活動中的人員、項目、論文、獲獎、專利等實體,不同的實體間存在不同的關(guān)系,比如科研活動中的發(fā)表、獲得、出版、承擔(dān)等關(guān)系。
知識圖譜在邏輯上分為數(shù)據(jù)層和概念層,數(shù)據(jù)層指以三元組為表現(xiàn)形式的實體和關(guān)系集合,用<實體,關(guān)系,實體>和<實體,屬性,屬性值>來表示。概念層構(gòu)建在數(shù)據(jù)層之上,是經(jīng)過積累沉淀的知識集合[7]。知識圖譜的構(gòu)建是一個不斷更新迭代的過程,科研管理知識圖譜的構(gòu)建過程如圖1所示,包含知識抽取、知識融合、知識加工和知識推理等過程。源數(shù)據(jù)經(jīng)過知識抽取轉(zhuǎn)換為三元組形式,然后經(jīng)過實體對其和本體對其,加入數(shù)據(jù)模型,形成標(biāo)準(zhǔn)的知識表示,再通過知識推理產(chǎn)生新的關(guān)系組合,所有知識經(jīng)過質(zhì)量評估,形成完整形態(tài)的知識圖譜。

圖1 科研管理知識圖譜構(gòu)建過程
1.2.1 知識抽取
知識抽取是構(gòu)建知識圖譜過程中的重要環(huán)節(jié),面向表格和列表類的半結(jié)構(gòu)化數(shù)據(jù)、文本類的非結(jié)構(gòu)化數(shù)據(jù),通過自動化或半自動化技術(shù)抽取出可用的知識,包括實體抽取、關(guān)系抽取、屬性抽取和時間抽取。實體抽取即自然語言處理中的命名實體識別,從非結(jié)構(gòu)化文本數(shù)據(jù)中自動識別出命名實體,形成知識圖譜中的“結(jié)點”。在非結(jié)構(gòu)化文本數(shù)據(jù)中抽取出命名實體后,再通過關(guān)系抽取獲取實體之間的關(guān)聯(lián)關(guān)系,形成知識圖譜中的“邊”,從而形成網(wǎng)狀的知識結(jié)構(gòu)。屬性抽取是對信息源中的實體的特征和性質(zhì)進行抽取,例如對于科研人員,可以獲取其姓名、年齡、職稱、研究方向、教育背景等信息。事件抽取是從信息源中抽取出事件信息,包括時間、地點、人員和相關(guān)動作等。通過數(shù)據(jù)整合和知識抽取,將多源異構(gòu)的源數(shù)據(jù)統(tǒng)一為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),方便知識圖譜使用。
1.2.2 知識融合
知識融合是高層次的知識組織,通過對來自不同數(shù)據(jù)源的知識進行異構(gòu)數(shù)據(jù)整合、消歧、加工、推理驗證、更新等過程,達到信息、數(shù)據(jù)、經(jīng)驗、方法以及人的智慧的融合,形成高質(zhì)量的知識庫[8]。知識融合包括本體對齊和實體對齊,本體對齊是概念層的知識融合,是確定概念、關(guān)系、屬性等本體間映射關(guān)系的過程,通常通過機器學(xué)習(xí)算法計算本體間的相似度來實現(xiàn)。實體對齊是數(shù)據(jù)層的知識融合,實體對齊對不同源數(shù)據(jù)中的相同實體進行統(tǒng)一和聯(lián)結(jié)。通過知識融合,實現(xiàn)知識庫的聯(lián)結(jié)合并,形成更加稠密、統(tǒng)一的新型知識圖譜。
1.2.3 知識加工
通過知識抽取和知識融合,可以從源數(shù)據(jù)中識別、抽取出消歧和統(tǒng)一后的實體和本體,得到客觀事實的基本表達,然而客觀事實并不是知識圖譜需要的知識體系,要形成結(jié)構(gòu)化的知識網(wǎng)絡(luò),還需要本體構(gòu)建、知識推理和質(zhì)量評估等知識加工過程[9]。本體構(gòu)建是知識圖譜內(nèi)實體連通的語義基礎(chǔ),主要以“點線面”組成的網(wǎng)狀結(jié)構(gòu)呈現(xiàn),“點”代表不同實體,“線”代表實體間的關(guān)系,“面”代表知識網(wǎng)絡(luò)。本體可通過人工編輯的方式手動構(gòu)建,也可以由機器學(xué)習(xí)驅(qū)動自動構(gòu)建,然后再經(jīng)質(zhì)量評估方法與人工審核相結(jié)合的方式加以修正與確認。質(zhì)量評估是對已產(chǎn)生的知識數(shù)據(jù)進行評估,將符合標(biāo)準(zhǔn)的數(shù)據(jù)導(dǎo)入知識圖譜中,質(zhì)量評估是確保知識圖譜內(nèi)容正確可用的關(guān)鍵步驟,是知識加工最后的“質(zhì)檢”環(huán)節(jié),確保經(jīng)本體構(gòu)建和知識推理得到的知識是合理的。
1.2.4 知識推理
知識推理是通過對已有實體間關(guān)系的計算和對三元組的語義分析,找到新關(guān)聯(lián),獲取新的知識或結(jié)論,從而拓展和豐富知識圖譜網(wǎng)絡(luò)。知識推理的對象可以是實體、實體的屬性值、實體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理包括實體分類、關(guān)系識別、基于圖的推理與基于邏輯的推理等類別。例如已知〈作者A,發(fā)表,論文A〉和〈作者B,發(fā)表,論文A〉,可以推理出〈作者A,共同作者,作者B〉。
本文以高??蒲泄芾硐到y(tǒng)中的科研人員、項目、學(xué)術(shù)成果、標(biāo)準(zhǔn)、專利、獲獎等結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),通過知識抽取形成相關(guān)的實體、屬性和關(guān)系,然后經(jīng)過知識融合構(gòu)建相關(guān)實體間的三元組,經(jīng)過知識加工和質(zhì)量評估,構(gòu)建科研管理知識圖譜,并進行相關(guān)實體間的關(guān)系推理。
根據(jù)科研管理系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),可以構(gòu)建科研管理知識圖譜,首先,實體類型集合為X={科研人員、標(biāo)準(zhǔn)、科研獲獎、科研項目、論文成果、專利},然后構(gòu)建各個實體的屬性特征,科研人員={姓名、部門、性別、職位、學(xué)歷、年齡、職稱},科研項目={項目名稱、部門、負責(zé)人、項目類別、項目性質(zhì)、項目來源、開始時間、完成時間、批準(zhǔn)金額},標(biāo)準(zhǔn)={標(biāo)準(zhǔn)名稱、部門、制定人、批準(zhǔn)號、標(biāo)準(zhǔn)類別、申請時間、批準(zhǔn)時間、個人排序、單位排序},專利={專利名稱、部門、所有人、申請?zhí)枴⑴鷾?zhǔn)號、專利類別、申請時間、批準(zhǔn)時間、個人排序、單位排序),論文={論文名稱、部門、作者、期刊名稱、期刊類別、檢索情況、發(fā)表時間、資助情況},各實體間的關(guān)系如圖2所示。

圖2 科研管理知識圖譜實體間關(guān)系圖
在已構(gòu)建的科研管理實體、屬性和關(guān)系基礎(chǔ)上,采用圖數(shù)據(jù)庫交互操作框架 InteractiveGraph構(gòu)建科研管理知識圖譜,InteractiveGraph 是采用JavaScript開發(fā)的開源項目,通過構(gòu)建本地JSON文件,為大規(guī)模圖數(shù)據(jù)三元組提供了一個基于Web的交互操作框架[10]。InteractiveGraph提供了3個基本功能,分別是圖瀏覽器(GraphExplorer)、圖導(dǎo)航器(GraphNavigator)以及關(guān)系查找器(RelFinder),借助這些功能,可以便捷地實現(xiàn)科研管理知識圖譜數(shù)據(jù)的可視化展示和知識推理。
科研管理知識圖譜包含科研人員、標(biāo)準(zhǔn)、科研獲獎、科研項目、論文成果、專利等實體,屬性和實體間的關(guān)系,該圖譜由29 519個節(jié)點、24 467條邊構(gòu)成,科研管理知識圖譜的可視化效果如圖3所示。通過該知識圖譜,輸入任一科研人員的姓名,可以便捷的查看其名下的所有科研成果信息,實現(xiàn)了科研成果的圖譜管理和可視化表達,在此基礎(chǔ)上,可以查看科研人員間的合作網(wǎng)絡(luò)和合作成果。

圖3 科研管理知識圖譜可視化效果
在新形勢下, 高??蒲邪l(fā)展的重要任務(wù)是開展前瞻性研究、加強高精尖技術(shù)攻關(guān)、多出創(chuàng)新成果、實現(xiàn)產(chǎn)學(xué)研用的有效結(jié)合,而高??蒲械拈_展,又離不開科學(xué)高效的科研管理工作,科研管理必須借助新技術(shù)創(chuàng)新管理方法、提升科研管理能力, 推動高校科研持續(xù)、健康、快速發(fā)展[11]。因此, 高校應(yīng)盡快提高對科研管理科學(xué)化的認識,提升科研管理水平和服務(wù)能力。
為解決上述問題,本文運用Google知識圖譜,以高??蒲泄芾硐到y(tǒng)為數(shù)據(jù)來源,以科研人員、標(biāo)準(zhǔn)、科研獲獎、科研項目、論文成果、專利等為切入點,繪制高??蒲泄芾碇R圖譜,對高??蒲泄芾頂?shù)據(jù)進行可視化展示,有效解決了傳統(tǒng)科研管理系統(tǒng)中數(shù)據(jù)利用不充分、查詢統(tǒng)計不直觀、信息關(guān)聯(lián)不明確等問題,有效提升了科研管理工作的效率和水平,為科研管理決策的科學(xué)化提供參考,以保證科研工作目標(biāo)的實現(xiàn)。