曹 霞 劉亞麗
(1.黑龍江中醫藥大學圖書館,黑龍江 哈爾濱 150040;2.東北林業大學圖書館,黑龍江 哈爾濱 150040)
隨著大數據以及云計算等技術的深入發展,如何更好地運用新技術為機構知識庫的發展提供良好的生態環境,是當前機構知識庫的研究方向之一?,F階段,將機構知識庫的內部同多種知識庫資源實行連接,是新一代知識庫發展的關鍵手段,有利于促進其個性化以及知識化發展。在這一背景下,對關聯數據的運用,使其深入發掘知識庫中的潛在價值,分析資源整合以及知識服務的新業態,這是新一代知識庫構建以及發展的關鍵。
對于新一代知識庫來說,它主要是借助集成云計算以及大數據等技術,促進機構知識庫的研發,從而使其可以為用戶提供較多的服務支持。在機構知識庫中,其底層數據來源的范圍非常廣,其中有WOS、EI、機構文庫等。而且其數據類型也比較多,其中有期刊論文資源、學位論文資源以及專利等。從內部功能來看,主要是借助數據處理流程,針對學術成果來說,可以自動進行更新,有效解決學者姓名以及機構名稱等拼寫錯誤,實現對機構以及學者的甄別。與此同時,能夠對學者以及機構的學術產出,實現準確地追蹤,還可以完成學術評價以及同行評審工作,深化科研合作,加快知識的傳播,實現資源共享。從外部功能來看,主要是借助標準數據接口,對各種服務進行整合,能夠實現人事、教學以及科研管理系統的有機融合,有利于更好地服務于機構教學、管理和科研活動。從其服務功能上來看,其中包括對數據目標的管理,對機構影響力的評估以及實現內容自動更新等服務。
1)數據與復合目標管理服務。伴隨學術的深入研究,學術產出以及形式逐漸豐富起來,這也致使多種形式的學術產出,逐漸從科研轉到前臺。其中就有科學數據、軟件以及圖像等。針對單一內容目標類型而言,其組織變得非常容易,針對復合型的目標,就要借助關聯組織模式,所以該功能就融入了新一代知識庫,讓其服務于發現系統以及數據登記。
2)影響力管理服務。對于機構知識庫來說,構建的核心目標以及作用,是為了強化科研人員和機構的作用,提升他們的影響力,讓科研以及學術交流朝向更加多元化的方向發展,實現科研以及學術的綜合性目標。針對傳統學術影響的評價,大部分都是通過同行間的評價,以及對學術的引用來進行評價的。當前比較盛行的綜合影響力評價要素,不但有學術引用,還有對學術文獻的下載運用和來自社會各界的評價等。在新一代知識庫中,其集成主要有引用的計量,引用的頻次,科研者的H指數以及社會影響力等要素。
1)規范化描述實體。想要讓用戶準確以及迅速地找到他們想要的資源,在新一代知識庫中,就結合了語義化訪問服務。對此,應該規范化描述實體,避免HTML格式的描述。機構知識庫主要是根據研究的主題,以及學科領域來劃分知識結構的,在每一個研究主題以及學術領域中,還對其劃分成多個專題。針對專題而言,能夠按照文獻的類型,以及別的索引方式加以組織。在各個專題內容中,有很多類型的數據集,其中包括期刊論文、學位論文以及專利等。
2)語義化資源實體。基于關聯數據的運用,在機構知識庫中,能夠實現語義化資源實體,為其提供相應的前提。主要是結合實體目標間的聯系,來分析機構知識庫中有關實體目標資源的概念,并對其進行明確,深層次地展開分析以及描述。在這些資源概念中涉及很多內容,有相關概念以及交叉概念等。對此,應先建立知識庫的資源本體,然后再分析概念之間的聯系,增加類的屬性,進而構建本體與語義之間的聯系。與此同時,關聯數據還能夠促使機構知識庫建立更多信息資源,也不完全限制在資源實體信息中。在這之中,能夠實現科研人員、科研成果和所屬機構等信息的增加,還能找到任意信息描述下的數據源,給予它們更多分布式數據源,在此基礎上加以整合,形成關聯訪問,以便更好地為用戶服務,提供給他們資源發現服務。
1)識別實體目標、抽取實體關系。在機構知識庫中,關于實體目標就非常多,且它們之間的關系也十分復雜。針對相同的實體目標以及關系,想要實現識別以及抽取,是非常關鍵的問題。根據多種關聯數據源來說,將其放在同一個實體,比如地名等,通過多種URI進行標識,將會導致其標識的目標以及實體達不到一致。想要有效優化這一問題,在設計時可以構建一個將作者和知識資產作者進行排序的程序,主要是利用人工分辨的方式,來達到作者及其成果的一致關系。這個程序能夠將作者上傳到機構知識庫中的內容進行儲存,然后對其分配URI標識符,可以實現自動發送認領郵件的目的,接著再讓作者進行確認,來判斷這個是否為其作品,并自行選擇排序。雖然這個方式的效率相對較低,而且認領時間也比較長,但是從現階段研究層次方面來看,該方式的效果是非常明顯的,還大幅度地增加了實體目標識別的準確度。同時在機構知識庫中,還能夠設計別名管理程序,針對相同的人名實體,在知識庫中還設立了各種形式的別名,可以有效處理人名實體的識別問題。做好前期的處理工作,在機構知識庫中,抽取實體目標以及關系,結合知識庫中的元數據來描述字段和關系,以此為前提加以分析。
2)選取關聯數據源、映射各種詞表間。對于機構知識庫來說,其中的數據包括期刊論文資源、教材資源以及會議論文等資源,想要把其中的元數據和外面的關聯數據連接起來,應該科學選取關聯數據源,這是非常關鍵的內容。現階段在互聯網中關聯數據是非常多的,但是大部分都為綜合性的公共數據集。對于不同的關聯數據而言,其來源也會通過各種關聯詞表來實現,想要最大程度地語義化元數據,為用戶展現更加清晰的數據視圖,應該對各種術語進行轉換,使其達到相同的目標模式。在進行轉換時,應該按照詞表來把數據進行映射,使其成為本地的數據模式,除此之外,也應該按照人工產生以及數據挖掘等方式獲取的映射規則,在此基礎上實行轉換。
綜上所述,基于機構知識庫內部,將其與不同知識庫資源進行有效的融合,有助于更好發展新一代知識庫,達到個性化服務的目的?;诖?,應當積極引入關聯數據技術,進一步挖掘知識庫所隱藏的價值,就新一代知識庫的進步來說,這有著很大的現實意義。