胡慕海,王 蕊,夏火松
(武漢紡織大學 管理學院,湖北 武漢430200)
“互聯網+”時代,知識融合已成為大數據環境下知識服務和創新的支撐點(王曰芬[1])。大數據背景下的知識融合,概念上的共識是:融合過程是以特定問題和知識需求為導向,在海量多源異構的數據中全面準確定位并融合各種知識對象及其載體,最終產出滿足用戶需求和解決應用問題的新知識。用戶的科學問題求解過程對應著科研進程中一系列知識需求的產生、響應和滿足??蒲羞M程中的知識需求會沿著進程時間維,階段性的發生核心需求的變化,當前時段內的核心需求會演化成下一時段內的不同核心需求;并且隨著科研的繼續,會持續產生新的需求演化,直至科研結束。
整合應用這種在科研進程中沿時間軸不斷演化的核心知識需求能提升知識融合的效用。這是因為:需求的演化能夠提供匹配A、B 兩個需求的知識對象間在問題求解進程中的時序關聯(對于求解當前科研問題,對知識對象b 的需求是在對知識對象a 的需求產生之后再產生)和專業關聯(面對當前科研問題的求解,同時需要知識對象a、b),依據這種知識對象的關聯,可以在全局知識中發現更多潛在有利于問題求解的知識對象,也可以作為判定用戶實時的、和預測未來可能需求的依據,基于這一應用思路,可以創新知識融合機制,使得融合產生的新知識對于當前研究問題的求解更具有可用性,能更好滿足用戶當下的和未來可能的知識需求。
目前已有的知識融合研究,一種研究視角是知識單元間自發的主動式融合,這種融合運算的規模較大,主要關注知識的高效高質量的管理,并不以特定用戶知識需求的滿足為目標。另一種研究視角是以用戶知識需求作為調節、控制機制,驅動知識融合。在知識科學視角下,主要關注融合對象動態演化視角下的知識融合研究。Preece[2]在KRAFT 系統中提出隨規模增長重組KRAFT 網絡的方法。Scherl[3]提出感知動態情境的軍事知識融合機制。Liu[4]面向企業不斷演化的知識需求,構建了動態本體。Brahami[5]面向決策活動的變化,提出知識地圖融合方法。近年來,唐曉波[6]、邱均平[7]、李廣建[8]開始關注大數據演化性對知識融合的影響,指出需要根據數據源的變化,調整融合機制。Wu[9]利用知識圖譜研究動態演化的碎片化知識的建模問題。在基于關聯數據的知識融合研究中,高勁松[10]通過用戶反饋來調整融合算法。孫濟慶[11]構建了匹配不同研究時段核心需求的多個簇狀知識空間。
總體而言,(1)大數據背景下,知識融合研究大部分是以碎片化知識為融合對象,進行碎片化知識建模或融合形成全局知識的研究,融合過程不以用戶需求和問題求解為導向,直接在現有知識基礎上調整知識對象的概念化約束條件;(2)融合過程中一些規則、約束、本體等,在不同的運算環境下,也以一種動態調整的方式發揮作用;(3)目前用戶需求的演化特性在知識融合研究中有所欠缺,大部分研究還是將需求視為靜態的、斷點式的;制定融合規則的依據不夠完備,規則有片面性,局限性,導致潛在有用的知識對象的缺失,也不利于發現用戶隱性的知識需求,最終影響知識融合的效用。(4)一些研究提出要基于評價反饋等用戶數據來改進、優化融合機制,具有前瞻性;但目前缺乏大數據視角下系統性的知識融合服務理論、機制研究。因此有必要系統性研究大數據環境下科研進程中用戶需求演化全景感知的知識融合問題,首要工作是構建科研需求全景感知的知識融合模型,以提供后續研究的理論基礎和實踐途徑。
面向科研需求全景感知的知識融合服務訴求表現在:
(1)知識融合服務能夠利用異構多源用戶歷史數據,描述科研工作者科研進程中至當前時點的知識需求變化全景,為知識融合提供融合規則、約束條件等的制定、調整依據?
(2)知識融合服務能夠利用知識對象間的時序關聯、專業關聯入手,利用演化的需求,從全局知識空間中劃分出個人解知識空間?這是一種對個人問題求解而言,更加完備且規??煽氐闹R體系,能涵蓋對于問題求解潛在有用的知識對象。
(3)知識融合服務能夠面向個人解知識空間的結構特征,提出知識對象搜索和融合的機制? 從而使得產生的新知識對于專業問題的求解具備更多潛在可用性,并且可以滿足用戶當下的,和未來可能的知識需求。
(4)知識融合服務能夠系統性利用大數據支撐用戶需求演化全景感知的知識融合全過程,能夠①跨平臺采集、整合異構數據,增加了數據量和密度,并能記錄需求細微且完整的變化,利于需求變化的精細、全景描述;②數據流、在線學習等大數據分析技術能識別需求建模中的“概念漂移”,利于需求變化的精準描述;③通過“數據密集型科學”范式、以及大數據驅動的管理決策理論的指導,可以對需求間“泛在”聯系中隱性的需求進行發掘和應用,豐富融合規則的制定依據。
根據上文分析,我們提出科研需求全景感知的知識融合模型,如圖1。

圖1 知識融合模型
將多源異構的用戶歷史數據時序化,實證核心需求的演化特性;檢測出科研進程中到當前時點的所有知識需求改變的時點;將科研進程分割為若干時段,獲取每個時段的核心需求;形成知識需求演化的全景模型。實現機制包括:基于用戶歷史數據,驗證需求的演化現象,引入興趣波動和衰減理論加以分析;鑒于數據稀疏性,引入超圖分割方法對用戶數據聚類,通過簇結構變化識別需求變化時點序列;采用詞頻統計、共詞分析法等確定每個時段的核心需求,整合形成全景模型。
基于最新改變的核心知識需求的解知識空間基層構建:以需求改變的最新時點后的核心知識需求,構建融合規則,從全局知識空間中分割一個子空間,子空間涵蓋當前可能最迫切需要的知識;實現機制包括:以最新需求變化時點后的核心需求形成需求實體,采用蟻群優化算法,在全局知識圖譜中尋找一個最小子集,該子集和需求節點間的屬性匹配度最大。整合子集對象的節點和邊,形成個人解知識空間的基層。
實現跨時點知識關系的基層拓展:主要是依據跨需求變化時點的,不同核心需求間的匹配關系,確定分屬基層空間和補空間上的若干知識節點對(a,b),(a,b)表征知識對象在專業上的關聯性;采集a、b間的顯性關系,推理a、b 間的隱性關系,預測a、b 間的可能關系,通過全局知識圖譜更新,將預測存在的關系顯性化,這些關系對應的知識對象,潛在能滿足用戶隱性需求;實現機制包括:基于跨需求變化時點不同核心需求的匹配,確定路徑始終點。首先,改進隨機游走等路徑規劃算法,基于路徑經過節點和未變化的需求實體對應節點的關聯度差異,確定最優路徑,完成顯性關系的采集;其次,引入基于邏輯的推理或圖推理方法,基于已有節點關系,推理隱性關系;然后,引入鏈接預測方法,如馬爾科夫鏈,基于已有網絡結構預測節點間可能存在的關系,觸發全局知識圖譜的增量更新;最后,融合獲取的所有關系,完成基層拓展。
將上述知識節點關系和基層整合,形成和科研進程時間序列一致的,由基層外拓的時序化多層空間。由基層向外,層次上知識對象的潛在需求迫切程度依次遞減。實現機制包括:(1)實時查詢的圖結構建模。采用面向非結構化文本的實體、屬性和關系抽取技術,構建查詢圖。(2)查詢圖和圖譜子圖的匹配度。改進已有的圖結構相似度、語義相似度方法,經過線性組合計算,構建匹配度測度方法。(3)跨層搜索方法。根據知識插值和群體映射的局部性原理,優化搜索范圍,對匹配度較高的子圖節點,將其關聯緊密的其他節點賦予更高的搜索優先級;引入層次索引模式,按層次的時序關系,由內到外,依次進行層內、層間搜索。(4)查詢結果跨層融合方法。對應每個層內和相鄰層間,匹配出若干組候選結果,每層產生一組,賦予本層的序號;每次融合只發生于時序上相鄰兩組間,從近時點對應組中識別具有高匹配度的子圖a,確定需要補全的分支,到遠時點對應組的候選結果中找到和該分支匹配度高的子圖b,實現a、b 融合。
實時查詢圖建模:實時輸入的查詢實體可以是提問或檢索語,將用戶實時查詢的非結構化文本轉換為圖結構模型;
查詢圖和圖譜子圖的匹配度測度:應用知識圖譜描述知識空間,通過結構和語義匹配度的線性組合,計算查詢圖和圖譜子圖的匹配度;
時序化多層空間內的跨層搜索:提出優化搜索的方法,以跨層未發生改變的需求作為路徑選擇的“情境”,通過分析情境和備選路徑的關系強度確定最佳路徑,按層次的時序關系,由內到外,依次進行層內、層間搜索,依序搜索有利于優先搜索出迫切需要的知識,跨層搜索則使得搜索結果能滿足專業、隱性的需求;
面向子圖補全的查詢結果跨層融合:如果缺少查詢圖的完全匹配子圖(或匹配度不高),分屬不同層的匹配子圖要以提升融合結果的匹配度為目標,在相鄰圖層間依序進行融合,依序融合有利于優先融合迫切需要的知識,跨層融合則使得融合結果能滿足專業、隱性的需求。
本研究提出整合應用科研進程中動態演化的用戶需求能提升知識融合的效用。構建了能感知科研需求全景的知識融合模型,模型的產出是新知識,實現路徑包括三點:(1)建立知識節點在專業上的關聯,通過跨時點的不同核心需求間的匹配關系為依據,建立知識節點的關聯,使得融合產出的新知識滿足專業的知識需求;(2)確定解知識空間跨層路徑始、終點,從而發現跨層知識節點間的隱性和未知關系,以此滿足隱性的知識需求;(3)基于需求演化全景序列,進行基層拓展,建立按知識的需求迫切程度形成時序化結構特征的解知識空間,以滿足迫切的知識需求。
早期研究主要關注用戶靜態的、斷點式的需求在知識融合中的整合應用問題,本研究的意義在于基于科研進程中用戶需求演化全景特性整合應用,支持知識融合,是一個新的研究視角。本研究提出的科研進程中用戶需求全景感知的知識融合機制,為知識融合的拓展應用、知識服務的創新設計提供新的視角和理論基礎,為知識融合的創新提供新的實施路徑和技術,為開發知識融合系統提出大數據技術方案,能高效滿足用戶在科研進程中的專業、隱性,迫切需求,從而增強用戶的洞悉力和創造力,加快“轉識成智”。下一階段,將根據本研究構建的理論模型,整合相關算法、平臺,檢驗和優化本研究成果。