程春雷,夏家莉.江西財經大學 信息管理學院,南昌 330032 2.江西中醫藥大學 計算機學院,南昌 330004
關系概念的Web資源語義標識模型研究*
程春雷1,2+,夏家莉1
1.江西財經大學 信息管理學院,南昌 330032 2.江西中醫藥大學 計算機學院,南昌 330004
CHENG Chunlei,XIA Jiali.Research on semantic annotation model of Web resources based on relational concept.Journal of Frontiers of Computer Science and Technology,2016,10(8):1092-1103.
摘要:Web環境下資源內容豐富,形式多樣,描述標準不一,組織結構離散,既有標識方法存在語義單一,缺乏領域知識背景或人工參與度大等問題,限制了它們在個性化資源推薦和獲取中的應用效果。基于關系概念的激活擴散以及資源分層語義標識的思想,面向Web資源構建了關系概念語義標識模型(relational concept annotation model,RCAM)。RCAM模擬人類記憶激活擴散過程,考慮記憶的加強與遺忘機制,由此實現資源更為動態、個性化的關聯組織。RCAM中資源標識以關系概念作為語義要素,以片段關系概念集為語義模式,標識粒度靈活,語義邏輯相對完整,為Web資源標識組織提供了新的研究思路。實驗表明,RCAM能提供更多的領域知識背景,可適應不同學習情景、學習個性下的資源動態組織,并且針對開放的Web資源,具有更好的通用性、擴展性。
關鍵詞:網絡資源標識;關系概念;激活擴散;關系概念標識模型(RCAM)
隨著用戶主導的Web2.0相關技術的發展以及數字化教育的持續推進,Web上各類資源的存量巨大,內容豐富,增長迅速,特別是“互聯網+”技術在社會生活中的廣泛應用,各種輔助學習方式也在技術變革中悄然發展,終端學習者對資源的獲取、貢獻與影響會越來越直接,由此必將進一步推動和強化資源的建設與開放。所有這些都對資源的有效獲取提出了更高的要求,但同時,巨量的資源處在開放、動態和多變的Internet環境下,位置分布,形式多樣,描述標準不一,針對特定學習目的,學習者往往較難實現有效的資源檢索與篩選。如何利用信息技術實現資源語義層面的自動標識,關聯整合不同組織、不同形式的資源數據,實現更為有效的資源組織和共享具有十分重要的理論研究和實用價值。
近年來隨著生物科學在細胞微觀領域的研究進展,認知心理學家提出了人類記憶基于激活擴散、抑制遺忘的認知過程的假設[1]。該假設較好地解釋了人類眾多的認知現象[1],該認知過程應用于計算機領域的資源標識,與其他計算機領域成熟的標識、組織模型相比,其最大優勢表現為模型的自組織性、模糊動態性等特點,與人類認知方式更為接近,方便用戶認知理解,針對開放的Web資源標識,具有更好的擴展性。基于以上特點,本文借助前期Web協作知識庫的關系概念研究[2],得到資源文本片段的主題集合。每個資源片段主題包括資源連通關系概念和外延關鍵詞,語義標識既考慮關系概念外延詞條的精確語義,也考慮語義相對完整、復合的片段級語義,采用這些既存的領域關系概念背景對資源片段進行基礎性模式標注,從而就資源片段文本的主題模式進行形式化構建與擴展。通過構建可擴散激活、遺忘衰減的資源語義標識模型,可為學習者更好獲得資源以及資源轉向提供動態模型能力支持。
資源的標識也稱為資源的元數據,元數據作為一種有效的信息資源組織和管理工具,它不僅為信息對象提供描述信息,還具有定位、檢索、關聯和選擇等功能。國內外已經具有相對完備的元數據標識規范,如Dublin Core元數據規范[3]、《教育資源建設技術規范》(CELTS-41)等。但由于Web資源開放性的特點,采用手工或半手工元數據標識工作量是難以想象的,由此限制了元數據規范在既有開放資源標識中的使用效果。
向量空間模型(vector space model,VSM)于20世紀70年代由Salton等人提出[4],成功地應用于著名的SMART文本檢索系統。該模型將一文本使用離散的詞條向量來表達,詞條在模型中假定為相互獨立。經典的VSM為其他相關模型提供了思想基礎,但針對資源的語義標識,單純的VSM模型還具有很大的局限性。資源描述框架模型(resource description framework,RDF)[5]對資源進行統一的描述,其以類似“主—謂—客”的三元組結構描述資源。但詞匯的含義、詞匯之間的關系,RDF模型并沒有刻畫。為此其擴展模型RDFS(RDF schema)定義了一組標準類及屬性的層次關系詞匯,但RDFS不能描述詞與詞間的關系,難以適應資源個性化推薦中深層次的語義標識與組織的要求。主題圖標識可追溯到20世紀90年代初[6],初衷是希望建立一個具有智能性的索引來幫助用戶組織和獲取電子文檔資源。一個主題圖包含主題(topic)、資源出處(occurrences)以及關聯(association)等特征。其很好地描述了知識之間的關系與資源的位置,但需要領域專家的深度參與,存在主題及其關系自動獲取困難等問題。本體思想也能較好地刻畫資源的語義主題[7-8],但采用本體標識組織資源,需要預先構建此目標下的領域本體,本體推理過程基于一階邏輯推理框架,推理規則的構建較為繁雜和嚴格,另外如何對本體質量進行有效評價也是一個難題。統計主題模型的基本思想是把文檔表示成多個隱含主題的概率分布,主題本身看成詞項集的概率分布,如LSI(latent semantic indexing)、pLSI (probabilistic LSI)、LDA(latent Dirichlet allocation)等模型[9-10],這些方法取得了較好的使用效果。但在開放環境下主題數量確定困難,計算量較大,在很多情況下,部分主題表達與人的理解會產生較大的偏差,難于滿足面向用戶的領域主題特征的描述、主題跳轉等需要。
經典的形式背景為三元組K=(G,M,I)[11],其中G表示對象詞條,M表示值標注詞條,I取值為0或1,表示G是否具有M屬性。為了增強在開放域概念與關系的綜合表達能力,對傳統形式背景進行擴展,提出了關系形式背景K=(G,M,RI)[2,12],其中G為詞條對象的集合,M為標注關系取值的詞條集合,RI表示標注關系。例如三元組(蝸鳶,脊索動物門,門)∈K,蝸鳶∈G,脊索動物門∈M,門∈RI,表示“蝸鳶”與“脊索動物門”具有“門”的關系。并在此基礎上提出了關系概念模型(定義與運算)[2,12],關系概念包括主體概念與客體概念,如類似上例可構建主體概念<{門},{蝸鳶,棕噪鹛,…}>,該二元組分量分別表示主體概刺胞動物門,念的內涵與外延對象,<{門},{脊索動物門,…}>,為客體概念的內涵與外延對象。二元關系概念看成主體概念和客體概念一樣的特殊關系概念,如<{鳥類},{蝸鳶,禿鷲,…}>。關系概念的內涵均為標識關系RI,外延為關系中出現的所有被標識主體詞條G或客體詞條M。
在前期研究[2,12]中,基于百度百科豐富的形式背景(主要來自詞條條目與標注數據)與關系概念模型的緊密結合,對文本中的關鍵詞所屬關系概念進行識別,并采用圖論中連通的思想,獲取文本的關系概念的連通主題,即文本主題采用一個關系概念向量表達,向量元素按概念相關度降序排列,并保留主題關系概念對應的主要原始詞條。例如某文本的關系概念向量Example1:(<社會,1.000 000>,<法律, 0.522 495>,<國家,0.230 513>,<法律術語,0.127 628>,<動漫形象,0.078 680>),及其對應的原始文本詞條:(法律地位,外務部,會談,原則,居住權,外國人,制度),上文關系概念相關度由原始文本詞條與對應關系概念連通計算所得[2]。本文以上述關系概念與主題向量為標識基礎,構建模擬人類記憶的資源標識模型。由于模型標識最終目的是為學習者服務,該模型模擬激活增強、抑制衰減兩個對立統一的認知過程,不僅要實現資源的語義層次的標識組織,也要為后續學習者的資源演化與資源轉向提供動態能力支持,具體如下文所述。
3.1資源標識模型構建
定義1(資源主題模式)資源片段的主題模式定義為四元組SM=(CT,SIMI,WS,DS),其中CT代表關系概念集[12],SIMI為與CT一一對應的歸一化的關系概念相關度[12],WS為資源片段中CT對應的主要關鍵詞集,DS代表具有該主題模式的文檔id集。其中資源片段可以是文本章節段落,CT、SIMI、WS示例見上文Example1。
資源片段在邏輯或語義上相對完整獨立,其對應的主題模式SM,是多個關系概念CT聯合表達的語義單元,同時SM也保留了關系概念對應的重要外延詞條信息。以多個關系概念作為片段的語義標識,使學習者通過CT可以了解片段的語義概念信息,也可獲知WS中核心詞條對應的精確語義。SM模型的主題特征組織構成,與人類基于局部詞條特征和上下文概念語境[13]的并行閱讀方式接近,結合人的短時注意力特點,CT、WS一般保留7±2個元素特征。
不同資源片段主題間存在語義上的關聯,體現為主題模式內的關系概念之間存在更細粒度的概念聯系,這種聯系是片段主題的關聯基礎。為此首先定義了知識激活擴散連接模型KALN,用以描述領域知識概念之間的關系。
定義2(知識關聯連接模型KALN)KALN定義為四元組KALN=(CT,KL,KD,KW),其中CT為領域關系概念,關聯集KL?CT×CT,KD(kl)表示關聯邊kl的語義距離,KW(kl)表示kl的連接強度,kl?KL。
KALN中的KD反映了關系概念間的關系內涵或外延的重疊程度,由類似百度百科的關系形式概念背景獲得,來源于人工協作語義標識,語義相對固定,距離越近越易聯想,如三角形→等腰三角形。同時KW則反映了關系概念在特定領域頻繁同時激活的強度信息,是特定學習情景下相關概念組合出現的度量,其相對動態,強度越大,也更易聯想。如同人類在認知過程中,在特定場合頻繁共現的強度也能激發人類情景下的聯想,如幾何中的三角形→面積。距離與強度是關系的兩個不同方面,如同學生由于教育差異,具有不同的認知偏好和思維方式(對應不同的概念連接強度),但學科的基本知識框架還是類同的(對應類似的概念語義距離)。
在人腦中,彌散的四通八達神經網絡為任意兩個概念提供了關聯與學習的可能[1],為一無所知的嬰兒成長為頭腦復雜的成人提供了物理通道基礎。本文借鑒該彌散無序的思想,并且考慮領域概念獲取背景的局限性,假設任意兩個關系概念通過一定的距離都是連通的,如果語義距離小于間接連通的距離,則KALN關系概念間存在連接邊。下面結合該思路,進行KALN基本模型的初始化,具體構建步驟如下。
(1)計算關聯任意兩個關系概念cti、ctj的可能邊klij的距離kdij,kdij=1/emax(cti,ctj),其中emax(cti,ctj)為最大的關系概念相關度。關系概念相關度是一種偏序關系的度量,即emax(cti,ctj)=max(e(cti,ctj),e(ctj,cti))。關系概念相關度定義見文獻[2,12],其基本思想就是關系概念間的外延或內涵的集合重疊程度,取值范圍[0,1]。概念相關度emax(cti,ctj)∈[0,1],由此可知距離kdij取值最大為+∞,最小為1;當i=j時,emax(cti,ctj)=1,則kdij=1。
(2)通過式(1)初始化KALN連接強度kwij。

(3)重復步驟(1)、(2),直至所有的kdij、kwij計算完成,KALN初始化完成,具體見算法1。
KALN為資源片段之間的主題關聯計算,提供了相對固定的基本語義與結構支持。為了對離散的SM進行管理與資源標識,下面構建了資源激活關聯連接模型。
定義3(資源關聯連接模型SALN)SALN可表示成三元組SALN=(SM,SL,SW),其中SM表示資源主題模式集,見定義1,關聯SL?SM×SM,SW(sl)表示sl的關聯權值,sl∈SL。
資源關聯連接模型的構建基于以下思想:如果資源主題模式SM包括的關系概念間在KALN中存在緊密的語義關聯時,則資源模式間也存在較強的領域關聯。資源主題模式sm1、sm2間的關聯強度計算如式(2)所示。

其中,kwij、kdij分別代表KALN中關系概念cti與ctj之間的關聯強度與連通距離,見定義2;topn、topm分別代表sm1、sm2中的關系概念數目,simii、simij則代表關系概念cti與ctj隸屬于sm1與sm2的程度,見定義1。SALN構建步驟如下。
(1)根據KALN鄰接矩陣M,M只保留主題模式sm1中關系概念對應的行,以及sm2中關系概念對應的列,得到當前的KALN子集矩陣M′topn×topm,M′矩陣元素值為資源片段在當前關系概念上的關聯程度。
(2)針對矩陣M′的j列,計算表達式(3)。

(3)使用表達式(3)分別計算sw12。

通過以上步驟進行SALN的構建,建立資源間的聯系。sw12較大則代表主題模式1、2間領域相關程度較高。如果sw12≥θ1,并且滿足表達式(5),表示主題模式1、2間雷同,則進行合并。

其中,CT1、CT2表示兩個主題模式的主題向量;cti1、cti2表示向量中的公共關系概念;ex(cti1)、ex(cti2)表示公共關系概念的詞條外延集;θ2代表相似度閾值;simi12代表兩個片段主題模式之間的Jaccard相關系數,表示關系概念精確外延詞條交集占比。雷同的主題模式需對共同的關系概念進行合并操作,合并后的關系概念不變,關系概念相關度的更新見表達式(6)。

其中,simi1i、simi2i表示主題模式1、2中合并前第i個公共關系概念的概念相關度。通過合并操作,可以增強一些重要的關系概念,相對也抑制了主題模式中的次要、噪音語義,為后續資源標識組織提供更為精簡的主題模式集。
KALN與SALN從語義的兩個不同層次,對資源進行了標識,KALN表達了知識語義級的關聯,SALN則綜合了語義與領域兩個層面的關聯。KALN、SALN子圖區域的變化,可反映學習者的學習歷史與興趣遷移軌跡,可以通過它們局部激活強度和覆蓋程度,從一定程度反映潛在資源推送需求,為后續資源推薦提供更多的上下文背景,為學習者提供更為準確、多樣的資源。
3.2資源標識模型的擴展
資源的標識組織,最終要為用戶服務,其組織形式及變化擴展應該考慮或遵循人類的認知變化規律。即KALN、SALN不是一成不變的,應該反映開放資源本身及學習者個性的演化,并可以進行自組織調整,例如不斷加入新資源,學習者的興趣偏好、學習歷史、認知路徑變化等。為了增加資源語義模型的自適應性,下面借鑒人類記憶擴散過程對其進行擴展,使資源的語義標識不僅反映資源內容本身,也為個性化的資源需求提供模型能力支持。例如KALN中原始的關系概念“電氣”與“磁場”,由于這兩個關系概念外延詞條交集不大,其初始語義關聯并不強,但如果學習者正在學習電磁學,則它們會在資源中頻繁共現,并且在該領域關聯強度應該較強,而隨著學習者學習內容的偏移,它們之間的關聯又會慢慢衰減。該變化過程如同人類記憶增強與衰減過程,可以體現學習狀態或資源內容的變化,具有自組織、模糊性的特點。
同時基本的KALN、SALN的核心均為從關系形式背景中獲得關系概念,而單純通過協作知識庫(如百度百科)獲取的關系語義完整性還有一定的局限。考慮到資源主題模式對應于實際存在的資源片段,這些資源片段的語義是通過關系概念展現的,關系概念在每個資源片段的共同出現,都可看成關系概念間的一次領域激活,由此動態調整KALN中關系概念間連接強度值KW,使KALN通過更廣泛的資源內容協作,關聯語義反映領域知識實際組織情況。下面首先對知識關聯連接模型KALN進行擴展。
3.2.1KALN基于多概念的同步激活與衰減
KALN=(CT,KL,KD,KW),包括關系概念及其之間的連通距離與連接強度。連通距離KD反映它們之間的關系概念關聯程度,相對固定,其更新變化不在本文討論范圍之內。KW這個連接強度在不同的學習情景中,則是相對動態的。例如ct1、ct2之間在特定環境中(如某類資源或某類學習中)出現次數越頻繁,那么ct1、ct2之間的關聯激活應該更活躍、容易,反之,它們之間的激活就會慢慢衰減、困難。
如同人類認知過程中,記憶增強與衰減是對立統一的,有增強沒有衰減,記憶必將達到生理認知的極限,強度必將在注意力面前失去意義。領域專家的知識組織與記憶也遵循這個規律,其可以根據變化的學習環境,為學習者提供適宜的領域知識服務與指導。同理KALN如果一成不變或只增不減,也很難突出知識服務本身的時空動態性。
通過研究,認知學家針對神經通道強度提出了以下4個假設[1]:(1)每一次激發產生與神經通道成正比的強度增量;(2)激發次數越多,增量越大;(3)神經通道會因為新陳代謝或大腦其他部分的工作,產生消退或抑制而衰減;(4)神經通道強度越強,越容易激發。借鑒認知學家的以上理論,基于假設(1)~ (3),KALN中的KW變化,滿足微分方程(7)[1],KW在連接強度值方程中簡單記為w。

其中,f代表激發頻次;ξw代表強度可調系數;η代表衰減可調系數;t代表KALN激活時序。根據假設(4)[1],可得:

其中,ξf為激發頻次可調系數。
通過對微分方程(7)、(8)求解,可以得到KALN中的連接強度KW的計算公式:

其中,w0代表關系概念初始連接強度。從式(9)對t求導可知,=0時可得表達式(10):

當初始強度w0
ξf與激發頻次正相關,把某主題模式sm看成Object,其包含的ct看成Attribute,由SM模式集構建資源與概念間的形式概念背景。在此形式概念背景中,采用NGD(normalized Google distance)計算連通主題之間的領域關聯關系,如式(11)所示。

其中,τ=0.000 001,λ=-1.0是經驗性常數;NGD(sti,stj)表示關系概念 sti、stj的歸一化谷歌距離;f(sti)、f(sti,stj)代表關系概念在資源模式集SM中單獨或共同出現的次數;N代表主題模式總數。ξfij越大代表
sti、stj之間的相互激發越強。
結合以上分析,本研究通過η響應ξf值進行動態調整,實現連接強度的激活或相對抑制。強度系數ξw取固定經驗值1.0,η取值半開區間為(ξfw0(1-e-ηt),ξfw0],ξf越大,則η取值越偏向半區間起點,即:

由式(9)、(10)、(12)可知,ξf的增大變化可導致關系概念連接強度w衰減變慢,甚至關系概念連接強度的增長。
綜上所述,關系概念初始語義距離越相近,則激活連接強度衰減越慢;關系概念領域共現越頻繁,則KALN中的激活強度越明顯。通過KALN中KW的η參數調整學習,KALN可以反映關系概念語義、資源領域共現的信息,使得在資源標識過程中,實現KALN的擴展學習。
該公司引進歐洲專業涂層設備,主要提供基于工模具行業的硬質涂層和基于汽車零部件的耐磨減摩涂層服務。硬質涂層主要采用磁控電弧技術,提供鉻鋁基的D+涂層、超硬切削的SC涂層、不銹鋼切削的專用SS涂層以及享有專利技術的鉻基EPAC涂層等。基于汽車零部件的Arisimit? DLC涂層則采用PECVD技術,專注于摩擦學涂層市場,以降低(汽車)組件的摩擦與磨損。
3.2.2SALN的擴展
同屬一篇文檔的資源片段的主題模式間一般存在顯性或隱性的領域關聯,基于該假設,對SALN模型中結點間的swij可進行文檔結構信息擴展,由于篇幅問題,暫不作詳述。
3.2.3KALN與SALN的增量更新
在Web資源主題模式更新過程中,KALN中的KW與SALN中的SW均會動態變化更新,二者均采用離線定時更新的方式。在資源標識過程中,新的資源片段如果屬于某個既有主題模式,則把文檔編號加入主題模式即可,否則增加新的主題模式到SALN中。如同人類短時記憶與長時記憶的關系一樣,海馬中的短時記憶可以向大腦皮層的長時記憶轉化。KALN的更新,必將影響SALN的局部更新。
為了減少增量更新過程中的計算工作量,SALN、KALN的增量更新只針對相關的關系概念進行,暫不作深入優化討論。
算法1 KALN初始化算法
輸入參數:CT為通過開放協作知識庫獲取的關系概念集合,為String數組類型。
輸出結果:初始的知識關聯連接網絡KALN,可采用三維數組k[|CT|][|CT|][2]表示,見定義2。
1.定義sr[|CT|],sc[|CT|]//匯總k數組行、列
2.for i=0 to|CT|{
3.k[i][i][0]=1,sr[i]+=1,sc[i]+=1
4.forj=i+1to|CT|{
5.kdij=1/emax(CT[i],CT[j])
6.k[i][j][0]=k[j][i][0]=kdij
7.sr[i]+=kdij,sr[j]+=kdij
8.sc[j]+=kdij,sc[i]+=kdij
9.}}
10.for i=0 to|CT|{
11.k[i][i][1]=1.0/sr(i)
12.forj=i+1to|CT|{
13.kwij=k[i][j][0]/(min(sr[i],sc[j]))
14.k[i][j][1]=k[j][i][1]=kwij
15.}}
16.輸出數組k,KALN初始化完成
從算法1可知,KALN擴展的工作量主要和關系概念數量m有關,時間復雜度為O(m2),空間復雜度為O(m2),m為當前關系概念數量。KALN是資源標識的背景知識網絡,該網絡計算可以離線預先處理。
算法2 KALN增量擴展算法
k′=ExpdKALN(k,CT)
輸入參數:k為初始的知識關聯連接網絡KALN的數組,見算法1;CL為新加入資源集的關系概念向量List集合,其元素為CT類型;CT為某一資源對應的關系概念集合,類似算法1。
輸出結果:更新后的k′。
1.定義類型為List
2.Fori=0to|CL|{//遍歷新資源主題向量
3.CTi=CL[i]//某資源的關系概念集合
4.Fork=0to|CTi|{//遍歷某資源關系概念
5.if(!ST.contains(CTi[k])){//新增
6.ST=ST?{
7.}esle{//更新頻率
8.times=ST.getvalue(CTi[k])
9.ST=ST.remove(CTi[k]).add(CTi[k],times++>)
10.}}
11.Fori=0to|ST|{
12.if(ST.getvalue(i)>θf)//出現次數大于閾值
13.ST′=ST′?{ST.get(i)}
14.ST.remove(i)
15.}
16.if(||ST′>θsize{//更新概念規模大于閾值
17.Form=0to||ST′{
18.Forn=mto||ST′{
19.采用式(11)、(12)、(9)計算連接強度w
20.更新ST′.get(m)、ST′.get(n)、w到k′
21.}}
22.輸出k′
從算法2可知,KALN擴展的工作量主要和新增資源集數量及其對應的高頻關系概念的數量有關,由于每個資源中的關系概念數量||CTi為固定常數,即7±2,時間復雜度為O(n)+O(m2),空間復雜度為O(m2)+O(n),n為當前資源數量,m為當前高頻關系概念數量。算法2只針對高頻的關系概念進行連接權值的批量更新,減少KALN的擴展開銷。
算法3 SALN基本構建算法
SALN=InitSALN(SM)
輸入參數:SM為新加入資源所涉及的關系模式集合,為List類型,其元素數據類型為
輸出結果:資源關聯連接網絡SALN,采用二維數組SN表示,見定義3.
1.Fori=0to|SM|{
2.Forj=i+1to|SM|{
3.采用式(2),計算SN[i][j]=SN[j][i]=swij
4.}}
5.輸出SN
由于每個主題模式中的關系概念數量為一個常數,從算法3可知,SALN初始化的工作量主要和資源集對應的主題模式數量m有關,空間復雜度為O(m2),時間復雜度為O(m2),從中可知主題模式的規模直接影響資源標識的效率。因此進行主題模式的合并十分必要,SM的合并與SALN的增量更新暫沒討論。
結合以上構建的資源標識模型,新的資源通過以下步驟完成語義標識。
(1)構建KALN:借助開放協作數據庫,如百度百科條目數據,進行關系概念的獲取計算,構建KALN。
(2)資源預處理:把不同格式的資源,如PDF、html、ppt、txt,轉換成統一格式的文本。
(3)資源文本處理:對統一格式的文本進行預處理,如分詞、詞性標注等,形成離散的關鍵詞。
(4)資源關系概念識別:借助關系形式概念及圖論,對文本中的關鍵詞進行資源關系概念標識。
(5)資源主題模式的獲取:獲取資源片段的關系概念向量,構建其主題模式。
(6)利用上一步獲取的資源片段的主題模式,采用式(2)對資源片段在SALN中進行相似度計算。
(7)如果存在足夠相似的主題模式,則該資源鏈接到該主題模式,否則新建一個主題模式,并增量添加到SALN。
為了評價實際資源標識性能,本文從以下兩個方面進行資源語義標識模式準確性評價:
(1)資源內容的關聯關系在標識模型中能否正確體現,即本身關聯的資源在標識模型中是否也是關聯的。
(2)對于一個資源主題模式,其所具有的關聯語義鏈中,那些高權值的關聯語義鏈在關聯語義準確度上能否高于那些低權值的關聯語義鏈。
最為簡單可行的辦法是通過人工閱讀評價的方法,確定標識后的資源語義關聯的效果。但為了增加評價的客觀性,本文主要通過同一原始目錄中的文本,使用SALN進行標識,驗證標識后資源的相似性、關聯性。
6.1實驗環境
在CPU為Intel Core i5-4200U,內存為4 GB,OS 為64位的Windows 8的PC機上,采用Java開發語言和Eclipse開發平臺進行實驗,數據采用PostgreSQL9.3進行管理。
6.2實驗數據
本文針對“初中物理在線”商用網站(http://www. czwlzx.com/)中的794篇物理文本資源進行標識實驗,這些實用的文本教育資源從內容上分為機械運動、聲現象、光現象、力、電流與電路、電與磁、能源與可持續發展等11個一級章節,以及能源、電流和電路、串聯和并聯、力、光的反射、長度、時間的測量、電動機、運動的描述等40個二級章節。這些資源均為全國不同學校的老師或學生上傳的文本資源,結構形式不一,為了對資源標識效果進行評價分析,資源原始一、二級目錄信息均保存在數據庫中。
6.3實驗結果及分析
6.3.1資源標識效果
本文借助百度百科開放協作知識庫,通過文本分詞、去除停用詞等淺層文本處理,以及句法分析、關系概念連通處理后,可得到文本片段主題。由于實驗文本數據長短不一,文本結構也不規范,實驗中把每個文本資源看成單一片段,其對應的文本主題也看成一個主題模式。例如同為“電與磁”目錄下的文檔ID271、ID272對應的資源主題模式sm271、sm272如表1所示,表格第一行信息包括關系概念及其在文本中的權值,第二行信息為文本中原始的詞條序列,該詞條序列屬于同列關系概念。

Table 1 Sketch with sm271 of ID271 and sm272 of ID272表1 ID271文本sm271和ID272文本sm272示意
sm271與sm272相關的關系概念KALN子圖如圖1所示,其中連接權值包括“初始連接強度/語義距離”兩部分,該初始的KALN基本反映了詞條之間的關聯關系,如“應用物理”與“電磁學”之間的權值為0.019/1.757,而“社會”與“磁場”間的權值為0/∞,這與實際語義情況比較吻合。KALN的構建質量與爬取的形式背景的完備程度密切相關,在當前KALN狀態下,兩個主題模式間的關聯度可通過式(2)計算得sw(sm271,sm272)=0.025 344。

Fig.1 Sub graph of relational concept圖1 關系概念的子圖示意
在以上基本標識思路上,本文對KALN的擴展模型準確率、召回率、平均關聯度進行了驗證。根據開放資源既有標識特點,與一資源關聯度大于某閾值的關聯資源在同一目錄下,則認為是正確標識;所有本身關聯資源的標識關聯度超過了平均關聯度的占比為其召回率。為了體現上文說明的準確關聯準則,即不僅評價模型的關聯語義,同時評價模型關聯的相對強弱能力,實驗對資源既有一、二級目錄標識,在KALN擴展前后進行了評價,具體結果如表2。

Table 2 Result of annotating resources表2 資源標識關聯結果
KALN的擴展,可以動態調整領域關系概念的連接強度,使其更加符合同一語料的關系概念共現關聯的情況。從表2中可知,資源間平均關聯度由擴展前的0.008 5變為擴展后的0.194 2,說明資源包含的關系概念間的連接強度得以普遍加強。由于語料質量與規模的限制,主題模式間連接強度普遍增加的同時,也整體上引入了一些噪音數據,導致以平均關聯度為閾值,召回率和準確率均有所下降,如一級目錄的召回率由78.34%下降為76.60%,準確率由原38.23%也下降為31.99%;但資源以Top1關聯度為閾值時,擴展前后準確率是上升的,其準確率擴展前后分別達到73.25%與82.60%,說明KALN的擴展對真正關聯的部分概念增大程度更大。從表2中可以看出,為了提高后續資源標識的準確性,選取平均關聯度作為資源的連接閾值是不合理的,一級目錄選取Top3關聯度較為合適,二級目錄選擇Top2關聯度較為合適,這樣資源間可以形成較為準確并且多樣化的關聯。Top1代表與某資源最為關聯的前一個關聯度,其他同理。
一、二級目錄準確率的差異,是由于一級目錄寬泛,二級目錄標識更為精準而形成的。Top2關聯度為閾值的一、二級目錄的準確率相差不是很大,說明模型中的關聯程度能較好體現資源本身的關聯精準程度。RCAM-Top2資源SALN見圖2。

Fig.2 SALN structure schematic圖2SALN示意
因為KALN假設每個關系概念通過有限的距離均是連通的,所以圖2不存在孤立的資源結點,每個資源平均有2.542個鄰居結點。結點度的分布接近power law分布,即y=2 429.9x-2.52,其R2=0.896,Correlation= 0.708。
模型進行資源標識時,主要和既有資源主題模式數量、資源標識關系概念數量有關,與物理在線資源相關的原始主題模式數量為844個,每個資源使用前9個關系概念標識,通過多輪主題模式合并后,主題模式精簡到791個主題模式。每個主題模式采用9個關系概念及其外延詞條表達,而兩主題模式間采用一個語義關聯數值進行表達,存儲空間為586 KB,較為合理。由于模型定義的特點,相比資源的開放性增長,后續資源的主題模式增長會緩慢得多,但具體數據還需后續的進一步驗證和優化。
6.3.2與相關資源組織模型的結構比較
由于資源標識模型的效果不僅與模型策略有關,也與其領域知識的構建規模和質量關系密切,因此表3只給出了相關資源組織模型的網絡結構比較信息。語義網本體是文獻[7]中利用DAML圖書館中的語義本體構建的網絡;WWW網絡的數據則來自文獻[14];Words Network的數據來自文獻[15];關聯語義鏈網絡的數據則來自文獻[16]。

Table 3 Comparison of resource organization models表3 相關資源組織模型比較
由于RCAM-Top2網絡是基于Top2關聯度構建的,RCAM-Top10則是基于Top10關聯度構建的,故此它們資源間的平均連通路徑長度變化較大,前者更為稀疏。RCAM-Top10和小世界網絡Words Network模型特點接近。相比半自動的語義網本體模型,RCAM與關聯語義鏈網絡構建更為方便,均為自動構建,萬維網的連接網絡具有較大的隨機性。RCAM構建基于關系概念以及認知規律,語義與結構可以進行擴展,可通過設置不同的網絡連接閾值,控制標識的準確性或激活范圍,在特定的上下文環境下,可以進行不同的資源轉向控制。
本文借助對傳統形式概念的擴展,建立基于關系的形式概念,采用關系概念及主題模式對資源進行標識,為資源提供概念與結構上的標識語義。同時借鑒人類記憶的激活擴散、衰減遺忘機制,對模型的關聯強度進行動態學習調整,使其更好反映Web資源標識的時空動態性與學習者的個性需求。本文主題模式的合并約簡、模型的增量更新以及參數調整的收斂、調整規律,更為精準的KALN擴展規律及其結合個性化資源推薦應用均需進一步深入研究。
References:
[1]Liu Hanhui.Analysis of the mechanism and application of memory model and neural system[M].Tianjin:Tianjin University Press,2015.
[2]Xia Jiali,Cheng Chunlei,Chen Hui,et al.The strategy of extracting Chinese entities relation based on predicate concept connectivity[J].Journal of Frontiers of Computer Science and Technology,2014,8(11):1345-1357.
[3]Dublin core metadata initiative(DCMI)[R/OL].(2008-06-07)[2016-02-28].http://dublincore.org/.
[4]Salton G,Yang C S.On the specification of term values in automatic indexing[J].Journal of Documentation,1973,29 (4):351-372.
[5]Resource description framework(RDF)[R/OL].[2016-02-28]. http://www.w3.org/TR/2014/REC-rdf11-concepts-20140225/.
[6]ISO/IEC.Topic maps data model[S/OL].(2006)[2016-02-28]. http://www.topicmaps.org/.
[7]Gil R,Garcia R.Measuring the semantic Web[J].AIS SIGSEMIS Bulletin,2004,1(2):69-72.
[8]Yang Yuehua,Du Junping,Ping Yuan.Ontology-based intelligent information retrieval system[J].Journal of Software, 2015,36(7):1675-1687.
[9]Xu Ge,Wang Houfeng.The development of topic models in natural language processing[J].Chinese Journal of Computers,2011,34(8):1423-1437.
[10]Wang Shaonan,Zong Chengqin.A dual-LDA method on Chinese word sense representation and induction[J/OL]. Chinese Journal of Computers.(2016-01-24)[2016-02-28]. http://www.cnki.net./kcms/detail/11.1826.TP.20160124.2008. 004.html.
[11]Wille R.Restructuring lattice theory:an approach based on hierarchies of concepts[C]//LNCS 5548:Proceedings of the7th International Conference on Formal Concept Analysis, Darmstadt,Germany,May 21-24,2009.Berlin,Heidelberg: Springer,2009:314-339.
[12]Cheng Chunlei,Xia Jiali,Cao Chonghua,et al.Research on Web text topic extraction model with relational concept[J]. Journal of Chinese Computer Systems,2016,37(5):972-978.
[13]Boulton D.Cognitive science:the conceptual components of reading&what reading does for the mind[EB/OL].[2016-02-28].http://www.childrenofthecode.org/interviews/stanovich.htm.
[14]Kleinberg J,Lawrence S.The structure of the Web[J].Science, 2001,294:1849-1850.
[15]Ferre R,Sole R.The small world of human language[J]. Proceedings of the Royal Society:B,2001,268:2261-2265.
[16]Xu Zheng.Building association link network for managing large-scale Web resources[D].Shanghai:Shanghai University,2012.
附中文參考文獻:
[1]劉漢輝.記憶分析模型及其神經系統機理與應用[M].天津:天津大學出版社,2015.
[2]夏家莉,程春雷,陳輝,等.謂詞概念連通度的中文實體關系抽取策略[J].計算機科學與探索,2014,8(11):1345-1357.
[8]楊月華,杜軍平,平源.基于本體的智能信息檢索系統[J].軟件學報,2015,36(7):1675-1687.
[9]徐戈,王厚峰.自然語言處理中主題模型的發展[J].計算機學報,2011,34(8):1423-1437.
[10]王少楠,宗成慶.一種基于雙通道LDA模型的漢語詞義表示與歸納方法[J/OL].計算機學報.(2016-01-24)[2016-02-28].http://www.cnki.net./kcms/detail/11.1826.TP.20160124. 2008.004.html.
[12]程春雷,夏家莉,曹重華,等.關系概念的Web文本主題抽取模型研究[J].小型微型計算機系統,2016,37(5):972-978.
[16]徐崢.大規模網絡資源環境下關聯語義鏈網絡模型及其應用研究[D].上海:上海大學,2012.

CHENG Chunlei was born in 1976.He is a Ph.D.candidate and associate professor at Jiangxi University of Finance and Economics,and the member of CCF.His research interests include text mining and decision support system.程春雷(1976—),男,江西財經大學博士研究生、副教授,CCF會員,主要研究領域為文本挖掘,決策支持系統。

XIA Jiali was born in 1965.She received the Ph.D.degree from Huazhong University of Science and Technology in 2003.Now she is a professor and Ph.D.supervisor at Jiangxi University of Finance and Economics.Her research interests include data mining,real-time database system and software engineering.
夏家莉(1965—),女,2003年于華中科技大學獲得博士學位,現為江西財經大學教授、博士生導師,主要研究領域為數據挖掘,實時數據庫系統,軟件工程。
*The Science and Technology Support Program of Jiangxi Province under Grant No.20141BBE50031(江西省科技支撐計劃);the Natural Science Foundation of Jiangxi Province under Grant No.20132BAB201028(江西省自然科學基金);the Medical Research Program of Health Department of Jiangxi Province under Grant No.2013A100(江西省衛生廳中醫藥科研計劃);the Research Program of Jiangxi University of Traditional Chinese Medicine under Grant Nos.2013ZR0069,2013jzzdxk022(江西中醫藥大學校級課題).
Received 2016-04,Accepted 2016-06.
CNKI網絡優先出版:2016-06-01,http://www.cnki.net/kcms/detail/11.5602.TP.20160601.1517.002.html
文獻標志碼:A
中圖分類號:TP391
doi:10.3778/j.issn.1673-9418.1604023
Research on Semantic Annotation Model of Web Resources Based on Relational Concept*
CHENG Chunlei1,2+,XIAJiali1
1.School of Information Management,Jiangxi University of Finance and Economics,Nanchang 330032,China 2.School of Computer Science,Jiangxi University of Traditional Chinese Medicine,Nanchang 330004,China +Corresponding author:E-mail:chunlei_cheng@163.com
Abstract:In the Web environment,resources have rich contents,various forms,different description standards as well as discrete organizational structures.Problems,such as the lack of semantics and domain knowledge and artificial workload,limit them in the personalized resource recommendation and the obtaining application.This paper, based on the relationship between the concept of activated diffusion and the thought of layered resource semantic identification,establishes the relational concept annotation model(RCAM).RCAM simulates human memory activation spreading process and considers memory enhancement and forgetting mechanism to achieve the more dynamic and personalized related organizations of Web resources.RCAM regards the concept of a relationship as semantic elements,and the fragment relationship concept set as the semantic scheme.With the flexible identification granularity and relatively completed sematic logic,RCAM provides new research ideas to Web education resource identification.Experiment shows that RCAM can provide more background knowledge,adapt to dynamic resource organi-zation with different learning scenarios and learning personality,and it aims at the open Web resources.As a result, RCAM has better universality and extensibility.
Key words:Web resources annotation;relational concept;activation and spreading;relational concept annotation model(RCAM)