丁國柱,余勝泉,潘 升
(1.北京師范大學 教育學部 教育技術(shù)學院,北京 100875;2.“移動學習”教育部—中國移動聯(lián)合實驗室,北京 100875)
學習資源的語義眾包標注系統(tǒng)設(shè)計 *
丁國柱1,2,余勝泉1,2,潘 升1,2
(1.北京師范大學 教育學部 教育技術(shù)學院,北京 100875;2.“移動學習”教育部—中國移動聯(lián)合實驗室,北京 100875)
語義標注是Web3.0環(huán)境下學習資源組織方式的基礎(chǔ)和前提。目前學習資源的語義標注多是通過本體對文檔的實體進行識別和標注,一般揭示的是顯性的、有確定規(guī)則的知識,對人文性學科中蘊含情境性、文化性特征可多元解釋的隱性知識揭示不足,針對目前這個問題,該文提出基于眾包的學習資源語義標記的思路,充分利用人的集體智慧,解決海量學習資源的復雜多元語義標注問題。研究以學習元平臺為支撐,構(gòu)建基于眾包的語義標注系統(tǒng),通過社會信任計算和關(guān)聯(lián)詞匯判別過濾機制進行質(zhì)量控制,實現(xiàn)學習資源中隱性知識的標注,通過實驗證明基于眾包能夠有效解決人文性學科中的隱性知識標注。
語義標注;眾包;學科資源;學習元
語義標注是指為文檔添加規(guī)范化知識表示的過程[1],是實現(xiàn)文檔機器可讀的重要途徑,也是學習資源語義檢索、資源庫轉(zhuǎn)向知識服務(wù)等應(yīng)用的關(guān)鍵環(huán)節(jié)。雖然目前已有不少機器自動處理的辦法來實現(xiàn)語義標注,但一些學科特別是人文社會類學科的實例具有動態(tài)變化的特點,一些知識實例存在的隱性關(guān)聯(lián)是機器難以自動處理的,如語文學科中的人文性知識是動態(tài)發(fā)展的,而且具有一定的主觀性,單純靠機器來實現(xiàn)語義標注比較困難,特別是隱性知識存在情境性,受文化、民族傳統(tǒng)甚至宗教的影響,機器標注的正確率低;而依賴少數(shù)專家的人工標注則存在巨大的人力和時間成本,需要其他方式來解決這個問題。眾包利用互聯(lián)網(wǎng)將工作分配出去[2],利用群體的智慧完成工程巨大的任務(wù)。利用眾包來解決機器難以完成的部分學習資源的語義標注是一個值得研究的課題。
語義標注的本質(zhì)是實體識別和實體標注,即基于本體對文檔中的實體進行提取,并對實體進行標注,從而使得計算機可以理解文檔的內(nèi)容。目前語義標注的方法主要有自動化標注、半自動標注、手工標等類型[3],自動標注有基于機器學習的方式(Machine Learning-based)、基于模式的方式(Patternbased)和綜合方式(Multi Strategy,結(jié)合機器學習和模式方式);半自動標注結(jié)合了自動標注和手工標注兩種方式,有助于提高標注的準確性。標注工具方面,手工工具有SHOE Knowledge Annotation;半自動工具有SMORE、MnM、Melita、Semantic Word等,自動化工具有AeroDAML等[4]??偟膩砜矗Z義標注包括如下幾個方面:(1)實體標注,實體標注是指將某個實體指向為本體中的某個概念(或稱為類),即建立實例和概念的關(guān)聯(lián),其形式化表示為(I,rdf:type,C),其中I表示實例,C表示概念;(2)實體關(guān)聯(lián),實體關(guān)聯(lián)則是基于本體中的對象屬性建立2個實例的關(guān)系,形式化表示為(I1,R,I2),其中I1、I2為2個不同的實例,R為對象屬性;(3)實體屬性標注,即標注一個實體的XML數(shù)據(jù)類型信息,如人的出生日期、身高等,形式化表示為(I1,R,d),其中I1為實體,R為數(shù)據(jù)屬性,d則是XML數(shù)據(jù)類型的相關(guān)數(shù)據(jù);(4)新增概念,當一個實例要標注的概念系統(tǒng)未記錄時,這個概念就是新增的概念,可以納入本體中;(5)新增概念關(guān)系,即增加本體中的對象屬性;(6)新增概念屬性,即增加本體中的數(shù)據(jù)屬性。
對于學習資源而言,合理的語義標注可以實現(xiàn)資源聚合、語義檢索、資源推薦等應(yīng)用,然而當前語義標注方法多是針對顯性知識進行標注,對隱性知識的標注能力不強,如“廉頗老矣”簡單四字,卻涉及了歷史、情感和隱喻,機器往往難以標注全面,因此現(xiàn)實中很大一部分學習資源的標注還是要依賴于人工。
基于眾包對信息進行標注可以追溯到Web2.0時代,如圖片分享網(wǎng)站Flickr的Folksonomy,用戶群體將照片貼上標簽并且以此來組織圖片資源;眾包的標志性成果則是路易斯·馮·安開發(fā)的reCAPTCHA,完成紙質(zhì)書的數(shù)字化[5];利用同樣的原理Sophia等開發(fā)faceCAPTCHA,完成性別標注[6];研究者設(shè)計了一款基于眾包的游戲Foldit,僅用了三周時間,玩家就解決了一個艾滋病方面的難題[7],而這個難題已經(jīng)困擾了科學家15年;也有學者利用眾包來構(gòu)建情感詞匯[8],構(gòu)建詞匯聯(lián)想網(wǎng)絡(luò)[9]等。此外亞馬遜、愛立信、華為等500強企業(yè)也以各種方式利用眾包,讓群體智慧為自己的企業(yè)解決部分難題。從已有的研究來看,眾包至少有3個特點:(1)問題轉(zhuǎn)化:將機器難以處理的任務(wù)轉(zhuǎn)化成人類可以完成的任務(wù);(2)化整為零:將一個巨大的任務(wù)分成數(shù)量較大的小任務(wù),這些小任務(wù)分配下來后用戶可以較輕松完成;(3)聚合群體智慧:對于每一個任務(wù)而言,互聯(lián)網(wǎng)中個體的簡單行為(如創(chuàng)建、投票、瀏覽)可以看成是一個微小N維向量,一定數(shù)量用戶的行為產(chǎn)生的向量之和則可以產(chǎn)生足夠的影響力;即單獨個體的行為與智能簡單有限,但相當數(shù)量的個體行為相互作用可以形成巨大的智慧。
從眾包的特點來,眾包可以充分利用人本計算(Human-based Computation),將人視為計算資源,即基于網(wǎng)絡(luò)的分眾性和協(xié)同性,利用人的智慧來完成計算機難以做好的事情。因此利用眾包來完成學習資源語義標注,可以解決學習資源隱性知識的語義標注問題。
建構(gòu)主義認為知識的獲取過程來自于他人(包括教師和學習伙伴)的幫助,他人知識的顯性化可以促進個體的認知。學習資源的標注可以看成是個體知識顯性化的過程。當標注活動成為群體行為時,可產(chǎn)生知識共享與協(xié)同知識建構(gòu),與此同時也解決了學習資源的語義標注問題。具體實現(xiàn)步驟如下:(1)任務(wù)分配:根據(jù)學習內(nèi)容與用戶特征將任務(wù)分配下去;(2)用戶參與機制:學習管理系統(tǒng)的目標是為了促進用戶的學習,因此應(yīng)該設(shè)計合理的機制,使得用戶在完成學習任務(wù)的過程中自然地完成標注任務(wù);(3)群體智慧的聚合:利用聚合算法實現(xiàn)用戶參與結(jié)果計算,使得大量用戶相對無序的工作變成智慧的產(chǎn)物?;谏鲜霾襟E,本研究構(gòu)建了基于眾包的語義標注模型,如圖1所示?;诒姲膶W習資源語義標注主要包括任務(wù)分配器、語義標注工具、眾包質(zhì)量控制機制三個部分。

圖1 基于眾包的語義標注模型
“學習活動”通過支持教學方法、教學策略、教學活動的重用,在教學層面上實現(xiàn)了教育過程與活動的高水平共享[10][11]。網(wǎng)絡(luò)學習環(huán)境下,教學目標的達成可以由一系列的學習活動組成,通過恰當?shù)慕虒W策略與方法,設(shè)計和實施有效的學習活動,促進學生與教師之間、學生與學生之間的交流,使得學生積極地投入到網(wǎng)絡(luò)學習中,實現(xiàn)知識的習得與內(nèi)化。因此“活動”是學習設(shè)計的重要載體,如課堂/小組討論、問題解決、角色扮演等,可以將學習資源的語義標注任務(wù)轉(zhuǎn)化為學習活動,既促進學習者的學習,也實現(xiàn)學習資源的語義標注。語文學習中大量的知識需要學生進行構(gòu)建和關(guān)聯(lián),通過學習活動讓學生建立相關(guān)的知識關(guān)聯(lián),一方面可以促進學生的知識內(nèi)化,教師也可以發(fā)現(xiàn)學生的認知缺陷,進而有針對性地指導學生;另一方面也可以利用學生的智慧完善語義標注。如圖2所示,教師發(fā)布語義標注的學習活動,學生參與學習學動,進而構(gòu)建更完整的知識體系,而教師也可以根據(jù)學生完成情況進行個性化指導,基于學習活動的任務(wù)分配可以取到一舉多得的效果。

圖2 基于學習活動的任務(wù)分配
當一個語義標注任務(wù)分配下來后,相關(guān)群體需要一個適合的語義標注工具來完成任務(wù)??紤]到參與人員大部分是普通的教師,用戶對語義這個概念的了解程度比較有限,可以利用一些輔助工具來降低語義標注的難度。語義標注包括的實體標注、實體關(guān)聯(lián)、實體屬性標注、新增概念、新增概念關(guān)系、新增概念屬性等內(nèi)容,其本質(zhì)來看都是描述事物A、事物B和2者關(guān)系R的三元組,標記為<A,R,B>,故最簡單的辦法可能是讓用戶直接填充這個三元組,然后再通過算法識別是哪一個類型的語義標注。因此一個完整的語義標注工具包括了用戶前端標注和標注后端分析。
用戶前端標注,本文使用了兩種用戶標注方法,一是直接填充三元組法:通過三個文本輸入框,讓用戶直接填充知識,如右圖3所示;二是構(gòu)建個人知識圖譜法:通過圖像界面,顯示知識點與知識點之間的關(guān)系,通過構(gòu)建個人知識圖譜完善語義標注。如圖4所示。

圖3 利用直接填充三元組法實現(xiàn)語義標注

圖4 利用知識圖譜實現(xiàn)語義標注
用戶完成語義標注后,具體標注類型還是未知的,系統(tǒng)可以通過算法進行分類。具體算法如下:
(1)一個語義標注<A,R,B>,若B為概念,R為是、是一個、為、是一類、類型是、類型等類別詞匯,同時A不屬于一個概念時,則<A,R,B>為實體標注。如標注<劉禹錫,是,唐朝詩人>,唐朝詩人在系統(tǒng)中已作為一個關(guān)鍵概念存在,而劉禹錫不是概念,則這個語義標注為實體標注,將劉禹錫標注為一個實體,并作為唐朝詩人的一個實例。
(2)一個語義標注<A,R,B>,若A和B都不是概念,同時A和B是分別或者同時是某個概念的實例,則<A,R,B>為實體關(guān)聯(lián)。如標注<李白,創(chuàng)作,靜夜思>,李白和靜夜思都不是概念,而分別屬于唐朝詩人和唐朝詩詞的實例,那么這個標注為實體關(guān)聯(lián)。
(3)一個語義標注<A,R,B>,若A為某個概念的實例,B既不是實例也不是一個概念,則<A,R,B>為實體屬性標注。如<杜甫,字,子美>,杜甫為唐朝詩人的實例,子美在系統(tǒng)中不是實例也不是一個概念,那么這個標注可以視為屬性標注,即將“字”作為杜甫的一個屬性。
(4)一個語義標注<A,R,B>,若A為某個概念的實例或者A不是實例也不是一個概念,R為是、是一個、為、是一類、類型是、類型等類別詞匯,B在系統(tǒng)中沒有對應(yīng)的概念,則<A,R,B>為新增概念。如標注<杜甫,是,現(xiàn)實主義詩人>,已知杜甫是唐朝詩人的實例,而現(xiàn)實主義詩人在系統(tǒng)中沒有作為一個概念存在,現(xiàn)實主義詩人就作為一個新增的概念加入系統(tǒng)。
(5)一個語義標注<A,R,B>,若A是一個概念,B在系統(tǒng)中沒有對應(yīng)的概念,同時B有其他關(guān)系連接,則<A,R,B>為新增概念關(guān)系。如標注<司馬遷,創(chuàng)作,史記>,系統(tǒng)中<司馬遷,是,史學家>的記錄,同時也有<史記,被譽為,“史家之絕唱,無韻之離騷”>,此時可以把“創(chuàng)作”這個作為史學家的一個概念關(guān)系。
(6)一個語義標注<A,R,B>,若A是一個概念,B在系統(tǒng)中沒有對應(yīng)的概念,同時B沒有其他關(guān)系連接,則<A,R,B>為新增概念屬性。如標注<衛(wèi)青,字,仲卿>,衛(wèi)青是西漢大將軍,而仲卿則未有其他節(jié)點與之關(guān)聯(lián),則可以將“字”視為大將軍的一個屬性。
互聯(lián)網(wǎng)環(huán)境下,參與眾包的用戶量巨大,需要有效的匯聚群體智慧的機制。本文參考王蓉博士的群體認知聚合模型算法[12], 從兩個方面進行語義標注聚合計算:一是個體標注的疊加效果計算,如多個用戶都標注了相同的語義信息;二是群體對語義標注聚合結(jié)果實施的行為表現(xiàn)出來的認可程度,如瀏覽、投票次數(shù)等,對每個標注Wi聚合算法如下:

其中:Wit為t時刻標注W的權(quán)重;Wit-1為t-1時刻標注W的權(quán)重;d為時間衰減因子;R為當前標注的可信度;y為投票權(quán)重系數(shù);V為對W的投票人數(shù);z 為瀏覽權(quán)重系數(shù);L為瀏覽過W的人數(shù)。
根據(jù)算法,用戶信任評價、投票、瀏覽參數(shù)的設(shè)定決定了群體智慧的價值取向和群體智慧進化方向,當一個學習資源的標注的聚合程度超過一定閥值時,可以認為圍繞這個學習資源形成了一個群體認知。其中R表示的標注可信度是能否有效促進學習資源語義眾包的關(guān)鍵,本文從社會信任評估和機器判斷2個方面進行可信度計算,公式如下:

基于社會信任評估機制。利用開放知識社區(qū)中的信任評估模型[13],系統(tǒng)為每個用戶建立信任評估值UT,對于對每一條語義標注信息,用戶可以投贊成或者反對票。算法如下:

其中,f(x)為具體一條語義標注信息可信度,UTn為具體投票用戶的可信度,K表示用戶的意見,投贊成票時為1,反對票為-1。當f(x)值超過系統(tǒng)預(yù)設(shè)的閥值時,可以認為這條語義標注信息可信,可以存入語義數(shù)據(jù)庫。
基于Word2vec進行關(guān)聯(lián)詞匹配判斷。語義標注本質(zhì)上是把學習資源中的關(guān)鍵知識通過三元組進行表示,每一個三元組都可以看成是描述主語和賓語之間的關(guān)聯(lián),理論上主語和賓語之間存在一定的共現(xiàn)概率。當一個新的三元組被錄入時,可以通過分析和主語一起相關(guān)詞匯,按照關(guān)聯(lián)度可以幫助判斷這個語義標注的準確性。Word2vec是Google在2013年發(fā)布基于深度學習的自然語言處理開源工具[14],Word2vec可以將詞匯表征為向量,核心思想是將語料庫作為訓練集,把對文本內(nèi)容的處理簡化為K維向量空間中的向量運算,因此可以利用word2vec來計算詞與詞之間的相似度,進而實現(xiàn)語義標注的質(zhì)量控制。算法流程如下表所示。

基于深度學習的本體進化質(zhì)量控制算法表
為驗證系統(tǒng)對特定學科語文語義標注效果,以學習元平臺(Learning Cell System,簡稱LCS)[15]作為支撐,基于人教版初中語文課本中的《孔子語錄十則》,要求學生完善儒家相關(guān)知識,驗證結(jié)合學科知識本體和眾包機制對學習資源進行語義標注的質(zhì)量,運行時間為1個月。
本次實驗選取某初級中學七年級學生43人作為實驗對象,實驗前已對學生進行了語義標注的相關(guān)操作培訓。
《孔子語錄十則》的教學目標之一是“積累成語、格言、警句等,了解儒家相關(guān)諸子百家信息,并能用儒家的思想指導自己的言行”。這節(jié)課含有較多的人文性知識——儒家思想是中國傳統(tǒng)文化的核心之一,從孔子和儒家展開,可以呈現(xiàn)波瀾壯闊的中國傳統(tǒng)文化。學生通過了解儒家相關(guān)的知識,進行語義標注,實現(xiàn)知識共享與構(gòu)建。
(1)以人教版初中七年級語文課程《孔子語錄十則》為基礎(chǔ),學生學習相關(guān)學習資源,包括中國傳統(tǒng)文化、儒家經(jīng)典欣賞、百家爭鳴和儒家思想形成等;
(2)教師基于教學目標,針對每個學習資源發(fā)布語義標注任務(wù);
(3)學生在學習元平臺上閱讀相關(guān)課程內(nèi)容;
(4)學生完成語義標注活動。
(1)語義標注結(jié)果分析:學生使用三元組標注和構(gòu)建個人知識圖譜法,一共生成了134條三元組;系統(tǒng)對語義標注的情況進行質(zhì)量控制,包括用戶投票和利用Word2vec進行機器判斷,其中一共有6833條用戶投票記錄,其中贊成票6703條,贊成比例為98%,反對票130條,反對比例為2%;Word2vce方面針對134條三元組,一共生成1356條候選詞匯,其中有236條記錄關(guān)聯(lián)詞匯被確認相關(guān);最終有126條記錄存儲進了語義數(shù)據(jù)庫。
(2)隱性知識標注分析,134條標注中有48條人文性知識,集中在儒家相關(guān)名言上,如<儒家,名言,“三人行,必有我?guī)煛保荆肌叭诵校赜形規(guī)煛?,表示,要善于向其他學習>,不單揭示圍繞《論語十則》的隱性知識,還表現(xiàn)出學生對知識的理解。
學習資源的語義標注是構(gòu)建學科知識庫的重要環(huán)節(jié),本研究提出結(jié)合學科知識本體和眾包解決學習資源語義標注問題的方法,本方法可以利用人類計算(Human Computation)解決學科知識中的蘊涵的大規(guī)模隱性知識的語義標注問題,為深層次的學科知識庫構(gòu)建提供了一種新思路。本研究不足之處是體智慧匯聚還需探討更有效的算法,以確保群體智慧可以有效匯聚,同時在調(diào)動用戶參與眾包上的獎勵機制還可改進,如何設(shè)計高效有用的用戶激勵機制是眾包成功的關(guān)鍵。因此,本文的后續(xù)工作是針對學習社區(qū)群體,研究更有效的學習者智慧匯集算法,設(shè)計有吸引力同時相對低耗的激勵機制,讓更多的用戶參與語義標注,為實現(xiàn)學科知識本體的進化打下基礎(chǔ)。
[1] 荊濤,左萬利等.中文網(wǎng)頁語義標注:由句子到RDF表示[J].計算機研究與發(fā)展,2008,(7):1221-1231.
[2] 杰夫·豪(JEFF HOWE).眾包:群體力量驅(qū)動商業(yè)未來[M].北京:中信出版社,2011.
[3] 邱均平等.國內(nèi)外語義標注研究進展分析[J].情報理論與實踐,2014,(5):12-16.
[4] 王傳清,畢強.數(shù)字圖書館自動化語義標注工具系統(tǒng)模型研究[J].現(xiàn)代圖書情報技術(shù),2014,(6):17-24.
[5] Von Ahn,Luis,Benjamin Maurer,Colin McMillen,David Abraham,and Manuel Blum.recaptcha:Human-based character recognition via web security measures[J].Science,2008,(321):1465-1468.
[6] Kim,Jonghak,Sangtae Kim,Joonhyuk Yang,Jung-hee Ryu,and KwangYun Wohn.Facecaptcha: a captcha that identifies the gender of face images unrecognized by existing gender classifiers[J].Multimedia Tools and Applications,2013,(72): 1-23.
[7] 胡昭陽.眾包科學:網(wǎng)絡(luò)傳播語境下的公眾參與創(chuàng)新[D].合肥:中國科學技術(shù)大學,2015.
[8] 邰陽,基于眾包的語料標注系統(tǒng)設(shè)計與實現(xiàn)[D].大連:大連理工大學,2013.
[9] 丁宇,車萬翔,劉挺,張梅山.基于眾包的詞匯聯(lián)想網(wǎng)絡(luò)的獲取和分析[J].中文信息學報,2013,(3):100-106.
[10] 楊現(xiàn)民,余勝泉.開放環(huán)境下學習資源內(nèi)容進化的智能控制研究[J].電化教育研究,2013,(9):83-88.
[11] 余勝泉,楊現(xiàn)民.辨析“積件”“學習對象”與“學習活動”——教育資源共享的新方向[J].中國電化教育,2007,(12):60-65.
[12] 王蓉,劉妍妍,陳禹,方美琪.社會性群體協(xié)作學習環(huán)境中的認知聚合研究[J].信息系統(tǒng)學報,2010,(1):65-75.
[13] 楊現(xiàn)民.泛在學習環(huán)境下的學習資源進化研究[D].北京:北京師范大學,2012.
[14] Tomas Mikolov.Word2vec project[EB/OL].https://code.google.com/p/ word2v,2015-12-06.
[15] 余勝泉,楊現(xiàn)民,程罡.泛在學習環(huán)境中的學習資源設(shè)計與共享——“學習元”的理念與結(jié)構(gòu)[J].開放教育研究,2009,(1):47-53.
The Annotation of Learning Resources Based on Crowdsourcing
Ding Guozhu1,2, Yu Shengquan1,2, Pan Sheng1,2
(1.School of Educational Technology, Faculty of Education, Beijing Normal University, Beijing 100875; 2.The Joint Laboratory for Mobile Learning, Ministry of Education-China Mobile Communications Corporation, Beijing 100875)
Semantic annotation is the foundation and precondition of learning resources organization which based on Web3.0. But there are little paper Focus on the annotation of tacit knowledge. In this paper, we put forward a new way to solve this problem by crowdsourcing which can make full use of human computation to work out the magnanimity learning resources’ tacit knowledge. further on ,we created a crowdsourcing based semantic tagging system based on LCS, via vote by the user and the machine for quality control, realized tacit knowledge during the learning resources by the above work and to prove based on crowdsourcing can e ff ectively improve the quality of the annotation of learning resources by experiment.
Semantic Annotation; Crowdsourcing; Subject Learning Resources; Learning Cell
G434
A
丁國柱:在讀博士,研究方向為知識本體技術(shù)、計算機教育應(yīng)用(laoding1982@qq.com)。
余勝泉:教授,博士生導師,研究方向為移動教育與泛在學習、信息技術(shù)與課程整合、網(wǎng)絡(luò)學習平臺關(guān)鍵技術(shù)、區(qū)域性教育信息化等(yusq@bnu.edu.cn)。
潘升:碩士,研究方向為研究方向為知識本體技術(shù)、計算機教育應(yīng)用(ps199052@163.com)。
2016年6月13日
責任編輯:趙興龍
1006—9860(2016)09—0091—05
* 本文受北京市未來教育高精尖創(chuàng)新中心項目“智慧學伴平臺設(shè)計與開發(fā)”(項目編號:BJAICFFE2016DR-001)資助。