賴 茹 楊 勇 任 鴿
(新疆師范大學計算機科學技術學院 新疆 烏魯木齊 830054)
隨著維吾爾語自然語言處理技術的發展,維吾爾語的語義知識庫作為一種自然語言處理重要資源,直接影響計算機進行維吾爾語語義理解和分析的準確性。相對于國內外類型眾多的語義知識庫來說,維吾爾語現有的語義知識庫資源規模小、類型缺乏。從知識庫的構建方法來說,傳統的維吾爾語語義知識庫構建通常是由領域專家來完成[1],雖具有信息準確、權威的特點,但知識庫建設周期長、工作量大,知識庫的規模受限于語義專家有限的時間和精力,并且面對迅速增長的網絡信息,很難保證知識庫的及時更新。因此,利用高效語義知識庫構建方式,建立一個大規模、高質量的綜合型維吾爾語語義知識庫尤為重要。相比較而言,眾包作為一種分布式的模式,通過互聯網高效地調用分布全球的人力資源[2],對于處理語義知識庫構建任務有很大優勢。本文提供了一種通過利用基于互聯網的眾多志愿者的眾包方式來構建維吾爾語語義知識庫的模式。該模式避免由語義專家編輯更新知識庫周期長、速度慢的問題,且可以解決語義知識庫的及時更新問題。本文對眾包模式下的質量控制及激勵機制進行理論探索,設計了一個維吾爾語多源語義知識庫在線構建平臺,支持對用戶協作的并發編輯功能,并能保證大數據量并發編輯下數據的一致性、完整性。建立一種基于互聯網用戶協作、知識共享的維吾爾語多源語義知識庫,為維吾爾語自然語言處理的發展提供語料支持和技術支持,同時也對維吾爾語其他知識庫的構架提供理論和方法的借鑒。
眾包是由美國《連線》雜志的記者Jeff Howe于2006年6月提出的用來形容一種新型的基于互聯網的工作模式。該模式將一個公司或機構過去由員工執行的工作任務,以自由自愿的形式包給非特定的大眾網絡用戶[3]。簡單地說,眾包就是社會生產力,匯集群體智慧來完成曾經是由某個領域的企業雇員或專家完成的任務。眾包借助互聯網力量,借社會資源為己用,最大范圍地利用人力資源,可以節約大量的成本,突破了固定工作地點和工作時間的限制[4],將難以完成的工作量大的任務分解為若干個工作量小的任務來完成,極大地提高效率。
眾包從提出之日起,就開始在互聯網中發揮巨大作用。例如:亞馬遜通過經濟獎勵報酬的方式讓大眾解決實際難題的Mechanical Turk平臺[5];將眾包與微博結合形成關于食品的即時問答的Foodpickle平臺[6];開源共享的維基百科、百度百科、互動百科等百科類眾包平臺;高德地圖、大眾點評等分享傳播類眾包平臺[7]。此外,利用眾包平臺完成命名實體識別、英文單詞翻譯、詞義消歧等工作,使得眾包技術在學術和工業的相關評測方面廣泛應用。
眾包平臺采用任務發布者(企業或擁有工作任務需要解決的個人)、中介機構(連接、溝通發包者和接包著的橋梁)、任務接受者[8](數量眾多的互聯網用戶)三位一體的模式,其架構如圖1所示。任務發布者或管理者創建任務(即任務的描述信息),將知識需求連同任務的獎勵發布到眾包平臺,任務接受者或用戶對任務進行篩選,選擇并完成自己感興趣的任務創造知識,提交任務的解決方案。通過眾包平臺的質量控制機制最終由任務發布者對答案進行確認,最終被選中答案對應的工作者會得到相應的獎勵,而眾包平臺在其中起著重要的中介傳遞作用。

圖1 眾包平臺工作模式
本文使用眾包方式來進行語義知識庫的構建主要原因為:(1)通過匯聚廣大互聯網用戶的眾包方式能降低知識庫構建成本,提高效率。眾多互聯網用戶同時進行操作,可以短時間獲取大量用戶的結果,有利于知識庫的快速構建。(2)當今信息時代,知識增長速度較快,知識的內容會隨著時間進行變化或增加,使得知識庫需要具有快速更新的功能,而使用眾包的方式,用戶可通過眾包平臺對知識庫的內容及時進行補充,對新增的詞語內容進行更新,有利于知識庫的快速更新和擴充。將眾包技術應用到知識庫建設當中,彌補了維吾爾語自然語言處理領域資源匱乏問題,且能夠使知識庫資源具備鮮明的時代特征,符合現代人們的語言習慣。
基于眾包的維吾爾語多源語義知識庫平臺分為網頁端應用程序和后臺管理系統兩個部分。前臺主要為用戶提供語義詞條的瀏覽、創建、修改等操作;后臺管理系統主要為管理者進行任務發布、語義詞條管理、用戶管理等操作,具體功能細節如下:
網頁應用程序面向廣大互聯網用戶,系統界面設計要求交互性強、簡潔友好,用戶可快速查找所需信息,包括任務領取、詞條創建、我的空間、禮品商店等模塊,具體功能包括:
(1) 任務領取 用戶可通過平臺查看任務詳細信息,如任務開始時間、任務參與人數、任務積分獎勵數額等,用戶參與管理者發布的詞條審核任務,并按要求完成任務通過審核后可獲得相應積分獎勵。
(2) 我的空間 用戶登錄后,可查看自己的信息,如積分值、創建的歷史詞條、修改的歷史詞條等。可以對個人的基本信息進行編輯,包括昵稱、頭像等,同時也可以對密碼進行重置。用戶可以對系統信息進行管理,可以查看系統消息,如創建、修改的詞條版本是否通過,具體原因等。
(3) 詞條創建 用戶可以通過平臺創建新的詞條或對已有詞條進行完善,在輸入詞條名稱,選擇詞條類別后即可進行詞條創建、編輯工作,提交詞條并通過審核后可獲得相應積分獎勵。
(4) 禮品商店 平臺用戶可以查看禮品商店的禮品信息,同時可以按條件搜索禮品,擁有一定積分的用戶可以兌換等價禮品。
(5) 語義分類 該平臺的維吾爾語語義分類通過樹形結構清晰展示,方便用戶查看分類,了解平臺的分類結構。同時也可以通過分類樹快速查找分類下的詞條。
后臺管理系統面向系統管理者,是系統的核心所在,其包含用戶管理模塊、內容管理模塊、禮品管理模塊、平臺統計模塊,具體功能包括:
(1) 用戶管理 用戶管理包括用戶管理、權限管理、用戶組管理三個模塊。其中用戶管理功能是對平臺用戶進行增加、刪除、修改、查看、審核等管理操作,同時可以為不同的用戶分配不同的用戶組,按用戶組來進行管理。權限管理可對系統權限進行基本操作。用戶組管理功能是對用戶組進行基本操作,每個用戶組包括若干用戶,能對不同用戶組授予不同權限。
(2) 內容管理 內容管理為后臺管理系統中最為重要的功能,分為分類管理、詞條管理、詞條過濾、任務管理、詞典管理、語料庫管理六個模塊。分類管理可以對平臺語義知識庫的類別進行添加、修改等基本操作,同時在添加的過程中確定類別的基本屬性信息。詞條管理可對語義知識庫平臺中用戶創建的詞條進行管理,可以按條件查找、刪除詞條,管理員需要對用戶提交的待審核詞條進行審核,審核時可以通過版本對比來清晰對比用戶對詞條進行了哪些修改。若詞條審核通過可對用戶進行一定的積分獎勵,若詞條審核不通過,管理員發送系統消息告知詞條編輯者。詞條過濾可以設置敏感詞條的過濾條件和替代詞語,防止敏感詞條的出現,當敏感詞條出現時自動用替代詞語進行替換。任務管理主要是將部分待審核的詞條作為任務發布,由大眾用戶來審核,減輕管理員的審核工作,可以設置任務開始與結束的時間、最大參與人數、獎勵積分、任務描述等信息。同時可以查看任務進度、參與人數等,還可對任務進行刪除、修改等基本操作,最終將任務發布在Web服務器上,供用戶接收。詞典管理可以對維吾爾語詞典詞條進行管理,可以對詞典內容進行增加、修改、刪除、按條件查詢等操作,同時支持Excel批量導入操作,方便大規模詞典內容的添加。語料庫管理可以對維吾爾語語料進行管理,可以對現有語料進行增、刪、改、查等基本操作。
(3) 禮品管理 禮品管理可以對平臺禮品進行添加、修改等基本操作。兌換日志可以記錄用戶兌換禮品的日志信息,并對日志信息中禮品是否寄送進行標注,以便禮品的發放及核查。
(4) 平臺統計 平臺統計主要對用戶創建詞條、完成任務的進度和質量兩方面統計。對進度的統計:顯示平臺所有用戶詞條瀏覽、創建詞條、領取并完成任務的數量,同時對用戶登錄平臺的時間進行統計,直觀地顯示用戶工作量。對質量的統計:對平臺用戶的用戶貢獻值、用戶積分值、詞條審核通過數量進行按時間排序,方便對用戶的獎勵。
2.2.1 基本流程
本平臺的功能依據角色進行劃分,包括平臺管理員(任務發布者)、用戶(任務接收者、詞條創建者),平臺的基本工作流程如圖2所示。

圖2 平臺基本工作流程圖
用戶登錄平臺后可以選擇創建詞條或完成任務。
詞條創建:在完成創建詞條的操作后,將詞條詳情提交至后臺由管理員審核,詞條審核通過后,可下發創建詞條的獎勵積分至用戶信息界面,用戶可通過用戶信息界面查看積分詳情。同時,若詞條審核不通過,發送審核不通過原因至用戶信息界面,用戶可通過用戶信息界面查看原因,進行修改。
完成詞條審核任務:管理員可將待審核的詞條作為用戶任務發布,在發布任務時,發布者要為該任務設置參與人數、有效時間段、獎勵積分數量等信息,任務的承接用戶可通過平臺任務界面了解任務的詳細信息,參與完成詞條審核任務。若任務參與人數達到要求或任務時間到期,則任務結束,系統自動計算判斷詞條是否通過審核,提交至管理員,管理員可下發獎勵至用戶信息界面。
2.2.2 詞條創建流程
如圖3所示,用戶選擇創建詞條后,首先要判斷用戶是否登錄平臺,若未登錄,則為游客身份,該身份下無創建、編輯詞條的權限,只能在平臺上瀏覽、查找詞條。若已登錄,則可進行創建、編輯詞條的行為,當用戶進行創建詞條時首先輸入詞條名稱,選擇詞條類別,根據詞條名稱判斷該詞條名在后臺維吾爾語詞典數據庫或維吾爾語語料庫中是否存在,若存在,則從后臺數據庫中抽取相應屬性內容,顯示在用戶詞條創建界面,用戶只需對該詞條其余屬性進行完善即可。若詞條名稱在后臺數據庫中不存在,則根據類別抽取該詞條的屬性模板,由用戶根據屬性模板進行內容填充。詞條創建完畢后,由用戶提交,等待審核,若審核通過則可獲取相應積分獎勵。

圖3 創建詞條流程圖
基于眾包的維吾爾語多源語義知識庫平臺目標是允許任何組織或個人通過平臺在任意時間、任意地點完成語義知識庫的詞條創建工作,平臺包括網頁端應用程序和后臺管理系統兩部分。網頁端應用程序主要針對接受任務、創建詞條的廣大互聯網用戶,界面設計友好美觀,流程設計簡潔,使用戶能迅速發現適合的任務,以此提高用戶編輯效率。后臺管理系統主要針對發任務發布者(系統管理員),用來管理平臺用戶、編輯的詞條等內容。
基于眾包的維吾爾語多源語義知識庫平臺是基于Web的服務平臺,總體架構如圖4所示,采用瀏覽器/服務器(Browse/Server)模式,用戶通過瀏覽器訪問平臺,進行平臺上的各項操作。在Windows操作系統下配合Apache服務器和Mysql數據庫,該平臺的數據庫分為:存放維吾爾語詞典數據的詞典數據庫、存放維吾爾語料的語料數據庫、存放用戶創建詞條的用戶數據庫及存放基礎數據的基礎數據庫。網頁應用前端框架選用AngularJS克服了HTML在構建應用上的不足,后臺管理界面框架選用Spring、Hibernate、MyBatis,解決業務邏輯層和其他各層的松耦合問題,自動生成SQL語句,自動執行,消除了幾乎所有的JDBC代碼和參數的手工設置以及結果集的檢索。

圖4 系統總體架構
眾包平臺根植于一個平等主義原則[9]:每個人都擁有對別人有價值的知識或才華,而眾包平臺作為橋梁將個人和他人聯系起來,每個人都擁有自己的特質,每個個人都站在眾包的中心,個體的獨特性存在于一大群人中,構成了多樣化。正是這種大眾工作的多樣性,導致眾包結果的質量難以控制,具有較大的不確定性。另一方面,在眾包平臺中,普遍存在為使自己利益最大化而沒有認真完成工作的惡意用戶[10],其提交的知識內容不可靠,甚至違背了任務發布者發布任務的初衷。因此,眾包平臺的質量控制機制設計尤為重要,其目的是通過各種方法對用戶提交的結果進行評估,以此來識別惡意工作者,并將評估結果作為觸發對工作者進行獎懲的重要條件。此平臺采用了以下幾種質量控制機制:
(1) 編輯指導及編輯規范:
在應用眾包的維吾爾語語義知識庫系統中,建立詞條編輯相關指導頁面,并將詞條編輯指導頁面的相關入口放在首頁非常顯眼的地方,以此來方便新用戶了解,來規避用戶因不熟悉操作流程造成的非必要錯誤,提高新用戶編輯詞條的質量。此詞條編輯指導運用了視頻、圖片、文字等多種方式,針對創建詞條、編輯詞條、積分兌換等內容進行了詳細的操作說明,用于指導用戶正確編輯詞條。
(2) 保存歷史版本:
在用戶修改該平臺語義知識庫中的詞條時,系統會自動保存該詞條的歷史版本,并以不同顏色清楚展示兩個版本的差別,使得兩個版本之間有相對明顯的比對。一方面,可以方便管理者的詞條審核工作;另一方面,當詞條版本遭到惡意破壞或詞條內容遭到惡意篡改時,系統可以快速、方便地從歷史版本中恢復相對正確的版本,以此來保證詞條的質量。
(3) 詞條結果審核:
① 用戶交叉審核 為充分發揮眾包短時間、低成本的優勢[11],可將審核用戶提交的詞條作為任務分發給其他注冊用戶來完成,即采用大眾投票策略來實現用戶結果的交叉審核,以此來去除由于理解錯誤而造成的錯誤結果,或惡意工作者故意提供的錯誤結果,保證詞條的質量。也許一兩個人的評定結果不能夠讓人信服,但是眾人拾柴火焰高,大量用戶對同一詞條的審查結果可以提高審查質量。交叉審核使用EM算法進行評估,采用多數人的判斷作為詞條審核的結果。
本平臺的交叉審核具體做法是:將用戶提交的待審核詞條作為任務,逐條在任務界面中發布,并在發布任務時設置審核任務參與人數,除編輯者本人,任意用戶隨機參與詞條審核任務,讓參與用戶來評判詞條的質量。在每個待審核詞條后,設置“審核通過”、“審核不通過”兩個選項,被“審核通過”的結果越就表明詞條正確的可能性越大,當參與審核人數達到閾值后,結果由系統保存至數據表中,任務結束。每個詞條由N個人進行審核,如果“審核通過”結果≥N/2,則認為詞條正確;如果“審核不通過”結果≤N/2則認為詞條不正確,需要修改。
② 管理員審核 管理員審核是平臺詞條質量控制中重要的環節,該平臺的系統管理員都是由維吾爾語自然語言處理領域專業人員擔任,對知識有著較強的把控能力,能更好地實現資源的控制。系統管理員負責對用戶提交的待審核詞條進行評審,判斷內容的正誤,保留詞條內容正確的結果,刪除詞條內容有誤的結果。同時,為提高用戶的參與度,系統管理員可以由資深用戶來擔任,在激勵機制設計中將詳細介紹。
(4) 良好的激勵機制設計:
激勵機制和詞條結果質量之間有很強的依賴現象[12],良好的激勵機制設計,可以在一定程度上提高平臺的詞條質量。
成功的大眾參與需要滿足“馬斯洛需求層次理論”最高層次的需求:尊重和自我實現。參與者總是需要滿足一定心理、物質或情感上的需求[13],如果沒有被滿足,他們就不會參與了。因此為使大眾積極參與,就要著重考慮參與者的動機,研究發現,影響眾包中社會大眾參與的動機既有個人層面的物質需求也有社會層面的社會認同感,大眾參與不僅需要收獲知識和經驗,也需要實實在在的報酬[14]。合適的激勵機制,可以保證工作者的動力,以此來保障眾包平臺的性能。為了聚集維吾爾語自然語言處理相關領域的研究人員或對研究方向感興趣的人員,來保證平臺的創造性,本平臺的激勵機制設計如下:
(1) 等級制度,根據積分來提升等級 為了讓平臺的每一位參與者都了解自己在為科學研究貢獻力量,在參與過程中擁有一種使命感和滿足感,進而貢獻更為優質的結果,本平臺以積分累計來劃分等級,用來劃分、標記平臺用戶。平臺中的用戶可以通過創建、編輯詞條,完成詞條審核任務等來獲得積分,若在創建、編輯或完成任務的過程中,有惡意違規行為,也會降低積分來處罰。平臺根據用戶的積分情況,將用戶劃分為不同等級,不同等級享有不同操作權限。平臺根據用戶對任務的完成情況(即積分累計情況),將不同用戶提升安排到不同的等級,承擔不同的任務,獲得更多權限。而平臺管理員是由專業的維吾爾語自然語言處理領域人員來擔任,擁有平臺的最高權限,在平臺中具有較大的自由性,但當用戶的積分達到一定標準時,也有機會成為平臺管理員,來維護知識庫。因此獲取積分和更高的等級是用戶參與任務的動機,促使用戶自覺和自愿地為知識庫貢獻知識。
(2) 按時間段選取積分排名高者派發禮物 平臺會在一定時間段內對用戶的積分進行統計、排名,按照時間段內用戶積分排名情況評選積分排名最高的用戶(即對平臺貢獻最大的用戶)。這些用戶會得到精美的小禮物作為鼓勵,同時該段時間的排名表會顯示在平臺首頁,這能夠在一定程度上滿足用戶的心理和物質需求,從而激發參與者的創作欲望。同時也使頁面的內容日趨豐富和完善,大大加快知識庫的編輯速度。
(3) 在線商城積分兌換 除了虛擬積分、等級形式的鼓勵,平臺還搭建了在線商城,讓用戶使用通過參與創建詞條、編輯詞條等任務獲得的積分,在平臺商城中兌換相應的物品。平臺商城中的物品包括虛擬物品和實物:虛擬物品如頭像、徽章、道具等,實物包含文具、電子產品、圖書等。
本文設計的基于眾包的維吾爾語多源語義知識庫平臺,采用AngularJS、Spring、Hibernate、MyBatis等架構開發,實現了維吾爾語詞條創建、詞條瀏覽、詞條編輯、詞條查詢、用戶管理、詞條審核、詞條管理、禮品管理等功能。
圖5為網頁應用界面中,用戶創建詞條的界面,用戶輸入詞條名稱,選擇詞條分類后,進入詞條創建界面,創建詞條時,用戶可使用工具欄中的工具為詞條插入圖片、鏈接等。詞條創建完成通過審核后,用戶可在平臺界面查找、查看詞條,同時可對詞條的內容進行添加、完善。

圖5 創建詞條界面
圖6為后臺管理界面中,管理人員對用戶編輯的詞條進行管理的界面,管理人員可以對詞條進行編輯、刪除、按條件查詢等操作。同時,管理人員可以對待審核的詞條進行審核,可對修改的詞條進行版本對比,不同之處可用不同顏色顯示,方便審評。如圖7所示,管理人員對詞條的版本進行獎勵或懲罰,審核結果會及時告知詞條編輯用戶。

圖6 詞條管理界面

圖7 詞條審核界面
隨著計算機技術的發展,維吾爾語自然語言處理得到越來越多的應用,維吾爾語的語義知識庫作為重要的自然語言處理資源也得到重視[15]。而互聯網的迅速發展,使得眾包平臺的優勢得以充分展現,成為語義知識庫構建的一種新技術、新方法。本文在研究大量眾包模式的應用基礎上進行探索,對眾包模式及其現狀進行總結,針對平臺構建中面臨的質量控制、激勵機制等問題進行研究,建立了一個公眾可以高效協作的維吾爾語多源語義知識庫構建平臺,避免了目前維吾爾語的語義知識庫構建中周期長、效率低、更新慢等缺點。本文構建的維吾爾語多源語義知識庫平臺,從功能上看,該平臺能夠為互聯網大眾用戶提供自由編輯的平臺,充分發揮眾包優勢,并能融合詞典及語料庫中的語義資源;從理論意義上看,利用眾包強大的優勢帶來了一定科研模式的改變,為知識庫構建提供有力支撐。