李洪波 于建平
摘要:該文以形式觀念分析理論為支撐,以屬性結構偏序圖為工具,探討英語情態動詞語義排歧中的知識發現,提出進行英語情態動詞的知識發現分的五個層次和五個視角。五個層次為:語言學準備層,數據采集層,數據預處理層,形式概念分析層和知識發現層;五個視角為:語義模式識別,語義規則提取,特征選擇優化,句法與語義互動關系,屬性重要度分析。該文提出的情態動詞語義排歧中知識發現框架,既可以其他復雜語義詞的知識發現,也可以應用到機器翻譯和其他自然語言處理領域。
關鍵詞:模式識別;規則提取;特征選擇優化;句法語義互動;屬性重要度分析
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)12-0181-05
1前言
知識發現是指從數據集中提取有效的、新穎的、潛在有用的、可理解的模式的非平凡過程[1]。隨著大數據時代的來臨,知識發現引起了各領域、各學科的關注,如工業[2]、農業[3]、生物醫學[4]、 網絡輿情[5]等等。從紛繁的數據中發現知識,已成為是人工智能領域的重要工作之一[6]。作為一種有潛力的獲取新穎、有用、可理解知識的方法,知識發現也被應用到語言學和自然語言處理領域 [7],知識發現是挖掘語言背后隱性知識的有效方法。
語義排歧一直是自然語言處理領域的熱點問題,復雜語義詞 — 英語情態動詞的語義排歧更是棘手問題。近年來,英語情態動詞語義排歧領域有很多開拓性的研究,于建平教授等分別研究了基于神經網絡、支持向量機、樸素貝葉斯概率、模糊 c 均值聚類、自適應神經網絡模糊推理系統以及屬性偏序圖的英語情態動詞的語義排歧[8-13],筆者也從不同視角對英語情態動詞語義排歧進行了知識發現研究[14-18]。縱觀前期研究成果,研究或止于高精確語義排歧模型的建立,或局限于某個單獨視角研究語義排歧中的知識發現,因此,本文在總結前期研究的基礎上,提出英語情態動詞語義排歧中知識發現的基本框架,為以后情態動詞的知識發現研究提供借鑒。
2理論背景
形式概念分析主要用于數據分析,發現對象及描述對象的一系列特征之間的內在關系。形式概念分析中,數據被分解成概念的抽象表示單元,并對各單元做出有意義的解釋 [19]。形式概念分析能夠將隱性、復雜的信息抽象為層級概念,該理論對信息提取、文本聚類和分類、自然語言處理等領域都有重大意義。如下是形式概念分析的基本概念:
定義 1. U 一個對象集合, U = {u1, u2,…, un },M 是一個屬性集合, M = {m1, m2,…, mn }, 而且 I ? U×M 是U和M之間的一個二元關系,( u, m )∈I 表示對象u 具有屬性m。那么, K= (U, M, I) 就叫作一個形式背景。.
定義 2. 如果 m ∈ M, g (m) = {u ∈ G | (u, m) ∈ I} 說明這個對象集合享有屬性m。 如果u ∈ G, f (u) = {m ∈ M | (u, m) ∈ I} 說明這個屬性集合享有對象u。
定義 3. m0, m1, m2, …, mk ∈ M。如果 g( mi ) ? g( m0 ),且i =1, 2, 3, …, k, k≥2,則 m0 叫做m1, m2, …, mk.的共有屬性。
定義 4. 設K= (U, M, I) 為一形式背景,對于集合 A ? U, f (A) = {m∈ M | (u, m) ∈ I, " u∈ A}。相應的, 對于一個集合B ? M, 我們定義 g(B)= {u∈ G | (u, m) ∈ I, "m∈ B}。 一個形式概念是一個有序對(A, B), A ? U, B ? M, f (A) =B 而且 u (B) =A. A叫作概念的外延,而 B叫作概念的內涵。
3情態動詞語義排歧中知識發現的基本框架
基于前人的貢獻和筆者自己的研究,本文在總結前期研究成果的基礎上,提出了英語情態動詞語義排歧中知識發現的基本框架,該框架適用于所有情態動詞的知識發現研究。
4 基本框架描述
情態動詞知識發現基本框架可以分為五層:語言學準備層,數據采集層,數據預處理層,形式概念分析層和知識發現層。前四層的實質為情態動詞語義排歧的基本框架,參照[13],這里不再贅述。本文主要闡述框架第五層,即知識發現層。情態動詞語義排歧模型生成后,可以從如下五個視角來進行知識發現研究:模式識別研究,規則提取研究,語義與句法互動關系研究,特征選擇優化研究和屬性重要度分析研究。本文主要基于筆者之前關于英語情態動詞的系列研究成果,研究主要圍繞情態動詞must和shall展開,文章提到的方法也適用于其他情態動詞或其他詞匯范疇。
4.1 模式識別
模式識別是指對表征事物或現象的各種形式的信息進行處理和分析,以對事物或現象進行描述、辨認、分類和解釋的過程。它是信息科學和人工智能的重要組成部分,主要應用領域是圖像分析與處理、語音識別、通信、計算機輔助診斷等學科。作為一種分類的重要手段,它可用于語義排歧領域。
本節以must語義排歧模型[18]為例,探討must的語義模式識別。在圖中,以對象為起點,逆序向上,形成對象和屬性的二元組,每個二元組就是must語義的一種模式,以圖中o1為例,逆序向上,得到屬性組合a17a13a16a8a3a1a6, 因o1:o117(2), 即o1對應對象o117(2),屬于must的第二類意義,故得到must的一種語義模式{2, a17a13a16a8a3a1a6}。以此類推,可以推出模型中所有的語義模式,篇幅關系,這里不一一列舉。
由此,構造出目標詞語義排歧模型后,語料庫中目標詞各語義義項的語義模式顯而易見。所有這些模式都可以被視為must語義判定的基礎。
4.2 規則提取
規則提取是數據挖掘中最重要最關鍵的一步,是解決黑匣子問題的主要方法。在黑匣子中,數據輸出過程抽象復雜、很難解釋,但卻可以用簡單明了的方式表述出來,這種轉換就是規則提取。近些年,不同學科領域出現了多種多樣的規則提取方法,筆者在文獻[18] 中提出情態動詞語義排歧中的規則提取方法。
還是以must為例,在must的語義排歧模型(圖2)中,提取must語義排歧規則,規則提取流程圖如下:
在屬性偏序圖中,各屬性均做如下運算:(以屬性mi為例)1)以mi為起點,逆序向上直至頂點,該過程屬性組合形成二元組(g, m)中的m,mi對向下至底層對象集合構成g;2)對二元組集合進行兩兩運算。運算規則為外延集合取并集,內涵集合取交集。從而形成新的二元組集合。新二元組中成員若與原二元組集合中某成員相等,則刪除新成員,即不生成該新成員;3)若新二元組集合中某成員內涵與原二元組集合中某成員內涵相同,則刪除原二元組集合中該成員,即保留外延大的二元組;4)若新二元組集合中只有一個元素,則完成該屬性運算,保留下來的所有二元組即為可能模式的一部分;否則返回第2步。
該過程將找到所有可能模式。對比所有可能模式。對內涵部分,若其中幾個二元組內涵相等,則生成新二元組,該新二元組內涵不變,外延為幾個二元組外延并集,同時刪除原二元組;對外延部分,若兩二元組外延相同,則內涵部分必然為包含關系,保留內涵最大(屬性個數最多)的一個二元組,其余的刪除;保留下來的二元組即為形式概念,即規則,提取出的規則見表1。
由此,4.1中各種復雜的模式就轉化成了表中的四條簡單明了的規則。
4.3 特征選擇優化
特征選擇,也稱為特征子集選擇或屬性選擇,指的是從所有備選特征子集中選擇一個最優的特征子集,以提高分類器性能。在機器學習和模式識別領域, 特征數量往往較多,特征個數越多,分析特征、訓練模型的時間就越長;特征個數越多,維度也就越多,模型也會越復雜,其應用推廣能力會下降。一些解決特征數量過多問題的技術應運而生,旨在減少不相關特征和冗余特征,減輕分類器的負擔,即特征選擇。特征選擇使研究人員易于理解數據,能夠減少計算時間,避免維度災難,提高分類器性能 [20]。
關于英語情態動詞的特征選擇,繼續以must為例。在對其進行規則提取的基礎上,可以進一步做特征選擇優化研究。表2中提取出的規則只包含must的6個屬性:a3, a4, a5, a6, a7和 a8,接下來我們要驗證是否可以用這6個特征來生成語義排歧模型進行語義排歧,并且達到原有17個特征時相同的效果。刪除了規則以外的11個特征,保留了規則包含的6個特征,建立形式背景,將此形式背景凈化,轉換成屬性結構偏序圖,生成新的語義排歧模型,如圖4所示,同前,此圖亦可作為must的語義分類和判定模型。
為了檢驗優化后模型的有效性,需先將檢驗組的初始形式背景做相同的優化處理:刪除多余特征,保留規則中出現的6個特征,然后按照初始模型的檢驗方法對新模型進行檢驗,得到模型準確率為97.5%,高于初始模型的準確率94.5%。
初始模型(圖2)和優化模型(圖4)對比可知:優化模型只選擇了6個特征,與初始模型中的17個特征相比降低了將近200%,然而準確率卻提高了3%。由此得出結論:特征子集a3, a4, a5, a6, a7和 a8是must語義排歧中的優化特征集,其他特征為冗余特征,它們對must的語義排歧有貢獻,但如果優化特征子集存在,這些特征的存在就沒有意義。
4.4 語義與句法互動
語言不僅是符號系統,也是價值系統。語言中各要素不是獨立存在的,而是交織在一個隱形的網里。句法和語義在這個網中相互影響:句法差異會映射到語義中,語義差異也會反映在句法上[21]。句法和語義相互依賴,又相互補充。語義、句法的相關研究應該將二者結合在一起,探究二者之間的互動關系[22]。
筆者在文獻[16]中,僅以must的句法特征為屬性,研究must的句法和不同語義間的互動關系。首先構建語義排歧模型,按照4.2中提到的方法對must進行語義規則提取運算,得到如下規則:
{ 1,a1} { 1,a2a9} { 2,a5} { 2,a6} { 2,a7a8}
這些規則可以揭示must不同語義和句法特征之間的互動關系,可以看出:在與must共現的9個句法特征中,只有規則中出現的某些特征或者特征組合對must的意義選擇具有決定性。
1){ 1,a1}
這條規則表示:所有具有屬性a1(否定)的對象中must均為根意義。情態意義must不與否定共現,英語中must否定情態意義的缺失由cant(= it is not possible that ×)來彌補。在否定上,must是一個特例:它不具備情態意義的否定形式,只有根意義must具備否定形式,其否定形式否定的是述謂結構,含根意義must的否定句可以解釋為:I order you not to × 或者it is necessary for (you) not to ×。
2){ 1,a2a9}
這條規則表示:所有同時具有屬性a2(被動)和a9 (無生命主語)的對象中must均為根意義。在被動語態中,動作的對象(通常無生命)為句子的語法主語,動作的發出者不做具體說明。然而,說話者的目的是試圖影響某個隱匿的對象產生行動,所以,所有同時與被動和無生命主語共現的對象中must均為根意義。具備這兩個句法特征的句子表達較弱的義務性,可以理解為:it is important that ×。
3){ 2,a5} { 2,a6} { 2,a7a8}
規則{ 2,a5}:所有具有屬性a5 (完成時) 的對象中must均為情態意義。Must本身沒有過去時,但是情態意義的must卻可以通過使用have+ed結構來表達過去的狀態或活動。具有完成時的must樣本可以理解為: Im sure/I infer that × was ×。情態意義must也通過與a6 (進行時) 或 a8 (靜態動詞)共現來表達當前的狀態或活動。提取出的{ 2,a6} { 2,a7a8}表示:所有具有屬性a6 (進行時)或a8 (靜態動詞,尤其在靜態動詞與存在主語同時出現時)的對象中must均為情態意義,可以理解為:Im sure/I infer that × is × or Im sure/I infer there is ×。
4.5屬性重要度分析
數據處理中,評價屬性的重要度是數據分析的一個重要步驟。作為分類和決策的重要理論支持,屬性重要度亦可被應用到語義排歧領域。
4.1 ~ 4.4的分析一直以must為例,取must語義的二分法,即根意義和情態意義。英語情態動詞的多義性往往更復雜,比如shall, 本小節屬性重要度分析以shall為例,闡述情態動詞語義排歧中的屬性重要度分析。根據框架圖完成shall的語義排歧模型,參見文獻[15],運用五倍交叉驗證,模型準確率為95.5%±2.27%。模型有效,在此進行屬性重要度分析。
屬性重要度分析的一個重要參數是分類精度,分類精度指信息系統分類過程中,用屬性子集P分類出的正確對象與總對象的比值,分類精度是評價特征子集P的屬性重要度的關鍵指數[23]。本文用從形式背景中刪除某屬性的方法來計算該屬性的分類精度,刪除后,對象和其他屬性形成新的形式背景,并生成新的屬性偏序圖,然后檢測該圖中的分類錯誤。錯誤越多,說明模型的分類效果越差,也就表明被刪除屬性的分類精度越高,即:該算法中的錯誤率與分類精度、屬性重要度正相關,錯誤率越高,被刪除屬性的分類精度越高,該屬性越重要。結果如表2所示。其中,a1 和a2均表示MI(s+INTshall),實驗中將其歸為一組,其他組互信息值同理。
表2中的最后一列和圖3均可顯示實驗中刪除某個特征后的總錯誤率,可視為shall語義排歧中反映屬性重要度的參數。如圖所示,無生命主語(a18)錯誤率最高,即在shall語義排歧中,無生命主語特征在屬性重要度中位居第一,是shall當前形勢背景中最重要的屬性;位居無生命主語特征之后的是疑問句(a21)、MI (INTshall, v) (a9a10), MI (PREshall, v) (a15a16) 以及 MI (s, PREshall) (a7a8),這些特征為相對重要屬性;其它特征為不相關屬性(僅限于個體,不限于整體)。
5 總結
該文以形式觀念分析理論為支撐,以屬性結構偏序圖為工具,探討英語情態動詞語義排歧中的知識發現,提出進行英語情態動詞的知識發現分的五個層次和五個視角。五個層次為:語言學準備層,數據采集層,數據預處理層,形式概念分析層和知識發現層;五個視角為:語義模式識別,語義規則提取,特征選擇優化,句法與語義互動關系,屬性重要度分析。該文提出的情態動詞語義排歧中知識發現框架,既可以其他復雜語義詞的知識發現,也可以應用到機器翻譯和其他自然語言處理領域。
參考文獻:
[1] Fayyad U,Piatetsky-shapiro G,Smyth P. The KDD process for extracting useful knowledge from volumes of data[J].Comunications of the ACM,1996,39(11):27-34.
[2] Mishra N,Ling C,Chang H T. A cognitive adopted framework for IoT big-data management and knowledge discovery prospective[J]. International Journal of Distributed Sensor Networks,2015:6.
[3] 趙瑞雪,鮮國建,寇遠濤,等. 大數據環境下的農業知識發現服務探索[J]. 數字圖書館論壇,2016(9):28-33.
[4] Holzinger A,Zupan M. Knodwat. KNODWAT:a scientificframework application for testing knowledge discovery methods for the biomedical domain[J]. BMC Bioinformatics,2013,14(1):191.
[5] Zhang C,He L,Mao Y,et al. Knowledge discovery ofnetwork public opinion in the concept of smart city[C]//Industrial Electronics and Applications(ICIEA),2015 IEEE 10th Conference on. IEEE,2015:1197-1202.
[6] 鄒純龍,馬海群. 基于神經網絡的政府開放數據網站評價研究———以美國 20 個政府開放數據網站為例[J]. 現代情報,2016,36(9):16 -21.
[7] 于建平,魏雪姣,耿延宏等,基于偏序結構理論的情態與時、體、態互動關系知識發現研究[J].燕山大學學報,2016,40(06):508-516.
[8] Yu Jianping,Huang Liang,Fu Jilin,et al. A comparative study of word sense disambiguation of English modal verb by BP neural network and support vector machine [J]. International Journal of Innovative Computing, Information and Control, 2011, 7 (5 ) :2345-2355.
[9] Yu Jianping,Fu Jilin,Duan Jianli.Syntactic feature based word sense disambiguation of English modal verbs by Na ve Bayesian model [J]. ICIC Express Letter,2010,4 (5B) : 1817-22.
[10] Yu Jianping,Huang Liang,Mei Deming,et al. Determination of the senses of English modal verb will by fuzzy c-means cluster[J]. ICIC Express Letters, Part B: Applications,2011,2 ( 1) :177-182.
[11] Yu Jianping,Zhao Sha,Mei Deming,et al.Sense inference of English modal verb must by adaptive network-based fuzzy inference system [J]. ICIC Express Letter,2011,5(8A) : 2409-2414.
[12] Yu Jianping,Hong Wenxue,Li Shaoxiong,et al.A new approach of word sense disambiguation and knowledge discovery of English modal verbs by formal concept analysis[J]. International Journal Innovative Computing,Information and Control,2013,9 (3) :1189-1200.
[13] Yu Jianping, Li Hongbo, Hong Wenxue. A framework for word sense disambiguation of English modal verbs by formal concept analyasis[J]. ICIC Express Letter, 2017, 11(2).
[14] Li Hongbo,Yu Jianping, Hong Wenxue . Rule extraction for word sense disambiguation of English modal verb must[J]. ICIC Express Letters, 2013, 7( 3A): 877-882,.
[15] Li Hong-bo, Yu Jian-ping. Pattern Recognition of Contextual Features for English Modal Verb shall in Word SenseDisambiguation,International Conference On Information Technology And Management Engineering (ITME 2014), 2014: 512-516 .
[16] Li Hongbo,Yu Jianping. Knowledge representation and discovery for the interaction between syntax and semantics: A case study of must, PIC 2014 - Proceedings of 2014 IEEE International Conference on Progress in Informatics and Computing, 2014, 12(2) :153-157.
[17] Li Hongbo, Yu Jianping. Attribute significance analysis of English modal verb shall in word sense disambiguation[J]. ICIC Express Letters, Part B: Applications, 2015, 6( 5): 1287-1294.
[18] Li Hongbo, Yu Jianping, Hong Wenxue. A rule-extraction based optimization method for feature selection in word sense disambiguation[J]. ICIC Express Letter, 2016, 10(6): 1325-1333.
[19] Ganter B, Wille R. Formal Concept Analysis[M]. Berlin: Spring-Verlag, 1999.
[20] Chandrashekar G, Sahin F. A survey on feature selection method[J]. Computers and Electrical Engineering, 2014, 40( 1): 16-28.
[21] Saussure F. Course of General Linguistics. Transl. M. Gao. Bei Jing: Commercial Press, 1996: 37-167.
[22] Zhang S. On the interation of syntax and semantics: from the perspective of metaphor and metonomy[J]. Foreigh Language Research, 2012, 135( 5).
[23] Pawlak Z. Rough Set – Theoretical Aspects of Reasoning about Data[M]. Kluwer Academic Pub, 1991.
【通聯編輯:光文玲】