中文模糊限制語語料庫的研究與構(gòu)建

2015-04-12 11:30:46周惠巍楊歡張靜亢世勇黃德根

中文信息學(xué)報 2015年6期

關(guān)鍵詞：信息

周惠巍，楊歡，張靜，亢世勇，黃德根

（1.大連理工大學(xué)計算機科學(xué)與技術(shù)學(xué)院，遼寧大連116024；2.魯東大學(xué)文學(xué)院，山東煙臺264025）

1 引言

模糊限制語（Hedges）最早是由G Lakoff提出的，用來指“把一些事情弄得模模糊糊的詞語”，表示的是不確定性和臨時性的觀點［1］。由模糊限制語所引導(dǎo)的信息為模糊限制信息（Hedge Information）。當(dāng)信息的撰寫者不能提供完全準(zhǔn)確、肯定的信息時，往往使用模糊限制語，使自己的陳述更客觀。模糊限制語廣泛地用于自然科學(xué)、新聞等各個領(lǐng)域，為進行事實信息的抽取，應(yīng)將模糊限制信息與事實信息區(qū)分開來，模糊限制信息檢測成為信息抽取的首要步驟。由于網(wǎng)絡(luò)信息量的迅猛增長，及信息抽取技術(shù)的高速發(fā)展，作為信息抽取源的網(wǎng)絡(luò)信息的真實性和可靠性日益受到關(guān)注。2010年國際計算語言學(xué)會（Association for Computational Linguistics，ACL）將模糊限制語識別和模糊限制信息檢測定為CoNLL（Conference on Computational Natural Language Learning）共享任務(wù)［2］。其中模糊限制語識別包含生物醫(yī)學(xué)和維基百科兩個領(lǐng)域。生物醫(yī)學(xué)領(lǐng)域源語料源自BioScope［3］語料庫，該語料庫包括生物醫(yī)學(xué)論文摘要、全文及臨床診斷報告三類文獻；維基百科語料源自WikiWeasel［2］語料庫。

英文模糊限制語語料庫的研究與構(gòu)建取得了長足的進展，除上述兩個語料庫外，公開發(fā)表的語料庫還有Medlock和Briscoe［4］，Kim等［5］，Settles等［6］，Shatkay等［7］，Nawaz等［8］，和Uzuner等［9］構(gòu)建的生物醫(yī)學(xué)領(lǐng)域語料庫；Rubin等［10］，Wilson［11］，Saurí和Pustejovsky［12］，和Rubin［13］構(gòu)建的新聞領(lǐng)域語料庫。王舟［14］調(diào)查了中英文醫(yī)學(xué)論文摘要各80篇，中文論文中模糊限制語累計出現(xiàn)205次，英文論文中出現(xiàn)305次。中文醫(yī)學(xué)文獻中同樣包含大量模糊限制語［15－17］。除醫(yī)學(xué)文獻外，模糊限制語還廣泛地用于中文的各個領(lǐng)域。維基百科作為一個以開放和用戶協(xié)作編輯為特點的知識系統(tǒng)，其中蘊涵了豐富的信息，成為目前研究人員進行信息抽取的重要語料資源。但是當(dāng)撰寫者不能提供完全準(zhǔn)確、肯定的信息時，往往使用模糊限制語，使自己的陳述更客觀。

語言學(xué)界從語義、句法、詞性等方面對模糊限制語進行了長期的研究，中英文研究人員分別對中英文模糊限制語的表現(xiàn)形式和分類進行了探討，將模糊限制語從語義、詞性、結(jié)構(gòu)和句法功能等方面進行分類。英文模糊限制語的研究開始于20世紀(jì)70年代，Prince等［18］從語用功能上將英語模糊限制語劃分為變動型（approximators）和緩和型（shields）。前者改變原話題的真值條件，對話題進行某種程度或范圍的限制，如“a little bit”、“almost”等。而后者不能改變原話題的真值條件，但可以反映說話人對話題所持有的態(tài)度，緩和了話題的肯定語氣，如“think”、“perhaps”等。Szarvas等［19］根據(jù)話題在真實世界的真假性，將英文模糊限制語分為假設(shè)型（hypothetical）與認(rèn)知型（epistemic）兩類。兩者的主要區(qū)別是前者認(rèn)為話題在真實世界里可能為真、假或者不確定三種情況，如“He believes that the Earth is flat.”而后者則是就目前所知無法判斷話題在真實世界是正確的還是錯誤的，如“It may be raining.”

我國英語界于本世紀(jì)80年代對模糊限制語進行了初步探討，何自然［20］在Prince等［18］的研究基礎(chǔ)上，將變動型模糊限制語細分為程度變動型和范圍變動型，將緩和型模糊限制語細分為直接緩和型和間接緩和型。認(rèn)為變動型模糊限制語屬于語義范疇，緩和型模糊限制語屬于語用范疇。語言學(xué)家對中英文模糊限制語進行了翻譯研究［21］，認(rèn)為中英文模糊限制語存在一定的差異，很少存在等值譯文。蘇遠連［22］對中文模糊限制語進行了對比研究，他贊同何自然的觀點，認(rèn)為中文模糊限制語也可以按照同樣的方法進行分類，并將變動型模糊限制語細分為程度變動型，如“有點”、“相當(dāng)”等；范圍變動型，如“上下”、“左右”等；和頻率變動型，如“經(jīng)常”、“不時”等。緩和型模糊限制語仍然分為直接緩和型，如“我認(rèn)為”、“看來”等；和間接緩和型，如“聽說”、“據(jù)報道”等。

目前國內(nèi)模糊限制語呈現(xiàn)出多理論、多角度和多方面的研究［23］。模糊限制語語料庫的構(gòu)建是模糊限制語研究與模糊限制信息檢測的基礎(chǔ)，然而中文模糊限制語語料資源缺乏，至今尚未發(fā)現(xiàn)公開發(fā)表的模糊限制語語料庫。本文研究了中文模糊限制語的分類，設(shè)計并構(gòu)建了一個具有2.4萬句規(guī)模的中文模糊限制語語料庫。語料選自生物醫(yī)學(xué)和維基百科兩個領(lǐng)域，生物醫(yī)學(xué)文獻包括摘要、實驗結(jié)果、討論、結(jié)論和全文五個部分，維基百科文獻選取了包含國家介紹、歷史人物介紹、事件介紹等242篇文章。實驗分析了語料標(biāo)注的一致性，并統(tǒng)計了不同領(lǐng)域各類模糊限制語的使用比例。本文構(gòu)建的中文模糊限制語語料庫，涵蓋了豐富的中文模糊現(xiàn)象，為語言學(xué)家從語義、語法、語用等方面進行模糊限制語的研究提供了強大的知識庫支持。語料庫中的醫(yī)學(xué)文獻和維基百科文獻分別包含9 946個和1 958個模糊限制語，在各自的領(lǐng)域足以訓(xùn)練出一個比較準(zhǔn)確的模糊限制語識別模型，用于模糊限制信息檢測研究。同時，還可以應(yīng)用兩個領(lǐng)域的語料庫進行跨領(lǐng)域模糊限制語識別研究。

本文組織結(jié)構(gòu)如下：第二節(jié)提出了本文對中文模糊限制語分類方法；第三節(jié)闡述了語料庫的構(gòu)建過程；第四節(jié)統(tǒng)計分析了語料標(biāo)注的一致性，以及模糊限制語種類和語料領(lǐng)域之間的關(guān)系；第五節(jié)是結(jié)論與展望。

2 中文模糊限制語的分類

本文根據(jù)Prince等［18］和何自然［20］的分類方法，將模糊限制語分為變動型和緩和型兩類。在此基礎(chǔ)上，根據(jù)模糊限制語的語義和語用功能，將這兩大類模糊限制語進行了更細致的劃分，如圖1所示，各類模糊限制語的定義如下。

（1）變動型模糊限制語

變動型模糊限制語是對話題本身進行某種程度的限制，它能修改話題原來的真值，當(dāng)說話人不能準(zhǔn)確說出某個話題的真值或有意模糊某個話題的真值時用到變動型模糊限制語。根據(jù)變動話題的類型，此類模糊限制語可細分為數(shù)量變動、程度變動、范圍變動和頻率變動四個類型。

圖1 中文模糊限制語的分類

數(shù)量變動型當(dāng)說話人不能明確地說出具體的數(shù)字，但是能估計出一個大概的數(shù)量時，常會用到數(shù)量變動模糊限制語。如：“少數(shù)”，“大部分”等。

程度變動型把一些接近正確但不敢肯定完全正確的話題說得更得體些，與實際情況更接近些，避免過于武斷，表明話題與真實情況的接近程度。如：“有點”，“稍微”，“十分”等。

范圍變動型在話題中往往提供了具體數(shù)字，使用這類模糊限制語時，聽話人不必考慮具體情況與所說的話題的接近程度如何，而只考慮范圍大小，聽話人可以在一定的范圍內(nèi)去理解話題意義。如：“大約”，“在一定范圍內(nèi)”，“將近”等。

頻率變動型用于反映一個事件發(fā)生的頻率。如：“常常”，“偶爾”等。

（2）緩和型模糊限制語

當(dāng)說話人提出某一個論斷時，緩和型模糊限制語可以緩和說話人的語氣，為說話人留有余地，減輕說話人為此論斷所應(yīng)付的責(zé)任，這類模糊限制語不改變話題原來的意思。根據(jù)緩和型模糊限制語的語用功能將其細分為主觀見解型、探知結(jié)論型、客觀依據(jù)型和條件假設(shè)型四類。

主觀見解型用來表示說話人對某事的直接推測及所持的態(tài)度，其所闡述的話題只是個人的主觀見解。使用這類模糊限制語可以在一定程度上削弱說話人對話題所承擔(dān)的責(zé)任。如：“我認(rèn)為”，“就我所知”等。

客觀依據(jù)型通過借助第三方或大家普遍認(rèn)同的觀點，間接地表達說話人對某事所持有的態(tài)度，說話人在一定程度上同意第三方的觀點，只是他對此依據(jù)究竟有多大程度的贊同，在話語中看不出來，只能另作推斷。例如，據(jù)說”，“有人說”等。

探知結(jié)論型用來表示對某個結(jié)論的推測，根據(jù)存在的現(xiàn)象推知未來可能會發(fā)生的事情或待證明的結(jié)論。例如，“表明”，“可能”，“調(diào)查”，“仍不清楚”等。

條件假設(shè)型通過給出假定的前提條件表明說話人的意愿，但現(xiàn)在事實是怎樣的并不知曉。例如，“如果”，“假定”等。

3 中文模糊限制語語料庫構(gòu)建

3.1 語料的選取與預(yù)處理

本文構(gòu)建的中文模糊限制語語料庫覆蓋了生物醫(yī)學(xué)與維基百科兩個領(lǐng)域。生物醫(yī)學(xué)領(lǐng)域語料選自《中國生物醫(yī)學(xué)工程學(xué)報》、《中國生物化學(xué)與分子生物學(xué)報》和《生物醫(yī)學(xué)工程學(xué)雜志》等權(quán)威性中文生物醫(yī)學(xué)類期刊的2011～2013年間的科研論文。分別摘取部分文獻的摘要、實驗結(jié)果、討論、結(jié)論并選取部分文獻的全文，分別標(biāo)注以便統(tǒng)計分析模糊限制語在文獻不同章節(jié)的使用頻率。

維基百科的組成單元稱為“概念”或“詞條”，每個詞條對應(yīng)一篇文章，由不同用戶一次次編輯形成。本文選取國家介紹、歷史人物介紹、事件介紹等方面的242篇詞條構(gòu)建維基百科語料庫。

從CNKI（中國知網(wǎng)）上下載的文獻需要轉(zhuǎn)化為文本格式。人工修正文本轉(zhuǎn)化產(chǎn)生的亂碼，并將其中的所有英文及數(shù)字統(tǒng)一為半角格式，去掉多余的空格。由于存在中英文標(biāo)點符號混合使用的情況，將所有標(biāo)點符號統(tǒng)一為中文格式。

3.2 結(jié)構(gòu)設(shè)計與一般標(biāo)注規(guī)則

標(biāo)注語料采用一種特定的XML格式，每一個句子顯示為一行，如圖2所示。首先，標(biāo)注句子號，如“S38.9”，其中“38”為文章號，“9”為該句在文章中的序號。然后，標(biāo)注該句的模糊限制類型，其中“certain”為確定性句子，“uncertain”為模糊限制性句子，當(dāng)一個句子包含有一個或一個以上的模糊限制語時，這個句子就是模糊限制性句子。對于模糊限制性句子，標(biāo)注模糊限制語。分別使用標(biāo)記“＜ccue＞”和“＜／ccue＞”標(biāo)注模糊限制語的起始和結(jié)尾，同時給出模糊限制語的標(biāo)號，如“S38.9.1”，和細分類，如“頻率變動”。文章號、句子序號和模糊限制語標(biāo)號采用層次結(jié)構(gòu)，并有且僅有一個標(biāo)號。

圖2 模糊限制語標(biāo)注語料示例

模糊限制語的標(biāo)注遵循最小原則：標(biāo)注能表明模糊限制性的最小單元為模糊限制語，多個模糊限制語組合起來表示模糊限制性時，分別標(biāo)注每個模糊限制語，如圖2中，“總是”和“被定義”被分別標(biāo)記為模糊限制語，而不是將“總是被定義”作為一個模糊限制語。

3.3 特殊詞語標(biāo)注規(guī)則

除了一些明確具有模糊限制含義的詞語外，還有一些詞語需要根據(jù)上下文語境判斷其是否表模糊性，這是模糊限制語標(biāo)注的一個難點。判斷一個詞語是否是模糊限制語，主要是看它對所陳述的命題是否產(chǎn)生不確定的影響。為減少標(biāo)注錯誤，提高標(biāo)注速度，增加標(biāo)注語料的一致性，我們研究制定了一些特殊詞語標(biāo)注規(guī)則，這些規(guī)則隨著標(biāo)注過程動態(tài)更新。部分特殊詞語標(biāo)注規(guī)則如下。

1.詞語“根據(jù)”引用的是第三方的觀點或理論，間接地表達說話人對某事所持有的態(tài)度時，認(rèn)為是模糊限制語，如例句（1）中的“根據(jù)”是模糊限制語；當(dāng)命題中未表達個人觀點時，認(rèn)為不是模糊限制語，如例句（2）。

例句1 ＜ccue＞根據(jù)＜／ccue＞染色體分離機理，Cdc20的表達是PBEⅠ所必需的。

例句2 大部分代表是直接民選產(chǎn)生，100人則是根據(jù)政黨得票率按比例分配。

2.詞語“或者”是在每個領(lǐng)域都經(jīng)常出現(xiàn)的詞，通過研究我們認(rèn)為當(dāng)“或者”連接的同位詞只有一個正確的時候，是模糊限制語，如例句（3），不確定是“第三或者第四大”，但對的只能選擇其中的一個，所以是模糊限制語；而當(dāng)“或者”連接的同位語無論選哪個都正確的時候，認(rèn)為不是模糊限制語，如例句（4），選擇“tartuffolo”或“小松露”，命題都正確，所以認(rèn)為不是模糊限制語。

例句3 美國的國土面積是世界第三＜ccue＞或者＜／ccue＞第四大。

例句4 在十五世紀(jì)時，馬鈴薯在意大利被叫作“tartuffolo”或者“小松露”。

3.詞語“表明”在生物醫(yī)學(xué)文獻中常用于推測某個結(jié)論，當(dāng)根據(jù)某些現(xiàn)象或條件，推測出一個結(jié)論時，認(rèn)為是模糊限制語，如例句（5），“表明”連接的是一個推測性的結(jié)論，所以認(rèn)為是模糊限制語；當(dāng)只是客觀地描述了一個結(jié)果或現(xiàn)象時，認(rèn)為不是模糊限制語，如例句（6），只是客觀地陳述了一個實驗的結(jié)果，所以認(rèn)為不是模糊限制語。

例句5 在晚期動脈相因子圖中，腫瘤完全增強，并且周圍組織也增強，＜ccue＞表明＜／ccue＞有肝動脈血流開始進入周圍組織區(qū)域。

例句6 通過對30位受試者的對比實驗，結(jié)果表明，本監(jiān)護儀的測量驗證的平均準(zhǔn)確率達到92.2%。

4.詞語“證明”常出現(xiàn)在生物醫(yī)學(xué)文獻中，后面跟隨一個命題。我們規(guī)定，當(dāng)該命題需要加以證明時，“證明”是模糊限制語，如例句（7），“b和c兩條帶為Pil1磷酸化狀態(tài)”這一命題在此例句中是有待證明的命題，所以認(rèn)為是模糊限制語；而命題已得到證明了，則“證明”不是模糊限制語，如例句（8），“高糖可以通過線粒體凋亡途徑誘導(dǎo)成骨細胞凋亡”這一命題已經(jīng)通過實驗得到了驗證，所以認(rèn)為不是模糊限制語。

例句7 為了＜ccue＞證明＜／ccue＞這b和c兩條帶為Pil1磷酸化狀態(tài)，F(xiàn)ig.2C表示將蛋白提取物加入磷酸酶處理后作免疫印記檢測。

例句8 本研究證明，高糖可以通過線粒體凋亡途徑誘導(dǎo)成骨細胞凋亡。

3.4 語料庫的構(gòu)建

基于已有的英文模糊限制語語料，和中文待標(biāo)注語料，收集各類中文模糊限制語，整合成為一份完備的模糊限制語詞典。為了減輕標(biāo)注人員的負擔(dān)，采用正向最大匹配算法，標(biāo)注中文語料中的詞典詞，形成初始標(biāo)注語料。

本文參照英文生物醫(yī)學(xué)領(lǐng)域的BioScope［3］語料庫的標(biāo)注過程進行標(biāo)注。首先，分別由兩名語言學(xué)專家按照標(biāo)注規(guī)則，判斷初始標(biāo)注語料中的詞典詞在句子中是否表示模糊性，人工修正初始標(biāo)注語料的錯誤，形成兩份標(biāo)注結(jié)果。然后，規(guī)則的制定者對兩份標(biāo)注結(jié)果中不一致處進行統(tǒng)一，形成最終語料。具體標(biāo)注過程如圖3所示。

圖3 語料標(biāo)注過程

4 語料庫的統(tǒng)計數(shù)據(jù)與分析

4.1 語料庫的統(tǒng)計數(shù)據(jù)

語料庫的統(tǒng)計信息如表1所示，生物醫(yī)學(xué)和維基百科兩個領(lǐng)域共標(biāo)注語料24 414句，約100萬詞。其中模糊限制性句子8 160句，模糊限制語11 904個。維基百科文章中，33.78%的句子包含模糊限制信息；生物醫(yī)學(xué)文獻中，摘要中25.28%的句子，全文中35.09%的句子包含模糊限制信息，可見中文模糊限制語廣泛地存在于中文文獻中。此規(guī)模的語料庫足夠用于模糊限制信息檢測的研究。

表1 語料庫的統(tǒng)計信息

4.2 不同領(lǐng)域模糊限制語的分布

圖4 語料中模糊限制語的類型分布

模糊限制語的分布具有領(lǐng)域性［19］，為了探究不同類型的模糊限制語在生物醫(yī)學(xué)和維基百科領(lǐng)域的分布，對語料庫中的各類模糊限制語進行統(tǒng)計，結(jié)果如圖4所示。

由圖4可見，生物醫(yī)學(xué)文獻中緩和型模糊限制語的使用頻率較高，維基百科文章中變動型模糊限制語的使用頻率較高。其中，在生物醫(yī)學(xué)領(lǐng)域，探知結(jié)論型模糊限制語較多。因為在生物醫(yī)學(xué)論文寫作中，當(dāng)作者根據(jù)實驗現(xiàn)象推測結(jié)論時，常常使用探知結(jié)論型模糊限制語。在維基百科領(lǐng)域，客觀依據(jù)型模糊限制語所占比例明顯高于生物醫(yī)學(xué)領(lǐng)域。其主要原因是本文選取了國家介紹、歷史人物介紹、事件介紹的文章，所以往往借用別人的觀點來表述自己態(tài)度。一般而言，程度變動型和數(shù)量變動型模糊限制語在各個領(lǐng)域都比較常用，因此，這兩類模糊限制語在生物醫(yī)學(xué)和維基百科中都占有較大的比重。

4.3 一致性分析

標(biāo)注完成后，對標(biāo)注語料進行一致性分析。先比較兩份獨立標(biāo)注的語料，將其中一份語料作為標(biāo)準(zhǔn)語料；再分別將兩份獨立標(biāo)注的語料（標(biāo)注結(jié)果1，標(biāo)注結(jié)果2）與最終語料進行比較，最終語料作為標(biāo)準(zhǔn)語料。采用式（1）、式（2）和式（3）計算獲得F值作為一致率。

上式中，TP（True Positives）表示兩份語料中相同的模糊限制語的個數(shù)。FP（False Positives）表示評測語料中被標(biāo)注為模糊限制語，而標(biāo)準(zhǔn)語料中未被標(biāo)注為模糊限制語的個數(shù)。FN（False Negatives）表示評測語料中未被標(biāo)注為模糊限制語，而標(biāo)準(zhǔn)語料中被標(biāo)注為模糊限制語的個數(shù)。一致性分析結(jié)果如表2所示。

表2 一致性分析結(jié)果

模糊限制語級別的F值采用精確匹配，即左、右邊界完全匹配時認(rèn)為識別正確，而句子級別的F值只需句子的模糊性判斷正確即可。各列中的第一項表示兩份獨立標(biāo)注的語料間的一致率，第二項和第三項表示兩份獨立標(biāo)注語料與最終語料間的一致率。由表2可見，模糊限制語級別的一致性明顯低于句子級別的一致性，說明模糊限制語的識別比模糊限制性句子識別更具難度。同時，由于模糊限制語沒有明確的定義，有一些詞語需要根據(jù)上下文語境判斷其是否表模糊性，因此，模糊限制語的標(biāo)注具有一定的主觀性。但是，在語料的標(biāo)注過程中，規(guī)則的制定者與兩名語言學(xué)專家對前兩份獨立標(biāo)注語料的不一致處進行了深入的探討，反復(fù)修改了標(biāo)注規(guī)則。兩名語言學(xué)專家又根據(jù)新的規(guī)則分別修改了各自的標(biāo)注語料。這也說明中文模糊限制語具有較大的歧義性，中文模糊限制信息檢測存在較大的難度。兩份獨立標(biāo)注的語料間的一致性低于它們分別與最終語料間的一致性，這是因為最終語料是規(guī)則的制定者對兩份獨立標(biāo)注語料的不同之處再修改獲得的，所以有可能和二者之一相同。當(dāng)然，規(guī)則的制定者也對全部語料進行了審查，修改了部分獨立標(biāo)注語料的相同標(biāo)記，最終語料具有較高的質(zhì)量。

5 總結(jié)與展望

本文根據(jù)中文模糊限制語的語義和語用功能，對其類型進行了更細致的劃分。在生物醫(yī)學(xué)和維基百科兩個領(lǐng)域，設(shè)計構(gòu)建了中文模糊限制語語料庫。在語料庫構(gòu)建過程中，從語料收集、標(biāo)注規(guī)范制定和語料標(biāo)注等多方面提高語料庫的質(zhì)量。目前已標(biāo)注完成了一個具有2.4萬句規(guī)模的中文模糊限制語語料庫。統(tǒng)計表明，生物醫(yī)學(xué)文獻全文中35.09%的句子，維基百科中33.78%的句子包含模糊限制信息。兩個領(lǐng)域中，由于詞語的使用頻率不同，所以模糊限制語的類型分布具有較大的差異。實驗檢測了語料標(biāo)注的一致率，其中模糊限制語的一致率不高，表明中文模糊限制語具有歧義性，中文模糊限制語識別存在較大的難度。語料庫的建設(shè)是一項長期而艱巨的任務(wù)，下一步我們將繼續(xù)完善標(biāo)注規(guī)范，改進標(biāo)注質(zhì)量，擴大語料規(guī)模。此外，本文僅標(biāo)注了中文模糊限制語及其所屬類別，標(biāo)注模糊限制語的限制范圍也將是本文下一步的研究工作。最后，我們希望盡快推出一個語料庫的在線版本，為中文模糊限制語的研究提供共享資源。并基于中文模糊限制信息語料庫，進行模糊限制信息檢測研究。

［1］ Lakoff G.Hedges：a study in meaning criteria and the logic of fuzzy concepts［J］.Journal of Philosophical Logic，1973，2（4）：458－508.

［2］ Farkas R，Vincze V，Móra G，et al.The CoNLL 2010 shared task：learning to detect hedges and their scope in natural language text［C］／／Proceedings of the CoNLL，Uppsala，Sweden，2010，1－12.

［3］ Szarvas G，Vincze V，F(xiàn)arkas R，et al.The BioScope corpus：biomedical texts annotated for uncertainty，negation and their scopes［J］.BMC Bioinformatics，2008，9（11）：S9.

［4］ Medlock B and Briscoe T.Weakly supervised learning for hedge classification in scientific literature［C］／／Proceedings of the ACL，2007：992－999.

［5］ Kim J D，Ohta T，Tsujii J.Corpus annotation for mining biomedical events from literature［J］.BMC Bioinformatics，2008，9（10）：1－25.

［6］ Settles B，Craven M，F(xiàn)riedland L.Active learning with real annotation costs［C］／／Proceedings of the NIPS Workshop on Cost－Sensitive Learning，Vancouver，Canada，2008：1－10.

［7］ Shatkay H，Pan F，Rzhetsky A，et al.Multi－dimensional classification of biomedical text：toward automated，practical provision of high－utility text to diverse users［J］，Bioinformatics，2008，24（18）：2086－2093.

［8］ Nawaz R，Thompson P，Ananiadou S.Evaluating a meta－knowledge annotation scheme for bioevents［C］／／Proceedings of the Workshop on Negation and Speculation in Natural language Proceeding，Uppsala，2010：69－77.

［9］ Uzuner O，Zhang X R，Sibanda T.Machine learning and rule－based approaches to assertion classification［J］.Journal of the American Medical Informatics Association，2009，16（1）：109－115.

［10］ Rubin V L，Liddy E D，Kando N.Certainty identification in texts：Categorization model and manual tagging results［J］.Computing Attitude and Affect in Text：Theory and Applications，2006，20：61－76.

［11］ Wilson T A.Fine－grained subjectivity and sentiment analysis：Recognizing the intensity，polarity，and attitudes of private states［D］.Ph.D.thesis，Univer－sity of Pittsburgh，PA.2008.

［12］ SauríR，Pustejovsky J.FactBank：A corpus annotated with event factuality［J］.Language Resources and Evaluation，2009，43（3）：227－268.

［13］ Rubin V L.Epistemic modality：From uncertainty to certainty in the context of information seeking as interactions with texts［J］.Information Processing and Management，2010，46（5）：533－540.

［14］王舟.英漢學(xué)術(shù)論文摘要中模糊限制語的對比研究－－一項基于語料庫的研究［J］.華中科技大學(xué)學(xué)報：社會科學(xué)版，2008，22（6）：59－63.

［15］陳萍，蔣躍.中英醫(yī)學(xué)論文摘要中模糊限制語的對比研究［J］.外語藝術(shù)教育研究，2009，3（1）：15－20.

［16］范曉暉，李曉，李瑩.中英作者醫(yī)學(xué)論文英文摘要中模糊限制語的對比研究［J］.西北醫(yī)學(xué)教育，2010，18（5）：1019－1021.

［17］顧敏，周紅.英漢訪談節(jié)目中模糊限制語語用功能的對比研究［J］.嘉興學(xué)院學(xué)報，2013，25（1）：87－91.

［18］ Prince E F，F(xiàn)rader J，Bosk C.On hedging in physician－physician discourse［J］.Linguistics and the Professions，1982：83－97.

［19］ Szarvas G，Vincze V，F(xiàn)arkas R，et al.Cross－Genre and Cross－Domain Detection of Semantic Uncertainty［J］.Association for Computational Linguistics，2012，38（2）：335－367.

［20］何自然.模糊限制語與言語交際［J］.外國語（上海外國語學(xué)院學(xué)報），1985，（5）：27－31.

［21］文旭.語義模糊與翻譯［J］.中國翻譯，1996，（2）：5－8.

［22］蘇遠連.英漢模糊限制語的分類和功能［J］.廣州大學(xué)學(xué)報：社會科學(xué)版，2002，1（4）：29－32.

［23］蔣平.國內(nèi)模糊語言研究：現(xiàn)狀與目標(biāo)［J］.外國語（上海外國語大學(xué)學(xué)報），2013，36（5）：43－49.