999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

什么是計算話語學

2019-01-11 13:04:38李佐文嚴玲
山東外語教學 2018年6期
關鍵詞:語義情感結構

李佐文 嚴玲

(中國傳媒大學 外國語言文化學院, 北京 10024)

1.0 計算話語學產生的背景

計算話語學是隨著自然語言處理和話語語言學研究的不斷深入提出的新概念。上世紀40-60年代機器翻譯熱潮直接催生了計算語言學的誕生。進入互聯網時代,承載各種信息的語言資源都匯聚在網上,為自然語言處理提供了豐富語料。在計算語言學發展歷程中,詞匯、句法層面的語言處理已取得一定成果。Wilks的優選語義學、Fillmore的格語法,Shank的概念依存理論、Simmons的語義網絡理論和Montague的語法等為小句層面的語義分析提供了有力的理論支撐。Chomsky的短語結構語法被不斷改進,成為計算機句法分析的主流模式(蔡自興、王勇,2014:312)。與這些成果相比,話語層面涉及語言計算的理論還較為薄弱。目前自然語言處理中存在的諸多瓶頸問題都與語篇層面的語義計算未取得實質性突破有關。因此,計算話語學研究是人工智能快速發展背景下自然語言處理技術提出的迫切要求,也是計算語言學不斷走向完善和深入的歷史必然。

話語的計算研究是一個極為復雜的領域。隨著計算機科學的發展,機器的計算能力不斷增強,特別是近年來深度學習的快速發展和應用,給計算機處理話語帶來希望。然而,人工智能領域的專家一般只擅長工程和算法,對話語語言學的理論和規律缺乏了解,使得計算話語學研究進展較為緩慢。因此,話語的計算研究成為現代話語語言學的重要研究領域和方向。

2.0 計算話語學的概念

計算話語學(computational textlinguistics)是一門研究如何在語言學理論框架內用可計算的形式抽象概括出話語意義操作模型的學科,是用話語形式特征實現語義計算的處理過程。它主要涉及話語語言學,認知語言學和計算語言學,是人工智能研究的重要內容。

計算話語學的研究路徑需要首先探討話語理解和生成的心理機制,將這種運作方式形式化,研究算法讓計算機模擬人腦進行語言計算,驗證研究結果。其實質就是希望電腦能夠像人腦一樣進行運算。這種研究路徑最關鍵的一步,就是揭示大腦處理語言的運作規律。計算語言學為計算話語學提供了一整套的研究框架、方法、目標導向,認知語言學為挖掘話語的可計算模型提供了邏輯推理的理論基礎,數學和計算機程序為計算話語學的研究成果轉化為可操作的應用提供了實現路徑,話語語言學則是計算話語學的母體和內容庫。

3.0 計算話語學的研究內容

自然語言處理系統一般包括理論、資源(樹庫、知識庫等)、計算模型三部分。根據系統功能語言學將語言的三大元功能界定為概念功能、人際功能、語篇功能,我們認為計算話語學的研究就是從話語謀篇布局的結構中發掘話語的概念意義和人際意義。根本問題就是揭示語篇的語義結構、信息結構、邏輯脈絡。

3.1 針對概念義求解的話語主題計算

概念義對于語篇而言,主要指語篇的整體義,即主題義。主題義并不是語篇中所有小句義的簡單疊加,而是詞語通過線性文本建構出來的整體義。因此,要計算語篇的主題義,首先要研究語義和語篇結構的關系,揭示語義流是如何通過語篇結構的引導,匯聚成各種各樣的概念義。話語語言學對語義和語篇結構的研究集中在局部連貫和整體連貫方面,計算話語學則利用這些理論成果開展指代消解和語篇結構建模。

3.1.1 語篇連貫的理論研究

連貫問題是話語研究的經典問題。自從Halliday提出英語的銜接機制以來,眾多學者從各個角度對這一問題展開了研究。就局部連貫而言,學者們探究了小句間各種銜接手段,以及語境和認知對語義連貫的作用。就語篇整體連貫而言,主要有以下幾種研究視角。第一,關注話語標記承擔了怎樣的語篇框架建構任務。這些話語標記包括話語的起始、終結標記,如“首先、此外、最后等”;話語的框架結構標記,如“第一、其次、另一方面、如前所述”等(李佐文,2003)。第二,揭示某一類語篇的常用結構框架。如Labov(1972)的敘事結構分析,廖秋忠(1988)的各種論證結構等。第三,關注主位推進模式。第四,從認知視角揭示整體連貫的機制。如框架、腳本、圖式、心理模型。第五,語篇宏觀結構提取(van Dijk,1980;陳忠華等,2004:190)。第六,Beaugrande(1980:102)的語篇世界模型。該模型由四個元素構成:概念(分主、次兩個層次)、關系(33種)、算子(8個)、優選規則(12條)。概念是語篇語義網絡的結點,關系則是節點間的聯系,算子是邏輯運算符號,優選規則是底層到表層映射的認知操作規則。

上述理論成果依據“形式到語義”的計算路徑可以分為四類。第一類,如局部連貫、語篇連貫的話語標記、語篇整體結構模板、主位推進模式,均關注語言形式,卻未能很好地將形式和語義的界面解釋清楚,無法解釋各種形式標記或語篇模板反映出怎樣的語義。第二類是從認知角度的研究,揭示了話語過程和概念間的聯系。它們對于高頻、固定結構的解釋比較準確,但應對自然語言變化多樣的語篇構造卻顯得力不從心。因此,這些圖式、框架、腳本的理論,更適合FrameNet、HowNet這樣的靜態知識庫建設。第三類理論對形式到語義的映射進行了細顆粒度的詳細刻畫,如Beaugrande的語義網絡。但缺乏對語篇核心語義的歸納總結機制。第四類理論描繪了形式到意義的認知計算,如宏觀結構的計算。這些計算過程對計算話語學研究有很好的啟發作用。需進一步研究如何讓計算機能進行類似的認知操作。總體而言,針對概念義的語篇結構研究,積累了大量成果,但仍未真正解決語篇結構是如何構建概念語義這一問題。

3.1.2 語篇連貫的計算研究

在計算話語學中,研究連貫的主要目的是發現句子間的邏輯語義關系。已有語篇連貫計算模型包括:話語表現理論(DRT)(Kamp,1981)、話語鏈圖結構(chain-graph-based structure)(Wolf & Gibson,2005)、中心理論(Grosz & Candace,1986)、修辭結構理論(RST)(Mann & Thompson,1988.)、漢語廣義話題結構流水模型(宋柔,2013)等。下面重點介紹較為經典的修辭結構理論(RST)和漢語廣義話題結構流水模型。

修辭結構理論(Rhetorical Structure Theory, RST) RST有四個基本元素:單位、語段、箭頭線、連貫關系,如圖1。單位是分析的最底層單元,用數字標號。圖1的單位1是文章標題,單位2、3、4是文章開頭的話語。語段是單位的結合體,用直線連接,用被連接的單位數字命名,如“3-4”。箭頭線的命名是單位或語段間的連貫關系,如“2”和“3-4”之間是條件關系(condition),箭頭方向指向的語段是核心成分(如“3-4”),箭頭離開的成分是衛星成分(如“2”)。RST的連貫關系界定中,主要從語義和功能角度,而非形式和句法角度來判斷。在圖1中,我們可以看到箭頭從上至下,最終指向了“3”,可知這段話中“3”是語篇的中心,表達了語篇的主題。這是通過篇章關系的傳遞性和主輔性實現的。RST理論通過對局部連貫關系的逐級判定,最后將整個語篇建構成一個以核心、衛星成分判定連貫關系的,具有層級結構的語篇樹(discourse tree)。

圖1 修辭結構理論示例(Taboada & Mann,2006)

RST理論需完善的地方在于單位(unit)的確定(Taboada & Mann, 2006)。RST的單位通常是一個獨立的小句以及它的附屬成分。但這樣的判斷標準有可能丟失重要的細節信息,也只適用于有小句結構的語言,不適用于口語。此外,對學術語篇中較長單位的關系判斷,以及像漢語這樣,78.8%的連貫屬于隱式連貫(梁國杰,2015:33)的語言如何判斷關系,還需要進一步研究。

廣義話題結構流水模型 該模型主要將“不成句的標點句”構造為“成句的話題自足句”,使得語篇處理簡化為對單句序列的處理,為語言計算提供便利。該模型具有高覆蓋率和易操作的特點,其分析的基本單位是標點句。話題結構由話題和說明兩部分構成,話題是某一標點句中被其他標點句談論的部分或整句。說明是談論話題的標點句。例如:

張莉努力讀書,

|希望能改變自己的命運。

王強早早輟學,

|進城打工,

|也希望能改變自己的命運。

這個例子中,“張莉”、“王強”是話題,其余是說明。由于話題不僅僅是實體類,還包括時間、處所類、狀性、謂性、推理前提等類型,所以稱之為廣義話題。廣義話題結構的堆棧模型,是將每一行文本的左邊看作棧底,右邊看作棧頂。棧底是話題,保持不動,棧頂是說明,隨著對話題談論的進行,不斷有新文本進入棧頂的說明位置,而舊文本則從該位置退出,從而每一行都可以補足成話題自足句。上例的話題自足句為:

張莉努力讀書。張莉希望能改變自己的命運。

王強早早輟學。王強進城打工。王強也希望能改變自己的命運。

在廣義話題結構的縮進圖式中,從左至右,從上到下,直到標點句右端,所經過的詞語串都是話題自足句。該模型還需解決的問題包括:哪些詞語是高頻話題詞語,充當廣義話題有哪些約束條件,以及話題之間的語義關系。

3.1.2 指代消解研究

指代消解是將語篇中指向同一對象的不同表達識別出來,形成詞匯指代鏈。指代消解從數學角度看是個聚類過程,將指向相同實體的先行詞和各種指代聚成一類。它的操作過程是,首先將待消解的指代詞識別出來形成待消解候選項集合。然后用基于規則或數據驅動的方法對這些候選項進行聚類篩選,確定最后的所指對象。

指代消解的理論模型有樸素Hobbs算法、中心理論、脈絡理論(Cristea et al.,1998)等。近期比較有影響的研究是斯坦福大學Raghunathan團隊基于多重過濾框架的共指消解模型(Raghunathan et al.,2010)。該模型利用多種特征,進行多層過濾。每一層的輸入是上一層消解候選項(mentions)聚類的輸出。在同一個聚類簇(cluster)中,每個候選項的屬性被所有候選項分享,使得全局性信息能在模型中傳遞。這樣的層次過濾保證了強勢特征(stronger features)享有超越弱勢特征(weaker features)的優先權。具體的過濾層次和規則如圖2所示。

通道(pass)類別(Type)特征(Features) 1N精確匹配(exact extent match)2N, P同位成分(appositive) |謂語主格(predicate nominative)| 角色同位語(role appositive)| 關系代詞(relative pronoun) | 首字母縮略詞(acronym) |地方性稱謂詞(demonym)3N聚類簇中心詞匹配(cluster head match) &詞包含(word inclusion) & 修飾語兼容(compatible modifiers only)& 非其他NP的子節點(not i-within-i)4N聚類簇中心詞匹配(cluster head match) &詞包含(word inclusion)& 非其他NP的子節點(not i-within-i)5N聚類簇中心詞匹配(cluster head match) &修飾語兼容(compatible modifiers only) & 非其他NP的子節點(not i-within-i) 6N寬松聚類簇中心詞匹配(relaxed cluster head match) & 詞包含(word inclusion) &非其他NP的子節點(not i-within-i)7P代詞匹配(pronoun match)

圖2 指代消解的多重過濾標準匯總(Raghunathan,2010)

N 指名詞性表述(nominal), P 指代詞性表述(pronominal), & 表示合取, | 表示析取

指代消解目前的難題主要集中在三個方面(孔芳等,2010;周炫余等,2014):(1)跨文本指代消解,將不同文本中指向同一實體的名稱識別出來。(2)消解候選項的精準識別,如何去除大量非候選項噪音。(3)如何利用背景知識、語篇結構知識、深層語義知識進行指代消解。

3.2 針對人際義求解的話語評價計算

人際義與情感分析(sentiment analysis)、意見挖掘(opinion mining)相關,體現了話語的評價含義。情感分析與意見挖掘有很大的重合性,為敘述方便,以下用情感分析指代兩者。

3.2.1 情感分析的語言學研究

情感分析的本質是對語言評價義的挖掘。早期對評價的研究主要在立場(stance)(Biber et al.,1989)和言據性(evidentiality)(Chafe,1986)方面。Langacker也從認知角度討論了主觀性(subjectivity)問題(Langacker,1990)。對評價語言進行系統描寫的理論當屬Martin團隊提出的評價系統。評價系統由態度、介入、級差三個子系統構成,三者之間是合取關系。

態度子系統是核心,由涉及感情表達的“情感”,從道德方面衡量的態度表達“判斷”,從美學方面衡量的態度表達“鑒賞”三個變量組成(Martin & White,2008:42)。評價系統將表達態度的語言形式從顯性到隱性劃分為幾個等級,即:明顯表現態度的題寫形式(inscribe),用隱含態度詞語表達態度的激發形式(provoke),用隱喻等手段提示態度的標識形式(flag),靠語境和背景知識等暗示態度的陳述形式(afford)。在情感分析中,除了題寫形式,其他幾種形式的態度表達都是計算機判斷的難點,值得深入研究。

3.2.2 情感分析的計算研究

情感分析首先要區分客觀陳述和主觀陳述,然后對主觀陳述進行特征識別,提取其中的評價者(opinion holder)、評價對象(target)、評價表述(appraisal expression)等信息。最后,進行情感類別判斷。

對主觀陳述的識別主要依靠對情感詞、句子結構、上下文語境等內容的主觀性判斷,也可以通過比較待判定陳述和已知主觀陳述之間的相似度進行。對評價者的識別主要依據命名實體,或依據FrameNet的語義角色標注。對評價對象的識別,也多數將其限定在名詞或名詞短語范疇,主要是基于句法、語義規則。對于評價詞語的提取可以在大型語料庫中提取評價性形容詞,或用點互信息方法(PMI)方法判斷待評價詞,或通過WordNet和HowNet的詞義關系來提取。對情感極性的判斷,可以利用情感詞之間的相似度計算情感極性,或利用HowNet的語義相似度和語義場計算情感傾向。

3.2.3 情感分析的難題

情感分析中利用文內和文外語境進行情感義判斷的研究雖然已經引起學者們關注,但尚未出現真正突破性成果,對反諷、隱喻、夸張等隱性評價無法準確判定。語篇級別的整體情感傾向分析,多數是詞匯情感極性的簡單疊加,沒有結合語篇特征開展。中文情感分析中,缺乏標注完善的大規模情感語料庫和情感詞典。在語料庫建設中,對于主觀表述、情感詞、情感表達,情感信息分布模式、情感信息流動方式等都有待進一步研究(徐琳宏等,2008)。

4.0 話語計算的研究方法

計算話語學的研究具有明確的問題導向性。以自動文摘為例,自動文摘涉及文章關鍵詞、中心思想的提取等,可以通過多種方式和路徑實現文摘的自動生成。因為研究成果要用于計算機處理,所以特征描寫一定要有明確、嚴格的界定方式。其次,很多計算話語學的問題可以轉變為聚類問題,所以特征分類很重要。

基于規則的研究方法 理性主義關照下基于規則的方法,將語言視為符號規則的集成。研究者從語言中提取規則加以形式化,然后轉變為算法輸入計算機,由計算機利用這些規則對語言進行處理。基于規則的方法中,語言特征的形式化和建模是兩個重要步驟。形式化是用有限的符號來表示語言的無限性,而語言特征建模則需要通過數學方式。常用的數學知識包括:數理邏輯、概率統計、以及離散數學的知識,如:集合論、邏輯、代數中與語言相關的部分(帕赫蒂等,2012:vii)。

基于統計的研究方法 基于統計的研究方法又稱為經驗主義關照下語料庫驅動的方法。經驗主義是將計算機視為具有體驗能力的“仿真人”,讓它自己從語言中學習規則。通常分為有指導學習和無指導學習。在有指導機器學習中,帶標注的語料庫是機器學習的老師,而標注什么、如何標注來自于計算話語學的研究成果。無指導學習是讓計算機從未標注語料中自己總結語言規律。但由于計算機沒有學習過標注好的語料,往往無法知道自己總結的語言規律是否正確,從而影響了語言處理的效果(馮志偉,2011)。在實際的語言處理中,基于規則和基于統計的方法往往結合使用,以謀求最佳效果(中文信息處理發展報告2016:29)。

深度學習和知識圖譜技術 深度學習是基于人工神經網絡的機器學習,它將世界知識表示為嵌套的層次概念體系,具有很強的能力和靈活性,能從對象化樣本學到非對象化的對象識別。深度學習算法將一層或淺層難于處理的復雜映射或函數運算,分解為多個嵌套層次的簡單映射。這里的關鍵是“嵌套的隱含層”,也就是深度的出現。在一個層次上達不到的,卻可能在更多的嵌套疊層中實現。深度學習算法的層次性,裂隙化聯系,顯示出不可替代的構造功能。深度學習在多種自然語言處理任務上表現都很突出。

知識圖譜是由語義網絡構成的知識庫。從數據結構上講,圖譜是由節點和邊來構成,也可以把它理解成多關系圖(Multirelational graph)。它提供了實體之間的結構化聯系,就像話語世界中命題與命題之間的各種語義關聯,因此知識圖譜非常適合于話語連貫關系的計算。知識圖譜的優勢在于強大的數據描寫能力,各種機器學習算法雖然在預測能力上很不錯,但描寫能力有限,知識圖譜剛好填補了這一空缺。

5.0 結束語

計算話語學作為面向自然語言處理的新興話語研究方向,其發展之路任重而道遠。語篇主題義和人際義的計算是計算話語學的核心問題。主題義是語篇的語義流利用語篇結構而建構的,而人際義的正確解讀更多地依賴于動態語境知識。這些問題的解決依賴于認知語言學對人類話語理解和生成模式的解構,也依賴于計算機技術和算法的革新。對于計算話語學研究者而言,從認知角度研究語篇結構和人腦對語境知識的調用過程,從中推理人類普遍具有的邏輯思維模式,并設法將這些模式形式化,是一項相當重要而艱巨的任務。

猜你喜歡
語義情感結構
《形而上學》△卷的結構和位置
哲學評論(2021年2期)2021-08-22 01:53:34
如何在情感中自我成長,保持獨立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
論結構
中華詩詞(2019年7期)2019-11-25 01:43:04
情感
如何在情感中自我成長,保持獨立
論《日出》的結構
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
創新治理結構促進中小企業持續成長
現代企業(2015年9期)2015-02-28 18:56:50
主站蜘蛛池模板: 99久久无色码中文字幕| 美女一级免费毛片| 成人国产免费| 国产视频a| swag国产精品| 国产AV无码专区亚洲A∨毛片| 综合色88| 亚洲美女AV免费一区| 五月激激激综合网色播免费| 二级毛片免费观看全程| 91小视频版在线观看www| 视频二区欧美| 国产精品观看视频免费完整版| 国产成人精品亚洲日本对白优播| 青青操国产视频| 亚洲清纯自偷自拍另类专区| 在线无码av一区二区三区| 无码中文字幕乱码免费2| 亚洲有码在线播放| 一级毛片免费不卡在线| 天天操天天噜| 伊人色在线视频| 日韩精品无码免费专网站| 狼友av永久网站免费观看| 久久国产成人精品国产成人亚洲 | 久久毛片网| 熟妇丰满人妻av无码区| 国产91在线免费视频| 99久久精品久久久久久婷婷| 亚洲国产精品无码久久一线| 免费高清毛片| 亚洲无码37.| 玖玖免费视频在线观看| 国产成人在线无码免费视频| 亚洲最新地址| 久久久成年黄色视频| 国产一级小视频| 国产精品福利尤物youwu| 欧美激情视频二区三区| 666精品国产精品亚洲| 国产幂在线无码精品| 国产三级韩国三级理| 日韩欧美国产三级| 一本大道AV人久久综合| 亚洲日本中文综合在线| av大片在线无码免费| 亚洲人视频在线观看| AV在线麻免费观看网站 | 麻豆国产原创视频在线播放| 中国特黄美女一级视频| 国产精品19p| 国产成人精品日本亚洲77美色| 国产日韩AV高潮在线| 婷婷亚洲视频| 午夜国产理论| 人人爽人人爽人人片| 毛片网站免费在线观看| 欧美在线一二区| 国产经典免费播放视频| 国产精品七七在线播放| 一级毛片免费观看久| 国产成人精品视频一区二区电影| 波多野结衣AV无码久久一区| 一级成人欧美一区在线观看| 欧美日韩国产精品va| 国产亚洲视频在线观看| 2020精品极品国产色在线观看| a天堂视频在线| 亚欧成人无码AV在线播放| 91在线一9|永久视频在线| 国产无码网站在线观看| 毛片在线播放网址| 日本精品αv中文字幕| 亚洲大尺码专区影院| 一本无码在线观看| 波多野结衣一区二区三视频| 国产白浆视频| 精品无码一区二区三区电影| 欧美日韩一区二区在线免费观看| 国产免费观看av大片的网站| 亚洲男人的天堂在线观看| 都市激情亚洲综合久久 |