999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中醫文獻語料庫建設與頂層設計芻議*

2018-02-13 16:09:35聞永毅王治梅
西部中醫藥 2018年7期
關鍵詞:語義

聞永毅,王治梅

陜西中醫藥大學外語學院,陜西 咸陽 712046

關于中醫文獻語料庫建設的討論已經持續了近20年,研究內容既涉及到語料庫的建設目的、標注方法、雙語庫建設等共性問題,也涉及到中醫文本處理、詞性標注、檢索方式等具體問題[1-3]。然而,這些局部性、個案性研究尚未綜合成為一個完整的中醫文獻語料庫系統,導致庫文件標注、自動處理工具、數據分析、信息抽取等子系統互不兼容、難以發揮應有的作用。本文從頂層設計的視角,分析中醫古典文獻語料庫建設過程中必然遇到的幾個基礎性問題,指出解決這些問題可能涉及到的相關要素。然后以此為線索,討論這些要素跟語料庫子系統之間的關系,說明中醫語料庫建設過程中了解全局、整體布局的重要性,并提出一些特定問題的解決方案。

1 中醫文本的基本特征與自動處理系統的協調問題

1.1文獻的版本問題中醫古漢語文件跟其他漢語文件比較,最為突出的特征之一就是同一著作多種版本,而且版本不同,內容差異較大。據報道[4],《黃帝內經》及其注解的各種版本有幾十種,《神農本草經》也因版本不同而收錄條目、或編排順序會有所差異。版本選擇跟語料庫建設的目的直接相關,以版本考訂、字形變遷為目的的文獻語料庫只能選擇古籍版本。初始庫文件的版本不同,統計出來的基本數據如字數、段落、章節等必然因之而不同。

對于重視語義研究的語料庫建設項目來說,深加工庫文件是一個必備環節。深加工的庫文件只能存儲為純文本格式,而且使用簡化漢字是我國的基本國策。此種條件下,語料庫的初始文件應該首選權威機構出版的簡體漢字版本,并且所選版本應該盡量跟某種古籍的文本內容一致。同時,是否刪除簡體字版本中添加的注解類文字又是一個需要綜合考慮的問題。更改初始文件有違語料庫建設的客觀性準則,但是卻能夠保持中醫文獻資料的原始風貌,避免現代漢語對古漢語文件的沾染。

1.2同義詞、異體字問題異體字、通假字、錯訛字、繁體簡體字混用等現象是中醫文本的另外一個顯著特征。從語義關系方面看,特定字詞的對應異形符號是嚴格意義上的同義詞,如“臟腑、藏腑、藏府”。再者“潤澤、澤潤”“淺深、深淺”“十二經、十二經脈”等詞也應該是嚴格的同義詞。就同義關系而言“皮膚、肌膚、尺膚、膚”或許也可認定為同義關系。

根據粗略調查,中醫經典五部里“瘈疭”使用了7次,對應的異體詞“瘛疭”出現了8次,“瘛”單獨使用了16次,“瘈”使用了1次,這些詞形是否為同義關系暫且不論。語料庫建設中這種異體字詞雖然不影響語料庫的文字處理過程,但是,當面臨語料庫檢索或者信息抽取任務時,如果語料庫建設初期沒有考慮同義詞的處理方案,提取“瘈疭”信息時,就只能檢索到7次,而不是15次。如果這幾個形符是同義關系,那么信息統計量應該是32次,而非7次。可見同義關系對語料庫的檢索效度以及對信息分析有重要影響。

1.3生僻字問題醫古漢語文獻的另一個突出特征是生僻字、罕見字問題。在純文本格式下,很多生僻字、罕見字無法保存,如何處理這些字詞需要在程序設計和庫文件標注方式之間進行協調,確保檢索、信息抽取等環節所需的標注符號設計到位。有研究報道稱[5]可以使用特定符號替代這些生僻字,這需要語料庫管理系統的內外鏈接、檢索方式調整等復雜問題。

1.4標點符號問題據邢玉瑞[3]研究稱《漢語大詞典》中雖然收錄了少量中醫學方面的詞匯,但是由于缺乏中醫學知識,存在錯誤的釋義。中醫學研究的重點是語義概念、醫理治則等方面,不太關注文本形式,特別是文本的段落標記、標點符號等問題,其中有一些問題已然成為中醫文本的一種特色,例如中藥方中,多個組成成分之間沒有標點符號,而且已經成為中醫方劑資料的一種獨特篇章規范,如:

“夫大病之主,有中風,傷寒,寒熱,溫瘧,中惡,霍亂,大腹水腫,腸澼,下痢,大小便不通,賁豚,上氣,咳逆,嘔吐,黃疸,消渴,留飲,癖食,堅積,癥瘕,驚邪,癲癇,鬼疰,喉痹,齒痛,耳聾,目盲,金創,踒折,癰腫,惡瘡,痔,瘺,癭瘤,男子五勞七傷,虛乏羸瘦,女子帶下,崩中,血閉,陰蝕。”(《神農本草經·卷第一》)該句是一個典型的存現句,“有”之后的列舉項目雖然很多,但均是并列關系,標點符號應該使用頓號,而非逗號或者其他。在中醫學看來,這種標點瑕疵不是問題,但是對于計算機自動句法分析系統而言,標點符號卻是極其重要的參照點,用來區別句子、短語、并列關系等復雜句法語義關系。中醫文獻中的標點符號問題五花八門,如標點缺失、標點誤用、漢英標點混用等,如何處理文本中非規范性標點符號,需要在語料庫文件錄入之前,綜合語料庫的建設目的,預先設計出恰當的解決方案。

2 中醫專業術語的分詞與標注方法問題

漢語語言研究中關于詞與短語的界定標準及其語法地位問題一直存在爭議,素有字本位、詞本位、甚至短語本位之爭,為了解決這一問題,《暫擬漢語教學語法系統》[6]提出了“分詞單位”概念,即“漢語信息處理使用的具有確定語義或語法功能的基本單位”,可回避相關的爭論。但就中醫文本的專業術語界定,由于年代久遠,漢字表達的概念古今差異巨大,在今人眼中,古漢語的多字組合體是詞還是短語,已經不易判斷。認定一個字符串是詞還是短語,只能依賴理解者的古漢語素養,這使中醫術語的分詞工作帶上了強烈的主觀性色彩。

中醫文件的分詞工作只能分階段實施。首先解決中醫學的專業術語問題,需要中醫學專家的支持。中醫學高度關注的是概念問題,將很多短語認定為術語,同時又可能忽視介詞、連詞、副詞、語氣詞等語義較虛的詞,也可能混淆動詞和形容詞。因此,在解決了專業術語分詞問題之后,還需從語言學的角度對分詞結果進行第二次處理。總體上看,中醫專業術語分詞過程中經常引起爭論的問題主要有以下幾種類型:

第一,篇章名問題。有人認為,篇章名,特別是經典著作如《黃帝內經》《靈樞經》《神農本草經》等的篇章名稱是一個整體,跟書名一樣,不可分割;方劑名也是專業術語,不可分割。如此,《金匱要略》中的“四時加減柴胡飲子”就是一個詞,《難經》中的“八十一難”也是一個詞。不過現實應用中漢英翻譯、詞典編寫等方面,把篇章名稱作為術語的標準并沒有貫徹到底,而是選擇性的[7]。再者,如果堅守篇章名為中醫專業術語的標準,自然而然又會出現章節名是否為專業術語的問題。

第二,整體與局部問題。對于中醫學整體而言,有一些語匯只有在特定作品中其語義才是明確的;一旦離開特定作品或者特定篇章的大語境,其語義可能模糊不清。也就是說,語言形式相同但語義受制于具體語境。這方面,“數詞+X”模式構造的語匯最為典型,例如:

1)已上五失守者,天虛而人虛也,神游失守其位,即有五尸鬼干人,令人暴亡也,謂之曰尸厥。《素問·本病論》(使用頻率為5次,限于篇內)

2)經言七傳者死,間藏者生,何謂也?《難經·五十三難》(4次)

3)夫十二經脈者,皆絡三百六十五節,節有病必被經脈,經脈之病皆有虛實,何以合之?《素問·調經論》

4)凡此十二官者,不得相失也。《素問·靈蘭秘典論》(指五臟六腑)

在中醫經典著作五部范圍內,以上語匯所指是清楚的,被一致認定為專業術語。然而,“五邪”也被認為是一個術語。據統計,中醫經典著作五部中“五邪”總計出現了17次,是頻率較高的一個語匯,《難經》中分布 5次,《素問》3次,《靈樞》7次,其他兩部各1次。關于“五邪”的意思,《難經·四十九難》中定義為有中風,有傷暑,有飲食勞倦,有傷寒,有中濕,此之謂五邪。《素問·宣明五氣篇》解釋為春得秋脈,夏得冬脈,長夏得春脈,秋得夏脈,冬得長夏脈,名曰陰出之陽,病善怒不治,是謂五邪,皆同命,死不治。《靈樞·五邪》篇中專門討論五邪問題,但在《靈樞·刺節真邪》篇中又說:病有持癰者,有容大者,有狹小者,有熱者,有寒者,是謂五邪。由此可見,“五邪”的意思是隨語境而變化的,應該是一個短語,《本草經》中的“黃芝味甘,平。主心腹五邪,益脾氣。”和《金匱要略》“五邪中人,各有法度,風中于前,寒中于暮,濕傷于下”兩句中“五邪”的確切所指需依據語境而定。

第三,短語規則與語匯形式問題。很多四字語被中醫學界普遍認定為術語,其中有些規則涉及漢語的基本語法問題,我們暫且不論。這里我們重點討論“之”字結構規則,例如:

5)心者,君主之官也,神明出焉。肺者,相傅之官,治節出焉。肝者,將軍之官,謀慮出焉。《素問·靈蘭秘典論篇》

運用比喻修辭法把抽象復雜的理論精煉地淺化為通俗易懂的具體事物,導致語言形式凝聚成為一個難以分割的整體。類似的語匯還有很多,如“水谷之府,清凈之府,守邪之神,諸陽之會,五谷之府,中瀆之府,中精之府,傳道之府、太陽之人、五態之人”等。突破四字語結構的擴展性語匯如“手太陰之正、手陽明之脈、足陽明之脈、手太陽之脈、手厥陰心包絡之脈、手太陰之別”等,它們是詞或是短語,一時難有定論。

關于這些語匯是否成詞的問題,可以從不同角度加以考察。從詞典使用者角度看,“將軍之官”作為一個詞條,有助于理解“心”的理論,可以列為詞條。從信息抽取角度看,“足陽明之脈”與“足陽明胃脈”是同義關系,獲取的信息數量應該是2條,但2條信息將難以計入“足陽明”的檢索要求中,似乎應該把“足陽明”認定為詞。從計算機程序設計角度看,1條規則“X+之+Y”,加上幾種限制條件,就可抽取出眾多類似的語匯,無需列為詞條。

3 非專業術語分詞中的困難問題和文本標注方法問題

除專業術語之外,其他語匯是否成詞的界定標準應該按照語言學基本原則進行處理。遺憾的是由于缺乏客觀、操作性強的執行標準,我們只能綜合考慮各種要素,采用多個標準作為分詞的依據。

第一,語義分詞標準。指幾個構詞要素組成的語匯,一旦拆分就會喪失其作為整體所承載的概念意義。這條語義分詞標準需要語感、語文修養等主觀要素的參與,會引起不同程度的爭論,給人以“是、可能、應該、勉強、不會”是詞的感覺,例如:

1)脈瞥瞥如羹上肥者,陽氣微也。《傷寒論·辨脈法第一》

2)三八,腎氣平均,筋骨勁強,故真牙生而長極。《素問·上古天真論篇》

3)不更衣,內實,大便難者,此名陽明也。《傷寒論》

4)初服湯當更衣,不爾者盡飲之,若更衣者,勿服之。《傷寒論》

以上4句都是實義詞,“羹上肥、一夫之論”是否為詞,可能存在爭議。對于“更衣、不更衣”而言,由于現代漢語中有“更衣”的說法,為了消除誤解,把兩者均認定為詞似乎更妥當一些。不過反對者也有充足的理由認為“不更衣”是短語。

以下“可以、不可不、其中、之與、之于、以不”等語匯的語義較虛,可能會引發一些熱議:

1)故經言補者不可以為瀉,瀉者不可以為補,此之謂也。《難經》

2)瞳子高者,太陽不足,戴眼者,太陽已絕,此決死生之要,不可不察也。《素問·三部九候論篇》

3)同陰之脈,令人腰痛,痛如小錘居其中,怫然腫;刺同陰之脈,在外踝上絕骨之端,為三痏。《素問·刺腰痛篇》

4)形精之動,猶根本之與枝葉也,仰觀其象,雖遠可知也。《素問·五運行大論篇》

5)其下者,引而竭之;中滿者,瀉之于內。《素問·陰陽應象大論篇》20次

6)五藏各有聲、色、臭、味、液,可曉知以不?《難經》

第二,習慣用法標準。這是界定詞的另外一條重要標準,涉及使用頻率、古今概念繼承性、短語規則等幾個相互關聯的要素。例如“目瞑、汗出、腹滿、腹脹、支滿、稽首、生氣”等模式構成的詞,其使用頻率高低不等,詞的認定依據主要是現代漢語中是否繼續使用,或者歷時文件中是否延續使用。再如“溫服、不解、生死、死生、盛衰、衰盛、剛柔、羸瘦、拘急、不安、煩躁”等模式構成的詞也如此。個體語匯使用頻率低,但構詞方式顯著的四字結構如“虛者補之、堅者削之、客者除之、塞因塞用、陰平陽秘”等在語義聚類、規則約束、和諧韻律等語言深層機制的影響下,四個漢字被聚集在一起,形成了難分難舍的字組,已經很難說是詞還是短語。這些規則在缺乏形態變化的漢語語序中發揮了獨特作用,把眾多高頻多義的漢字以語義塊的形式從線性序列中分離出來,避免了很多歧義現象的發生。

中醫文本素以用詞精練夸張、誦讀朗朗上口而備受贊譽,這種文風可能跟古代傳授中醫知識、宣傳治療效果、塑造行業形象等目的有關。但在今人眼中,這些語匯就是領域內的習慣用語,他們要么表達了一種概念、要么描寫了一種癥狀、要么刻畫了一個過程或者事件,這種情結使得詞與短語的界定工作變得更加困難。

第三,多義字消解的成詞問題。這是從有利于自動句法分析角度提出的分詞標準,分離出來的詞多數僅用于機內詞典。一字多義現象在古漢語中遠比現代漢語中豐富多彩,不過在限定語序或者句法結構中,單個字的意思卻是清楚的,如下列句子中的“生、足、上、下”等字。這些字一旦脫離特定的句式結構,語義很難確定。為了消除多義字在自動語法分析時引發的困難,有必要把特定句法條件下的多義字按照詞級單位進行處理,如“心下、腹中、背俞”等,比如:

1)寅者,正月之生陽也,主左足之少陽;未者,六月,主右足之少陽。《靈樞·陰陽系日月》

2)太陰之為病,腹滿而吐,食不下,自利益甚,時腹自痛。若下之,必胸下結鞕。《傷寒論》

4 問題的解決方案

根據中醫古漢語文獻的中醫學特征,建設中醫文獻語料庫的目的有別于其他類型,要求語料庫不僅能夠服務于語言研究,還能夠服務于中醫學的字詞語義考證、術語標準化、信息抽取、中外語言翻譯等研究任務。為了實現建庫目的,必須充分考慮庫文件分詞、語法標注、自動處理工具設計、信息抽取方式等環節的協調與兼容問題,確保各個環節所需的標注符號完整統一、層次分明。文中重點討論了中醫文獻語料庫建設中常見的幾種困難問題,特別是分詞問題。從現有漢語語法研究的實際情況看,詞的認定標準短期內恐怕難有實質性突破。但是,高質量漢語語料庫建設離不開分詞環節,離不開自動處理和自動分析工具。對于自動語言處理系統而言,詞就如同全局變量,是一個覆蓋整個運算過程的值;短語則是局部變量,其作用域被嚴格限定在特定的函數內部,兩者截然不同。如何才能既滿足計算機程序設計的嚴格要求,又能夠兼顧主觀性濃烈的中醫術語分詞、乃至現代漢語分詞的結果,是一個緊迫又現實的難題。

根據以往研究經驗,要解決漢語分詞難題,最佳方案是句法理論層面上實現詞性與句法功能的對應關系;其次是在庫文件標注技術方面尋找突破口,把庫文件加工成為一個多層次的數據結構(不是簡單的一個詞對應多個標注符號)。具體地說,就是突破詞性標注這個單一參數,增加語法標注的層次參數,在低層面實現語義類型和語法類型相互銜接,以短語規則約束語義類型;在較高層面實現句法功能與短語規則的統一,用句法功能約束短語規則,最終達到句法分析、短語分析、雙語短語及對齊等語料庫建設目標。

猜你喜歡
語義
為什么字看久了就不認識了
語言與語義
“社會”一詞的語義流動與新陳代謝
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
“吃+NP”的語義生成機制研究
長江學術(2016年4期)2016-03-11 15:11:31
“V+了+NP1+NP2”中V的語義指向簡談
認知范疇模糊與語義模糊
“V+X+算+X”構式的語義功能及語義網絡——兼及與“V+X+是+X”構式的轉換
語言與翻譯(2014年2期)2014-07-12 15:49:25
“熊孩子”語義新探
語文知識(2014年2期)2014-02-28 21:59:18
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
主站蜘蛛池模板: 99热这里只有精品久久免费| 色悠久久综合| 亚洲欧美成人影院| 国产精品播放| 亚洲色图欧美视频| 亚洲色图狠狠干| 欧美综合一区二区三区| 色妞www精品视频一级下载| 久久久久国产精品免费免费不卡| 男女精品视频| 国产靠逼视频| 日韩av电影一区二区三区四区| 黑色丝袜高跟国产在线91| 亚洲视频免费播放| 国产1区2区在线观看| 欧美午夜视频在线| 四虎影视无码永久免费观看| 伊人查蕉在线观看国产精品| 中国特黄美女一级视频| 亚洲欧洲日本在线| 2048国产精品原创综合在线| 欧美三级自拍| 91久久偷偷做嫩草影院| 中文字幕欧美日韩高清| 综合社区亚洲熟妇p| 亚洲精选无码久久久| 91人人妻人人做人人爽男同| 日本人妻一区二区三区不卡影院| 毛片免费高清免费| 污网站免费在线观看| 国产91在线|日本| 五月婷婷综合色| 在线日韩一区二区| 成人av专区精品无码国产| 色婷婷在线影院| 精品福利视频网| 2022国产无码在线| 国产人成乱码视频免费观看| 免费国产无遮挡又黄又爽| 亚洲AV免费一区二区三区| 国产h视频免费观看| 日本免费精品| 欧美综合一区二区三区| 久久久久国产精品嫩草影院| 女人18毛片一级毛片在线 | 国产午夜精品鲁丝片| 亚洲午夜18| 亚洲天堂网2014| 亚洲美女操| 中国一级特黄视频| 久久亚洲高清国产| 亚洲人成网18禁| 99精品视频在线观看免费播放| 毛片久久网站小视频| 色播五月婷婷| 日韩成人高清无码| 亚洲Av激情网五月天| 狠狠色婷婷丁香综合久久韩国| 日韩欧美国产综合| 97久久人人超碰国产精品| 美女裸体18禁网站| 国产另类视频| 免费看a级毛片| 99热这里只有精品免费国产| 亚洲综合经典在线一区二区| 亚洲欧美日韩精品专区| 久久免费观看视频| 男女男精品视频| 人妻少妇乱子伦精品无码专区毛片| 1769国产精品视频免费观看| 91网址在线播放| 玖玖精品在线| 亚洲黄色激情网站| 精品一区二区三区自慰喷水| 久久大香伊蕉在人线观看热2| 欧美日韩免费观看| 国产成人亚洲无吗淙合青草| 国产尤物视频在线| 精品国产美女福到在线直播| 婷婷六月天激情| 少妇人妻无码首页| 成人亚洲国产|