999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

中澳電子政務詞表主題詞基于范疇表的轉換嘗試

2010-07-12 08:08:52南京農業大學南京223800
圖書館理論與實踐 2010年5期
關鍵詞:詞匯

●鄭 義(南京農業大學,南京 223800)

隨著21世紀信息時代的來臨,政府辦公也逐步走向了信息化,最具代表性的就是電子政務的發展。我國政府在“十五”計劃中把電子政務建設作為今后一個時期我國信息化工作的重點,首要的工作就是建立一部比較完備的政務主題詞表,可以正確、規范地對政務系統中的各類文獻進行分類與管理,在政務系統中將反映文獻主題內容的自然語言轉換成規范化的主題詞和代碼。[1]

作為電子政務重要組成部分的政務詞表,各國均建有不同分類體系的政務詞表。與一些發達國家相比,我國電子政務的起步較晚、發展較慢。在學習、借鑒國外電子政務的先進經驗與技術的發展目標下,在我國現有的電子政務詞表分類體系與國外分類體系之間建立兼容互換關聯就顯得尤為重要。并在此基礎上,可以使不同國家的用戶在不熟悉其他國家政務詞表分類體系和主題詞表的情況下,或者在分類法和主題法不兼容的情況下,用本國的語言和熟悉的政務分類法檢索、使用外國的政務網站,享受跨國服務或者實現國家間政務交流。

1 詞表互操作研究進展

詞表互操作是實現詞表之間匹配轉換的有效方法,所謂互操作,是指不同系統相互調用的功能。具體來說,情報檢索語言的互操作是指不同詞表、類表之間可以實現兼容與互換,即用某種詞表的詞匯及其構造的檢索式(或標引記錄),可以直接適用于或通過交換適用于多個情報檢索系統。關于主題語言互操作研究,劉華梅對國外與國內的研究成果進行了總結。[2]

國外這方面的研究成果主要有以下4個:

(1) LCSH/MeSH。實施 LCSH(Library of Congress Subject Headings,美國國會圖書館標題表) 與MeSH(MedicalsubjectHeadings,醫學主題詞表)項目的目的是通過整合這兩個受控主題詞表,以解決圖書館的在線編目中因采用不同受控詞表而產生的不兼容性。它是以MARC21權威記錄格式來實現的,150字段用來存放源記錄中的標題詞,增加了750或788字段,用來存放鏈接款目,即目標記錄中的映射標題詞。

(2) CAMed。CAMed(Complementary and Alternative Medicine)是一個國際合作項目,是對醫學資源的補充和選擇。它包括一個集合詞表管理系統和跨詞表檢索系統。在這個模型中,醫學領域的4種敘詞表經過規范化存儲在一個詞表知識庫中。系統的跨詞表檢索機制允許用戶輸入一個檢索詞,可以同時檢索到這個知識庫中的所有或任何一個詞表,以此實現語詞檢索在知識庫的4個詞表中的直接檢索。

(3) MACS。MACS(Multilingual Access toSubject)項目由法國、德國、英國、瑞士的國家圖書館共同完成,其目的是將德語、法語、英語3個主題標題表中概念相等的標題詞之間建立相等關系的鏈接,并把這種鏈接關系存儲到鏈接數據庫中,使檢索用戶可以采用自己熟悉的語言檢索利用4國主題標題表所生成的書目數據,實現圖書資源的共享。

(4) HEREIN。HEREIN(The European Information NetworkonCulturalHeritagePolicies) 項目是從歐洲關于文化遺產政策的報告中抽詞,創建的一部國際語言的敘詞表。詞表的創建沒有直接參照任何已經存在的詞表語詞或詞表結構。首先是分成3個小組——西班牙、法國、英國,分別負責建立它們自己語言的敘詞表。然后通過比較3個小組的語詞,確定語詞間關系,從而建立3種語言的敘詞表。詞表可以使用戶更好地了解文化遺產領域的術語,有助于用戶閱讀專業報告及進行相關擴展檢索。

有關國內的詞表互操作研究以及國內與國外的詞表兼容互操作研究,曾有學者提出了大詞表方案和詞庫方案,具體的成果很少,但許多學者進行了試驗。

2 詞表轉換方法的確定

劉華梅在她的碩士論文中提出用兩種方法實現《教育主題詞表》《社會科學檢索詞表》到《中國分類主題詞表》的互操作,完成教育集成詞庫的建設。第一種是基于詞表結構的自動匹配,第二種是基于字面相似度計算并輔助以同義詞表的語詞匹配。

第一種方法是借助詞表之間結構的兼容性,利用3個表中都有的“用、代、屬、分、參”等款目參照關系,按參照關系的匹配程度建立前兩種表與《中國分類主題詞表》的聯系。也就是說,這種方法對詞表的結構有一定要求,結構越相似,詞匯相容性越高,互操作越容易。本實驗是對兩個范疇表進行轉換,詞之間并無參照關系,類目數量、收詞數量、分類體系等也都有很大差別。很顯然,這種方法并不適合本實驗。

第二種方法是對主題詞進行操作,將不同詞表中的同義詞進行匹配,在計算相似度后,引入同義詞表;對沒有字面相似性的同義詞進行匹配,以提高準確度。這種方法對詞表的結構要求不高,主要是對主題詞進行相似度計算。計算相似度以機器操作為主,手工操作為輔。

自然語言與主題語言進行的互操作,采用的是與以上相類似的方法:一是基于詞匯同現信息進行相似度計算;二是計算語詞之間的相似度。詞匯同現方法能夠使用的前提假設是同義詞或相關詞經常一起出現,這種方法需要建立好關鍵詞與主題詞的對應關系,而且需要有大量的詞匯對應數據。條件所限,本實驗沒有現成的詞匯對應數據,因此僅采用語詞相似度匹配計算的方法。

以上幾種方法具體應用到本實驗,擬以范疇表之間的互操作的方式進行。范疇表結構簡單,語詞之間沒有列出參照關系,處理起來簡便快捷。此外,全表匹配轉換,計算量大,而且會出現錯誤匹配。因此,本實驗采用細分到一級類之間的對應,1個《澳大利亞政務主題詞表》(ThesaurusofAustralianGovemmentSubjects,簡稱《澳表》) 一級類對應1到2個《綜合電子政務主題詞表》(簡稱《中表》) 一級類,或者1個《中表》一級類對應1到2個《澳表》一級類,這個步驟由人工判斷決定。對應好之后再對這些類中的語詞進行相似性匹配。這樣,不僅省去了不必要的計算,而且提高了匹配正確率。

實現不同語種詞匯的互操作,必須將詞匯統一成一種語言,這就要用到翻譯,本實驗擬將外文詞匯翻譯成中文。[3]鑒于將國外的電子政務詞表的語詞翻譯成中文,在保證詞義不變的前提下,就很難保證語詞形式還像中文電子政務詞表主題詞那樣規范。所以,對中外政務詞表的主題詞進行匹配轉換要采用主題語言之間互操作與自然語言與主題語言互操作相結合的方式。在技術上采用計算字面相似度匹配的方式并輔助以同義詞表匹配。字面相似度的計算方法是兩個詞相同字的個數分別除以兩個詞所含字的個數,所得結果相加再除以2即為這兩個詞的字面相似度值。用公式表示為“字面相似度=[(A詞與B詞相同詞素的個數/A詞所含詞素個數)+(A詞與B詞相同詞素的個數/B詞所含詞素個數)]/2”。對于無字面相似性的同義詞及其他特殊詞匯采用手工判斷對應的方式。

3 詞表轉換過程

筆者從英國、加拿大、澳大利亞、新西蘭4國政府網站上搜集了各自的政務主題詞表,這幾個國家也都是電子政務發展較早也較好的國家,它們的政務詞表比較有代表性。[4]由于以前都是英聯邦國家,各國詞表具有相似性,遂選取收詞量適中的《澳表》進行轉換試驗。

本次試驗的素材有《中表》和《澳表》。《中表》作為2004年度國家科技基礎性工作和社會公益研究專項“《電子政務主題詞表》編制及應用系統”開發研究中的主要部分,于2005年1月編制完成。這是我國第一部按國家標準編制的綜合性電子政務主題詞表,主要供國家政府部門處理政務信息時使用。它的問世,對我國政務信息管理的規范化與標準化,對我國電子政務信息資源的共建共享起到了積極的支撐與推進作用。[5]《中表》劃分為21個大類,收錄主題詞17421條。《澳表》也稱TAGS,是由該國國家信息辦公室發起組織的,這一項目被稱為整個澳大利亞政府高度概括的主題詞表工程。其目的是建一個頂層的主題詞表供政府機構使用。《澳表》編輯于2001年,2006年發布了新版,即為本實驗的《澳表》。《澳表》劃分為17個大類,收錄主題詞1786條。兩表的類目構成如表1所示。

表1 《澳表》與《中表》一級類目構成

具體轉換過程按照如下的步驟進行:

(1) 詞表翻譯。將《澳表》按主題類目顯示的主題詞使用“靈格斯”翻譯軟件按字面涵義翻譯成中文。如有一詞多義現象,寫上全部涵義。將形容詞、副詞等盡量名詞化,以便與中表的名詞相對應。

(2) 一級類對應。《澳表》共17個大類1786個主題詞,《中表》共21個大類,17421個主題詞。兩表主題詞涵蓋面基本相同,但《中表》詞表更具有深度,也更詳細,因此采用《澳表》向《中表》映射和《中表》向《澳表》映射兩種方式對比映射結果。同時為了減少計算量,不采用全表映射匹配,在映射時細分到一級類目上。采用《澳表》類目對應1到2個相關的《中表》類目,如“BIBusinessand Industry(商業和工業)”對應“09商業、貿易,04工業、交通”,“DEDefenceand NationalSecurity(國防和國家安全)”對應“16軍事、國防”,“EF Economics and Finance(經濟和財政)”對應“08財政、金融,09商業、貿易”。反之,《中表》向《澳表》映射方法類似。取以上幾類語詞進行試驗,推此及彼,借以說明情況。

(3) 部分試驗,檢驗結果。以農業類為例,《澳表》“AGAgriculture”60個主題詞對應《中表》“07農林、水利”1356個主題詞,將以上兩組詞輸入Access中,分別形成兩張表單sheet1與sheet2;使用VisualC編寫程序對Access數據庫進行操作,將sheet1中的每一個詞分別與sheet2中的每一個詞進行相似度比較,返回相似度最大的3個詞與sheet1中的詞對應,返回結果在記事本上,如表2。

表2 《澳表》語詞向《中表》語詞的匹配結果

反之,將sheet2中的每一個詞分別與sheet1中的每一個詞進行相似度比較,返回相似度最大的3個詞與sheet2中的詞對應,為《中表》向《澳表》的匹配結果,如表3。

表3 《中表》語詞向《澳表》語詞的匹配結果

(4)經機器匹配結束后,剩下的不能匹配的詞語按照以下順序進行人工匹配:

①跨類匹配。有些詞語兩表所共有,但分屬不相關的類,如:“Agricultural insurance”(農業保險),《澳表》分在“AGAgriculture”類,《中表》分在“08財政、金融”類。

②近似轉換。人工判斷其同義詞或近義詞。如:“態度”“合并”“競爭”等一些中性詞語。大多在“21綜合用語”中查找,因為在一級類目劃分上,《澳表》不設綜合政務類。

③取其上位類詞語匹配。

④組配匹配。這種語詞數量很少,如:“Marine biology”(海洋生物學)對應“海洋”+“生物學”。

4 詞表轉換結果的測試

在經過了以上幾步的匹配后,按照完全匹配、相關匹配、上位類匹配、下位類匹配、不匹配幾種情況統計匹配結果。[6,7]完全匹配是指對應的語詞完全相同或意思相近。相關匹配是指對應的語詞存在相關關系。上位類匹配是指語詞與目標語詞在詞間關系上屬于其下位類。下位類匹配與上位類匹配意思相反,即語詞與目標語詞在詞間關系上屬于其上位類。不匹配指目標語詞不存在以上幾種匹配關系的語詞與之對應。

表4 《澳表》語詞向《中表》語詞的匹配

5 結語

如果將完全匹配、相關匹配、上位類匹配和下位類匹配算作匹配成功的話,《澳表》向《中表》匹配成功率及中表向《澳表》匹配成功率如下表。

表5 《中表》語詞向《澳表》語詞的匹配

表6 《澳表》向《中表》匹配成功率

表7 《中表》向《澳表》匹配成功率

《澳表》向《中表》匹配平均成功率78.192%;《中表》向《澳表》匹配平均成功率58.592%。前者較高,主要是因為《澳表》詞匯數量少。總體來說《澳表》與《中表》詞匯相似程度還是比較高的。由此,也可推知其他國家政務詞表與中國政務詞表的匹配也能夠達到這個結果。

由于時間倉促,水平有限,本項目還有許多不足和需要改進的地方。在生成的Access表單中,可增加一個接口,將語詞用翻譯軟件翻譯后,自動與《中表》中的詞匹配,提高自動化程度,可大大增加轉換的效率。另外,本實驗只挑選了幾個類進行試驗,全表匹配尚存在一定難度。這些在理論上是可以實現的,但由于技術所限沒有做成。

(本項目得到了南京農業大學教授侯漢清老師的指導,在此表示感謝。)

[1]田景熙,洪琢.電子政務系統規劃與設計[M].北京:人民郵電出版社,2005.

[2]劉華梅.基于情報檢索語言互操作技術的集成詞庫構建研究——以教育詞庫為例[D].南京:南京農業大學,2006.

[3]陳志新.中美兩國主題詞表對應轉換的分析[J].情報檢索,2003,22 (9):28-29.

[4]倪靜,等.國外電子政務主題詞表編制及網絡應用的比較分析[J].情報學報,2003,22(5):565-571.

[5]《電子政務主題詞表》編制與應用系統課題組.綜合電子政務主題詞表(范疇表)[Z].北京:科學技術文獻出版社,2005.

[6]鄭貴宇.我國檢索語言國際兼容初探[J].情報學報,2001,20(4):478-482.

[7]李晴霞.我國電子政務目前存在的問題[J].現代商業,2007(04X):26-27.

猜你喜歡
詞匯
2021年本刊一些常用詞匯可直接用縮寫(二)
2021年本刊一些常用詞匯可直接用縮寫(一)
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2020年34期)2020-12-09 01:22:24
本刊可直接用縮寫的常用詞匯
一些常用詞匯可直接用縮寫
山東醫藥(2017年35期)2017-10-10 02:45:28
一些常用詞匯可直接用縮寫
山東醫藥(2017年33期)2017-10-09 12:31:41
詞匯小達人
一些常用詞匯可直接用縮寫
山東醫藥(2014年48期)2014-12-02 04:34:34
一些常用詞匯可直接用縮寫
山東醫藥(2014年34期)2014-12-02 04:33:52
主站蜘蛛池模板: 免费国产小视频在线观看| 免费毛片a| 污网站在线观看视频| 在线观看欧美精品二区| 99久久精品国产精品亚洲| 国产精品永久不卡免费视频| 国产福利小视频高清在线观看| 成人精品视频一区二区在线| 97人妻精品专区久久久久| 成人精品亚洲| 茄子视频毛片免费观看| 99视频精品全国免费品| 国产精品无码AV片在线观看播放| 91国语视频| 在线观看无码av五月花| 国产精品网址在线观看你懂的| 国产高潮流白浆视频| 国产91精品久久| 丁香五月亚洲综合在线| 欧美在线视频a| 精品国产成人av免费| 亚洲系列中文字幕一区二区| 国产高清在线丝袜精品一区| 精品少妇人妻无码久久| 亚洲欧美人成电影在线观看| 精品三级在线| 国产精品天干天干在线观看| 激情乱人伦| 伊人丁香五月天久久综合| 欧美一级高清免费a| 亚洲 欧美 中文 AⅤ在线视频| 国产SUV精品一区二区| 亚洲黄色片免费看| 免费看美女毛片| 无码精品国产dvd在线观看9久 | 在线观看亚洲成人| 日本不卡在线视频| 国产精品永久不卡免费视频| 亚洲国产理论片在线播放| 免费播放毛片| 一区二区三区四区精品视频| 国产精品大尺度尺度视频| 亚洲人成影视在线观看| 国产99久久亚洲综合精品西瓜tv| 中文字幕第4页| 亚洲av无码人妻| 一级福利视频| 国产精品手机在线播放| 88av在线| 国产日韩欧美在线视频免费观看| 亚洲国产中文在线二区三区免| 国产成人啪视频一区二区三区| 亚洲欧美自拍中文| 91啪在线| 亚洲永久视频| 国产精品开放后亚洲| 色婷婷丁香| 性视频一区| 日韩国产 在线| 国产色爱av资源综合区| 国产激情无码一区二区免费| 69av免费视频| 欧美人与动牲交a欧美精品| 成人久久精品一区二区三区| 久久人午夜亚洲精品无码区| 无码AV高清毛片中国一级毛片| 伊人久久婷婷五月综合97色| 人妻丰满熟妇αv无码| 亚洲精品免费网站| 亚洲第一黄片大全| 欧美三级自拍| 亚洲全网成人资源在线观看| 久久精品人人做人人| 国产精品视屏| 久久国产精品77777| 国产香蕉97碰碰视频VA碰碰看| 伊人欧美在线| 怡红院美国分院一区二区| 成人综合在线观看| 欧美高清国产| 国产高清在线丝袜精品一区| 91在线无码精品秘九色APP|