999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

古籍數據庫化工作淺談

2012-04-18 02:11:54孫顯斌
圖書館理論與實踐 2012年8期
關鍵詞:語義數據庫文本

●孫顯斌,李 偉

(1.中國科學院 自然科學史研究所圖書館,北京 100190;2.國家圖書館 外文采編部,北京 100081)

古籍數字化是近年來的學術熱點之一,同時它逐漸發展成為古典研究的重要新方法之一。近代學者陳寅恪、傅斯年等早已指出學術研究的創新和進步不外乎新材料、新問題和新方法三個方面,因此古籍數字化作為新方法將為古典研究的發展開辟廣闊的空間。

1 古籍數字化的層次及“本體化”的必要性

古籍數字化可分為三個層次,即古籍圖像化、古籍全文化和古籍數據庫化。古籍圖像化是比較簡單的數字化手段,它的優缺點都很明顯,優點是使古籍材料能夠更方便的共享,并且在共享中能夠最大程度的保持文獻的原貌及非文字符號信息,但缺點是它和傳統紙質文獻相比,在研究手段上并沒有任何新意。古籍全文化則將研究手段向前推進了一步,它的優越之處在于可以進行全文檢索,這極大地方便了古典研究者??梢韵胂笤邶嫶蟮墓偶膸熘羞M行檢索,得到的結果是多么令人興奮:在沒有全文數據庫的情況下,這些工作往往需要成年累月的不斷查找、記錄和整理,費時費力,且還可能遺漏。絕大多數研究者對此已經心滿意足了,或者認為到此為止電腦已經完成了它的任務,所以大家的目標全都鎖定在得到新的古籍文本這種“新材料”上面?,F階段隨著漢字識別和縱向校對技術的成熟,[1]全文化的電子古籍已經可以像流水線一樣的生產了,差別只是數量、速度和質量的區別而已。全文化的古籍與圖像化的古籍相比也有它的缺點,就是不能保證古籍文本的絕對準確,但是其質量可以在使用中不斷的提高并趨于完善。

全文檢索雖然有其優勢,但缺點也很明顯,即檢索失誤是不可避免的,這是因為造成檢索失誤的原因是多方面的,其中文本質量只是一部份原因,還存在漢字的別體、語義的切分及別稱等問題,這些都會導致漏檢或多檢。[2]所謂的全文檢索,實際上只是在全文中對于某些目標文本進行檢索,檢索結果中的文本是否都指向同一個語義,亦或指向同一語義的文本是否都包含在檢索結果中,這兩個方面都得不到保證。舉一例,比如我們想從文本中檢索“李白”這個人物,古人一般稱他為“李太白”“太白”“青蓮居士”“詩仙”等等,我們當然不能保證僅用一個目標文本如“太白”進行檢索,其結果可以完全囊括文本中出現“李白”這個人物的地方。這其中一個重要的原因就是同語義的別稱問題,實際上我們也很難枚舉出可能表示人物“李白”的所有目標文本。另一方面,還有不同語義的同稱問題,比如“太白”,不只可以表示人物“李白”,常用的語義就還有太白金星和太白山。另外,還會有其他同名的人物,比如《資治通鑒》第一百零五卷就記載南北朝時期一個將軍名為“李白”。再者,古書上常有“桃紅李白”之語,這里“李白”是一個主謂短語,表示“李樹花白”的語義,以上這些情況都會對人物“李白”的檢索造成干擾。還有語義切分的問題,比如杜甫字“子美”,但在“此天子美諸侯之辭”的句子里,“子美”并不是一個詞。除此之外,導致多檢和漏檢的重要原因是漢字的別體,也就是古今字、通假字、異體字以及新舊字形等問題,這里只說一下并沒有引起足夠重視的新舊字形問題,比如“戶”在電腦中就有三個字形“戶戸戶”,電腦把它們當作三個不同的字,所以說全文檢索漏檢和多檢在所難免。

要解決以上問題最重要的方法是實現文本語義的“本體化”,通俗的說,“本體”就是一個語義所指,[3]在上面的例子中,詩人“李白”就是一個人物本體,“李太白”“青蓮居士”等等都是“李白”這個人物本體的別稱而已。中華書局有一套分史的《二十四史人名索引》,它把二十四史中出現人物的地方都做了標引,在常用名后面還附注了別名、字、號、謚號等,使所有人物出現的文本位置都列在該人物主條目下,這實際上就是簡單的人物“本體化”,對于查找某個人物在二十四史里的相關記載,其索引結果詳盡實用。而“本體化”要求我們推進古籍數據庫化。近年來古籍數字化的實踐主要集中在前兩個層次內,這實際上只是方便古籍材料的獲得和檢索而已,并沒有在古典研究的方法上有所突破。我們認為要加強古典研究,就必須將古籍數字化向古籍數據庫化的層次推進。

2 古籍數據庫化是實現“本體化”的現實技術方式

筆者有幸參加了北京大學數據分析研究中心的兩個古籍數據庫化的項目,分別是與國家圖書館合作的“中國歷代典籍總目系統”以及同中華書局合作的“《資治通鑒》分析系統”,在具體的工程實踐中積聚了一點粗淺的想法,在這里簡單的談一下,還請各界專家不吝賜教。上面提到的兩個系統正好分別代表了古籍數據庫化的兩大類型,其中“《資治通鑒》分析系統”屬于古籍文本型數據庫,它的基本數據為古籍文本內容,而“歷代典籍總目系統”則是古籍信息型數據庫,它的基本數據為描述古籍的信息。

首先繼續上面的話題具體談一下什么是“本體”,上文已經指出其實“本體”就是同一語義所指,實際上它是一種關系結構,在工程實踐中可以用數據庫的記錄結構來表示。為了說明方便,我們以《資治通鑒》為例,在對這一典籍的分析中,專名術語是我們關注的重點,因為它們構成了《資治通鑒》知識系統的主干。這些專名術語其實就是各種類型的本體,如人物、地理、時間、機構、民族、職官、名物等等,我們之所以這么劃分,是因為同一類型本體的屬性和關系結構是基本相同的。拿人物本體來說,它包括人名(姓名以及字號等別名)、籍貫、生卒年、職官履歷、社會關系等信息,這些都是一個人物本體的屬性,并且通過這些屬性它又同地理本體、時間本體、職官本體以及其他人物本體建立起關系,這就是我們所說的“本體”的屬性和關系結構。當然普通詞語也是一種詞語本體。

在數據庫系統中,本體可以用記錄表示,記錄與文本的不同在于它是一條結構化的數據,這一結構由若干屬性構成,并共同組成記錄的內容。比如對于古籍書目數據來說,它就可以有以下這樣一個記錄結構:

書名 規范名稱 版本類型 古籍分類 責任行為1 責任行為2 ……

為了說明問題,這里只是簡單列舉了部份屬性,可以看出這樣的結構是按照書目數據的特點制定的,這些屬性共同描述一條書目信息。但實際上這種記錄結構可能更復雜,比如這里的版本類型就還包括很多屬性,如版本時代、寫印類型、裝幀形式、行款等等,關于書目的責任行為也同樣復雜,包括責任者、責任行為,責任時間,責任地點等等,這里的責任行為可以是編撰、校注、刊印、題跋等等。

古籍數據庫化的前提是古籍文本化,在此基礎上才能建立起古籍數據庫。實際上,古籍數據庫化的過程就是將古籍文本信息語義結構化的過程,即古籍文本信息的“本體化”過程,這是古籍數據庫化的本質特征。從工程上講,古籍數據庫化的工作流程大致可分為三個階段,即文本的語義切分、文本的結構化以及文本的本體化。首先,我們要根據文本的特征通過具體的算法初步完成文本的語義切分,提取結構化的信息記錄,第二步通過縱向校對技術校正這些記錄,第三步完成具有相同語義的信息記錄及其屬性的認同,同時建立起它們的相互關系,也就完成了本體系統,最后還需要為各種本體編制知識辭典。

我們拿書目系統做例子,第一步就是將文本格式了的書目數據用電腦自動完成書目信息的語義切分,也就是把書目信息自動填到類似上文舉例的書目記錄的表格中,初步形成一條條結構化的書目記錄。接下來,通過縱向校對技術校正先前初步結構化的書目記錄。如何縱向校對,簡單的說就是將相同的屬性進行排列、規范,自然就可以發現其中的不規范和錯誤,適時的校正。比如把版本類型的數據提取出來排列,就會發現有“鉛印本”或“鉛字本”的著錄,如果我們確定用“鉛印本”為規范,并將其類型置于“印本”的類型下面,那么“鉛字本”可以統一規范為“鉛印本”。最后,還要將表示相同語義的書目記錄和屬性進行認同,比如人物認同,將“陶淵明”“陶潛”和“五柳居士”等都合并為同一個人物本體“陶淵明”,這樣我們進行檢索和分析涉及“陶淵明”時就可以得到全面的結果。書目記錄的認同也一樣,如劉熙《釋名》又稱《逸雅》,這樣就需要將實際上著錄同一種書的書目記錄關聯在一起,形成一個古籍品種本體,同樣古籍的版本、印次、復本都需要類似的認同合并,最終達到本體化的目標。

3 “本體化”古籍數據庫的優勢

一個完成“本體化”的古籍數據庫,我們就可以利用它進行準確的檢索和統計,并且還可以在此基礎上分析和揭示其內含的學術意義。對于一個書目系統來說,它可以為學者提供時空背景下的著作、出版情況,提供一種典籍的流傳線索等等。當然,對數據庫化的古籍如何進行深層次的分析和揭示還屬于理論上需要加強的領域。數據庫化的古籍除了檢索和統計準確方便以外,其自身結構方面也具有優勢,因為這時古籍不再只是一個平面的文本,而是一個立體的語義網絡,它把文本數據通過語義聯系組合成縱橫交錯的多維結構,我們可以從任何一個維度去觀察瀏覽。比如我們把《資治通鑒》數據庫化以后,我們不僅可以從時間的維度去看這段歷史,還可以從人物、地理、職官等維度去看這段歷史。對于書目系統來說,可以從書目、時間、地理、人物、版本類型、責任行為等多維度瀏覽,數據庫化的古籍就像一個萬花筒,為我們提供變換的角度和視野。實際上,每一種瀏覽維度都相當于紙質文獻的一種索引。另外,從古籍數據庫化的工程經驗上來看,通過電腦,我們可以達到人力無法企及的效率,這正是由于在工程中充分發揮了電腦的優勢。

古籍數據庫化是一項復雜的學術工作,需要人腦去參與,比如在語義切分階段,有些工作并不像看起來那么容易,例如《販書偶記》集部楚辭類有這樣一個條目“《屈子貫》五卷,嘉定張詩撰,受業楊夢熊、男吉同編,嘉慶戊午疁城萬春堂重刊。”這里的“男張吉同編”就有很多歧義,既可能是張詩之“男”,也可能是楊夢熊之“男”;名字既可能是“吉同”,又可能是男吉與楊夢熊“同”編,而《中國古籍善本書目》此書沒有著錄編者,查對原書確認是張詩之子張吉與楊夢熊同編。另外,在古籍本體化的過程中,由于類似數據聚集在一起,就會比較容易發現各種著錄的不一致和錯誤。例如《叢書綜錄》中有兩部叢書都包含了《平安館藏器目》《靈鶼閣叢書》,著錄為“葉志詵”撰,而《叢書集成初編》則著錄為“葉志銑”撰?!吨袊偶票緯俊分浻小叭~志詵”編《平安館金石文字》,并有大量典籍著錄“葉志詵”題跋,通過查詢其他資料可以確定“銑”是“詵”的形近誤字,但是《中國古籍善本書目》本身也有著錄不一致的地方,史部金石類(14655)《積古齊鐘鼎彝器款識十卷》著錄有“葉志銑”校,集部曲類(22304)《小忽雷傳奇二卷》也著錄有“葉志銑”跋,這兩處著錄就都應該是“葉志詵”。再如在對剛出版的《中國古籍總目·叢書部》進行數據庫化的過程中,我們發現有些叢書下面的藏地單位與書后所附《藏地單位簡稱表》不一致,如“叢10100217欽定古香齋袖珍”下列有藏地“甘大”,可以推知應為“甘肅大學圖書館”的簡稱,但查簡稱表應簡稱為“甘肅大學”。又“叢20300857翠微山房叢書”下列有藏地“金華”,查簡稱表只有“金華市太平天國侍王府紀念館”,其簡稱應為“金華侍王府”。又“叢10100176枕中秘”下列有藏地“白求恩醫大”,查簡稱表沒有,由于原白求恩醫科大學已經并入吉林大學,所以此處應為“吉林大學醫學部圖書館”,簡稱“吉大醫學部”。又“叢20100617古今說部叢書”下列有藏地“香港新亞”,簡稱表沒有,這里應該是“香港中文大學新亞書院錢穆圖書館”,簡稱表中有“香港中文大學圖書館”簡稱“香港中大”。這里舉例只想說明古籍數據庫化工作是有學術含量的,古籍數據庫在古籍文本信息的基礎上提供了更準確優質的數據信息。

當然,古籍數據庫化絕非完美,也難稱完善,何況其理論和實踐還都剛剛起步,需要探究的問題很多。從長遠來看,信息技術領域提出的語義網(Semantic Web)應該是古籍數字化的愿景,但要最終實現語義網的設想,還有很長的路要走。

[1]李云城,等.基于OCR的縱向文字校對的研究與實現[J].計算機應用研究,2006(4):234-236.

[2]李鐸.從檢索到分析[J].文學遺產,2009(1):135-137.

[3]仲茜,等.語義Web中的本體建立技術[N].計算機世界,2007-11-26(B10).

猜你喜歡
語義數據庫文本
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
數據庫
財經(2017年2期)2017-03-10 14:35:35
數據庫
財經(2016年15期)2016-06-03 07:38:02
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
認知范疇模糊與語義模糊
主站蜘蛛池模板: AV无码国产在线看岛国岛| 国产精品私拍99pans大尺度| 亚洲国产中文精品va在线播放| 中文字幕在线看| 无码中文字幕精品推荐| 青青青伊人色综合久久| 无码中文AⅤ在线观看| 啪啪永久免费av| 国产亚洲美日韩AV中文字幕无码成人| 免费人欧美成又黄又爽的视频| 婷婷亚洲综合五月天在线| 国产在线一二三区| 国产精品人成在线播放| 中文字幕自拍偷拍| 国产肉感大码AV无码| 亚洲黄色成人| 伊人久久久久久久久久| 国产香蕉一区二区在线网站| 精品自拍视频在线观看| aⅴ免费在线观看| 亚洲区一区| 国产精品亚洲精品爽爽| 亚洲精品成人片在线观看| 成人亚洲国产| 国产性猛交XXXX免费看| 激情综合网激情综合| 综合亚洲网| 在线观看精品自拍视频| 98超碰在线观看| 亚洲 欧美 偷自乱 图片| 2048国产精品原创综合在线| 国产av无码日韩av无码网站| 婷婷色一区二区三区| 精品国产毛片| 国产精品成人久久| 99精品热视频这里只有精品7| 青草视频在线观看国产| 亚洲va视频| 高清无码不卡视频| 日本道综合一本久久久88| 国产精品99久久久久久董美香| 亚洲国产精品无码AV| 国产精品思思热在线| 精品少妇人妻av无码久久| 99热这里只有精品免费| 国产小视频免费| 激情无码字幕综合| 无码乱人伦一区二区亚洲一| 久久频这里精品99香蕉久网址| 国产情侣一区二区三区| 日本在线视频免费| 国产精品开放后亚洲| 九色在线视频导航91| 国产精品30p| 国产成人乱码一区二区三区在线| 久久综合丝袜日本网| 精品三级网站| 中文字幕av无码不卡免费| 亚洲有无码中文网| 毛片一级在线| 国产亚洲精品97在线观看| 手机精品视频在线观看免费| 婷婷丁香在线观看| 国产丰满成熟女性性满足视频| 国产精品入口麻豆| 国产精品久久久久久久伊一| 久草视频精品| 国产成人无码Av在线播放无广告 | 香蕉eeww99国产在线观看| 再看日本中文字幕在线观看| 九九热这里只有国产精品| 日韩无码真实干出血视频| 色成人综合| 久久精品欧美一区二区| 亚洲色成人www在线观看| 亚洲视频欧美不卡| 成人va亚洲va欧美天堂| 激情无码字幕综合| 日韩在线中文| 免费无码一区二区| 少妇人妻无码首页| 亚洲男人的天堂久久香蕉网|