999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于本體的民國文學專題數據庫知識組織研究*

2019-06-05 03:25:46沈立力朱蓓琳
圖書館學刊 2019年3期
關鍵詞:概念

沈立力 朱蓓琳 姜 鵬 王 靜

(上海圖書館,上海 200031)

隨著信息技術的進一步發展,傳統的圖書館文獻組織和服務形式無法解決讀者在獲取知識時的“信息過載”“信息迷航”等問題,也達不到智能化、立體化、個性化的知識服務要求。要解決這些問題,必須在傳統文獻組織方法(分類法、主題法等)的基礎上,運用新的知識組織和知識挖掘方法(本體、關聯數據等),探索由二維線性描述方式向多維描述方式轉化的知識組織新模式,形成領域內具有邏輯關系的結構化知識網絡。

經過前期調研,目前基于本體的知識組織形式被廣泛應用于醫學、農學等領域。然而,目前本體在文史領域,尤其是針對民國文學領域的應用還處于起步階段,且民國文學期刊資源市場需求較大,而提供的深層次知識服務卻較少。以此為契機,上海圖書館全國報刊索引與芝加哥大學開展了民國文學期刊OCR 項目的合作,目的是通過本體、關聯數據等多種研究手段,與傳統文學歷史及文學評論相結合,建立文學作品、人物、期刊、歷史事件等不同實體之間的關系,并以可視化的方式展現,優化現有檢索結果,實現知識服務的升級,為用戶提供更好的知識服務體驗,也為將來的資源共建與共享打下基礎。

1 本體及民國文學知識組織現狀

1.1 本體構建方法及現狀

本體的概念最早出現于哲學領域,而Studer 等學者在上世紀90年代對本體進行大量深入研究后對本體進行了更明確的設定,即“共享概念模型的明確的形式化規范說明”[1]。本體是通過定義類、屬性、關系等元素對某一特定領域知識進行層次關系的描述、歸納和抽象化[2]。同時,本體又給數據本身賦予了語義,使機器能夠處理數據間的關系[3]。

國內外對于本體的構建方法已經有了一些研究,據岳麗欣[2]歸納,國內外較為成熟的本體構建方法包括:IDEF5法、骨架法、Methontology 法、七步法、循環獲取法、基于敘詞表構建本體法等。筆者選擇斯坦福大學醫學院提出的七步法,結合項目本身的特點,使用Protégé 本體編輯工具,根據已有元數據標準建設民國文學知識體系,設計一個向下兼容、易于擴展、多維描述,支持民國文學期刊數據重組和揭示的民國文學本體。

1.2 文史領域本體建設的國內研究現狀

近年來,全國各大圖書館、高校及數字出版公司都積極致力于開發深層次的知識組織與知識挖掘方式,更好地揭示館藏文獻資源,并就本體在文史領域的應用進行了研究,在歷史領域本體構建、人物關系本體研究、特殊文獻體裁本體構建等方面進行了諸多實踐。中國社會科學院哲學社會科學創新工程信息化項目“中華人民共和國史教育網”中成功構建了中華人民共和國國史本體,該國史本體描述了1977—1981年這一歷史時期關于中華人民共和國的概念、術語、關系等,構建包括時間、人物、事件等8 個大類的本體,并為基于本體的國史知識檢索平臺構建打下基礎[4]。廖作芳[5]以《三國志》為文本,利用七步法構建基于人物、時間、地點、事件、職官為五大核心概念的歷史領域本體,并運用SWRL 規則對《三國志》本體蘊含知識做了發現推理,突出了本體在歷史領域的應用。汪沛[6]則引入知識元及語義網的相關概念與理論,采用自動抽取的方法對《三國志》中的特征詞進行抽取,并作為實例添加到本體中,進行了基于本體的歷史領域知識元構建。夏翠娟等[3]則針對上海圖書館館藏家譜,進行基于書目框架模型的家譜本體構建,并論述了相關的應用場景,既揭示了家譜資源的特殊文獻特征和內容屬性,又揭示了其內容之間的語義關聯。

1 民國文學專題數據庫本體模型構建原則和難點

1.1 民國文學本體構建原則

在比較同類型文史領域構建經驗的基礎上總結了以下兩點民國文學本體構建原則。

一是夯實數據來源,覆蓋各類文學期刊。中國現代文學發端于“五四運動”,它與當時的政治、經濟都有密切的關系,更是社會意識形態和整個文化的重要組成部分,是研究近代歷史不可或缺的一部分。據鄧集田[7]統計,從中國第一種文學期刊《瀛寰瑣紀》起到1949年間共出版傳播文學期刊4200 余種。這里所說的文學期刊包括兩類:一是以純文學內容為主的期刊,主要內容涵蓋詩歌、小說、散文等,如《人世間》《小說月報》等;另一種則是含有較多文學內容的期刊,但也包括時政、教育等內容,如《太平洋(北平)》《文藝月刊》等。另外,在項目前期對復旦大學文史專家進行調研的過程中發現,除了專門的文學性刊物外,還需關注刊登文學作品的綜合性刊物、革命性期刊、學術刊物、女性刊物及報紙副刊等,如《東方雜志》《女學報》等。

二是重視客觀內容的知識挖掘,謹慎處理主觀內容的揭示。民國文學本體的構建旨在利用技術手段對已有數字資源進行挖掘、重組、研究,而不是深入某一細分領域代替歷史人文研究者進行具體的研究工作[8]。在專家調研時,文史專家也提到目前學界的研究方式大多以問題為導向,因此更關注客觀著錄項的詳盡度和準確度。在此基礎上,民國文學本體的構建將重視對作者、時間等客觀元素的知識挖掘,而對歷史事件、文學社團等相對主觀元素的揭示將更為謹慎。同時,對于文學派別、地域文學研究等學界還未有綜合性研究成果的內容暫不予以揭示,留待之后擴展。

1.2 民國文學本體模型構建難點

綜合前期調研和實際構建中遇到的問題,民國文學本體的構建存在以下難點:

一是已有人文歷史領域的本體構建更注重理論模型的研究,而真正運用到實際中的本體并不多。依據調研只有家譜、國史、東北抗戰史本體等。其他例如三國志等的本體構建與研究只是處于實驗室階段。而在民國文學領域的本體研究與構建更是處于空白,沒有直接可復用的本體模型。

二是數據來源不充分。目前已經完成OCR 加工的晚清民國期刊約為300 余種,而全國報刊索引晚清民國期刊全文數據庫總共約有兩萬余種期刊,其中涉及文學內容的約為2000余種,已經進行OCR加工的文學期刊占到所有文學類期刊的15%。文獻未進行OCR 加工意味著在構建過程中不能對全文文獻進行深層次的挖掘、提取,存在一定缺陷。

三是依據已有的本體構建方法,對民國文學資源的本體構建不能實現自動構建或半自動構建,構建過程人工花費較大。究其原因首先是在人文歷史尤其是民國文學領域,并未發現敘詞表、數據庫資源、或是在線本體庫等可以進復用的半自動構建資源。其次,民國期刊文獻中沒有明確的上下位關系,因此關系的建立需要純人工完成,同時對人物描述、地點演變等也需逐條進行人工判斷。

四是缺乏統一的本體評價機制。本體構建的主觀性較強,對于已經構建完成的本體體系成果缺乏成熟的評價標準,不利于對本體進行修正與優化。

2 民國文學本體的分析與設計

2.1 民國文學本體模型構建思路

在前期調研的基礎上,選擇七步法為基本構建方法,結合民國文學這一特殊學科領域,同時考慮本項目的實際可操作性,提出民國文學本體構建流程。如圖1所示。

圖1 本體構建流程

首先,確定民國文學本體的領域和范疇。其次調研復用現有本體的可能性,經過前期調研,發現學界已成型且可被使用的文史領域本體系統較少,且未發現涉及民國文學的本體,不具備直接復用現有本體的可能性。因此,民國文學本體將在借鑒“家譜本體”“三國志本體”的基礎上進行構建。

接下來是本體庫的設計,它是本體構建的關鍵。主要分為以下3 個步驟。首先,確定民國文學本體的核心概念,即以《中國圖書館分類法(第五版)》中“I2 中國文學”類目,中國新文學大系等作為基礎,并汲取其中相關主題詞、關鍵詞作為主要概念來源,并將已經OCR完成的300余種65萬版30萬篇民國文學類期刊作為主要數據來源,在領域專家的幫助下確定其核心概念。接著,建立類與類之間的層次結構,即在確定核心概念后,依據自上而下的順序對核心概念進行擴展,并對所有概念進行體系建立。最后,確定民國文學本體的屬性,包括數值屬性和對象屬性。并依據需求進一步定義屬性的分面,如屬性的定義域、值域等。

之后,利用 protégé 軟件對本體進行編碼和構建。添加相應實例,以便于機器的讀取和存儲。最后,使用自帶推理機為民國文學本體制定推理規則,驗證邏輯關系是否正確并進行優化。

2.2 近代期刊民國文學專題數據庫的元數據解析

館藏近代文學期刊的全文OCR 加工為民國文學本體建設奠定了基礎。規范化、結構化的元數據是文獻資源數字化的成果,OCR 加工更是將這些成果進一步變為知識挖掘、知識組織、知識服務的寶貴素材。本體是元數據方案立體化的過程[9],是將平面的元數據方案通過類(Class)的確定,類與類之間層級關系的確定,屬性(Property)等的明確過程最終建立立體的本體模型。對民國文學期刊元數據解析為民國文學本體建設打下基礎。

《全國近代中文期刊全文數據庫-文學專題》在民國全文數據庫基礎上進行加工著錄,采用XML數據格式,分為圖片、廣告、正文3種資源類型,共用一套元數據元素著錄,而每種資源本身又有特殊的元數據元素和著錄規范細則。數據分為期刊、篇名兩層數據結構,可對已經著錄的刊名、出版社、出版時間等字段進行檢索、并在數據庫平臺上對文獻來源、作者、出版時間字段進行聚類。這種以文獻本身為組織對象的信息組織方式無法完全滿足用戶的需求,主要問題是缺乏對人名、地名等字段的規范控制,影響用戶的查全率和查準率[3],其次不能有效地提供相關事件、文獻等的推薦功能。而民國文學本體的建立正是為了將內容和文獻本身同時作為知識組織的對象,更好地為用戶服務。

本體的構建應該盡可能多地復用已有本體的類和屬性,而當已有本體的類和屬性不能完全描述待建本體中的關系時,需自定義新的類及屬性。對于民國文學本體而言,雖然沒有可完全復用的成熟本體,但其本體建設應建立在民國期刊元數據方案之上。近代期刊元數據對期刊以及文獻的揭示較為全面,對于題名項、責任者項、出版社項、出版年份項等文獻特征描述完整、定義清晰,可直接在本體構建中復用,有足夠的類和屬性與之對應。而已有元數據方案不能對一些特殊屬性、關系進行描述,如人物籍貫、民族等的屬性描述,人物與事件、人物與人物等類與類之間關系的描述等。因此,在本體建立時需要對事件、地點、人物、機構組織這4 個新的類進行定義,并描述新的定義。而對文獻、期刊這兩個類中某些新的屬性,如文學體裁等進行補充定義,在繼承已有元數據方案的基礎上,保證新增類和屬性與原有數據的兼容性。

2.3 民國文學本體模型構建

《全國近代中文期刊全文數據庫-文學專題》是全國報刊索引開發的研究晚清民國時期文學發展歷史的專題數據庫。時間跨度為民國起始(1911年)到1949年為止,其中涉及少量晚清數據內容(1833-1911年)。以下對構建過程中最主要的3 個部分進行論述。

2.3.1 確定核心概念集及層次結構

基于本體的知識組織體系構建中,核心概念集的確定是最重要也是最基礎的問題。核心概念集的確定要遵照3 個基本要求,即遵照核心概念即頂級概念無二義性、概念與概念之間互不相交、核心概念覆蓋全領域[5]。具體方法是:以已有近代期刊元數據方案為基礎,將文獻中其他字段提取并歸類,確定人物(Figure)、文獻(Document)、期刊(Journal)、事件(Event)、地 點(Place)、機 構組 織(Organization Administrator)這6個核心概念。其中新增4個概念:人物一般指文獻的責任者,同時又有可能是期刊的主編,或是歷史事件中涉及的具有代表性的人物,但不涉及文學作品中創作的人物。事件主要指的是民國文學期刊中所記載的歷史事件或機構組織變遷等期刊所涉及的事件本身,大多以政治、文化事件為主。此外,將機構組織單獨作為一個核心概念。這里的機構組織是指出版機構、文學社團等在民國文學發展史上起到一定推動作用,有一定歷史地位的政府、民間或個人組織。機構組織是非常重要的資源,將其單獨設類有助于將關于某一機構組織的信息,如機構負責人、機構地點、主要負責人等信息結構化、規范化揭示。最后,對于地點這個類的處理將參考上海圖書館人名規范檔中的地理信息進行規范。

而對于元數據方案中已有的期刊、文獻兩個核心概念的處理,則盡量復用原有元數據。其中將文獻這個核心概念依據體裁分為正文、圖片、廣告3個二級類(見圖2)。

圖2 概念層次結構

2.3.2 定義屬性、屬性的分面、定義域和值域

在確定了核心概念集與層級結構之后,需要為每個核心概念級類(Class)定義屬性,通過屬性進行概念的描述以及建立不同概念之間的聯系。屬性可以分為數據屬性(Datatype Property)以及對象屬性(Object Property)兩種。數據屬性用于描述概念本身的特性,對于人物這個類可定義性別、籍貫、民族等為數據屬性。其次,民國文學領域所涉及事件的描述由人、地、時三要素組成,事件這個類的對象屬性可定義為事件開始時間、事件結束時間、事件結果等。另外,為機構組織定義機構名稱、存在時間等數據屬性。最后,文獻、期刊這兩個類的數據屬性基本復用了原有的元數據,并為正文、廣告、圖片都定義了不同的數據屬性,如欄目、責任者等,并新增文學體裁這個數據屬性。對象屬性用于描述概念之間的關系。例如人物與文獻之間的寫作關系,或人物與機構之間的任職關系等為對象屬性。

在確定了數據屬性和對象屬性后依據需求為部分屬性添加定義域和值域。例如人物的妻子屬性的值域是人物這個類本身,而人物的對象屬性參與的值域是事件。表1列出了部分類的部分對象屬性和數據屬性。

2.3.3 添加實例

實例添加是整個本體建設中最為耗時耗力的部分。雖然學界致力于研究本體的自動或半自動構建,但由于中文文本處理的局限性和不成熟性,自動或半自動處理的本體需要大量的人工干預,因此在嘗試后仍然采用人工添加實例的方法。此外,人工建設本體還可在實例添加的過程中對類和屬性作適當調整。在實例添加過程中有以下兩點需要注意:

一是在實例添加的過程中對于人物的數據屬性異名的規范性描述,即分辨該人物在不同時期的筆名、字、號等,在此次實例添加中,該屬性的規范參考了上海圖書館人名規范庫以及《中國近現代人物名號大辭典》。

二是對于相同事件名稱、組織機構名稱規范性的問題。目前,學界并沒有成文的對于民國文學領域事件和機構組織的規范檔可做參考,因此在實例添加的過程中秉持相同事件、相同組織機構采用統一名稱,避免后期引起歧義。

表1 民國文學本體概念關系

3 民國文學本體模型及其應用方向

3.1 民國文學本體模型描述

依據上文論述的構建流程完成民國文學本體模型,該本體模型描述了1911年到1949年期間文學領域所涉及到的概念、關系和術語。本體模型包括人物、文獻、期刊、事件、地點、組織機構6 個大類及其之間的關系,具體包含9個本體類(其中6個一級類,3個二級類),60個數據屬性,28個對象屬性,44個實例(其中涉及 6 篇文獻,2 個事件,19 個人物,7 種期刊,8個機構組織,2個地點)。

圖3是構建完成的類與類之間的關系圖,帶箭頭的有向線條表示了該本體模型中的對象屬性,對象屬性的定義域(Domain)和值域(Range)可以從線條的起止方向表示。例如從Figure(人物)類存在有向線條指向Document(文獻)類,表示Figure 與Document 之間通過對象屬性“Write”連接,即人物(Figure)與文獻(Document)存在寫作的關系。而對象屬性“Write”的值域是“文獻(Document)”。

圖3 概念與概念之間關系

圖4以可視化的方式顯示民國文學本體中與“徐志摩”這一人物實例相關的文獻、人物等概念,即以人物徐志摩為中心的人物關系,創作關系等。例如徐志摩的人物關系有前妻張幼儀、妻子陸小曼,父親徐申如,兒子徐積鍇。其著有文獻《志摩遺稿》,該文獻由《新月》雜志出版,而《新月雜志》的出版機構則為新月書店,同時在《徐志摩先生遺著》一文中有提及徐志摩。此實例演示圖同時也展示了該本體未來的使用場景之一,便于用戶全方位地了解實例信息以及與其他實例的相互關系。

圖4 實例演示

最后,建設完成的民國文學本體OWL文檔部分片段如下:

3.2 民國文學本體模型的應用方向

民國文學本體模型主要是基于“全國報刊索引中國近代中文期刊全文數據庫-文學專題”來設計,最終目的是在該專題數據庫中進行語義層面的知識組織和知識挖掘。預期應用場景為對數據庫中人物、地點、時間進行可視化的動態顯示,揭示人物關系、時空關系、事地聯系等;同時對用戶檢索結果進行語義層面的優化,例如用戶檢索“眉軒”時,檢索結果可同時返回徐志摩相關信息和相關文獻,并顯示與徐志摩相關的人物關系,以此提升文學專題庫的知識服務效果。

目前該本體模型尚處于試驗階段,還未正式投入使用,下一步的工作重心將嘗試運用半自動方法為已有本體添加實例,即運用關鍵詞自動抽取,對近代期刊文學專題的OCR 全文進行文本關鍵詞語義信息(人、時、地等)抽取,并添加為實例,以此提升本體構建的工作效率。在這個過程中同時對已經建成的模型做進一步的邏輯檢測與推理,以進一步保證民國文學本體的可靠性。另一方面,推動對實例對象屬性的關系推理工作,目的在于對目標實例自動賦予相應的對象屬性關系,減少本體構建的人工干預程度,加強知識發現機制,挖掘民國文獻中潛在的知識關系,提升本體構建項目的自動化和智能化程度。

4 總結與展望

以上是對本體在文史方面應用的一次嘗試,初步建立了民國文學本體模型,即揭示了近代期刊文學專題的文獻特征和內容特征,能夠有效提高近代期刊文學專題資源知識服務的效果,將中國近代的經濟政治變化和人文歷史變遷以更加清晰的形式展現在讀者面前。

猜你喜歡
概念
Birdie Cup Coffee豐盛里概念店
現代裝飾(2022年1期)2022-04-19 13:47:32
概念飛行汽車,它來了!
車迷(2022年1期)2022-03-29 00:50:18
存在與守恒:《紅樓夢》中的物極必反概念探討
紅樓夢學刊(2020年4期)2020-11-20 05:52:48
TGY多功能多品牌概念店
現代裝飾(2020年4期)2020-05-20 08:56:10
幾樣概念店
現代裝飾(2020年2期)2020-03-03 13:37:44
衰老是被灌輸的概念
奧秘(2018年12期)2018-12-19 09:07:32
學習集合概念『四步走』
聚焦集合的概念及應用
論間接正犯概念之消解
深入概念,活學活用
主站蜘蛛池模板: 国产成人无码综合亚洲日韩不卡| 欧美午夜在线播放| 99久久国产综合精品2023| 欧美一级黄色影院| 自拍亚洲欧美精品| 国产成人乱码一区二区三区在线| 曰韩免费无码AV一区二区| 国产毛片不卡| 亚洲欧美自拍视频| 国产JIZzJIzz视频全部免费| 国产麻豆aⅴ精品无码| 国产精品欧美激情| 国禁国产you女视频网站| 国产理论最新国产精品视频| 在线国产欧美| 国产美女免费| 国产亚洲视频免费播放| 永久免费精品视频| 欧美成人二区| 精品国产自在现线看久久| 国产精品一区不卡| 91午夜福利在线观看精品| 国产手机在线小视频免费观看 | 国产亚洲视频在线观看| 国产精品黄色片| 五月六月伊人狠狠丁香网| 欧美国产另类| 露脸一二三区国语对白| 91在线播放免费不卡无毒| 毛片视频网| 人妻精品久久无码区| 99久久99这里只有免费的精品| 日韩精品欧美国产在线| 国产无码网站在线观看| V一区无码内射国产| 国产亚洲精品91| 亚洲AV无码不卡无码| 日本成人在线不卡视频| 在线观看国产一区二区三区99| 91成人在线免费视频| 精品国产中文一级毛片在线看 | 久久a毛片| 亚洲美女一级毛片| 嫩草在线视频| 人妻无码中文字幕第一区| 99久久国产综合精品女同 | 日韩久草视频| 91综合色区亚洲熟妇p| 网久久综合| 色偷偷一区| 久热99这里只有精品视频6| 欧美日韩免费在线视频| 国产好痛疼轻点好爽的视频| 无遮挡一级毛片呦女视频| 亚洲AV电影不卡在线观看| 成人av专区精品无码国产| 亚洲区欧美区| 亚洲欧美一区二区三区蜜芽| 欧美国产精品不卡在线观看 | 国产精品嫩草影院视频| 亚洲无码91视频| 欧美福利在线观看| 综合色88| 亚洲精品无码不卡在线播放| 国产福利在线免费观看| 国产黄网站在线观看| 青青久视频| 黄色网站不卡无码| 国产欧美日韩专区发布| 亚洲第一网站男人都懂| 久久青草精品一区二区三区| 五月天久久婷婷| 自拍亚洲欧美精品| 亚洲精品成人福利在线电影| 91免费国产高清观看| 亚洲水蜜桃久久综合网站| 999国内精品久久免费视频| 97超爽成人免费视频在线播放| 91人妻在线视频| 国产丝袜第一页| 欧美日韩在线成人| 精品久久香蕉国产线看观看gif|