999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

LIBRA技術理論及其在史料圖像資源中的應用*

2022-08-04 02:55:02陳濤李惠張永娟孫安
大學圖書館學報 2022年4期
關鍵詞:關聯語義資源

陳濤 李惠 張永娟 孫安

1 引言

中華優秀文化兼收并蓄、博大精深,其中蘊含的思想觀念、人文精神、道德規范等,給了中國人無窮無盡的滋養,深刻影響著當代中國人的精神世界,是我們在世界文化激蕩中站穩腳跟的根基[1]。如何讓文物“活”起來,讓觀眾能夠在“一眼千年”中感悟傳統文化的深沉和厚重,是中國數字人文學者所應努力的方向和擔當的責任之一。數字人文如今已經成為一個活躍的研究領域,吸引了越來越多的研究機構和學者參與到這個領域的研究中來。

數字人文研究呈現多樣性、交叉性的特點,主要體現在:(1)研究資源多態,數字人文研究的資源是“超文本”,由圖像、書籍、文獻、樂譜、檔案、手稿、音頻、影像、實物等多種格式數據構成;(2)研究領域廣闊,包含諸多值得關注的問題,如歷史文獻、古籍檔案、文化遺產的數字化及數據化處理,民族民間文化的數字化記錄與可視化呈現,基于計算機視覺分析的藝術圖像分析與鑒定,面向人文問題的大數據分析等;(3)研究背景交叉,除了計算語言學、文學、哲學、歷史學、考古學、地理學、圖書情報、藝術學等傳統人文領域的學者外,還可包含信息學、計算機技術、數字文化、媒體技術等領域的學者;(4)研究工具多樣,數據采集工具、數據存儲工具、可視化分析工具,時空分析工具,自然語言處理、文本分析、云計算、知識圖譜、機器學習等。

近年來,新技術不斷涌現,知識圖譜、關聯數據、大數據、5G通信網絡技術、邊緣計算、數據中臺、GIS、3D、AR/VR/MR、區塊鏈、量子科技等等,新技術的出現定會不斷豐富和沖擊著數字人文研究。數字信息技術的發展和應用,為人文科學的研究提供了新的方法和工具,豐富了人文科學研究的數據來源,拓展了人文科學研究的問題域,這無疑為人文科學的發展提供了新的機遇[2]。馬費成教授指出,新技術為我國哲學社會科學研究帶來了新的歷史發展機遇,新場景、新視野、新方法、新工具的出現,使整個哲學社會科學的研究范式正在發生深刻變化[3]。劉煒研究員構建的數字人文技術體系主要包括數字化技術、數據管理技術和數據分析技術、可視化技術、AR/VR技術、機器學習技術等[4]。周慶山教授認為,當前數字人文領域需要重點關注如何運用大數據、人工智能、數字孿生等新技術實現人文資源的“活化”和再造[5]。

2 技術視野下的數字人文

數字人文之所以可以區別于傳統的人文研究,主要是有了更多的學科交叉和更多的數字技術的引入。很多數字人文研究以數據驅動,也有一些數字人文研究可以歸結于技術驅動,甚至可以說應用的技術一定程度上制約了數字人文研究所能達到的廣度和深度。數字技術已廣泛應用于人文研究中,如歷史學學者借助GIS技術進行歷史知識和歷史事件的靜態和動態的可視化展示研究[6];考古學學者利用計算機和高光譜成像技術進行了3D虛擬遺址繪圖、文物虛擬復原、色彩還原等[7];文學學者通過研究文本中的代詞分布窺探作者的情感[8];語言學學者通過建立形式化的數學模型來分析和處理自然語言[9]。

表1中列出了數字人文領域影響力較大的一些項目,以及這些項目背后涉及到的主要數字技術應用。其特點為:(1)GIS的應用較為廣泛,如:歷史地理信息系統(CHGIS)、數位人文學術研究平臺(Docusky)、書信數字化工程、學術地圖、高遷古村等眾多項目都與地理信息相關;(2)文本分析、文本識別、機器學習也是常用的進行內容分析的主要方法,如:數位人文學術研究平臺(Docusky)、邊沁手稿[10]、歷史人文大數據平臺。很多研究中,文本分析作為了數據處理的中間過程,如:歐洲時光機[11]、書信數字化工程;(3)關聯數據、知識圖譜、本體等語義網技術也是數字人文常用的技術,如CBDB關聯數據平臺[12]、文化日本[13]、上海圖書館的歷史人文大數據平臺、董其昌大展、古籍數字化記憶再造工程、高遷古村等;(4)圖像資源方面,國際圖像互操作框架(IIIF)在眾多技術中占有主導地位,蓋蒂(Getty)博物館、美國華盛頓國家藝術畫廊、巴伐利亞州立圖書館、Biblissima手稿庫等只是眾多IIIF應用中極少部分的代表。

除了表1中列出的項目外,武漢大學敦煌莫高窟多模態知識圖譜采用了圖像標注、知識圖譜、關聯數據、機器學習等相關技術[14]; 北京大學宋代學術傳承語義網絡使用了知識圖譜、關聯數據等技術[15];華東師范大學數字人文研究支撐平臺主要使用了國際圖像互操作框架和關聯數據技術[16]。同時,很多新技術也在逐漸滲透到數字人文研究領域,如中國博物館協會的“博物館在移動”項目匯集了130家國家一級博物館,打造博物館聚合平臺,并在線上借助5G+技術,讓觀眾與文物“親密接觸”、沉浸互動。

表1 國內外部分數字人文項目核心技術應用

這些常用的數字技術中,GIS、知識圖譜、社會網絡分析常用于數據的呈現、分析;3D、AR/VR用于用戶體驗的提升;本體、關聯數據、IIIF等技術常用于數據的組織;文本分析、圖像標注、機器學習、聚類分析等常用于數據的處理。本文將這些數字技術進行歸納,形成LIBRA技術體系,以期對數字人文建設和研究提供技術方向的指導。

3 LIBRA與數字人文

圖1為數字人文研究核心技術樹狀圖,其中人文(Humanity)為“樹根”,在這里多學科交叉、盤根錯節,可見數字人文研究離不開人文的根基,需要人文精神、人文情懷;所有數據(Data)資源為“樹葉”,樹葉形態各異意為數據異構,樹葉分布于不同的樹枝則代表數據多源;各種數字人文研究成果則為“樹果”。怎樣構聯起數字人文這棵大樹,LIBRA給出了可行的實施方案和技術框架,LIBRA并不是某一種技術,而是數字人文基礎設施建設中常用的五類技術總稱。LIBRA主要包括:L-關聯數據(Linked Data)、I-國際圖像互操作框架(IIIF)、B-大數據(Big Data)、R-資源描述框架(RDF)和A-人工智能(AI)。其中,資源描述框架是“樹干”,是人文與數據連接的主干道,是資源建設和應用的基礎。關聯數據和IIIF為“樹枝”,他們在樹干的基礎上共同串聯起了不同來源、不同類型的數據,讓不同的數據個體智聯成整體。其中關聯數據主要針對文本型的結構化數據,而IIIF則主要應用于圖像資源。大數據和人工智能技術是強有力的框架和工具,猶如剪刀一般修枝剪葉,增強光合作用,改變了樹體的營養狀況,這樣數字人文大樹才會枝繁葉茂、綠葉長青。

圖1 數字人文研究核心技術樹狀圖

3.1 資源描述框架(RDF)

資源描述框架(Resource Description Framework, RDF)是一個使用XML語法來表示的數據模型,用來描述Web資源的特性以及資源與資源之間的關系。RDF主要用三元組(主、謂、賓三段式)來描述資源萬物,由于其結構簡單成為了語義網時代通用的數據交換形式和元數據模型,同時它也是知識圖譜中常用的圖模型之一(知識圖譜中常采用屬性圖模型和RDF圖模型)[17]。

數字人文研究資源是“超文本”,RDF在數字人文資源建設中的作用不言而喻,RDF為多源異構的數據資源提供了語法層面上的統一,使不同數據之間的融合成為了可能,也更為便捷。縱觀國內外數字人文研究,多數研究機構和學者都將RDF作為資源組織的首選。從應用類型來看,本體設計、知識組織到實例數據發布都使用RDF來進行描述;從數據集規模的大小來看,小到單個本體文件和規范詞表發布,大到數以億條量級的知識庫發布,以及各種特色專題庫的數據組織也都采用了RDF。RDF數據的存儲在工程應用中,建議使用圖數據庫(Graph DB)進行存儲,三元組數據庫(Triple Store或RDF Store)可以看成圖數據庫的一種類型,也得到較多應用。關系型數據庫和三元組數據庫對比見表2,從結構設計、調用方式、查詢語言和運行效率方面進行了對比,并闡述了使用三元組數據庫的優勢所在。

表2 關系型數據庫與三元組數據庫的對比

3.2 關聯數據(Linked Data)

關聯數據近年來已成為數字人文研究,尤其是跨學科中多源異構資源整合的關鍵技術。需要注意到關聯數據和數據關聯并非同義,所有相關聯的數據都可以看成是數據關聯;而關聯數據是語義網的輕量級實現,它不是新的數據,而是數據一種新的呈現形式。一般認為只有符合蒂姆·伯納斯·李(Tim Berners-Lee)在2006年概述的關聯數據的四個原則[18],才被認為是關聯數據。

圖2顯示了語義網七層框架結構和關聯數據實現標準之間的對應關系,關聯數據主要基于語義網七層框架的前四層進行展開,即實現用URI標識實體、用OWL組織實體、用RDF表述實體、用SPARQL檢索實體。

圖2 關聯數據實現標準

除此之外,關聯數據還要求當資源被請求時,能夠盡量提供與外部資源的鏈接,以便使用者獲取更多的相關資源。常用的關聯方式見表3,這里從“唯一碼匹配”“屬性值匹配”“圖模式匹配”和“語義度匹配”四種匹配模式進行了說明。四種模式由易到難、由淺入深,在實際進行資源關聯時,通常從最簡單的關聯模式開始,逐漸過渡到下一模式。關聯好相應資源后,需要將匹配關系以三元組形式存儲到資源RDF資源中,常用的資源關聯屬性有:owl:sameAs(鏈接相同資源)、foaf:homepage(鏈接到資源主頁)、foaf:topic(鏈接到資源主題)、rdfs:seeAlso(鏈接到資源其他信息頁)等,甚至所有的對象屬性(owl:ObjectProperty)都可以作為資源之間的關聯屬性使用。

表3 數據源資源關聯模式

3.3 國際圖像互操作框架(IIIF)

IIIF提供了一種前所未有的新方法,它是一組定義數字圖書館互操作性框架的標準, 通過標準的應用程序編程接口(API)集,提供了一種在Web上描述、分發和訪問圖像的統一方法。該方法使用標準化的圖像請求格式共享圖像數字內容,提高了圖像資源的在線研究能力。在眾多機構的共同努力下發展起來的IIIF很快被更廣泛的文化遺產部門所采用,在數字人文建設和研究中得到越來越多的關注。目前IIIF框架已推出的穩定版API有圖像API(3.0版本)、呈現API(3.0版本)、認證API(1.0版本)和檢索API(1.0版本)[19]。

目前不少機構對IIIF中的圖像API和呈現API研究較多,也有大量的圖像資源以IIIF要求和標準發布,而對圖像的檢索API研究,尤其是圖像的語義關聯研究很少涉及。圖3描述了圖像資源的語義關聯流程,主要分為“內容標注和對象識別”“語義標注”“知識關聯和知識發現”三步。其中,“內容標注和對象識別”主要對館藏圖像資料中的對象進行提取和注釋,這里的“對象”可定義為圖像中的任一實體或目標,如圖像中的某個實體(人名、地名)、某個元素(花、鳥、樹)等。對象的區域提取和內容注釋一般采用人工標注的方式,對于一些有規則和圖像質量較好的圖像可以嘗試使用機器學習的方式進行目標檢測和自動標注。對象區域可以為矩形、圓形等規則區域或任意不規則形狀區域,對象的每一條注釋都將生成唯一的資源URI(資源主語),并將注釋內容以RDF三元組形式進行存儲。“語義標注”實現了圖像對象資源和外部關聯數據集的關聯,這里的關聯關系為一條或多條RDF三元組。關聯關系(謂語)可以使用已有本體中的對象屬性,在LOV或者本體服務中心(OntHub)中可查詢相關本體的對象屬性。語義標注中的關聯對象(賓語)為其他數據集或知識庫中存在的資源URI,而這些資源或多或少已經關聯到其他的鏈接(開放)數據,從而實現更廣范圍的知識關聯和知識發現。

圖3 圖像資源語義關聯流程

3.4 大數據(Big Data)

大數據是信息技術發展的必然產物,更是信息化進程的新階段,其發展推動了數字經濟的形成與繁榮。數字人文研究更注重碎片化數據、海量數據、多源異構數據的采集、清洗、重組、分析與關聯,進而深度揭示數據之間的內在關系。近年來,大數據獲取、存儲、管理、處理、分析等相關的技術已有顯著進展,大大推動了數字人文研究的發展。

隨著數字人文應用系統所涉及的數據量逐漸增大,不得不考慮采用大數據解決方案。大數據常提的5V特性有:規模大(Volume)、多樣化(Variety)、高速性(Velocity)、價值化(Value)及準確性(Veracity)。同時,越來越多的大數據應用也引入語義技術,通過語義鏈接,給大數據系統帶來開放性和互操作性,并提供基于“知識”的分析[20]。數字人文研究推崇開放、融合、智能,因此需要將大數據理念、關聯數據思想和人工智能技術結合起來。圖4顯示了大數據5V特性的技術實現方案。

圖4 大數據5V特性技術實現

(1)規模大:數據存儲的轉變

大數據的采集、計算、存儲量都非常龐大,如果還沿用傳統的數據存儲方式,必將給大數據分析和應用帶來諸多不便。對于數量非常龐大的海量數據,目前的分布式數據庫技術如NoSQL和Hadoop等都能很好地進行處理。文中討論的三元組數據庫(圖數據庫)同樣也是NoSQL數據庫的一種。圖數據庫特別適用于超大量的數據節點以一定的關系鏈接起來的形式,不管節點內部的數據多復雜,它都能高效地進行增刪改查等操作。而且正由于它對節點內的數據沒有限制,在進行大數據分析時往往更為高效,因而能得到更多的啟發。

(2)多樣化:數據組織的挑戰

大數據的數據來自于多種數據源,且數據種類多樣,已突破了以前所限定的結構化數據范疇,包含了大量的半結構化和非結構化數據。數據類型也不再局限于文本,還有圖像、音頻、視頻、科學數據等多種類型的數據。本體、RDF、關聯數據等技術的結合,為大數據提供了統一的知識組織模型、標準的數據交換方式和通用的資源融合模式,使多源異構數據的描述更為規范且富含機器可理解的語義,使大數據具有更好的開放性和互操作性,也將使大數據的分析深入到“知識”層次。

(3)高速性:數據計算的目標

大數據的數據增長速度快,因此要求獲取數據和處理數據的速度也要快,需要從各種類型的數據中心快速獲得高價值的信息。Spark是一種混合式的計算框架,是一種專為大規模數據處理而設計的快速通用的計算引擎,它自帶實時流處理工具。此外Storm、Samza和Flink也是常見的流式框架。Spark也可以與Hadoop集成代替MapReduce做并行計算。并行計算是增強復雜問題解決能力和提升性能的有效途徑,其可以通過多種途徑實現,包括多進程、多線程以及其他多種方式。

(4)價值化:數據智能的精髓

眾所周知,大數據雖然擁有海量的信息,但是真正可用的數據可能只是很小的一部分,從海量的數據中挑選小部分數據工作量巨大,因此常將大數據分析和云計算聯系起來。大數據必然無法用單臺的計算機進行數據處理,必須依靠云計算靈活的張力和強大的算力。隨著人工智能的快速應用及普及,深度學習及強化學習等算法不斷優化,大數據技術將與人工智能技術更緊密地結合,具備對數據的理解、分析、發現和決策能力,從而能從數據中獲取更準確、更深層次的知識,挖掘數據背后的價值,催生出新業態、新模式。

(5)準確性:數據應用的關鍵

數據的準確性和可信賴度,即數據的質量,是大數據發展的關鍵。關聯數據由于其過度的開放性,一直被不少學者詬病其數據的質量問題。目前,完整性、準確性、一致性和及時性,常被用來作為評估數據質量好壞的指標。借助知識圖譜和知識計算,對知識的可信度進行量化,通過舍棄置信度較低的知識來保障數據的質量。區塊鏈的可追溯性使得數據采集、交易、流通,以及計算分析的每一步記錄都可以留存在區塊鏈上,使得數據的質量更加有保障。區塊鏈技術的迅速崛起將有效突破大數據面臨的困境,幫助大數據發揮更大的價值。

3.5 人工智能(AI)

隨著信息技術的發展以及人工智能的出現,圖書館學、情報學領域開啟了走向智能、智慧的演進和發展之路。數字人文對于人工智能的渴求尤為顯著,目前,數字人文正在引領文化生產體系的數字轉向,已經成為一個語言學、文學、史學、哲學、藝術學等傳統人文學科與圖書館學情報學、計算機科學、人工智能等信息科學共同關注的新興跨學科領域。就本文研究的LIBRA技術理論中,關聯數據部分的資源關聯匹配中的字符串相似度比較、語義度匹配,以及非結構化數據的實體抽取與識別等都離不開機器學習的算法。IIIF中的圖像對象輪廓提取、對象識別、圖像自動標注等也離不開人工智能的相關算法,此外圖像中基于深度學習的OCR技術也成為了行業主流。

人工智能在數字人文領域的應用中,有兩類新興的技術值得關注:知識圖譜和AI中臺。知識圖譜是一種用圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法[21]。本質上,知識圖譜是一種揭示實體之間關系的語義網絡,它和LIBRA中的關聯數據(L)有著千絲萬縷的聯系。大數據時代應運而生的中臺得到越來越多的企業和機構的關注,數據中臺、業務中臺、算法中臺、技術中臺等接連涌現,“中臺”概念的引入將對數字人文基礎設施建設起到變革作用。

在眾多中臺中,有兩類中臺尤為值得關注:數據層面的數據中臺和算法層面的AI中臺,AI中臺用來連接業務中臺和數據中臺。數據中臺可以實現多種功能,通過數據技術,對海量數據進行采集、計算、存儲、加工、可視化,提供統一標準和口徑。數據中臺把數據統一之后,會形成標準數據,再進行存儲,形成大數據資產層,進而為運營和管理提供高效服務。AI中臺通常由數據和算法組成,因此AI中臺離不開數據中臺,它是一個用來構建大規模智能服務的基礎設施,對業務所需的算法模型提供了分步構建和全生命周期管理的服務,機構可以將自己的業務不斷下沉為一個個算法模型,以達到快速復用、組合創新、規模化構建智能服務的目的。

圖5給出了數字人文研究中常用的AI中臺框架,主要包含文本和圖像資源這兩類數字人文研究中最常用的資料類型。文本資料經常需要進行自然語言處理方面的分析,如詞頻統計、語法句法的文本分析、命名實體識別、聚類分析、社會網絡分析、字符相似度計算等;圖像資料主要是針對圖像的內容標注,包括圖像目標(對象)檢測、OCR文本識別、機器自動標注、圖像識別、圖像處理等。而在知識圖譜層面,可以進行數據挖掘、語義標注、知識關聯和知識推理、知識計算等。當然這里僅列出了常用的AI功能部分,實際工程時可以根據需要增減功能模塊,形成自己的AI中臺架構。圖中的AI功能在很多數字人文項目中都有所涉及,但多是和業務邏輯綁定,與具體平臺耦合性太強,導致這些功能的可擴展和可復用成本太大。因此,在數字人文資源建設和基礎設施布局中,AI中臺的引入至關重要。

圖5 AI中臺框架

4 LIBRA實踐——多維度圖像智慧系統

多維度圖像智慧系統(Multi-Dimensional Image Smart System,MISS)(1)網址:http://miss.newwenke.com/sas.由LIBRA技術理論驅動,以圖像為研究對象,實現古籍、文物、藏品等圖像資源中的文字識別、圖文識別、版本比對、特征提取、光譜分析等功能,并提供圖像維護、發布、復用、標注等一站式服務,以達到數據驅動人文藝術研究創新的目的。MISS平臺作為數字人文圖像資源建設和研究的典型案例,已得到上海圖書館、南京大學、上海交通大學、華東師范大學、上海大學等相關機構數字人文學者的肯定。現從“知識組織模型” “知識存儲模型”“動態文本識別”幾個方面探討LIBRA在MISS中的實現。其中,知識組織模型部分主要采用IIIF(I)框架對圖像資源進行組織,并使用RDF(R)進行圖像組織、內容注釋、語義關聯等相關數據的描述,并使用關聯數據(L)標準進行相關數據的發布和關聯;知識存儲模型體現了大數據(B)的存儲理念,使用NoSQL進行高效存取;動態文本識別則結合機器學習等AI(A)技術對圖像中的文本進行動態OCR,以提高交互體驗。

4.1 知識組織模型

MISS平臺中最小單元為圖像(Image),一幅或多幅圖像通過畫布(Canvas)組成一套藏品清單(Manifest),一套或多套藏品清單將組成藏品集合(Collection),而集合之間或集合和藏品清單能再次組合成上一層集合,依此類推可形成嵌套集合。集合對應的層次模型為:

集合C={集合C0, … , 集合Cm, … , 清單M1, … , 清單Mn}

該模型表示一個集合C必須要有1個或多個清單M,可有子集合Cm。這里以“書畫精品集”集合為例,用知識組織方式顯示集合資源之間的關系。圖6中mc的節點表示集合資源,mm的節點表示藏品清單資源。

圖6 集合“書畫精品集”知識組織

(1)“書畫精品集(mc:C1)”下有2個子集“近現代精品集(mc:C2)”和“歷史精品集(mc:C3)”,通過屬性iiif:hasCollections連接三者類型都為iiif:Collection,其中mc:C2的順序為1,mc:C3的順序為2。

(2)集合mc:C2下2個藏品清單,分別為“廬山圖(mm:C2M1)”和“觀瀑布圖(mm:C2M2)”,順序為1和2。集合和清單之間通過對象屬性iiif:hasManifests相連接。

(3)集合mc:C3下同樣含有2個藏品清單,依序為“竹石圖(mm:C3M1)”“秋山行旅圖(mm:C3M2)”。

圖7顯示了藏品“廬山圖”的知識組織模型,這里可以詳細看到IIIF框架中的Presentation API(2.1版本)的組織架構,主要有iiif:Manifest、iiif:Sequence、iiif:Canvas、oa:Annotation等四個核心類。

圖7 藏品“廬山圖”知識組織

(1)藏品mm:C2M1(廬山圖)的類型為iiif:Manifest(清單),并含有一些元數據屬性,用iiif:metadataLabels進行賦值。

(2)iiif:Manifest類下包含iiif:Sequence(順序)類,用來指定藏品的瀏覽順序,用屬性iiif:hasSequences連接。

(3)iiif:Sequence類下含有iiif:Canvas(畫布)類,畫布中包含了具體需要顯示的圖像,用屬性iiif:hasImageAnnotations連接,示例中的圖像為img:lushantu,作為標注類(oa:Annotation)連接到畫布mm:C2M1-c1中。

4.2 數據存儲模型

MISS平臺的資源采用NoSQL數據庫中的圖數據庫進行存儲,存儲時并不建議將所有的RDF數據都存于單一Graph中,圖8顯示了MISS平臺的資源存儲模型。模型中可以看出按照資源類型分為了四類Graph:集合Graph、清單Graph、注釋Graph和語義標注Graph。

圖8 MISS數據存儲模型

(1)集合Graph

用來存儲所有集合信息,嵌套的集合也存在該Graph中。當某個集合含有清單鏈接時,將通過屬性iiif:hasManifests鏈接到具體的清單Graph,每個集合可以鏈接至多個清單Graph(1:N)。依據關聯數據的URI命名規則,可以將集合Graph定義為“{scheme}://{server}{/prefix}/graph/collections”。

(2)清單Graph

用來存儲具體的清單內容,每一個清單文件都將用獨立的Graph進行存儲。每個Graph中包含了清單藏品的Metadata信息、畫布Canvas信息和圖像Image信息。IIIF要求每個清單文件保存為唯一的JSON-LD文件,并在網絡中提供調用。因此在設計每個清單Graph的命名時,可以使用該文件的HTTP訪問地址作為URI路徑,即“{scheme}://{server}{/prefix}/manifest/{identifier}.json”。

(3)注釋Graph

類似于清單Graph,也是每條注釋都將存于獨立的Graph中。該Graph中含有注釋的具體內容,已經標注的圖像方位;同時,也通過dct:isPartOf屬性將該條注釋指向具體的清單Graph。每個清單Graph包含多條注釋的Graphs(1:N)。每條注釋的URI不直接在平臺中調用,因此可定義為“{scheme}://{server}{/prefix}/annotation/{identifier}”。

(4)語義標注Graph

用來存儲與每條注釋相關的語義關聯信息,這些語義關聯信息將通過對象屬性(OP)進行關聯,并存儲在單一Graph中。每條注釋可以含有多條語義關聯信息(1:N)。該Graph的URI為“{scheme}://{server}{/prefix}/graph/relation”。

4.3 動態文本識別

數字人文研究中經常需要對圖像資源進行文本化處理,進而使用自然語言處理和文本挖掘等方法進行文本分析。機構在進行OCR時,經常遇到以下兩點障礙:(1)館藏機構具有大量有待OCR的數字資源,所有資源事先進行OCR識別成本太大;(2)對于某些尺寸較大的數字資源,事先進行OCR識別也不太現實,也很少有OCR廠商支持超大圖像的文本識別。因此,如何將OCR環節從事前執行轉移到事中運行,在研究中根據需要對資源進行實時動態OCR識別,是MISS平臺的一次嘗試。

借助IIIF框架中的圖像API可以輕易地將需要識別的區域發送到OCR接口進行識別,識別模型主要使用圖像處理和LSTM神經網絡預測模型構建,訓練步驟為:(1)圖像預處理:對圖像進行灰度、二值和降噪處理,形成黑字白底圖像;(2)文本檢測:采用分割的方法對圖像中的文字進行分割,分割粒度為字符級,即分割成一個一個的方塊字;(3)人工標注:對分割好的方塊字進行人工標注;(4)訓練學習:采用LSTM神經網絡預測算法對人工標注語料進行學習,生成圖像OCR識別引擎。

《步輦圖》為唐代著名畫家閻立本的名作,是唐代繪畫的代表性作品,也是中國歷史上最杰出的繪畫作品之一。該畫卷為絹本,縱38.5cm,橫129cm,記載貞觀十四年(公元640年)唐太宗召見吐蕃王國使臣祿東贊的場景,是唐朝經濟文化強盛和古代漢族與藏族友好往來的歷史見證,具有珍貴的歷史研究和藝術價值。該畫卷現收藏于北京故宮博物院,為中國十大傳世名畫之一。《步輦圖》畫卷有米芾等22位名人及收藏家的題跋,整張畫卷有2.2G(TIF格式)大小,如此巨大的圖像資源事先進行OCR極不現實,有些字體的識別效果也不理想。結合IIIF和構建的OCR識別模型,可以根據需要對相關題跋進行實時動態OCR識別。

動態文本識別時,使用IIIF的圖像API對識別區域進行提取,圖9為《步輦圖》標注的三段題跋區域。以張知權的楷書題跋為例進行說明,這里的目標區域URL地址為“http://183.194.249.232:9002/iiif/yanlibenbuniantu.tif/37232,1217,2854,5488/full/0/default.jpg”,通過圖像API的試用,可以獲取圖像中任意區域。將該區域地址發送到OCR接口進行識別,識別結果如圖10(a)所示,在識別的JSON文件中,可以進行人工校正,以獲得更高的準確度,圖10(b)為最終的結果呈現。

圖9 《步輦圖》識別區域提取

(a)題跋在線OCR識別 (b)識別結果呈現圖10 《步輦圖》實時OCR示例

5 總結與展望

數字人文研究需要采用大量的技術方法和技術手段,來實現科技和人文的跨界破壁。本文從眾多的數字技術中提煉出對數字人文建設具有變革性的五類技術,即LIBRA(關聯數據、IIIF、大數據、RDF和人工智能)。在整個LIBRA體系中,資源描述框架(RDF)可用在數字人文研究中的資源描述部分,實現了異構數據間的語法統一;關聯數據(Linked Data)更多的體現在數字人文相關數據的發布、共享和交互、融合方面,在多源數據之間建立起了語義關聯鏈接;國際圖像互操作框架(IIIF)主要針對數字人文研究中的圖像資源,提供了不同機構間圖像資源的可共享和互操作。大數據(Big Data)和人工智能(AI)并不單指某一種技術,它們是一類技術的總稱,這兩者的應用已經給各個領域都帶來了劇變,分布式、云計算、自然語言處理、文本分析、機器學習等逐漸改變了人文研究的傳統模式,推動著數字人文研究的發展和突變。

近年來,眾多業界學者在研究和探索數字人文基礎設施,總體來看,數字人文基礎設施涉及網絡基礎設施、數據基礎設施、技術基礎設施、研究基礎設施等多方面。LIBRA將在技術基礎設施部分發揮重要作用,從資源描述、知識組織、交互共享等方面提出了一定的通用標準和實施方案。LIBRA中的五類技術在應用時,可根據應用的廣度和研究的深度進行組合和擴展。當然,文中案例部分的MISS平臺也僅是對LIBRA技術的粗淺嘗試,技術也是處于不斷發展變化之中,新技術也將會補充和重塑LIBRA技術體系。5G通信網絡技術、量子計算、區塊鏈等新興技術的發展終有一天會引入到數字人文研究中,必將帶來數字人文發展翻天覆地的變化。

猜你喜歡
關聯語義資源
基礎教育資源展示
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
一樣的資源,不一樣的收獲
語言與語義
資源回收
奇趣搭配
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
智趣
讀者(2017年5期)2017-02-15 18:04:18
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
主站蜘蛛池模板: 色婷婷国产精品视频| 88av在线看| 性欧美在线| 老司机aⅴ在线精品导航| 97在线国产视频| 欧洲亚洲欧美国产日本高清| 国产精品亚洲综合久久小说| 亚洲精品视频免费| 日韩无码黄色| 激情无码字幕综合| 午夜老司机永久免费看片| 亚洲无码高清免费视频亚洲| 国产精品午夜电影| 久久综合伊人77777| 91在线激情在线观看| 又粗又大又爽又紧免费视频| 久久久久亚洲AV成人人电影软件| 国产午夜一级淫片| 57pao国产成视频免费播放| 操国产美女| 久久久黄色片| 欧美性久久久久| 波多野结衣一二三| 思思热精品在线8| 精品人妻一区二区三区蜜桃AⅤ| 亚洲成人一区在线| 久久久噜噜噜| 美女一级免费毛片| 亚洲欧美激情小说另类| 成人亚洲天堂| 天堂岛国av无码免费无禁网站 | 欧美激情视频二区三区| a毛片免费在线观看| 亚洲欧美色中文字幕| 久久人妻系列无码一区| 国产高清在线观看| 久久久国产精品免费视频| 欧美精品另类| 国产成人久久综合777777麻豆| 人妻丰满熟妇啪啪| 亚洲手机在线| 麻豆国产精品一二三在线观看| 国产精品自在拍首页视频8 | 69综合网| 亚洲另类色| 999福利激情视频| 夜夜操国产| 亚洲V日韩V无码一区二区| 欧美激情第一区| 2021国产精品自产拍在线| 欧美在线综合视频| 园内精品自拍视频在线播放| jizz国产视频| 欧美一级专区免费大片| 国产人妖视频一区在线观看| 高清欧美性猛交XXXX黑人猛交| 亚洲欧美日本国产综合在线 | www亚洲精品| 欧美午夜在线播放| 亚洲三级影院| 在线免费不卡视频| 国产爽爽视频| 国产一区二区三区免费| 这里只有精品在线播放| 精品国产黑色丝袜高跟鞋| 国产成人高清精品免费| 91精品啪在线观看国产60岁| 2021国产精品自产拍在线| 99久久精彩视频| 亚洲天堂精品在线观看| 亚洲码一区二区三区| 99在线视频精品| 国产精品男人的天堂| 亚洲三级视频在线观看| 婷婷亚洲最大| 欧美国产精品不卡在线观看| 久久国产亚洲欧美日韩精品| 五月婷婷导航| 大香伊人久久| 91破解版在线亚洲| 第一页亚洲| 黑人巨大精品欧美一区二区区|