999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

甲骨文識別技術研究現狀與展望

2023-06-14 13:25:45劉洋陸逸魏鈺馳孫智瑩朱立芳
知識管理論壇 2023年2期
關鍵詞:研究進展

劉洋 陸逸 魏鈺馳 孫智瑩 朱立芳

摘要:[目的/意義]對數字人文視域下甲骨文識別研究進行系統性綜述,為后續研究提供參考和借鑒,推動數字人文研究有效發展與古籍文字識別利用。[方法/過程]采用文獻計量分析的方法,在WOS、中國知網等多個學術平臺檢索文獻,共篩選103篇英文文獻和52篇中文文獻進行綜述。[結果/結論]從傳統識別技術、機器學習和深度學習3個層面解讀甲骨文識別研究現狀,但并未深入闡述識別算法機制。甲骨文識別技術由傳統的特征提取逐漸轉為基于深度學習的識別技術,在識別精度等方面有很大提升,但仍存在一些不足,同時甲骨文知識庫、知識圖譜的構建與領域知識的建立在該領域有較好的發展潛力。

關鍵詞:數字人文? ? 甲骨文識別? ? 研究進展? ?系統性綜述

分類號:G203

引用格式:劉洋, 陸逸, 魏鈺馳, 等. 甲骨文識別技術研究現狀與展望[J/OL]. 知識管理論壇, 2022, 8(2): 115-125[引用日期]. http://www.kmf.ac.cn/p/337/.

伴隨著數字技術與人文研究碰撞的不斷深入,作為交叉領域的“數字人文”研究其地位日益凸顯。數字人文借助信息技術、數字技術助力傳統人文學科研究,成為當下“新文科”發展的新生長點[1-2]。數字人文研究涉及多個領域,研究對象為人文學科領域各類可數字化的資源[3],形式上包括圖像資料、無格式文本、視頻音頻等,內容上包括歷史文獻、圖書檔案等。數字人文研究在文學、語言學、歷史、地理等多個領域發揮重要作用。

古籍數字化是數字人文研究最基礎的條件之一[4],甲骨文識別研究作為古籍數字化的重要一環,也是數字人文的研究對象,在古籍特定領域數字人文研究中具有重要意義。在“數字人文”理念和技術的幫助下,甲骨文等古籍文字資源的挖掘整合、特征提取、識別研究等都能在深度與廣度上得到拓展,幫助古籍文字資源成為兼具歷史性、可視性且組織結構合理的數字人文記憶。

甲骨文是迄今為止發現的最早具有完整體系的漢字[5],具有深厚的歷史文化意義。2017年甲骨文入選聯合國教科文組織“世界記憶名錄”,其重要的文化價值和歷史意義得到世界認可。習總書記在2019年為紀念甲骨文發現120周年座談會所發賀信中提及“殷墟甲骨文的重大發現在中華文明乃至人類文明發展史上具有劃時代的意義”,強調要確保甲骨文研究有人做、有傳承。綜合運用人工智能等技術手段進行甲骨文識別,促進其在新時代的活化傳承,不僅是傳承中華文明、開創新時代語言文字新局面的迫切要求,也是學術界一直以來探索和實踐的方向。

機器學習、深度學習等技術的迅速發展在給甲骨文識別帶來新的機遇的同時,也提出了更加多元的需求,越來越多的學者開始關注到甲骨文識別與古籍文字資源的深入挖掘整合與多途徑傳播。

已有的文獻[6-7]大多從計算機視覺角度出發對甲骨文識別技術進行綜述,缺乏在數字人文視域下對甲骨文識別的前沿熱點探討。鑒于此,筆者采用系統性綜述的方法對截至2022年上半年的國內外155篇針對甲骨文識別研究的文獻進行梳理、歸納和分析,將數字人文理念、技術和方法與甲骨文識別技術相結合,旨在揭示數字人文視域下甲骨文識別的研究現狀,分析難點與挑戰,進而分析發展方向,助力甲骨文識別技術的發展,為甲骨文的活化利用、古籍特定領域數字人文研究提供支撐,促進數字人文研究有效發展,拓寬數字人文邊界,同時幫助有關學者挖掘古籍文字的多維價值,促進中華文明的傳承發展。

1? 甲骨文識別研究現狀

1.1? 數據來源與研究方法

本研究主要采用文獻計量分析法,在多個數據庫中通過特定檢索式,檢索獲得多篇相關文獻,同時借助VOSviewer、Excel等可視化工具從宏觀層面把握甲骨文識別技術研究發展現狀,既可以在時間上分析相關主題的發展歷程,也可以系統地分析數字人文視域下甲骨文識別技術的研究重點與方向。

在Web of Science、谷歌學術數據庫中通過高級檢索,運用檢索式TS=(‘oracle bone script or ‘Oracle or ‘oracle bone or ‘oracle bone inscriptions) AND TS=(‘recognition or ‘detection) 檢索英文文獻。同時,在中國知網數據庫中運用檢索式SU=甲骨文識別 OR SU=甲骨文檢測 OR SU=(‘甲骨文+甲骨文拓片)*(‘識別+檢測) OR KY=(‘甲骨文+甲骨文拓片)*(‘識別+檢測) OR (AB=(‘甲骨文+甲骨文拓片)*(‘識別+檢測) and KY=(‘識別+檢測))檢索中文文獻,篩選截至2022年上半年的近幾十年來的文獻,經過人工篩選,剔除與甲骨文識別技術主題無關的文獻,最終獲取103篇英文文獻和52篇中文文獻。

檢索結果所得論文年發文量如圖1所示。從圖1可以看出,學界對于甲骨文識別技術的相關研究熱度逐漸增加,論文年發文量在近5年呈現較快增長,對甲骨文識別進行系統性綜述有較高的研究價值。

通過VOSviewer,對103篇英文文獻的標題和摘要內容進行聚類分析,從主題與時間兩個維度繪制聚類圖,可以展現當前甲骨文識別領域的研究熱點與研究趨勢,如圖2、圖3所示:

從圖2、圖3可以看出,在研究對象上甲骨文識別主要針對甲骨文拓片圖像、甲骨文字形,在識別技術上主要依賴深度學習、構建模型,準確性、速度效率為該領域重要的評價指標。隨著技術的發展成熟,深度學習技術的高度應用與數據庫、知識庫的搭建逐漸成為學界關注的方向。

1.2? 甲骨文識別技術研究現狀

1.2.1? 傳統識別技術

傳統的甲骨文識別技術主要采用特征提取(feature extract)的方法,基于甲骨文字形結構特征,從字形特征角度或拓撲圖形特征角度出發,對其特征進行提取,從而進行分級甲骨文識別。

由于甲骨文字形復雜多變,之前的研究者將其視作線條圖,從字形特征出發,通過分析筆劃方向、彎曲度、折彎程度等,來提取拓撲特征。復旦大學的周新倫和李鋒等[8-9]把甲骨文看作是由“線”與“點”構成的無向圖,進行圖特征提取,將各類圖論編碼作為字符的拓撲特征,從而進行分級識別。

但甲骨文字大多是刻在硬骨甲殼上,噪聲較大,前者在去噪識別特征方面精確度較低,而基于輪廓線的特征提取、描述可以提高甲骨文識別的精確度,因此后者主要從圖形特征或拓撲結構出發進行甲骨文識別。2010年呂肖慶、李沫楠等[10]將基于曲率直方圖的傅里葉描述子(Fourier descriptor of curvature histogram, FDCH)作為新的特征,并據此計算出甲骨文字對應的特征向量,從而計算相似度進行甲骨文識別。2016年顧紹通[11]通過分析甲骨文字形的拓撲特征,將甲骨文轉化為拓撲圖形,對其進行編碼,將拓撲編碼與拓撲特征庫進行配準,從而實現甲骨文識別。

1.2.2? 基于機器學習識別技術

由于機器學習算法在計算機視覺領域獲得了很大成功,因此除了圖論方法中手動編碼進行匹配之外,部分甲骨文字形識別工作也引入了機器學習算法。

支持向量機(Support Vector Machine, SVM)[12]是隸屬機器學習的新一代學習方法,廣泛應用于圖像分類、手寫圖像識別等領域。與人工神經網絡相比,SVM對測試樣本具有更好的泛化能力,對于資源稀缺的甲骨文識別具有優勢。X. Shi[13]利用語料庫相關技術處理形成了一個簡單的甲骨文數據庫,并在此基礎上進行數據挖掘,使用SVM進行基于部首的分類,以達到知識共享和輔助甲骨文學者考證的目的。劉永革等[14]通過塊狀直方圖提取特征,引入經典的SVM作為甲骨文識別的模型,使精確度達到了88%。此外,度量學習在克服甲骨文識別中訓練數據的局限性和不平衡性方面也有較多應用。

1.2.3? 基于深度學習識別技術

機器學習需要人為機器提供特征進行學習,對應到甲骨文識別中,即需要先定義不同甲骨文類的特征,對專家的依賴性較高而導致信息共享普及率較低,在識別精度、識別效率等方面仍有提升的空間。將深度學習技術運用到甲骨文識別中,能夠利用大量甲骨文字形數據集自動提取拓撲特征,即不需要人為定義特征和規則,交由計算機獨立識別圖像,并根據給定數據圖像進行自我迭代訓練,從而提高甲骨文識別精度與識別效率。

深度學習技術在甲骨文識別領域的應用主要可以分為兩步:第一步是實現甲骨文字體的目標檢測及實例分割,第二步是識別被提取的甲骨文字符。關于甲骨文識別方向的研究除了提升甲骨文識別精度以外,還包括低資源甲骨文字符識別、甲骨文變體識別等。近年來,學界對甲骨文拓片圖像識別的研究逐漸增多,且識別效果較好,相關研究統計見表1。

(1)甲骨文檢測。Faster R-CNN是目標檢測領域的代表性算法,在此基礎上Z. Liu等[27]優化了Faster R-CNN負樣本過多的問題,大大提高了檢測精度;L. Meng等[21]使用并擴展了單次多箱探測器(Single Shot MultiBox Detector, SSD)[28]來檢測帶有摩擦的甲骨文字符,改進了SSD在識別較小物體時準確度較低的問題;X. Yue等[25]應用一種基于形態學的分割方法對白川手寫甲骨文文檔中的字符進行分割,并提出一種神經網絡來消除錯誤分割字符的噪聲。

(2)甲骨文識別。基于深度學習的甲骨文識別技術將傳統方法的特征提取與多種處理過程合為一體,依靠大量的訓練數據和強大的計算性能,在甲骨文識別中逐漸發揮重要作用。劉芳、李華飆等[16]基于Mask R-CNN進行甲骨文拓片識別,識別準確率提升至95%;閆升、劉芳等[17]進一步改進Mask R-CNN,實現類別屏蔽與自動識別較正相結合,首次針對拓片圖像進行甲骨文字符檢測與識別一體化;林小渝等[18,29]在深度學習模型的基礎上,首次提出從甲骨文單偏旁角度進行甲骨文識別,不僅取得較高的識別率,還能幫助識別甲骨文新字,即零樣本學習(zero-shot learning),具有較高的應用意義。

Z. Guo等[30]提出一種基于Inception-v3的用于甲骨文識別神經網絡模型,該模型比AlexNet、VGG-19更加優越,在特征模糊、遮擋、殘缺的情況下仍能取得良好的效果;藤川等[31]提出了一種兩階段方法,采用最新的“只看一次”(YOLO)模型和MobileNet進行帶有摩擦的甲骨文字符識別。這些方法引入了神經網絡和深度學習,使模型獲得了更好的特征表示能力,因此字符識別的準確性得到顯著提高。由于甲骨文拓片圖像訓練樣本較少、圖像磨損較大,因此基于拓片載體的甲骨文識別精確度較低。張頤康等[19]創新性地提出基于跨模態深度度量學習的甲骨文識別技術,它改編自J. Guo等[32]提出的基于卷積神經網絡(convolutional neural networks, CNN)的甲骨文識別,在CNN和深度度量學習的基礎上,配有臨摹、拓撲甲骨文字特征編碼器,實現跨模態特征空間建模,最終實現甲骨文識別,將精確度從單模態識別的66.6%提升至跨模態識別的88.4%。

也有學者提出新的甲骨文識別思路。F. Gao等[33]提出了一種基于生成對抗網絡的圖像從甲骨文到現代漢字的圖像翻譯方法,首次嘗試捕獲甲骨文字符圖像與現代漢字之間的隱形關系;W. Han等[34]將自我監督學習的思想融入到數據增強中,在識別很少拍攝的甲骨文字符時具有較高的性能。

(3)低資源字符識別。標注語料稀缺且分布不平衡,部分甲骨文字符只有一個或幾個基礎樣本,這種帶標注訓練語料不足條件下的識別任務被稱為低資源識別任務,直接使用深度學習方法不能很好地識別低資源字體。因此,J. Li等[35]提出了一種混淆策略,利用混合多數類和少數類的方法來增加樣本,并使用三重損失函數來克服分布不平衡的問題。同時為了避免在數據集小、圖像質量低的情況下模型數據過度擬合,L. Dazheng等[36]提出了隨機多邊形覆蓋算法的數據增強算法來模擬訓練數據集中可能的損傷對象和數據丟失。

嚴格意義上的甲骨銘文總數為3 085個,占甲骨銘文總數的51.91%[33],因此識別變體對于甲骨文研究至關重要。J. Gao等[37]提出了一種兩階段方法來區分它們,在第一階段通過計算機相關方法識別甲骨文變體字符,然后在第二階段通過結合先驗知識的多域方法進一步識別未識別的甲骨文變體字符;G. Liu等[38]提出通過將深度卷積神經網絡(deep convolutional neural network, DCNN)與頻譜聚類相結合來識別甲骨文的變體。前者用于為甲骨文圖像提供準確的描述,后者用于查找每個甲骨文的變體。

2? 甲骨文數據處理與存儲

利用知識庫、人工智能等多方面新興技術,并輔之人工復校,既可提升古籍文字識別的準確率,也可充當工具庫為數字人文研究提供幫助。甲骨文數據庫、知識庫的構建,不僅為計算機識別甲骨文提供大量矢量字形,擴充數據的多樣性,也為甲骨文各項研究提供豐富的檢索幫助,便于推動甲骨文古籍數字化研究,愈發成為當前學界關注的重點。

2.1? 數據庫的構建和標注

目前,有多家學術機構開展了甲骨文數據庫與知識庫的構建工作。香港漢達文庫[39]甲骨文庫是最早的甲骨文數據庫,目前最大的甲骨文數據庫是陳年福構建的甲骨文原文釋文數據庫[40]。栗青生和吳琴霞等[41-42]為了解決對甲骨文異形字編碼與輸入的問題,通過有向筆段和筆元描述甲骨文字形,并建立甲骨文字形動態描述庫,這也有助于甲骨文識別。

隨著人工智能等技術的突破,機器學習、深度學習逐漸融入甲骨文字識別等古籍數字化工作中,助力數字人文研究。多位學者[43]提出基于人工智能技術訓練深度學習模型,并在此基礎上建立甲骨文字形數據庫,以此幫助甲骨文字檢索。S. Huang等[44]構建了一個名為OBC306的甲骨文字符大型數據集,并基于標準的深度CNN對該數據集進行評估,作為甲骨文識別的基準模型。

在現有的技術環境中,只有經驗豐富的甲骨文專家才能對甲骨文進行手動注釋,這不僅耗費人力資源,而且效率低下。針對這一問題,S. H. I. Xian-Jin等[45]在甲骨文圖像識別模型的基礎上,提出一種基于錨點的甲骨文字符級圖像自動注釋算法。

2.2? 領域知識的建立

甲骨文知識庫與知識圖譜是甲骨文數據庫的擴展,是在甲骨文數據庫、文字庫的基礎上,進行條件概率語法現象統計、甲骨文語料分析、句法分析等之后建立的綜合知識庫,用以進行知識組織與知識服務。建立甲骨文文字庫和綜合智能知識庫,支持逐級排歧校正,有助于準確表達甲骨文含義,助力數字人文研究,也為甲骨文信息處理提供創新性的研究思路[46-47]。

J. Xiong等[46]針對甲骨文研究學習難度大、學習周期長、知識點廣但知識連接弱、共享度低等問題,提出一種構建多模態知識圖譜的解決方案。甲骨文多模態知識圖譜可以為多源異構數據提供統一的語義空間。通過多模態融合和信息互補,可以解決信息處理中單一模態的缺陷。這個多模態知識圖譜可以更好地組織和管理基礎數據,為甲骨文信息處理研究服務。

安陽師范學院是國內唯一的甲骨文理工科研究基地,與社會科學院甲骨學殷商史研究中心共同建設“三庫一平臺”,即甲骨文字庫、著錄庫、文獻庫和甲骨文知識服務平臺,標志著甲骨學研究由“數字化”進入“智能化”時代[48]。其中大數據平臺構建了基于人工手寫甲骨文字符數據庫hwobc,它包含83 245個字符級樣本,3 881個字符類別,并采用傳統深度學習分類網絡進行學習分類。一方面深度學習打破館藏資源的界限,公開擴大數據集資源,從而形成豐富的測試集,提升深度學習的性能;另一方面實現文史研究與智能技術的深度融合,促進甲骨文研究工作的發展。

在領域知識的建立中,知識本體可以以知識元的形式對智能技術提取出的數據進行有效關聯,構建出語義網絡,提高對數據資源的整合利用,同時語義網絡也可利用其推理、計算能力,幫助研究者考釋未破譯的甲骨文字[49]。例如,Q. Jiao等[50]構建語義網絡,進行具有相似語義的甲骨文字符的模塊結構檢測。

3? 現有不足

3.1? 數據特征

甲骨文的構成方式主要為4種,分別是象形、形聲、會意和指事。其中,象形字占據了較大比例,一些形聲字、會意字也是在象形字的基礎上發展而來[11]。因此,甲骨文字具有較強的圖畫性。現階段,相關領域的大多數學者傾向于將甲骨文歸類至圖形體文字而非筆畫體文字。他們認為,甲骨文不僅不存在現代漢字中所謂的筆畫概念,在筆畫多少、正反向背等方面也沒有統一要求。甲骨文偏旁部首的排列既不是橫排也不是豎排,在字形結構上有著一定的隨意性。同時,由于甲骨文筆端尖細、難以區分筆畫,專家在識別甲骨文時只能將其作為一個整體輸入。這些特點在學者采用現代化技術對其識別時造成了較大的困擾。

由于獸骨、龜甲上可供鐫刻、書寫的位置有限,以現代標準來衡量,甲骨文的排版是參差錯落、疏密不均、大小不一的,部分甲骨文字為了能夠更加準確地表示相對復雜的實物,一個字通常會占據多個字的位置[10]。因此,在對甲骨文進行識別的過程中少有版式信息可以借助。

類比于現代漢字的書寫系統,不同的人對于同一個甲骨文字也有著多種不同的刻寫方法。例如,一些會意字只需要指定偏旁結合就能夠表示某種含義,而不要求其位置固定[10]。不同的刻寫方法造成了不同形體的甲骨文的存在,不同形體的甲骨文之間差別很大[51]。字體變體和相似字符之間的混淆使得甲骨文的識別具有一定的難度。此外,甲骨文字頻存在兩端集中現象,即少數高頻字占總字量的高比重,和在總字量中占極低比重的低頻字占單字總數的極高比重[52]。低頻字高度集中的現象表現出甲骨文作為一個文字系統的不成熟性。除此之外,還有大量的甲骨文屬于未考釋字[15],這些特征都為甲骨文的識別增加了難度。

部分甲骨拓片受到年代久遠、保存條件惡劣等因素的影響,表面遭受不同程度的殘蝕與破損。考古學家在獲取拓片甲骨文字圖像的過程中也會對原始甲骨拓片產生一定的破壞,如去除拓片上的殘泐痕和其他文字的痕跡等[43],這些操作可能會導致甲骨文字缺筆變形。因此,大部分拓片甲骨文字圖像都具有圖像殘缺、噪聲嚴重等缺點。

3.2? 識別技術

甲骨文識別技術目前尚處于起步階段,現有的甲骨文識別技術不僅存在無法完全提取甲骨文字的特征、無法完全符合甲骨文字的實際情況等問題,其本身的復雜性也使現有算法在使用范圍等方面受到一系列的限制。換言之,目前甲骨文識別技術的性能還不太能夠達到完全實用化水平,未來有待進一步發展與完善。

以卷積神經網絡為核心的深度學習技術在大數據環境下能夠取得較為理想的甲骨文識別效果,但該種技術并未充分利用甲骨文的自身特征,無法為神經網絡提供大量的特征提取樣本,在其他條件下的識別效果不盡人意。

文字識別領域性能優異的深度學習方法對大量樣本訓練有著較高程度的依賴。因客觀條件的限制,獲取拓片甲骨文字具有較大的難度,這導致深度學習方法缺乏訓練樣本,深度學習算法在訓練集樣本足夠大的情況下才能充分發揮其性能,而甲骨文樣本數量少,歷史跨度大,字形演變豐富,數據集不充分[16]。因此,該種方法對真實的拓片資源很難取得較高的識別精度。

在目前出土的甲骨拓片中,大部分甲骨文的字形無法得到準確辨識,其讀音和意義仍待進一步考究,這使得甲骨文編碼輸入的方法存在規則繁重、重碼多和識別效率低的缺陷[51]。以史小松為代表的“甲骨文字結構派”學者采用語料庫和支持向量機的理論并建立了甲骨文字形庫和語料庫,但該方法不僅在識別圖畫特征明顯、結構不清晰的甲骨文字時存在困難,還伴有識別效率低的問題。

4? 甲骨文識別的未來工作

4.1? 數據的擴展

安陽師范學院和中國社會科學院甲骨學殷商史研究中心合作建設的甲骨文大數據及資料檢索分析平臺“殷契文淵”[53]中涉及國內外多家機構的原始甲骨文拓片圖像,在一定程度上實現甲骨文拓片資源共享,幫助甲骨學資源由“獨享”到“共享”,提供更多的原始拓片數據集,提高數據量與覆蓋度。而要進一步推動甲骨文識別研究,需要進一步拓寬這種資源共享的渠道,該項工作任重而道遠。

數據集中樣本數量的缺少會導致識別精度較低,同時由于甲骨文原始資源大多存在圖像殘缺、背景噪聲嚴重的問題,因此當一個甲骨文字符寫入時可以考慮從字符的角度或厚度出發,通過順時針(clockwise rotate)或逆時針旋轉(counterclockwise rotate)、字符加深(dilate)或腐蝕化(erode)、壓縮(compress)或拉伸(stretch)等操作,經過多次轉化生成新的圖像,由此擴展數據集。

在將甲骨文數據信息轉移到電腦與網絡的過程中,無論是編碼類輸入法還是無編碼類輸入法均需要足夠的甲骨文專業知識,且對于未破譯的甲骨文字需要逐個檢索甲骨文字形描述庫,這無疑造成甲骨學研究的巨大障礙。因此,應當提升甲骨文輸入法技術,實現零學習成本與輸入效率的雙贏,使數字人文中的古籍數字化研究更便利,也更有利于甲骨文的研究與發展。

4.2? 技術的優化

甲骨文雖是較成熟的文字系統,但仍處于漢字早期階段,異體字眾多、低頻字高度集中,大量實驗存在檢測正確但識別錯誤的情況,易出現分類過度的問題,仍需要專家復審,對專家的依賴度較高。甲骨文識別研究可從數據增強、模型結構調整、優化實現3個方向提高識別精度。當前數據增廣策略的研究對象基本為拓片圖像,可進一步利用甲骨文單字進行研究。因此在日后的研究中,該領域研究者應考慮數據的噪聲、圖像殘缺和算法的泛化能力弱等問題,加快技術開發,提高針對原始甲骨文拓片資源的識別效率。針對卷積神經網絡本身,網絡深度過多會導致梯度消失或爆炸的問題,從而導致網絡性能下降,同時網絡深度也不容易訓練,因此不需要選擇更深入的神經網絡,而是采用最合適的優化方法。

數字人文是將信息技術、數字技術融入傳統的人文社科研究,數字人文研究者同時具備工具、數據與人文社科理論,應當逐步做到文本分析、文化分析[54-55],超越簡單的文字闡釋。因此,在甲骨文知識庫、知識圖譜的構建中,應更多考慮提取拓片全文,抽取更多實體與關系,而非僅僅依靠元數據信息抽取,從而建立更完善的甲骨文知識關聯網絡,拓寬甲骨文考釋研究,從“數據化”“數字化”發展為“智能化”,加強甲骨文資源數據庫與智能深度識別甲骨文字信息應用平臺的建設。

5? 結語

本研究對國內外甲骨文識別研究現狀和發展動態進行了述評,并在數字人文視閾下探討相關熱點。縱觀當前研究成果,隨著技術的發展應用,甲骨文識別技術從傳統的特征提取到基于深度學習的各類技術,發展迅速且前景廣闊。展望未來,數字人文視閾下的甲骨文識別的發展具有較高的研究意義。提升甲骨文識別技術,提高甲骨文分類率,構建甲骨文知識庫和知識圖譜,建立領域知識,這些都將成為甲骨文識別研究的重要內容和重要命題,研究結果也將為新時代甲骨文的探索和實踐提供重要的理論指導和工具。

參考文獻:

[1] 沃爾什, 科布, 弗雷默里, 等.iSchool中的數字人文[J].陳怡, 譯.數字人文研究, 2021, 1(3): 93-112.

[2] 鄧君, 王阮.數字人文視域下口述歷史檔案資源知識發現模型構建[J].檔案學研究, 2022(1): 110-116.

[3] 李巧明, 王曉光.跨學科視角下數字人文研究中心的組織與運作[J].數字圖書館論壇, 2013(3): 26-31.

[4] 陳力.數字人文視域下的古籍數字化與古典知識庫建設問題[J].中國圖書館學報, 2022, 48(2): 36-46.

[5] 劉乾先, 董蓮池, 張玉春, 等.中華文明實錄[M].哈爾濱: 黑龍江人民出版社, 2002.

[6] 盧芯怡.新時期甲骨文應用研究述評[J].漢字文化, 2020(21): 73-78.

[7] 劉國英.基于深度學習的甲骨文字檢測與識別[J].殷都學刊, 2020, 41(3): 54-59.

[8] 李鋒, 周新倫.甲骨文自動識別的圖論方法[J].電子科學學刊, 1996(S1): 41-47.

[9] 周新倫, 李鋒, 華星城, 等.甲骨文計算機識別方法研究[J].復旦學報(自然科學版), 1996(5): 481-486.

[10] 呂肖慶, 李沫楠, 蔡凱偉, 等.一種基于圖形識別的甲骨文分類方法[J].北京信息科技大學學報(自然科學版), 2010, 25(S2): 92-96.

[11] 顧紹通.基于拓撲配準的甲骨文字形識別方法[J].計算機與數字工程, 2016, 44(10): 2001-2006.

[12] CRISTIANINI N, TAYLOR J S. 支持向量機導論[M]. 李國正, 王猛, 曾華軍, 譯. 北京: 電子工業出版社, 2004.

[13] SHI X. Research on oracle word structure analysis based on support vector machine[D]. Shanghai: East China Normal University, 2010.

[14] LIU Y, LIU G. Oracle-bone inscription recognition based on svm[J]. Journal of Anyang Normal University, 2017, 2: 54-56.

[15] 陳婷珠, 吳少騰, 吳江, 等.基于編碼的甲骨文識別技術研究[J].中國文字研究, 2019(1): 1-12.

[16] 劉芳, 李華飆, 馬晉, 等.基于Mask R-CNN的甲骨文拓片的自動檢測與識別研究[J].數據分析與知識發現, 2021, 5(12): 88-97.

[17] 閆升, 劉芳, 孫岱萌, 等.博物館基于人工智能的甲骨文知識普及與活化傳承[J].中國博物館, 2021(3): 110-116, 144.

[18] 林小渝, 陳善雄, 高未澤, 等.基于深度學習的甲骨文偏旁與合體字的識別研究[J].南京師大學報(自然科學版), 2021, 44(2): 104-116.

[19] 張頤康, 張恒, 劉永革, 等.基于跨模態深度度量學習的甲骨文字識別[J].自動化學報, 2021, 47(4): 791-800.

[20] Meng L, Kamitoku N, Yamazaki K. Recognition of oracle bone inscriptions using deep learning based on data augmentation[C]//2018 metrology for archaeology and cultural heritage (MetroArchaeo). Piscataway: IEEE, 2018: 33-38.

[21] Meng L, Lyu B, Zhang Z, et al. Oracle bone inscription detector based on SSD[C]//International conference on image analysis and processing. Berlin: Springer, 2019: 126-136.

[22] Meng L, Kamitoku N, Kong X, et al. Deep learning based ancient literature recognition and preservation[C]//2019 58th annual conference of the Society of Instrument and Control Engineers of Japan (SICE). Piscataway: IEEE, 2019: 473-476.

[23] Wang N, Sun Q, Jiao Q, et al. Oracle bone inscriptions detection in rubbings based on deep learning[C]//2020 IEEE 9th joint international information technology and artificial intelligence conference (ITAIC). Piscataway: IEEE, 2020: 1671-1674.

[24] Du B, Liu G, Ge W. Deep self-supervised learning for Oracle bone inscriptions features representation[C]//2021 IEEE 4th international conference on information systems and computer aided education (ICISCAE). Piscataway: IEEE, 2021: 7-11.

[25] Yue X, Lyu B, Li H, et al. Deep learning and image processing combined organization of Shirakawas hand-notated documents on OBI research[C]//2021 IEEE international conference on networking, sensing and control (ICNSC). Piscataway: IEEE, 2021: 1-6.

[26] ZHANG C, ZONG R, CAO S, et al. AI-powered oracle bone inscriptions recognition and fragments rejoining[C]//Proceedings of the Twenty-Ninth International Conference on International Joint Conferences on Artificial Intelligence, Yokohama, 2021: 5309-5311.

[27] Liu Z, Wang X, Yang C, et al. Oracle character detection based on improved faster R-CNN[C]//2021 international conference on intelligent transportation, big data & smart city (ICITBS). Piscataway: IEEE, 2021: 697-700.

[28] LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector[C]//Computer Vision–ECCV 2016: Proceedings of 14th European Conference. Burlin: Springer, 2016: 21-37.

[29] 林小渝. 基于深度學習的甲骨文偏旁與合體字識別的研究與實現[D]. 重慶: 西南大學, 2021.

[30] Guo Z, Zhou Z, Liu B, et al. An improved neural network model based on inception-v3 for Oracle bone inscription character recognition[J/OL]. Scientific programming, 2022[2023-01-27]. https: //doi.org/10.1155/2022/7490363.

[31] Fujikawa Y, Li H, Yue X, et al. Recognition of oracle bone inscriptions by using two deep learning models[J/OL]. International journal of dental hygiene, 2022[2023-01-27]. https: //doi.org/10.1007/s42803-022-00044-9.

[32] Guo J, Wang C H, Roman-Rangel E, et al. Building hierarchical representations for oracle character and sketch recognition[J]. IEEE transactions on image processing, 2016, 25(1): 104?118.

[33] GAO F, ZHANG J, LIU Y, et al. Image translation for oracle bone character interpretation[J]. Symmetry, 2022, 14(4): 743.

[34] HAN W, REN X, LIN H, et al. Self-supervised learning of orc-bert augmentator for recognizing few-shot oracle characters[C]//Proceedings of the Asian conference on computer vision. Kyoto: Revised Selected Papers, 2020: 652-668.

[35] LI J, WANG Q F, ZHANG R, et al. Mix-up augmentation for oracle character recognition with imbalanced data distribution[C]//Document analysis and recognition–ICDAR 2021: 16th international conference. Berlin: Springer International Publishing, 2021: 237-251.

[36] DAZHENG L. Random polygon cover for Oracle bone character recognition[C]//2021 5th international conference on computer science and artificial intelligence. New York: Association for Computing Machinery, 2021: 138-142.

[37] GAO J, LIANG X. Distinguishing oracle variants based on the isomorphism and symmetry invariances of oracle-bone inscriptions[J]. IEEE access, 2020, 8: 152258-152275.

[38] LIU G, GE W, DU B. Recognition of OBICs variants by using deep neural networks and spectral clustering[C]//2021 IEEE 4th international conference on information systems and computer aided education (ICISCAE). Piscataway: IEEE, 2021: 39-42.

[39] 楊琳. 數字化古典文獻綜述[J].中國史研究動態, 2004(4): 20-27.

[40] 門藝.由甲骨學工具書的編纂到甲骨文數據庫的建設[J].漯河職業技術學院學報, 2019, 18(5): 1-7.

[41] 栗青生, 吳琴霞, 王蕾. 基于甲骨文字形動態描述庫的甲骨文輸入方法[J].中文信息學報, 2012, 26(4): 28-33.

[42] 栗青生, 吳琴霞, 楊玉星. 甲骨文字形動態描述庫及其字形生成技術研究[J].北京大學學報(自然科學版), 2013, 49(1): 61-67.

[43] 門藝, 張重生. 基于人工智能的甲骨文識別技術與字形數據庫構建[J].中國文字研究, 2021(1): 9-16.

[44] Huang S, Wang H, Liu Y, et al. Obc306: a large-scale oracle bone character recognition dataset[C]//2019 international conference on document analysis and recognition (ICDAR). Piscataway: IEEE, 2019: 681-688.

[45] Xian-jin S H I, Shuang C A O, Chong-sheng Z, et al. Research on automatic annotation algorithm for character-level oracle-bone images based on anchor points[J]. Acta electonica SINICA, 2021, 49(10): 2020-2031.

[46] Xiong J, Liu G, Liu Y, et al. Oracle bone inscriptions information processing based on multi-modal knowledge graph[J]. Computers & electrical engineering, 2021, 92: 107173.

[47] 江銘虎, 鄧北星, 廖盼盼, 等.甲骨文字庫與智能知識庫的建立[J].計算機工程與應用, 2004(4): 45-47, 60.

[48] 甲骨文信息處理重點實驗室[EB/OL]. [2021-04-09]. http: //jgwsys. aynu.edu.cn/index.htm.

[49] 熊晶, 韓勝偉.甲骨文研究中跨模態知識圖譜的重要性芻議[J].殷都學刊, 2020, 41(3): 60-64, 97.

[50] Jiao Q, Jin Y, Liu Y, et al. Module structure detection of oracle characters with similar semantics[J]. Alexandria engineering journal, 2021, 60(5): 4819-4828.

[51] 顧紹通.基于分形幾何的甲骨文字形識別方法[J].中文信息學報, 2018, 32(10): 138-142.

[52] 劉志基.簡論甲骨文字頻的兩端集中現象[J].語言研究, 2010, 30(4): 114-122.

[53] 李邦, 劉永革.文獻數字化技術在甲骨文數據庫建設中的應用與展望[J].殷都學刊, 2020, 41(3): 47-53.

[54] 趙薇.作為計算批評的數字人文[J].中國文學批評, 2022(2): 157-166, 192.

[55] LIU A. Where is cultural criticism in the digital humanities?[M]. GOLD M K. Debates in the digital humanities. Minneapolis: University of Minnesota Press, 2012: 495-501.

作者貢獻說明:

劉? 洋:確定選題,提出研究思路,修改論文;

陸? 逸:分析和處理數據,撰寫論文;

魏鈺馳:分析和處理數據,撰寫論文;

孫智瑩:分析和處理數據,撰寫論文;

朱立芳:修改論文。

Abstract: [Purpose/Significance] Digital humanities research is a prominent research hotspot in the current academic circle. This study systematically reviewed the frontier research on oracle bone inscription recognition from the perspective of digital humanities, which provided reference for follow-up research, promoting the effective development of digital humanities research and the recognition and utilization of characters in ancient books. [Method/Process] The literature was retrieved from multiple academic platforms such as WOS and CNKI using the method of bibliometric analysis, and a total of 103 English literature and 52 Chinese literature were screened for review. [Result/Conclusion] Interpreting the research status of oracle bone inscription recognition from three levels: traditional recognition technology, machine learning and deep learning, which analyzed the research development process, and discussed the future development trend. This paper mainly conducted a systematic review of oracle bone inscription recognition research from the perspective of digital humanities, which analyzed existing research technologies and research directions, but did not elaborate on the recognition algorithm mechanism in depth. Oracle recognition technology has gradually changed from traditional feature extraction to deep learning-based recognition technology. Although the recognition accuracy has been improved, there are still shortcomings such as serious overfitting and low recognition efficiency. Meanwhile, the construction of oracle knowledge base and knowledge graph, and the establishment of domain knowledge have good development potential in this field.

Keywords: digital humanities? ? oracle bone recognition? ? research progress? ? review

猜你喜歡
研究進展
豬δ冠狀病毒的研究進展
MiRNA-145在消化系統惡性腫瘤中的研究進展
冠狀動脈介入治療慢性完全閉塞的研究進展
離子束拋光研究進展
獨腳金的研究進展
中成藥(2017年9期)2017-12-19 13:34:44
自噬與衰老的研究進展
EVA的阻燃研究進展
中國塑料(2016年4期)2016-06-27 06:33:22
肝衰竭的研究進展
氫在治療燒傷中的研究進展
西南軍醫(2015年2期)2015-01-22 09:09:38
Marchiafava-Bignami病研究進展
西南軍醫(2015年1期)2015-01-22 09:08:36
主站蜘蛛池模板: 波多野结衣中文字幕一区二区| 一本色道久久88亚洲综合| 欧美区日韩区| 国产午夜一级淫片| 毛片免费高清免费| 久久精品视频一| 国模沟沟一区二区三区| 综合色亚洲| 国产精品久久久久久久久kt| 婷婷亚洲天堂| 67194在线午夜亚洲| 国产精品hd在线播放| 国产精品护士| 国产亚洲精品在天天在线麻豆 | 久久semm亚洲国产| 久久一本日韩精品中文字幕屁孩| 91色爱欧美精品www| 亚洲精品无码AⅤ片青青在线观看| 狠狠躁天天躁夜夜躁婷婷| 国产精品视频a| 国产成人精品亚洲77美色| 午夜福利在线观看成人| 亚洲天堂网在线视频| 青青久在线视频免费观看| 国产偷倩视频| 国产午夜精品一区二区三区软件| 天天做天天爱夜夜爽毛片毛片| 中文字幕有乳无码| 超清无码熟妇人妻AV在线绿巨人 | 久久人体视频| 久久久久国产一区二区| 国产内射一区亚洲| 精品亚洲麻豆1区2区3区| 国产成人永久免费视频| 亚洲欧洲日韩久久狠狠爱| 国产一级毛片网站| 成人在线第一页| 又黄又爽视频好爽视频| 国产日韩欧美成人| 欧美黄网站免费观看| 欧美国产菊爆免费观看| 日韩欧美国产中文| 爆乳熟妇一区二区三区| 香蕉视频在线观看www| 一本无码在线观看| 国产福利一区视频| 精品久久高清| 国产1区2区在线观看| 最新亚洲人成网站在线观看| 中日韩一区二区三区中文免费视频| 18禁影院亚洲专区| 伊人蕉久影院| 久青草国产高清在线视频| 狠狠色丁香婷婷综合| 国产浮力第一页永久地址| 99热最新网址| www.国产福利| 亚洲成a∧人片在线观看无码| 亚洲欧美另类中文字幕| 热这里只有精品国产热门精品| 成AV人片一区二区三区久久| 欧美午夜网| 扒开粉嫩的小缝隙喷白浆视频| 国产精品亚洲а∨天堂免下载| 亚洲一级毛片免费观看| 色成人亚洲| 国产精品手机在线观看你懂的 | 国产精品丝袜视频| 国产成人三级| 亚洲开心婷婷中文字幕| 大学生久久香蕉国产线观看| 夜夜高潮夜夜爽国产伦精品| 亚洲IV视频免费在线光看| 国产va视频| 91青青在线视频| 专干老肥熟女视频网站| 欧美a级在线| 青青草国产一区二区三区| 精品夜恋影院亚洲欧洲| 国产综合另类小说色区色噜噜| 欧美亚洲一二三区| 国产区人妖精品人妖精品视频|