999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

引書的自動(dòng)識(shí)別及文獻(xiàn)計(jì)量學(xué)分析

2021-12-28 01:26:18黃水清彭秋茹王東波
情報(bào)學(xué)報(bào) 2021年12期
關(guān)鍵詞:文本模型

黃水清 ,周 好 ,彭秋茹 ,王東波

(1. 南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,南京 210095;2. 南京農(nóng)業(yè)大學(xué)領(lǐng)域知識(shí)關(guān)聯(lián)研究中心,南京 210095)

1 引 言

自1955 年Garfield[1]系統(tǒng)地提出引文分析思想以來(lái),經(jīng)過(guò)60 余年的發(fā)展,引文分析法已成為文獻(xiàn)計(jì)量學(xué)中系統(tǒng)而成熟的分析方法,并被推廣應(yīng)用于知識(shí)發(fā)現(xiàn)領(lǐng)域[2]。然而,在以漢語(yǔ)文獻(xiàn)為對(duì)象的計(jì)量分析中,引文分析法多針對(duì)現(xiàn)代漢語(yǔ)文本,而對(duì)古籍文本的研究相對(duì)較少。漢語(yǔ)古籍文本承載著豐厚的傳統(tǒng)文化,是歷史和現(xiàn)實(shí)之間的橋梁。與現(xiàn)代漢語(yǔ)文本一樣,單篇(部、冊(cè))的漢語(yǔ)古籍文本并不是孤立存在的,文本與文本之間存在著千絲萬(wàn)縷的聯(lián)系。古人在撰寫著作的過(guò)程中常常旁征博引,只是形式上不符合當(dāng)代學(xué)術(shù)期刊的引用規(guī)范,即古籍文本之間存在事實(shí)上的引用關(guān)系。引書就是古籍文本中旁征博引的表現(xiàn)形象,是古籍文本中的被引文獻(xiàn),其引用形式雖不及現(xiàn)代文獻(xiàn)規(guī)范,但作用基本類似。

目前,關(guān)于引書并沒(méi)有真正的從引文分析法入手開展研究的成果,而是多采用“因書究學(xué)”的研究方法。“因書究學(xué)”著重于研究知識(shí)傳承、學(xué)術(shù)脈絡(luò)等,忽視了引書在“量”(如引文量、共引量、共現(xiàn)量等)方面的特征。李夢(mèng)姣[3]對(duì)《文選》人工逐卷標(biāo)注引書,在此基礎(chǔ)上總結(jié)和分析了《文選》的引書特點(diǎn),并從文獻(xiàn)學(xué)意義上探討《文選》引書的價(jià)值。張麗[4]梳理了《分門古今類事》的引書,包括作者、內(nèi)容、性質(zhì)、流傳以及版本在內(nèi)的各項(xiàng)內(nèi)容,并對(duì)不同版本之間引書的異文情況以及部分引文進(jìn)行了校訂,并且考察了其中所引的佚書。類似的研究還有許多,這些研究把單部古籍的引書研究得非常細(xì)致透徹;然而,知識(shí)不是孤立存在,而是共生的[5]。古籍文本之間通過(guò)引書建立起了千絲萬(wàn)縷的聯(lián)系,有必要進(jìn)行整體考察。馬創(chuàng)新等[6-7]利用XQuery(XML query)和SQL(structured query lan‐guage)查詢抽取了《十三經(jīng)注疏》中的注疏文獻(xiàn)及上下文,統(tǒng)計(jì)了其中注疏的數(shù)量分布,分析了注疏的特點(diǎn)以及耦合和同被引現(xiàn)象,進(jìn)而評(píng)估了注疏文獻(xiàn)的影響力。從數(shù)據(jù)上看,馬創(chuàng)新等[6-7]抽取得到的注疏文獻(xiàn)量大大低于本文針對(duì)對(duì)應(yīng)典籍識(shí)別出的引書條目數(shù)。馬創(chuàng)新的研究是結(jié)合信息處理手段對(duì)古籍文本的注疏進(jìn)行量化分析的有益嘗試,但總體處于初步階段,只涉及注疏這樣一種引書類型,并沒(méi)有真正把引書作為研究對(duì)象。由上述引書的研究可以看到,大多數(shù)的研究仍聚焦在微觀知識(shí)層面的引書統(tǒng)計(jì)、考證、歸類、辨析等,具有一定的研究深度;然而,很少有利用引文分析方法,從整體角度探尋古籍之間的聯(lián)系。前人的研究奠定了引書研究的基礎(chǔ),對(duì)本文的研究具有一定的借鑒意義和價(jià)值。

數(shù)據(jù)的獲取是引文分析的第一步,也是最基礎(chǔ)的工作。不同于現(xiàn)代漢語(yǔ)文本中的參考文獻(xiàn)有統(tǒng)一的著錄格式,古籍文本中的引用以多種形式散布于文中。前人的研究中,獲取引書條目主要依賴于人工逐卷逐字的閱讀。然而,面對(duì)浩如煙海的古籍,純?nèi)斯げ僮黠@然單薄無(wú)力。對(duì)于大規(guī)模甚至超大規(guī)模的古籍文本語(yǔ)料來(lái)說(shuō),想要深度挖掘其中的相互引用關(guān)系,通過(guò)人工逐本逐卷標(biāo)注顯然是不現(xiàn)實(shí)的。引書條目中的引書名稱,從自然語(yǔ)言處理的角度來(lái)看,屬于命名實(shí)體的范疇,因此,可采用命名實(shí)體自動(dòng)識(shí)別技術(shù)抽取古籍文本中的引書名稱,有效地解決大規(guī)模古籍文本引書語(yǔ)料難以構(gòu)建的問(wèn)題[8]。目前,對(duì)于中文命名實(shí)體的抽取,不論是之前依賴人工標(biāo)注的基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法,還是現(xiàn)在的從數(shù)據(jù)中自主學(xué)習(xí)的深度學(xué)習(xí)方法,國(guó)內(nèi)都已經(jīng)取得了較為滿意的結(jié)果,且涉及的領(lǐng)域較多。在針對(duì)現(xiàn)代文本的命名實(shí)體識(shí)別中,近兩年的研究主要集中在直接使用深度學(xué)習(xí)方法或者基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)識(shí)別效果的對(duì)比。王東波等[9]對(duì)比了Bi-LSTM-CRF、CRF(conditional random field)和 Bi-LSTM (bidirectional long short-term memory)三種模型在識(shí)別數(shù)據(jù)科學(xué)招聘實(shí)體中的表現(xiàn)。相較于另外兩種模型,融入CRF 的Bi-LSTM 模型的準(zhǔn)確率、召回率以及F值的均值均超過(guò)91%,能夠更有力地保證識(shí)別的效果。黃煒等[10]基于Bi-LSTM 和Bi-LSTM-CRF 模型,進(jìn)行了兩組關(guān)于識(shí)別涉恐信息實(shí)體的對(duì)比實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果來(lái)看,加入考慮字符之間關(guān)聯(lián)性的Bi-LSTM-CRF 模型取得的效果更優(yōu),準(zhǔn)確率與召回率均高達(dá)90%以上。在對(duì)古代漢語(yǔ)文本的命名實(shí)體識(shí)別中,基于CRF 模型在過(guò)去的研究中已經(jīng)取得了較好的效果,例如,李娜[11]在對(duì)方志類古籍別名的自動(dòng)抽取實(shí)驗(yàn)中,CRF 模型的精確率達(dá)到了93.52%。基于深度學(xué)習(xí)的模型,在古漢語(yǔ)中也有初步嘗試。高甦等[12]采用Bi-LSTM-CRF 對(duì)《黃帝內(nèi)經(jīng)》中的5 種實(shí)體進(jìn)行識(shí)別,在對(duì)各個(gè)模型識(shí)別性能比對(duì)的過(guò)程中,F(xiàn)值最高的是Bi-LSTM-CRF 模型,比CRF 模型的F值上升了接近10%。上述分別基于CRF、Bi-LSTM、Bi-LSTM-CRF 模型在不同領(lǐng)域進(jìn)行的各項(xiàng)實(shí)體抽取研究均取得了良好的識(shí)別效果,為本文利用這三種模型進(jìn)行引書條目的自動(dòng)識(shí)別研究奠定了基礎(chǔ),也是本文選擇這三種模型進(jìn)行實(shí)驗(yàn)的原因。

在古籍文本的引書語(yǔ)料構(gòu)建完成后,即可借助引文分析法對(duì)古籍文本的引書開展量化研究。相較于文獻(xiàn)學(xué)、訓(xùn)詁學(xué)等單純的“因書究學(xué)”引書研究方法,引文分析法能夠把隱藏在古籍文本中的引用關(guān)系量化,并揭示文本與文本之間的隱性關(guān)聯(lián)。同時(shí),隨著對(duì)引文研究的深入,這些研究成果逐步形成了體系。除了引文分析法之外,還有引文內(nèi)容分析、引用行為分析等。其中,在引用行為的研究中,又可細(xì)分為引用動(dòng)機(jī)、引用功能和引用偏好等研究。引用行為,實(shí)際上屬于信息行為的一種。關(guān)于引用行為的研究,一直存在兩個(gè)互相競(jìng)爭(zhēng)的理論,一個(gè)是規(guī)范理論(normative theory),另一個(gè)是社會(huì)構(gòu)建論(social constructivist view)。前者主張引用是為了認(rèn)同前人的工作,是一種知識(shí)的傳承[13];后者則主張引用僅是一種為了說(shuō)服讀者、增強(qiáng)其觀點(diǎn)可信度的工具[14]。目前,學(xué)術(shù)界對(duì)引用行為的實(shí)證研究主要根植于這兩種不同的研究方法。其研究對(duì)象仍以期刊論文為主,關(guān)于中文圖書類的引用行為研究較少,尤其是對(duì)古代漢語(yǔ)典籍的相關(guān)研究比較缺乏。在以現(xiàn)代漢語(yǔ)圖書為研究對(duì)象的關(guān)于引用行為的研究中,主要通過(guò)兩種方法開展研究。一是利用具體的引文內(nèi)容特征,通過(guò)研究引文內(nèi)容的位置、引用次數(shù)、引文的上下文等來(lái)揭示引用行為。例如,章成志等[15]對(duì)39 本學(xué)術(shù)專著人工構(gòu)建引用語(yǔ)料庫(kù),并分別從引用位置、引用次數(shù)以及引文上下文特征3 個(gè)層面分析學(xué)術(shù)專著的引用行為。二是通過(guò)訪談法或問(wèn)卷調(diào)查法直接解讀作者的引用行為[16]。由于現(xiàn)代圖書和古代圖書的相似性,現(xiàn)代中文類圖書的研究方法對(duì)古籍的研究有可借鑒之處。但由于本文的側(cè)重點(diǎn)在于引書的文獻(xiàn)計(jì)量學(xué)分析,尚未涉及對(duì)引書具體引用內(nèi)容的分析,因此,關(guān)于引用行為的研究只是從通過(guò)可量化的引用指標(biāo)和相關(guān)背景知識(shí)方面進(jìn)行初探。

本文把引書當(dāng)作一種特殊形式的引用文獻(xiàn),將引文分析法應(yīng)用于引書研究。首先,利用古文信息處理技術(shù)從古籍文本中獲取與引書有關(guān)的數(shù)據(jù)。把引書名稱當(dāng)作命名實(shí)體,在人工標(biāo)注訓(xùn)練語(yǔ)料的基礎(chǔ)上,通過(guò)機(jī)器學(xué)習(xí)等方法,自動(dòng)識(shí)別出古籍文本中的引書條目。然后,對(duì)引書做量化分析,計(jì)算引書的各項(xiàng)引文計(jì)量指標(biāo),展示古籍文本之間可量化的引證關(guān)系,并依據(jù)各項(xiàng)引文計(jì)量指標(biāo)探析影響古人引用動(dòng)機(jī)及引用偏好的因素,分析古人的引用行為,以期為引書的相關(guān)研究帶來(lái)新的啟示。

2 實(shí)體界定與模型介紹

2.1 語(yǔ)料簡(jiǎn)介與實(shí)體界定

本文選取阮元主持重刻的《十三經(jīng)注疏》中的《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》三部古籍的數(shù)字化文本為語(yǔ)料,所有的數(shù)據(jù)處理和研究都是在此語(yǔ)料上進(jìn)行和完成。《十三經(jīng)》作為儒家的經(jīng)典,歷朝歷代研究解讀的不計(jì)其數(shù),在所有解讀《十三經(jīng)》的典籍之中,以清朝著名學(xué)者阮元主持校刻的《十三經(jīng)注疏》 流傳最為廣泛[17]。其中,《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》的引書條目不僅數(shù)量眾多,而且引用內(nèi)容廣泛,引書類型豐富,對(duì)經(jīng)典文獻(xiàn)的引用也較多。同時(shí),《論語(yǔ)》《詩(shī)經(jīng)》《左傳》三部儒家經(jīng)典著作分別為語(yǔ)錄體典籍、詩(shī)歌類典籍、史書類典籍,體裁不同且各具代表性。因此,本文把這三部經(jīng)典著作作為研究對(duì)象是極為合適的。

與現(xiàn)代文獻(xiàn)中的引文不同,古籍文本中的引書不但沒(méi)有引用標(biāo)志,也沒(méi)有統(tǒng)一的著錄格式,更沒(méi)用統(tǒng)一的列舉位置。劉姝[18]把古籍文本的引書分為明引和隱引兩種類型。明引明確標(biāo)明了引用(引書的書名、作者),而隱引則與施引文獻(xiàn)的文字連為一體,較難分辨出引用的跡象。由于隱引較難識(shí)別,本文只統(tǒng)計(jì)明引形式的引書條目,即直接標(biāo)明了引書的引用類型。

2.2 模型選擇與簡(jiǎn)介

在1995 年MUC-6 會(huì)議上,命名實(shí)體作為一個(gè)明確的概念被正式提出[19],對(duì)命名實(shí)體識(shí)別(named entity recognition,NER)的研究從對(duì)象到方法都在不斷地推陳出新。從早期的簡(jiǎn)單統(tǒng)計(jì)模型到現(xiàn)在的基于機(jī)器學(xué)習(xí)的方法,命名實(shí)體識(shí)別的性能在不斷地提升。CRF 模型是無(wú)向圖模型下的一種馬爾科夫網(wǎng)絡(luò),因其是在某種特定條件下的馬爾科夫隨機(jī)場(chǎng),所以稱之為條件隨機(jī)場(chǎng)。與最大熵模型和隱馬爾科夫模型相比,條件隨機(jī)場(chǎng)模型作為通過(guò)自定義特征模板能同時(shí)利用實(shí)體左右兩邊的邊界特征,而且還可以重疊多重特征,利用內(nèi)外部多重信息,采用豐富特征集的辦法來(lái)提高識(shí)別精準(zhǔn)度。在引書條目實(shí)體的識(shí)別過(guò)程中,也需要考慮實(shí)體左右邊界特征的影響,因此,本文選取了在以往實(shí)體識(shí)別任務(wù)中表現(xiàn)一貫良好的CRF 模型來(lái)完成識(shí)別實(shí)驗(yàn)。

近年來(lái),隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,需要大量人工標(biāo)注的傳統(tǒng)機(jī)器學(xué)習(xí)方法逐漸被效率更高的深度學(xué)習(xí)模型所替代或部分替代。循環(huán)神經(jīng)網(wǎng)絡(luò)(recur‐rent neural network,RNN)在每個(gè)隱藏層之間建立起關(guān)聯(lián),能夠有效地捕捉上下文信息,并且尤其擅長(zhǎng)序列標(biāo)記任務(wù),但實(shí)際上RNN 在長(zhǎng)期依賴關(guān)系的學(xué)習(xí)中表現(xiàn)并不良好。在RNN 的基礎(chǔ)上,能夠記憶更長(zhǎng)數(shù)據(jù)序列的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long shortterm memory,LSTM)、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM) 應(yīng)運(yùn)而生。LSTM 單元主要由存儲(chǔ)單元、輸入門、輸出門以及遺忘門構(gòu)成。通過(guò)模型的訓(xùn)練對(duì)各個(gè)門或者單元的參數(shù)進(jìn)行控制及更新,最終使LSTM 單元能夠高效地利用長(zhǎng)距離的歷史信息。相比于LSTM 只能利用上文信息,Bi-LSTM 能夠同時(shí)利用文本的上下文信息,擁有前向?qū)雍头聪驅(qū)觾蓚€(gè)不同方向的并行層,可儲(chǔ)存來(lái)自兩個(gè)方向的未來(lái)的上下文信息,能讓文本特征信息有充分表達(dá),更有助于命名實(shí)體的有效識(shí)別。由于識(shí)別效果良好且效率高,因此大量研究選擇了Bi-LSTM 模型。本文的研究是以字為單位進(jìn)行的引書條目實(shí)體識(shí)別,在模型訓(xùn)練過(guò)程中,需要考慮前后字之間的聯(lián)系和相互作用,因此,本文選擇此模型來(lái)處理實(shí)體識(shí)別任務(wù)。

盡管Bi-LSTM 模型識(shí)別命名實(shí)體的效果較好,但當(dāng)輸出標(biāo)簽之間存在較強(qiáng)的依賴關(guān)系時(shí),其性能會(huì)受到一定程度的影響。Huang 等[20]提出了Bi-LSTM結(jié)合CRF 層的Bi-LSTM-CRF 模型。Bi-LSTM-CRF模型結(jié)合了Bi-LSTM 模型和CRF 模型的特性,在考慮實(shí)體上下文特征的同時(shí),也能兼顧輸出獨(dú)立標(biāo)簽之間前后的依賴關(guān)系,強(qiáng)依賴的問(wèn)題得到了較大改善。該模型應(yīng)用于命名實(shí)體識(shí)別任務(wù)后,能夠提升命名實(shí)體識(shí)別的性能。Bi-LSTM-CRF 模型的整體框架如圖1 所示。該模型主要包括輸入層、Embed‐ding 層、Bi-LSTM 中間層、CRF 層、輸出層等。在將單個(gè)字序列標(biāo)注以后,作為模型的輸入,中間通過(guò)正反兩個(gè)方向的LSTM 網(wǎng)絡(luò)層對(duì)其建模,再利用CRF 層對(duì)其前后關(guān)系建模,最后輸出對(duì)應(yīng)的標(biāo)簽序列。

圖1 LSTM-CRF模型的主要結(jié)構(gòu)

為了客觀檢驗(yàn)CRF 模型、Bi-LSTM 模型以及Bi-LSTM-CRF 模型在引書條目實(shí)體識(shí)別過(guò)程中的實(shí)際效果,本文以《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》 為研究對(duì)象,分別采用CRF 模型、Bi-LSTM 模型、Bi-LSTM-CRF 模型識(shí)別和抽取引書條目,并對(duì)比實(shí)體識(shí)別效果,從中篩選最適用的引書實(shí)體識(shí)別技術(shù)方案。

3 實(shí)體識(shí)別實(shí)驗(yàn)

3.1 語(yǔ)料的預(yù)處理

文本中的實(shí)體,是以詞語(yǔ)或短語(yǔ)的形式對(duì)世間萬(wàn)物的指稱,包括命名性指稱、名詞性指稱和代詞性指稱[21]。命名性指稱是指通過(guò)名字表示實(shí)體,如人名、地名等。名詞性指稱是指通過(guò)名詞或者名詞性短語(yǔ)表示實(shí)體,如職稱、職位等。代詞性指稱是指通過(guò)代詞來(lái)指代實(shí)體,如“你”“我”“他”。本文研究的命名實(shí)體集為《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》三部典籍中的引書,屬于名詞性指稱的一種。為了構(gòu)建實(shí)驗(yàn)語(yǔ)料,首先采用人工方式對(duì)《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》中明引條目進(jìn)行標(biāo)注,并規(guī)定標(biāo)記符號(hào)為“ 【】 ”。具體標(biāo)注后的樣例如下:

○正義曰:夫人孫意,傳文不明,故云魯人責(zé)之。蓋責(zé)其訴公於齊侯,而使公見(jiàn)殺,故慚懼而出奔也。【《公羊傳》】曰:“孫者何?孫猶孫也。內(nèi)諱奔,謂之孫。”【《穀梁傳》】曰:“孫之為言猶孫也,諱奔也。”杜用彼為說(shuō)。昔帝堯?qū)O位以讓虞舜,故假彼美事而為之名,猶孫讓而去。

對(duì)標(biāo)注了引書條目的語(yǔ)料依次進(jìn)行文本格式轉(zhuǎn)換、合并以及數(shù)據(jù)預(yù)處理等工作,再去掉標(biāo)點(diǎn);然后,選用5-tag 作為標(biāo)記集拆分成字,形成訓(xùn)練語(yǔ)料 。 5-tag 標(biāo) 記 集 采 用 {B-seg, M-seg, E-seg, S-seg,N-seg}標(biāo)注方式,即B-seg 表示實(shí)體的開始,M-seg 表示實(shí)體的中間部分,E-seg 表示實(shí)體的結(jié)尾,S-seg 表示單字實(shí)體,非實(shí)體用N-seg 表示。具體樣例如表1 所示。

表1 訓(xùn)練文本樣例

3.2 抽取性能評(píng)價(jià)指標(biāo)及參數(shù)設(shè)置

引書實(shí)體名的自動(dòng)識(shí)別模型選用準(zhǔn)確率P(pre‐cision)、召回率R(recall)和調(diào)和平均數(shù)F(F-mea‐sure)作為測(cè)評(píng)指標(biāo)。具體計(jì)算方法為

準(zhǔn)確率(P)=識(shí)別正確的實(shí)體數(shù)/機(jī)器識(shí)別出的實(shí)體數(shù)×100%

召回率(R)=識(shí)別正確的實(shí)體數(shù)/人工標(biāo)注的實(shí)體數(shù)×100%

調(diào)和平均值(F)=(2×P×R)/(P+R)×100%

在實(shí)驗(yàn)過(guò)程中,分別選用了CRF、Bi-LSTM 和Bi-LSTM-CRF 三種訓(xùn)練模型,三者的區(qū)別在于部分參數(shù)有所不同。其中,Bi-LSTM 和Bi-LSTM-CRF 兩者的參數(shù)相近,后者僅在前者基礎(chǔ)上加入了一層CRF模型。在模型中,具體參數(shù)值的設(shè)置為:dropout_rate=1,learning_rate:=0.001;一次訓(xùn)練所選取的樣本數(shù)batch_size=32;迭代次數(shù)epoch_num 設(shè)置為200 輪;梯度閾值Clip=5;采用Adam 梯度下降算法。

3.3 實(shí)驗(yàn)結(jié)果及分析

本文分別采用CRF、Bi-LSTM、Bi-LSTM-CRF三種模型對(duì)《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》的引書條目進(jìn)行實(shí)體名識(shí)別。為了防止實(shí)驗(yàn)結(jié)果出現(xiàn)偶然性,在實(shí)驗(yàn)中,將語(yǔ)料按照9∶1 的比例分為測(cè)試語(yǔ)料和訓(xùn)練語(yǔ)料,使用十折交叉驗(yàn)證的方法來(lái)測(cè)試所構(gòu)建模型的性能,以期從中獲得最科學(xué)合理的自動(dòng)抽取模型。測(cè)試結(jié)果如表2~表4 所示。

表2 基于CRF模型的引書條目實(shí)體識(shí)別性能

對(duì)比表2~表4 可以看出,Bi-LSTM-CRF、Bi-LSTM 模型的性能基本相同,而CRF 模型則存在明顯差距。具體而言,兩種深度學(xué)習(xí)模型的引書識(shí)別性能表現(xiàn)優(yōu)異,無(wú)論是Bi-LSTM-CRF 模型還是Bi-LSTM 模型,各組實(shí)驗(yàn)的識(shí)別準(zhǔn)確率、召回率和F值均超過(guò)了94%。與CRF 模型相比,基于Bi-LSTM所構(gòu)建的模型在準(zhǔn)確率上平均提高了5.43%,在召回率上平均提高了13.93%,F(xiàn)值提高了9.92%。相較于 Bi-LSTM 模型,Bi-LSTM-CRF 模型全部 10 組實(shí)驗(yàn)的均值有小幅度上升,其中準(zhǔn)確率提升了0.07%,召回率基本持平,F(xiàn)值提升了0.03%,但最優(yōu)模型的F值反而下降了0.01%。可以認(rèn)為,在深度學(xué)習(xí)模型中加入CRF 層對(duì)引書的實(shí)體識(shí)別并無(wú)實(shí)質(zhì)影響,Bi-LSTM-CRF 模型與Bi-LSTM 模型的F值百分比小數(shù)點(diǎn)后兩位的差異是語(yǔ)料或統(tǒng)計(jì)誤差,實(shí)際上兩個(gè)模型的性能差不多。將CRF 加入Bi-LSTM模型,目的是改善標(biāo)簽之間強(qiáng)依賴關(guān)系對(duì)實(shí)體識(shí)別的可能影響,當(dāng)引書實(shí)體名的各字符之間關(guān)聯(lián)性不強(qiáng)時(shí),引入CRF 層的意義就不大了。

表4 基于Bi-LSTM-CRF模型的引書條目實(shí)體識(shí)別性能

表3 基于Bi-LSTM模型的引書條目實(shí)體識(shí)別性能

以上數(shù)據(jù)說(shuō)明,在引書的實(shí)體名識(shí)別方面,深度學(xué)習(xí)模型的性能比傳統(tǒng)機(jī)器學(xué)習(xí)的性能要優(yōu)越很多,在Bi-LSTM-CRF 和Bi-LSTM 兩種深度學(xué)習(xí)模型中,融入CRF 的模型有時(shí)能提高序列化模型的性能,但總體性能無(wú)明顯差異。總之,在無(wú)任何人為特征添加的情況下,僅基于“字”這一基本構(gòu)成元素,Bi-LSTM-CRF、Bi-LSTM 兩種實(shí)體識(shí)別模型均可選擇。綜合實(shí)驗(yàn)結(jié)果與技術(shù)先進(jìn)性兩方面考慮,Bi-LSTM-CRF 模型可作為首選。

4 古籍引文分析

4.1 引書總體情況

對(duì)識(shí)別出的引書條目進(jìn)行匯總,計(jì)算得出三部典籍總計(jì)發(fā)生了12369 次引用行為,統(tǒng)計(jì)結(jié)果如表5 所示。從統(tǒng)計(jì)數(shù)據(jù)來(lái)看,引用的總次數(shù)越多,引書的種類就越豐富;反之,引用的總次數(shù)越少,引書的種類也越少。同時(shí),數(shù)據(jù)也顯示,古籍文本本身的篇幅長(zhǎng)短會(huì)影響引書的規(guī)模和種類。此外,體裁和內(nèi)容上的不同也會(huì)影響引書類型。

表5 引用概況

《論語(yǔ)》全書20 篇492 章,累計(jì)1.1 萬(wàn)余字,而《論語(yǔ)注疏》的篇幅總計(jì)達(dá)到23.6 萬(wàn)余字。《左傳》全書約19.6 萬(wàn)余字,《春秋左傳正義》汲取各家之營(yíng)養(yǎng),全文共計(jì)200 多萬(wàn)字。《詩(shī)經(jīng)》收錄詩(shī)歌305篇,共3.9 萬(wàn)余字,在孔穎達(dá)旁征博引之下,《毛詩(shī)正義》成為了一部將近800 萬(wàn)字的鴻篇巨著。在內(nèi)容體裁上,《論語(yǔ)》是一部記錄孔子一行人言語(yǔ)形為的語(yǔ)錄體著作,是儒家思想最初階段最重要的源泉。孔子學(xué)識(shí)淵博,《論語(yǔ)》一書的內(nèi)容幾乎無(wú)所不包,涉及社會(huì)、政治、經(jīng)濟(jì)、文化等各個(gè)方面。因此,詮釋《論語(yǔ)》必然要具備廣博的學(xué)識(shí)。由于《論語(yǔ)》的文體主要是語(yǔ)錄和對(duì)話的形式,而《論語(yǔ)注疏》中的引書更多的是對(duì)其中的對(duì)話背景信息進(jìn)行補(bǔ)充,其次才是解釋某一詞語(yǔ)在特定情境下的含義。《詩(shī)經(jīng)》內(nèi)容豐富,用詞考究,反映了包括政治、祭祀、天文、地理、動(dòng)植物等在內(nèi)的社會(huì)生活的方方面面。為了更好地服務(wù)于科舉考試,孔穎達(dá)熔鑄百家之長(zhǎng),尤其注重“禮教”和“訓(xùn)詁”,對(duì)《詩(shī)經(jīng)》的內(nèi)容進(jìn)行了盡可能細(xì)致入微的呈現(xiàn),使得《毛詩(shī)正義》成為《五經(jīng)正義》中最具價(jià)值的一部著作。《左傳》與《公羊傳》和《谷梁傳》一起為解釋《春秋》而著,是一部編年體史學(xué)著作。與《公羊傳》和《谷梁傳》重解經(jīng)不同,《左傳》重記事,以故事的形式講述了《春秋》涉及的史實(shí);而《春秋左傳正義》則從政治角度通過(guò)大量引用歷史類文獻(xiàn),對(duì)某些歷史人物和事件其進(jìn)行詮釋和辨正。

4.2 引書分布特征分析

4.2.1 引書的分布特點(diǎn)與核心古籍

古籍文本的引書呈現(xiàn)二八律,即引書分布不均勻,小部分的引書承擔(dān)了大部分的被引量。在三部古籍中,引用次數(shù)排前10 位的引書在總引用次數(shù)中占比較大,均超過(guò)了70%,《毛詩(shī)正義》更是達(dá)到了79%(表6)。另外,統(tǒng)計(jì)數(shù)據(jù)顯示,《論語(yǔ)注疏》中引用總次數(shù)的一半來(lái)自6%的引書,而20%的引書被引次數(shù)之和占總被引用總數(shù)的81%;《毛詩(shī)正義》中引用總次數(shù)的一半來(lái)自2%的引書,9%的引書被引次數(shù)之和占總被引用次數(shù)的81%;《春秋左傳正義》中引用總次數(shù)的一半來(lái)自3%的引書,8%的引書被引次數(shù)之和占總被引用次數(shù)的80%。并且,三部典籍中單種引書被引次數(shù)占比極高的引書多有重復(fù)。以上數(shù)據(jù)說(shuō)明,古籍中也存在“核心”文獻(xiàn),處在核心區(qū)的古籍相較于非核心區(qū)的古籍更具影響力。

表6 引用次數(shù)前10位的引書占比

4.2.2 引書中各類別文獻(xiàn)引用情況

按照經(jīng)史子集四部分類法,《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》三部典籍中的引書均以經(jīng)部文獻(xiàn)最多,其次是史部文獻(xiàn),然后才是子部和集部文獻(xiàn)。屬于經(jīng)部的引書在《論語(yǔ)注疏》中占比達(dá)75%,在《毛詩(shī)正義》中占比達(dá)88%,在《春秋左傳正義》中占比達(dá)80%。分析三部典籍的原文發(fā)現(xiàn),部分對(duì)史部、子部、集部的引用也是出于解經(jīng)釋經(jīng)的目的。這些數(shù)據(jù)充分證明了《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》的絕對(duì)經(jīng)學(xué)屬性。出現(xiàn)這種情況,主要有三方面原因。第一,參與編撰三部典籍的皆為當(dāng)時(shí)的博學(xué)大儒,主持編撰的兩人均是著名的經(jīng)學(xué)家。孔穎達(dá)為孔子的第三十二代孫,師從大儒劉焯,家學(xué)淵源又勤奮好學(xué),經(jīng)學(xué)功底深厚。邢昺為北宋經(jīng)學(xué)家,對(duì)儒學(xué)有極大的造詣,其經(jīng)學(xué)思想上承孔穎達(dá),曾被選為太宗諸子講群經(jīng)。因此,相較于其他類型的文獻(xiàn),他們對(duì)于經(jīng)部文獻(xiàn)更為熟悉。第二,唐宋的統(tǒng)治者都把儒家思想作為主導(dǎo)思想,儒學(xué)盛行。第三,與注疏的特點(diǎn)有關(guān)。“以經(jīng)釋經(jīng)”是訓(xùn)詁學(xué)的傳統(tǒng)體例,上述三者的引書數(shù)量分布恰好體現(xiàn)了“以釋經(jīng)義”為核心的基本原則,全面體現(xiàn)了注疏的重點(diǎn)和方法。

為了更直觀地顯示出《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》三部注疏文獻(xiàn)中引書的引用情況,本文特繪制引書詞云圖,如圖2 所示。通過(guò)詞云圖,可以清楚地看到三部注疏文獻(xiàn)總引書量較大,具體引書情況各不相同,但高被引引書有所重合。

圖2 《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》引書詞云圖

4.3 引書引文耦合分析

引文耦合[22-23]是指兩篇或多篇文獻(xiàn)具有共同的引用文獻(xiàn),耦合強(qiáng)度反映了文獻(xiàn)與文獻(xiàn)之間關(guān)聯(lián)關(guān)系的強(qiáng)弱。典籍之間同樣存在大量的共同引書現(xiàn)象,因此也可以使用引文耦合方法來(lái)探究。通過(guò)對(duì)《論語(yǔ)注疏》《毛詩(shī)正義》《春秋左傳正義》共同引書的計(jì)算,得到三部典籍的耦合強(qiáng)度矩陣,如表7所示。

表7 引書引文耦合矩陣

耦合強(qiáng)度用施引文獻(xiàn)共同引用的參考文獻(xiàn)來(lái)衡量,共同引用的參考文獻(xiàn)越多,耦合強(qiáng)度也越大,表示兩者關(guān)系越近。在三部典籍中,單從共同引用的引書量來(lái)看,《春秋左傳正義》和《毛詩(shī)正義》的耦合強(qiáng)度最高,三部典籍之間的平均耦合強(qiáng)度為54.67。但由于三部典籍的引書基數(shù)的大小不一,因此,僅考慮數(shù)量的耦合強(qiáng)度存在一定的偏差。加入對(duì)引書基數(shù)的考慮后可以看出,在三者之間,《論語(yǔ)注疏》與《春秋左傳正義》的關(guān)系比《論語(yǔ)注疏》與《毛詩(shī)正義》之間的關(guān)系要更近,《毛詩(shī)正義》和《春秋左傳正義》之間的關(guān)系又比兩者分別與《論語(yǔ)注疏》的關(guān)系要近。從成書時(shí)間線來(lái)看,《詩(shī)經(jīng)》成書于春秋中期,《左傳》成書于春秋末期,《論語(yǔ)》成書于戰(zhàn)國(guó)初期。一般來(lái)說(shuō),同時(shí)代背景的典籍可能在各方面有更多的共同點(diǎn)。在補(bǔ)充、解釋典籍時(shí),時(shí)間相近的典籍由于社會(huì)環(huán)境等的相似,引用的書目也會(huì)更趨于一致。從注疏風(fēng)格來(lái)看,《毛詩(shī)正義》和《春秋左傳正義》同屬唐疏,而《論語(yǔ)注疏》屬宋疏。同一時(shí)代的注疏風(fēng)格較為相近,而且前兩者的注疏人相同,因此,前兩者之間的關(guān)系更為親密。從典籍自身特點(diǎn)來(lái)看,《毛詩(shī)正義》《春秋左傳正義》《論語(yǔ)注疏》三者都廣泛征引了經(jīng)史子集各個(gè)門類的著作,但前兩者在篇幅上遠(yuǎn)勝于后者,因此前兩者之間的耦合強(qiáng)度會(huì)更大。再看《論語(yǔ)》《詩(shī)經(jīng)》《左傳》三部原著本身,《左傳》用敘事散文的形式記載了具體的史實(shí),《詩(shī)經(jīng)》用詩(shī)歌的形式反映了社會(huì)風(fēng)貌,而《論語(yǔ)》則主要以對(duì)話的形式體現(xiàn)孔子的思想。就內(nèi)容和形式來(lái)說(shuō),孔子及其弟子的言行勢(shì)必要從具體的事件當(dāng)中發(fā)生,詩(shī)歌的編排也要出于一定的現(xiàn)實(shí)事件,那么《論語(yǔ)》和《詩(shī)經(jīng)》分別與《左傳》在內(nèi)容上存在關(guān)聯(lián)也是合理的,因此,《論語(yǔ)注疏》和《春秋左傳正義》以及《毛詩(shī)正義》和《春秋左傳正義》在撰述時(shí)必然有可能大量借鑒相同的資料。

為了能更清晰地展現(xiàn)三部典籍之間的關(guān)聯(lián),本文選取了引用次數(shù)前30 位的引書,繪制了三部典籍的引用關(guān)系網(wǎng)絡(luò)圖,如圖3 所示。

圖3 引用關(guān)系網(wǎng)絡(luò)圖

三部典籍的引書數(shù)據(jù)還有一個(gè)有趣的現(xiàn)象。《論語(yǔ)注疏》對(duì)《論語(yǔ)》以及《春秋左傳正義》對(duì)《左傳》的引用比例較低,而《毛詩(shī)正義》引用《詩(shī)經(jīng)》的比例達(dá)到了13%。王力先生曾說(shuō),“孔穎達(dá)作疏的長(zhǎng)處在于五經(jīng)融會(huì)貫通,特別善于以本書證本書”[24]。《毛詩(shī)正義》正體現(xiàn)了這一點(diǎn)。不同于三傳之間互為補(bǔ)充的《春秋三傳》,作為中國(guó)古代詩(shī)歌開端的《詩(shī)經(jīng)》是獨(dú)立存在的一部詩(shī)歌總集,在內(nèi)容上并沒(méi)有其他同時(shí)代的作品與其互為補(bǔ)充。在注釋《詩(shī)經(jīng)》時(shí),《毛詩(shī)正義》通過(guò)“以詩(shī)釋詩(shī)”來(lái)達(dá)到闡明主旨、解釋詞義、融會(huì)貫通的作用。在《毛詩(shī)正義》對(duì)《詩(shī)經(jīng)》本身的這些引證中,既有對(duì)內(nèi)容的背景補(bǔ)充,也有對(duì)內(nèi)容情感的闡釋說(shuō)明等。由此可見(jiàn),《詩(shī)經(jīng)》的前后內(nèi)容之間是具有一定關(guān)聯(lián)性的,前文與后文相互呼應(yīng)。

4.4 引書文獻(xiàn)影響力分析

4.4.1 同被引矩陣

引書被引頻次越高,說(shuō)明該書參考價(jià)值越大。三部典籍有很多共同的引書,而且這些共同的引書在總引用次數(shù)中占比很大。本文選取被引次數(shù)合計(jì)大致占到總被引次數(shù)90%的引書,作為全部引書的典型代表,對(duì)其做同被引分析。基于同被引數(shù)據(jù),生成同被引矩陣,如表8 所示。同被引矩陣是表示兩篇文獻(xiàn)之間相似度程度的矩陣[25],即兩者的數(shù)字越大,表明兩者的關(guān)系越近。

表8 引書同被引矩陣

在所得到的18×18 矩陣中,同被引次數(shù)的范圍為4~1407,最大同被引次數(shù)1407 由引書《禮記》與《詩(shī)經(jīng)》所形成。同被引次數(shù)在1000 以上的還有:《禮記》與《爾雅》,《禮記》與《周禮》,《詩(shī)經(jīng)》與《爾雅》,《周禮》與《爾雅》,《詩(shī)經(jīng)》與《周禮》。從上述數(shù)據(jù)可以看出,高同被引對(duì)幾乎都是“三禮”《詩(shī)經(jīng)》《爾雅》三者之間的組合。另外,根據(jù)同被引矩陣計(jì)算出引書的平均同被引次數(shù)如表9 所示。其中,《禮記》的平均同被引次數(shù)最大,為476.18;而《孝經(jīng)》的平均同被引次數(shù)最低,為39.06。

表9 引書平均同被引

從平均同被引次數(shù)的高低來(lái)看,排名前4 位的引書分別是《禮記》《詩(shī)經(jīng)》《周禮》《爾雅》。綜合來(lái)看,禮制類古籍在對(duì)這三部典籍來(lái)說(shuō)都具有較大的影響力。本文所選取的三部典籍均為欽定的官修經(jīng)書,本意就是為統(tǒng)治者鞏固統(tǒng)治、教化天下所著,而能反映儒家禮樂(lè)文化的“三禮”,恰恰是維護(hù)封建等級(jí)制度的手段。再者,典籍的內(nèi)容或多或少能反映當(dāng)時(shí)的社會(huì)背景。春秋戰(zhàn)國(guó)時(shí)期,各國(guó)紛爭(zhēng)不斷,兼并戰(zhàn)爭(zhēng)四起,勢(shì)必會(huì)出現(xiàn)較多破壞禮法的事件。而“《禮》以節(jié)人”,孔子也要求統(tǒng)治者“克己復(fù)禮”。由此可見(jiàn),三部典籍引用較多的“三禮”來(lái)做補(bǔ)充解釋也不無(wú)道理。又有言說(shuō)“禮”是詩(shī)教的根本,《詩(shī)經(jīng)》在相當(dāng)程度上也能體現(xiàn)周代的禮樂(lè)文化。先秦諸子在說(shuō)理論證時(shí),也多引用《詩(shī)經(jīng)》中的句子以增強(qiáng)說(shuō)服力。而小學(xué)類引書的作用是解釋經(jīng)傳的字義,研習(xí)經(jīng)典,在于理解其中的奧義,而以解釋字詞為主的小學(xué)類書籍無(wú)疑是理解經(jīng)典意義的“橋梁”。

4.4.2 同被引引書的聚類

利用SPSS Statistics 軟件中聚類分析的分層聚類法,將上述引書同被引矩陣導(dǎo)入SPSS 中,聚類方法選擇組間連接,度量標(biāo)準(zhǔn)選擇Pearson 相關(guān)性,標(biāo)準(zhǔn)化選擇Z得分,由此得到聚類譜系圖,如圖4所示。18 種引書被分成了3 大類、6 小類。

圖4 引書聚類譜系圖

區(qū)別于一般性的古籍分類目錄,圖4 的各類目融入了典籍影響力因素。圖4 從上至下6 小類引書的平均同被引分別為458、48、47、253、290、190。由于樣本量過(guò)小,帶來(lái)了圖4 中個(gè)別類目的區(qū)分度較小的問(wèn)題,但總體上圖4 的各類目之間的界限還是比較清晰的。

通過(guò)計(jì)算譜系圖4 小類中各類典籍的平均同被引次數(shù),按數(shù)值高低排序得到圖5。從圖5 中可得知,從左至右,六類典籍的影響力逐漸減弱。可以看出,排在前面的典籍為“三禮”、《詩(shī)經(jīng)》和小學(xué)類典籍《爾雅》《說(shuō)文解字》,此三類典籍的重要性已在前文講述過(guò),在此不再贅述。之后為《尚書》《左傳》《公羊傳》《國(guó)語(yǔ)》《漢書》《史記》等,它們的共同之處在于同為史書,都是歷史事件的匯編,保存著重要的史料。排在最后的《春秋》和《孝經(jīng)》也是存在共性的,其中,《春秋》雖為第一部編年體史書,但記事語(yǔ)言極為簡(jiǎn)練,一字褒貶、數(shù)字成言,其后出現(xiàn)的“春秋三傳”都是對(duì)其進(jìn)行補(bǔ)充和解釋的書籍。《孝經(jīng)》為古代論述孝道的著作,南宋以后才被列為十三經(jīng)之一。而其本身僅二卷十八章,是十三經(jīng)中篇幅最短的一部。兩者篇幅都較短,且內(nèi)容上與別的典籍具有重復(fù)性,在歷史上的影響力也可作等量齊觀。由此可見(jiàn),與傳統(tǒng)分類目錄相比,融入影響力的分類方法可以方便地識(shí)別出影響力類似的典籍,當(dāng)研究具體問(wèn)題時(shí)更有針對(duì)性。

圖5 引書影響力大小

5 古人引用行為探析

包括引書在內(nèi)的引文,是引用行為的外化形式,受到施引者的引用動(dòng)機(jī)、引用偏好等影響。而引用行為則是學(xué)者在學(xué)術(shù)行為中借鑒他人的研究成果以表達(dá)自己思想的行為,是信息交流行為的一種[26]。信息交流行為又隸屬于信息行為。引用行為功能多種多樣,形式也復(fù)雜多變。但是,作為信息行為的一種,引用行為存在共性,比如遵循價(jià)值決定規(guī)律、穆爾斯定律等。以下將通過(guò)所得到的多維度引書計(jì)量指標(biāo),從成書目的和成書背景兩個(gè)角度,具體探討學(xué)者特征、組織環(huán)境等對(duì)引用行為的影響。

5.1 成書目的

《論語(yǔ)注疏》《春秋左傳正義》《毛詩(shī)正義》三部典籍皆與科舉制度有著千絲萬(wàn)縷的聯(lián)系。自隋代有科舉之事起,科舉考試既是統(tǒng)治者選拔人才的有效途徑,也是統(tǒng)治者實(shí)現(xiàn)其政治目的的有力手段。自漢代以來(lái),在經(jīng)學(xué)領(lǐng)域存在諸多流派,發(fā)展到唐朝初期,儒學(xué)仍然存在南北殊途、各類注釋書籍紛紜甚至混亂的局面,朝廷為了統(tǒng)一政權(quán)的需要,勢(shì)必要先統(tǒng)一思想。因此,朝廷急需一個(gè)統(tǒng)一的人才選舉規(guī)范,便組織人員給科舉考試編寫教科書之舉。唐朝的科舉,分設(shè)進(jìn)士科和明經(jīng)科,其中,明經(jīng)科的主要考察《五經(jīng)》的經(jīng)義。《五經(jīng)》包括《周易》《尚書》《詩(shī)經(jīng)》《禮記》和《春秋左傳》,是儒學(xué)思想的重要載體。因此,孔穎達(dá)等奉詔主持編撰了《五經(jīng)正義》,本文所選取的《毛詩(shī)正義》《春秋左傳正義》正屬于其范疇。唐朝滅亡以后,在歷經(jīng)了五代十國(guó)的分裂而建立起來(lái)的北宋王朝深知文化教育對(duì)于國(guó)家長(zhǎng)治久安的重要性,于是統(tǒng)治者確立了“尊孔崇儒”的基本國(guó)策。作為儒家思想最原始載體的《論語(yǔ)》,地位空前提升,再次引起了極大的重視。于是,邢昺等奉宋真宗之詔,修改舊疏,成新疏《論語(yǔ)注疏》。

為了能更詳細(xì)地解讀經(jīng)典以更好的為科舉考試提供參考資料,注疏者們俯察歷史,廣泛取材,吸收經(jīng)史子集各個(gè)門類的著作。從表5 可看到,注疏者們征引了大量的文獻(xiàn);而從表6 來(lái)看,征引的文獻(xiàn)大部分為經(jīng)部著作。這些數(shù)據(jù)可以證明,唐宋學(xué)術(shù)熔鑄百家,且《毛詩(shī)正義》《春秋左傳正義》《論語(yǔ)注疏》具有絕對(duì)的經(jīng)學(xué)屬性。這也和三部典籍的本質(zhì)分不開。作為官修書的經(jīng)學(xué),這些典籍屬于官方意識(shí)形態(tài),其目的是維護(hù)統(tǒng)治階級(jí)的思想意識(shí),編纂的初衷不是追求“新”思想,而是為政治服務(wù)。Garfield[27]曾列出15 種典型的引用動(dòng)機(jī),此處的引書明顯符合其中的2 種:提供背景資料;標(biāo)識(shí)某想法的原始文獻(xiàn)。此外,“依經(jīng)立義”是古代慣例[28],金克木先生曾說(shuō),“按照古代慣例,無(wú)論什么新思想都得依傍并引證古圣先賢,最好是利用古書作注”[29]。中國(guó)文化以儒學(xué)為主,而儒學(xué)的代表為經(jīng)學(xué)著作,因此,古人有著引經(jīng)據(jù)典的寫作習(xí)慣。在大多數(shù)情況下,把經(jīng)典著作搬出來(lái)引用,能使自己的主張更具說(shuō)服力,增強(qiáng)權(quán)威性。在這個(gè)意義上,古人的引用動(dòng)機(jī)更符合社會(huì)構(gòu)建論的主張。

5.2 成書背景

與對(duì)任何事物的研究一樣,對(duì)古籍的注釋也受到社會(huì)環(huán)境和研究者主觀因素的制約。一定的學(xué)術(shù)文化總是依托于特定的社會(huì)政治背景之中。在封建社會(huì),儒學(xué)一直都是社會(huì)的正統(tǒng)思想。自漢武帝提出“罷黜百家,獨(dú)尊儒術(shù)”,儒家的正統(tǒng)地位已基本確立,同時(shí)期國(guó)家實(shí)力也有了顯著提升。東漢末年至魏晉南北朝時(shí)期,儒學(xué)受到挑戰(zhàn),地位不保,相繼了出現(xiàn)了多起滅國(guó)現(xiàn)象。后來(lái)的統(tǒng)治者從中吸取了經(jīng)驗(yàn)教訓(xùn),自唐朝開始,統(tǒng)治者極力提升儒學(xué)在國(guó)家各個(gè)層面的地位,以求興邦安國(guó)。本文所研究的三本古籍,均為王朝建朝初期為解決儒學(xué)內(nèi)部“章句繁雜”所著,編撰的并非一家之言,而是幾個(gè)時(shí)代的注家共同的成果。《毛詩(shī)正義》在編撰過(guò)程中,以成書于漢代的《毛傳》和《鄭箋》為基礎(chǔ),或在其注解的基礎(chǔ)上加以闡明,或?qū)烧叩牟煌M(jìn)行辨正,或提出一些新的看法。《春秋左傳正義》以杜預(yù)《左傳注》為底本,在綜合劉炫等義疏的基礎(chǔ)上,搜集大量《公羊傳》《谷梁傳》、“三禮”以及《爾雅》等資料,對(duì)《春秋左傳》進(jìn)行了翔實(shí)的注解。《論語(yǔ)注疏》的成書主要經(jīng)歷了如下幾個(gè)階段:①何宴融合了東漢和魏晉南北朝時(shí)期的注釋,形成了《論語(yǔ)集解》;②皇侃對(duì)《論語(yǔ)集解》進(jìn)行疏解,加工整理成《論語(yǔ)義疏》,極具玄學(xué)色彩;③北宋邢昺等奉詔重新為《論語(yǔ)》作疏,刪除《論語(yǔ)義疏》中的涉玄之語(yǔ),增加對(duì)《論語(yǔ)》內(nèi)容的解釋,形成《論語(yǔ)注疏》。

除了成書的社會(huì)環(huán)境類似以外,為首的兩位注疏人也在不同時(shí)期分別經(jīng)歷過(guò)政權(quán)由分散走向統(tǒng)一。孔穎達(dá),公元574 年生于北朝,貞觀年間奉唐太宗詔完成《毛詩(shī)正義》和《春秋左傳正義》疏解。同樣由亂世入統(tǒng)一王朝的邢昺出生于公元932年的后唐。宋真宗咸平二年(公元999 年),68 歲的邢昺奉詔改舊疏,并于公元1001 年編成。兩人不僅在人生經(jīng)歷上有共同點(diǎn),思想上更是一脈相承。邢昺的《論語(yǔ)注疏》秉承孔穎達(dá)《五經(jīng)正義》的注疏原則,注釋翔實(shí)。從上述引書的分布特征來(lái)看,三部典籍的引書都是經(jīng)部文獻(xiàn)居多,平均占到了總引用文獻(xiàn)的81%以上。上述學(xué)者均為儒家學(xué)者、經(jīng)學(xué)大師,其自身的學(xué)術(shù)主張本就為儒學(xué),在知識(shí)結(jié)構(gòu)方面經(jīng)部文獻(xiàn)是其本源,多引經(jīng)部文獻(xiàn)符合所謂的行為習(xí)慣。由于施引者的學(xué)術(shù)背景,再加上儒學(xué)在中國(guó)封建社會(huì)中正統(tǒng)地位,經(jīng)部文獻(xiàn)無(wú)論是從施引者對(duì)其的熟悉度,還是保存的完整性和傳播的廣泛性來(lái)看,都比其他類型的文獻(xiàn)更具有易獲取性,正是“省力法則”的體現(xiàn),也符合所謂的穆爾斯定律。而實(shí)際引用結(jié)果也證明了這一點(diǎn)。

6 結(jié) 語(yǔ)

本文將古籍文本中的引書看作被引文獻(xiàn),在解決引書條目自動(dòng)識(shí)別問(wèn)題的基礎(chǔ)上,利用引文分析法研究引書分布規(guī)律,進(jìn)而探討了古籍文本之間的關(guān)聯(lián)和影響力,并從不同的角度探析了古人引用行為,構(gòu)建了古籍文本引書計(jì)量學(xué)研究的初步框架,為引書的研究提供了新視角。

本文在三個(gè)方面存在局限。首先,在數(shù)據(jù)處理上,對(duì)訓(xùn)練集的人工標(biāo)引可能存在誤差,特別是未對(duì)隱引進(jìn)行標(biāo)注;其次,在引文指標(biāo)方面,僅關(guān)注了量化指標(biāo),沒(méi)有對(duì)引用做深入的文本內(nèi)容分析;最后,本文的研究對(duì)象僅為《十三經(jīng)注疏》中的三部典籍的引書,得出的結(jié)論具有一定的片面性。

在未來(lái)的研究中,可擴(kuò)大研究對(duì)象,增加樣本典籍的數(shù)量,使數(shù)據(jù)更充實(shí),以期得出更具普遍性的研究結(jié)論。同時(shí),在研究?jī)?nèi)容方面可以考慮對(duì)引用內(nèi)容進(jìn)行挖掘,更加深入地研究古籍文本中的引用行為,為引書研究提供更有價(jià)值的視角。另外,也可以考慮在數(shù)據(jù)樣本覆蓋面足夠大以后,構(gòu)建一個(gè)全面的古籍文本引文數(shù)據(jù)庫(kù),相當(dāng)于構(gòu)建中華古籍的SCI。

猜你喜歡
文本模型
一半模型
重要模型『一線三等角』
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
論《柳毅傳》對(duì)前代文本的繼承與轉(zhuǎn)化
人間(2015年20期)2016-01-04 12:47:10
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 91久久精品国产| 1769国产精品视频免费观看| A级毛片高清免费视频就| 国产免费久久精品99re不卡| 一本视频精品中文字幕| 69av在线| 毛片免费在线视频| 亚洲成a人片77777在线播放| 人妻中文久热无码丝袜| 日本不卡免费高清视频| 亚洲无码高清免费视频亚洲| 激情国产精品一区| 亚洲无码不卡网| 免费不卡视频| 999国产精品永久免费视频精品久久 | 婷婷午夜影院| 国产SUV精品一区二区| 在线视频一区二区三区不卡| 中国黄色一级视频| 99精品久久精品| 国产a网站| 中文字幕色在线| 在线人成精品免费视频| 亚洲男人天堂2020| 亚洲国产精品日韩av专区| 九九久久精品免费观看| 精品综合久久久久久97超人| 丁香五月婷婷激情基地| 日韩福利视频导航| 波多野结衣第一页| 91伊人国产| 国产成人综合久久精品尤物| 精品国产欧美精品v| 久996视频精品免费观看| 欧美在线网| 欧美成人精品高清在线下载| 在线欧美日韩| 国产精品页| 第一页亚洲| 黄色网址免费在线| 青草精品视频| 永久毛片在线播| 亚洲精品另类| 日韩不卡高清视频| 巨熟乳波霸若妻中文观看免费| 男女精品视频| 免费观看无遮挡www的小视频| 国产系列在线| 日韩欧美中文在线| 国产精品一区二区不卡的视频| 精品视频在线一区| 99国产在线视频| 国产精品jizz在线观看软件| 久久精品人妻中文系列| 亚洲欧美另类色图| 日韩在线1| 爱色欧美亚洲综合图区| 播五月综合| 亚洲中文字幕无码爆乳| 亚洲欧美极品| 午夜激情婷婷| 熟妇无码人妻| 亚洲中文字幕手机在线第一页| 色亚洲成人| 最新国产成人剧情在线播放| 手机永久AV在线播放| 中国精品自拍| 欧美综合成人| 性欧美久久| 日韩精品一区二区三区大桥未久| 最新国产高清在线| 国产第四页| 欧美日韩国产综合视频在线观看| 2021天堂在线亚洲精品专区 | 亚洲成A人V欧美综合| 激情六月丁香婷婷四房播| 国产国产人成免费视频77777| 精品撒尿视频一区二区三区| 国产免费网址| 在线观看免费黄色网址| 永久毛片在线播| 色老二精品视频在线观看|