王浩學(xué) 王興隆



摘 要:此研究以《語(yǔ)言學(xué)名詞》為數(shù)據(jù)源,使用Neo4j圖數(shù)據(jù)庫(kù),采用自頂向下的圖譜構(gòu)建模式,融合事件理論與事理知識(shí)圖譜構(gòu)建方法生成語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜,直觀展現(xiàn)語(yǔ)言學(xué)術(shù)語(yǔ)內(nèi)部的五類屬性值及術(shù)語(yǔ)節(jié)點(diǎn)之間的九類關(guān)系,提供了一種較為合理的學(xué)科知識(shí)圖譜構(gòu)建模式,對(duì)語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的部分特征進(jìn)行了分析,并對(duì)語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜研究進(jìn)行了總結(jié)和展望。
關(guān)鍵詞:事理圖譜;知識(shí)圖譜;語(yǔ)言學(xué)術(shù)語(yǔ);學(xué)科術(shù)語(yǔ);Neo4j
中圖分類號(hào):H083文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.12339/j.issn.1673-8578.2023.03.003
Abstract:Taking? the Chinese Languistic Terms as data source and using the Neo4j graph database, we adopt a topdown graph construction model, and integrate event theory and event evolutionary graph construction methods to generate linguistic terminology knowledge graphs. We hope to visualize the five types of attribute values within linguistic terms and nine types of relationships among term nodes, and provide a more reasonable disciplinary knowledge graph construction model. We also analyze some features of the linguistic terminology knowledge graph, and summarize and outlook the research on linguistic terminology knowledge graph.
Keywords:event evolutionary graph; knowledge graph; linguistic term; subject term; Neo4j
0 引言
知識(shí)圖譜的定義由Google公司在2012年提出,被界定為用來(lái)提升搜索引擎功能的輔助知識(shí)庫(kù)。知識(shí)圖譜是用圖模型來(lái)表述人類認(rèn)識(shí)并構(gòu)建與世界萬(wàn)物之間關(guān)系的技術(shù)方式,實(shí)質(zhì)上是表述實(shí)體與實(shí)體之間關(guān)系的一個(gè)語(yǔ)義網(wǎng),其基本構(gòu)成單元為“實(shí)體-關(guān)系-實(shí)體”的三元組[1],包括實(shí)體及其關(guān)聯(lián)屬性值對(duì),實(shí)體之間通過(guò)關(guān)系互相連接,從而形成網(wǎng)狀知識(shí)結(jié)構(gòu)。
知識(shí)圖譜作為知識(shí)管理的重要手段,以通用直觀的方式來(lái)檢索和分類數(shù)據(jù),通常服務(wù)于網(wǎng)絡(luò)大數(shù)據(jù)分析工作,Google、Bing和Yahoo等搜索引擎均已引入知識(shí)圖譜。同時(shí),知識(shí)圖譜對(duì)于梳理某一專業(yè)領(lǐng)域的發(fā)展脈絡(luò)也具有重要意義。國(guó)家層面也提出“構(gòu)建涵蓋數(shù)十億實(shí)體規(guī)模的多源、多學(xué)科和多數(shù)據(jù)類型的跨媒體知識(shí)圖譜”[2]。在近期研究中,也出現(xiàn)了一些對(duì)特定知識(shí)領(lǐng)域的知識(shí)圖譜研究,如董曉曉等[3]完成的融合知識(shí)組織與教育教學(xué)原理和規(guī)律來(lái)定義實(shí)體類型、實(shí)體屬性和實(shí)體關(guān)系的教育領(lǐng)域知識(shí)圖譜模式構(gòu)建方法;王松等[4]對(duì)知識(shí)圖譜的概念、關(guān)鍵技術(shù)及中醫(yī)藥知識(shí)圖譜研究現(xiàn)狀進(jìn)行了綜述,并對(duì)中醫(yī)藥知識(shí)圖譜研究的發(fā)展趨勢(shì)進(jìn)行了展望;肖飛龍等[5]基于Neo4j圖數(shù)據(jù)庫(kù)構(gòu)建了疾病預(yù)防與控制措施知識(shí)圖譜,探索疾病預(yù)防控制機(jī)構(gòu)的數(shù)量、人員等防控措施現(xiàn)狀,為防控體系的完善提出建議。在語(yǔ)言學(xué)領(lǐng)域,有學(xué)者基于CiteSpace等文獻(xiàn)分析圖譜進(jìn)行綜述性研究,如陳風(fēng)華等[6]使用CiteSpace對(duì)國(guó)內(nèi)核心期刊與國(guó)際核心期刊歷年發(fā)表的多模態(tài)話語(yǔ)研究文獻(xiàn)做了知識(shí)圖譜演化分析;劉霞等[7]使用CiteSpace對(duì)1998年至2013年發(fā)表于CSSCI刊物的語(yǔ)料庫(kù)相關(guān)文獻(xiàn)進(jìn)行了量化分析和可視化呈現(xiàn)。此類研究的數(shù)據(jù)來(lái)源為期刊網(wǎng)站的文獻(xiàn)數(shù)據(jù),一般只限于某一微觀研究領(lǐng)域,其研究目的主要是分析某一研究熱點(diǎn)并撰寫(xiě)綜述性文章,并不涉及語(yǔ)言學(xué)術(shù)語(yǔ)體系圖譜的建立。通過(guò)查詢中國(guó)知網(wǎng)、萬(wàn)方等期刊數(shù)據(jù),筆者發(fā)現(xiàn)國(guó)內(nèi)暫無(wú)研究人員采取圖數(shù)據(jù)庫(kù)的方式儲(chǔ)存并展現(xiàn)整個(gè)語(yǔ)言學(xué)術(shù)語(yǔ)的發(fā)展脈絡(luò)?!靶g(shù)語(yǔ)是對(duì)已知事物的命名,是通向未知的基礎(chǔ),往往成為一個(gè)學(xué)科乃至整個(gè)知識(shí)體系建構(gòu)的重要節(jié)點(diǎn)和衍生點(diǎn)。就此而言,一個(gè)學(xué)科領(lǐng)域的關(guān)鍵術(shù)語(yǔ)猶如該學(xué)科的基因,具有學(xué)術(shù)繁衍力?!盵8]語(yǔ)言學(xué)發(fā)展到今天,已經(jīng)具備較為龐大的知識(shí)體系,可以說(shuō),語(yǔ)言學(xué)術(shù)語(yǔ)的知識(shí)圖譜構(gòu)建具有重要意義。
基于前述研究現(xiàn)狀,本研究在系統(tǒng)梳理和分析語(yǔ)言學(xué)術(shù)語(yǔ)發(fā)展脈絡(luò)與發(fā)展特征的基礎(chǔ)上,采用領(lǐng)域知識(shí)圖譜常用的自頂向下構(gòu)建模式,以《語(yǔ)言學(xué)名詞》[9]作為結(jié)構(gòu)化數(shù)據(jù)源,將傳統(tǒng)知識(shí)圖譜的節(jié)點(diǎn)和邊的關(guān)系進(jìn)行重構(gòu)和梳理,基于事件理論加以事理邏輯類型,構(gòu)建事理知識(shí)圖譜。事理知識(shí)圖譜的本質(zhì)為一種以事件為節(jié)點(diǎn)的知識(shí)庫(kù),是知識(shí)圖譜研究下的一種延伸與演化,其發(fā)展源頭可追溯至20世紀(jì) 70 年代的專家系統(tǒng)[10]。本文的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜是以“術(shù)語(yǔ)事件”為核心節(jié)點(diǎn)和動(dòng)力樞紐,以“術(shù)語(yǔ)事件屬性值”為次核心節(jié)點(diǎn)和關(guān)聯(lián)單元,以“術(shù)語(yǔ)事件關(guān)系”為演化框架和延伸路線,以“術(shù)語(yǔ)事件屬性值關(guān)系(屬性)”為結(jié)構(gòu)內(nèi)容和分布網(wǎng)絡(luò)的新形態(tài)知識(shí)圖譜,由此構(gòu)筑語(yǔ)言學(xué)術(shù)語(yǔ)空間的演化邏輯鏈條,搭建術(shù)語(yǔ)知識(shí)的內(nèi)容分布模型?;贜eo4j圖數(shù)據(jù)庫(kù)構(gòu)建語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜,梳理語(yǔ)言學(xué)發(fā)展現(xiàn)狀,并總結(jié)語(yǔ)言學(xué)知識(shí)圖譜的主要特征,從而深入地探究語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜模式構(gòu)建方法,以期推動(dòng)語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的應(yīng)用發(fā)展,并嘗試為學(xué)科術(shù)語(yǔ)知識(shí)圖譜提供一種構(gòu)建范式。
1 相關(guān)理論及技術(shù)
1.1 知識(shí)圖譜構(gòu)建
知識(shí)圖譜主要可分為兩類:通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜,劃分的主要標(biāo)準(zhǔn)是知識(shí)數(shù)據(jù)的領(lǐng)域范圍和圖譜構(gòu)建方法的差別。通用知識(shí)圖譜注重知識(shí)廣度,數(shù)據(jù)一般來(lái)源于采用大規(guī)模爬蟲(chóng)所收集的互聯(lián)網(wǎng)資源,通過(guò)命名實(shí)體識(shí)別及屬性抽取等算法構(gòu)建知識(shí)圖譜,一般采用自底向上的構(gòu)建模式。領(lǐng)域知識(shí)圖譜又稱為垂直知識(shí)圖譜或行業(yè)知識(shí)圖譜,它的知識(shí)廣度限制在某一特定領(lǐng)域,基于該領(lǐng)域的專業(yè)知識(shí)進(jìn)行構(gòu)造,具有數(shù)據(jù)冗余量少、結(jié)構(gòu)化程度高等特征,一般采用自頂向下的構(gòu)建模式,更具專業(yè)性和精確性[11]。
本文所研究的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜屬于領(lǐng)域知識(shí)圖譜,其自頂向下的構(gòu)建方法要求從頂層概念出發(fā),首先是對(duì)領(lǐng)域知識(shí)的本體構(gòu)建,在概念層先給出一個(gè)清晰合理的結(jié)構(gòu),后續(xù)的知識(shí)圖譜構(gòu)建再將實(shí)例和數(shù)據(jù)進(jìn)行對(duì)應(yīng)。本體的構(gòu)建十分重要,決定了最后的知識(shí)圖譜是否反映出該領(lǐng)域知識(shí)的廣度及精度,是否可以正確體現(xiàn)出該領(lǐng)域的特點(diǎn)和領(lǐng)域間不同概念之間的關(guān)系。
大多數(shù)知識(shí)圖譜在視覺(jué)上呈現(xiàn)為互相連接的節(jié)點(diǎn)和邊,對(duì)應(yīng)著節(jié)點(diǎn)、關(guān)系、屬性三大要素。節(jié)點(diǎn)(Node)即實(shí)體對(duì)象,分為起始節(jié)點(diǎn)和終止節(jié)點(diǎn),兩個(gè)節(jié)點(diǎn)通過(guò)關(guān)系進(jìn)行連接,節(jié)點(diǎn)相對(duì)于傳統(tǒng)數(shù)據(jù)庫(kù)中的ER圖(Entity Relationship Diagram)中的實(shí)體,主要通過(guò)實(shí)體的標(biāo)簽信息進(jìn)行區(qū)別,可以包含或不包含屬性信息(屬性信息是描述實(shí)體的信息)。關(guān)系(Relationship)在圖數(shù)據(jù)庫(kù)中的呈現(xiàn)形式即連接節(jié)點(diǎn)的“邊”,用于表示實(shí)體與實(shí)體間的聯(lián)系。屬性(Property)通過(guò)KeyValue(鍵值對(duì))表示,包含節(jié)點(diǎn)或者關(guān)系內(nèi)部的某些特征信息。
1.2 圖數(shù)據(jù)庫(kù)Neo4j與Pyneo2
圖數(shù)據(jù)庫(kù)是一種NoSQL數(shù)據(jù)庫(kù),基于圖形理論,表現(xiàn)客觀世界中的實(shí)體與實(shí)體之間、實(shí)體各屬性之間的關(guān)系[12]。在遍歷圖進(jìn)行本地讀取這方面,圖形數(shù)據(jù)庫(kù)的表現(xiàn)非常出色,同時(shí)還能使用各種數(shù)據(jù)圖形模型及其數(shù)據(jù)擴(kuò)展[13]。語(yǔ)義關(guān)系復(fù)雜、數(shù)據(jù)體量較大的數(shù)據(jù)常使用這種方式。相比于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)更適合作為知識(shí)圖譜的存儲(chǔ)媒介,用于圖數(shù)據(jù)庫(kù)處理的Cypher圖形查詢語(yǔ)言,可實(shí)現(xiàn)關(guān)聯(lián)查詢和圖算法,更有利于支持查詢和價(jià)值挖掘[14]。主要的圖數(shù)據(jù)存儲(chǔ)系統(tǒng)包括RDF圖模型和屬性圖模型。前者以RDF(Resource Description Framework)三元組為存儲(chǔ)對(duì)象。RDF由節(jié)點(diǎn)和邊組成,節(jié)點(diǎn)表示實(shí)體/資源或者屬性,邊表示實(shí)體和實(shí)體之間的關(guān)系以及實(shí)體和屬性的關(guān)系。RDF圖模型具有較成熟的標(biāo)準(zhǔn)體系和標(biāo)準(zhǔn)查詢語(yǔ)言SparQL,常見(jiàn)的數(shù)據(jù)庫(kù)有Jena和Virtuoso等。屬性圖是目前主流圖數(shù)據(jù)庫(kù)選擇的數(shù)據(jù)模型,更確切地說(shuō)是帶標(biāo)簽的屬性圖(LabeledProperty Graph),它的節(jié)點(diǎn)和邊都可以定義屬性[15]。常見(jiàn)的圖數(shù)據(jù)庫(kù)有Neo4j、FlockDB、GraphDB等類型,其中,開(kāi)源的Neo4j以其高性能、高穩(wěn)定性、可擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)成為當(dāng)前應(yīng)用最為廣泛的原生圖數(shù)據(jù)庫(kù)之一[16]。Neo4j采用原生圖存儲(chǔ)和處理數(shù)據(jù),反映了關(guān)系網(wǎng)絡(luò)中實(shí)體聯(lián)系的本質(zhì),在查詢中能以快捷的路徑返回關(guān)聯(lián)數(shù)據(jù),表現(xiàn)出高效的查詢性能;支持非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)與大規(guī)模數(shù)據(jù)的增長(zhǎng),能很好地適應(yīng)需求的變化,具有很大靈活性。此外,它還可以對(duì)實(shí)體間復(fù)雜的關(guān)系進(jìn)行分析與推理,支持邏輯語(yǔ)言分析與面向約束的推理。Neo4j擁有自己的查詢語(yǔ)言——Cypher語(yǔ)言,它是一種面向圖分析、聲明式、表達(dá)能力強(qiáng)的描述性圖形查詢語(yǔ)言[17],對(duì)用戶十分友好,操作簡(jiǎn)便,主要使用的關(guān)鍵字有create(主要用于創(chuàng)建圖形節(jié)點(diǎn)、關(guān)系及屬性)、match(在已有圖形數(shù)據(jù)庫(kù)中匹配目標(biāo)信息)、where(是match功能的條件)、return(完成匹配后,返回指定值),基于這些查詢語(yǔ)句實(shí)現(xiàn)對(duì)圖形數(shù)據(jù)的分析與推理。Neo4j以美觀清晰的圖結(jié)構(gòu)形式存儲(chǔ)知識(shí)數(shù)據(jù),具有節(jié)點(diǎn)和關(guān)系兩種基本類型,每個(gè)節(jié)點(diǎn)表示一個(gè)實(shí)體,一個(gè)節(jié)點(diǎn)可以存在多個(gè)關(guān)系、屬性,并由此與其他節(jié)點(diǎn)產(chǎn)生關(guān)聯(lián)。關(guān)系指兩個(gè)節(jié)點(diǎn)之間的關(guān)系,用戶可根據(jù)頂層要求自主設(shè)計(jì)關(guān)系類型[12]。
Py2neo是一個(gè)客戶端庫(kù)和工具包,Python應(yīng)用程序與命令行能夠使用該庫(kù)與Neo4j建立連接。Py2neo封裝了官方驅(qū)動(dòng)程序,添加了對(duì) HTTP的支持、更高級(jí)別的API、OGM、管理工具、交互式控制臺(tái),用于Pygments 的CypherLexer 以及許多其他功能。Py2neo包提供了一系列的Neo4j解析和存儲(chǔ)功能,利用Py2neo包,可以在計(jì)算機(jī)內(nèi)存中建立與存儲(chǔ)Neo4j的模型。通過(guò)生成節(jié)點(diǎn)與關(guān)系、過(guò)濾重復(fù)的數(shù)據(jù),最終可生成Neo4j圖形數(shù)據(jù)庫(kù)[18]。本研究使用Py2neo構(gòu)建Neo4j模型,并進(jìn)行Neo4j數(shù)據(jù)庫(kù)的增刪查改等操作。
2 構(gòu)建語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜
2.1 構(gòu)建思路
語(yǔ)言學(xué)術(shù)語(yǔ)多為名詞性質(zhì),但是其中隱藏的事件名詞具有動(dòng)詞性質(zhì),是推動(dòng)術(shù)語(yǔ)之間關(guān)系動(dòng)態(tài)化、術(shù)語(yǔ)圖式化的核心驅(qū)動(dòng),應(yīng)該重點(diǎn)和突出刻畫(huà)。首先,以語(yǔ)言學(xué)學(xué)科的[理論/學(xué)說(shuō)/方法]為核心節(jié)點(diǎn)和動(dòng)力樞紐,架構(gòu)起術(shù)語(yǔ)知識(shí)圖譜的網(wǎng)絡(luò)框架和演化模型。這樣更符合語(yǔ)言學(xué)術(shù)語(yǔ)的思維習(xí)慣和認(rèn)知規(guī)律。其次,以[理論/學(xué)說(shuō)/方法]的存續(xù)時(shí)間、存續(xù)地域、代表人物、關(guān)鍵詞(高頻/基礎(chǔ)/核心術(shù)語(yǔ))、觀點(diǎn)為其邏輯主體和主要內(nèi)容,編制成術(shù)語(yǔ)知識(shí)圖譜的關(guān)聯(lián)網(wǎng)絡(luò)和關(guān)聯(lián)節(jié)點(diǎn)。最后,以[理論/學(xué)說(shuō)/方法]的關(guān)鍵詞及它們之間的關(guān)系所構(gòu)成的觀點(diǎn)(三元組:關(guān)鍵詞術(shù)語(yǔ)-關(guān)系-關(guān)鍵詞術(shù)語(yǔ))為邏輯單元和關(guān)鍵信息,構(gòu)成術(shù)語(yǔ)知識(shí)圖譜的內(nèi)容實(shí)體和知識(shí)鏈條。上述三點(diǎn),和事件理論中的“事件”“事件關(guān)系”“事件和事件元素關(guān)系”“事件元素”“事件元素關(guān)系”存在邏輯順應(yīng)和功能對(duì)應(yīng)。
基于上述思路,語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜中的三元組主要包含以下三個(gè)要素:
(1)術(shù)語(yǔ)事件:本研究中特指語(yǔ)言學(xué)術(shù)語(yǔ)中蘊(yùn)含的理論/學(xué)說(shuō)/方法。它們的產(chǎn)生和存續(xù)行為及核心凝聚力和“事件”近似,因此稱之為“(語(yǔ)言學(xué))術(shù)語(yǔ)事件”,在知識(shí)圖譜中體現(xiàn)為眾多節(jié)點(diǎn);
(2)關(guān)系:各個(gè)理論/學(xué)說(shuō)/方法之間的演化模式和事件鏈條,在知識(shí)圖譜中體現(xiàn)為連接節(jié)點(diǎn)的邊;
(3)屬性值:各個(gè)理論/學(xué)說(shuō)/方法的存續(xù)時(shí)間、存續(xù)地域、代表人物、關(guān)鍵詞、觀點(diǎn)等的具體取值。
圖1展示了本研究中語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的構(gòu)建流程:對(duì)《語(yǔ)言學(xué)名詞》中的知識(shí)數(shù)據(jù)進(jìn)行命名實(shí)體、關(guān)系、屬性的知識(shí)抽取工作后,對(duì)相關(guān)內(nèi)容進(jìn)行對(duì)齊,實(shí)現(xiàn)知識(shí)融合,之后基于Neo4j實(shí)現(xiàn)圖譜可視化,進(jìn)行知識(shí)圖譜特征分析等知識(shí)應(yīng)用工作。
2.2 知識(shí)來(lái)源
本研究中知識(shí)圖譜的結(jié)構(gòu)化數(shù)據(jù)來(lái)源于《語(yǔ)言學(xué)名詞》。《語(yǔ)言學(xué)名詞》是一部結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)男g(shù)語(yǔ)詞典,內(nèi)容是由全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)審定公布的語(yǔ)言學(xué)名詞,包括理論語(yǔ)言學(xué)、文字學(xué)、語(yǔ)音學(xué)、語(yǔ)法學(xué)、語(yǔ)義詞匯學(xué)、辭書(shū)學(xué)、方言學(xué)、修辭學(xué)、音韻學(xué)、訓(xùn)詁學(xué)、計(jì)算語(yǔ)言學(xué)、社會(huì)語(yǔ)言學(xué)、民族語(yǔ)言學(xué)共13部分,收詞2939條[19],正文按中文名所屬學(xué)科相關(guān)的概念體系和知識(shí)系統(tǒng)排列,定義給出其基本內(nèi)涵,注釋則簡(jiǎn)明扼要闡釋其內(nèi)涵,中文名后列出對(duì)應(yīng)的英文名。本研究將其中的術(shù)語(yǔ)條目作為主要實(shí)體,并從術(shù)語(yǔ)條目的解釋內(nèi)容中提取出術(shù)語(yǔ)關(guān)系及屬性值關(guān)系。
2.3 實(shí)體抽取與對(duì)齊
本研究基于《語(yǔ)言學(xué)名詞》中的2939條術(shù)語(yǔ)條目,去除部分非典型術(shù)語(yǔ)條目,如“匹配”等,以術(shù)語(yǔ)條目作為知識(shí)圖譜主節(jié)點(diǎn),以術(shù)語(yǔ)事件為中心,構(gòu)建語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)體系。在得到節(jié)點(diǎn)之后,需要進(jìn)行實(shí)體對(duì)齊,即解決“名異實(shí)同”問(wèn)題,檢查知識(shí)圖譜中的節(jié)點(diǎn)是否采用不同詞匯指稱同一概念,解決圖譜數(shù)據(jù)中的實(shí)體混淆、實(shí)體歧義等問(wèn)題。例如“轉(zhuǎn)換生成學(xué)派”又稱“生成語(yǔ)法學(xué)派”,如果不進(jìn)行消歧去重,那么在檢索過(guò)程中會(huì)產(chǎn)生冗余和遺漏現(xiàn)象,故實(shí)體對(duì)齊是知識(shí)圖譜構(gòu)建過(guò)程中必不可少的環(huán)節(jié)之一。因《語(yǔ)言學(xué)名詞》是一部術(shù)語(yǔ)詞典,詞典性質(zhì)本身已基本避免術(shù)語(yǔ)重復(fù)的情況,數(shù)據(jù)冗余量小,對(duì)于存在的少量“名異實(shí)同”的術(shù)語(yǔ)及闡釋,本研究利用人工校對(duì)的方式將近似表達(dá)統(tǒng)一為相同實(shí)體。
2.4 關(guān)系及屬性值抽取與對(duì)齊
知識(shí)圖譜的本質(zhì)是語(yǔ)義網(wǎng)絡(luò),節(jié)點(diǎn)與節(jié)點(diǎn)之間需要用“關(guān)系”來(lái)連接。關(guān)系是使知識(shí)圖譜形成網(wǎng)絡(luò)的關(guān)鍵所在,本研究在語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的構(gòu)建過(guò)程中,采用了事理邏輯類型來(lái)定義節(jié)點(diǎn)關(guān)系。事理圖譜是由Yang等[20]最先提出的,是一個(gè)描述事件之間演化規(guī)律和模式的事理邏輯知識(shí)庫(kù)。在層次結(jié)構(gòu)上,事理知識(shí)圖譜是一個(gè)有向圖,其中節(jié)點(diǎn)代表事件,有向邊代表事件之間的邏輯關(guān)系[21]。語(yǔ)言學(xué)術(shù)語(yǔ)具備清晰的發(fā)展邏輯,適合于事理圖譜的構(gòu)建,并可以展示語(yǔ)言學(xué)術(shù)語(yǔ)的發(fā)展變化。本研究歸納了語(yǔ)言學(xué)術(shù)語(yǔ)之間的九類實(shí)體關(guān)系:因果、條件、種屬、構(gòu)成、繼承、并發(fā)、對(duì)立、類似、互補(bǔ),能夠揭示語(yǔ)言學(xué)術(shù)語(yǔ)的演化規(guī)律與邏輯,如表1所示。
上述九類關(guān)系是從術(shù)語(yǔ)外部出發(fā)的關(guān)系。術(shù)語(yǔ)從內(nèi)部看,由眾多屬性構(gòu)成,屬性是術(shù)語(yǔ)內(nèi)部的構(gòu)成要素,語(yǔ)言學(xué)術(shù)語(yǔ)發(fā)生于一定的時(shí)空范圍內(nèi),對(duì)于某一個(gè)術(shù)語(yǔ)事件,其實(shí)體本身大多數(shù)具備時(shí)間、地域、代表人物、關(guān)鍵詞、觀點(diǎn)等屬性值,本研究根據(jù)語(yǔ)言學(xué)術(shù)語(yǔ)所包含的重要知識(shí)特征,定義了五個(gè)屬性值,用以從術(shù)語(yǔ)事件內(nèi)部發(fā)掘術(shù)語(yǔ)內(nèi)在特征之間的規(guī)律,如表2所示。
屬性值對(duì)齊指針對(duì)同一屬性的屬性值存在多種表達(dá)形式的問(wèn)題,設(shè)置統(tǒng)一的標(biāo)注規(guī)則,減少數(shù)據(jù)冗余,提高知識(shí)表達(dá)能力。如時(shí)間屬性中“20世紀(jì)中期”與“20世紀(jì)50年代”的屬性值表述不同,但所指概念基本相同,此類問(wèn)題為屬性值冗余問(wèn)題。就本次研究而言,屬性值冗余問(wèn)題主要存在于時(shí)間和人物屬性,采取統(tǒng)一的格式規(guī)則對(duì)這兩種屬性進(jìn)行對(duì)齊,如表3所示。
2.5 知識(shí)存儲(chǔ)及可視化實(shí)現(xiàn)
本研究采用自頂向下的構(gòu)建模式,對(duì)節(jié)點(diǎn)、屬性、關(guān)系的相關(guān)類別進(jìn)行頂層設(shè)計(jì)和格式規(guī)范后,進(jìn)行《語(yǔ)言學(xué)名詞》術(shù)語(yǔ)收集和三元組構(gòu)建工作。最終匯總得到6211條三元組,兩端的實(shí)體(屬性)由中間的關(guān)系連接,如表4所示。
利用Py2neo及Cypher語(yǔ)法將csv文件導(dǎo)入Neo4j數(shù)據(jù)庫(kù)中,并進(jìn)行可視化圖譜展示,因圖譜體量龐大,故節(jié)選部分節(jié)點(diǎn)關(guān)系作為示例,如圖2所示。在Neo4j中,以“共時(shí)語(yǔ)言學(xué)”父節(jié)點(diǎn)為例,其“人物”關(guān)系的屬性值為“索緒爾”,“地點(diǎn)”關(guān)系的屬性值為“瑞士”。 同時(shí)該節(jié)點(diǎn)以“歷史比較語(yǔ)言學(xué)節(jié)點(diǎn)”為“條件”關(guān)系,與“歷時(shí)語(yǔ)言學(xué)”為“對(duì)立”關(guān)系。通過(guò) Neo4j 中層次化的圖結(jié)構(gòu)可以將語(yǔ)言學(xué)術(shù)語(yǔ)中的關(guān)系與屬性直觀地展示出來(lái)。
知識(shí)圖譜具有豐富的檢索功能,基于此知識(shí)圖譜,可以從多種角度梳理語(yǔ)言學(xué)術(shù)語(yǔ)的發(fā)展脈絡(luò),更清晰地了解語(yǔ)言學(xué)的發(fā)展歷史及現(xiàn)狀。本研究也在后文以某些宏觀特征進(jìn)行簡(jiǎn)單分析。
3 語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜內(nèi)容分析與討論
3.1 整體特征分析
(1)數(shù)量龐大,涵蓋面廣。語(yǔ)言學(xué)是一門歷史悠久的學(xué)科,其術(shù)語(yǔ)涉及的知識(shí)范圍也很龐大,本次研究共生成6263組三元組,上至傳統(tǒng)的小學(xué),下至新興的交叉學(xué)科,跨度廣,知識(shí)精細(xì)程度高,是一個(gè)較為系統(tǒng)全面的領(lǐng)域知識(shí)圖譜。該圖譜的構(gòu)建也有助于后期拓展語(yǔ)言學(xué)術(shù)語(yǔ)研究的深度和廣度。
(2)層次清晰,結(jié)構(gòu)性強(qiáng)。本次研究的數(shù)據(jù)源《語(yǔ)言學(xué)名詞》將語(yǔ)言學(xué)術(shù)語(yǔ)劃分為理論語(yǔ)言學(xué)、文字學(xué)、語(yǔ)音學(xué)等13個(gè)部分,每一部分再拆分為小分支,如第二部分“文字學(xué)”所轄分支有總論、漢字的起源和發(fā)展、漢字的結(jié)構(gòu)、漢字的形體、漢字系統(tǒng)內(nèi)部關(guān)系、漢字政策、應(yīng)用研究等。每一部分的小分支數(shù)量不固定,但條目大約控制在300條之內(nèi),是知識(shí)圖譜構(gòu)建過(guò)程中可以直接使用的結(jié)構(gòu)性數(shù)據(jù)。
(3)規(guī)范性強(qiáng)。語(yǔ)言學(xué)術(shù)語(yǔ)本身作為學(xué)術(shù)研究的產(chǎn)物,具有準(zhǔn)確嚴(yán)謹(jǐn)?shù)奶攸c(diǎn)。如“深層結(jié)構(gòu)”“表層結(jié)構(gòu)”“層次分析法”等在理論誕生之初就已經(jīng)定義完備,具備不可更改和不可替換的特質(zhì)。在《語(yǔ)言學(xué)名詞》的術(shù)語(yǔ)條目闡釋中,往往先給出其上位概念,后指出其含義,最后說(shuō)明其影響。這種較為固定的術(shù)語(yǔ)闡釋模式也為節(jié)點(diǎn)、關(guān)系和屬性的提取提供了便利,具有較強(qiáng)的規(guī)范性。
3.2 局部特征分析
基于Neo4j的Cypher語(yǔ)法,可以根據(jù)檢索需求篩選需要的知識(shí)數(shù)據(jù),從而發(fā)現(xiàn)語(yǔ)言學(xué)術(shù)語(yǔ)的某些發(fā)展規(guī)律,本研究?jī)H以地點(diǎn)屬性為例簡(jiǎn)要說(shuō)明檢索過(guò)程。如對(duì)于術(shù)語(yǔ)地點(diǎn)屬性值進(jìn)行全圖檢索,輸入Cypher命令:MATCHp=()[r:′地點(diǎn)′]>()RETURNpLIMIT300,可以得到地點(diǎn)屬性的部分節(jié)點(diǎn),其中比對(duì)圖表可得“美國(guó)”在術(shù)語(yǔ)地點(diǎn)屬性值中占有最高的頻次,如圖3所示。可見(jiàn)在語(yǔ)言學(xué)的發(fā)展中,美國(guó)具有最多的術(shù)語(yǔ)產(chǎn)出。
3.3 語(yǔ)言學(xué)術(shù)語(yǔ)事理動(dòng)態(tài)關(guān)系探討
語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的組織和架構(gòu),既不能與通用知識(shí)圖譜一樣,偏重[實(shí)體-關(guān)系-實(shí)體]和[實(shí)體-屬性-屬性值],忽略宏觀的、大顆粒的知識(shí)演化框架,也不能與事理圖譜一樣,偏重[事件-關(guān)系-事件],忽略微觀、細(xì)顆粒的知識(shí)關(guān)聯(lián)形態(tài)。應(yīng)充分融合靜態(tài)知識(shí)圖譜和動(dòng)態(tài)事理圖譜的構(gòu)造特征和存在模式,構(gòu)建基于“靜態(tài)-動(dòng)態(tài)”融合特征的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜。雖然術(shù)語(yǔ)多是名詞性質(zhì)的,但是其中隱藏的事件名詞具有動(dòng)態(tài)性質(zhì),它們是推動(dòng)術(shù)語(yǔ)之間關(guān)系動(dòng)態(tài)化、術(shù)語(yǔ)圖式化的核心驅(qū)動(dòng),應(yīng)該重點(diǎn)和突出刻畫(huà)。人類的命題記憶是以“事件”為存儲(chǔ)單位的,存儲(chǔ)的是組成事件的概念及其之間的關(guān)系以及事件與其之間的關(guān)系[22]。以事件作為知識(shí)的基本單元更能反映知識(shí),特別是知識(shí)的動(dòng)態(tài)性,從認(rèn)知科學(xué)的角度來(lái)看,事件更符合人類的理解與思維習(xí)慣。
本文正是采用事理邏輯的類型來(lái)構(gòu)建節(jié)點(diǎn)間的關(guān)系,并且邏輯類型所構(gòu)成的三元組又恰好成為術(shù)語(yǔ)事件的“觀點(diǎn)”屬性值,如圖4所示,轉(zhuǎn)換生成學(xué)派的“觀點(diǎn)”屬性指向“深層結(jié)構(gòu)-決定-表層結(jié)構(gòu)”三元組。某一觀點(diǎn)內(nèi)部已構(gòu)成三元組,同時(shí)以一個(gè)整體作為更高層級(jí)三元組的構(gòu)成要素,這顯示了語(yǔ)言學(xué)術(shù)語(yǔ)發(fā)展的動(dòng)態(tài)關(guān)系和事理邏輯,較小層級(jí)的節(jié)點(diǎn)關(guān)系層層嵌套,推進(jìn)大節(jié)點(diǎn)關(guān)系的構(gòu)成與發(fā)展,并最終推動(dòng)語(yǔ)言學(xué)術(shù)語(yǔ)的發(fā)展。
4 結(jié)語(yǔ)
本文展現(xiàn)了語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜的構(gòu)建過(guò)程,并最終實(shí)現(xiàn)了知識(shí)圖譜的呈現(xiàn),所構(gòu)建的較為完備的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜,填補(bǔ)了學(xué)界對(duì)語(yǔ)言學(xué)知識(shí)圖譜的研究空白,可以使用此圖譜查詢數(shù)據(jù)以發(fā)現(xiàn)語(yǔ)言學(xué)術(shù)語(yǔ)的演變規(guī)律。其次本文提供了一種“動(dòng)態(tài)-靜態(tài)”的術(shù)語(yǔ)圖譜構(gòu)建模式,該構(gòu)建模式適用于大多數(shù)學(xué)科術(shù)語(yǔ)圖譜模式的構(gòu)建,具備一定的可遷移性。該方法也有助于構(gòu)建一種從詞典的單向封閉主義轉(zhuǎn)向“詞典-用戶”的雙向融合互動(dòng)的融媒體辭書(shū)[23]。此外基于Neo4j的功能,該圖譜可以外接至網(wǎng)站接口,實(shí)現(xiàn)面向用戶的前端圖譜網(wǎng)頁(yè)。
本次知識(shí)圖譜構(gòu)建中,還存在不足。首先,參考有限。由于目前還沒(méi)有中國(guó)學(xué)者對(duì)語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜進(jìn)行構(gòu)建和研究,本文只能參考與本項(xiàng)研究的目的相類似的知識(shí)圖譜研究,總體來(lái)說(shuō)技術(shù)上還不成熟。雖然獲得了相對(duì)完整的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)圖譜體系,但在關(guān)系準(zhǔn)確率方面還存在問(wèn)題,一些孤立節(jié)點(diǎn)缺乏與其他術(shù)語(yǔ)的聯(lián)系,需要在后期研究中進(jìn)一步挖掘術(shù)語(yǔ)之間的深度關(guān)系。其次,數(shù)據(jù)來(lái)源較為單一。本文的語(yǔ)言學(xué)術(shù)語(yǔ)知識(shí)渠道依賴于《語(yǔ)言學(xué)名詞》,所以知識(shí)數(shù)量具有局限性,抽取的知識(shí)數(shù)量不夠,圖譜精度還有待提高,在后期研究中將會(huì)補(bǔ)充其他語(yǔ)言學(xué)百科類書(shū)籍及相關(guān)文獻(xiàn)作為數(shù)據(jù)源。再次,數(shù)據(jù)更新能力較差。本研究的數(shù)據(jù)源《語(yǔ)言學(xué)名詞》是2011年出版的,此后新出現(xiàn)的語(yǔ)言學(xué)術(shù)語(yǔ)未被納入,數(shù)據(jù)具有滯后性。針對(duì)此問(wèn)題,后期將會(huì)加入爬蟲(chóng)框架從各種語(yǔ)言學(xué)學(xué)術(shù)網(wǎng)、會(huì)議網(wǎng)、語(yǔ)言學(xué)者博客、百度百科、維基百科等提取最新語(yǔ)料,并基于相關(guān)模型進(jìn)行命名實(shí)體識(shí)別和自動(dòng)特征學(xué)習(xí)。
參考文獻(xiàn)
[1] 劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.
[2] 國(guó)務(wù)院關(guān)于印發(fā)新一代人工智能發(fā)展規(guī)劃的通知[A]. 中華人民共和國(guó)國(guó)務(wù)院公報(bào), 2017(22): 7-21.
[3] 董曉曉, 周東岱, 黃雪嬌, 等. 學(xué)科核心素養(yǎng)發(fā)展導(dǎo)向下教育領(lǐng)域知識(shí)圖譜模式構(gòu)建方法研究[J]. 電化教育研究, 2022, 43(5): 76-83.
[4] 王松, 李正鈞, 楊濤, 等. 中醫(yī)藥知識(shí)圖譜研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 南京中醫(yī)藥大學(xué)學(xué)報(bào), 2022, 38(3): 272-278.
[5] 肖飛龍, 張爽, 胡志凌. 基于Neo4j的疾病預(yù)防與控制知識(shí)圖譜研究[J]. 電子技術(shù)與軟件工程, 2021(22): 180-182.
[6] 陳風(fēng)華, 弗朗西斯科·維勒索. 多模態(tài)話語(yǔ)研究的知識(shí)圖譜演化分析:基于國(guó)內(nèi)外核心期刊的研究[J]. 華僑大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2017(6): 154-166.
[7] 劉霞, 許家金, 劉磊. 基于CiteSpace的國(guó)內(nèi)語(yǔ)料庫(kù)語(yǔ)言學(xué)研究概述(1998—2013)[J]. 語(yǔ)料庫(kù)語(yǔ)言學(xué), 2014, 1(1): 69-77,112.
[8] 趙世舉, 鄭蒙. 術(shù)語(yǔ)與科技話語(yǔ)能力建設(shè):法國(guó)的實(shí)踐及啟示[J]. 語(yǔ)言戰(zhàn)略研究, 2022, 7(5): 58-68.
[9] 全國(guó)科學(xué)技術(shù)名詞審定委員會(huì). 語(yǔ)言學(xué)名詞[M]. 北京: 商務(wù)印書(shū)館, 2011.
[10] 白璐. 面向政治領(lǐng)域的事理演化圖譜構(gòu)建[D]. 北京:國(guó)際關(guān)系學(xué)院, 2020:19.
[11] 付雷杰, 曹巖, 白瑀, 等. 國(guó)內(nèi)垂直領(lǐng)域知識(shí)圖譜發(fā)展現(xiàn)狀與展望[J]. 計(jì)算機(jī)應(yīng)用研究, 2021, 38(11): 3201-3214.
[12] 孫敏敏, 毛雪岷. 基于Neo4j的肺部疾病知識(shí)圖譜構(gòu)建[C]//第十五屆(2020)中國(guó)管理學(xué)年會(huì)論文集. 中國(guó)管理現(xiàn)代化研究會(huì),復(fù)旦管理學(xué)獎(jiǎng)勵(lì)基金會(huì), 2020: 25-30.
[13] POKORN J. Functional querying in graph databases[J]. Vietnam Journal of Computer Science, 2018, 5(2): 95-105.
[14] JOUILI S, VANSTEENBERGHE V. An Empirical Comparison of Graph Databases[C]//2013 International Conference on Social Computing. Alexandria, VA, USA: IEEE, 2013: 708-715.
[15] 王力, 韓紅旗, 高雄, 等. 關(guān)系數(shù)據(jù)庫(kù)向Neo4j圖數(shù)據(jù)庫(kù)轉(zhuǎn)化的應(yīng)用研究:以工程科技詞系統(tǒng)為例[J]. 中國(guó)科技資源導(dǎo)刊, 2021, 53(5): 55-65.
[16] FLEMING J, LEVY S, NAG P, et al. Graph database system and method for facilitating financial and corporate relationship analysis[P]. United States Patent 8674993,2014-03-18.
[17] 張維沖, 王芳, 黃毅. 基于圖數(shù)據(jù)庫(kù)的貴州省大數(shù)據(jù)政策知識(shí)建模研究[J]. 數(shù)字圖書(shū)館論壇, 2020(4): 30-38.
[18] 蘇翔. 基于知識(shí)圖譜的“數(shù)據(jù)結(jié)構(gòu)”教學(xué)資源平臺(tái)的構(gòu)建研究[D]. 北京:北京林業(yè)大學(xué), 2019:17.
[19] 《語(yǔ)言學(xué)名詞》出版[J]. 語(yǔ)文研究, 2012,122(1): 45.
[20] YANG C C, SHI X. Discovering event evolution graphs from newswires[C]//Proceedings of the 15th international conference on World Wide WebWWW06. Edinburgh, Scotland: ACM Press, 2006: 945.
[21] 朱福勇, 劉雅迪, 高帆, 等. 基于圖譜融合的人工智能司法數(shù)據(jù)庫(kù)構(gòu)建研究[J]. 揚(yáng)州大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2019, 23(6): 89-96.
[22] 仲兆滿, 劉宗田, 李存華. 事件本體模型及事件類排序[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(2): 234-240.
[23] 王興隆, 亢世勇. 新時(shí)代融媒體漢語(yǔ)學(xué)習(xí)詞典的融合特征及其優(yōu)化路徑:以《當(dāng)代漢語(yǔ)學(xué)習(xí)詞典》為例[J]. 語(yǔ)言文字應(yīng)用, 2021(4): 132-141.
作者簡(jiǎn)介:王浩學(xué)(2000—),男,廣西大學(xué)文學(xué)院碩士研究生,研究方向?yàn)閷?shí)驗(yàn)語(yǔ)音學(xué)、計(jì)算語(yǔ)言學(xué),主持國(guó)家級(jí)大學(xué)生創(chuàng)新項(xiàng)目1項(xiàng)、廣西研究生創(chuàng)新項(xiàng)目1項(xiàng)、山東省語(yǔ)言資源開(kāi)發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題1項(xiàng),發(fā)表CSSCI論文1篇。通信方式:wanghx@st.gxu.edu.cn。
王興?。?982—),男,魯東大學(xué)文學(xué)院副教授,國(guó)家語(yǔ)委漢語(yǔ)辭書(shū)研究中心、山東省語(yǔ)言資源開(kāi)發(fā)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室專職研究員。主要研究方向?yàn)槎Z(yǔ)學(xué)習(xí)、詞匯學(xué)與詞典學(xué)。主持各類科研項(xiàng)目11項(xiàng),包括國(guó)家語(yǔ)言文字工作委員會(huì)重點(diǎn)項(xiàng)目、全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)項(xiàng)目、教育部語(yǔ)言合作中心項(xiàng)目、山東省社會(huì)科學(xué)規(guī)劃項(xiàng)目等。在《外語(yǔ)教學(xué)與研究》《語(yǔ)言文字應(yīng)用》等期刊(包括CSSCI期刊)、論文集發(fā)表論文20余篇。獲山東省高校人文社科優(yōu)秀成果一等獎(jiǎng)1項(xiàng),主編論文集2部。通信方式:wangxinglong100@163.com。