彭 博 童兆莉
(1.華中科技大學(xué)建筑與城市規(guī)劃學(xué)院,湖北 武漢 430074;2.華中師范大學(xué)信息管理學(xué)院,湖北 武漢 430079;3.湖北省城鎮(zhèn)化工程技術(shù)研究中心,湖北 武漢 430074)
網(wǎng)絡(luò)的開(kāi)放性、交互性以及共享性特征使信息資源數(shù)量達(dá)到了前所未有的豐富程度,但其中大部分以非結(jié)構(gòu)化數(shù)據(jù)的形式出現(xiàn),如要對(duì)該類(lèi)信息資源進(jìn)行深度利用,就需要通過(guò)信息抽取將其轉(zhuǎn)換為結(jié)構(gòu)化、半結(jié)構(gòu)化的信息以待進(jìn)一步的分析。實(shí)體關(guān)系抽取作為信息抽取的重要組成部分,可以從信息資源中獲取描述實(shí)體關(guān)系及屬性的三元組,為知識(shí)圖譜構(gòu)建、語(yǔ)義分析等研究提供基礎(chǔ)數(shù)據(jù)。但是網(wǎng)絡(luò)信息資源數(shù)量龐大、復(fù)雜多樣、更新頻繁,人工方法標(biāo)注全部數(shù)據(jù)需要進(jìn)行大量工作,亟需一種自動(dòng)進(jìn)行的高效方法完成實(shí)體關(guān)系抽取,才能滿足網(wǎng)絡(luò)信息資源數(shù)據(jù)處理的需要,充分利用網(wǎng)絡(luò)中的海量數(shù)據(jù)。
自動(dòng)進(jìn)行信息資源實(shí)體關(guān)系抽取的一個(gè)前提是該領(lǐng)域中具有大量標(biāo)準(zhǔn)統(tǒng)一的結(jié)構(gòu)化數(shù)據(jù)作為參考,而文物領(lǐng)域中的數(shù)據(jù)正好符合這一特征。該領(lǐng)域具有數(shù)字化程度高、數(shù)據(jù)標(biāo)準(zhǔn)清晰、實(shí)體關(guān)系明晰的特點(diǎn),在開(kāi)展實(shí)體關(guān)系自動(dòng)抽取時(shí)擁有良好的數(shù)據(jù)基礎(chǔ)。基于此,文章聚焦網(wǎng)絡(luò)中由非結(jié)構(gòu)化數(shù)據(jù)組成文物信息資源,面向網(wǎng)絡(luò)文物信息資源提出了一種將信息資源關(guān)鍵詞與遠(yuǎn)程監(jiān)督方法結(jié)合,融合多知識(shí)庫(kù)數(shù)據(jù)的實(shí)體關(guān)系自動(dòng)抽取方法。
實(shí)體關(guān)系抽取是指將非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成的信息資源轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行存儲(chǔ)[1],現(xiàn)有的實(shí)體關(guān)系抽取有關(guān)研究主要圍繞無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、全監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督方式進(jìn)行。……