999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于實(shí)體屬性抽取的植物問(wèn)答系統(tǒng)的研究

2020-02-16 14:45:46魏恒,紀(jì)芳,李儒夢(mèng)
教育教學(xué)論壇 2020年1期

魏恒,紀(jì)芳,李儒夢(mèng)

摘要:隨著互聯(lián)網(wǎng)的不斷發(fā)展,信息抽取技術(shù)也在不斷革新與進(jìn)步,將植物描述信息結(jié)構(gòu)化,對(duì)于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步的深入研究具有重要意義。文章結(jié)合實(shí)體屬性抽取技術(shù),構(gòu)建了植物信息知識(shí)庫(kù),從而實(shí)現(xiàn)了一個(gè)新型的植物問(wèn)答系統(tǒng),使用戶能直接得到準(zhǔn)確具體的答案。

關(guān)鍵詞:實(shí)體屬性抽取;植物知識(shí)庫(kù);問(wèn)答系統(tǒng)

中圖分類號(hào):G642.0 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1674-9324(2020)01-0070-02

一、引言

互聯(lián)網(wǎng)的不斷發(fā)展,推動(dòng)了信息抽取技術(shù)的不斷革新與進(jìn)步。實(shí)體屬性抽取作為信息抽取的重要組成部分,其主要任務(wù)是抽取不同類型實(shí)體的獨(dú)有屬性特征。在非結(jié)構(gòu)屬性抽取中,目的是給定實(shí)體,從非結(jié)構(gòu)化文本中抽?。▽?shí)體、屬性、屬性值)三元組[1]。盡管實(shí)體屬性抽取在國(guó)內(nèi)外成為一些領(lǐng)域的研究熱點(diǎn)[2],但針對(duì)植物領(lǐng)域的研究仍然較少。并且由于植物專業(yè)術(shù)語(yǔ)的特殊性,其邊界難以確定,導(dǎo)致其他領(lǐng)域的屬性集與技術(shù)不可完全移植。此外,植物信息檢索目前只能通過(guò)傳統(tǒng)的搜索引擎(如百度)或相關(guān)網(wǎng)站(如《中國(guó)植物志》官網(wǎng))完成,用戶只能得到相關(guān)網(wǎng)頁(yè)鏈接或大段非結(jié)構(gòu)化的文本描述,需要耗費(fèi)大量的精力去篩選有用信息,不能直接得到準(zhǔn)確具體的答案。針對(duì)這些情況,本文在植物領(lǐng)域結(jié)合實(shí)體屬性抽取技術(shù),構(gòu)建了較全的植物信息知識(shí)庫(kù),從而實(shí)現(xiàn)了植物問(wèn)答系統(tǒng)。

二、基于實(shí)體屬性抽取的植物知識(shí)庫(kù)構(gòu)建

本文將基于實(shí)體屬性抽取的植物知識(shí)庫(kù)構(gòu)建分解為三項(xiàng)任務(wù):數(shù)據(jù)獲取與預(yù)處理、分詞與標(biāo)注、屬性與關(guān)系抽取并構(gòu)建知識(shí)庫(kù)。

1.數(shù)據(jù)獲取與預(yù)處理?!吨袊?guó)植物志》全書(shū)80卷,126冊(cè),5000多萬(wàn)字,記載了我國(guó)3萬(wàn)多種植物,是目前世界上最龐大、種類最豐富的一部巨著。其中,種子植物數(shù)量約占總植物的80%。本文選其作為原始數(shù)據(jù)進(jìn)行研究。使用爬蟲(chóng)從電子版網(wǎng)站(http://frps.eflora.cn)上獲取種子植物的相關(guān)數(shù)據(jù)。由于這些植物網(wǎng)頁(yè)的結(jié)構(gòu)可能有所不同,因而需要網(wǎng)頁(yè)清洗,進(jìn)行規(guī)范化處理。網(wǎng)頁(yè)是標(biāo)記語(yǔ)言構(gòu)建的半結(jié)構(gòu)化文本。將網(wǎng)頁(yè)解析成DOM樹(shù),去除無(wú)關(guān)的HTML標(biāo)簽元素,提取植物的有效信息。進(jìn)行規(guī)范化處理,將植物的描述文本分為科學(xué)名稱、形態(tài)特征、地理分布、經(jīng)濟(jì)用途等文本塊。

2.分詞與標(biāo)注。本文基于種子植物的相關(guān)專業(yè)知識(shí),確定了種子植物的基礎(chǔ)性狀及其屬性取值的范圍,構(gòu)建了植物屬性特征詞典,進(jìn)一步提高了植物實(shí)體屬性信息抽取的準(zhǔn)確性。考慮到中文的特性,尤其許多植物的專有名詞難以被計(jì)算機(jī)區(qū)分,為節(jié)省時(shí)間成本,對(duì)于植物信息描述,本文使用中文分詞軟件Jieba進(jìn)行分詞處理和詞性標(biāo)注預(yù)處理。由于植物專業(yè)術(shù)語(yǔ)的特殊性,為保證準(zhǔn)確率,在分詞前會(huì)將上述自主構(gòu)建的植物屬性特征詞典導(dǎo)入該軟件。此外,對(duì)于可能出現(xiàn)的嵌套詞等計(jì)算機(jī)無(wú)法識(shí)別的部分則進(jìn)行手工處理。通過(guò)分析與標(biāo)注,得到預(yù)處理的語(yǔ)料。

3.屬性與關(guān)系抽取并構(gòu)建知識(shí)庫(kù)。本文采用基于規(guī)則的方法進(jìn)行實(shí)體屬性與關(guān)系的抽取。并且使用RDF模型表示被識(shí)別和抽取的信息。RDF表達(dá)式的基本結(jié)構(gòu)是三元組,每個(gè)三元組由一個(gè)主體、一個(gè)謂詞和一個(gè)客體組成。首先,定義屬性規(guī)則集,包括通用規(guī)則和專用規(guī)則,進(jìn)行植物屬性抽取。通用規(guī)則,即針對(duì)具有共性的描述形式定義的提取規(guī)則。在《中國(guó)植物志》中,種子植物的信息描述大部分具有規(guī)律性和一致性。如:植物描述一般都是從生長(zhǎng)習(xí)性、根、莖、葉、花、果實(shí)描述到物候?qū)W特征,對(duì)于較復(fù)雜的器官結(jié)構(gòu),則依其構(gòu)成進(jìn)一步展開(kāi);描述文本的句子通常以表示植物結(jié)構(gòu)的名詞詞組(先導(dǎo)詞)開(kāi)頭;一些屬性具有內(nèi)部特征,如顏色的標(biāo)志為“色”,形狀的標(biāo)志為“狀”“形”等;標(biāo)點(diǎn)符號(hào)起一定作用,如“、”表示某一屬性的屬性值并列,“;”表示葉片與葉柄的分離,“。”表示根與葉的分離等。專用規(guī)則,即針對(duì)不同植物具有特性的描述形式定義的規(guī)則。譬如,在有些植物描述花的語(yǔ)句中出現(xiàn)“植物結(jié)構(gòu)”+“數(shù)量”的形式,抽取時(shí)需合理設(shè)定語(yǔ)序?;谕ㄓ靡?guī)則和專用規(guī)則,定義屬性規(guī)則集,用正則匹配的方式抽取出植物的屬性,包括生長(zhǎng)類型、顏色、形狀、形態(tài)、質(zhì)地、毛被、花期、果期、長(zhǎng)度、寬度、高度、胸徑等。在表示植物屬性的RDF模型中,三元組的主體是實(shí)體,謂詞是屬性,客體是屬性值,譬如“油杉”“高度”“30m”。其次,定義關(guān)系規(guī)則集,進(jìn)行植物關(guān)系抽取。由于數(shù)據(jù)的限制,本文從中只抽取到了3種關(guān)系:地域關(guān)系、異名關(guān)系、變種關(guān)系。地域關(guān)系可表示為一個(gè)植物實(shí)體與多個(gè)地域的關(guān)系,也可表示為多個(gè)植物實(shí)體與一個(gè)地域的關(guān)系。異名關(guān)系和變種關(guān)系也是如此。在表示植物關(guān)系的RDF模型中,三元組的主體是實(shí)體,謂詞是關(guān)系,客體是實(shí)體,譬如“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”。最后,通過(guò)數(shù)據(jù)庫(kù)實(shí)現(xiàn)RDF模型的實(shí)際存儲(chǔ)就完成了植物知識(shí)庫(kù)的構(gòu)建。

三、植物問(wèn)答系統(tǒng)的實(shí)現(xiàn)

植物問(wèn)答系統(tǒng)的實(shí)現(xiàn)包括三個(gè)部分:用戶輸入、調(diào)用問(wèn)答模塊、答案輸出。其中,問(wèn)答模塊的構(gòu)建是核心。本文基于自主構(gòu)建的結(jié)構(gòu)化植物知識(shí)庫(kù),并且參照相關(guān)問(wèn)答系統(tǒng)[3],確定本系統(tǒng)的問(wèn)答模塊分為四個(gè)部分,包括問(wèn)題分類、問(wèn)題分析、三元組語(yǔ)義槽提取、答案生成。

1.問(wèn)題分類。對(duì)于用戶輸入的問(wèn)題,確定是屬性問(wèn)題還是關(guān)系問(wèn)題。譬如,問(wèn)題“油杉有多高?”是屬性問(wèn)題,問(wèn)題“油杉產(chǎn)自哪里?”是關(guān)系問(wèn)題。

2.問(wèn)題分析。對(duì)問(wèn)題進(jìn)行分析,確定句子中的實(shí)體、屬性或關(guān)系。譬如,問(wèn)題“油杉有多高?”中的實(shí)體是“油杉”,屬性是“高度”;問(wèn)題“油杉產(chǎn)自哪里?”中的實(shí)體是“油杉”,關(guān)系是“地域”。

3.三元組語(yǔ)義槽提取。從問(wèn)題分析的結(jié)果中提取語(yǔ)義信息,用三元組表示。譬如,從問(wèn)題“油杉有多高”中提取出三元組(“油杉”“高度”“?”),從問(wèn)題“油杉產(chǎn)自哪里”中提取出三元組(“油杉”“產(chǎn)于”“?”)(“?”表示未知)。

4.答案生成。根據(jù)問(wèn)題分類和提取到的三元組,在知識(shí)庫(kù)的屬性部分和關(guān)系部分中選擇查詢,填充三元組中的未知部分,生成答案。譬如,問(wèn)題“油杉有多高?”查詢填充后的三元組為“油杉”“高度”“30m”,答案為“30m”;問(wèn)題“油杉產(chǎn)自哪里?”查詢填充后的三元組為“油杉”“產(chǎn)于”“浙江南部、福建、廣東、廣西南部”,答案為“浙江南部、福建、廣東、廣西南部”。

將構(gòu)建的問(wèn)答模塊結(jié)合Web應(yīng)用,即可實(shí)現(xiàn)植物問(wèn)答系統(tǒng)。

四、結(jié)語(yǔ)

本文實(shí)現(xiàn)了一個(gè)基于實(shí)體屬性抽取的植物問(wèn)答系統(tǒng),對(duì)于植物分類學(xué)和植物標(biāo)本的采集鑒定等進(jìn)一步地深入研究具有重要意義。筆者希望有更多的有志之士能夠投身這個(gè)課題的研究之中,并指出筆者在文中的不足之處,同時(shí)為這一課題的研究做出自己應(yīng)有的一份貢獻(xiàn)。

參考文獻(xiàn):

[1]曾道建,來(lái)斯惟,張?jiān)?,劉康,趙軍.面向非結(jié)構(gòu)化文本的開(kāi)放式實(shí)體屬性抽取[J].江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,(03):279-283,305.

[2]丁君軍,鄭彥寧,化柏林.國(guó)內(nèi)外屬性抽取研究綜述[J].情報(bào)科學(xué),2011,(05):793-796.

[3]杜澤宇,楊燕,賀樑.基于中文知識(shí)圖譜的電商領(lǐng)域問(wèn)答系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2017,(05):159-165.

Research on Plant Question Answering System Based on Entity Attribute Extraction

WEI Heng,JI Fang,LI Ru-meng

(School of Information Science & Technology,Beijing Forestry University,Beijing 100083,China)

Abstract:With the continuous development of the Internet,information extraction technology is also in constant innovation and progress,the plant description information structured,for plant taxonomy and plant specimen collection and identification of further in-depth research is of great significance.In this paper,a knowledge base of plant information is constructed by combining entity attribute extraction technology,so as to realize a new plant question answering system and enable users to get accurate and specific answers directly.

Key words:entity attribute extraction;plant knowledge base;question answering system

主站蜘蛛池模板: 亚洲精品免费网站| 国产一区二区人大臿蕉香蕉| 久久不卡精品| 亚洲三级视频在线观看| 亚洲色图欧美在线| 国产黑人在线| 国产精品手机在线观看你懂的 | 91丝袜在线观看| 中文字幕亚洲专区第19页| 久久中文电影| 自偷自拍三级全三级视频| 久久亚洲国产一区二区| 欧美中文一区| 91九色最新地址| 在线观看无码av免费不卡网站| 99国产精品国产| 国产熟睡乱子伦视频网站| 精品久久高清| 四虎永久免费地址| 亚洲动漫h| 亚洲中文无码av永久伊人| 伊人精品成人久久综合| 亚洲欧洲国产成人综合不卡| 国产丝袜无码一区二区视频| 孕妇高潮太爽了在线观看免费| 国产剧情国内精品原创| 六月婷婷激情综合| 麻豆国产精品视频| 国产女人水多毛片18| 亚洲天堂.com| 久久综合亚洲鲁鲁九月天| 女人18毛片久久| Aⅴ无码专区在线观看| 国产91无码福利在线| 91欧美在线| 国产午夜无码专区喷水| 国产人人射| 91在线免费公开视频| 国产色图在线观看| 国产精品一线天| 久久精品午夜视频| 亚洲色图欧美一区| 欧美日韩亚洲综合在线观看| 老汉色老汉首页a亚洲| 国产在线八区| 国产亚洲精品97AA片在线播放| 在线播放国产99re| 毛片在线播放网址| 成人亚洲天堂| 91外围女在线观看| 國產尤物AV尤物在線觀看| 久久婷婷色综合老司机| 日韩免费视频播播| 亚洲黄色激情网站| 91无码人妻精品一区二区蜜桃| 最新亚洲人成无码网站欣赏网| 国产精品第一区| 日本免费高清一区| 国产精品亚洲一区二区在线观看| 狠狠v日韩v欧美v| 亚洲午夜综合网| 亚洲性日韩精品一区二区| 国产精品林美惠子在线播放| 色综合天天综合中文网| 国产成人精品一区二区免费看京| 亚洲国产清纯| 亚洲成网站| 国产精品成人一区二区不卡| 国产在线第二页| 伊人丁香五月天久久综合| 国产亚洲欧美在线中文bt天堂| AV片亚洲国产男人的天堂| 一边摸一边做爽的视频17国产 | 精品国产污污免费网站| 国产成人综合久久精品尤物| 亚洲国产欧美国产综合久久 | 国内精品91| 午夜无码一区二区三区| 国产精品尤物在线| 亚洲人成网站日本片| 91最新精品视频发布页| 久久国产精品电影|