999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于知識圖譜的新疆旅游自動問答系統(tǒng)設計

2021-01-14 00:45:42孫晶郭成艷毛臣胡玉葉
現(xiàn)代信息科技 2021年12期

孫晶 郭成艷 毛臣 胡玉葉

摘 ?要:近年來,新疆旅游業(yè)發(fā)展趨勢越來越好,優(yōu)美的風光,豐富的物產,受到國內外游客的喜愛。由于新疆地大物博,導致多數(shù)游客不能準確找到目的地。建立了一個新疆旅游知識圖譜結構描述和形態(tài)分析的可計算方法體系,提出將自動問答系統(tǒng)運用于新疆旅游。創(chuàng)建新疆旅游知識圖譜并構建基于新疆旅游知識圖譜的自動問答平臺,目的是使游客在存放著海量結構化知識的圖譜上快速獲取正確答案,為游客游覽景區(qū)時減少不必要的時間消耗。

關鍵詞:知識圖譜;Neo4j數(shù)據(jù)庫;自動問答系統(tǒng);新疆旅游

中圖分類號:TP182 ? 文獻標識碼:A 文章編號:2096-4706(2021)12-0026-04

Abstract: In recent years, the development trend of Xinjiang tourism is getting better and better. The beautiful scenery and rich products are loved by tourists at home and abroad. Due to the vast territory and abundant resources in Xinjiang, most tourists can't find their destination accurately. A computable method system for structural description and morphological analysis of Xinjiang tourism knowledge graph is established, and the application of automatic question answering system in Xinjiang tourism is proposed. The purpose of creating Xinjiang tourism knowledge graph and constructing an automatic question answering platform based on Xinjiang tourism knowledge graph is to enable tourists to quickly obtain correct answers on the graph with a large amount of structured knowledge, so as to reduce unnecessary time consumption of tourists when they visiting scenic spots.

Keywords: knowledge graph; Neo4j database; automatic question answering system; Xinjiang tourism

0 ?引 ?言

早期自動問答系統(tǒng)大都針對特定領域構建,需要領域專家撰寫大量領域相關的規(guī)則用于問題理解和答案生成,極大地限制了該類自動問答系統(tǒng)的規(guī)模和通用性。20世紀60年代,Green等人提出BASEBALL系統(tǒng),Woods提出使用自然語言檢索NASA數(shù)據(jù)庫,Winograd提出SHRDLU系統(tǒng)。自動問答內容系統(tǒng)START是由MIT麻省理工學院1993年研究開發(fā)并發(fā)布使用的從此自動問答進入開放領域問答時代。Evi是2005年上線的基于知識圖譜(knowledge graph)核心技術的問答型搜索引擎。斯坦福在2016年發(fā)布了SQUAD數(shù)據(jù)集。2018年3月百度發(fā)布了中文機器閱讀理解數(shù)據(jù)集DuReader,與中國中文信息學會和中國計算機學會共同舉辦了“2018機器閱讀理解技術賽”。新疆豐富的旅游資源吸引著全國的游客來觀光,但仍缺乏一個能夠隨時隨地解答新疆旅游問題的自動問答系統(tǒng)來幫助游客解決心中的疑惑。近年來,隨著人工智能的飛速發(fā)展,自動問答技術也取得了突飛猛進的發(fā)展,如果將自動問答技術應用于回答旅游愛好者在新疆旅游遇到的問題,新疆旅游將會有更好的發(fā)展前景。

1 ?知識圖譜

知識圖譜這個理論是以20世紀50年代末60年代初的語義網絡(semantic net)為原型提出來的。知識圖譜這個概念Google在2012年提出來的一個新概念。知識圖譜把一個叫做三元組(triple)的數(shù)據(jù)結構作為知識存儲和表示的基本單元。現(xiàn)在,國際上流行的的知識圖譜有Freebase、DBPedia,YAGO和Satori等等,他們的主要內容還是源自于早期一些大型平臺Wikipedia、NNDB、Musicbrainz以及這些平臺的社區(qū)用戶的貢獻。2012年,從Google開始發(fā)布基于知識圖譜的語義搜索和自動問答服務以后,學術屆開始研究知識圖譜的典型應用。慢慢的,業(yè)界學術研究團隊對垂直知識圖譜進行有針對性的研究,針對某些特定領域特定專業(yè)知識為基礎創(chuàng)建的垂直知識圖譜,其創(chuàng)建過程依賴特定專業(yè)領域的行業(yè)數(shù)據(jù)的依賴度非常高,在知識領域各專業(yè)的全領域覆蓋范圍較窄。當前如何脫離專業(yè)領域數(shù)據(jù)庫使得知識圖譜能夠進行自動獲取和實際應用是目前各領域中最重要的兩個課題。

2 ?知識圖譜語料庫創(chuàng)建

本文研究多源異構方式建立新疆旅游實體生成資源技術,本文研究的數(shù)據(jù)從一開始的設計由百科網頁中用爬蟲來進行爬取,由于爬蟲的設計和數(shù)據(jù)清洗技術熟練度好,所以在后續(xù)的應用中沿用了爬蟲爬取百科網頁結構化數(shù)據(jù),在爬蟲過程中主要應用傳統(tǒng)方法就是Partial Page Rank策略,該策略的優(yōu)先度設計為重要程度較高的網頁爬取有限權重系數(shù)較高。爬取好網頁數(shù)據(jù)后,使用人工數(shù)據(jù)清洗的方法將爬取到的實體、屬性及相互關系等知識手工摘取出來,然后存儲到文本文件當中,使用程序算法再輔以數(shù)據(jù)提取以三元組的形式儲存到圖數(shù)據(jù)庫中。這種爬蟲框架輔助人工篩選的方式可以非常有效的達到獲取新疆旅游詞條的目的,并且能夠極大的豐富數(shù)據(jù)庫資源。各數(shù)據(jù)資源名詞性對象會生產等實體,各實體間存在的位于和屬于關系,我們會以<實體1,關系,實體2>三元組形式進行數(shù)據(jù)庫依存關系儲存。實體的屬性是我們數(shù)據(jù)庫中每個詞條中特定位置對應的,這個詞條中實體屬性的表格能夠自動抽取出實體的屬性,生成<實體,屬性名稱,屬性值>三元組形式進行數(shù)據(jù)庫儲存。本文為了構建旅游知識圖譜從結構化知識庫和垂直旅游信息數(shù)據(jù)庫及網站以及百度百科中抽取旅行景點信息,進行旅游領域知識數(shù)據(jù)庫創(chuàng)建。本文研究的新疆旅游知識圖譜數(shù)據(jù)庫只要包括地區(qū)節(jié)點知識圖譜和景點知識圖譜兩部分構建的關鍵技術。

3 ?Neo4j數(shù)據(jù)庫

本文使用Neo4j數(shù)據(jù)庫來創(chuàng)建知識圖譜,實現(xiàn)圖數(shù)據(jù)庫數(shù)據(jù)呈現(xiàn)。Neo4j是近年來非常流行的用于存儲知識圖譜節(jié)點和節(jié)點關系的NOSQL圖形數(shù)據(jù)庫。作為一個高性能的圖數(shù)據(jù)庫存儲和檢索的圖引擎,該數(shù)據(jù)庫引擎具有常用數(shù)據(jù)庫與專業(yè)數(shù)據(jù)庫所具備的所有成熟特性。使用Neo4j圖數(shù)據(jù)庫的一個優(yōu)勢就是在對數(shù)據(jù)進行存儲的同時也是一個知識圖譜的構建過程。通過對前面各種算法抽取的名詞性實體、名詞性實體的屬性以及名詞性實體間依存關系的存儲,就能夠生成一張知識圖譜。

我們使用py2neo,python驅動引擎實現(xiàn)對數(shù)據(jù)庫的一系列操作。對新疆旅游知識圖譜數(shù)據(jù)庫中的區(qū)、市、縣、景點等層級節(jié)點數(shù)據(jù)進行創(chuàng)建、讀取、更新、刪除的操作。然后在已創(chuàng)建的數(shù)據(jù)節(jié)點上創(chuàng)建下轄和位于等數(shù)據(jù)依存關系。Neo4j數(shù)據(jù)庫呈現(xiàn)的新疆旅游知識圖譜數(shù)據(jù)庫節(jié)點及其依存關系圖如圖1所示。

Self.g = Graph(‘http://localhost:7474’,username = ‘neo4j,password=‘neo4j’)

elif question_type == ‘city_have’:

sql=[“MATCH ( m:‘縣市’)-[r1:‘下轄’]->(k:‘景區(qū)’) where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

for query in queries:

ress = self.g.run(query).data()

在圖數(shù)據(jù)庫中,圖1中心部分表示的是哈密地級市的縣和市,與縣和市連接的是縣和市中的景區(qū),縣和市中的景區(qū)外側連接的是新疆維吾爾自治區(qū)對應的各個地區(qū),數(shù)據(jù)庫中有地區(qū)位于縣(或市)和縣(或市)下轄地區(qū)兩種關系,如哈密市位于哈密地級市,哈密地級市下轄哈密市。景區(qū)與縣(或市)同樣也有位于和下轄兩種關系,如東天山位于哈密市,哈密市下轄東天山。如果想做多種關系,也可在數(shù)據(jù)庫中進行添加。

4 ?基于圖數(shù)據(jù)庫的自動問答設計

本系統(tǒng)對新疆旅游知識圖譜數(shù)據(jù)庫當中的區(qū)、市、縣、景點以及位置關系進行抽象,歸納出概念間的體系結構,進行本體三元組抽取,構建知識圖譜。構建知識圖譜圖數(shù)據(jù)庫,對用戶所提取的問題進行命名實體識別、關系抽取,然后到圖數(shù)據(jù)庫中進行答案匹配,如圖2所示。

4.1 ?問題解析

自動問答系統(tǒng)的問題處理流程有:

(1)提前對問題分類。要對用戶的問句即系統(tǒng)接收到的問題進行分類,如表1所示,提前將旅游中所有可能涉及的問題分為了九大類。

(2)提取問題的關鍵詞。對用戶所提問題進行關鍵詞提取,即地區(qū)名稱和主要問題,如東天山和通信地址,并過濾掉重復的、無用的信息:

#問句疑問詞

self.telephone_number_qwsd= [‘聯(lián)系電話’,‘咨詢電話’,‘電話號碼’,‘電聯(lián)’,‘電話號’]

Self.leve_qwds=[‘級別’, ‘啥級別’, ‘幾A級’,‘幾a級’, ‘4A級’, ‘4a級’, ‘什么級別’]

(3)確定問題的類型。將關鍵詞與問題的分類結果進行匹配,確定問題的類型。if question_type == ‘area_have’:

sql = [MATCH (m: ‘地區(qū)’)-[r1: ‘下轄’]->(n:‘縣市’)-[r2: ‘下轄’]->(k:‘景區(qū)’)”\

“where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

elif question_type == ‘telephone_number’:

sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

“m.telephone”.format(i) ?for i in entities]

elif question_type == ‘AAAA_fare’:

sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

“m.name,m.off_season_fare,m.peak_season_fare”.format(i) ?for i in entities]

4.2 ?答案抽取

答案抽取作為自動問答系統(tǒng)的收尾步驟,但它卻是最關鍵的一步,針對用戶的問題類型屬性到數(shù)據(jù)庫中進行二次匹配,生成問題的答案。經過答案抽取這一過程后,用戶所提出的問題的答案將以最簡潔易懂的形式回答,如果答案抽取過程不能將正確答案準確的抽取出來,那么將會嚴重影響整個自動問答系統(tǒng)的準確性。在新疆旅游項目中,我們以模式匹配的形式進行答案抽取。

根據(jù)上文中問題解析的結果,我們將所確定的問題類型與圖數(shù)據(jù)庫中的數(shù)據(jù)進行匹配,如果匹配成功,將反饋的內容生成對應的回答:

'''根據(jù)對應的qustion_type,調用相應的回復模板'''\n",

if question_type == 'area_have':

desc = [i['k.name'] for i in answers]

subject = answers[0]['m.name']

final_answer = '{0}有如下4A級景點:{1}'.format (subject, ';'.join(list(set(desc))[:]))

5 ?程序結果驗證

最后我們根據(jù)用戶所提問題關鍵字查找圖數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)反饋結構生成對應的回答,生成回答程序驗證結果如圖3所示。

6 ?結 ?論

隨著互聯(lián)網數(shù)據(jù)的海量增長、硬件計算能力的飛速提高以及自然語言處理和深度學習技術的長足進步,自動問答方法的應用也比以往任何一個歷史時期都更貼近人們的日常生活。本文設計和構建了新疆維吾爾自治區(qū)旅游景點信息的知識圖譜,創(chuàng)建了Neo4j語料庫,針對新疆旅游業(yè)問答系統(tǒng)的不足,設計了自動問答系統(tǒng),并對自動問答系統(tǒng)中的問題解析和答案抽取方法進行了研究,最后并進行了結果驗證。將自動問答系統(tǒng)應用于新疆旅游領域,可以促進新疆旅游信息的智能化管理發(fā)展,提升服務水平,這個價值是具有較大影響的。最近這幾年推薦系統(tǒng)不管是研究還是發(fā)展都愈發(fā)的得到社會的關注,知識圖譜建立的理論以及技術都愈發(fā)的完善,知識圖譜包含的語義信息可以在很大的程度上對旅游景點相關信息進行健全,提高推薦系統(tǒng)的性能。

參考文獻:

[1] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術綜述 [J].電子科技大學學報,2016,45(4):589-606.

[2] 劉知遠,孫茂松,林衍凱,等.知識表示學習研究進展 [J].計算機研究與發(fā)展,2016,53(2):247-261.

[3] 劉嶠,李楊,段宏,等.知識圖譜構建技術綜述 [J].計算機研究與發(fā)展,2016,53(3):582-600.

[4] ARTZI Y,LEE K,ZETTLEMOYER L. Broad-coverage CCG Semantic Parsing with AMR [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon:Association for Computational Linguistics,2015:1-6.

[5] LI J H,ZHU M H,LU W,et al. Improving Semantic Parsing with Enriched Synchronous Context-Free Grammars in Statistical Machine Translation [J].ACM transactions on Asian language information processing,2017,16(1):6.1-6.24.

作者簡介:孫晶(1978—),女,回族,新疆新源縣人,講師,碩士,主要研究方向:機器學習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;郭成艷(2002—),女,漢族,陜西延安人,本科在讀,主要研究方向:機器學習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;毛臣(1999—),男,漢族,河南南陽人,本科在讀,主要研究方向:機器學習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;胡玉葉(2001—),女,漢族,新疆哈密人,本科在讀,主要研究方向:機器學習、最優(yōu)化算法、音頻信息處理、自然語言與信息處理。

主站蜘蛛池模板: 亚洲精品动漫| 亚洲一区二区三区国产精华液| 国产精品浪潮Av| 国产亚洲欧美日韩在线一区| 国产亚洲欧美在线视频| 伦伦影院精品一区| 国产精品原创不卡在线| 国产精品亚欧美一区二区三区| 色呦呦手机在线精品| 国产又粗又猛又爽视频| 超清人妻系列无码专区| 国产白浆视频| 国产产在线精品亚洲aavv| 婷婷激情亚洲| 福利姬国产精品一区在线| 亚洲成人一区二区| 亚洲无限乱码| 精品黑人一区二区三区| 精品一区二区三区中文字幕| 国产精品片在线观看手机版| 国产91在线|中文| 日韩av手机在线| 欧美成人看片一区二区三区| 婷婷色婷婷| 国产精品视频导航| 直接黄91麻豆网站| h视频在线播放| 67194亚洲无码| 狠狠色婷婷丁香综合久久韩国| 91视频99| 色偷偷综合网| 五月婷婷综合在线视频| 欧美亚洲另类在线观看| 亚洲国产一成久久精品国产成人综合| 亚洲人在线| 久久午夜夜伦鲁鲁片无码免费| 国产亚洲欧美日本一二三本道| 久草性视频| 成人免费视频一区| 国产免费怡红院视频| 国产一区二区网站| 欧美成人a∨视频免费观看| 国产在线观看第二页| 国产在线自乱拍播放| 亚洲成人播放| 欧美成人aⅴ| 国产特级毛片aaaaaaa高清| 国产精品极品美女自在线网站| 精品无码国产自产野外拍在线| 天天色综网| 婷婷午夜天| 国产乱子伦无码精品小说| 日韩毛片在线视频| 亚洲欧洲天堂色AV| 午夜少妇精品视频小电影| 强奷白丝美女在线观看| 九九热视频在线免费观看| 99国产在线视频| 国产9191精品免费观看| 国产毛片一区| 日韩第九页| 欧美精品另类| 熟妇丰满人妻| 麻豆国产精品视频| 高清国产在线| 色播五月婷婷| 在线观看免费AV网| 国产丰满大乳无码免费播放| 在线视频精品一区| 亚洲成人网在线观看| 国产精品亚欧美一区二区| 亚洲视频在线青青| 亚洲午夜福利在线| 青草视频免费在线观看| 亚洲第一成人在线| 喷潮白浆直流在线播放| 国产特级毛片aaaaaa| 成人国产精品网站在线看| 又黄又爽视频好爽视频| 日韩少妇激情一区二区| 精品国产免费人成在线观看| 日韩精品无码免费一区二区三区|