王紅 楊蓉 郭靜
摘? 要: 針對航空安全事件RDF圖數據因果關系查詢中低匹配和無匹配的問題,提出一種基于語義相似度和RDFS規則的重寫方法。該方法首先采用基于詞向量的語義相似度計算方法將用戶RDF三元組轉換為領域本體RDF三元組,然后依據RDFS規則對領域本體RDF三元組進行關系擴展重寫,最后將該方法應用于航空安全事件因果關系的查詢。實驗結果表明,該方法在查全率和查準率方面取得明顯效果,能夠改善因果關系查詢中低匹配和無匹配的問題,為解決航空安全事件因果關系的查詢問題提供了方法支持。
關鍵詞: 因果關系查詢; 關系重寫; 航空安全事件; 語義相似度計算; 查詢效果分析; 查詢語句擴展
中圖分類號: TN919?34; TP391.1? ? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2019)16?0149?05
0? 引? 言
近年來非正常條件下的航空安全事件呈多元化趨勢,包括大面積航班延誤、航空器危險接近、航空器墜毀等,獲取航空安全事件的因果關系,分析事件的前因后果,對于航空安全事件的有效預防和應急處理能力的提升具有重要的意義。在航空安全領域中,肖志偉等人提出了一種領域本體相關概念的語義相似度計算檢索方法,實現了領域本體的語義檢索;李林等人利用語義模式表達匹配算法找到用戶查詢的相關語義概念,實現了民航突發事件應急案例的語義檢索;蔡偉偉等人提出了基于領域本體的分布式推理與查詢方法,實現了相似案例查詢;王雪君等人利用標簽傳播算法將語義結構密切的數據進行多級劃分,實現了相似案例的查詢[1]。然而上述方法都是基于領域本體的查詢方法,用戶查詢關鍵詞和領域本體無法準確映射,導致查詢過程中查準率和查全率較低,出現低匹配和無匹配的問題。
因查詢擴展方法能夠有效提高查詢的查準率和查全率,所以文中提出一種基于RDF重寫的查詢擴展方法。重寫是數據庫查詢的一種優化技術,將查詢關鍵詞進行擴展并映射到本體的一種技術。重寫技術被廣泛應用于數據庫查詢優化中,如數據集成環境中的聚集查詢[2],挪威國家石油公司的數據查詢[3?5]。目前重寫技術的研究主要分為基于相似度的重寫和基于RDFS規則的重寫。其中,相似度計算方法包括向量空間模型(VSM)[6]、編輯距離方法[7]、基于詞向量與句法結構的方法[8]和基于深度神經網絡的計算方法[9]等。RDFS推理規則[10?11]是RDF數據推理中的核心部分,是推理研究中首選的規則集,基于RDFS規則的重寫是依據規則進行領域本體RDF三元組的重寫。本文將重寫技術應用于航空安全事件RDF圖數據的因果關系查詢,旨在解決低匹配和無匹配的問題,為航空安全事件的因果關系分析提供有價值的信息。
1? 研究思路
基于重寫的航空安全事件因果關系查詢的研究思路如圖1所示。
1) 基于語義相似度計算的RDF概念和關系重寫。采用詞向量的方法,將用戶RDF三元組的主語、賓語和領域本體中的概念,謂語和本體中的關系進行余弦相似度計算,選擇相似度高于閾值的概念和關系,將用戶RDF三元組的主語、賓語、謂語轉換為領域本體的概念、關系。
2) 基于RDFS規則的關系擴展重寫。采用RDFS規則,通過對航空安全領域本體的模式數據進行預處理,組織成四類數據集,獲得新的模式三元組數據。步驟1)中的領域本體RDF三元組,利用RDFS規則,實現本體概念、關系以及關系約束的重寫,獲得新的RDF三元組。
3) 航空安全事件因果關系的查詢。將上述方法應用于航空安全事件RDF圖數據的因果關系查詢中,進行實驗對比,以查全率和查準率作為評判標準,驗證重寫查詢的有效性。
2? 基于語義相似度和RDFS規則的重寫
基于語義相似度重寫和基于RDFS規則的重寫,可以將用戶原本單一的查詢語句擴展成多個查詢語句。
2.1? 航空安全領域本體因果關系RDF圖數據的構成
航空安全領域本體因果關系數據集來源于民航安全事故調查報告。根據中國民用航空局《民用航空器事故和飛行事故征候調查規定(CCAR395?R1)》中的規定,航空器事故是航空器飛行事故和航空器地面事故的總稱。在航空安全領域本體中,將航空安全事故的原因劃分為航空器故障致災、環境原因致災、人為因素致災三大類,航空安全事故的最終結果劃分為航空器損壞、人員傷亡和地面設施損壞三大類。圖2給出了領域本體中的因果關系主要概念的構成。其中,類別的下標格式為“X,XX,XXX,……”,即第1位表示一級類別,2~3位表示二級類別,4~6位表示三級類別。
本文采用基于圖數據庫Neo4j的領域本體分布式存儲方法[12?13],可以最大限度地保持RDF數據的語義信息,也有利于對語義信息的查詢。其中一個存儲節點主要負責模式數據的存儲。
由于Key?value型的數據庫Redis查詢性能高并且支持持久化存儲,因此,文中采用Redis數據庫來存儲模式數據。圖3給出了航空安全領域本體部分RDF圖數據,其中航空安全事件是由事件發生的時間和航班號組成。
2.3.2? 基于RDFS規則的重寫
基于RDFS規則的重寫是依據RDFS規則將領域本體RDF三元組重寫為新的RDF三元組。首先對模式數據進行預處理,然后進行RDFS規則匹配,實現領域本體RDF的重寫。實現過程如下:
1) 從Redis數據庫中讀取模式數據,謂詞為domain,range,SubPropertyOf,SubClasssOf的三元組分別存放在domainData,rangeData,SubPropertyData,SubClassOfData數據集中。
2) 如果SubPropertyData數據集中,存在p rdfs: SubPropertyOf q && q rdfs: SubPropertyOf r,依據規則1,將p rdfs: SubPropertyOf r存放在SubPropertyData數據集中。
3) 如果SubClassOfData數據集中存在x rdfs: subClassOf y && y rdfs: subClassOf z,依據規則2,將x rdfs:subClassOf z存放在SubClassOfData數據集中。
4) 如果RDF三元組[t=s,p,o],謂語p[∈]SubPropertyOfData && p rdfs: SubPropertyOf q依據規則3,輸出[ti=s,q,o]。
5) 如果RDF三元組[t=s,p,o]和[ti=s,q,o],謂語p[∈]domainData && p rdfs:domain x或者謂語q[∈]domainData && q rdfs:domain x,依據規則4,輸出[tj=(s,type,x)];
6) 如果RDF三元組[t=s,p,o]和[ti=s,q,o],謂語p[∈]rangeData && p rdfs:range x或者謂語q[∈]rangeData && q rdfs:range x,依據規則5,輸出[tm=(o,type,x)];
7) 如果RDF三元組[t=s,p,o],[tj=(s,type,x)],[tm=(o,type,x)]的謂語是type時,o[∈]SubClasssOfData && o rdfs:subClassOf y,x[∈]SubClasssOfData && o rdfs:subClassOf y,依據規則6,輸出[tn=(s,rdf:type,y)],[to=(o,rdf:type,y)]。到此重寫完成。
其中,步驟1)~3)為模式數據的預處理,步驟4)~7)依據RDFS規則對領域本體RDF三元組進行重寫。
3? 航空安全事件因果關系查詢與效果分析
3.1? 航空安全事件因果關系查詢
若用戶RDF三元組[t1=(ei,type,si)],[t2=(ei,cause,ri)],[ei]表示突發事件,[si]表示事件原因,[ri]表示事件結果。首先將用戶RDF三元組重寫為航空安全領域本體RDF三元組,采用基于詞向量的語義相似度重寫方法,將[si]和[ri]分別和航空安全領域本體的概念進行相似度計算,選擇相似度超過閾值β的概念進行RDF三元組重寫,重寫后的三元組為[t1=(ei,type,soi)];[t2=(ei,cause,roi)]。其中,[soi]為領域本體中的事件原因、[roi]為領域本體中的事件結果。然后進行基于RDFS規則的領域本體RDF三元組重寫,其中,[t2=(ei,cause,roi)]依據規則4和規則5可以重寫為[t3=(ei,type,sp)],[t4=(roi,type,rp)]。其中[sp],[rp]分別為謂詞“cause”的domain約束、range約束。[t1=(ei,type,soi)],[t3=(ei,type,sp)],[t4=(roi,type,rp)],依據規則6可以改寫為[t5=(ei,type,ssoi)],[t6=(ei,type,ssp)],[t7=(roi,type,rsp)]。其中[ssoi],[ssp],[rsp]分別是[soi],[sp],[rp]的子概念。圖4是基于RDF重寫的航空安全事件的因果關系查詢。
圖4? 基于RDF重寫的航空安全事件因果關系查詢
Fig. 4? Causality query of aviation security events
based on RDF rewriting
依據重寫后的一組RDF三元組從航空安全事件RDF圖數據集中搜索匹配的結果。以“航空器機頭故障”為例,查詢結果如表1所示。
3.2? 查詢效果與分析
查詢效果與詞向量存在重要的聯系。在詞向量訓練過程中,對特征向量的維度size、相似度β值進行對比試驗。其中,P為查準率;R為查全率;F1值的計算公式為[2×P×RP+R]。實驗結果如表2所示。
表2所示的實驗結果表明,當size=300,β=0.90時,F1值最高,此時的查詢效果最好。因此在航空安全事件RDF圖數據查詢實驗中,設置參數size為300,β為0.90。
為驗證重寫技術的有效性,依據事件原因和結果分別進行查詢,與基于單純本體擴展查詢方法進行對比試驗,結果如表3所示。基于重寫的查詢結果優于基于單純本體擴展查詢的方法。重寫查詢可以將用戶原本單一的查詢語句擴展成多個查詢語句,提高了查詢的查全率和查準率。
4? 結? 論
針對航空安全事件RDF圖數據因果關系查詢中低匹配和無匹配的問題,提出一種基于語義相似度和RDFS規則的重寫技術,對航空安全事件因果關系查詢進行優化。將該方法應用到航空安全事件RDF圖數據因果關系查詢中,通過實驗證明了該方法在查詢中的優勢,平均查準率提高10%,平均查全率提高16%,可以改善因果關系查詢中低匹配和無匹配的問題,從而為航空安全事件的預防和應急處理提供有價值的信息。下一步可以考慮加入用戶的反饋信息和關鍵詞的權重,進一步改善查詢的效果。
表3? 查詢性能對比
Table 3? Comparison of query performances
[事件查詢 因果關系 重寫查詢 本體擴展查詢 P R P R 事件結果查詢 航空器故障 0.89 0.91 0.78 0.69 人為原因 0.80 0.88 0.72 0.77 環境原因 0.88 0.85 0.76 0.73 事件原因查詢 航空器損壞 0.84 0.95 0.75 0.69 人員傷亡 0.83 0.93 0.73 0.73 地面設施損壞 0.87 0.85 0.82 0.77 其他 0.85 0.80 0.69 0.65 ]
參考文獻
[1] 王紅,王雪君,楊蓉.基于圖劃分的領域本體RDF存儲方法[J].現代電子技術,2018,41(24):141?145
WANG Hong, WANG Xuejun, YANG Rong. A domain ontology RDF storage method based on graph partitioning [J]. Modern electronics technique, 2018, 41(24): 141?145.
[2] 張曉剛,楊路明,潘久輝.數據集成環境下一種高效一致性聚集查詢[J].計算機學報,2014(9):1936?1946.
ZHANG Xiaogang, YANG Luming, PAN Jiuhui. An efficient consistent aggregate query in data integration environment [J]. Chinese journal of computers, 2014(9): 1936?1946.
[3] BOTOEVA E, CALVANESE D, SANTARELLI V, et al. Beyond OWL 2 QL in OBDA: rewritings and approximations [C]// Proceedings of 30th AAAI Conference on Artificial Intelligence. Phoenix: AAAI Press, 2016: 921?928.
[4] KHARLAMOV E, HOVLAND D, JIMENEZRUIZ E, et al. Ontology based access to exploration data at Statoil [C]// Proceedings of? 14th International Semantic Web Conference. Bethlehem: [s.n.], 2015: 93?112.
[5] BAGOSI T, CALVANESE D, HARDI J, et al. The ontop framework for ontology based data access [J]. Communications in computer & information science, 2014, 480(1): 67?77.
[6] 馮高磊,高嵩峰.基于向量空間模型結合語義的文本相似度算法[J].現代電子技術,2018,41(11):157?161.
FENG Gaolei, GAO Songfen. Text similarity algorithm combining semantics based on vector space model [J]. Modern electronics technique, 2018, 41(11): 157?161.
[7] 何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術研究與應用[J].飛行器測控學報,2015,34(4):389?394.
HE Feng, GU Suolin, CHEN Yanhui. Text proofreading technology based on levenshtein distance similarity [J]. Journal of spacecraft TT & C technology, 2015, 34(4): 389?394.
[8] 李曉,解輝,李立杰.基于Word2vec的句子語義相似度計算研究[J].計算機科學,2017,44(9):256?260.
LI Xiao, XIE Hui, LI Lijie. Research on sentence semantic similarity calculation based on word2vec [J]. Computer science, 2017, 44(9):? 256?260.
[9] 陳曉陽.基于深度學習的短文本語義相似度計算[D].北京:北京理工大學,2015.
CHEN Xiaoyang. Short text semantic similarity calculation based on deep learning [D]. Beijing: Beijing Institute of Technology, 2015.
[10] 呂小玲,王鑫,馮志勇,等.MPPIE:基于消息傳遞的RDFS并行推理框架[J].計算機科學與探索,2016,10(4):451?465.
L? Xiaoling, WANG Xin, FENG Zhiyong, et al. MPPIE: RDFS parallel inference framework based on message passing [J]. Journal of frontiers of computer science & technology, 2016, 10(4): 451?465.
[11] MOHAMMAD F H, MCGLOTHLIN J P, MASUD M , et al. Heuristics?based query processing for large RDF graphs using cloud computing [J]. IEEE transactions on knowledge & data engineering, 2011, 23(9): 1312?1327.
[12] 王紅,張青青,蔡偉偉,等.基于Neo4j的領域本體存儲方法研究[J].計算機應用研究,2017,34(8):2404?2407.
WANG Hong, ZHANG Qingqing, CAI Weiwei, et al. Research on storage method for domain ontology based on Neo4j [J]. Application research of computers, 2017, 34(8): 2404?2407.
[13] 宮法明,李翛然.基于Neo4j的海量石油領域本體數據存儲研究[J].計算機科學,2018,45(z1):549?554.
GONG Faming, LI Xiaoran. Research on ontology data storage of massive oil field based on Neo4j [J]. Computer science, 2018, 45(S1): 549?554.