999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

聊天式數據查詢的技術方案探討

2019-10-21 12:38:03王悅林
科學導報·學術 2019年36期
關鍵詞:語義解決方案文本

王悅林

摘要:人工智能領域近年發展十分迅猛,其中自然語言處理(NLP)領域從2016年起進入高速發展期,以BERT為代表的各種新模型層出不窮,解決了文本數據分析和信息提取的問題。其中有一個子領域,即NL2SQL領域,是解決如何用自然語言問句進行數據庫查詢的問題。具體方案是通過語義解析,將自然語言問句翻譯成SQL,再送到數據庫中進行查詢,大大降低了數據查詢的難度,提升了交互友好度和查詢效率。本文探討具體的技術解決方案。

正文

NL2SQL領域目前的數據集英文以WikiSQL和Spider為主,中文有追一科技提供的競賽數據集。WikiSQL數據集支持單表、單列、多Where子句查詢,現有模型可以較好地支持。而耶魯大學提供的Spider數據集要求支持Group By、Order By、Having,還需要Join不同表,這更貼近于真實場景,也帶來了更大的難度。追一科技的競賽數據集的難度介于兩者之間,要求支持多列查詢,支持多Where子句間不同操作符操作。本文以追一科技數據集的難度為準,探討解決方案。

1.主流模型

目前業內的三大技術解決方案依次是SQLnet,SQLova和X-SQL,其中X-SQL在WikiSQL數據集上測試效果最好,但仍然滿足不了追一科技數據集的要求。我們主要參考后兩個模型,提出我們的解決方案。

2.方案思路

解決此問題有兩大思路,增強學習和解耦任務。增強學習是端到端的解決方案,比較先進,但實際應用尚不成熟,達不到準確率的要求。因此解耦任務的思路成為首選。解耦的思路是將任務拆解為8個子任務,分別是

Select-Number:選擇幾列

Select-Column:選擇哪一列

Select-Aggregation:使用什么聚合函數

Where-Number:有幾個條件

Where-Column:篩選條件是針對哪幾列

Where-Operator:各個條件的操作符

Where-Value:各個條件的條件值

Where-Operator:各個條件之間的關系。

為了將整體準確度提升到80%以上,需要8個子任務的平均準確度達到97.5%,這對方案提出了非常高的要求。

整體解決方案分為三部分:語義解析模塊、執行引導模塊和SQL增強模塊。以下分別加以說明。

3.語義解析模塊

語義解析模塊是整個解決方案最重要的部分,共分為三個層次:編碼層、語義增強層和輸出層。

編碼層采用2019年7月由Facebook公司推出的RoBERTa作為基礎預訓練模型。和2018年10月谷歌公司推出的BERT相比,此模型在CoLA和SST-2兩項任務中分別領先16個百分點和3個百分點。而這兩個任務是評判文本語義解析能力的重要指標。RoBERTa已經有支持中文的版本。

我們也考慮了其它的可能性,例如MT-DNN,XLnet,ERNIE2.0和DistilBERT,經過對可行性的分析和對性能的比較,最終選用RoBERTa。

語義增強層的思路是將問題的文本表示和組成數據列的token的文本表示進行融合,將融合后的結果結合注意力機制,然后進行數學相加,最后再加上問題的文本表示,以得到數據列的文本表示。

其中將問題與token進行融合的時候,加入兩個多維訓練參數(m*d),以構成神經網絡層。那么數學上,兩個多維表示如何變成一個注意力參數的呢?問題和token都是((m*d)*(d*1)),點積后成為(m*1)向量,再次轉制和點積后成為(1*1)向量,即一個注意力參數。

最后再次加上問題的文本表示,是為了增強問題表示的比重,將問題和toke比重由1:1改為2:1,以增強最終效果。此處問題權重設為0.5。

到此已經增加了一層神經網絡層。在輸出層為所有的子任務還要再增加一層神經網絡層,以Where Number子任務為例進行說明。這個子任務是二分類模型,可選值為1或2,而是否有Where子句由empty column指定。此子任務增加一層MLP層。其余子任務由不同的公式加上神經網絡參數計算。所有輸出層的損失函數都是交叉熵損失函數。

這些子任務并不是每個獨立進行訓練,在每一個batch size里,所有子任務按順序依次正向傳播,然后計算損失函數,按照梯度下降原理,進行整體反向傳播,更新參數,使整體損失函數值最低。

4.執行引導模塊

執行引導模塊參考arxiv.org/abs/1807.03100直接進行增強,可有效提升執行準確率2%左右。

SQL增強模塊

SQL增強模塊在把生成的SQL送到數據庫之前,進行調整如下:

●對于表中的類別型列數據,需要將生成的列值與數據庫里的此列的類別值進行相似度匹配,以替換成正確值。例如解析后的Where Value為“黃蜂”,而數據庫里的數據為“大黃蜂”,則修改為“大黃蜂”。

●如果兩個Where子句的列名相同,要檢查兩個Where Value是否相同,相同的話將其中一個替換為相似度最高的另一個值。

●如果Where Value里包含中文“和”字,則拆成兩個值

●如果問題中有中文“或”字,或者兩個Where子句的列名相同,則兩個Where子句的關系為“or”,其它情況均為“and”。

5.總結

以上是整體設計及方案的關鍵點。綜合以上方案,可以有效提升SQL轉化的準確度,取得較好效果。

參考文獻:

[1] Matthew E Peters,Mark Neumann,Mohit Iyyer,Matt Gardner,Christopher Clark,Kenton Lee,and Luke Zettlemoyer.2018.Deep contextualized word representations.arXiv preprint arXiv:1802.05365.

[2] Jason Phang,Thibault Fevry,and Samuel R Bowman.2018. Sentence encoders on stilts:Supplementary training on intermediate labeled-data tasks.arXiv preprint arXiv:1811.01088.

[3] Alec Radford,Karthik Narasimhan,Tim Salimans,and Ilya Sutskever.2018.Improving language understanding by generative pre-training.

[4] Pranav Rajpurkar,Jian Zhang,Konstantin Lopyrev,and Percy Liang.2016.Squad:100,000+ questions for machine comprehension of text.pages 2383–2392.

[5] Aarne Talman and Stergios Chatzikyriakidis.2018.Testing the generalization power of neural network models across nli benchmarks.arXiv preprint arXiv:1810.09774.

(作者單位:聯想集團)

猜你喜歡
語義解決方案文本
解決方案和折中方案
語言與語義
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
4G LTE室內覆蓋解決方案探討
認知范疇模糊與語義模糊
Moxa 802.11n WLAN解決方案AWK-1131A系列
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
主站蜘蛛池模板: 国产亚洲精久久久久久久91| 欧美精品亚洲二区| 国产玖玖玖精品视频| 国产一区二区视频在线| 欧美日韩中文字幕二区三区| 就去色综合| 国产96在线 | 国产乱人伦AV在线A| 精品91在线| 亚洲国内精品自在自线官| 亚洲系列中文字幕一区二区| 伊人狠狠丁香婷婷综合色| 99视频在线免费| 毛片网站在线播放| 五月综合色婷婷| 日本五区在线不卡精品| 成人福利在线观看| 色网在线视频| 日韩123欧美字幕| 欧美啪啪网| AV片亚洲国产男人的天堂| 人妻丝袜无码视频| 中文国产成人久久精品小说| 丰满的熟女一区二区三区l| 色综合狠狠操| 欧美日韩国产在线观看一区二区三区| 天堂网亚洲系列亚洲系列| 欧美一级片在线| 综合社区亚洲熟妇p| 久久夜色精品| 最新痴汉在线无码AV| 91精品aⅴ无码中文字字幕蜜桃 | 国产96在线 | 美女扒开下面流白浆在线试听| 亚洲成人黄色在线| 在线日韩日本国产亚洲| 黄片一区二区三区| 亚洲福利视频一区二区| 久久精品只有这里有| 在线国产资源| 国产精品亚洲αv天堂无码| 国产亚洲精品无码专| 麻豆精品久久久久久久99蜜桃| 欧美综合激情| 性视频久久| 亚洲精品va| 国产青榴视频在线观看网站| 亚洲手机在线| 麻豆国产精品一二三在线观看| 亚洲人成网址| 国产精品自在自线免费观看| 久久精品电影| 亚洲无码视频一区二区三区| 精品国产成人a在线观看| 欧美日韩一区二区三区在线视频| 国产人人射| 在线人成精品免费视频| 国产成人免费高清AⅤ| 啪啪啪亚洲无码| 在线视频精品一区| 成人午夜精品一级毛片| 国产成人成人一区二区| 99精品热视频这里只有精品7| 97se亚洲综合不卡| 人人看人人鲁狠狠高清| 午夜日b视频| 亚欧乱色视频网站大全| 嫩草国产在线| 亚洲日韩Av中文字幕无码| 日日拍夜夜嗷嗷叫国产| 欧美激情伊人| 综合五月天网| 天天操精品| 国产精品久久久久鬼色| 凹凸精品免费精品视频| 无码视频国产精品一区二区 | 亚洲人成高清| 欧美在线黄| 久草视频中文| 亚洲乱伦视频| a毛片免费在线观看| 成人日韩精品|