999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

智慧數據庫系統上的多領域特征表征與綜合

2021-11-12 02:17:14張翔熙王宏志
智能計算機與應用 2021年9期
關鍵詞:語義智慧特征

張翔熙,王宏志

(哈爾濱工業大學 海量數據計算研究中心,哈爾濱 150001)

0 引 言

作為現代軟件系統中至關重要的一部分,數據庫系統一直在軟件系統中為數據存儲、數據控制與數據分析提供關鍵的支撐。然而,隨著數據庫系統工業實踐日趨復雜、理論基礎日趨完備,現代數據庫系統往往有成百上千個可選配置參數與調優選項,對數據庫管理員的心智負擔也日趨沉重;同時,大規模分布式高吞吐量的現代數據庫系統應用,也對數據庫查詢存儲優化等問題提出了更高的要求。

為了解決這些問題,以深度學習為代表的統計學習方法的智慧數據庫系統技術應運而生。借助統計學習技術,智慧數據庫系統在配置、優化、設計、監測等多個子領域上分別開辟了新的研究方向與研究熱點。智慧配置能夠顯著降低數據庫管理人員心智負擔,降低因配置不當造成的資源開銷與浪費;智慧優化能夠在過去數據庫系統優化理論的基礎上進一步突破,通過統計學習的手段來解決傳統方法因復雜度、近似比等理論限制而難以完成的優化任務;智慧設計能夠根據不同的工作流,自適應地改變索引與存儲的數據結構;智慧監測通過時間序列分析等手段,自動提前發現運行異常,規避運維風險。

在智慧數據庫系統中的一個典型任務,就是對于來自語義、數據庫結構、運行環境等多個領域的特征進行向量化的表征與綜合。通過通用化的建模手段,解決智慧數據庫系統上多領域特征與綜合中的問題與困難,將能夠作為底層支撐技術,為更加復雜的數據庫系統模型提供必要的特征側支撐。

本文針對智慧數據庫系統上的多領域特征表征與多領域特征綜合兩個關鍵問題,建立了一套能夠綜合結構、語義等特征的深度神經網絡結構與體系,并在具體的預測任務與百萬級真實樣本上進行了驗證與評估。該系統具有一定的可擴展性,可以作為底層結構參與到更加復雜與困難的智慧數據庫系統模型之中。

1 多領域特征的表征

多領域特征表征(multi-field feature representation)是智慧數據庫系統中的常見問題。與圖像識別等傳統單領域的任務不同,數據庫系統中某個查詢的執行情況與查詢語句、數據結構、運行環境等多個領域的信息都有關聯。為了能夠通過深度學習等統計學習手段,解決智慧數據庫系統上的預測任務,這些多領域的特征必須通過適當的處理、解析成能夠被神經網絡模型處理與分析的張量形式。對此,本文將多領域特征分為語義特征、結構特征、輔助特征3類,分別進行向量化表征工作。

語義特征是指以SQL語句為代表的查詢任務描述中包含的任務信息。對于語義特征,首先過濾掉SQL語句中的數字及尾部分號,保留包含表名、屬性名、保留字、運算符在內的134個詞構成的詞表。然后,對于單條SQL語言輸入,按照輸入中各個詞的位置,得到一個multi-hot編碼的、各個位置代表詞出現次數的134維向量。將該向量經過一個可訓練的詞向量矩陣變換后,得到32維的、包含了查詢語義特征的張量輸出(在綜合時稱為lexical_embedding)。

結構特征是指查詢所指涉的數據表、屬性集、選擇條件包含的任務信息。對于結構特征,先把查詢所在表的ID進行編碼與嵌入,得到61維(與屬性總數相同)的table_embedding張量結果;再使用直方圖預估的方式,對于查詢的WHERE子句中,由AND連接的每一個屬性選擇條件,獨立地估計該條件所篩選的元組比例(selectivity),組成一個與屬性總數目等長的61維向量range_vector,將其與table_embedding逐位相乘后,得到cross_embedding輸出;另外,通過常量的方式計算一個61維的mask向量,使得其中只有該表對應的屬性位置填寫該表的總行數,再與前述的range_vector逐位相乘,獲取hist_embedding輸出。將3個輸出合并,就得到了代表結構領域特征的183維的張量輸出(在綜合時稱為structure_embedding)。

除結構與語義方面的特征之外,在系統運行的過程中,往往有其它的信息,同樣影響預測任務的輸出結果,這些結果可以通過連加或連乘的方式進行綜合,得到可以輔助訓練的稠密特征輸入。在實驗任務中,通過常量的手段按照查詢涉及的表來獲取對應表的靜態總數,與前述的range_vector進行折疊相乘,就得到了一個一維的標量輸出(在綜合時稱為cross_bias)。

經過上述的操作,就將多種不同領域的特征,通過網絡操作進行綜合,分別得到了3個不同領域的輸出張量。本文設計的方式能夠解決多領域特征的表征問題,并為多領域特征的綜合問題提供了技術基礎;相應方法的有效性將在實驗章節中得到進一步的驗證。

2 多領域特征的綜合

在底層獲取了3個不同途徑的多領域特征表征之后,還需要解決多領域特征的綜合問題。要想實現多種不同領域特征的綜合,簡單直接相連或加和可能會帶來預測性能上的嚴重損失,往往需要設計符合問題性質的綜合結構。

為了驗證不同綜合結構對于預測性能帶來的影響,本文設計并實現了3種彼此不同的多領域特征綜合方式,并通過實驗手段,探究不同綜合方式對于智慧數據庫系統上預測問題帶來的影響。

權基綜合是相對最直觀的多領域特征綜合方式。由于各個領域對于最終預測目標的貢獻不同,因此使用3個可學習的權重變量,通過softmax[1]轉化為3個總和為1的非負權重后,來綜合各個領域的預測結果。其中,單個領域的預測結果,對于結構領域和語義領域,通過ELU[2]激活的單層感知機網絡進行單目標的預測;對于輔助稠密特征,則使用可訓練的線性變換進行預測。這樣,3個預測結果在3個非負權重的加權下,得到最終用于計算損失的輸出。

感知機綜合是通過神經網絡的結構,對輸入的3個領域特征進行進一步的抽象與交叉。對于上節中輸出的lexical_embedding、structure_embedding與cross_bias3個張量,通過串接的方式得到一個長張量,作為感知機的輸入。隨后,通過ELU激活的多層感知機進行處理與輸出,最終得到單目標的預測結果。這種方式在綜合時引入了更多的非線性因素,提高了網絡的綜合能力。

虛線綜合則從損失函數的角度,考慮多領域特征的綜合問題。首先,使用與權基綜合相似的方式,讓每一個領域都給出一個單目標的預測輸出;再通過3個可學習的權重,將預測輸出結果進行線性加權。然而,簡單的線性加權會導致部分領域預測一個負數,而其它領域輸出巨大正數的現象,這種拮抗會降低系統的穩定性。因此,對于每一個領域的預測結果在加權前,通過虛線連接到樣本標簽,計算一個用于輔助的均方誤差;在訓練時,將輔助誤差與真實誤差進行加權再梯度下降。這樣,通過虛線誤差能夠強制每個領域進行穩定的訓練,提高預測的精準性與穩定性。

3 實驗

為了驗證本文提出的多領域特征表征與綜合方法的有效性,對比3種多領域特征綜合方法的優劣,本節將在真實運行環境下收集樣本并進行訓練比對。

實驗樣本的生成,依賴的數據表為tpch-gen[3]標準開源程序所生成的、存儲在MariaDB[4]開源數據庫系統上的tpc-h[5]標準數據庫。包含8個表、61個屬性、356萬行記錄,其主鍵、外鍵、索引等都符合tpc-h的規范。在此基礎上,通過程序隨機生成各個表上的SQL查詢語句。其FROM部分隨機為8個表中的任意一個,SELECT部分任意隨機選擇該表上的任意數量屬性,WHERE部分隨機生成隨機數目表上合法屬性的等值或不等值查詢子句構成合取式。通過這樣的操作,生成了77萬條查詢語句,并在單機的MariaDB上分別運行并計時。

經過上述過程,收集到77萬條樣本,將模型在TensorFlow[6]框架實現后,基于純CPU的運行環境分別進行訓練與誤差統計。對于只使用語義信息(lexical_only)、結構信息(structural_only)、權基綜合(softmax_model)、感知機綜合(deep_cross)、虛線綜合(boost_model)等5個不同模型的運行結果,分別按照迷你批次序號,與對應的損失函數值繪制圖像,如圖1所示。

圖1 各模型全收斂曲線

由于部分圖像不夠清晰,對于圖1中幾個在2×1 013位置收斂的曲線、放大尾部部分顯示如圖2所示;對于前4 000個迷你批次,放大頭部部分顯示如圖3所示,以觀察不同模型收斂效率的區別。

圖2 收斂曲線尾部放大圖

圖3 收斂曲線頭部放大圖

分析以上數據,可以得到以下結論:

(1)各曲線都能夠有效收斂。可見本文提出的多領域特征表示方式,能夠從輸入特征中提取出有效信息,讓查詢時間預測這一常見的智慧數據庫問題有較好的實驗結果,驗證了第一節內容的有效性;

(2)從圖2中可以清晰地看到:不論是語義信息還是結構信息,如果只使用單獨一個領域的信息,在最終的模型效果上都會明顯弱于多領域模型,證明了多領域特征綜合的必要性;

(3)3個多領域綜合方式都能夠有效地進行特征綜合,在最終效果上虛線綜合最好,感知機綜合其后,最后是權基綜合,證明了本文提出的方法的有效性和創新性;

(4)在收斂速度上,感知機綜合模型收斂非常快,最終收斂位置第二優;虛線綜合雖然明顯最終效果更好,但是由于輔助損失對于主要損失在前期有干擾作用,收斂速度最慢。因此,在小樣本條件下,感知機綜合效果更好;大樣本量下,則虛線綜合方式更優。可見,本文提出的兩種多領域特征綜合方式之間,能夠根據現實場景互補,具有較好的適應性。

4 結束語

針對智慧數據庫系統中的預測模型任務,本文從查詢側特征表示的角度出發,建立了與查詢相關的多領域特征的表示方法與3種綜合方法。通過在大量真實數據上的實驗驗證,證明了本文所提出的多領域特征表示方法與綜合方法的有效性,尤其是虛線綜合與感知機綜合兩種方式,分別在收斂效果與收斂速度兩方面取得了最優的效果,能夠為后續更加復雜的智慧數據庫系統預測任務提供特征側的幫助。

考慮到目前同一個智慧數據庫系統中往往有多個智慧方法需要得到使用,如何通過多任務學習的手段,降低多個模型共同使用帶來的額外開銷,將是下一步工作重點。

猜你喜歡
語義智慧特征
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
認知范疇模糊與語義模糊
有智慧的羊
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
智慧派
智慧與創想(2013年7期)2013-11-18 08:06:04
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 992Tv视频国产精品| 国产精品无码在线看| 国产正在播放| 日本高清视频在线www色| 天堂网国产| 日韩福利在线观看| 亚洲最黄视频| 日韩毛片免费观看| www亚洲天堂| 亚洲经典在线中文字幕| 国产女同自拍视频| 综合色区亚洲熟妇在线| 国产精品永久久久久| 欧美不卡视频在线| 亚洲成人高清无码| 色天天综合| 一级毛片免费高清视频| 国外欧美一区另类中文字幕| 找国产毛片看| 美女国产在线| 久久久久久国产精品mv| 在线国产你懂的| 国产免费自拍视频| 亚洲欧洲日韩综合| 国内精品伊人久久久久7777人| 午夜三级在线| 女人爽到高潮免费视频大全| 国产一级毛片yw| 亚洲av无码片一区二区三区| 免费中文字幕一级毛片| 欧美人人干| 91麻豆国产视频| 午夜毛片免费观看视频 | 国产精品理论片| 色综合五月婷婷| 伊人久久福利中文字幕| 日日摸夜夜爽无码| 伊人久久久久久久久久| 亚洲色图欧美视频| 亚洲日韩久久综合中文字幕| 黄色网站不卡无码| 久操中文在线| 亚洲精品国产成人7777| 中文字幕久久亚洲一区| 精品成人一区二区三区电影| 99热国产这里只有精品无卡顿"| 曰韩免费无码AV一区二区| 9966国产精品视频| 久久综合婷婷| 18禁黄无遮挡网站| 波多野结衣视频网站| 天天色综合4| 久久国产成人精品国产成人亚洲 | 国产成人无码AV在线播放动漫| 国产精品久久久久久久久| 日韩午夜伦| 亚洲中文字幕在线精品一区| 国产精品视频系列专区| 亚瑟天堂久久一区二区影院| 日本人妻丰满熟妇区| 欧美中文字幕一区| 毛片在线播放网址| 黄片一区二区三区| 国产精品美女自慰喷水| 美女毛片在线| 免费在线观看av| 国产白浆视频| 久热这里只有精品6| 欧美国产成人在线| 国语少妇高潮| 久久久国产精品无码专区| 国产成人狂喷潮在线观看2345| 亚洲中久无码永久在线观看软件| 日本亚洲最大的色成网站www| 日韩在线播放中文字幕| 久久精品人妻中文系列| 伊人查蕉在线观看国产精品| 国产精品污视频| 拍国产真实乱人偷精品| 色偷偷一区二区三区| 四虎在线高清无码| 日韩免费毛片|