基于多任務學習的文本信息關聯性抽取仿真

2023-03-11 05:01:26趙金幣

計算機仿真 2023年1期

趙金幣，琚理

(華北理工大學，河北唐山 063000)

1 引言

多任務學習屬于經典機器學習中的一個重要環節[1]，在海量數據的影響下，機器學習內的隱藏層需要處理大量數據，來獲取準確的神經網絡的運行參數[2]。此時，多任務學習能夠獲取多種學習任務內的有用信息并緩解文本信息稀疏的問題。隨著數字化醫療平臺的完善，數字化的醫療平臺成為了當下醫院管理工作的處理工具[3]。將醫院內使用的局域網作為信息采集的內網結構，整理數字化的文本為信息空間，按照空間內表現的信息屬性，實現醫院內網信息的管控。仿真醫院內網內的文本信息關聯性抽取過程[4]，能夠幫助內網中的信息衍生出多種關聯信息，并分析文本信息之間的影響關系。為此，將多任務學習作為技術支持，針對醫院內網中的文本信息，構建信息關聯性抽取方法。

在計算機技術的發展下，醫療信息數據化處理技術成為了數字化的研究熱點。國外研究人員利用深度學習中的處理工具，設計了在線醫療信息抽取技術，并設定關聯屬性，利用計算機內的層次估計[5]，實現信息關聯性抽取。國內研究人員以醫院內網中的文本數據作為處理對象，按照數據的特定性、需求、事實屬性，處理為結構化的文本信息，按照其動態的抽取過程，實現抽取過程。文獻[6]提出了基于深度學習的關聯性抽取方法。該方法標定文本信息內的蘊含關系，并標記文本信息中的關聯信息源，按照蘊含關系最終實現對信息關聯性的抽取。文獻[7]提出基于知識圖譜的關聯性抽取方法。采用知識圖譜和先驗算法建立文本信息的關聯信息，構建決策樹模型，按照關聯屬性來實現抽取。

經過階段性的仿真應用可知，現有的關聯性抽取方法實際關聯性抽取的次數較少，由此可知，研究基于多任務學習的文本信息關聯性抽取過程具有發展意義。

2 基于多任務學習的文本信息關聯性抽取

2.1 抽取文本信息實體關系

調用文本運行架構內的信息線性層，采用解碼模塊輸出文本信息內邏輯標簽[8]，并將解碼模塊內的鏈接輸出為點積形式，處理過程可表示為

Opt=L(x+A(x))=L(OpA+FN(Opt))

(1)

式中，Opt表示輸出的點積函數，L表示文本信息的線性處理函數，A(x)表示注意力層內的解碼函數，OpA表示文本信息的屏蔽權重，FN(Opt)表示輸出點積信息放縮處理函數。按照文本信息實際的查詢頻率，按照文本信息之間的注意力機制[9]，設置信息查詢的點乘參數，按照注意力系數表示文本信息，表示處理過程可表示為

(2)

式中，Q表示文本信息被查詢的次數，K表示文本信息的線性變換參數，s表示設置的縮放因子，KT表示多維度下的線性變換參數，dk表示文本信息的維度參數，其余參數保持原有含義不變。按照多注意力機制的要求[10]，將上述處理的文本信息映射處理，處理過程可表示為

(3)

2.2 搭建多任務學習的關聯框架

在上述構建的映射關系內，采用數據采集器獲取映射關系內的醫療文本，使用分詞工具將醫院內網文檔標記為在線文本以及臨床文本的形式，標記處理過程可表示為

(4)

式中，k為標記參數，X表示映射處理后的文本信息，Y表示未參加映射處理的文本信息，C表示線性特征維參數。標記文本形式后，按照分詞分析的過程，結合中文分詞工具，確定文本信息中屬性詞性詞頻的基本參數[11]，并調用統計分析工具，將多屬性詞性的文本信息處理統計分析過程處理為多任務學習過程，處理過程可表示為

(5)

上述數值關系中，ρ(u，v)表示多任務處理函數，αT表示多任務關聯系數，Kx表示文本信息的協方差，Ky表示文本信息的相關性方差參數。按照上述文本信息的特性，構建多任務學習的關聯框架，框架如圖1所示。

按照圖1構建的關聯框架結構，整理最終框架輸出的關聯結構文本特征[12]。根據實際輸出的關聯結構文本特征，仿真文本信息的關聯性抽取過程。

圖1 多任務學習的關聯框架

2.3 關聯性抽取

整理上述多任務學習關聯框架輸出的文本信息特征，將多任務處理進程默認為并行的任務調度[13]，并標記不同屬性文本信息為不同的序號，以關聯性抽取的時間序列將抽取過程處理為仿真編碼，仿真任務編碼可表示為

(6)

式中，Tp表示構建的仿真編碼矩陣，tr1表示第r個仿真任務完成編碼的次數。為了控制仿真編碼導致的資源占用，結合搭建框架內多任務學習串行的時間[14]，按照文本信息的適應度，設置關聯性抽取的加速比，數值關系可表示為

(7)

式中，S表示設置的仿真編碼加速比參數，τi表示仿真任務分配函數，Cmax表示最大仿真編碼時間。按照上述數值關系控制文本信息的仿真編碼過程，控制單次抽取任務均衡后[15]，最終完成對文本信息關聯性抽取。

3 仿真測試

3.1 搭建仿真平臺

仿真平臺選定CPU運行參數為Intel Core i7-7700HQ的上位機，內置8GB的RAM，并運行MATLAB2016b作為各項仿真參數支持，按照醫院內網的運行要求，在醫學檢驗科室與臨床預測之間，設置搜索匹配模塊，抽取醫院內的文本信息，設置的抽取框架如圖2所示。

按照3圖所示的信息抽取框架，使用搜索匹配模塊抽取醫院內網中的文本信息，并將內網內的知識圖譜的節點匹配為管理信息，輸出的文本類型以及屬性參數如表1所示。

圖2 醫院文本信息抽取框架

表1 輸出的醫院內網的文本文檔信息

整理表1所示的文本文檔信息，按照醫療文本的實體屬性關系，構建標準化的語料庫，并以該語料庫作為文本信息，初始化處理仿真平臺后，按照醫院內網文本信息構建文本信息之間的關聯性。

3.2 關聯處理醫院內網信息

調用仿真平臺內的文本編碼層，采用預訓練模型初始化語料庫內的文本信息，并按照文本編碼層的要求，將連接層內的激活函數作為關聯處理關系，根據文本數據之間的梯度飽和，均勻處理醫院內網的文本信息，處理過程可表示為

(8)

式中，W表示編碼連接層內的權重參數，U表示抽取的醫院內網數據集，R表示初始化參數，m表示數據連接效率系數，n表示梯度累加參數。均勻處理后，按照單項測試項初始化消耗的時間，限定測試項的優先級，優先級限定處理可表示為

(9)

上述數值關系中，tn表示限定測試的優先參數。按照設定的限定測試項，最大化處理文本信息之間的屬性關系，數值關系可表示為

(10)

上述數值關系中，L(y)表示最大化處理函數，Dr表示文本信息內的屬性層，其余參數保持原有含義不變。將不同屬性輸出為關聯信息樹結構，每個樹結構內置一個關聯學習組合，控制文本信息的屬性擾動為固定，按照自動關聯形成的子屬性，處理為屬性選擇過程，將選擇輸出的各項文本信息數據作為具有關聯性的文本信息。準備基于深度學習的關聯性抽取方法、基于知識圖譜的關聯性抽取方法以及設計的關聯性抽取方法參與測試，對比三項仿真處理過程的性能。

3.3 資源占用測試

在上述搭建的仿真平臺內，將醫院內網內的文本信息處理為具有關聯性的關系后，控制三種關聯性抽取方法并行處理上述構建的自動關聯處理過程，默認該處理過程為信息的抽取測試項，并根據文本信息關聯方差，確定關聯文本信息抽取產生的資源占用，資源占用數值關系可表示為

(11)

式中，κ表示關聯性任務占用參數，Ti表示資源均衡參數，Tm表示并行運行參數，n表示并行仿真過程參與的數量。控制三種抽取方法仿真并行運行30組關聯文本信息數據，方法在相同仿真平臺內產生的資源占用如圖3所示：

將準備的30組文本信息均勻處理為6組后，調用仿真平臺上位機的任務管理器，分別整理三種抽取方法在并行運行抽取任務時產生的資源占用。由圖3所示的資源占用結果可知，以并行運行數量30組作為最終仿真對比，基于深度學習的關聯性抽取方法產生的資源占用為470M，該種關聯性抽取方法在抽取時產生的資源占用最大。基于知識圖譜的關聯性抽取方法產生的資源占用為360M，該種抽取方法仿真處理占用的資源較小。所設計的關聯性抽取方法在并行運行30組關聯性信息時，占據的資源為160M，與兩種參與測試的抽取方法相比，設計的關聯性抽取方法運行過程中占據的資源最少。

圖3 資源占用結果

3.4 仿真消耗時間結果

按照上述仿真處理產生的資源占用數值，采用標準正態分布取多個隨機數，并標定一次關聯性抽取所產生的偏差，對應設定三種抽取的變化區間，并預先訓練類別內的關聯性詞向量，輸出仿真結束時的向量平均值，數值關系可表示為

(12)

上述數值關系中，c表示抽取關聯性信息詞向量的平均值，vi表示不同仿真方法的仿真速度，wi表示關聯性抽取參數。調用仿真平臺，定義當仿真代碼任務出現上述參數后，則表示該種關聯性抽取完成一次關聯性關系抽取，固定三種關聯性抽取方法仿真運行十組任務，統計抽取的時間，仿真所消耗的時間結果如圖4所示。

控制三種抽取方法同時仿真運行十組關聯信息組，定義每仿真兩組信息組為一個時間統計節點，統計仿真運行過程中所消耗的時間，以消耗的仿真平均時間作為最終測試結果，基于深度學習的關聯性抽取方法消耗的仿真時間在26min左右，該種抽取方法消耗的仿真時間較長，基于知識圖譜的關聯性抽取方法小號的仿真時間在33min，該種仿真方法消耗的仿真時間最長。而設計的關聯性抽取方法消耗的仿真時間在12min左右，與兩種參與測試的仿真方法相比，設計的仿真方法仿真處理時消耗的時間最短。

圖4 三種抽取方法的耗時

3.5 抽取次數結果

選定上述仿真操作組內的10組抽取信息，調用數據關聯性處理過程，并使用計算式(8)篩選文本信息中的關聯，按照關聯系數，整理文本信息內關聯性組，共計20組，在相同的仿真時間下，以輸出仿真向量作為抽取次數的截止標識，統計仿真平臺最終輸出的抽取次數結果，結果如圖5所示。

按照上述定義的抽取標識，整理在相同仿真平臺下三種關聯性抽取方法處理20組關聯性信息組時的抽取次數，根據圖5所示的抽取次數結果，基于深度學習在仿真20組關聯性信息組時，實際產生的抽取次數為12次，仿真處理次數較多，消耗仿真平臺進程較多。基于知識圖譜的關聯性抽取方法產生的抽取次數為16次，該種關聯性抽取方法占據的仿真進程最多。而設計的關聯性抽取方法在相同數量的仿真組下，實際產生的抽取次數為6次，仿真處理占據仿真平臺進程較少，應用效果最佳。

圖5 三種抽取方法的抽取次數

4 結束語

隨著文本信息處理技術的發展，關聯性抽取過程能夠分析文本信息關聯性處理與其影響關系，因此本研究以多任務學習作為技術支持，設計文本關聯性抽取方法。經過仿真測試可知，所設計方法能夠改善文本抽取次數過少的不足。