文本相似度計算方法提高診斷名稱數據標準化過程中人工判斷效率的影響

2022-07-21 07:12:28鄭景文

中國衛生產業 2022年9期

鄭景文

廣東省農墾中心醫院病案室，廣東湛江 524002

國家衛健委曾指出，各醫療單位應設置統一的疾病與手術編碼，其中疾病診斷名稱屬于主要的醫療數據，保證疾病與手術編碼相對應，能夠為后續科研工作提供更多準確的信息[1-2]。以往，診斷名稱數據標準化期間，主要是對數據進行糾正，若未能按照標準化進行書寫，將成為人工搜索的問題診斷名稱，從而難以在名稱庫內尋找到對應的名稱，進一步增加消耗時長[3-4]。若能夠通過相關措施予以幫助，能明顯減少人工搜索的時長，達到提升工作效率的目的[5]。隨著研究持續深入，臨床發現文本相似度計算方法效果顯著，在增強診斷名稱數據標準化期間的人工判斷效率上效果突出。但相關文獻較少，該研究選擇2020 年3 月—2021 年8 月使用的23 681條診斷名稱文本數據，探討文本相似度計算方法在提高診斷名稱數據標準化過程中人工判斷效率的價值，現報道如下。

1 資料與方法

1.1 一般資料

按照國家標準的疾病分類與代碼上存在編碼的診斷名稱，按疾病名稱進行排序，并對其ID 進行標記，選擇使用的23 681 條診斷名稱文本數據。將其中標點符號及英文字母均定義成漢字等同的字符，但應區分全半角及大小寫，獲得診斷名稱特點，字符長度均值（8.58±2.36）個，統計與診斷名稱字符長度相同的字符個數，針對少于6 個字符長度者計算其最大值。

1.2 方法

（1）余弦相似度：計算向量夾角的余弦值，可評價個體之間的差別，若余弦值越鄰近1，夾角度數越趨于0，提示向量相似。在標準化工作上，通過編輯距離預測文本的相似程度，利用ICD 的三位及四位碼實施診斷類別的文本分類計算，應采用余弦相似度計算，診斷類別分類計算時可繼續使用，從而降低編程工程量。

（2）文本向量生成：①漢語短文本的文本向量以單字與單字組合、詞嵌入、分詞等，該次試驗挑選單字與單字組合的方式；②逆文本頻率指數加權：逆文本頻率指數在數據搜索期間，文本向量通過該方式表達，計算名稱拆分后的單字與字組的逆文本頻率指數，最后將逆文本頻率指數乘頻數，成為第二類文本向量的計算值。

1.3 觀察指標

觀察診斷名稱的字組長度與數量，并分析文本相似度計算結果，最后計算字組組合模式的文本向量的相似度及字組組合模式下文本向量的相似度。

2 結果

2.1 診斷名稱的字組長度與數量

診斷名稱長度為8.58 個字符，獲得9 字組長度，經觀察發現3 字組后，字組暫停增長，但5 字組逐漸減低，從而得知9 字組長度未達50 萬維，選擇計算機進行處理，見表1。

表1 診斷名稱的字組長度與數量

2.2 文本相似度計算結果分析

通過余弦相似度的計算，選擇頻數向量成為非標準數據，而標準數據選擇頻數逆文本頻率指數加權的向量，最終將數據標準化。利用疾病診斷名稱相似的文本，發現文本向量存在較大差別，其自身即為相似度最大值。通過字組組合的方式，測定不同文本向量，選擇高血壓進行舉例，見表2。

表2 文本相似度計算結果分析

2.3 字組組合模式的文本向量的相似度

字組組合模式的文本向量相似度最大值，見表3。

表3 字組組合模式的文本向量的相似度

2.4 字組組合模式下文本向量的相似度

各類字組組合模式下存在356 條名稱，其中390 次相似度最大值并不是其本身。對于不同的情況實施分析，字組組合模式Ⅰ不一致，Ⅱ~Ⅸ模式一致，記成0、1、1、1、1、1、1、1、1，見表4。

表4 字組組合模式下文本向量的相似度

3 討論

針對規范診斷名稱而言，多采取文本相似度方式進行計算，同時對比臨床診斷與數據庫中名稱，最后得到標準化的診斷名稱，有助于減少人工搜索時長，明顯改善工作效率[6-8]。對此該文進行分析，利用余弦相似度計算文本相似度，并通過單字與單字組合的窮舉分詞及頻數、逆文本頻率指數加權形成文本向量，模仿數據標準化過程，選擇余弦相似度測定多個文本向量的計算結果，結果發現相似診斷名稱文本的向量相似度的一致率呈現升高趨勢。其中2、3 字組的標準化工作需引起重視，經過標準庫與待校對數據將其轉換為羅馬數字；而4 字組的診斷名稱出現差異的次數較少，可能與診斷名稱上字符空格有關，使得計算期間非標準診斷名稱無法與標準名稱相匹配，針對此可在Excel 中采取TRIM 函數清除[9-11]。最后選入5~9 長度字組表征文本向量的效果與1~4 字組差別明顯。

由于相似度計算作為常見的統計方式，其結果的準確性存在一定上限，修改規則的方式具有重要意義，特別是關于伴與不伴文字，其實際診斷名稱還存在前后左右上下等問題，因此，精準表達可明顯提升效率[12-15]。此前關于醫療數據的標準化對專業知識的要求極高，對此應積極開展培訓，并鼓勵專業人員參與，另外高效率的數據計算需要文本計算的幫助，尤其是特殊場合中修改算法也應得到醫護人員的積極配合。由此可見，為醫護人員選擇操作簡便的計算方式至關重要，此時選擇以字組拆分頻數逆文本頻率指數加權的計算方式[16-17]。另外醫療數據的信息質量對科研成果質量可能存在一定干擾，但診斷名稱數據的標準化較為復雜，同時作為人機交互，并表現成螺旋上升的過程，因此，將醫療專業知識與計算機算法相融合，并不斷調整，才可保證科研質量的準確性[18-19]。

綜上所述，文本相似度計算方法能夠提升診斷名稱數據標準化，并促進人工判斷效率改善。