999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本相似度計算方法提高診斷名稱數據標準化過程中人工判斷效率的影響

2022-07-21 07:12:28鄭景文
中國衛生產業 2022年9期
關鍵詞:標準化文本

鄭景文

廣東省農墾中心醫院病案室,廣東湛江 524002

國家衛健委曾指出,各醫療單位應設置統一的疾病與手術編碼, 其中疾病診斷名稱屬于主要的醫療數據,保證疾病與手術編碼相對應,能夠為后續科研工作提供更多準確的信息[1-2]。以往,診斷名稱數據標準化期間,主要是對數據進行糾正, 若未能按照標準化進行書寫,將成為人工搜索的問題診斷名稱,從而難以在名稱庫內尋找到對應的名稱,進一步增加消耗時長[3-4]。 若能夠通過相關措施予以幫助,能明顯減少人工搜索的時長,達到提升工作效率的目的[5]。隨著研究持續深入,臨床發現文本相似度計算方法效果顯著,在增強診斷名稱數據標準化期間的人工判斷效率上效果突出。 但相關文獻較少,該研究選擇2020 年3 月—2021 年8 月使用的23 681條診斷名稱文本數據,探討文本相似度計算方法在提高診斷名稱數據標準化過程中人工判斷效率的價值,現報道如下。

1 資料與方法

1.1 一般資料

按照國家標準的疾病分類與代碼上存在編碼的診斷名稱,按疾病名稱進行排序,并對其ID 進行標記,選擇使用的23 681 條診斷名稱文本數據。 將其中標點符號及英文字母均定義成漢字等同的字符,但應區分全半角及大小寫,獲得診斷名稱特點,字符長度均值(8.58±2.36)個,統計與診斷名稱字符長度相同的字符個數,針對少于6 個字符長度者計算其最大值。

1.2 方法

(1)余弦相似度:計算向量夾角的余弦值,可評價個體之間的差別,若余弦值越鄰近1,夾角度數越趨于0,提示向量相似。 在標準化工作上,通過編輯距離預測文本的相似程度,利用ICD 的三位及四位碼實施診斷類別的文本分類計算,應采用余弦相似度計算,診斷類別分類計算時可繼續使用,從而降低編程工程量。

(2)文本向量生成:①漢語短文本的文本向量以單字與單字組合、詞嵌入、分詞等,該次試驗挑選單字與單字組合的方式;②逆文本頻率指數加權:逆文本頻率指數在數據搜索期間,文本向量通過該方式表達,計算名稱拆分后的單字與字組的逆文本頻率指數,最后將逆文本頻率指數乘頻數,成為第二類文本向量的計算值。

1.3 觀察指標

觀察診斷名稱的字組長度與數量,并分析文本相似度計算結果,最后計算字組組合模式的文本向量的相似度及字組組合模式下文本向量的相似度。

2 結果

2.1 診斷名稱的字組長度與數量

診斷名稱長度為8.58 個字符,獲得9 字組長度,經觀察發現3 字組后,字組暫停增長,但5 字組逐漸減低,從而得知9 字組長度未達50 萬維, 選擇計算機進行處理,見表1。

表1 診斷名稱的字組長度與數量

2.2 文本相似度計算結果分析

通過余弦相似度的計算,選擇頻數向量成為非標準數據, 而標準數據選擇頻數逆文本頻率指數加權的向量,最終將數據標準化。利用疾病診斷名稱相似的文本,發現文本向量存在較大差別, 其自身即為相似度最大值。通過字組組合的方式,測定不同文本向量,選擇高血壓進行舉例,見表2。

表2 文本相似度計算結果分析

2.3 字組組合模式的文本向量的相似度

字組組合模式的文本向量相似度最大值,見表3。

表3 字組組合模式的文本向量的相似度

2.4 字組組合模式下文本向量的相似度

各類字組組合模式下存在356 條名稱,其中390 次相似度最大值并不是其本身。 對于不同的情況實施分析,字組組合模式Ⅰ不一致,Ⅱ~Ⅸ模式一致,記成0、1、1、1、1、1、1、1、1,見表4。

表4 字組組合模式下文本向量的相似度

3 討論

針對規范診斷名稱而言,多采取文本相似度方式進行計算,同時對比臨床診斷與數據庫中名稱,最后得到標準化的診斷名稱,有助于減少人工搜索時長,明顯改善工作效率[6-8]。 對此該文進行分析,利用余弦相似度計算文本相似度,并通過單字與單字組合的窮舉分詞及頻數、逆文本頻率指數加權形成文本向量,模仿數據標準化過程, 選擇余弦相似度測定多個文本向量的計算結果,結果發現相似診斷名稱文本的向量相似度的一致率呈現升高趨勢。 其中2、3 字組的標準化工作需引起重視, 經過標準庫與待校對數據將其轉換為羅馬數字;而4 字組的診斷名稱出現差異的次數較少,可能與診斷名稱上字符空格有關,使得計算期間非標準診斷名稱無法與標準名稱相匹配, 針對此可在Excel 中采取TRIM 函數清除[9-11]。 最后選入5~9 長度字組表征文本向量的效果與1~4 字組差別明顯。

由于相似度計算作為常見的統計方式,其結果的準確性存在一定上限, 修改規則的方式具有重要意義,特別是關于伴與不伴文字,其實際診斷名稱還存在前后左右上下等問題,因此,精準表達可明顯提升效率[12-15]。 此前關于醫療數據的標準化對專業知識的要求極高,對此應積極開展培訓,并鼓勵專業人員參與,另外高效率的數據計算需要文本計算的幫助,尤其是特殊場合中修改算法也應得到醫護人員的積極配合。 由此可見,為醫護人員選擇操作簡便的計算方式至關重要,此時選擇以字組拆分頻數逆文本頻率指數加權的計算方式[16-17]。 另外醫療數據的信息質量對科研成果質量可能存在一定干擾,但診斷名稱數據的標準化較為復雜,同時作為人機交互,并表現成螺旋上升的過程,因此,將醫療專業知識與計算機算法相融合,并不斷調整,才可保證科研質量的準確性[18-19]。

綜上所述,文本相似度計算方法能夠提升診斷名稱數據標準化,并促進人工判斷效率改善。

猜你喜歡
標準化文本
標準化簡述
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
企業標準化管理信息系統
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
以標準化引領科技創新
論汽車維修診斷標準化(上)
主站蜘蛛池模板: 伊人久综合| 欧美精品成人| 天天干天天色综合网| 国产精品久线在线观看| 一区二区在线视频免费观看| 91青青在线视频| 久久久久免费看成人影片| 欧美激情福利| 欧美一级爱操视频| 亚洲精品成人片在线观看| 国产精品无码制服丝袜| 国产成人精品亚洲日本对白优播| 无码中文字幕加勒比高清| 韩日无码在线不卡| 九色在线视频导航91| 精品亚洲欧美中文字幕在线看| 国产无码精品在线| 农村乱人伦一区二区| 91偷拍一区| 久久人体视频| 午夜国产精品视频黄| 亚洲国产中文精品va在线播放| 成人在线亚洲| 三级欧美在线| 国产成人精品综合| 久久综合五月婷婷| 色综合网址| 精品国产99久久| 国产亚洲一区二区三区在线| 伊人成人在线视频| 午夜不卡视频| 国产精品99一区不卡| 成人在线第一页| 亚洲黄色成人| аⅴ资源中文在线天堂| 日本高清在线看免费观看| 男女男免费视频网站国产| 久久 午夜福利 张柏芝| 中文无码精品A∨在线观看不卡| 野花国产精品入口| 99视频国产精品| 在线观看欧美国产| 日本一区中文字幕最新在线| 国产综合日韩另类一区二区| 亚洲国产天堂久久综合| 亚洲综合网在线观看| 亚洲午夜片| 999国产精品| 中国一级特黄视频| 在线中文字幕网| 超清无码熟妇人妻AV在线绿巨人| 国产福利免费视频| 国产小视频a在线观看| 无码不卡的中文字幕视频| 久久综合亚洲鲁鲁九月天| 国产白浆一区二区三区视频在线| 亚洲中文字幕手机在线第一页| 国产乱人伦精品一区二区| 久久久久久久97| 呦女精品网站| 色网站免费在线观看| 日韩精品毛片人妻AV不卡| 青青青草国产| 凹凸国产分类在线观看| 免费无码网站| 91免费片| www.狠狠| 露脸真实国语乱在线观看| 国产在线视频欧美亚综合| 亚洲国产成人久久77| 第一页亚洲| 久久综合久久鬼| 欧美亚洲一区二区三区导航| 欧美午夜在线观看| 凹凸精品免费精品视频| 日本不卡免费高清视频| 视频二区亚洲精品| 中文字幕va| 97亚洲色综久久精品| 国模视频一区二区| 精品欧美视频| av大片在线无码免费|