袁野,廖薇
上海工程技術大學電子電氣工程學院,上海201620
隨著醫療信息化的發展,網絡問診逐漸成為了人們獲取疾病癥狀、用藥、治療方案等信息的主要渠道。到醫院就診前或者沒有必要去醫院時,通過搜索引擎和網絡問診平臺查找和咨詢健康問題成為了大多數人的首要選擇,互聯網醫療已成為重要的補充醫療服務。目前的網絡問診形式大多需要患者首先選擇咨詢的科室,然后輸入詢問內容,最后平臺匹配醫生與患者進行交流。在此過程中,科室如何選擇依賴于患者的知識和經驗,對于不了解的疾病和癥狀,會出現科室選擇錯誤的情況。因此,如何自動將健康咨詢內容分門別類,自動分析疾病文本并給出對應的科室或者類別是目前研究的重點。
文本分類是自然語言處理中的一個經典問題[1],主要是為了解決句子、段落、文檔等文本的標簽分配問題。良好的文本分類模型有助于提高信息的提取效率,方便用戶迅速檢索目的信息,在問答系統[2]、情感分析[3]、新聞分類[4]、用戶意圖分類等領域都有廣泛的應用。
在疾病文本分類方面,傳統的方法是基于機器學習的方法,通過人工篩選文本特征訓練分類器。柏挺等[5]研究了樸素貝葉斯和貝葉斯網絡在遠程醫療文本分類任務上的性能,在特征詞選擇正確的情況下,增加其數量可以提高分類性能。文獻[6]考慮了多種特征選擇方法,考慮將問題轉換方法與不同特征結合起來。……