陳焯堅 廖鎮強 吳志純 何小玲 譚日明
摘? ?要:中文分詞任務,是自然語言處理中一項非常基本的任務。但由于統計中文分詞方法所需要的訓練樣本規模比較大,中文分詞任務存有比較差的領域適應性。針對此種問題,文章提出了一種中文分詞方法,可以聯合學習跨領域,此方法聯合學習用大量的源領域樣本幫助目標領域的分詞,在一定程度上提升了分詞的性能。有試驗研究表明,在目標領域標注樣本比較少的時候,文章提出的中文分詞性能方法在很大程度上高于傳統分詞方法的中文分詞性能。
關鍵詞:中文分詞;預警短信;審核
1? ? 中文分詞概述
中文分詞是中文信息處理中的一項基礎任務,它的準確性可以直接影響中文信息在處理任務中的性能。機器學習的方法能在中文分詞領域上發揮重大的作用,例如,條件隨機場(Conditional Random Field,CRF)模型、最大熵(Maximum Entropy,MaxEnt)模型以及長短期記憶(Long-Short Term Memory,LSTM)神經網絡。但是,傳統方法中需要大規模的分詞語料來訓練各方面性能優異的分詞器,分詞語料的得取要依靠大量人工,可以看出,耗費的成本也會特別高。
近年來發生在中國的自然災害大多數是局部性和突發性的,因此,人們對氣象服務行業更加關注。傳統的氣象發布方式相對單一、效率也不高,氣象預警信息不能及時地發布,需要加強對氣象預警信息的建設。學者們利用數據庫、GIS等技術手段在預警信息的發布方面做了大量的研究,配合這些手段的運用,可以實現預警信息的發布,但是費用較高,而且使用起來也比較復雜。整個預警系統使用Windows對界面進行編輯,只要一些簡單的操控和同步信息的發送,就可以把信息發送給用戶。此系統有不同用戶的管理、安全的處理、統計的分析等功能。
移動短信服務通過手機短信的方式來發送和接收信息。利用計算機和短信服務平臺的結合,構建預警信號的服務平臺,準確及時地將災害情況發送到公眾,有效地加強了災害防御力度以及對財產的保護,有非常重大的意義。
從不同邏輯結構的角度進行劃分,主要有數據層、接口層、實際應用層、不同數據的支撐層等。其中,接口層的功能是實現電信商與用戶的對接;數據層對應的主要是預警平臺信息的核心內容;數據支撐層的功能主要是實現預警內容的發布;應用層具體指的是預警短信到達客戶終端后的一系列服務。
2? ? 基于中文分詞的預警短信審核平臺
考慮到中文分詞規范有一定的彈性,在評價分詞結果是否正確時需要采用以下準則。
首先,域內使用結合緊密或穩定的二字詞,或者切分后意義是否發生變化,如果被切開,則認為分詞錯誤,例如“防火”“冷拔”“根系”“舉例”等。
其次,三字復合詞名詞的切分彈性相較于二字更大,若切分后意義沒有發生變化,則切分與不切分都可以認為正確,若切分后改變了意義,則切分被認為是錯誤的,其余三字復合詞遵守切分準則,例如“中標價”被切分為“中標/價”或不切分,都認為正確,若被切分為“中標價”,則切分錯誤。
考慮到專業領域分詞性能持續下降的問題,提出了如何深度認真學習中文分詞模型,與此同時,運用學習原理,與大規模通用領域分詞語料、小規模專業領域訓練語料以及領域詞典相結合,從而達到提高領域分詞性能的效果,實現領域自適應分詞的目的。以工程法律領域分詞任務的情況為例,提出了對領域專業術語的分詞準則,通過小規模的人工標注,同時設計分詞實驗,比較各分詞模型的性能,最后的結果表明,此文提出的分詞模型對跨領域分詞系統性能有所改善。但是本文所提出的方法還需要不斷改進。領域文本中經常出現較長的字母、數字以及符號的組合,領域術語中也會出現字母和漢字的組合,極大程度影響了分詞正確率,解決的方法是可以考慮做多層分詞。現有的文本特征只是從詞語信息以及字和周圍字方面考慮,所以,在以后的工作中,可以把加入字的邊界特征考慮進去。
3? ? 相關運用分析
為了讓平臺可以提供更好的信息服務,在系統的硬件方面進行更新配置。依據預警平臺的層次,整個系統被分為數據支撐系統、接入電腦系統、界面管理系統。信息平臺也為用戶提供多種服務,如日志查詢、信息的訂購、訂閱信息等。操作人員會盡快依據客戶所反饋的問題進行處理,并對所發送的信息進行瀏覽以及改正。整個系統在任務管理方面主要包括當前的任務、暫停以及待發任務。當前的任務指信息的不定期發送,在相應的信息填寫完之后,選擇所需要的城市情況來發送相關內容。暫停和待發業務可以根據實際的情況來維護不同狀態的報告機制。系統也可以根據文章對各個模塊的設計要求,對各類不同業務的用戶進行統計分析,包括不同時期的發展對比、用戶統計等。
通過信息進行報錄和審核,在進行發布時還要求建立預報的網絡系統。以江西氣象信息發布為對象,氣象的預報一定要經過嚴格的考核才能正式發布。當信息確認無誤后,整個狀態即確定。當定制信息情況時,首先發布預報的錄入、審核以及信息,預警信息的錄入在平臺登錄,進入管理界面進行編輯。管理者也需要選擇不同的運營商和地區來提取自己想要得到的信息,完成上述要求后,點擊提交并完成錄入。
審核信息沒有錯誤后,可以進行預發布。預警的信息發送對時間也有要求,在特定時間點之前可以進行修改,其后不能再改。
后臺的處理也就是對數據的后臺處理,只要到達指定發布時間,模板信息的內容會馬上根據合成的內容發送信息。用戶接收到信息后,會及時采取措施。
[參考文獻]
[1]劉秀娟,陳華輝,王延通,等.基于移動短信的氣象預警信息綜合發布平臺設計與實現[J].現代電子技術,2016(21):29-31.
[2]范華.基于VSM技術的社區服務信息系統的設計與實現[D].上海:復旦大學,2013.
[3]廖桉樺.基于GIS的氣象預警短信自動發送系統[J].浙江農業科學,2011(6):1425-1427.