楊麗英 雷勇
山西大學商務學院信息學院 山西 030031
隨著互聯網的高速發展,Web已經成為最重要的新聞媒體之一。通過瀏覽Web新聞,人們能夠在很短的時間內了解來自不同國家和地區近期所發生的各類事件。而在眾多新聞當中,那些難以準確預測而突然爆發的,對國家和社會產生重大影響的突發事件新聞是人們普遍關心的焦點。為了滿足各級政府和社會的需求,有必要對突發事件新聞做系統的研究分析和信息處理。而這項研究首要任務是建立突發事件新聞語料庫,并對其進行信息加工,如突發事件新聞分類和編號等。
突發事件新聞語料庫的建立是適應信息化建設的需求。第一,通過該語料庫可以盡早地、準確地、全面地掌握國內外各種突發事件的發生情況和發展趨勢,為國家和各級地方政府有關部門及時采取應急措施和制定防范計劃等提供科學決策依據;第二,對醫學研究疾病及其分布規律和影響因素提供實例資源;第三,為語言學關于突發事件新聞的語言研究提供語料資源。
Web新聞是利用萬維網技術,采用網頁的方式進行新聞發布的網絡新聞業務,是傳統新聞業務的一種延伸,但它比傳統的新聞發布方式有著更強的時間觀,更能體現出新聞的紀實性。突發事件的突發性、偶然性和不可預料性,使得新聞網頁比其他媒體有著更快反應的優勢。所以,互聯網是收集突發事件新聞的最好來源。
語料庫的加工主要包括四部分:語料的人工分類,文本格式處理,語料編號,以及分詞與詞性標注。本文主要介紹人工分類和語料編號兩部分。
目前,對突發事件的分類主要有以下兩種。
國務院頒布預案的目的是提高政府保障公共安全和處置突發公共事件的能力。 根據突發公共事件的發生過程、性質和機理,突發公共事件主要分為以下四類:
(1) 自然災害。主要包括水旱災害,氣象災害,地震災害,地質災害,海洋災害,生物災害和森林草原火災等。
(2) 事故災難。主要包括工礦商貿等企業的各類安全事故,交通運輸事故,公共設施和設備事故,環境污染和生態破壞事件等。
(3) 公共衛生事件。主要包括傳染病疫情,群體性不明原因疾病,食品安全和職業危害,動物疫情,以及其他嚴重影響公眾健康和生命安全的事件。
(4) 社會安全事件。主要包括恐怖襲擊事件,經濟安全事件和涉外突發事件等。
各類突發公共事件按照其性質、嚴重程度、可控性和影響范圍等因素,一般分為四級:Ⅰ級(特別重大)、Ⅱ級(重大)、Ⅲ級(較大)和Ⅳ級(一般)。
突發事件流行病學是研究突發事件的原因、發生、發展及其后果和應對方法的一門學科。突發事件可以有多種分類方法,目前最常用的是按照原因和性質分類,將其分成自然災害、人為事故和疾病爆發三大類。
(1) 自然災害(natural disaster)。主要包括氣象災害,海洋災害,洪水災害,地質災害,地震災害,農業生物災害,森林災害,宇宙災害。
(2) 人為事故(accident)。 主要包括戰爭和暴力,恐怖活動,重大交通事故,嚴重火災,意外爆炸,群體中毒,急性化學事故,放射事故,其他事故。
(3) 疾病爆發(outbreak)。 主要包括腸道傳染病,呼吸道傳染病,蟲媒傳染病,自然疫源性疾病,性傳播疾病等。
突發事件還可按其規模大小和嚴重程度分為:一般性突發事件、重大突發事件和特大突發事件。此外,也可以按發生地點、發生時間和事件的后果對突發事件進行分類。
根據新聞報道的特點和突發事件新聞語料庫的基本功能,本文提出以下一些分類原則。
(1) 主題分類與實際情況相結合
由于新聞報道的特點和實際新聞工作的需要,按主題進行分類也能滿足用戶希望在一個主題或專題下查全相關信息的需求。因而,本文二級類目按照主題或專題內容確定類目,這不僅直觀與實用,也更能保證這些主要類目在較長時期內的穩定性??紤]到有些突發事件新聞信息量大,且是人們的關注熱點,可以對其類目進行提升。
(2) 求大同存小異
分類層次在三級以上的類目應最大程度的統一,這有利于自動標引的標準化與網絡分類瀏覽檢索的資源共享。三級以下類目,特別是專業性太強的小類,有些確實是難在最大層面上作到統一的,只要大類得到統一,采用主題詞就可以較好地解決這一問題。這種求大同(1-2級類目高度統一)存小異的原則,可以保證突發事件新聞分類法的實用性與可推廣性。
(3) 用語規范性與靈活性相結合
在力求達到準確性與通用性的前提下,充分考慮到突發事件新聞信息的特點。對一級和二級類目的命名,基本上參考了國務院的類名,力求科學規范。但由于新聞報道的特點是綜合性強、時效性強,不斷有新事物、新名稱出現,變化性大,所以在類名的命名時也采取了相應的靈活處理原則。例如,三級及三級以下關鍵詞語有些則采用了自然語言或習慣用語(即新聞語言)作為類名,但力求選用能夠被廣泛認可和語意明了的詞。
(4) 具有層次性和可擴展性
突發事件的突發性和偶然性本身就需要我們在基本大類保持不變的前提下,可對相應類目進行擴充。分類體系擬采用三層結構,其中的二級類目、三級類目以及主題詞都具有可擴充性。
根據以上分類原則提出的突發事件新聞語料分類體系包括3個層次,其中一級4類,二級33類,三級94類。下面給出了一、二級類別及其編碼,三級編碼種類多,不列出:
(1) 自然災害類N(Natural disaster):
01 水旱災害 02 氣象災害
03地震災害 04地質災害
05海洋災害 06生物災害
07森林草原火災 08宇宙災害
(2) 事故災難類A(Accident):
01戰爭和暴力
02工礦商貿安全事故
03交通運輸安全事故
04城市生命線事故
05通訊安全事故
06環境污染和生態破壞
07嚴重火災
08中毒事件
09急性化學事故
(3) 公共衛生事件P(public health):
01傳染病疫情
02群體性不明原因疾病
03食品安全和職業危害
04動物疫情
05其他嚴重影響公眾健康和生命安全的事件
(4) 社會安全事件S(social safety):
01恐怖襲擊事件
02重大刑事案件00
03經濟安全事件 00
04涉外突發事件00
05規模較大的群體性事件
06民族宗教
07反政府和反社會主義
編碼是對新聞信息進行分類標引和檢索的工具,是分類法的表現形式。一般是將同一主題從大類到小類,按照邏輯系統逐級展開。突發事件新聞語料的編碼從新聞和語料庫兩方面入手,參考了《中文新聞信息分類及代碼》和人民日報語料庫編碼規則,根據實際檢索進行了編碼。
(1) 類目代碼
一級類目代碼用每類事件英文首字母表示。二級和三級類目采用十進分類法,每一級類目用兩位阿拉伯數字表示(01-99)。無三級目錄的類目用“00”表示。
(2) 語料編碼
采用突發事件發生日期+文檔編號。日期用8位表示,年用4位,月和日都用2位表示。文檔編號為3位(000—999)。
一篇新聞的完整編碼為:類目編碼+新聞編碼, 全部代碼共16位,具體如下:
一級分類號(1位字母)+二級分類號(2位數字)+三級分類
號(2位數字)+日期編號(8位數字)+文檔編號(3位數字)。
(3) 實例說明
例如:編號為A070120101115000的新聞語料的解析如表1所示。它表示事故災難類中的第7類嚴重火災中住宅區火災,報道時間是2010年11月15日,文檔編號000表示在此類中對此事件的第一篇新聞報道。

表1 語料編碼方案解析示例
本文在建立突發事件語料庫的過程中,對語料進行了初級加工,對突發事件新聞分類體系進行了詳細的研究。由于突發事件本身的不確定性,使得對突發事件的分類存在一定的困難,需要根據實際情況不斷地擴充和完善。
[1] http://www.gov.cn.
[2] 李立明. 流行病學(第4版).北京:人民衛生出版社.1999.
[3] 周文.基于應對視角的突發公共事件分類[J].商場現代化.2011.
[4] 張玲玲,李鼎鑫.重大突發事件新聞報道的分類及特點[J].華北科技學院學報.2009.
[5] http://news.xinhuanet.com.
[6] 俞士汶,段慧明,朱學峰等.規范[J].中文信息學報.北京大學現代漢語語料庫基本加工. 2002.
[7] 袁辛奮,胡子林.淺析突發事件的特征.分類及意義[J].科技與管理.2005.
[8] 孫香勤.國內外重大突發事件管理模式分析[J].交通企業管理.2005.