基于Web的動態語料庫構建*——以中國政治新聞語料庫建庫為例

2013-05-28 02:14:44韓朝陽

中國教育技術裝備 2013年23期

關鍵詞：文本

◆韓朝陽

作者：韓朝陽，碩士，上海杉達學院嘉善校區副教授，研究方向為語料庫語言學、計算機輔助外語教學（314100）。

網絡能為語料庫的構建提供豐富實時的語料。由于不同網站的結構不盡相同，網頁內容又呈現結構化和半結構化特征，這使得如何從網絡汲取語料成為基于網絡構建語料庫的首要問題。同時，如何對汲取后的語料進行整合和組織，也是基于網絡構建語料庫不容忽視的問題。以基于網絡構建動態中國政治新聞語料庫為例，從網站結構分析、網頁下載以語料汲取的技術實現、語料的XML結構化重組等方面，闡述如何在軟件的輔助下從中國日報網站自動汲取語料并構建語料庫的實現過程。

政治新聞語料庫不僅要具有時效性，而且要具有真實性和權威性。其時效性就是指在構建語料庫時要及時采集那些實時新聞報道語料；真實性和權威性則要求采集的新聞語料一定要出自權威機構。

隨著現代信息技術的發展和普及，網絡（Web）已成為目前容量最大、速度最快的信息傳播平臺。網絡語料的時效性是傳統媒介（如報紙、期刊等）無法比擬的，網絡無疑應為政治新聞語料的主要采集地[1]。就政治新聞的權威性來講，目前，大家比較認可的發布中國政治新聞英文報道的權威網站主要有新華網（English.news.cn）、人民網（English.peolopledaily.com.cn）和中國日報網（Chinadaily.com.cn）等[2]。

通過對這三家網站的分析比較，筆者發現：1）就新聞的英文報道本身的來源看，這三家網站經?；ハ嘁?，從而可只關注一個網站也能在一定程度上滿足語料采集抽樣的平衡性；2）目前只有中國日報網有一個專門報道中國政治新聞的頻道（china/politics），且每篇新聞報道的HTML頁面中還包含該篇報道的摘要、關鍵字等信息，而這些信息可為采集的語料提供更為豐富的標注內容。因此，筆者認為，對于中國政治新聞語料庫的創建，可以基于中國日報網的中國政治新聞頻道來采集語料。

本文將從中國日報網政治新聞頻道的結構分析、網頁下載、語料汲取、語料XML結構化重組等方面，詳細介紹如何基于該網站設計開發一個能夠實現自動構建動態實時中國政治新聞語料庫的計算機軟件。

1 中國日報政治新聞頻道結構特征分析

中國日報的中國政治新聞頻道（以下簡稱政治新聞頻道）采用“列項頁（list page）”和“具體內容頁（content page）”的二層結構模式進行新聞內容的導航。列項頁中列出每篇新聞的標題，通過鼠標單擊其中的一個標題項，即可進入包含該篇新聞詳細報道的具體內容頁。該結構模式也是目前其他新聞類頻道最常用的模式之一。有些學者又把“列項頁”稱為“多記錄頁”，“具體內容頁”稱為“單記錄頁”[3]。

政治新聞頻道采用“先進先出”的隊列原則，即該頻道始終只提供200個“列項頁”，除第1頁的URL地址為“http://www.chinadaily.com.cn/china/governmentandpolicy.html”外，其他頁面分別按照頁碼進行有規則編排，如第2頁的URL（Uniform Resource Locator，指網頁的鏈接地址）為“http://www.chinadaily.com.cn/china/governmentandpolicy_2.html”，第3頁的URL為http://www.chinadaily.com.cn/china/governmentandpolicy_3.html。同理，第200頁的URL為“http://www.chinadaily.com.cn/china/governmentandpolicy_200.html”。以此為規律，可設計軟件實現自動生成每個“列項頁”的URL，并循環下載所有政治新聞頻道的“列項頁”[1]。

雖然不同網站“列項頁”的內部結構不盡相同，但一般情況下，同一個網站特別是同一頻道下的所有“列項頁”的結構相同[4]。同樣，政治新聞頻道的200個“列項頁”的內部結構框架也是相同的，如每個頁面都只有12條列項（標題），每個列項的html標簽（tag）也相同等。因此，可設計軟件實現自動解析每個“列項頁”的內容，從而批量獲得各個“列項頁”的所有政治新聞報道的標題以及與這些標題對應的“具體內容頁”URL。

同理，根據“具體內容頁”的URL，可設計軟件實現自動獲得每個“具體內容頁”。由于多數大型網站在上傳文本數據（如新聞報道的內容）時一般都采用確定內容格式的上載工具，所以這些同一類數據內容在瀏覽器中展示時也會采用相同的HTML結構格式。通過觀察分析，發現政治新聞頻道的“具體內容頁”也沒有例外，它們同樣采用相同的HTML結構格式來展示新聞內容。因此，可設計軟件實現自動解析“具體內容頁”的內容，并汲取到目標語料。

通過以上的觀察和分析，筆者認為通過設計開發軟件來對政治新聞頻道提供的語料進行自動汲取具有一定的可行性。下面是設計的通過軟件實現自動汲取語料并構建中國政治新聞語料庫的主要流程步驟：

步驟1：下載“列項頁”；

步驟2：汲取“列項頁”中的信息，創建“具體內容頁”的URL列表；

步驟3：開始循環下載URL列表中每個列表項對應的“具體內容頁；

步驟4：汲取“具體內容頁”中的有用語料信息；

步驟5：按照統一的XML結構重新組合這些語料信息；

步驟6：把包含語料信息的XML文件保存到相應的位置；

步驟7：判斷URL列表是否循環完畢，若沒有執行完畢就繼續從步驟3開始，否則結束本次操作。

2 網頁下載

網頁下載是指軟件根據給定的URL，自動從網絡上把與該URL對應的網頁內容以數據流的形式下載到本地計算機，然后以文本形式重新編碼并輸出，其機理為：1）軟件通過網絡向給定URL所在的服務器發出下載請求并與該服務器建立數據通道；2）服務器對下載請求驗證審核后，通過數據通道向軟件提供URL對應網頁內容的數據流；3）軟件接收數據流后，對數據流以文本的形式進行重新編碼并輸出[1]。

在網頁自動下載模塊開發過程中，通過使用C#程序開發語言，編程并調用微軟.net平臺提供的HttpWebRequest[5]和HttpWebResponse[6]兩個類中的Create方法和GetResponse方法，實現軟件自動向中國日報網站服務器發出下載請求、建立數據通道以及接收數據流等功能，從而實現軟件自動從中國日報網站下載相應的網頁。

在中國政治新聞語料庫構建過程中，主要有兩個地方需要調用網頁自動下載模塊，分別是下載指定的“列項頁”和下載指定的“具體內容頁”。以下載政治新聞頻道的第一個列項頁為例，在建庫過程中，只需向網頁下載軟件模塊提供表示第一個列項頁的URL字符串（http://www.chinadaily.com.cn/china/governmentandpolicy.htm），網頁下載軟件模塊就會自動向中國日報網站的服務器發出請求并下載到該頁面的HTML文本[1]。

3 網頁內容解析

由網頁下載軟件模塊下載的“列項頁”HTML文本和“具體內容頁”的HTML文本不僅包含需要提取的信息，同時包含HTML標簽以及其他信息（如廣告等）。這就要求開發能夠解析這兩種HTML文本的軟件模塊來自動汲取需要的內容。HTML文本是有一定結構的文本，找出它們內部的結構特征，就可編寫軟件，利用正則表達式自動提取出需要的文本內容[1]。

圖1 HTML文本中一條新聞標題及其相關信息表示方法

圖2

以圖1所示“列項頁”的部分HTML文本為例（2013年7月3日 20:08下載），很容易觀察到需要提取的每一條新聞的標題以及其相關信息都是以“

”結尾。由于該結構在“列項頁”HTML文本的其他地方沒有出現過，因此可作為每一條新聞標題的結構特征。根據此特征，網頁解析軟件可利用正則表達式“
s+”把所有的新聞標題及相關信息在HTML文本中自動匹配出來并進行循環提取。
以圖1所示為例，通過解析軟件，可以得到該條新聞相關信息：
1）標題是“Chinese VP meets with Ugandan PM”；
2）對應“具體內容頁”的URL是“2013-07/03/content_16711033.htm”；
3）發布時間是“2013-07-03 00:13”；
4）內容摘要是“Chinese Vice President Li Yuanchao met with Uganda's Prime Minister Amama Mbabazi on Tuesday”。
將這些信息以XML節點的形式重組、整理（如圖2所示）并添加到一個存儲新聞列表的XML文件（以下稱為新聞列表XML）中，解析軟件則完成從當前“列項頁”HTML文本中解析和提取一個新聞標題及相關內容的操作。通過循環，解析軟件即可完成當前整個“列項頁”HTML文本中所有新聞標題及相關內容的解析和提取。
圖2中節點“f”的“id”屬性值“201307030013_16711033”是由發布時間字符串“2013-07-03 00:13”和URL中的“16711033”組合而成，這樣可以確保該新聞編號的唯一性；
“download”屬性標記該新聞的“具體內容頁”是否已經下載過，若已經下載，該屬性值將設為“y”；“token”屬性用來表示該篇新聞所包含的總單詞數。軟件完成“列項頁”HTML內容的下載、解析和提取后，就會自動基于新聞列表XML文件自動創建將要下載的“具體內容頁”URL列表，并準備開始下載這些URL對應的“具體內容頁”。解析“具體內容頁”的方法與“列項頁”HTML文本內容的方法基本一致，只是某些具體的操作如軟件調用的正則表達式、解析提取的內容項等不同，因此關于“具體內容頁”HTML文本內容的解析本文就不再贅述[1]。
4 用XML形式重新組合語料信息
網頁下載軟件模塊根據新聞列表XML文件提供的“具體內容頁”URL下載列表，逐一循環下載所有包含政治新聞內容的“具體內容頁”。當對其中一篇的HTML文本進行解析和提取完成后，并自動把提取結果和新聞列表XML文件中與該新聞對應節點的內容進行整合，整合后的一篇以XML結構的政治新聞語料將以該新聞的編號作為文件名保存在計算機相應的位置。
以XML形式表示的一篇政治新聞語料包括頭信息和正文兩大部分。頭信息是指這篇政治新聞語料的一些基本屬性，如編號、發布日期、作者、關鍵詞、摘要、單詞總數等。在政治新聞XML文件中，頭信息保存在“head”節點中。正文是指新聞語料的具體內容，它記錄在XML文檔的“content”節點中。同時，正文信息的每個段落內容都用節點“p”來標注。若以日期作為語料庫的存儲架構，那么本篇政治新聞的XML文件，將會以“201307030013_16711033.xml”作為文件名被保存到計算機磁盤的“2013

感谢您访问我们的网站，您可能还对以下资源感兴趣：自贡牌麓投资有限公司
999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 网站地图

主站蜘蛛池模板：极品私人尤物在线精品首页| 国产69精品久久久久孕妇大杂乱 | 欧美三级自拍| 男人的天堂久久精品激情| 亚洲欧美偷自乱图片| 国产91熟女高潮一区二区| 91精品国产丝袜| 久久午夜夜伦鲁鲁片无码免费| 欧美人人干| 久热99这里只有精品视频6| 日韩午夜伦| 日本三级欧美三级| 思思热在线视频精品| 无码人妻热线精品视频| 一级看片免费视频| 国产香蕉在线视频| 久久精品欧美一区二区| 国产乱人免费视频| 国产人成乱码视频免费观看 | 无码内射在线| 亚洲欧美人成电影在线观看| 国产女人在线观看| 1级黄色毛片| www.91在线播放| 美女一区二区在线观看| 国产在线麻豆波多野结衣| 国产青榴视频在线观看网站| 国产精品永久免费嫩草研究院| 日本精品视频| 国产精品片在线观看手机版 | 亚洲视频色图| 久久精品亚洲热综合一区二区| 免费精品一区二区h| 中文字幕第1页在线播| 国产精品无码作爱| 9久久伊人精品综合| 欧美19综合中文字幕| 国产二级毛片| 91精品在线视频观看| 国产第一页亚洲| 国产一国产一有一级毛片视频| 朝桐光一区二区| 国产一区二区三区在线观看视频| 国产麻豆91网在线看| 亚欧成人无码AV在线播放| 国产欧美亚洲精品第3页在线| 色屁屁一区二区三区视频国产| 久久黄色影院| 国产新AV天堂| 夜夜操狠狠操| 色婷婷国产精品视频| 亚洲精品第五页| www.精品国产| 国产午夜不卡| 欧美在线黄| 久久99精品久久久久纯品| 欧美日韩中文国产| 一本综合久久| 日韩欧美视频第一区在线观看| 精品视频一区在线观看| 亚洲欧美在线综合图区| 亚洲最大在线观看| 亚洲黄网在线| 国产鲁鲁视频在线观看| 日本高清有码人妻| 日韩国产亚洲一区二区在线观看| 国产亚洲精品91| 人禽伦免费交视频网页播放| 国产99视频精品免费视频7| 欧美激情网址| 国产三级成人| 欧美精品在线免费| 全部无卡免费的毛片在线看| 欧美天堂在线| 国产在线97| 国产内射一区亚洲| 伊人久久大香线蕉影院| 色网站免费在线观看| 国产三级国产精品国产普男人| 国内精品久久人妻无码大片高| 国产手机在线小视频免费观看| 一区二区欧美日韩高清免费|