●薛春香(南京理工大學 信息管理系,南京 210094)
報紙文獻是刊登在報紙上的新聞報道、廣告等一切文字和圖像資料,是一種極為豐富而未被充分開發的重要信息源,具有特殊的參考價值和史料價值,被稱為“活檔案”。[1]報紙文獻的價值一直為專家學者所認同,但由于其加工遠滯后于圖書、期刊、學位論文等其他文獻資料,導致其不便于查找獲取,被引用率極低,其參考價值尚未得到充分發揮。據CSSCI統計,報紙文獻被引用率一直徘徊在3%左右,遠遠低于圖書期刊;其中五年內報紙文獻量占被引報紙文獻總量的比例(即普賴斯指數)超過60%。[2]
從目前現狀來看,報紙文獻加工還處于大規模數字化階段,主要體現在報紙全文瀏覽、版面還原技術研究,對內容的深加工研究比較薄弱,僅限于簡單的分類索引和剪報應用。報紙文獻數據庫建設主要經歷了三個階段:(1)從紙質報紙索引向報紙題錄庫轉變,以提供報紙文獻線索為主;(2)大規模數字化加工階段,主要是一些主流報紙的全文數據庫建設和多種報紙文獻混合的大型報紙全文數據庫建設,以回溯建庫為主;(3)數字出版階段,各大報媒除發行紙質報紙外,還同步提供網絡版、手機版報紙的瀏覽服務,并出現了綜合性電子報紙平臺,如8點報、AB報、愛讀愛看等等,但這些報紙平臺主要提供報紙閱讀功能,對內容方面的建設很少。
早期的報紙文獻數據庫以題錄庫為主,主要是從印刷版的索引文獻向題錄數據庫發展,內容檢索以提供分類索引為主,以上海圖書館的《全國報刊索引》數據庫和人大書報資料中心的《中文報刊資料索引》數據庫為代表。這兩種索引數據庫作為主要的文獻檢索工具,對報紙文獻進行了規范的主題標引和學科分類,為用戶提供了檢索的便利,但不提供原文獲取。
全文數據庫的建設是對報紙文獻進行內容深加工的前提和基礎。隨著全文索取需求的增長,數字化加工的規模化、數字出版和報紙網絡發行,各大報紙出版集團開始回溯和建設本報的全文數據庫資源,如《人民日報》圖文數據庫、《解放軍報》圖文數據庫、《中國青年報》圖文數據庫、《經濟日報》全文數據庫等等。自此,全文數據庫建設取得了實質性進展。
此后,一些專業文獻數據庫服務商開始關注報紙文獻全文數據庫的建設,既有綜合性的中國知網《中國重要報紙全文數據庫》、方正阿帕比《中國報紙資源全文數據庫》等,也有專題性的如維普《中國科技經濟新聞數據庫》、深圳巨靈《中國財經報刊數據庫》等。
從各數據庫的規模來看,相較于國內目前正式在版發行的2000種左右的報紙種數,[3]報紙文獻數據庫的加工規模遠遠不夠;從各數據庫的文獻加工情況看,報紙文獻的加工還處于淺層次階段,主要提供:(1)基于報名、版名、新聞標題、作者、欄目等外部特征的檢索;(2)基于全文索引的粗粒度全文檢索;(3)基于簡單分類索引體系的粗分類檢索。個別數據庫提供了基于關鍵詞的主題檢索和基于《中圖法》或《中文新聞信息分類與代碼》的檢索與導航。
(1)索引。各種索引是傳統環境下實現報紙文獻檢索最主要的途徑,也是開發利用報紙文獻的重要手段。據調查,國內正式出版的2000種中文報紙中,目前僅人民日報、光明日報、解放軍報、中國青年報、解放日報、文匯報、山西日報等配置書本式索引或數據庫,其他絕大多數報紙都缺乏完善的檢索系統,這與網絡信息時代的要求及我國新聞事業發展的現狀不相適應。[4]索引的類型以篇名索引和分類索引為主,其中分類索引主要依據《中圖法》《資料法》或自編分類體系來編制,以《全國報刊索引》為代表。
(2)剪報。剪報的實質是將各種報紙上的信息按照專題進行采集、歸類、匯總,形成全文型的資料性信息產品。剪報是信息機構針對報紙資源進行開發利用的主要方式,往往會依據本機構的服務特色就某些特定專題進行剪報。但無論是早期的手工剪報,還是現在的電子剪報,對人工的依賴程度都很大。
雖然報紙文獻全文數據庫建設規模越來越大,但基于全文的檢索效率是低下的。因此,分類和主題標引依然是目前報紙文獻內容深加工的主要形式。鑒于報紙文獻信息量巨大,早在上世紀90年代就有學者提出了報紙文獻的自動標引和自動分類。[5]
目前報紙文獻的自動標引系統設計主要采用基于多種詞表和標引源權重方案的關鍵詞抽取標引,是一種自由標引,適當利用后控制詞表進行主題規范;歸類主要基于詞表兼容互換原理,實現以詞(串)定類;各種命名實體的抽取也是以名稱詞典為基礎,輔以規則。由此可見,報紙文獻的內容加工對各種詞典、詞表、類表等組成的知識組織系統依賴性很大。[6]
(1)報紙和報紙文獻著錄規則。報紙是一種連續性出版物,每篇報紙文獻又是一個獨立的著錄標引對象。雖然我國有專門針對報紙期刊這類連續出版物的著錄標準——《連續性資源著錄規則》,但在國家標準和相關論著中對于報紙的著錄標引論及甚少,大多以期刊為例進行解釋說明。實際上,報紙與期刊很不相同,不能混為一談。比如,同一種報紙存在不同地區版本、不同語種版本、不同時間版本。因此,應該有針對報紙文獻加工的專門標準和規范。[7][8][9]
1988年,IFLA發布了一份《國際報紙編目指南》,用于規范報紙編目,但這只是一份指導性文件,并未形成報紙編目的具體規則和MARC編碼標準。[10]國內陳源蒸、石鴻飛等學者也對報紙著錄中的問題進行過探討,基本解決了報紙整體著錄的問題。但時至今日圖書館和文獻數據庫服務商對于報紙文獻的著錄仍未達成共識,報紙文獻數據庫著錄字段的設計和檢索點的提供各不相同。
(2)報紙文獻標引規范。報紙文獻的標引是其內容深加工的主要形式,尤其是報紙的深度標引更是挖掘報紙文獻價值、形成信息產品的主要手段。但目前缺乏針對報紙文獻的標引方案和標引規則,所依據的還是通用的、簡單粗略的文獻主題標引規范。[11]因此,無論是分類標引還是主題標引,受控標引還是自由標引,手工標引還是自動標引都應從便于檢索、充分發揮報紙文獻價值著手,針對各種性質、各種專業領域的報紙文獻制訂具體的標引規則和標引方案。如不同實體對象(人物、地區、機構、會議等)、不同主題(政治文獻、社會新聞、經濟文獻、文化事業和文化活動、文藝作品、體育新聞、科技文獻)、不同體裁(新聞消息、報告)、不同信息類型(廣告、圖片)等等,都應規定出必須標引的內容和不必標引的內容,規定出標引深度和標引專指度等,這樣才能保證報紙文獻價值的最大化開發和利用。
各種分類表、主題詞表、術語表等知識組織工具在文獻內容加工組織和開發利用中具有重要的支撐作用。但目前,針對報紙文獻的各種詞表存在編制困難、更新滯后、難以統一普及、缺乏互操作性等一系列問題。[8]
(1)分類表。在《中文新聞信息分類與代碼》標準發布之前,報紙文獻的分類體系一直是各自為政,比如知網《中國重要報紙全文數據庫》先是采用自編的三級類目體系,包括10大專輯、168個專題、近3600個細目,后又改用《中圖法》類號標注;而《全國報刊索引》數據庫則以《資料法》作為分類依據;各大報系又有適應本報內容的自編分類體系,缺乏針對新聞信息特點的專用統一的分類體系。2003年科技部啟動《中文新聞信息技術標準》的國家科技攻關項目,形成了新聞信息分類標準——《中文新聞信息分類與代碼》,并于2006年5月付諸實施。該標準把政治、經濟、文化三大部類作為一級類目劃分的基礎,采用層次編碼法,主表從粗到細,劃分出23個一級類目、315個二級類目、5683個細目,類目總數達到9314個、類目層級達到5級,同時附加了6個通用復分表和11個專類復分表。《中文新聞信息分類與代碼》國家標準的頒行推動了報紙文獻分類組織的統一,但限于人力、分類體系轉換成本和效率等諸多原因,普及度和采用率并不高。
(2)主題詞表。報紙文獻涉及的主題、體裁甚廣,并且不斷有新主題、新事物涌現,很難用一部通用的主題詞表來覆蓋?!度珖鴪罂饕芬跃C合型《中國分類主題詞表》作為其主題標引的受控依據;新華社則專門編制了用于存儲和檢索新聞資料的專業敘詞表——《新聞敘詞表》,收錄正式主題詞8603條,非正式主題詞1201條,學科范圍涉及國內外政治、軍事、外交、文化、科技及社會生活各個方面。但總體來說,由于報紙文獻主題標引規模較小,即使標引也以自由標引為主,因此,適用于報紙文獻的主題詞表編制和應用研究甚少。
除了分類表和主題詞表外,因為報紙文獻中有大量的新聞報道,其中的人名、國家地區、事件名、機構名、產品名等等命名實體都具有一定的檢索意義和參考價值。為了對這些命名實體進行抽取和規范控制,還需要名稱權威檔等知識組織系統的支撐。
從目前報紙文獻內容加工的方式來看,仍以傳統文獻著錄和標引,形成指示性文獻檢索線索為主,或是人工依賴程度很大的剪報產品,內容深加工形式單一。
報紙文獻涉及范圍廣泛,既有新聞報道類的消息型信息,也有資料型信息,還有知識型信息;報紙文獻的受眾面廣,用戶特點和用戶需求各異。因此,完全可在及時、新穎且多為第一手資料的報紙文獻基礎上形成針對性、特色性、高增值的各種信息產品。
(1)專題庫。按照各種實體、具體事件、具體行業、具體領域整合多種報紙上一定時間段內的各種相關文獻,形成各種專題數據庫,提供給不同用戶。
(2)知識庫。從抽取各種事實性、數據性的報紙資料中抽取事實、數據、實例等形成知識庫,即事實數據庫產品。
(3)參考咨詢庫。專題庫和知識庫還只是基于報紙文獻一手資料的采集、選擇和擷取的加工,而在這些分類別、序化的聚合信息基礎上,輔以數據挖掘和專家智慧,則可以形成研究性、預測性的市場調查報告、行情分析、趨勢預測等高增值的信息產品,使公開的報紙文獻成為重要的競爭情報信息源。
無論是舊報紙還是現行報紙,單純的數字化是遠遠不夠的,必須實現報紙文獻內容的深加工,形成增值信息產品。目前學界、業界對于網絡新聞的組織、挖掘探索越來越多,雖然網絡新聞并不等同于報紙文獻,但將在網絡信息挖掘、圖書期刊論文資料等領域內容加工的方法和技術移植到報紙文獻內容加工領域,并結合報紙文獻的特點形成針對報紙文獻內容加工的專門方法是值得嘗試的。具體如下:
(1)由各自為政的分類索引向基于新聞分類標準整合報紙信息資源方向發展。分類索引是報紙文獻內容組織最主要的傳統方式,但由于缺乏統一的分類體系,導致各個報系和文獻數據庫之間分類組織互操作的障礙,更遑論進行資源整合?,F在作為國家標準的《中文新聞信息分類與代碼》分類表已經頒行,但讓各單位立即摒棄原有的分類體系卻不可行,何況這個國家標準的適用性還需要進一步的驗證。因此,從資源整合的角度出發,可考慮在沿用原有分類體系的基礎上,將其與標準分類表之間進行映射轉換,通過分類表的互操作來實現資源整合。
(2)由簡單主題標引向各種實體抽取方向發展。實體標引在報紙文獻標引中是有歷史的,而各種命名實體的抽取和標注對于報紙文獻檢索、建立文獻關聯、形成專題產品都具有重要意義。因此,在計算語言學和信息組織智能化不斷發展的前提下,報紙文獻的主題標引還需強化,并且要進行多元、多角度、全方位的深度標引。
(3)由傳統剪報向個性化、專題化信息產品方向發展。剪報是在報紙文獻基礎上形成的一種增值性信息產品,傳統的“剪刀加漿糊”的工作方式已經不能適應快速精準的現代信息需求。在報紙文獻有序組織、深度揭示的基礎上,對用戶信息需求進行細化,實現報紙文獻信息的重組和創新,從而形成個性化、專題化的剪報產品。
(4)由傳統文獻組織向內容挖掘方向發展。報紙文獻的內容加工不能局限在為提供檢索服務的信息序化層面,而應向內容挖掘層面進行深加工。報紙文獻的內容挖掘既包括單篇文獻中的主題揭示、各種命名實體的抽取和語義關聯、觀點挖掘等;還包括集合文獻的專題聚類、熱點追蹤、觀點導向分析、新聞過濾、輿情預警等等,真正發揮報紙文獻的喉舌、參謀作用。
[1]張琪玉.報紙文獻是一種極為豐富而未被充分開發的信息源—關于發展報紙文獻索引和數據庫的思考 [J].圖書館雜志,1999(2):7-8.
[2]王智琦,李秋實.基于CSSCI不同類型文獻的發展趨勢定量研究 [J].圖書館,2008(3):38-40,68.
[3]中華人民共和國新聞出版總署.2009年全國新聞出版業基本情況[EB/OL].(2010-09-07)[2011-06-11].http://www.gapp.gov.cn/cms/html/21/493/201009/702538.html.
[4]葛永慶.開發報紙文獻的重要手段和有效途徑—兼談《申報索引》的編纂出版[J].中國索引,2008(2):2-3.
[5]宋明亮.報紙文獻機助自由標引研究及對漢語后控制詞表動態維護的思考——《解放軍報》模擬檢索系統設計實驗報告[D].中國人民解放軍空軍政治學院碩士論文,1994.
[6]辛乘勝.人民日報新聞文獻自動標引系統的設計與實現[J].中國傳媒科技,1997(3):17-19
[7]李素建.人民日報標引系統[EB/OL].(2002-11-18)[2011-06-12].http://www.icl.pku.edu.cn/member/lisujian/papers/人民日報標引系統intro.pdf.
[8]查貴庭,侯漢清.基于多詞表的自動標引技術研究——新華社新聞稿自動標引的實驗[J].情報學報,2002,21(3):273-277.
[9]馬金林.《申報》全文數據庫的自動標引[J].信息系統工程,2009(11):39-40.
[10]HanaKomorous,RobertHarriman.InternationalGuidelines for the Cataloguing of Newspapers[EB/OL].(1988-07-01)[2011-06-11].http://www.ifla.org/VII/s39/broch/intguide.pdf.
[11]許斌.關于開發報紙文獻索引及數據庫的思考[J].圖書館學研究,2005(2):41-42.