摘 要:本文以大數據為背景對中文數據庫的閱讀展開分析,并梳理了大數據、數據庫的基本內涵,以及中文數據庫的發展狀況,主要以鄭州大學河南文獻數據為例,從其特色內容、檢索途徑、檢索方法、功能作用等方面簡要分析了中文數據庫的閱讀與使用。
關鍵詞:大數據;數據庫;中文閱讀
作者簡介:林冉(1992-),女,漢族,福建福州人,鄭州大學文學院中國古典文獻學碩士研究生二年級在讀,研究方向:先秦兩漢文學文獻,發表論文2篇。
[中圖分類號]:G250.74 [文獻標識碼]:A
[文章編號]:1002-2139(2016)-12--03
鄭州大學河南文獻數據庫是大數據時代的產物,該數據庫中保存著河南省珍貴的歷史文化資料,介紹其使用的方法有利于進一步推廣該數據庫,同時對致力于研究河南省的讀者也具有一定的意義。
一、大數據時代數據庫建設
(一)大數據的定義及特點
隨著電子信息技術的發展與普及,我們正生活在一個信息爆炸的大數據時代,充斥著形形色色、令人眼花繚亂的信息資訊。大數據并非產品也不是技術,只是數字化時代的一種現象[1]。關于大數據的定義,學術界尚未得出一個統一的結論。如基維百科將大數據定義為規模巨大到無法用目前的軟件工具處理的巨型資料量,在相應時間內完成擷取、管理、處理后利于企業完成經營目標的資訊;再如研究機構將大數據定義為必須用新型的處理模式才能更好地洞察、決策并優化流程的巨量、多樣化且高速增長的信息資產;而麥肯錫的定義則為大數據是一種數據集合,且在一定時間內無法利用傳統的數據軟件對其進行數據采集、存數、管理及分析[2]。由此我們可以看出,大數據的特點即數量大、種類多、運行速度快。
(二)數據庫的建設及作用
計算機的發明與普及,使數據量不斷增長,大數據背景下產生了數據管理技術,數據管理技術的發展經歷了以下四個階段:人工管理階段、文件系統階段、數據庫階段和高級數據庫技術階段。而數據庫的歷史可以追溯到五十年前,當時人們利用穿孔片及磁帶進行數據儲存。隨著人們對于數據共享的要求越來越高,傳統的文件系統早已不足以滿足人們的需求,因而統一管理和共享數據的數據庫管理系統(DBMS)應運而生。根據數據模型的特點,數據庫系統被分成網狀數據庫、層次數據庫和關系數據庫三類。本文所研究的數據庫指的是在大數據時代,儲存著大量信息的大型信息數據庫。本文認為,數據庫廣泛應用于社會的各行各業,按照數據庫的使用的領域,又可以將其分為金融數據庫、醫學數據庫、政府數據庫、商業數據庫等。
大數據時代,信息冗雜,若不加以分類,信息查找者便難以在大數據的世界中搜索到目標信息數據。數據庫的發明與應用有效地解決了這一問題,數據庫擁有分門別類處理信息數據的功能,它使紛繁復雜的數據條理化、門類化,并提供了便捷的檢索途徑,使信息查找者通過關鍵詞的檢索迅速匹配到他們所需的信息,極大程度上節約了人力與物力,幫助人們便捷高效地從海量信息中挖掘出有價值的信息。
二、中文數據庫發展及閱讀
信息資源的開發與利用是衡量國家綜合國力的標志之一,而中文數據庫建設是我國信息資源建設的主要組成部分,中文數據庫的閱讀對于提升我國軟實力具有重要的意義。
從國際數據庫的發展來看,美國是數據庫和聯機檢索服務的最大提供者,也是最大的市場。其數據庫開發和聯機檢索服務一直是其信息服務業的主體,增長率最高[3]。日本、英國、德國等發達國家也同樣對數據庫建設投入了大量資金,企圖擴大市場份額。20世紀80年代中后期,我國利用國外數據庫技術開始開發國產中文數據庫。1979年,我國開始引進美國國會館MARC磁帶,數據庫在我國逐步推廣應用,到了上世紀90年代,我國出現了全文數據庫的供應商[4]。
中文數據庫建設相比較于發達國家而言,起步比較晚,數據庫技術也主要是引進國外的技術。近幾年來,我國更加重視中文數據庫的建設,進一步加大了投入,如CNKI系列數據庫、萬方數據庫、維普中文科技期刊數據庫、中宏數據庫等為代表的中文數據庫的數量逐漸增多,其占中文話語市場的份額也在不斷擴大,中文數據庫得到了長足的發展。
中文數據庫數量的增加、涉及領域的擴大為國內用戶在大數據背景下瀏覽各類信息提供了便捷的渠道。中文數據庫的閱讀改變了傳統紙質期刊閱讀的方式,將閱讀進一步推向了數字化。一些中文數據庫中收錄了我國經典古籍及優秀的文化作品,中文數據庫的閱讀拓寬了中華燦爛文明傳播的廣度,使經典的傳承與發揚更加便捷。在紛繁復雜的大數據時代,中文數據庫的建立與發展對于國家軟實力的提高具有重要意義。
三、以鄭州大學河南文獻數據庫為例簡析中文數據庫的閱讀與使用
(一)數據庫簡介
鄭州大學河南文獻數據庫是鄭州大學圖書館于2004年研制開發的CALIS(中國高等教育文獻保障系統)專題特色數據庫項目之一,屬于典型的中文數據庫,其中收錄了河南省諸多珍貴文獻資料,共有81109條記錄。該數據庫收錄的數據資料內容豐富、形式多樣,不僅收錄大量河南文獻、報刊、學位論文的相關介紹,而且還收錄了具有地方特色的名人介紹、名人手稿、名勝古跡圖片等,涉及了方志、年鑒、文學、黨史、文化藝術、社會生活、政治、軍事、工運、婦女、文物考古、教育、衛生、統計資料、水利、黃河文史資料、財政金融工商稅務、工業、農業等領域,對于這些珍貴資料的購買與獲得均提供了聯系方式。河南文獻數據庫的網址訪問路徑位于鄭州大學圖書館網址首頁數據資料欄目的自建數據庫內,建庫至今數據庫總訪問量已經達到541600人次。數據庫以系統齊全的地方文獻收藏和多角度深層次的研究,為致力于研究河南的學者提供了檢索河南文獻的途徑與導向。
(二)特色內容分析
鄭州大學河南文獻數據庫最突出的特點是收錄了大量與河南相關的珍貴的文字、圖片資料,擁有其他數據庫所不具備的資源優勢,凸顯了鮮明的河南特色。數據庫的特色內容包括7個板塊——河南文獻、舊志提要、珍稀報刊、歷代名人、名勝古跡、名人手稿、特色學位論文,為有興趣研究河南的讀者提供了了解河南的良好向導。
河南文獻板塊中收錄了與河南省相關的各個方面的文獻資料,涉及了政治、經濟、文化、地理等領域。數據庫雖僅是為研究者提供檢索的向導,未將文獻全文收錄其中,但提供了文獻創建者、編輯者、出版者、出版時間、ISBN號、開本、地域、頁碼、復本、購買方式等信息,為研究者檢索提供了極大的便利。
舊志提要中涵蓋了河南省各縣市的地方舊志,并對版本、卷冊、地區以及購買聯系方式等基本信息做了簡要介紹。該數據庫中保存的地方舊志版本均屬于明清及民國的刊本、刻本、稿本以及鉛印本。舊志內容包含了河南省古代名物典章、地方性的人、事、物,為研究該市、縣的學者提供了寶貴的資料。
珍稀報刊共保存了40201份史料,該數據庫介紹了作者、來源刊名、來源卷、出版地、頁碼、關鍵字、學科分類號、聯系方式等基本信息。這些珍貴資料記錄了不同時期在河南省發生的重大事件,內容豐富全面,若不是專門收集保存,目前在市面均很難找到,因此該數據庫對于了解與研究河南省的歷史具有重要的意義。
歷代名人,數據庫共列舉了從古至今17887位河南省名人,如著名的政治名人范蠡、李斯、岳飛等,文化名人杜甫、李商隱、干寶等,以及其他時代的名人。數據庫注明了名人所屬的地域、生年卒年、朝代、著作、民族等信息,數據庫還專門提供了名人傳記全文下載。
名勝古跡板塊共有3134處名勝古跡,按照名人故居、陵墓、古遺址、古城址、寺廟、古塔、風景區等類別進行分類,標注了創建者、所屬地區、年代、來源,并對其做簡要的介紹,數據庫還提供圖片下載,圖文并茂地展示河南省人文與地理景觀,有利于檢索者更加直觀地感受其魅力。
名人手稿與特色學位論文。名人手稿共4092篇,收錄了來自文學藝術、政治經濟、宗教、傳媒、農業、計算機計算、少林武術等領域的文章,這些文章均出自河南籍各界名人學者之手,為研究河南名人及河南文化思想的讀者提供了寶貴資料。數據庫中收錄了7754篇特色學位論文,所有的特色學位論文都是以河南省作為研究對象的,涉及了眾多學科專業,具有很強的學術性與實踐性,對于全面地了解河南省具有一定的作用。
(三)檢索方法分析
數據庫首頁設置了快速檢索與高級檢索兩大檢索方法。有利于讀者快速鎖定目標文獻,基本上均能滿足讀者的檢索需求。
快速檢索屬于初步基本檢索,通過題名、作者、關鍵詞途徑即可進行檢索,一般情況下快速檢索所得到的文獻數量較多,難以一步到位精確到檢索者所需要的目標信息。此外,該數據庫的快捷檢索不支持同時輸入兩個以上關鍵詞進行檢索,即讀者通過題名、作者、關鍵詞三個途徑進行檢索時只能輸入一個詞,系統才能進行正常檢索,否則系統將顯示無紀錄。因此,檢索者在此數據庫中進行快速檢索后還需進一步篩選信息。
高級檢索相比較于快速檢索而言更加智能,搜索得到的文獻更加精準、范圍也更小。在高級檢索界面,可同時在題名、作者、關鍵詞(主題)、地域選擇框中輸入信息,系統將圍繞著這四項信息進行匹配。此外在高級檢索中還能選擇檢索來源,檢索者可根據自己的需求選擇以整個數據庫為范圍,或在數據庫下設的7個板塊中任選其一作為檢索范圍。快捷檢索與高級檢索各有千秋,快捷檢索適合于模糊查找,而高級檢索則更精準地匹配到目標文獻,讀者可根據自己的閱讀需求進行選擇。
(四)檢索途徑分析
鄭州大學河南文獻數據庫設置了多種檢索途徑,基本滿足讀者從全部、題名、作者、關鍵詞等常用途徑的檢索外,還結合數據庫各個板塊的特色設置了其他檢索途徑。在河南文獻板塊與珍稀報刊板塊中增加了出版地與學科分類號兩種途徑;名勝古跡檢索途徑增加了所屬地與古跡分類;名人手稿的檢索途徑增加了出版社與文摘類型;舊志提要的檢索途徑則為題名、年代、地區;歷代名人的檢索途徑為全部、作者、籍貫、職務、地域、關鍵詞;特色學位論文的檢索途徑為題名、作者、關鍵詞。數據庫根據不同的資料類型提供個性化的檢索途徑,方便讀者的查找與閱讀使用。
(五)作用意義分析
鄭州大學河南文獻數據庫作為鄭州大學自建特色數據庫,為廣大感興趣于研究河南的讀者提供了了解河南省的重要窗口,正如鄭州大學河南文獻數據庫網站介紹所說,它是“探索河南奧秘的文獻中心,開啟中原文化的一把鑰匙。”中原文化悠久而燦爛,是中華文明的重要組成部分。河南文獻數據庫收錄了大量珍貴的河南文獻資料為河南文化的傳承做出了貢獻,為致力于研究以及有興趣了解河南的廣大社會人士提供了良好的向導,通過這個向導,讀者不僅可以感受到中原文化與歷史的厚重感,而且還能領略到名勝古跡的獨特魅力。此外,數據庫的開發與使用有利于河南省文化產業的發展,有利于各界人士增進對河南的了解及共同開發河南省豐富的文化資源,進而促進河南省文化與經濟的進一步發展。
四、結語
隨著電子信息技術的發展,當今世界已經進入了一個大數據時代,面對紛繁復雜的大數據,數據庫技術的產生無疑促進了大數據的條理化與門類化,提高了閱讀效率。中文數據庫伴隨著中文信息的快速增長,其數目不斷增多,信息更加全面,市場的份額也不斷擴大,為讀者提供了諸多便利。河南文獻數據庫作為一個典型的中文數據庫,反映了大數據時代中文數據庫收錄內容豐富、檢索途徑多樣、檢索方式靈活、檢索效率高、具有鮮明中國特色等特點。同時,在大數據背景下,其為河南省燦爛文化的傳播做出了一定貢獻,利用好這個特色數據庫進行閱讀與查找河南文獻對于了解與研究河南都具有重要意義。
參考文獻:
[1]程陳.大數據挖掘分析[J].軟件.2014,35(4):130-131.
[2]葛春燕.數據挖掘技術在保險公司客戶評估中的應用研究[J].軟件,2013,34(1):116-118.
[3]李莉莉.關于信息資源開發與數據庫建設的思考[J].情報雜志,1998,17(5):29-30.
[4]鐘文一.我國國產全文數據庫的檢索閱讀平臺研究[J].情報雜志,2003,10(6):89-92.