首小琴/廣東省惠州學院
隨著口述史研究在我國的逐步深入,我國檔案界逐步開展了口述資料數據建設實踐,并積累了一定數量的口述資料數據。遺憾的是,在當前網絡信息技術迅猛發展的環境下和構建服務型檔案館的要求下,如何以建設數據庫的方式對口述資料進行管理與開發并提供服務,這一課題始終沒有得到足夠的重視。嚴格來說,目前我國檔案界尚無可供用戶使用的口述資料數據庫;反觀國際圖書檔案界和國內圖書館界,其口述資料數據庫建設都已取得較多成果。因此,加強口述資料數據庫建設對我國檔案界顯得尤為緊迫。需要指出的是,功能設計作為數據庫設計的核心內容,是口述資料數據庫建設的重要任務。筆者就口述資料數據庫功能設計作一探討。
口述資料數據庫是指以口述資料數據為主要內容的,具有數據輸入、輸出與管理等功能的數據庫,它是管理口述資料數據的載體和平臺,也是開發利用口述資料數據的重要平臺。在當前服務型社會的環境下和以人為本的社會理念下,口述資料數據庫建設的宗旨是為用戶提供口述資料數據服務,滿足用戶的利用需求。因此,口述資料數據庫的功能設計應始終以滿足用戶的各類需求為核心。這要求在設計口述資料數據功能時,要著重分析用戶需要什么類型的口述資料數據,并且認真思考如何便捷地獲取和共享這些數據等。
筆者嘗試通過問卷調查方式初步了解用戶需求,同時采用網絡搜索、文獻查詢、郵件和電話聯系等調研方式,對國外尤其是美國口述資料數據庫和我國圖書館界口述資料數據庫的建設情況進行了考察。這里先論述問卷調查情況。本次問卷調查對象主要是筆者所在單位惠州學院的教師和學生,為使調研對象對問卷有初步了解,在問卷調查之前已簡單介紹了口述資料及數據庫的概念、特性、作用與價值等。本次問卷調查總計發放問卷260份,收回有效問卷232份。本問卷共設置7個問題,包括1道主觀題與6道客觀選擇題,主要涉及口述資料數據庫的數據類型、數據檢索、數據獲取和數據共享等幾類內容。問卷調查結果如下:關于“你是否對口述資料數據庫建設感興趣”,52%的人表示感興趣,31%的人表示不感興趣,17%的人未做出明確選擇,表示“不知道”;關于“你還希望口述資料數據庫提供其他什么功能”,有38人填寫“評論、點贊、互動交流”等功能,有5人填寫了其他內容,還有189人未作填寫。
由于問卷調查的范圍和數據量非常有限,我們并不能據此發現我國口述資料數據庫的用戶需求特征。為此筆者結合其他調研數據進行闡述,力求更全面、更精準地反映口述資料數據用戶需求的特征。
不同用戶對口述資料數據類型的需求各不相同。一般而言,學者希望從數據庫中獲得口述文本用于研究。“假若可以選擇,研究者選的一定是抄本,而不是錄音帶。”[1]而普通用戶尤其是年輕用戶偏愛選擇較為生動直觀的口述視頻和音頻,他們往往對閱讀篇幅較大的口述文本缺乏耐心。另外,同一用戶群體對口述資料數據的類型也有不同的需求,如研究生利用口述資料時可能利用文本進行研究,也可能利用音頻、視頻進行研究;再如針對同一用戶群體的“希望口述資料數據庫提供哪些類型的數據”的問題上,選擇“視頻”的占14%,“音頻”占10%,“文本”占8%,“以上都是”占68%,這樣的結果顯示了用戶對口述資料數據庫數據類型的需求并不是單一的,而是多樣的。據調查,目前美國的一些檔案館應用戶要求,已經將口述資料文本連同音頻、圖片等其他資料上傳到數據庫里,供用戶選擇利用。
就“希望口述資料數據庫提供哪些檢索字段”這一問題看,有13%的受訪者選擇“口述訪談主題”,4%選擇“受訪者”,2%選擇“采訪時間”的,選擇“以上都是”的占81%,從這里可看出用戶對口述資料數據庫檢索字段的需求呈現多元化。不同用戶對檢索字段的選擇有不同的偏愛和習慣,如有些用戶傾向于用“訪問時間”檢索,有些用戶習慣用“訪談主題”檢索,還有的用戶更偏向于選擇“受訪者”檢索,可以看出用戶對檢索字段的需求具有多元化特點,這對數據庫檢索功能設計提出了相應的要求。以美國班克羅夫特圖書館的口述資料數據庫為例,該數據庫囊括了近100個口述歷史項目上萬份訪談記錄的數據資料,為了適應不同用戶的檢索習慣,每份數據都有詳細的元數據描述,用戶在檢索時可以選擇題名、項目、受訪者、出版日期、主題范圍、訪談日期等字段[2]。
傳統獲取數據的方式包括在線瀏覽和下載,隨著近年來新媒體技術的進一步發展,越來越多的用戶嘗試利用新媒體平臺獲取口述資料數據,如通過微博、微信、騰訊QQ、博客等的共享和推送等獲取數據,數據獲取途徑有新變化。問卷調查中“你希望通過哪種途徑獲取口述資料數據庫中的數據?”的問題,選擇“瀏覽”的受訪者占41%,“下載”占37%,“共享”占15%,“推送”占7%。可見選擇“瀏覽”“下載”的受訪者較多,但也有越來越多的受訪者選擇“共享”“推動”的方式獲取數據。為進一步觀察用戶共享數據的方式,我們設置了“你希望通過哪個媒體共享信息數據?”這一問題,結果顯示,通過“微信”共享數據的受訪者占51%,QQ占28%,微博占18%,其他占3%。可見,數據的獲取與共享途徑有新變化。
由于我國口述資料工作還處于起步的階段,著作權保護工作滯后,用戶的著作權保護意識不高。“當前,我國口述資料工作中普遍存在著重采集利用、輕著作權保護的現象。”問卷調查中“你認為是否應對某些數據設置獲取權限?”的問題,選擇“應該”的受訪者僅占21%,而選擇“不應該”的占了40%,“適度”占32%,“不關心”占7%,這說明當前我國用戶口述資料著作權保護意識較低。我國圖書館界也存在這樣的問題,筆者經過調查發現,我國主要圖書館口述資料文獻數據庫網站上,基本沒有羅列關于著作權保護的說明或設置相關措施。同時,筆者通過發送郵件、電話聯系的方式對一些圖書館進行調研,發現這些圖書館尚未采取措施保護口述文獻數據庫的著作權。
口述資料區別于傳統檔案的一個方面,是其在載體形式方面具有多樣性,既可以是視頻、音頻,也可以轉錄成文本,有的口述資料還配有相關的圖片、實物等資料。調研結果顯示,用戶對口述資料數據類型的需求具有多樣性特征。這就要求在數據庫建設中要重視數據輸入功能,充分考慮各種類型口述資料數據的特點,有針對性地選擇使用方便、功能完善、運行可靠、容易維護、兼容性強的數據庫網絡系統,將文本、圖像、聲音等多種格式的信息數據建立邏輯聯系,集成為具有實時交互性特征的系統。在這一方面,我國國家圖書館在“中國記憶”項目“中國記憶專題數據庫”的建設過程中積累了一定經驗,自2012年該項目正式啟動以來,數據庫不僅采集了文本資料,還采集了相關照片、實物等資料。截至2014年12月,該數據庫已收入20余個口述專題,積累了超過40TB的原始影像數據,并保存有大量實物、非正式出版物等相關資料[3]。筆者發現,美國國會圖書館建立了退伍軍人口述資料數據庫,其數據類型不僅包括口述錄音、錄像、抄本,還囊括了照片、回憶錄、文書檔案等其他的資料,同時也提供了相關的數據鏈接,可以滿足用戶的多方需求[4]。
讓用戶從口述資料數據庫中獲取目標數據,是口述資料數據庫建設的最終目的。如何設計口述資料數據庫的數據獲取功能,是本次設計的重點。從調研中我們發現,用戶希望獲取數據的方式是多元化的。大英圖書館在建設口述資料數據庫時充分考慮到了這一點,其數據庫提供了不同途徑的數據獲取途徑:利用圖書館的OPAC進行檢索;到圖書館利用專門的聲音服務設備Sound Server觀看視頻材料或收聽音頻材料;瀏覽訪問或在線下載部分口述歷史記錄;通過用戶進行共享傳播等[5]。通過對國外數據庫進行考察可以發現,很多建設較為成熟的口述資料數據庫都提供了如檢索、訪問、下載和共享推送等多元化的數據獲取途徑。筆者認為,數據獲取功能應包括檢索功能、訪問功能、下載功能和共享推送功能等。
“數據庫使得對口述歷史內容的檢索更為深入,用戶的獲取更為快捷。”[6]因此,檢索功能設計對于口述資料數據庫的建設而言至關重要。通過調研,我們得知用戶希望在檢索時能夠通過不同的字段進行檢索,因此口述資料數據庫的檢索窗口設計應從用戶需求出發,提供包括文本、視頻、音頻和圖片等在內的多媒體檢索,并能夠從集合層次、單件層次和內容層次上進行檢索,還可對用戶進行獲取權限控制;既能夠提供多層次、多角度的查詢與檢索途徑,還可以提供單字段、多字段組合查詢方法。
用戶通過瀏覽訪問的方式查閱數據庫中的內容,從而獲取目標口述資料數據,這是數據獲取的最基本方式。在美國,國會圖書館、國家醫學圖書館、國家農業圖書館、各地的公共圖書館和高校圖書館都積累了豐富的口述歷史數據,美國數字公共圖書館項目更是整合了各種存儲機構非正式出版的文獻數據,并建立了口述專題數據庫,將抄本和磁帶轉換成數字聲音和視頻記錄并在線展示,此舉促進了這些數據的利用與共享[7]。
美國的很多口述資料數據庫都具備資料下載功能,但因不同用戶的需求不同,這一功能有一定的限制。由于網絡傳播的不確定性和口述資料著作權保護的需要,當前我國很多口述資料數據庫不具備下載功能。筆者建議,為了滿足用戶利用需求,可在保護口述資料著作權前提下設計數據下載功能。
互聯網技術和新媒體技術的發展,為用戶獲取與共享口述資料數據信息提供了便利。“盡管將口述歷史納入社交媒體當中需要相當的人力與物力數據,但是其積極作用也是不言而喻的,這不僅有助于推廣與分享來自檔案館或圖書館等實體空間的口述歷史數據,同時還能夠以新的方式實現口述歷史工作者與公眾乃至他們之間的相互聯系與交流。”[8]從調研中可以看到,當前用戶對數據獲取的途徑有新變化,即越來越多的用戶通過新媒體獲取數據。同時通過網絡調研,筆者發現美國的很多圖書館運用多種社交媒體對口述資料信息進行推廣傳播,使美國民眾足不出戶就可以了解到相關口述資料信息和最新的口述歷史項目。其中,美國國會圖書館退伍軍人口述資料數據庫可將用戶檢索到的口述資料信息進行推送,或者共享到社交網絡上;美國班克羅夫特圖書館同時運用Twitter、Facebook、YouTube、Sound Cloud、Instagram、Blog等6種網絡社交媒體對口述資料進行推廣[9]。在國內,國家圖書館的“中國記憶”口述資料數據庫與騰訊QQ、微博、人人網進行合作,用戶可以將自己喜歡的信息通過這些新媒體進行傳播、推送[10]。筆者建議,口述資料數據在功能設計時,要結合用戶需求,充分利用新媒體的傳播優勢;要注重口述資料數據庫共享推送功能的設計,如設置“共享”“推送”按鈕,促進口述資料信息的傳播共享。
在問卷調查有一道“你還希望口述資料數據庫提供其他什么功能”的主觀調研題,有38人填寫“評論、點贊、互動交流”等功能,這正反映出用戶對數據庫交流互動功能的重視。“美國口述歷史數據庫和網絡展覽一般都設置了推送和共享功能,一旦用戶瀏覽過某些口述資料,網站將根據用戶的大數據,分析出用戶的喜好與利用規律,并據此定期向用戶推送數據庫中的數據。同時用戶在瀏覽口述歷史檔案數據過程中,一旦發現自己感興趣的,可通過YouTube、Facebook等社交媒體共享給其他的用戶群體。”[11]美國班克羅夫特圖書館口述資料數據庫專門設置了“批判式利用”功能,無論對于訪談的原始錄音還是完整的抄本,利用者都可以就其準確性、真實性等提出看法,但質疑者必須提供確鑿的證據和準確的信息來源,圖書館工作人員在確認之后會進行修改或校注。筆者認為,在數據庫建設中加入交流、評論等互動功能,此舉將有利于促進口述資料數據的良性共建。當前,我國圖書館界在設計口述資料數據庫的功能時,已經考慮提供給用戶更多參與互動的機會,如設置在線征集口述資料數據的功能,由用戶創建標簽、發表評論、上傳相關內容。這樣做有利于充分利用口述資料,并使得用戶積極主動地參與口述資料數據建設之中。
豐富的口述資料數據是數據庫功能實現的重要前提,檔案部門必須高度重視口述資料的資源建設工作,及時收集多種類型的口述資料,特別要抓緊收集瀕臨消亡的珍貴口述資料。同時必須對數據庫中的口述資料進行一定的管理,尤其是要做好口述資料數據的元數據描述和著錄標引工作,這是實現數據庫檢索功能的基本前提。“無論是把口述歷史數據納入圖書館的編目系統還是獨立建設數據庫,都需要設計精心考量過的元數據方案。”[12]此外,在元數據描述中,背景研究越多、標引越準確、標引層次越豐富、粒度越細,越能提供更高質量的數據。為此,應提供盡量詳盡的元數據,還應采用標準的元數據框架、編碼以及受控詞表,確保高效檢索并實現不同檢索系統之間的兼容。具體操作時,可根據業務需要確定編目的標引深度,并參考國家圖書館名稱規范庫和分類主題詞表。
口述資料數據庫功能的實現,需要利用到多種技術手段。檔案部門作為口述資料數據的需求提供方,一方面應善于學習當前主要的信息技術,了解其功能與特點,這樣才能提出合理的、具有一定前瞻性的設計需求;另一方面要善于與技術部門合作,共同實現數據庫的各項功能。
口述資料作為口述者的回憶內容,是口述者過去經歷的原始記錄,往往涉及口述者的隱私;口述者作為口述資料的著作權主體之一,理應享有相關各種權益。檔案部門在提供口述資料數據利用時,有責任對口述者的隱私權與著作權進行保護[13],這也是實現數據庫功能的重要途徑。從問卷調查中可以看出,用戶的著作權意識普遍偏低,數據庫建設隨時面臨著作權侵權和隱私泄露的風險,甚至會因著作權糾紛而引發法律糾紛。當前,美國口述歷史機構的做法是通過簽訂協議和利用技術手段等方式保護著作權,這或許能為我們提供破解難題的思路。
注釋與參考文獻:
[1][美]唐納德·里奇.大家來做口述歷史[M].北京:當代中國出版社,2006:52.
[2]The Bancroft library [EB/OL].[2016-10-01]http://www.lib.berkeley.edu/libraries/bancroft-library/oral-history-center.
[3]廖永霞.中國記憶項目數據組織初探[J].國家圖書館學刊 ,2015(1):17-27.
[4]The library of congress [EB/OL].[2016-10-07].http://memory.loc.gov/diglib/vhp/html/search/search.html.
[5][7]胡立耘.基于口述歷史的圖書館延伸服務[J].圖書館 ,2015(12):15-22.
[6]李若云.流媒體技術在圖書館口述歷史數據庫中的應用 [J].現代情報 ,2009(8):37-40.
[8]楊祥銀.數字化革命與美國口述史學[J].社會科學戰線 ,2016(3):106-120.
[9]The Bancroft library [EB/OL].[2016-10-01]http://www.lib.berkeley.edu/libraries/bancroft-library/oral-history-center/social-media.
[10]國家圖書館.“中國記憶”口述數據專題庫[EB/OL].[2017-02-12] http://www.nlc.cn/dsb_zt/xzzt/dbkrlj/.
[11]王玉龍.基于案例分析的美國口述歷史檔案資源網絡開發與利用[J].檔案與建設,2017(2):21-24.
[12]廖永霞.中國記憶項目數據組織初探[J].國家圖書館學刊 ,2015(1):17-27.
[13]張一,謝蘭玉.網絡環境下美國圖書館開展口述歷史用戶服務的路徑及經驗[J].圖書館建設,2017(3):66-73.