巴莫曲布嫫....郭翠瀟....高瑜蔚.....宋貞子....張建軍.
在中國社會科學院民族文學研究所(以下簡稱“民文所”或“IEL”)的學科建設進程中,以中國少數民族文學“資料庫/媒資庫/檔案庫”為學術資源依托,以“口頭傳統田野研究基地”為信息增長點,以“中國民族文學網”(中英文)為傳播交流平臺的整體發展計劃,實施于2000年,簡稱為“‘資源/基地/網絡’三位一體方略”,至今依然是民文所科研事業發展規劃的主要工作任務①Yin Hubin, Bamo Qubumo, Guo Cuixiao, & Li Gang, “Archive/Base/Network: A Threefold Solution for Safeguarding Ethnic Minorities’ Oral Heritage in China,” Proceedings of the 2013 Digital Heritage International Congress, Marseille: IEEE, October 2013.。
19世紀50年代,口頭文學(oral literature)研究在哈佛大學興起,至20世紀60年代,該校成為口頭傳統(oral tradition)這一跨學科領域的旗艦,其間歷經柴爾德(Francis Child)、基特里奇(George L. Kittredge)、帕里(Milman Parry)、洛德(Albert B. Lord)、納吉(Gregory Nagy)、埃爾默(David F. Elmer)六代學者的傳承,學術傳統已逾160年,并以其得天獨厚的“帕里口頭文學特藏”(The Milman Parry Collection of Oral Literature)執牛耳。口頭傳統研究以歷史湮遠的“荷馬問題”為濫觴,并且由于承接了古典學領域中的核心話語,因此學科的基本問題——書面性與口頭性的討論——在人文學術領地具有方法論上的革新意義。“口承-書寫大分野”①埃里克·哈夫洛克:《口承-書寫等式:一個現代心智的程式》,巴莫曲布嫫譯,《民俗研究》,2003年第4期。的辯論在西方知識界引發了一場前所未有的反思,貫穿了整個20世紀下半葉,幾乎所有的人文學科均有涉入。口頭傳統研究陣營的理論和方法論,也影響到了世界一百五十多種語言傳統的研究,成果汗牛充棟。
口頭傳統研究進入中國則是在20世紀90年代中后期。當時,供職于民文所的數位學者,同時也是中國民俗學之父鐘敬文先生的親炙弟子,如朝戈金、尹虎彬、巴莫曲布嫫等專攻史詩研究的學者相繼負笈西行,前往歐洲和北美的民俗學研究重鎮(芬蘭的國際民俗學者暑期學校、哈佛大學、密蘇里大學等地)訪學,與航柯(Lauri O. Honko)、弗里(John M. Foley)、納吉、哈維拉赫提(Lauri Harvilahti)等口頭傳統研究大家相遇。此后一段時期內,他們陸續將國外幾代學者傳承的口頭傳統研究及其理論和方法論代表性成果譯介到了國內,并于2003年9月在國內率先成立了第一家“口頭傳統研究中心”,就此開始了口頭傳統研究理論方法論的本土化實踐②Qubumo Bamo and Gejin Chao, with John D. Niles. “Documenting Living Oral Traditions: China's Institute of Ethnic Literature as Case Study.” The Journal of American Folklore, Vol. 129, No. 513, Summer 2016:270-87.。
二十多年來,西方口頭詩學的理論成果,尤其是20世紀民俗學“三大學派”即口頭程式理論(the Oral-Formulaic Theory)、表演理論/演述理論(the Performance Theory)和民族志詩學(the Ethnopoetics)③重要譯著有如下數種:(1)[美]約翰·邁爾斯·弗里:《口頭詩學:帕里-洛德理論》,朝戈金譯,北京:社會科學文獻出版社,2000年;(2)[美]阿爾伯特·貝茨·洛德:《故事的歌手》,尹虎彬譯,北京:中華書局,2004年;(3)[匈]格雷戈里·納吉:《荷馬諸問題》,巴莫曲布嫫譯,桂林:廣西師范大學出版社,2008年;(4)[美]理查德鮑曼:《作為表演的口頭藝術》,楊利慧、安德明譯,桂林:廣西師范大學出版社,2008年;(5)[德] 卡爾·賴希爾:《突厥語民族口頭史詩:傳統、形式和詩歌結構》,阿地理·居瑪吐爾地譯,中國社會科學出版社,2011年。的系統譯介,以及在中國的本土化實踐對中國口頭傳統研究和口頭詩學理論建設起到了不可低估的作用。民文所學者的理論思考建立在學術史反思與批評的基礎上,在若干環節取得了一定的成績,引領了國內這一領域的學術實踐和方法論創新。例如,對史詩句法的分析模型的創用,對既有文本的田野“再認證”工作模型的建立;對民間文學文本制作中的“格式化”④巴莫曲布嫫:《“民間敘事傳統格式化”之批評——以彝族史詩〈勒俄特依〉的“文本迻錄”為例(上、中、下)》,《民族藝術》2003年第4期、2004年第1期及2004年第2期連載。問題及其種種弊端進行反思,進而在田野研究中歸總出“五個在場”⑤巴莫曲布嫫:《敘事語境與演述場域——以諾蘇彝族的口頭論辯和史詩傳統為例》,《文學評論》,2004年第1期。的基本學術預設和田野操作框架;運用口頭傳統的理論視域重新審視古代經典,生發出新的解讀和闡釋,同時利用古典學的方法和成就反觀活形態口頭傳統演述的內涵和意蘊;對特定演述人或演述人群體的長期追蹤和精細描摹及隱藏其后的制度化保障探究;在音聲文檔的整理、收藏和數字化處理方面,逐步建立起符合學術新理念和信息化建設要求的實踐路徑和工作機制。口頭傳統學科力倡和踐行“本土化實踐”,系列成果得到中外學者普遍肯定,影響已超出民間文藝學領域(劉鐵梁語),改變了中國民俗學學科格局和走勢,并在整體上賦予口頭傳統研究以中國族群文化多樣性的特色。簡而言之,口頭傳統學科在中國的發展,與在美國的成長相似,主要以代表性學者為中心,通過學者之間的代際傳承來壯大研究者隊伍,最終實現學術共同體的成長。其間,口頭傳統的數字化建檔也成為少數民族文學學科建設的重要方向。
國外的口頭傳統資料建檔起步較早,美國哈佛大學的帕里口頭文學特藏及其希臘研究中的數字人文項目、密蘇里大學e研究中心的通道項目、印第安納大學的傳統音樂檔案庫、美國國會圖書館民眾生活中心檔案庫、芬蘭文學學會民俗檔案庫、韓國學中央研究院的口碑文學大系等建設時間長、理念新、資金充足,尤其是在數據標準的研制上大都有IT專業團隊長期的對口支持。這些平行案例為本課題的設計和實施提供了可資參照的前鑒和思路。但由于語言環境、數據標準、軟硬件環境和概念工具的大相徑庭,尚難以與中國多民族、多語言、多樣態的口頭傳統資源及其體現的文化多樣性榫接。
從國家層面上看,文化部民族民間文藝發展中心和中國民間文藝家協會啟動數據庫建設已經多年,取得了階段性成果。這兩家的數據庫建設皆基于20世紀50年代中期以來的民間文學藝術資料搜集整理工作中所產出的文字資料,前者基于民間文學三套集成的省卷本,后者則基于縣卷本,二者都可視作文本資料數據庫。據初步了解和交流,兩家采用的數據標準和著錄規則也各不相同,前者為自行定制且多次修改,后者與漢王公司聯合開發;兩家單位共同面對的難題依然出在元數據標準的設計理念和著錄規則滯后于建庫行動,尤其是20世紀的田野資料采錄方法缺乏文本與語境之間的關聯,加之口頭文化表現形式的標準化維度和方法論模型尚未建立起來,大量數據錄入后出現信息冗余,檢索精度低,研究型的應用效率也當受到一定鉗制。
民文所通過“中國少數民族文學研究資料庫”(2000-2010,實體庫)、“中國少數民族文學媒體資源庫(2007-2011,媒資庫)”及“中國少數民族口頭傳統音影圖文檔案庫”(2011-至今,數字資源庫)的持續性建設,以在西部地區建立“口頭傳統田野研究基地”為依托,以民文所建設的學科門戶網站“中國民族文學網”為平臺,采取“以演述為中心”①朱剛:《從“語言轉向”到“以演述為中心”的方法——當代民俗學理論范式的學術史鉤沉》,《民族文學研究》,2014年第6期。的民俗學田野工作原則,將文本、圖片、音頻和視頻同時納入內容建設的工作框架,同時考量語境、傳承、接受等文化關聯,某些檔案資料具有唯一性,在國內外也有一定的影響。就數字化建檔實踐而言,民文所在中國史詩學和神話學領域的兩個專題數據集即“蒙古英雄史詩大系”(2012-2014)和“中國神話母題W編目”(2014-2015)已取得初步成果②Bamo Qubumo, Yin Hubin, Guo Cuixiao, & Li Gang, “Customizing Discipline-based Metadata Standards for Digital Preservation of Living Epic traditions in China: Basic Principles and Challenges,” Proceedings of the 2013 Digital Heritage International Congress, Marseille: IEEE, October 2013;巴莫曲布嫫,朝戈金,畢傳龍,李剛:《蒙古英雄史詩的數字化建檔實踐》,《民間文化論壇》,2015年第6期;Guo Cuixiao, Wang Xianzhao, Bamo Qubumo, & Li Gang, “Constructing Motif-index of China Mythologies Database: Design, Implementation and Potential Applications,” Proceedings of the 2nd Digital Heritage International Congress, Granada: IEEE, September 2015;郭翠瀟,王憲昭,巴莫曲布嫫,李剛:《“中國神話母題W編目數據庫”:建設與應用》,《民間文化論壇》,2015年第6期。。盡管民文所在信息化建設中取得了一定的實績,但長期以來,資料庫/檔案庫/媒資庫的建設都在專業元數據標準的定制和使用上受多種因素的制約而進展緩慢,尤其是中國社會科學院并無從事計算機科學與技術的部門建置和人力資源,數據庫建設水平普遍偏低,專業領域的標準與標準化研究力量薄弱,這便構成民文所通過國家社科基金尋找合作方的立項訴求,以利接續民文所前期的信息化建設努力并探索可持續發展的學術空間。
國家社會科學基金重大項目“中國少數民族口頭傳統專題數據庫建設:口頭傳統元數據標準建設”(批準號16ZDA160),于2016年11月獲得立項,由中國社會科學院民族文學研究所與中國科學院計算機網絡信息中心(以下簡稱“CNIC”)共同實施,巴莫曲布嫫擔任首席專家。該項目屬于科研型專用類標準研究與定制,堪稱口頭傳統專題數據庫建設的基礎之基礎;秉持“標準在先,建庫在后”的理念和原則而展開,下設三個子課題:(1)“口頭傳統元數據標準建設”(胡良霖主持);(2)“口頭傳統的田野采集規范與數字化建檔規程”(吳曉東主持);(3)“口頭傳統數據資源描述模型與著錄規則”(王憲昭主持)。
自課題啟動以來,口頭傳統研究與IT技術兩個專業領域的專家學者一同攻關,協同創新科研機制,各子課題組積極響應,參與組建了元數據專項聯合研發核心工作小組。隨著信息傳播技術的急速發展和成本降低,數字采集和存貯已經變得比以往便利了許多,但如何選擇、采集、處理、上載、存檔、管理、下載、遷移、分析、挖掘、利用并可視化這些數據都是數字人文時代不得不面對的重要課題。因此,制定數據采集、匯交、整合、質控、審編、獲取以及共享的標準體系是本課題的基本任務。在實施和推進過程中,課題組面對的一個問題是標準研究的基本對象抑或出發點到底是什么?
田野工作是口頭傳統研究的必經之路,也是數據庫建設的關鍵環節。民文所田野研究基地建設的基本理念可以形象地概括為“活魚是要在水中看的”(劉魁立語)。這些年來,民文所提倡和堅持的基本技術路線是圍繞特定的口頭文類、傳承人群體、文本與語境,以及與口頭文化密切相關的民俗生活事象,進行長期的形態學和類型學的定點追蹤研究,通過科學地觀察、忠實地記錄和實證地分析研究,以契合學科所要求的歷時性研究與共時性觀察的兩相結合,從學理上探索史詩傳承的內在規律,進而從口頭詩學的理論層面探究各民族口頭文化的表達形式,實現鐘敬文提出的從“目治”向“耳治”的范式轉換①鐘敬文:《“五四”時期民俗文化學的興起——呈獻于顧頡剛、董作賓諸故人之靈》,《北京師范大學學報》,1989年第3期。,更新口頭傳統的文本制作觀念。依托本所多年來的田野實踐和實地調查經驗,針對當下中國境內少數民族活形態口頭傳統及其多樣化表現形式考量現場數字采集作業的規范和流程,在田野采集原則層面則遵循“以演述為中心”的民俗學立場;在具體操作方法上,美國語言人類學家海默斯(Dell Hymes)的言說模型(the SPEAKING Model)②參見朱剛:《以語言為中心的民俗學范式——戴爾·海默斯的交流民族志概說》,《民間文化論壇》,2014年第6期。和巴莫曲布嫫提出的“‘五個在場’田野研究模型”皆聚焦于自然語境中的交流事件(events of communication)和參與式觀察,利用現代數字手段系統、全面記錄民眾的口頭傳統實踐,為本課題最終確定為“以事件為中心”奠定了學理基礎。然而,從“以演述為中心”到“以事件為中心”,課題組卻花費了極高的時間成本來加以論證和反復探討。應當說,這一工作原則的確立,雖幾經周折(從演述到文類,從傳承人到文本),但最終使得多次陷入僵局的徘徊局面豁然開朗,因而確保了從定制、采集和著錄三個環節設計并研發口頭傳統元數據標準方案的推進。
隨著各子課題的實施和推進,課題組原有工作重心也隨著元數據標準定制方向的確立發生了一些新移轉,尤其是在學術優勢和科研力量的整合上出現了新格局。課題組在研究計劃的推進中,及時吸納青年學者、博士后及博士研究生加盟,一則充實了團隊力量,二則通過課題的開展培養有志于從事數據庫建設的人才。一年多來,各子課題組以協同方式開展了各自的研究計劃,除完成元數據標準定制方案的階段性成果外,還編制了系列化中外口頭傳統數據庫案例和教科文組織關聯文獻結集專檔,另有多篇學術論文發表。在此過程中,民文所與中科院團隊竭誠攻關,在科技與人文的深度融合中培養了協同增效的工作氛圍,大家親密無間地開展跨學科的邊界作業,這乃是課題組最大的收獲之一。具體而言,從實地調研計劃的實施到文獻整理和分析,從海外在線平行數據庫調研到專題化的資料學建設,從參與學術會議到“引進來、走出去”的中外學術交流,從適時舉辦課題組工作會議到保持微群工作坊在線討論,以多重進路推進了課題任務的實施。2017年形成口頭傳統元數據標準定制方案,2018年完成口頭傳統元數據標準方案的修改、完善和審定——這一總體進度安排基本實現。以下,分述各子課題的進展情況。
——子課題一:“口頭傳統元數據標準建設”
元數據(metadata)最為廣泛傳播的定義是“關于數據的數據”(data about data),這是一個高度抽象的概念;在具體應用過程中,應根據實際描述對象的特點和具體使用來明確并細化。對于口頭傳統研究而言,口頭傳統元數據就是關于口頭傳統研究對象的描述數據,這些描述信息應當客觀全面記錄口頭傳統研究對象的性理特征,并根據數據生命周期提供數字化采集、著錄、建檔的技術支持,確保數據的保存、發現、獲取和使用。課題組以metadata(元數據)為關鍵詞檢索國際標準化組織概念數據庫①ISO concept database: https://www.iso.org/obp/ui/ ,訪問日期:2018-09-12。,有798個涉及元數據的標準資料,632個元數據標準,有166個標準對“元數據”進行了定義。正是在前期預研工作基礎上,課題組根據數據管理和應用的實際需求,調研了國內外相關元數據標準50余種,選取其中20余種相關標準進行整理分析,總結現有元數據的特點和不適用之處。從梳理元數據定義、元數據特點和分類出發,調研國外標準(按照標準規范與描述方法、核心元數據、領域元數據、博物館元數據、圖書館元數據、檔案元數據分類進行分析)及國家標準和業內規范,同時借鑒中國科學院專業領域數據標準和國家數字圖書館等國內的相關標準,重點分析研究方法和元數據構成,總結各元數據的特點和對本課題研究的借鑒意義,在此基礎上形成了《國內外元數據標準調研報告》。
在標準調研基礎上,課題組從口頭研究對象和載體入手展開分析。口頭研究對象甚為多樣,各具特點。除了基本的學科分類外,口頭傳統研究的對象還包括承載這些口頭表現形式的文化空間和民俗生活實踐,以及傳承人和實踐者群體,涉及相關社區、群體或個人的價值觀和文化認同。口頭傳統研究的資源對象最終會以文本、圖片、音頻和視頻等多元媒體形式呈現。結合這些特點,以及當前應用需求及未來應用潛在趨勢等,課題組采用文獻調研、案例分析、專家訪問等研究方法,與口頭傳統領域的專家學者進行了多次對話和交流,以深入理解口頭傳統元數據描述對象的存在形式及其特點,并歸納出田野研究的特征和科研人員的需求;同時,課題組還實地走訪了中央電視臺音像資料館、國家圖書館“中國記憶”項目組,赴韓國學中央研究院調研數據庫建設情況,參加海峽兩岸學科信息化交流會、中國科學數據大會等學術會議,充分調研和吸取國內外的成功經驗;課題組在前兩者基礎上結合元數據構建理論,對資料進行深入分析,以信息化手段梳理元數據標準的基本結構,總結歸納了元數據標準描述的核心要素,優化了口頭傳統元數據標準體系的結構,確定了口頭傳統元數據這一研究對象的描述模型以及描述方法,最終設計出以口頭傳統事件為中心,集合5類專有元數據和11類通用元數據的口頭元數據標準體系,完成《口頭傳統元數據標準方案》的定制。

《口頭傳統元數據標準方案》歷經多次修改和完善,最終確定“以事件為中心”,并設計了16類元數據,255個描述元素,其中專有元數據5類,分別為文本、傳承人、語境、演述、受眾;通用元數據11類,其中必選項9類,包括題名、資源標識符、參與者、介質載體、地點、時間、語言、責任與權利、獲取與歸檔;可選項2類,即民俗實物、關聯和其他(見圖1)。專有元數據包括85個描述元素,通用元數據包括170個描述元素。每個描述元素采用元素名稱、英文標識、使用方式、使用頻率、數據類型等描述方法。
——子課題二:“口頭傳統的田野采集規范與數字化建檔規程”
“口頭傳統元數據標準建設”旨在為當下乃至未來的田野研究提供專業標準和數據環境,在本課題執行過程中,需要充分考量信息傳播技術的發展與科研人員開展數字化采集(音聲、影像、圖片、文本、實物)和數據著錄的相關性、互連性及一致性。因此,與子課題一“口頭傳統元數據標準建設”和子課題三“口頭傳統數據資源描述模型與著錄規則”實現銜接是一個重要前提。在相關專家的建議下,課題組需要厘清的基本問題包括但不限于:涉及文本、圖片、音頻和視頻的相關著錄規則有哪些?按專題進行數字化歸集和數據集建檔的數據管理與元數據標準有哪些?元數據登記及元數據登記互操作性、元數據內容一致性標準是什么?與ISO數據標準和ICA著錄規則的兼容性如何?口頭傳統數據規范化采集、整理、入庫和服務的專業標準、數據規范化整合的標準、數據資源的共享模式如何確立?最后,在尊重相關方權益(傳承人與實踐者、受眾、田野采集者、田野協力者、數據使用人、研究機構、數字共同體、公共文化部門等等)的基礎上如何開放共享等問題。
在課題推進過程中,課題組主要成員深度參與了文化部民族民間文藝發展中心主持的“中國史詩百部工程”的組織實施工作。該工程針對活形態史詩傳統設定的相關數據采集標準和建檔方案具有前瞻性和參考價值。與此同時,課題組在與國家圖書館“中國記憶”項目組的工作討論會和相關培訓工作中,也聽取了該項目組參與組織“國家級非物質文化遺產代表性項目代表性傳承人搶救記錄工程”的經驗和做法。在數字化歸集和數據集建檔的數據管理方面,我們重點參考了《UCLA社會數據收集與歸檔管理規范(2011)》,中科院團隊則負責研究ISO/TC46/SC11 文件管理元數據系列標準。此外,在韓國實地調研中,課題組就田野采集及其數據標準進行了重點調研;回國后,課題組輔助人員宋貞子博士將《韓國口碑文學大系——改訂·增補事業〈口碑文學現場調查及采錄指南〉》譯為中文,為課題的推進提供了實操性參考①韓國學中央研究院和韓國國立民俗博物館的同行本著開放、共享的理念,為調研團贈送了他們項目實施的相關資料,包括《韓國口碑文學大系——改訂·增補事業〈口碑文學現場調查及采錄指南〉》《口碑文學調查方法》《韓國口碑文學大系(1979-1985)資料收集及分類》《韓國口碑文學大系——改訂·增補事業參與研究者研討會資料》《民俗檔案資料管理手冊》以及一些根據已建成的“韓國口碑文學大系”數據庫數據產出的口碑文學資料和研究成果。在此,我們謹代表課題組全體成員向韓國同行們致以由衷的謝忱。。
《牛津英語字典》將“建檔”(documentation)定義為信息的積累、分類和傳播;或以這種方式收集的資料。在數字技術高度發達的今天,課題組針對的口頭傳統建檔主要是利用攝影、錄音、錄像等現代技術手段記錄、保存、呈現、獲取口頭傳統表現形式和傳統實踐的證據提供過程;同時高度關注以書寫、制圖、標記、注解等任何傳統方式進行記錄的專業行為。專業建檔因學術參與而有別于社區內部保存和傳播其傳統知識和傳統文化表現形式的傳統方式。課題組借鑒教科文組織《保護非物質文化遺產公約》所的定義的“保護”(safeguarding)及其針對非遺的動態性和活態性所建立的“過程性保護”及其操作框架,基于“過程性建檔”的基本理念來設計和編制田野數據采集方案。我們所強調的“過程性建檔”尤為關鍵,因其往往是傳承圈之外的人們獲取口頭傳統存續力現狀和口頭交流實踐的基本方式。因此,以田野研究為出發點,并以交流事件為中心的數據采集作業及其多層面和多維度(圖文影音、實物、文本與語境、演述人及其受眾、人文生態、風物遺址、自然空間、紀念地等)的建檔流程,勢必需要制定過程性的田野采集規范和數字化建檔規程,并保證持續性更新和不間斷的內容維護。
口頭傳統田野研究要求我們要從采集與語境兩個維度來高度關注民俗學的“證據提供”(documentation),也就是說要納入田野研究的一系列操作性環節,包括田野作業(fieldwork)、訪談(interview)、田野筆記(fieldnotes)、田野謄錄(transcribing)、田野報告(reporting)、田野迻譯(translating)、田野的文本化(textualizing)到最后形成一個系統的田野歸檔(archiving,包括田野文獻識別、獲取、處理、存儲和傳播等),才能最終支撐起被呈現、被闡釋的文本。②廖明君,巴莫曲布嫫:《田野研究的“五個在場”——巴莫曲布嫫訪談錄》,《民族藝術》,2004年第3期。在田野實地工作中,只有經過這一完整的、有步驟的、充滿細節的工作進程,才能最終提供并支撐一種能夠反映口頭傳統特質的,以演述為中心的民俗學文本及其文本化制作流程。與此同時,我們還將事先知情同意原則、權利讓渡的獲取,以及建檔涉及的學術倫理納入了田野采集規范的編制范圍。
截至目前,課題組按計劃配合元數據標準研發各階段的工作,針對標準應用環節(數字化建檔人員),根據口頭傳統研究專業元數據標準和著錄規則的定制需求,研究、設計和編制符合數據質量控制要求的田野采集標準和資料建檔規范,初步完成《口頭傳統田野數字采集工作手冊》,包括《口頭傳統田野調查問卷》《民族志訪談問題表》《口頭傳統攝影、拍攝、錄音、實物采集技術標準》、《田野資料著錄規范、操作規程》《事先知情同意書》《權利讓渡書》。下一步將參照學科田野作業規范和相關工作模型,組織學科內專家、標準專家和數據庫專家協同制定《口頭傳統的田野采集規范與數字化建檔規程》(含口頭傳統數據數字采集質量管理規范與入庫驗收標準),達成對田野數字采集的質量進行有效地控制和管理的目標。
——子課題三:“口頭傳統數據資源描述模型與著錄規則”
本子課題要解決的主要問題是數據著錄質量的控制和管理,針對采集→入庫→集成的流程中的著錄細則形成過程性方案。課題組配合子課題組一定制《口頭傳統元數據標準方案》和子課題組二定制《口頭傳統的田野采集規范與數字化建檔規程》,負責定制具體應用的數據描述模型、著錄細則、操作規程和驗證辦法,同時組織學科內專家、標準專家和數據庫專家協同編制著錄工作流程方案,以達成對數據質量進行有效控制和易于管理的目標。本子課題采納的研究方法主要以分析音影圖文檔案的國家標準、行業標準及相關的著錄規范為線索,同時參考國內外相關數據庫的描述型元數據標準及其采納的著錄工具、既有經驗和實例。
在實地調研和工作討論中,我們先后對中央電視臺音像資料館的音視頻著錄工作、國家圖書館“中國記憶”項目的視頻信息著錄方案,以及韓國學中央研究院“韓國口碑文學大系”的著錄規則進行了重點研究。基于強調數據資源描述與語境的關聯,在課題執行中,我們重點參考了國際檔案理事會專家組(EGAD)基于檔案原則記錄描述的新標準《語境中的記錄:概念模型》(RiC-CM 1.0)。該標準旨在協調、整合并建立在現有的四個標準ISAD(G)、ISAAR(CPF)、ISDF、ISDIAH的基礎上。EGAD還通過已建立的和新興的通信技術,特別是比更成熟的標記和數據庫技術更具表現力的語義技術,且越來越多地用于在不同的描述系統中互連描述,以提供跨文化遺產領域的資源集成訪問。國內方面,我們參考了國家標準《GB/T 3792.4-2009文獻著錄第4部分:非書資料》、檔案行業標準《DA/T18-1999檔案著錄規則》,國家圖書館的圖像、音頻、視頻資源元數據規范和著錄規則,以及《GY/T 202.1-2004、GY/T 202.2-2016廣播電視音像資料編目規范》。然而,從多級描述到多維描述,我們還需高度關注口頭傳統研究的特色數據涉及語言、文類、形式、結構、母題、功能、意義、程式、典型場景、故事范型、音聲范型等多方面的學理尺度,同時還需對接數據的語境關聯和特定的文化表現形式與文化空間要素,包括演述人、受眾及多元行動方。因此,在課題實施過程中,我們特別關注口頭傳統多元化信息的著錄、處理與互通問題,同時將多語種的拉丁轉寫和漢文翻譯謄錄的數據化流程納入元數據標準建制環節和試驗環節。
在課題執行進程中,課題組配合元數據標準研發各階段的工作,針對標準應用環節(多元化的用戶對象),確定口頭傳統研究專業元數據標準和著錄規則的定制需求,研究、設計和編制符合數據質量控制要求的數據描述模型樣本和著錄規則;參照學科基本研究范式和相關的描述—分析模型,已初步編制出《口頭傳統數據描述標準及操作規程》《口頭傳統數據質量控制規范》《口頭傳統研究數據著錄細目》。下一步,課題組將在田野驗證和數字化建檔的基礎上選擇數據種類和數據量,厘定數據描述模型的多重維度,確定著錄細則要求。著錄細則將基于子課題一定制的《口頭傳統元數據標準方案》進行編制,涉及5類專用元數據(85個描述元素)和11類通用元數據(170個描述元素),依托中國科學院計算機網絡信息中心課題組搭建的實驗環境加以測試、校正、改進和完善,以提升數據整合質量和數據集成管理技術指標,最終完成《口頭傳統描述規范和著錄細則》,為推出高質量的專題化、系列化和精品化的描述性數據集樣本奠定基礎。
以上是三個子課題組的研究進展情況。2018年8月和9月,課題組圍繞《口頭傳統元數據標準方案》的適用性和可操作性,前往內蒙古鄂爾多斯伊金霍洛旗和貴州省紫云縣開展田野驗證工作。8月調研主要圍繞成吉思汗祭典之“蘇德勒大祭”(入秋祭)和成吉思汗祭歌而展開,按“事件前—事件中—事件后”三個環節組織參與式采錄工作。9月調研,則以貴州麻山苗族口頭傳統為重點,采取隨機調研方法。幸運的是,課題組既遇到了保穆(儀式師)黃小華老人主持的三次小型治療儀式,同時也趕上了大型喪葬儀式的重要進程——守靈唱喪——由眾多東郎參與的《亞魯王》史詩演述。兩次驗證調研,一北一南,對于課題組認識儀式與口頭傳統的關系,以及如何在不同的儀式場合中記錄口頭傳統文類都提供了有益的參考,有效地推動了本課題對于口頭傳統元數據標準的完善。在進入田野驗證之前,以及在整個田野調查過程中,信息著錄的可操作性一直都是反復被討論的重要關節,而驗證相關元數據標準在田野工作中使用效度反過來也會校正乃至修正相關標準的定制。結合兩次田野驗證工作來看,課題組也從具體口頭傳統的數字化建檔實踐中形成了如下共識:(1)使用現代錄音、錄像設備的技術實踐應當納入朝向未來的口頭傳統數字化建檔的能力培訓范疇。(2)實現田野采錄和信息著錄的同步操作,在田野調查點完成相關信息著錄是口頭傳統數字化建檔的重要工作步驟。(3)田野實踐是不斷修正、補充和完善信息著錄工作規則的必要檢驗過程,同時也是口頭傳統標準體系建設過程中的必要環節。
下一步,課題組將采用國家標準研制的“三稿兩審”的標準工作流程對口頭傳統元數據進行嚴格的學術把關和質量把關,通過原型實驗系統驗證,對元數據標準方案進行修改完善,組織專家進行審核,正式發布并推廣實施。具體實驗方案包括:“以數據庫為方向”,以“重整合、易檢索”為原則,結合民文所信息化建設的實際,并以既有的“四庫五站”工作流程為基礎,搭建數據庫管理/網絡發布的測試環境,通過數據植入和整合測試元數據標準的應用效能,遴選部分音影圖文數據進行樣本化的處理、存儲、傳輸、響應、反饋等階段的測試、校驗和完善元數據標準,達成少數民族口頭傳統音影圖文資料跨媒體交互檢索的目的。
本課題的挑戰主要來自兩個方面:一是針對活形態口頭傳統田野研究的專業元數據標準建設在國內外尚無前例。課題組在標準調研中發現大多數的元數據標準是基于既有的模擬資源、數字資源或網絡資源而設定,尤其是許多標準其實是數字化標準,缺乏成熟、通用的異構數據融合管理技術;二是由科研人員個體來完成這些數據的采集、著錄和更新,所需時間成本和精力對于每一個人來說都是難以承受的。
在本課題的開題報告會上,許多專家學者提出了諸多建設性的意見①郭翠瀟:《2016年國家社會科學基金重大項目“中國少數民族口頭傳統專題數據庫建設:口頭傳統元數據標準建設”開題報告會綜述》,全國哲學社會科學工作辦公室網站:http://www.npopsscn.gov.cn/n1/2017/0418/c351660-29219028.html,訪問日期:2018-09-12。。針對著錄標準問題,中國人民大學信息資源管理學院梁繼紅提出,元數據標準建設對于這樣一個高端定位的研究型數據庫來說是非常關鍵的工作,建議用數字人文領域提供的一些知識挖掘工具來處理部分著錄工作,檔案學可以為著錄規則提供一些借鑒。中國國家圖書館“中國記憶”項目負責人田苗認為元數據標準的制定要考慮將來的應用領域以及與其他資源庫的融合,在描述著錄力度上要考慮經濟成本效率,建議項目開發移動端應用。
課題實施以來,中國人民大學安小米專門就標準方案的設計提出兩方面的書面指導意見:一是三個子課題間的邏輯結構關系待進一步斟酌,三個子課題活動目標及對象和任務不同,標準內容不同并非簡單的定制、校驗和應用關系順序關系,如何產生綜合集成整體效應?二是標準研究與一般的學術研究不同,如何將學術研究與標準工作研究統一起來確有難度;而預期成果和研究流程及方法不同,標準研究周期較長,立項時預期研究成果過多,需明確重大的關鍵性問題,尤其是對標準類知識生產有重大影響的突出性研究成果當是首當其沖的權重問題。尤其是現有國際標準如何與中國多民族、多語言、多樣態的口頭傳統資源及其體現的文化多樣性榫接,標準的適用性與適應型改進原則,新增數據元素及考慮因素,亦當涉及語言資源管理的ISO標準及中國實踐。口頭傳統數據資源作為人文學術和科研領域的特色數據確有其專業規定性。安小米還建議課題組以數字連續性管理與知識服務聯動機制構建為指導,考慮前瞻性、前沿性、先進性、實用性,標志性成果當以入庫前田野數字采集規程和入庫后著錄細則為導向;以大數據思維和手段服務科研;考量新的數字人文建構和少數民族口頭傳統的本體建構及詮釋;在新的話語規則構建中注重話語權與數據庫建設的學術倫理問題。這些建議是我們認識問題所在和采取改進措施的良策。
我們認為,參考國際FAIR(Findable,Accessible,Interoperable,Reusable)數據原則框架,建立科研型資源—特色數據—項目—事件—文本—語境—傳承人—受眾(社區、族群)—專家學者—田野協力人—研究機構—公眾社會之間的多維互動關聯,最終通過數據集建檔和可視化在線平臺對這些關系進行映射和呈現,以資源共享模式搭建動態的知識管理和分享平臺,確實是我們應當面對的挑戰。但就目前的課題實施進度和經費支持而言,尚難做到采用知識挖掘工具、開發移動端設備和建設可視化管理平臺。這些任務將納入今后的數據庫建設工作中加以實現。
在口頭傳統研究領域,科技與人文的協同攻關早有前例。埃爾默以哈佛大學“米爾曼·帕里口頭文學特藏”的歷史沿革、主要成就及晚近發展為主線,從以下三個方面討論了口頭史詩傳統的數字化建檔實踐及其在多學科研究領域的潛在應用價值:其一,技術創新與田野作業的問題導向;其二,田野資料的組織管理、數字化進程及在線數據庫的創建;其三,方法論的挑戰與建設數字語料庫的可能途徑①[美]戴維·埃爾默:《米爾曼·帕里口頭文學特藏的數字化:成就、挑戰及愿景》,李斯穎、巴莫曲布嫫譯,《民族文學研究》,2018年第2期。。其中,田野作業的問題意識與創新技術手段的學理性討論,也正是帕里留給口頭傳統數字化建檔的生動案例。課題組成員郭翠瀟對西方學界提出的“計算民俗學”(computational folkloristics)這一新概念進行了追蹤和考察②郭翠瀟:《計算民俗學》,《民間文化論壇》,2017年第6期。。坦蓋利尼(Timothy R. Tangherlini)等人認為以計算機算法為研究方法的民俗研究屬于計算民俗學;其方法論涉及民俗研究的全過程和民俗檔案的全生命周期,事關從采集、立檔、存儲、分類、索引、檢索,到呈現、利用、分析解釋乃至分析工具的開發。在信息和傳播技術高速發展的今天,“計算民俗學”無疑大有用武之地,對中國民間文學、民俗學及少數民族文學的數字化建檔和數據庫建設也有可資參考的實踐論價值。口頭傳統檔案庫建設面臨的主要問題包括但不限于以下挑戰:(1)極度缺乏兼通民俗學理論方法論和信息技術的邊界作業人才;(2)相關民俗文化資源數據庫開放程度不夠,可資利用的全文檢索語料庫不多;(3)專業元數據標準定制滯后于數據庫建設及其帶來的研究型數據質量不高;(4)人文和科技的跨學科深度融合不足,基于學科專業要求的數字人文項目缺乏。在大數據時代,這些瓶頸問題尤其是科際整合、邊界作業、數字共同體意識當引起學界和政府相關部門的重視,相關的理論方法論討論也亟待從認識論和實踐論兩個層面切實展開。
本課題是中國社會科學院和中國科學院兩個下屬專業機構首次開展正式合作,也就是我們所強調的基于功能性互補的跨學科邊界作業①這里,本文作者向課題組全體成員致謝,感謝他們的積極參與和重要貢獻,恕不一一具名。此外,還要特別感謝三位子課題負責人,他們是中國科學院計算機網絡信息中心研究員胡良霖,中國社會科學院民族文學研究所研究員吳曉東和王憲昭。。誠如朝戈金指出的那樣,“這種跨領域的合作,也體現在中國社會科學院民族文學研究所和中國科學院計算機網絡信息中心。我們發展了一個新的合作項目,要展開學科互設意義上的邊界作業,在一些方面大大推進、分步建成具有中國本土多樣化的少數民族專題數據庫。”②朝戈金:《科技在黑暗中探索,人文燭照道路》,騰訊新聞,2017-11-19。應當說,21世紀以來,以民文所引領的史詩研究在口頭傳統的學術格局中形成了全新的定位,并在本土化實踐中從偏重民間文學的文本研究走向口頭詩學的田野研究。而中國史詩學的制度化經營,口頭傳統專業化的主導原則和實踐路徑也在推動學科發展的過程中超越了既有邊界,使人文學術的知識生產呈現出跨界重組的動態圖景。③巴莫曲布嫫:《中國史詩研究的學科化及其實踐路徑》,《西北民族研究》,2017年第4期中科院課題組成員提出基于科學數據對象(SDO)進行一體化設計的完整解決方案,分別從分布式數據匯聚、集成組織管理和統一數據共享服務三個層面進行了自下而上的框架體系設計、關鍵技術研究和系統化的研發設計。④劉峰,陳昕,朱艷華,夏景隆等:《基于SDO的一體化數據匯聚、管理與服務體系建設思考與實踐》,第五屆中國科學數據大會,2018年7月24日至27日,黑河。http://dc2018.codata.cn/,訪問日期:2018年9月9日。這種體系建設思路對本課題今后的拓展也有參照價值。
從田野工作到資料搜集,從個案研究到理論闡釋,口頭傳統研究作為一個學術共同體都需要形成一個能讓大多數學者協同努力的學術范式,同時要立足于多民族的文化傳統來思考理論和方法論建構,尤其是要考慮到口頭和非物質文化遺產保護是一個系統化工程,其間學術共同體也當肩負起自己的歷史使命和學術責任。在田野基地的建設中,我們提出并實踐了與地方政府、社區、傳承人和民眾進行多元化協作的工作方式;在科研項目中,我們也同樣重視與各地學術機構和專家學者的長期合作。那么,在信息化建設中,我們的資料庫和網絡建設也同樣需要廣開思路,打破地區與機構的條塊分割,以積極、主動、平等的姿態,實現更全面、更廣泛的數字合作,從而參與知識共同體的建設。
“知識中的伙伴關系”及其重要性確實事關重大。值得述及的是,韓中日三國會議——“亞洲口傳文學檔案網絡”于2011年在韓國學中央研究院成功召開,標志著口頭傳統領域區域性知識共同體的出現。2018年5月,本課題組赴韓國訪問交流,在韓國學中央研究院、韓國國立中央博物館、韓國國立民俗博物館就口頭文學的元數據標準和數據庫建設開展了調研和座談,取得了豐厚的教益:(1)對口頭傳統專題數據庫建設的原則和技術路線有了更清晰的認識。韓國的口碑文學大系第二期歷時10年,從田野采錄到數據庫建設的每一步都形成了規范的操作指南,元數據標準貫穿始終,具有很高的借鑒價值。(2)在元數據標準定制方面,韓方的先行實踐結果表明,元數據著錄的實操可行性重要性高于元數據的“完備”,元數據項不可過于繁瑣。(3)對于專題數據庫而言,首先追求的是高質量、專業的數據而不是體量大、質量低的數據。(4)堅持開放、共享是數據庫建設的重要原則,應整合資源、打破壁壘,同時面向學術界和公眾,最大限度實現資料的價值。(5)在數字時代,應將田野調查資料首先建成數據庫,再從中甄選出一部分出版成紙質書籍。這一點對中國正在推進的很多民間文學調查出版項目極具借鑒價值。2018年10月10日至12日,韓國學中央研究院語文生活史研究所主辦的“2018年數字時代的口碑文學”國際學術會議在韓國京畿道城南市召開。來自韓國、中國、芬蘭、肯尼亞、羅馬尼亞等國的學者和碩博研究生,就“韓國口碑文學大系的數字化編纂”“數字化平臺的《韓國口碑文學大系》改訂·增補”“韓國口碑文學大系改訂·增補事業-田野調查團概要”“芬蘭的口頭傳統搜集與計算民俗學的發展”“肯尼亞的口頭文類的數字化”“羅馬尼亞的口頭文學搜集”“口頭傳統專業元數據標準定制”“作為國家記憶的口頭傳統”等8個主題展開了富有成效的研討交流;其間,本課題組“以事件為中心”的元數據標準定制方案也得到了國際同行的高度認可。
綜上所述,人文社會科學的合作在今天已經產生了新的意義。“合作”不能僅僅停留在機構之間、學者之間或機構與學者之間,“合作”也不單單是學術交流活動所能涵蓋的。舉凡涉及田野作業的學科,如民族學、社會學、人類學、民俗學等,都要面對相關的族群和社區,以及那里的民眾和他們的文化利益,參與其間的學者和機構都應思考合作與對話中的多向性互惠、學術倫理及知識共同體的社會義務。因此,在文化自主權和文化權利保護的向度上講,我們也應該爭取更廣泛的社會參與。那么,在學術共同體與知識共同體之間,我們需要構建“數字共同體”,才能在非物質文化遺產保護工作中形成合力,在信息化建設中發展知識生產的協作伙伴關系,創建新型的信息共享模式。
我們認為,至關重要的問題是研究范式的轉換和知識觀念的更新。通過“數字共同體”重建口頭傳統研究的“知識共同體”就要思考“為什么”和“怎么樣”的問題,而不僅僅只是在文化屬性上界定“是什么”的問題,這正是學術共同體的任務。自1980年建所以來,民文所學者在一些重要的口頭文類及其文化傳承方面做出了IEL這個學術共同體應有的努力和貢獻;老中青三代學者的探索在某種意義上也揭示了中國口頭傳統的差異性、多樣性和復雜性。由此,我們深感任何一個單獨的研究機構及其學術力量都顯然不足以勝任對之進行縱深的全面搜集、保存、保護和研究。但是,正是這種實際工作中的“距離”給IEL與CNIC兩個團隊留下了創造性的空間,那就是按照“資料庫/基地/網絡”三位一體的發展規劃,逐步構建中國少數民族文學研究的“數字共同體”,以制度化的科際合作和邊界作業拓展出空間更為廣闊的知識共同體。誠然,除了具體的技術問題、民間文化知識產權問題、知識生產的學術倫理問題,以及信息化標準問題需要慎重應對之外,我們面對的核心挑戰便是創造一種新型的知識生產觀念——構建口頭傳統信息的公共領地,使之成為維系世界文化多樣性和人類創造力的共享資源和共同財富。那么,從“學術共同體”到“數字共同體”再到“知識共同體”,其間的距離并非一步之遙;在科技與人文深度融合的今天,基于“數字共同體”的“邊界作業”更應發揮其不可或缺的關鍵作用。