臧國全,王秀娟,李 哲(鄭州大學 .信息管理學院;.公共管理學院)
可理解性是指針對保存的數字對象,保存系統的目標用戶群體能夠理解其內容。[1]理解方式有三種。
(1)基于結構信息的概略理解。[2]比如,數字對象的標題、作者信息、出版信息等有助于用戶了解數字對象的基本范疇,而這些信息都是用于描述數字對象的內部構成。再如,一件數字對象與其他多件數字對象存在關聯,前者可稱為中心數字對象,后者可稱為關聯數字對象,后者圍繞前者形成了一個數字對象的網狀結構。其中,中心數字對象與關聯數字對象之間的結構有多種,如整體部分結構、同位結構、依賴結構等,這些結構以及由結構關聯的數字對象也有助于用戶概略理解中心數字對象的內容。
(2)基于語義信息的精確理解。當對數字對象的內容無法準確理解時,保存系統應提供附加信息幫助用戶理解。這些附加信息被稱為語義信息。語義信息可分為整體式語義信息和知識點式語義信息,前者用于整體理解數字對象內容所需的附加信息,后者用于理解數字對象中知識點內容所需的附加信息。
(3)基于展現信息的識別理解。數字對象只有展現出來方可被用戶識別理解。使用瀏覽軟件可對數字對象進行展現瀏覽;使用解碼工具對編碼數字對象解碼后進行展現瀏覽;使用信息摘要檢驗數字對象的真實性后進行展現瀏覽。
基于理解方式,影響用戶理解數字對象的因素包括以下幾方面。
(1)數字對象的內部組成結構不完整。比如主要部分缺失,或因數字轉化過程導致、或因原始文獻殘缺導致、或因原生型數字資源本身問題導致的缺失,會妨礙用戶從數字對象內部結構角度對數字對象的概要理解。
(2)數字對象與保存的其他數字對象之間關聯結構識別不完整,或識別出現偏差,或結構類型界定錯誤,導致以被理解數字對象為中心的關聯數字對象構成的結構網絡存在缺陷,妨礙用戶從數字對象之間關聯結構角度對數字對象的概要理解。
(3)用于用戶理解數字對象整體內容所需的附加信息,保存系統識別不夠全面,或與數字對象之間相關度欠佳。原因可能是保存系統對目標用戶群體界定不夠清晰,或對目標用戶群體的知識儲備識別不夠準確,影響用戶利用附加信息幫助理解數字對象的整體內容。
(4)用于用戶理解數字對象中知識點所需的附加信息,保存系統識別不夠準確,或不夠全面,或已遭到破壞,影響用戶利用附加信息幫助理解數字對象的知識點。
(5)用于幫助用戶準確理解數字對象的整體內容或知識點所需的附加信息無法有效瀏覽,或瀏覽效果存在瑕疵,影響用戶對這些附加信息的準確使用,從而可能降低用戶對數字對象整體內容或知識點的理解。
(6)數字對象無法瀏覽,或瀏覽效果不佳,導致用戶無法有效識別數字對象,從而無法理解數字對象。
(7)經過編碼的數字對象無法還原,導致用戶無法瀏覽、識別數字對象,致使數字對象失去可理解性。
(8)保存系統的一些保存操作導致數字對象改變,這些改變可能影響用戶對數字對象內容的理解。
上述類型(1)和類型(2)的風險將影響可理解性涵義中的第一種理解方式;類型(3)-類型(5)的風險將影響可理解性涵義中的第二種理解方式;類型(6)-類型(8)的風險將影響可理解性涵義中的第三種理解方式。
總之,可理解性風險主要存在于數字對象的內部結構、數字對象的關聯結構建立、用于用戶理解數字對象所需附加信息的識別、保存系統對目標用戶群體及其知識儲備的界定、數字對象有效識別和瀏覽、保存系統實施保存活動對數字對象的影響等方面。
這類元數據有助于理解數字對象內容的數字對象方面的屬性,以及幫助用戶理解數字對象內容所需的附加信息,是數字對象的可理解性風險的檢測點。這些屬性和附加信息的缺失,將影響數字對象的可理解性。
(1)數字對象唯一標識符,[3]用于識別被檢測的數字對象。如果數字對象沒有被賦予唯一標識符,則無法被保存系統識別,也就無法進行可理解性風險檢測。該元數據不作為可理解性風險的檢測點。
(2)數字對象類型,用于過濾不被檢測的數字對象。在所有類型的數字對象中,比特流和知識實體不具可理解性,所以,檢測之前,需通過該元數據將這兩類數字對象過濾掉。該元數據也不作為可理解性風險的檢測點。
(3)數字對象內部結構信息,指數字對象內部的基本組成部分。內部結構信息依據數字對象的類型不同而有所區別。如,會議文獻的內部結構信息有會議名稱、篇名、作者、摘要、正文、參考文獻、基金、論文集名稱等;專利文獻的內部結構信息有專利名稱、申請號、公開號、申請人、發明人、正文、參考文獻等。內部結構信息有助于用戶對數字對象的大概判斷和了解,這類信息的錯誤可能會導致用戶對數字對象的概要了解偏差,這類信息的缺失可能會導致用戶對數字對象的概要了解困難。因此,這類信息是數字對象可理解性風險的檢測點。
蔭元素。(a)數字對象的類型。(b)內部結構信息的名稱。(c)內部結構信息的內容。
蔭檢測項目。(i)基于元素(a)描述的數字對象類型,檢查保存政策中對應的內部結構信息列表,當出現不一致情況,輸出風險。(ⅱ)檢查元素(b)和(c)描述的正確性,可與數字對象直接對比實現,當出現描述值與實際值不一致的情況,輸出風險。
(4)數字對象外部結構信息,指數字對象與保存系統中的其他數字對象之間的結構描述。如,網站對象與其包括的各個網頁對象之間呈現包含結構,同一網站對象內所包含的各個網頁對象之間呈現同位結構。因此,保存系統中,一件數字對象及與其存在關聯的其他數字對象就形成一個網狀結構。該結構中,中心數字對象是檢測對象,其他數字對象為節點對象。呈現各節點數字對象以及每個節點數字對象與中心數字對象之間的結構,有助于用戶對中心數字對象的概要理解。節點數字對象的缺失可能會降低用戶對中心數字對象的可理解性。同樣,節點數字對象與中心數字對象之間結構的描述錯誤也可能會導致用戶對中心數字對象的理解偏差。因此,外部結構信息是數字對象可理解性風險的檢測點。
蔭元素。(a)節點對象的標識符。(b)中心數字對象與節點數字對象之間的結構描述。
蔭檢測項目。(i)檢查元素(a)和元素(b)的內容,任一元素無描述值,都無法完整構建中心數字對象的外部結構信息,影響用戶對中心數字對象的可理解性,輸出風險。(ⅱ)檢查中心數字對象與節點數字對象的實際結構,比較實際結構與元素(b)描述結構的一致性,當兩者出現偏差時,節點數字對象可能無助于用戶對中心數字對象的理解,輸出風險。
(5)整體式語義信息。整體理解一件數字對象內容所需的附加材料,是數字對象可理解性風險的檢測點。它包括:單維整體式語義信息和多維整體式語義信息。
單維整體式語義信息。整體理解一件數字對象,只需一件附加材料提供幫助,該附加材料稱為單維整體式語義信息。如,一篇研究《紅樓夢》的文獻,如果用戶沒有《紅樓夢》的知識背景就不太容易理解其內容,故需參考《紅樓夢》原著,這樣,后者就成了前者的可理解性的單維整體式語義信息。另外,一件數字對象中,沒有加注定點標注的單項參考文獻也是該數字對象可理解性的單維整體式語義信息。
多維整體式語義信息。整體理解一件數字對象,需多件附加材料從不同的角度提供幫助,這些附加材料稱為多維整體式語義信息。如,《蒙娜麗莎》是一件藝術品,對該作品的所有研究成果都有助于用戶對該作品的理解,因此,這些研究成果構成了該藝術作品的可理解性的多維整體式語義信息。另外,一件數字對象中,沒有加注定點標注的多項參考文獻也是該數字對象可理解性的多維整體式語義信息。
實際上,任何一個保存系統都有一個特定的目標用戶群體。該群體的成員中,有的由保存系統構建和維護的資金提供者指定,有的由數字資源提交者指定,還有的由保存系統根據其服務政策界定。不同保存系統的目標用戶群體不一樣,甚至存在很大差異,這種差異不僅表現在目標用戶群體的大小上,還表現在目標用戶群體的構成上。不同用戶群體具備的知識儲備不同,有時,理解一件數字對象所需的語義信息很多,保存系統只需保存目標用戶群體知識儲備之外的語義信息,所以,針對一件保存到不同保存系統中的數字對象,保存系統應該提供的語義信息也不同。另外,用戶的知識儲備也會隨著時間的推移而變化,針對一個保存系統,即使目標用戶群體沒有發生變化,理解數字對象所需的語義信息也會隨著時間的推移而不同。所以,既不存在一個適合所有保存系統的語義信息提供的通用方案,也不存在適合一個特定保存系統中各個時期的通用方案。因此,語義信息的提供方案是具體保存系統的決策和實施問題。
蔭元素。(a)語義信息名稱。(b)語義信息獲取的方式,包括唯一標識符和鏈接。(c)語義信息獲取的值,包括唯一標識符的值(若類型為唯一標識符)和URL(若類型為鏈接)。(d)語義信息的最佳瀏覽工具,語義信息也是一種類型的文件,用戶的使用必須借助瀏覽工具,包括瀏覽工具名稱和版本。
蔭檢測項目。針對一件數字對象,很難判斷保存系統提供的語義信息的全面性,只能判斷其相關性,所以無法檢測全面性,僅檢測相關性。(i)檢查前三個元素,若任一內容缺失,要么語義信息缺失名稱,要么無法找出具體的語義信息,輸出風險。(ii)檢查基于元素(b)和元素(c)析出的語義信息與檢測數字對象的相關性,若不相關,提供的語義信息無助于用戶對檢測數字對象的理解,輸出風險。(iii)析出語義信息存在的文件格式,在保存政策中找出該格式對應的最佳瀏覽工具,再與元素(d)描述的瀏覽工具比較,若不一致,將導致用戶不能瀏覽語義信息或瀏覽效果有瑕疵,致使語義信息無法為理解數字對象提供幫助或幫助效果欠佳,輸出風險。
(6)知識點式語義信息。理解數字對象中一個知識點所需的附加材料,是數字對象可理解性風險的檢測點。包括單維知識點式語義信息和多維知識點式語義信息。
單維知識點式語義信息。理解數字對象中一個知識點,只需一件附加材料,該附加材料為單維知識點式語義信息。如,一篇文獻中包含一個概念,而文獻本身并沒有對該概念給予解釋,如果用戶不具備該概念的知識儲備,就需在百科全書中找到該概念的詞條,該詞條就是該知識點的可理解性的單維知識點式語義信息。
多維知識點式語義信息。理解數字對象中一個知識點,需多件附加材料,這些附加材料為多維知識點式語義信息。比如,一件數字對象中,針對一個知識點標注的多項參考文獻,這些參考文獻就構成了該知識點的可理解性的多維知識點式語義信息。
知識點式語義信息的風險型元數據元素設置和檢測項目的設置與整體式語義信息基本相同。但在檢測項目(ⅱ)中,相關性判斷的對象是檢測數字對象中的一個知識點,不是整個數字對象。
(7)最佳瀏覽軟件。有些情況下,一種格式文件可通過多種軟件瀏覽,但有時瀏覽效果不完全一樣,應選擇最佳軟件;當最佳軟件有多款時,應都予以記錄。如果該元素描述的軟件無法打開被檢測的數字對象,或雖可打開但瀏覽效果不是最佳,那么,該數字對象對用戶來說不可瀏覽使用,更不具可理解性,或瀏覽效果欠佳,影響用戶理解。所以,瀏覽軟件是數字對象可理解性風險的一個檢測點。
實際上,對于大多數類型的數字對象,格式都是常用的,一般用戶都知曉也容易獲得這些格式的最佳瀏覽軟件。但是也有一些格式是專用的,瀏覽所需軟件也是專用的,如,CAJ是專用格式,瀏覽軟件是Cajviewer專用工具,這類瀏覽軟件需描述和保存,以便需要時用戶獲取。為了便于統一,該元數據可設置為必備元數據,無論是常用格式還是專用格式,最佳瀏覽軟件均需描述。
蔭元素。(a)軟件名稱。(b)軟件版本。
蔭檢測項目。析出被檢測數字對象的文件格式,在保存政策中找出該格式的最佳瀏覽軟件,與元素(a)和元素(b)描述的軟件對比。若不一致,可能是因描述出現問題,或長期保存過程中保存系統實施了某項保存活動(如數字遷移),導致數字對象格式發生了變化,但該元數據的描述內容沒有及時更新,導致瀏覽軟件難以勝任數字對象的有效呈現,輸出風險。
(8)還原信息。[4]如果數字對象是一個壓縮包或加密文件,無法直接呈現,用戶也無法瀏覽,更談不上理解。此時需要實施還原操作,還原過程所需的信息(比如密碼、還原工具等)稱為還原信息。如果還原信息錯誤,導致還原過程無法完成,或雖完成但出現偏差,致使無法獲得原始文件,也無法瀏覽,更無法理解。所以,還原信息是數字對象的可理解性風險的檢測點。
蔭元素。(a)還原級數,如果數字對象需要多次還原方能獲得原始文件,記錄每次還原的級數,原始文件的還原級數為0。(b)還原工具,每次還原所需的軟件工具。(c)還原密碼,每次還原操作所需的密碼,若無密碼,記錄為“無”。當還原級數大于1時,需要分別記錄每個級數的還原工具和還原密碼。
蔭檢測項目。(i)依據元素(a)和元素(b),檢查每一級數的還原工具,若還原工具記錄缺失,導致在該級數上可能無法實施還原操作,輸出風險。(ii)依據元素(a)和元素(c),檢查每一級數的還原密碼,若缺失,在該級數上無法實施還原操作(因為根據標引規則,即使無密碼,元素(b)的內容也應記錄為“無”),輸出風險。(iii)析出數字對象,依據元素(a)、元素(b)和元素(c)的內容,依次檢查每一級別的還原工具的適用性和還原密碼的正確性,當任一還原操作無法完成時,輸出風險。
(9)信息摘要。當數字對象的內容發生變化時,也會影響用戶對其的理解。判斷數字對象在長期保存過程中因為一些保存活動的執行而導致其是否發生改變的一種可信任方法是信息摘要的使用。[5]因此,信息摘要可作為一種手段來判斷數字對象的可理解性是否發生了風險。
蔭元素。(a)摘要算法,數字對象被收錄到保存系統時對其進行摘要計算所使用的算法。(b)摘要值,數字對象被收錄到保存系統時對其進行摘要計算的執行結果。
蔭檢測項目。(i)析出數字對象,按照元素(a)描述的摘要算法對其重新計算摘要,將重新計算的結果與元素(b)的描述內容對比,當不一致時,數字對象已經發生了變化,產生可理解性風險,輸出風險。(ii)檢查元素(a)的值和元素(b)的值,當前者沒有值時,無法重新計算數字對象的摘要;當后者沒有值時,雖可重新計算數字對象的摘要,但與之對比的原始摘要值缺失。這兩種情況都無法判斷數字對象是否發生了改變,輸出風險。
保存系統實施的影響數字對象可理解性的保存活動是可理解性風險的檢測點。
(1)外部結構判定。在數字對象被收錄到保存系統之時,保存系統執行該保存活動,建立被收錄數字對象的外部結構信息。該事件是否被執行以及執行的結果將直接影響數字對象方面的可理解性風險型元數據中的第4個元素內容的賦值。若沒有執行,數字對象的外部結構網絡無法建立,輸出風險。
(2)摘要計算。保存系統收錄數字對象時,實施摘要計算,形成信息摘要,為以后固定性檢測提供依據。該事件是否被執行將直接影響數字對象方面的可理解性風險型元數據中的第9個元素內容的賦值。若沒有執行,數字對象的信息摘要無法建立,輸出風險。
(3)語義信息識別。在數字對象被收錄到保存系統之時,保存系統執行該保存活動,建立被收錄數字對象的語義信息。該事件是否被執行以及執行的結果將直接影響數字對象方面的可理解性風險型元數據中的第5個元素和第6個元素內容的賦值。若沒有執行,保存系統不提供理解數字對象所需的附加信息,輸出風險。
(4)病毒檢測。數字對象一旦遭到計算機病毒損壞,可能會造成其內容的篡改或不可用,影響數字對象的可理解性。因此,病毒檢測需按保存政策規定實施;否則,輸出風險。
(5)介質刷新。用來存放數字對象的存儲介質如果損壞或者過期,數字對象可能不能正常讀取,影響其可理解性。因此,介質刷新需按保存政策規定實施;否則,輸出風險。
(6)遷移事件。數字對象格式過時,用戶無法正確讀取數字對象內容,影響數字對象的可理解性。因此,遷移事件需按保存政策規定實施;否則,輸出風險。
保存系統設置的一些指標用于可理解性風險型元數據的檢測基準,但不作為可理解性風險的檢測點。
(1)內部結構信息列表。保存系統根據不同類型數字對象的特征,界定每種類型數字對象所包含的內部結構信息,用于第一類元數據的第3個元素的檢測項目 (i)。
(2)最佳瀏覽工具判定。保存系統根據瀏覽工具對相應格式數字對象的支持程度,選擇出的最佳瀏覽工具和版本,用于第一類元數據的第5個元素的檢測項目(iii)和第7個元素的檢測項目。
(3)病毒檢測周期。病毒檢測的頻率設置,用于保存事件中的病毒檢測事件的風險檢測。
(4)介質刷新頻率。介質刷新的頻率設置,用于保存事件中的介質刷新事件的風險檢測。
(5)遷移準確率。數字對象遷移前后內容沒有發生改變部分占遷移前數字對象整個內容的比率,用于保存事件中的遷移事件的風險檢測。
樣本數據來自“中國知網”。為便于實驗操作和結果的展示,界定相關術語見表1。
3.2.1 數字對象樣本集的形成
數字對象樣本來源:中國知網。樣本總量:1萬件。采集方法:分層隨機抽樣法。采集步驟如下所示。
(1)構建樣本單元。樣本單元是指在時間區間、文獻類型、學科三個維度的交集點上數字對象集合,可表示為:{TDi,CDj,SDk}(i∈ [1,7],j∈ [1,9],k∈[1,8])。因此,樣本單元總數:7×9×8=504個。
(2)計算樣本單元的樣本抽取量。公式:SES{TDi,CDj,SDk}=TS{TDi,CDj,SDk}÷TT×ST。其中:SES代表樣本單元的樣本抽取量;TS代表樣本單元的數字對象總量,可根據樣本單元中的時間區間、文獻類型和學科構建檢索條件,檢索獲得;TT代表中國知網中的數字對象總量,可由將上述計算的各個樣本單元的數字對象總量求和獲得;ST代表設定的樣本總量。

表1 術語界定表
(3)樣本單元中的樣本抽取。首先,檢索獲得樣本單元的數字對象集合,檢索條件構建同上述樣本單元的數字對象總量計算中的檢索條件。其次,在檢出的樣本單元數字對象集合中,簡單隨機抽取上述計算出的樣本單元抽取數量(SES)的數字對象序號。再次,依次套錄對應序號的數字對象,形成樣本單元的數字對象抽取樣本。最后,采用上述步驟,依次獲得各樣本單元的數字對象樣本,形成數字對象的總樣本。
3.2.2 可理解性風險型元數據內容的形成
首先,本研究的合作單位中國知網幫助提供數字對象樣本集的相關元數據的賦值內容,主要包括描述型、管理型和保存型三類元數據。其次,對采集的每件數字對象的可理解性風險型元數據元素的內容賦值,若有對應元素或相似元素,直接套錄自上述三類元數據中對應元素的內容,若無對應元素或相似元素,則無賦值。因此,可理解性風險型元數據元素的賦值真實地反映了樣本數字對象的可理解性風險狀態。
基于數字對象樣本集的維度屬性,設計各類檢測算法的描述(見表2)。
3.4.1 零維度檢測結果
執行檢測算法中的零維度檢測算法,檢測結果的可視化形式見圖1。

表2 檢測算法描述

圖1 零維度檢測結果
數字對象樣本在可理解性風險型元數據上風險值較 高 的 檢 測 點 依 次 為 : CP1、 CP2、 CP3、 CP4、 CP8、CP10。
3.4.2 單維度檢測結果
(1)TD的單維度檢測。執行TD(時間維度)單維度檢測算法,檢測結果的可視化形式見圖2,描述形式見表3中TD單維度檢測結果的風險點分布{TDi}部分。

圖2 TD單維度檢測結果
(2)CD的單維度檢測。執行CD(文獻類型維度)單維度檢測算法,檢測結果的可視化形式見圖3,描述形式見表3中CD單維度檢測結果的風險點分布{CDj}部分。

表3 單維度檢測結果

圖3 CD單維度檢測結果
(3)SD的單維度檢測。執行SD(學科維度)單維度檢測算法,檢測結果的可視化形式見圖4,描述形式見表3中SD單維度檢測結果的風險點分布{SDK}部分。

圖4 SD單維度檢測結果
3.4.3 雙維度檢測結果
(1){TD,CD}的雙維度檢測。檢測結果見表4中的第2列。
(2){TD,SD}的雙維度檢測。檢測結果見表4中的第3列。
(3){CD,SD}的雙維度檢測。檢測結果見表4中的第4列。

表4 雙維度檢測結果
3.4.4 三維度檢測結果
{TD,CD,SD}三維度檢測。檢測結果見表5。

表5 三維度檢測結果
基于上述實驗結果,分析得出可理解性主要風險點及其產生的主要數字對象集合如下。
(1)數字對象內部結構信息。集中在{TDi,CDj,SDk}(i={1,2},j=1,k∈ [1,8]),即 1995年之前所有學科的期刊文獻之中。可能原因在于,數字掃描是1995年之前期刊文獻采用的數字轉換主要方式,掃描結果為圖片格式。故,數字對象的內部結構信息難以自動析出,需人工提取,導致該元素可能無賦值內容或賦值內容出現偏差。規避和降低該風險點產生的風險概率的方法是:保存系統對該數字對象集合中每件數字對象,人工提取、補充和核實其內部結構信息,賦值到該風險型元數據元素中。
(2)數字對象外部結構信息、外部結構判定事件。這兩個風險點均主要集中在{TDi,CDj,SDk}(i={6,7},j={1,2,3},k={1,5,6}),即 2011年之后基礎學科、哲學與人文學科和社會科學的期刊、碩博論文和會議論文。可能的原因是,保存系統收錄該集合數字對象時,沒有執行外部結構判定事件,導致中心數字對象與節點數字對象之間的結構描述缺失或出現偏差。規避和降低這兩個風險點產生的風險概率的方法是:保存系統對該集合中每件數字對象,識別與之關聯的保存系統中其他數字對象,并進行關聯類型界定,賦值到上述相關風險型元數據元素中。
(3)整體式語義信息、知識點式語義信息、語義信息識別事件。主要集中在{TDi,CDj,SDk}(i={6,7},j={1,2,3},k={5,6}),即 2011年之后哲學與人文學科和社會科學的期刊、碩博論文和會議論文。可能的原因是,保存系統收錄該集合數字對象時,沒有執行語義信息識別事件,導致用于理解數字對象和知識點的相關附加材料缺失。規避和降低這三個風險點產生的風險概率的方法是:保存系統針對該集合中每件數字對象,識別和補充相關輔助資料,賦值到上述相關風險型元數據元素中。
本研究在界定可理解性涵義的基礎上,設計可理解性風險元數據,并基于元數據構建可理解性風險的檢測方法。因此,可理解性風險型元數據的科學性決定了數字保存可理解性風險檢測方法的可靠程度。所以,完善該類風險型元數據是后續研究的一項內容。