999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數(shù)字保存的可用性風(fēng)險檢測*

2018-05-24 11:10:35臧國全臧弘毅
圖書館 2018年5期
關(guān)鍵詞:用戶檢測

臧國全 臧弘毅 李 哲

(1 鄭州大學(xué)信息管理學(xué)院 鄭州 450001;2 鄭州大學(xué)公共管理學(xué)院 鄭州 450001)

1 可用性及其風(fēng)險類型

可用性指目標(biāo)用戶群體所需的數(shù)字對象被保存系統(tǒng)收錄,并在長期保存過程中對其適時實(shí)施必要的保存活動,使其處于持續(xù)的可用狀態(tài)。為此,保存系統(tǒng)需制定合適的收錄政策,確保對目標(biāo)用戶群體具有長期使用價值的數(shù)字對象得到收錄;與產(chǎn)權(quán)擁有者或數(shù)字對象提交者簽署許可協(xié)議,獲取受產(chǎn)權(quán)保護(hù)的數(shù)字對象的保存使用權(quán)和傳播權(quán);提供充足的檢索點(diǎn),滿足目標(biāo)用戶群體的各種檢索需求;給予數(shù)字對象的合理描述和管護(hù),被目標(biāo)用戶群體發(fā)現(xiàn);提供最佳的瀏覽環(huán)境,確保用戶有效瀏覽使用;實(shí)施必要的保存活動,使長期保存過程中遭到損壞的數(shù)字對象得到有效維護(hù)。

可用性風(fēng)險指保存系統(tǒng)影響數(shù)字對象可用性的因素。歸納起來,有下述類型:

(1)數(shù)字對象沒有被收錄,致使用戶無法使用??赡茉蛴校翰辉诒4嬲叩氖珍浄秶粩?shù)字對象有產(chǎn)權(quán)限制,保存系統(tǒng)無法獲得保存許可;獲得保存許可成本過高,保存系統(tǒng)無法承擔(dān);數(shù)字對象收錄者有意無意的疏忽。這類可用性風(fēng)險,在本文設(shè)計的檢測方法中不予檢測,因?yàn)樵摲椒ǖ臋z測對象是保存系統(tǒng)已收錄的數(shù)字對象。

(2)數(shù)字對象雖被收錄,但無法被目標(biāo)用戶群體檢索到。可能原因有:檢索點(diǎn)設(shè)置不充分,導(dǎo)致從未設(shè)置檢索點(diǎn)的檢索需求無法找到數(shù)字對象;數(shù)字對象唯一標(biāo)識符沒有賦值,導(dǎo)致無法識別數(shù)字對象;數(shù)字對象存儲位置沒有賦值,導(dǎo)致無法獲取數(shù)字對象;受產(chǎn)權(quán)保護(hù)的數(shù)字對象,未獲得授權(quán)許可的用戶無法訪問;保存系統(tǒng)執(zhí)行“去索引”事件(Deaccession Event),導(dǎo)致數(shù)字對象雖在存儲系統(tǒng)中但用戶無法發(fā)現(xiàn)。

(3)目標(biāo)用戶群體雖能檢索到,但無法有效瀏覽和使用??赡茉蛴校航?jīng)過編碼的數(shù)字對象無法有效還原,導(dǎo)致難以瀏覽;文件系統(tǒng)不能被操作系統(tǒng)識別,導(dǎo)致數(shù)字對象不能被讀??;瀏覽軟件不能支持最佳效果瀏覽,導(dǎo)致瀏覽結(jié)果出現(xiàn)瑕疵;操作系統(tǒng)不支持瀏覽軟件的運(yùn)行,導(dǎo)致數(shù)字對象無法瀏覽;邏輯保存功能缺失,導(dǎo)致數(shù)字遷移無法實(shí)施,致使格式過時的數(shù)字對象不能被持續(xù)使用。

(4)長期保存過程中,數(shù)字對象無法被用戶繼續(xù)使用??赡茉蛴校河捎诓豢煽咕芤蛩貙?dǎo)致數(shù)字對象被不可逆轉(zhuǎn)地毀壞;存儲介質(zhì)遭到破壞,導(dǎo)致數(shù)字對象部分甚至全部無法繼續(xù)使用;刪除事件被執(zhí)行,導(dǎo)致數(shù)字對象從存儲系統(tǒng)中消失。

2 可用性的風(fēng)險點(diǎn)設(shè)置

依據(jù)可用性風(fēng)險的類型,可從下述四個方面設(shè)置可用性的風(fēng)險點(diǎn)。

2.1 數(shù)字對象方面的可用性風(fēng)險點(diǎn)

(1)數(shù)字對象標(biāo)識符(Object Identifier)。用于數(shù)字對象的識別。若該標(biāo)識符內(nèi)容缺失,雖保存系統(tǒng)已收錄,但無法找到具體數(shù)字對象,用戶仍不可使用,也無法實(shí)施下述風(fēng)險點(diǎn)的檢測。

(2)數(shù)字對象類型(Object Category)。有知識實(shí)體、表現(xiàn)、文件、比特流。用戶的使用是通過瀏覽實(shí)現(xiàn)的,只有表現(xiàn)和文件可被瀏覽,所以可用性僅限于表現(xiàn)和文件兩類數(shù)字對象。作用是篩選可用性風(fēng)險檢測的數(shù)字對象。

(3)檢索點(diǎn)信息(Retrieval Point Information)。向用戶提供數(shù)字對象被發(fā)現(xiàn)的途徑的描述。包括:①數(shù)字對象的文獻(xiàn)類型,如期刊論文、專利文獻(xiàn)等。②檢索點(diǎn),不同類型文獻(xiàn)的檢索點(diǎn)設(shè)置不同,有的差別很大,如專利文獻(xiàn)的檢索點(diǎn)有申請?zhí)?、公開號等,碩博論文的檢索點(diǎn)有導(dǎo)師、學(xué)位授予單位等。③檢索方式,有兩種,一是全文掃描,如檢索點(diǎn)為全文、參考文獻(xiàn)的檢索方式;二是基于索引,如檢索點(diǎn)為關(guān)鍵詞、作者的檢索方式。④賦值內(nèi)容,有兩種,一是針對檢索方式為全文掃描的,無需賦值;二是針對檢索方式為索引的,需自動從文獻(xiàn)中抽取或人工賦值??刹捎弥貜?fù)上述元素的方式描述具有多個檢索點(diǎn)信息的數(shù)字對象。

用戶能檢索到,則數(shù)字對象具有可用性,否則,不具有可用性。但是,影響用戶能否檢索到的因素有很多,主要有兩個:①用戶個體差異,這種差異主要體現(xiàn)在用戶的構(gòu)成復(fù)雜、檢索行為多樣、檢索技能參差不齊等。一般來說,綜合性保存系統(tǒng)的目標(biāo)用戶群體有多個,所以,針對一件數(shù)字對象,有些用戶能找到,有些用戶找不到,屬正常現(xiàn)象。②保存系統(tǒng)提供的檢索點(diǎn),業(yè)已存在的保存系統(tǒng)提供的檢索點(diǎn)不完全一致,除了一些常規(guī)的檢索點(diǎn)外(如作者、關(guān)鍵詞等),還有一些不太常用的檢索點(diǎn)。如果一個用戶習(xí)慣于某一檢索點(diǎn),而保存系統(tǒng)的檢索界面不提供這個檢索途徑,那么,對該用戶來說保存系統(tǒng)中數(shù)字對象的可用性就低。因此,一件數(shù)字對象是否可用因人而異,純粹從用戶角度,很難制定一個指標(biāo)判斷其是否可用。

檢測項(xiàng)目:①根據(jù)數(shù)字對象的文獻(xiàn)類型,對比保存政策中該類型數(shù)字對象應(yīng)設(shè)置的檢索點(diǎn)與“檢索點(diǎn)”元素的內(nèi)容(即保存系統(tǒng)實(shí)際設(shè)置的檢索點(diǎn))。若不完全相同,產(chǎn)生風(fēng)險,如標(biāo)準(zhǔn)文獻(xiàn),若保存政策中設(shè)置的檢索點(diǎn)有起草人,而該類文獻(xiàn)的檢索點(diǎn)信息中沒有設(shè)置起草人檢索點(diǎn),那么用戶從起草人角度就無法找到該類數(shù)字對象。②若基于索引的檢索點(diǎn)沒有賦值內(nèi)容,用戶從該檢索點(diǎn)找不到數(shù)字對象。③若基于索引的檢索點(diǎn)的賦值內(nèi)容出現(xiàn)錯誤,也找不到所需的數(shù)字對象。上述三種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

(4)文件系統(tǒng)(File System)。保存數(shù)字對象的存儲設(shè)備組織文件方法的描述,由操作系統(tǒng)建立。同類存儲設(shè)備,不同操作系統(tǒng)建立的文件系統(tǒng)可能不同,如磁性存儲設(shè)備,Window建立的文件系統(tǒng)是FAT或NTFS,Linux建立的是EXT,Solaris建立的是ZFS,UNIX建立的是UFS。因此,一種文件系統(tǒng)可以被多種操作系統(tǒng)識別,如ExFAT文件系統(tǒng)可以被Windows CE 6、Vista SP1、Windows8識別,一種操作系統(tǒng)可識別多種文件系統(tǒng),如 Linux可識別 EXT、XFS、ReiserFS、Ext3文件系統(tǒng)。但是,一種文件系統(tǒng)不可能被所有操作系統(tǒng)識別,同樣,一種操作系統(tǒng)也不可能識別所有文件系統(tǒng)。

檢測項(xiàng)目:①檢測保存系統(tǒng)的操作系統(tǒng)對該風(fēng)險點(diǎn)賦值的支持情況,若不支持,數(shù)字對象無法讀取。②該風(fēng)險點(diǎn)內(nèi)容為空,無法識別讀取數(shù)字對象所需的操作系統(tǒng)。③該風(fēng)險點(diǎn)內(nèi)容賦值錯誤,導(dǎo)致基于該風(fēng)險點(diǎn)內(nèi)容識別出的文件系統(tǒng)選擇的操作系統(tǒng)可能無法讀取數(shù)字對象。上述三種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)風(fēng)險。

(5)瀏覽軟件信息(Browsing Software Information)。瀏覽數(shù)字對象(未壓縮和未加密)所需的應(yīng)用軟件及其運(yùn)行環(huán)境和瀏覽效果的描述。數(shù)字對象文件格式有通用(源代碼公開)和專用(源代碼不公開),有些保存系統(tǒng)為了便于用戶使用將收錄數(shù)字對象的格式統(tǒng)一為一種通用格式(如PDF),有些為了保護(hù)產(chǎn)權(quán)設(shè)計使用一種專用格式(如CAJ),還有些為了確保數(shù)字對象的真實(shí)性完全保留原始格式,因此,一個保存系統(tǒng)可能需要多種瀏覽軟件。包括:軟件名稱、軟件版本、軟件生產(chǎn)日期、軟件生產(chǎn)商、運(yùn)行的最佳操作系統(tǒng)、瀏覽效果(最佳、可以、無法判斷)等。

檢測項(xiàng)目:①檢查“瀏覽效果”元素的賦值,若不是“最佳”,數(shù)字對象可用性可能受到影響;②檢查“運(yùn)行的最佳操作系統(tǒng)”元素的內(nèi)容與保存系統(tǒng)運(yùn)行的操作系統(tǒng)是否相符,若不相符,瀏覽結(jié)果可能出現(xiàn)瑕疵。上述兩種情況均歸為在該風(fēng)險點(diǎn)出現(xiàn)的風(fēng)險。

(6)保存級別(Preservation Level)。為實(shí)現(xiàn)數(shù)字對象的可用性而設(shè)置的保存功能。包括:①保存級別類型,分為“比特保存”和“邏輯保存”兩種,前者用于描述實(shí)現(xiàn)數(shù)字對象可用性的物理安全保障,后者用于描述實(shí)現(xiàn)數(shù)字對象可用性的用戶瀏覽保障。②保存級別值,針對前者,取值有:低、中、高,“低”表示僅進(jìn)行常規(guī)本地同步備份,“中”表示兩個同步異地(距離不作要求)備份且存儲在不同介質(zhì)上,“高”表示至少五個同步異地(有距離要求)備份且存儲在不同介質(zhì)上,以保障數(shù)字對象的恢復(fù)能力;針對后者,取值有:遷移、仿真,以保障數(shù)字對象的用戶持續(xù)使用能力。

檢測項(xiàng)目:①若類型為“比特保存”,值為“低”,則數(shù)字對象遭到破壞時可能無法通過備份進(jìn)行恢復(fù);②若類型為“邏輯保存”,值為空,則過時格式的數(shù)字對象無法被繼續(xù)使用。上述兩種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

(7)編碼信息(Composition Information)。為了降低存儲空間或防止非法使用,需對數(shù)字對象進(jìn)行壓縮或加密,該過程為編碼。編碼后的數(shù)字對象不具可用性,用戶無法直接使用,需解碼為原始數(shù)字對象。包括:①編碼類型,取值有壓縮、加密。②編碼層次,描述數(shù)字對象編碼過程的次序,原始數(shù)字對象可經(jīng)過多個層次的編碼形成最終的保存對象,如一件數(shù)字對象首先使用Winzip壓縮,然后使用數(shù)字簽名加密,前者的編碼層次為1,編碼類型為壓縮,后者的編碼層次為2,編碼類型為加密。③解碼程序,描述一個層次解碼所用的軟件。④密碼,描述加密型數(shù)字對象解密所需的密鑰。若數(shù)字對象經(jīng)過多層次編碼,需重復(fù)上述各元素以描述每個層次的編碼信息。

解碼后生成的數(shù)字對象的可用性風(fēng)險檢測需使用本文設(shè)計的其他風(fēng)險點(diǎn),該風(fēng)險點(diǎn)僅用于檢測能否正確解碼。

檢測項(xiàng)目:①檢測編碼類型為加密的編碼層次,若該層次的密碼為空,導(dǎo)致無法對該層次對象解碼;②檢測每一層次的解碼程序,若為空或賦值錯誤,同樣導(dǎo)致無法實(shí)施該層次對象的解碼;③檢測每一層次的上述四個元素,若出現(xiàn)錯位,也會導(dǎo)致解碼錯誤。上述三種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

(8)存儲信息(Storage Information)。描述數(shù)字對象在存儲系統(tǒng)中存放位置和存儲介質(zhì)的信息。元素有:存儲位置、存儲介質(zhì)。

檢測項(xiàng)目:①檢查“存儲位置”元素的值,若為空或賦值錯誤,則數(shù)字對象無法找出或出現(xiàn)錯位;②檢查“存儲介質(zhì)”,若已超出有效期限,則數(shù)字對象可能不再可用。上述兩種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

2.2 保存事件方面的可用性風(fēng)險點(diǎn)

(1)去索引(Deaccession)。屏蔽數(shù)字對象的所有檢索點(diǎn)信息,暫時不提供用戶對該數(shù)字對象的訪問,但仍保存在存儲系統(tǒng)中。這是一個規(guī)避產(chǎn)權(quán)糾紛或處置數(shù)字對象的常規(guī)保存活動,但執(zhí)行結(jié)果導(dǎo)致被屏蔽的數(shù)字對象暫時不可使用。

(2)刪除(Deletion)。物理刪除數(shù)字對象,且所有描述信息同時也被刪除。執(zhí)行結(jié)果導(dǎo)致被刪除的數(shù)字對象不再可用。

(3)介質(zhì)刷新(Storage Medium Refresh)。根據(jù)保存政策設(shè)置的介質(zhì)刷新頻率對存儲介質(zhì)進(jìn)行定期刷新。若該事件沒有按照保存政策中設(shè)置的刷新頻率執(zhí)行,則可能產(chǎn)生風(fēng)險。

(4)病毒檢測(Virus Check)。若該事件沒有按照保存政策中設(shè)置的病毒檢測周期執(zhí)行,則可能產(chǎn)生風(fēng)險。

2.3 產(chǎn)權(quán)方面的可用性風(fēng)險點(diǎn)

(1)版權(quán)信息(Copyright Information)。數(shù)字對象的版權(quán)狀態(tài)及其判斷依據(jù)和適用的時間空間范圍的描述。包括:①版權(quán)狀態(tài),取值有“受版權(quán)保護(hù)”“公共領(lǐng)域”“未知”。②適用的版權(quán)法,判定數(shù)字對象的版權(quán)狀態(tài)所依據(jù)的法律文本。③版權(quán)法的管轄范圍,不同國家和地區(qū),適用的版權(quán)法可能不同,賦值應(yīng)來自ISO3166。④版權(quán)時間區(qū)間,版權(quán)狀態(tài)適用的時間范圍,若版權(quán)狀態(tài)是“受版權(quán)保護(hù)”,記錄開始日期(一般為原始信息資源的發(fā)布日期)和終止日期(若永久受版權(quán)保護(hù),記錄為“OPEN”);若版權(quán)狀態(tài)屬于“公共領(lǐng)域”,開始日期為進(jìn)入公共領(lǐng)域的日期,終止日期為“OPEN”;若版權(quán)狀態(tài)是“未知”,該元素不賦值。

檢測項(xiàng)目:①檢查版權(quán)狀態(tài)元素,若值為“受版權(quán)保護(hù)”,則無授權(quán)的用戶無法訪問使用;②檢查版權(quán)狀態(tài)和時間區(qū)間兩個元素,若前者的值為“受版權(quán)保護(hù)”,且后者的終止日期已過,則數(shù)字對象應(yīng)對所有用戶開放使用,但由于沒有及時更新終止日期,仍不可使用;③檢查版權(quán)狀態(tài)元素,若值為“未知”,保存系統(tǒng)為了規(guī)避侵權(quán)風(fēng)險,可能設(shè)置為用戶不可訪問;④檢查管轄范圍元素,若賦值錯誤,則可能導(dǎo)致本應(yīng)進(jìn)入公共領(lǐng)域的數(shù)字對象并未進(jìn)入。上述四種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

(2)許可信息(License Information)。許可協(xié)議中有關(guān)數(shù)字對象可用性條款的信息。包括:①許可的類型,取值有“允許”“限制”,前者表示產(chǎn)權(quán)擁有者或數(shù)字對象提交者允許保存系統(tǒng)實(shí)施后續(xù)元素描述的保存活動,后者表示限制實(shí)施后續(xù)元素描述的保存活動;②保存活動,有傳播(允許下載離線使用)、瀏覽(只許在線使用)、修改(改變數(shù)字對象的外觀和內(nèi)容)、刪除(從保存系統(tǒng)中移除數(shù)字對象)、格式遷移(改變數(shù)字對象的格式,但不改變內(nèi)容)等;③時間區(qū)間,包括開始日期和終止日期,若為永久許可,則后者標(biāo)記為“OPEN”。若一件數(shù)字對象存在多項(xiàng)許可信息,可重復(fù)上述三個元素分別給予描述。

檢測項(xiàng)目:①檢查許可類型和保存活動,若類型為“允許”,活動為“刪除”“修改”,第一種許可操作導(dǎo)致數(shù)字對象無法使用,第二種許可操作可能導(dǎo)致因過度修改致使數(shù)字對象失真;②檢查許可類型和保存活動,若類型為“限制”,活動為“傳播”“瀏覽”“格式遷移”,第一種限制操作導(dǎo)致無法離線使用,第二種限制操作導(dǎo)致無法在線使用,第三種限制操作會導(dǎo)致格式過時致使現(xiàn)有瀏覽軟件無法呈現(xiàn);③同時檢查上述三個元素,若相應(yīng)操作不在時間區(qū)間元素描述的范圍,導(dǎo)致可能一些操作已過期,但因沒有及時更新仍限制數(shù)字對象的使用或?qū)е聰?shù)字對象的失真或消失。上述三種情況均歸為在該風(fēng)險點(diǎn)上出現(xiàn)的風(fēng)險。

2.4 保存政策方面的可用性風(fēng)險點(diǎn)

是與數(shù)字對象、保存事件和產(chǎn)權(quán)管理方面的可用性風(fēng)險點(diǎn)檢測所需的保存系統(tǒng)設(shè)置的相關(guān)指標(biāo),為上述三個方面的風(fēng)險點(diǎn)檢測提供參考依據(jù)。所以,從本質(zhì)上講,該類風(fēng)險點(diǎn)都是為可用性風(fēng)險點(diǎn)檢測提供服務(wù)的,并不直接用于檢測。包括:

(1)檢索點(diǎn)(Retrieval Point)。保存系統(tǒng)為每種類型文獻(xiàn)設(shè)置的檢索途徑。用于“檢索點(diǎn)信息”風(fēng)險點(diǎn)的檢測。

(2)存儲介質(zhì)的使用壽命(Media Life)。每種存儲介質(zhì)的有效期記錄。用于“存儲信息”的“存儲介質(zhì)”風(fēng)險點(diǎn)的檢測。

(3)介質(zhì)刷新頻率(Media Refresh Rate)。用于“介質(zhì)刷新”保存事件風(fēng)險點(diǎn)的檢測。

(4)病毒檢測周期(Virus Check Period)。用于“病毒檢測”保存事件風(fēng)險點(diǎn)的檢測。

3 檢測實(shí)驗(yàn)

3.1 術(shù)語界定

為了簡化敘述和方便圖示,本實(shí)驗(yàn)界定和使用下述術(shù)語。由于本實(shí)驗(yàn)樣本采自于中國知網(wǎng)(以下簡稱“知網(wǎng)”),故下述術(shù)語結(jié)合知網(wǎng)說明。

(1)相(Phase):指數(shù)字對象的特征。知網(wǎng)中數(shù)字對象特征有時間特征、文獻(xiàn)類型特征、學(xué)科特征。

(2)TP(Time Phase):時間區(qū)間相。為便于風(fēng)險檢測,將知網(wǎng)的TP分為7個:1990年之前(用TP1表示)、1991—1995年(用TP2表示)、1996—2000年(用TP3表示)、2001—2005年(用TP4表示)、2005—2010年(用TP5表示)、2011—2015年(用TP6表示)、2016年之后(用TP7表示)。

(3)CP(Category Phase):文獻(xiàn)類型相?;谥W(wǎng),將CP分為10個:期刊(用CP1表示)、碩博論文(用CP2表示)、會議論文(用CP3表示)、年鑒(用CP4表示)、統(tǒng)計數(shù)據(jù)(用CP5表示)、專利(用CP6表示)、標(biāo)準(zhǔn)文獻(xiàn)(用CP7表示)、古籍(用CP8表示)、工具書(用CP9表示)、外文文獻(xiàn)(用CP10表示)。

(4)SP(Subject Phase):學(xué)科類型相?;谥W(wǎng)的學(xué)科大類,將SP劃分為8個:基礎(chǔ)學(xué)科(用SP1表示)、工程技術(shù)(用SP2表示)、農(nóng)業(yè)科技(用SP3表示)、醫(yī)療衛(wèi)生科技(用SP4表示)、哲學(xué)與人文科學(xué)(用SP5表示)、社會科學(xué)(用SP6表示)、信息科學(xué)(用SP7表示)、經(jīng)濟(jì)與管理科學(xué)(用SP8表示)。

(5)RP(Risk Point):用于檢測的風(fēng)險點(diǎn)。包括12個:檢索點(diǎn)信息(用RP1表示)、文件系統(tǒng)(用RP2表示)、瀏覽軟件信息(用RP3表示)、保存級別(用RP4表示)、編碼信息(用RP5表示)、存儲信息(用RP6表示)、去索引事件(用RP7表示)、刪除事件(用RP8表示)、介質(zhì)刷新事件(用RP9表示)、病毒檢測(用RP10表示)、版權(quán)信息(用RP11表示)、許可信息(用RP12表示)。

3.2 樣本集形成

采集自知網(wǎng),樣本總量1萬件(用ST表示),使用分層隨機(jī)抽樣法采集。步驟:

(1)層次單元(Hierarchical Unit)的構(gòu)建。表示為:HU(TPi,CPj,SPk)。其中:TPi為 TP 相中第 i個單元,且i∈[1,7];CPj為CP相中第j個單元,且j∈[1,10];SPk為SP相中第k個單元,且k∈[1,8]。層次單元共計7×8×10=560個。

(2)樣本量的計算。計算公式(1):SES [HU( TPi,CPj,SPk)]=TS [HU( TPi,CPj,SPk)]÷TT×ST。其中:SES[HU( TPi,CPj,SPk)]是 HU(TPi,CPj,SPk)的樣本抽取量;TS [HU( TPi,CPj,SPk)是 HU( TPi,CPj,SPk)的數(shù)字資源總量;TT是知網(wǎng)數(shù)字資源總量;ST是設(shè)定的樣本總量。

(3)樣本的抽取。以第一個層次單元HU(TP1,CP1, SP1)為取例。首先,根據(jù)公式(1),計算出SES[HU( TP1,CP1,SP1)]的值(如為 50);其次,檢索知網(wǎng),得到TS [HU( TP1,CP1,SP1)]值為571 203;再次,使用無重復(fù)隨機(jī)數(shù)生成軟件,設(shè)置最小數(shù)為1,最大數(shù)為571 203,生成50個無重復(fù)的數(shù)字;最后,下載該50個數(shù)字對應(yīng)的數(shù)字對象。重復(fù)上述步驟560次,抽取每個單元 HU(TPi,CPj,SPk)(i∈ [1,7],j∈ [1,10],k∈[1,8])的樣本。

風(fēng)險點(diǎn)內(nèi)容的生成。完全為了研究的用途,知網(wǎng)提供本實(shí)驗(yàn)所需的相關(guān)元數(shù)據(jù)(包括保存型、管理型和描述型等三種類型)元素的賦值。針對每件樣本對象,將本研究設(shè)計的風(fēng)險點(diǎn)元素與知網(wǎng)提供的元素進(jìn)行對應(yīng)映射,若映射成功,前者的值直接復(fù)制后者,否則,前者的賦值為空。

3.3 檢測算法

(1)檢測樣本的形成?;谏鲜鰳?gòu)建的數(shù)字對象的樣本集,去除標(biāo)識符無賦值的、類型為“知識實(shí)體”和“比特流”的三類數(shù)字對象,剩余樣本為檢測樣本。

(2)檢測單元的形成。根據(jù)TP、CP、SP三個相,將檢測樣本劃分為560個檢測單元,即HU(TPi,CPj,SPk)(i∈ [1,7],j∈ [1,10],k ∈ [1,8])。

(3)檢測單元的風(fēng)險檢測算法。①對風(fēng)險點(diǎn)的元素賦值進(jìn)行編碼;②采用微軟的VFP9.0數(shù)據(jù)庫管理系統(tǒng)構(gòu)建檢測單元的數(shù)字對象數(shù)據(jù)庫、風(fēng)險點(diǎn)元素內(nèi)容(經(jīng)過編碼)數(shù)據(jù)庫、保存政策方面的風(fēng)險點(diǎn)數(shù)據(jù)庫;③采用VFP9.0編制每個風(fēng)險點(diǎn)的各個檢測項(xiàng)目的檢測代碼;④針對檢測單元中每件數(shù)字對象,運(yùn)行檢測代碼,輸出各檢測項(xiàng)目的檢測結(jié)果,為了方便統(tǒng)計,本實(shí)驗(yàn)設(shè)定一件數(shù)字對象的一個風(fēng)險點(diǎn)上的任一檢測項(xiàng)目出現(xiàn)風(fēng)險,則該數(shù)字對象在該風(fēng)險點(diǎn)上輸出風(fēng)險,一個風(fēng)險點(diǎn)的檢測項(xiàng)目出現(xiàn)風(fēng)險不累計;⑤統(tǒng)計一個檢測單元中在各個風(fēng)險點(diǎn)上產(chǎn)生風(fēng)險的數(shù)字對象數(shù)量。針對每個檢測單元,采用該算法,輸出檢測結(jié)果。

(4)零相檢測算法。零相指不基于數(shù)字對象的任何特征對檢測樣本進(jìn)行劃分。算法是:將上述560個檢測單元的檢測結(jié)果,在各個風(fēng)險點(diǎn)上進(jìn)行疊加,形成所有檢測單元在各個風(fēng)險點(diǎn)上的風(fēng)險值。

(5)單相檢測算法。單相指基于數(shù)字對象的一個特征,將檢測樣本劃分為若干個單元。算法是:將上述560個檢測單元,基于一個相進(jìn)行合并,同時對各個風(fēng)險點(diǎn)上的風(fēng)險值進(jìn)行疊加,形成每個合并單元在各個風(fēng)險點(diǎn)上的風(fēng)險值。

(6)雙相檢測算法。雙相指基于數(shù)字對象的兩個特征,將檢測樣本劃分為若干個單元。算法是:將上述560個檢測單元,基于兩個相進(jìn)行合并,同時對各個風(fēng)險點(diǎn)上的風(fēng)險值進(jìn)行疊加,形成每個合并單元在各個風(fēng)險點(diǎn)上的風(fēng)險值。

(7)三相檢測算法。三相指基于數(shù)字對象的三個特征,將檢測樣本劃分為若干個單元。本算法步驟(3)中的檢測單元就是按照三相劃分的結(jié)果,故也是三相檢測算法。

3.4 檢測結(jié)果

3.4.1 零相檢測結(jié)果

執(zhí)行檢測算法中的零相檢測算法,檢測結(jié)果見圖1。風(fēng)險值較高的風(fēng)險點(diǎn)為:RP1、RP4、RP5、RP7、RP11、RP12。

圖1 零相檢測結(jié)果

3.4.2 單相檢測結(jié)果

根據(jù)檢測樣本的特征,該類檢測有三種。

(1)TP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為TP相(時間區(qū)間),檢測結(jié)果見圖2。主要風(fēng)險點(diǎn)分布為:

(2)CP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為CP相(文獻(xiàn)類型),檢測結(jié)果見圖3。主要風(fēng)險點(diǎn)分布為:

(3)SP的單相檢測結(jié)果。執(zhí)行檢測算法中的單相檢測算法,并將單相設(shè)置為SP相(學(xué)科類型),檢測結(jié)果見圖4。主要風(fēng)險點(diǎn)分布為:

圖2 TP的單相檢測結(jié)果

圖3 CP的單相檢測結(jié)果

圖4 SP的單相檢測結(jié)果

3.4.3 雙相檢測結(jié)果

根據(jù)檢測樣本的特征,該類檢測有三種。

(1)[TP,CP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為TP相(時間區(qū)間)和CP相(文獻(xiàn)類型),檢測結(jié)果見圖5。主要風(fēng)險點(diǎn)分布為:

圖5 [TP,CP]的雙相檢測結(jié)果

(2)[TP,SP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為TP相(時間區(qū)間)和SP相(學(xué)科類型),檢測結(jié)果見圖6。主要風(fēng)險點(diǎn)分布為:

圖6 [TP,SP]的雙相檢測結(jié)果

(3)[CP,SP]的雙相檢測結(jié)果。執(zhí)行檢測算法中的雙相檢測算法,并將雙相設(shè)置為CP相(文獻(xiàn)類型)和SP相(學(xué)科類型),檢測結(jié)果見圖7。主要風(fēng)險點(diǎn)分布為:

圖7 [CP,SP]的雙相檢測結(jié)果

3.4.4 三相檢測結(jié)果

根據(jù)檢測樣本的特征,該類檢測有一種。

[TP,CP,SP]的三相檢測。執(zhí)行檢測算法中的三相檢測算法,檢測結(jié)果圖太大,省略。主要風(fēng)險點(diǎn)分布為:

3.5 檢測結(jié)果分析

風(fēng)險檢測的最終作用在于為風(fēng)險規(guī)避提供參考?;诒卷?xiàng)試驗(yàn),檢測單元的粒度隨著檢測相數(shù)的增加而變小,由此使得風(fēng)險的識別也更為方便。具體分析如下。

(1)檢索點(diǎn)信息。檢測結(jié)果與學(xué)科無關(guān),集中在1995年之前的期刊文獻(xiàn)上,可根據(jù)檢測項(xiàng)目分析原因。針對第一個檢測項(xiàng)目,由于產(chǎn)生風(fēng)險的數(shù)字對象集中在1995年之前的期刊,其他時間區(qū)間的期刊文獻(xiàn)很少產(chǎn)生風(fēng)險,因此,與“檢索點(diǎn)”的設(shè)置無關(guān),該檢測項(xiàng)目不產(chǎn)生風(fēng)險。針對第二個和第三個檢測項(xiàng)目,基于索引的檢索點(diǎn)沒有賦值內(nèi)容或所賦內(nèi)容不正確,風(fēng)險應(yīng)該來自這兩個檢測項(xiàng)目。原因可能是1995年之前的期刊文獻(xiàn)大多通過數(shù)字掃描生成,數(shù)字對象都是圖片,檢索點(diǎn)的賦值內(nèi)容無法從數(shù)字對象中自動析出,需人工提取,導(dǎo)致有些檢索點(diǎn)沒有賦值或賦值差錯。降低和規(guī)避這類風(fēng)險的方法是針對該層次單元數(shù)字對象,逐一檢查核對和完善檢索點(diǎn)的賦值內(nèi)容。

(2)保存級別。檢測結(jié)果與時間無關(guān)。集中在除了哲學(xué)與人文科學(xué)、社會科學(xué)、經(jīng)濟(jì)與管理科學(xué)等三個學(xué)科之外的5個學(xué)科的專利文獻(xiàn)中。原因可從兩個方面分析:一是學(xué)科類型方面,由于哲學(xué)與人文科學(xué)、社會科學(xué)、經(jīng)濟(jì)與管理科學(xué)等3個學(xué)科很少有專利文獻(xiàn),所以該風(fēng)險點(diǎn)的風(fēng)險產(chǎn)生與學(xué)科無關(guān);二是檢測項(xiàng)目,比特保存的級別設(shè)置較低或邏輯保存缺失,這應(yīng)該是風(fēng)險的產(chǎn)生之處。為此,保存系統(tǒng)需針對性地提高保存級別,增加邏輯保存功能。

(3)編碼信息。檢測結(jié)果與時間無關(guān),集中在除了工程技術(shù)和信息科學(xué)之外的其他六個學(xué)科的古籍中。原因可從方面分析:一是學(xué)科類型方面,工程技術(shù)和信息科學(xué)的學(xué)科文獻(xiàn)主要產(chǎn)生于近現(xiàn)代,古籍很少,所以該風(fēng)險點(diǎn)的風(fēng)險產(chǎn)生與學(xué)科無關(guān)。二是檢測項(xiàng)目方面,第一個和第三個檢測項(xiàng)目都涉及加密,而古籍無需加密,所以,該兩個項(xiàng)目不產(chǎn)生風(fēng)險;第二個檢測項(xiàng)目包含了壓縮,一些古籍?dāng)?shù)字對象體積較大,存儲時可能需壓縮,這可能是產(chǎn)生風(fēng)險的原因。為此,保存系統(tǒng)需對該類檢測結(jié)果中相應(yīng)的壓縮型數(shù)字對象的壓縮描述信息進(jìn)行核實(shí)和糾正。

(4)去索引事件。檢測結(jié)果與時間、文獻(xiàn)類型、學(xué)科均無關(guān),出現(xiàn)在所有數(shù)字對象中。從檢測項(xiàng)目分析,該風(fēng)險點(diǎn)只有一個項(xiàng)目,即數(shù)字對象的檢索點(diǎn)信息被屏蔽,這可能是保存系統(tǒng)對數(shù)字對象實(shí)施一些維護(hù)操作而執(zhí)行的一項(xiàng)正常保存活動,但從可用性角度,導(dǎo)致數(shù)字對象暫時無法訪問。

(5)版權(quán)信息。集中在1995年之前的基礎(chǔ)學(xué)科、工程科技、信息科學(xué)的外文文獻(xiàn)中?;跈z測項(xiàng)目分析,可能原因是這個集合中的文獻(xiàn)較早,一些文獻(xiàn)的版權(quán)保護(hù)期可能已過,但沒有及時更改版權(quán)狀態(tài);也可能是該集合中的一些文獻(xiàn)版權(quán)狀態(tài)標(biāo)記為“未知”;還可能是管轄范圍識別有誤,或者一些元素未賦值。為此,保存系統(tǒng)應(yīng)該核實(shí)、完善和糾正該集合數(shù)字對象的版權(quán)信息各個元素的賦值。

(6)許可信息。集中在2000年之前的基礎(chǔ)學(xué)科的外文文獻(xiàn)中?;跈z測項(xiàng)目分析,可能原因是允許一些保存活動(如刪除、修改),限制一些使用方式(如傳播、瀏覽),這些許可都是數(shù)字對象長期保存的正常管理活動,但的確會妨礙用戶的使用,因此,僅從可用性角度,產(chǎn)生了風(fēng)險。另外,如果上述許可已過期(這種情況很可能存在,因?yàn)槌霈F(xiàn)風(fēng)險的文獻(xiàn)產(chǎn)生時間大都較早),但未及時更改,也會導(dǎo)致可用性風(fēng)險。

本項(xiàng)研究設(shè)計了數(shù)字保存風(fēng)險之一的可用性風(fēng)險的檢測方法,該方法的準(zhǔn)確性依賴于設(shè)計的可用性風(fēng)險點(diǎn),因此,完善該類風(fēng)險點(diǎn)是后續(xù)研究的一項(xiàng)內(nèi)容。

(來稿時間:2017年6月)

猜你喜歡
用戶檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
小波變換在PCB缺陷檢測中的應(yīng)用
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
主站蜘蛛池模板: 日本一本在线视频| 欧亚日韩Av| 1级黄色毛片| 72种姿势欧美久久久大黄蕉| 久久久久中文字幕精品视频| 99国产在线视频| 亚洲看片网| 精品国产自| 午夜影院a级片| 国产欧美日韩一区二区视频在线| 在线观看国产小视频| 无码人中文字幕| 国内精品伊人久久久久7777人| 精品日韩亚洲欧美高清a| 欧美日韩成人在线观看| 99精品热视频这里只有精品7| 婷婷色一区二区三区| 国内精品久久人妻无码大片高| 一本久道久综合久久鬼色| 中文字幕 91| 欧美亚洲另类在线观看| 成人在线第一页| 亚洲一区波多野结衣二区三区| 国产精品理论片| 女人av社区男人的天堂| 日韩欧美中文| 777国产精品永久免费观看| 免费三A级毛片视频| 色婷婷国产精品视频| 免费看一级毛片波多结衣| 国内精品久久久久久久久久影视| 国产精品第一区| 2020最新国产精品视频| 国产精品无码制服丝袜| 激情综合婷婷丁香五月尤物| 国产午夜不卡| 国产乱论视频| 免费一级毛片完整版在线看| 国产偷倩视频| 波多野结衣无码AV在线| 日本精品视频| 国产精品视频导航| 国产成人精品亚洲77美色| 亚洲福利一区二区三区| 永久天堂网Av| 91精品国产麻豆国产自产在线| 国产大片黄在线观看| 毛片久久网站小视频| 日韩色图在线观看| 精品一区二区无码av| 天堂网亚洲综合在线| 欧美三级自拍| 一级毛片在线播放免费观看| 黄色成年视频| 波多野结衣在线se| 国产免费久久精品99re不卡| 综合色区亚洲熟妇在线| 欧美国产综合视频| 国产情精品嫩草影院88av| 最新精品久久精品| 久久综合丝袜长腿丝袜| 无码视频国产精品一区二区| 亚洲色无码专线精品观看| 色国产视频| 亚洲天堂视频在线免费观看| 成年免费在线观看| 国产欧美日韩综合在线第一| 久久免费视频播放| 一级在线毛片| 激情无码字幕综合| 广东一级毛片| 亚洲美女高潮久久久久久久| 国产精品久久久精品三级| 久草视频福利在线观看| 国产又粗又猛又爽| 国产91成人| 亚洲精品成人7777在线观看| 老熟妇喷水一区二区三区| 国产va欧美va在线观看| 国产在线日本| 欧美无专区| 亚洲视频色图|