


摘 要:科技期刊發(fā)布平臺遷移過程中所涉及的數(shù)據(jù),可根據(jù)數(shù)據(jù)類型劃分為期刊的基礎(chǔ)數(shù)據(jù)、期刊的擴(kuò)展數(shù)據(jù)、期刊的用戶數(shù)據(jù)及行為數(shù)據(jù)、期刊網(wǎng)站與上下游系統(tǒng)連通數(shù)據(jù)等不同的數(shù)據(jù)層級,并據(jù)此構(gòu)建相關(guān)的層次模型。層次模型可應(yīng)用在實(shí)際的數(shù)據(jù)遷移實(shí)踐中,本文根據(jù)不同層級數(shù)據(jù)的特點(diǎn),探討各層數(shù)據(jù)在數(shù)據(jù)遷移過程中的遷移思路、遷移方法和注意事項(xiàng),并提出相應(yīng)的遷移案例,以期對促進(jìn)科技期刊數(shù)字化建設(shè)的健康發(fā)展提供參考。
關(guān)鍵詞:學(xué)術(shù)期刊;發(fā)布平臺;數(shù)據(jù)遷移;層次模型
DOI: 10.3969/j.issn.2097-1869.2024.02.009文獻(xiàn)標(biāo)識碼:A
著錄格式:郭軍強(qiáng).科技期刊發(fā)布平臺數(shù)據(jù)遷移層次模型的構(gòu)建與實(shí)踐應(yīng)用[J].數(shù)字出版研究,2024,3(2):72-76.
科技期刊發(fā)布平臺是科技期刊數(shù)字化建設(shè)的重要組成部分,國內(nèi)外已有多個廠商提供相應(yīng)服務(wù),如國內(nèi)的瑪格泰克、仁和匯智、中圖科信、方正、勤云、科學(xué)出版社SciEngine平臺、清華大學(xué)出版社SciOpen平臺及國外的ATYPON Literatum平臺等。期刊作為連續(xù)性出版物,根據(jù)其自身發(fā)展的需要,會不可避免地經(jīng)歷發(fā)布平臺的變更和遷移,在此過程中,數(shù)據(jù)的遷移尤為重要。當(dāng)前,部分期刊對哪些數(shù)據(jù)需要遷移、如何進(jìn)行遷移等缺乏較深的理解,其實(shí)際的遷移過程就如“摸著石頭過河”,容易造成不同類型的數(shù)據(jù)或多或少地被丟失。同時,也有部分發(fā)布平臺未向遷走的期刊提供相應(yīng)支持。針對上述問題,本文試圖通過對科技期刊遷移數(shù)據(jù)類型進(jìn)行劃分,并針對不同數(shù)據(jù)類型提出相應(yīng)解決思路和方法。
1 背景及既有研究
在期刊平臺建設(shè)方面,目前大部分期刊都采用第三方技術(shù)公司提供系統(tǒng)或服務(wù)的方式構(gòu)建自身系統(tǒng)平臺??萍计诳沁B續(xù)性出版物,優(yōu)秀的期刊往往為能向讀者、專家用戶提供更好的服務(wù)而進(jìn)行系統(tǒng)的迭代和升級,在此過程中都需要進(jìn)行數(shù)據(jù)遷移,即將舊系統(tǒng)中的數(shù)據(jù)遷移到新系統(tǒng)中,使其在新系統(tǒng)中得以正確應(yīng)用,保證期刊系統(tǒng)平臺的可持續(xù)服務(wù)。
通過在文獻(xiàn)數(shù)據(jù)庫中進(jìn)行檢索,發(fā)現(xiàn)相關(guān)的既有研究較少,其中,許山山等[1]從數(shù)據(jù)質(zhì)量對數(shù)據(jù)遷移的影響、數(shù)據(jù)遷移基本架構(gòu)、數(shù)據(jù)遷移方法3個方面進(jìn)行梳理,分析當(dāng)前熱點(diǎn)的架構(gòu)和方法,并對常用架構(gòu)模型和方法進(jìn)行了綜合評價(jià);張斯龍等[2]則以《中華急診醫(yī)學(xué)雜志》主建網(wǎng)站“中華急診網(wǎng)”的升級為案例,對期刊網(wǎng)站系統(tǒng)升級歷程中各階段的實(shí)施過程和收效進(jìn)行了經(jīng)驗(yàn)總結(jié)。但許山山等的研究偏向理論探索;張斯龍等的研究則側(cè)重于定制化開發(fā)的期刊數(shù)字化系統(tǒng)平臺,與大部分期刊的情況并不相同。同時,科技期刊在實(shí)際的遷移過程中,往往只注意期刊、論文數(shù)據(jù)的遷移,且容易忽略論文析出或加工出的數(shù)據(jù)、用戶數(shù)據(jù)及用戶行為數(shù)據(jù)、上下游系統(tǒng)連通數(shù)據(jù)等數(shù)據(jù)的遷移。因此構(gòu)建相對完整的數(shù)據(jù)遷移層次模型并開展實(shí)踐應(yīng)用是一個重要的研究課題。
2 平臺數(shù)據(jù)遷移的層次模型與實(shí)踐應(yīng)用
2.1 數(shù)據(jù)遷移層次模型
本文以科技期刊發(fā)布平臺的數(shù)據(jù)遷移層次模型與實(shí)踐應(yīng)用為研究對象,探討數(shù)據(jù)遷移過程中所涉及數(shù)據(jù)的層次劃分、遷移要點(diǎn)和注意事項(xiàng)等。
基于筆者對科技期刊發(fā)布平臺的多年研發(fā)經(jīng)驗(yàn),在數(shù)據(jù)遷移過程中可以按照如下方式進(jìn)行遷移數(shù)據(jù)的層次劃分(見圖1)。
不同層次的數(shù)據(jù)在遷移時具有不同特點(diǎn),其遷移方式也隨層次的不同而具有完全不同的遷移思路和方法,層次越高對數(shù)據(jù)的要求越高。各期刊可以根據(jù)自身實(shí)際情況向遷移前后的技術(shù)提供商提出不同的數(shù)據(jù)導(dǎo)出和導(dǎo)入需求,并要求雙方配合完成完整的數(shù)據(jù)遷移工作。
2.2 數(shù)據(jù)遷移層次模型的實(shí)踐應(yīng)用
2.2.1 L1層期刊的基礎(chǔ)數(shù)據(jù)的遷移
L1層的數(shù)據(jù)為期刊的基礎(chǔ)數(shù)據(jù),主要包括期刊的核心信息展示數(shù)據(jù)和期刊文獻(xiàn)數(shù)據(jù)兩部分。
期刊的核心信息展示數(shù)據(jù)主要指期刊網(wǎng)站上呈現(xiàn)給用戶的靜態(tài)介紹類數(shù)據(jù),此類數(shù)據(jù)更新頻率一般較低,如期刊簡介、編委信息、期刊榮譽(yù)、投稿指南、審稿流程、版權(quán)聲明、數(shù)據(jù)共享說明、道德聲明、倫理政策等。由于各期刊的核心信息展示數(shù)據(jù)內(nèi)容、標(biāo)準(zhǔn)不一,且往往長期固定,更新頻率低,對該類數(shù)據(jù)的遷移思路是直接將原系統(tǒng)中的相關(guān)數(shù)據(jù)拷貝到新平臺,同時結(jié)合新網(wǎng)站的展示需求、內(nèi)容更新需求等進(jìn)行調(diào)整。
期刊的基礎(chǔ)文獻(xiàn)數(shù)據(jù)一般包括論文的元數(shù)據(jù)、PDF及XML全文數(shù)據(jù)等,是期刊網(wǎng)站上最重要的內(nèi)容數(shù)據(jù)。通過分析國內(nèi)期刊的數(shù)據(jù)加工情況,可以將期刊為讀者提供論文閱讀的方式分為論文摘要閱讀、論文摘要+PDF下載閱讀、論文在線全文閱讀、論文在線全文+PDF下載閱讀等。針對論文摘要閱讀和PDF下載閱讀方式,文獻(xiàn)數(shù)據(jù)的遷移策略和思路是通過批量導(dǎo)出、導(dǎo)入方式進(jìn)行數(shù)據(jù)的遷移操作,如果原系統(tǒng)不支持導(dǎo)出,則可以通過數(shù)據(jù)采集的方式進(jìn)行數(shù)據(jù)的遷移。論文題錄數(shù)據(jù)的遷移,是目前國內(nèi)主流科技期刊平臺遷移過程中的基礎(chǔ)部分,如勤云、瑪格泰克、仁和、方正等網(wǎng)站平臺提供論文所有題錄數(shù)據(jù)的Excel表格,只要新系統(tǒng)支持批量導(dǎo)入,即可完成論文數(shù)據(jù)的遷移。但這種遷移方式需要考慮導(dǎo)出的PDF文件與元數(shù)據(jù)的關(guān)聯(lián),可以通過對將PDF文件的文件名稱與元數(shù)據(jù)中的某字段(如唯一標(biāo)識)相對應(yīng)的方式進(jìn)行遷移。
以某期刊網(wǎng)站的論文數(shù)據(jù)遷移為例,原網(wǎng)站上的論文只支持摘要閱讀,PDF及全文閱讀數(shù)據(jù)需要從數(shù)據(jù)庫平臺獲取。在該期刊的數(shù)據(jù)遷移過程中,以從原網(wǎng)站導(dǎo)出的論文題錄excel數(shù)據(jù)為基礎(chǔ),對其所有文獻(xiàn)數(shù)據(jù)進(jìn)行XML全文數(shù)據(jù)加工并完善題錄數(shù)據(jù),從而完成論文數(shù)據(jù)遷移,實(shí)現(xiàn)全刊論文在新網(wǎng)站的全文在線閱讀和PDF下載閱讀。
對于與國外合作期刊的基礎(chǔ)論文數(shù)據(jù),可以使用大數(shù)據(jù)采集工具采集論文的題錄數(shù)據(jù)并進(jìn)行新網(wǎng)站入庫與發(fā)布,這就要求數(shù)據(jù)采集工具需具有實(shí)時更新與監(jiān)控能力,以確保所有期刊文獻(xiàn)數(shù)據(jù)同步更新。數(shù)據(jù)遷移后的期刊網(wǎng)站平臺樣例(見圖2)。
2.2.2 L2層期刊的擴(kuò)展數(shù)據(jù)的遷移
L2層的數(shù)據(jù)為期刊的擴(kuò)展數(shù)據(jù),首先需要處理的是以論文XML數(shù)據(jù)為基礎(chǔ)并通過解析XML的內(nèi)容或通過更進(jìn)一步的數(shù)據(jù)加工而形成的實(shí)體數(shù)據(jù),包括能夠獨(dú)立存儲的作者、機(jī)構(gòu)、基金、關(guān)鍵詞、圖表、參考文獻(xiàn)等數(shù)據(jù),其未來可以作為科技期刊的數(shù)字資產(chǎn)進(jìn)行重復(fù)利用,因此遷移該部分?jǐn)?shù)據(jù)時需要確保數(shù)據(jù)的連續(xù)性。此類數(shù)據(jù)進(jìn)行遷移的策略和思路為,如果其僅是從全文XML數(shù)據(jù)解析出來的數(shù)據(jù),則可以通過重新解析和治理技術(shù)完成遷移,在新的系統(tǒng)中實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的獨(dú)立存儲與管理;如果在解析的基礎(chǔ)上還進(jìn)行了更多加工,則需要進(jìn)一步處理加工后的結(jié)構(gòu)化數(shù)據(jù)及各實(shí)體之間的關(guān)聯(lián)。
擴(kuò)展數(shù)據(jù)還包括期刊網(wǎng)站的資訊數(shù)據(jù),以期刊編輯部公告或微信公眾號等新媒體平臺的內(nèi)容居多,針對該類數(shù)據(jù)可以通過技術(shù)采集的方式進(jìn)行遷移,如對于編輯部公告資訊數(shù)據(jù)可采用一次性遷移方式,微信公眾號等新媒體平臺的數(shù)據(jù)則需要通過持續(xù)監(jiān)控進(jìn)行采集并更新。
此外,部分科技期刊網(wǎng)站中還存在音視頻數(shù)據(jù),包括論文的增強(qiáng)出版數(shù)據(jù)或發(fā)布網(wǎng)址運(yùn)營過程中積累的音視頻數(shù)據(jù),一般分為兩種存儲方式,一種存儲于原網(wǎng)站,可直接進(jìn)行播放展示(見圖3);另一種則存儲于B站、視頻號等第三方平臺(見圖4)。針對第一種存儲方式的數(shù)據(jù)遷移需要通過整理原網(wǎng)站的音視頻資源,根據(jù)導(dǎo)入的元數(shù)據(jù)模板批量導(dǎo)入新網(wǎng)站。其中,尤其需要注意音視頻資源與論文等其他內(nèi)容的關(guān)聯(lián),需要在新網(wǎng)站中進(jìn)行重建。而對于存儲在第三方平臺上的音視頻數(shù)據(jù)可以采取兩種處理方式,其一是繼續(xù)將數(shù)據(jù)保留在第三方平臺,直接在新網(wǎng)站中拷貝相關(guān)鏈接即可;其二是從保證數(shù)據(jù)完整性的角度出發(fā),將相關(guān)數(shù)據(jù)收回科技期刊網(wǎng)站自行管理,可以通過分析第三方平臺的數(shù)據(jù)規(guī)則,利用技術(shù)采集工具實(shí)現(xiàn)音視頻數(shù)據(jù)的持續(xù)采集與入庫,確保新網(wǎng)站和第三方平臺的數(shù)據(jù)實(shí)現(xiàn)周期性更新。
2.2.3 L3層期刊的用戶數(shù)據(jù)及行為數(shù)據(jù)的遷移
L3層的數(shù)據(jù)為期刊的用戶數(shù)據(jù)及行為數(shù)據(jù),包括用戶信息數(shù)據(jù)、用戶行為數(shù)據(jù)或資源利用數(shù)據(jù)及系統(tǒng)訪問數(shù)據(jù)(如網(wǎng)站訪問量、訪問時長)等。
期刊的用戶信息數(shù)據(jù)主要指網(wǎng)站前臺的讀者數(shù)據(jù),通過導(dǎo)出已經(jīng)注冊、登錄的用戶賬號信息,在新系統(tǒng)中實(shí)現(xiàn)賬號的批量初始化,保證用戶的連續(xù)訪問。在遷移的過程中,需要特別注意保護(hù)用戶密碼等敏感數(shù)據(jù)的安全,確保用戶的隱私及保密數(shù)據(jù)不被泄露。同時,對于訂閱制期刊,其用戶的訂閱信息也需要和用戶數(shù)據(jù)一起遷移。
用戶行為數(shù)據(jù)或資源利用數(shù)據(jù)指前臺網(wǎng)站的所有內(nèi)容資源,用戶在使用資源時的行為數(shù)據(jù),包括論文的瀏覽量、下載量及音視頻的瀏覽量、播放量、下載量等數(shù)據(jù),可以通過系統(tǒng)日志導(dǎo)出,不同的資源在導(dǎo)出時可以將系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)包含在內(nèi)。
2.2.4 L4層期刊網(wǎng)站與上下游系統(tǒng)連通數(shù)據(jù)的遷移
L4層的數(shù)據(jù)為期刊網(wǎng)站與上下游系統(tǒng)的連通數(shù)據(jù),主要遷移的是DOI注冊信息。一些期刊在發(fā)布論文時會對其進(jìn)行DOI注冊,遷移網(wǎng)站數(shù)據(jù)時也需要將DOI解析后的目標(biāo)地址遷移到新網(wǎng)站,否則一旦舊網(wǎng)站下線,DOI解析就會無法被訪問。可以通過更新DOI注冊的相關(guān)信息來維護(hù)DOI注冊信息的持久性及DOI元數(shù)據(jù)的準(zhǔn)確性。
針對DOI注冊信息,本文提出遷移策略和思路:將所有注冊過DOI的數(shù)字對象列表進(jìn)行導(dǎo)出和遷移,數(shù)字對象一般包括論文、部分論文部件(如圖片、表格等)、增強(qiáng)出版數(shù)據(jù)(如音頻、視頻等)及其他類型的數(shù)據(jù),根據(jù)列表分門別類地在新網(wǎng)站系統(tǒng)中使用新的URL進(jìn)行解析地址更新。如果舊網(wǎng)站系統(tǒng)中沒有記錄相關(guān)數(shù)據(jù)或不支持導(dǎo)出,則可以根據(jù)Crossref平臺提供的期刊DOI和URL列表獲取相關(guān)信息,科技期刊可以要求新網(wǎng)站平臺的技術(shù)商根據(jù)列表形成包含論文在內(nèi)的各種數(shù)字對象的DOI和URL信息的新格式文件,其格式體例可參見Crossref平臺制定的包含制表符分隔列表的文本文件具體規(guī)則[3]。之后即可聯(lián)系Crossref的管理員進(jìn)行批量DOI重新解析操作,或通過Crossref的管理工具批量上傳提交。
2.3 平臺遷移與數(shù)據(jù)的相關(guān)事項(xiàng)
為了實(shí)現(xiàn)新科技期刊平臺與上下游系統(tǒng)的連通,除完成上述數(shù)據(jù)的遷移外,還需注意與平臺遷移相關(guān)的搜索引擎收錄更新及各數(shù)據(jù)庫收錄更新等相關(guān)事項(xiàng)。此類事項(xiàng)與遷移平臺的技術(shù)功能、第三方對接平臺接口有關(guān),雖不屬于數(shù)據(jù)遷移范疇,未列入數(shù)據(jù)遷移層次模型,但與遷入的新平臺中相關(guān)的數(shù)據(jù)關(guān)系密切。
搜索引擎收錄更新以百度和谷歌收錄更新為例。對于百度收錄更新,可參考百度的網(wǎng)站收錄工具說明[4],當(dāng)科技期刊進(jìn)行第一次網(wǎng)站收錄時,技術(shù)服務(wù)商可首先進(jìn)行百度網(wǎng)站收錄開放平臺的注冊,然后進(jìn)行網(wǎng)站的域名驗(yàn)證,之后即可通過百度提供的API接口進(jìn)行網(wǎng)站URL的批量收錄提交;當(dāng)科技期刊進(jìn)行新舊網(wǎng)站或域名切換時,則需要通過百度提供的網(wǎng)站改版工具[5]提交當(dāng)前網(wǎng)站的所有URL鏈接。對于谷歌收錄更新,則需要通過谷歌開發(fā)者賬號按收錄要求[6]生成并重新提交網(wǎng)頁地圖(Sitemap)文件。
在各數(shù)據(jù)庫收錄更新方面,科技期刊收錄數(shù)據(jù)庫的數(shù)據(jù)在新舊平臺進(jìn)行切換時,需要對原始數(shù)據(jù)庫——如中國科學(xué)引文數(shù)據(jù)庫(CSCD)、Pubmed、Scopus數(shù)據(jù)庫中的論文元數(shù)據(jù)及論文可觸達(dá)的URL地址進(jìn)行更新。主流的數(shù)據(jù)更新方式為,數(shù)據(jù)庫平臺向期刊提供文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)服務(wù),科技期刊按照數(shù)據(jù)庫的要求準(zhǔn)備并提交數(shù)據(jù),并通過FTP服務(wù)器進(jìn)行原始數(shù)據(jù)的更新,確??萍计诳屡f平臺切換后依然可以保證論文的原文獲取鏈接準(zhǔn)確無誤。以Pubmed數(shù)據(jù)庫收錄更新為例,若期刊被Pubmed數(shù)據(jù)庫收錄,在進(jìn)行科技期刊網(wǎng)站的新舊切換時需要對原始提交給Pubmed數(shù)據(jù)庫的論文原文鏈接進(jìn)行批量更新,按照Pubmed數(shù)據(jù)庫的數(shù)據(jù)提交更新機(jī)制制作XML文件(見圖5),并通過Pubmed數(shù)據(jù)庫提供的FTP服務(wù)器上傳、更新該XML文件,以保證Pubmed數(shù)據(jù)庫的論文能夠準(zhǔn)確鏈接到新的網(wǎng)站平臺。
3 結(jié)語
科技期刊發(fā)布平臺的數(shù)據(jù)遷移過程較為繁瑣,本文通過對發(fā)布平臺中需要遷移的數(shù)據(jù)進(jìn)行分析,構(gòu)建了科技期刊發(fā)布平臺數(shù)據(jù)遷移的層次模型,將需要遷移的數(shù)據(jù)分為期刊的基礎(chǔ)數(shù)據(jù)、擴(kuò)展數(shù)據(jù)、用戶數(shù)據(jù)及行為數(shù)據(jù)、網(wǎng)站與上下游系統(tǒng)的連通數(shù)據(jù)四個層次,對該層次模型進(jìn)行實(shí)踐應(yīng)用,針對每一層數(shù)據(jù)分別提出數(shù)據(jù)遷移的策略、思路和方法,對期刊數(shù)據(jù)遷移事項(xiàng)的開展提供建議,拓展其執(zhí)行思路,以期促進(jìn)科技期刊數(shù)字化建設(shè)的健康發(fā)展。
目前,期刊平臺技術(shù)提供商對于期刊數(shù)據(jù)遷移的認(rèn)識還比較有限,實(shí)施時往往比較被動。未來若其能夠提供更好的技術(shù)支持,期刊的數(shù)據(jù)遷移將更加順暢,如可以在多平臺間通過提供接口或遷移協(xié)議的方式實(shí)現(xiàn)數(shù)據(jù)遷移,甚至更進(jìn)一步,新舊平臺間可以“一鍵”實(shí)現(xiàn)所有數(shù)據(jù)的遷移,真正實(shí)現(xiàn)期刊網(wǎng)站系統(tǒng)的平滑過渡,屆時,科技期刊平臺的產(chǎn)品競爭力將得到飛躍式發(fā)展。
作者簡介
郭軍強(qiáng),男,中圖科信數(shù)智技術(shù)(北京)有限公司產(chǎn)品經(jīng)理。研究方向:互聯(lián)網(wǎng)及數(shù)字出版產(chǎn)品與平臺設(shè)計(jì)。
參考文獻(xiàn)
[1]許山山,史涯晴,韓敬利,等.數(shù)據(jù)遷移研究綜述[J].軟件導(dǎo)刊,2023,22(7):234-246.
[2]張斯龍,鄭辛甜,馬岳峰.學(xué)術(shù)期刊網(wǎng)站的升級[J].科技期刊發(fā)展與導(dǎo)向,2018:118-123.
[3]Crossref.How to update your resolution URLs[EB/OL].(2022-05-20)[2023-12-27].https://www.crossref.org/documentation/register-maintain-records/maintaining-your-metadata/updating-your-metadata/#00172.
[4]百度搜索資源平臺.平臺工具使用手冊:如何使用API推送功能[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=3#h2_article_title14.
[5]百度搜索資源平臺.平臺工具使用手冊:網(wǎng)站改版工具如何使用[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=6#h2_article_title19.
[6]Google搜索中心.請求Google重新抓取您的網(wǎng)址[EB/OL].[2023-12-27].https://www.google.com/addurl.
Construction and Practical Application of Data Migration Hierarchical Model for Sci-Tech Journal Publishing Platforms
GUO Junqiang
Zhongtu Kexin Technology (Beijing) Co., Ltd., 100020, Beijing, China
Abstract: Data involved in the migration process of sci-tech journal publishing platforms can be divided into different layers according to types, such as basic data, extended data, user data and behavior data, and website and up-down-stream-connected data. Related hierarchical model can be constructed accordingly, and it can be applied in the actual data migration practice. According to the characteristics of data at different layers, this study analyzed in-depth the migration ideas, methods and precautions of data at each layer in the process of data migration, and put forward corresponding migration cases, with a view to providing references to promote the healthy development of the digitization of sci-tech journals.
Keywords: Academic journals; Publishing platform; Data migration; Hierarchical model