張成麗
(南陽文化藝術學校 河南南陽 473000)
在數字人文觀念下,對人文學科進行研究時,更加強調對數據資源的管理,在整個研究過程中都可以利用數據將研究結果進行呈現。而在現代化的圖書館系統建設過程中,對圖書館數據進行管理,也需要積極貫徹落實數字人文觀念,在圖書館服務中,數據服務已經成為關鍵的服務項目,因而從提高數字圖書館服務水平的角度來看,圖書館建設人員也要積極的對數字人文觀念進行應用,通過加強應用實踐,促進數字人文觀念與數字圖書館建設的深度融合。
(一)數據獲取。在獲取圖書館數據時,數據處理人員要把握數據獲取的幾個層面。最簡單的數據獲取方法為在成熟的數據庫中對數據進行導出,此時主要應用的是原始文獻。而要想獲取網絡深層結構中的數據則要善于應用各種社交媒體平臺。網絡深層結構中的數據由于常常出現拒絕鏈接或未被鏈接的情況,因而會隱藏較多的數據。在對該類數據進行獲取時,需要數據處理人員借助專業的技術和操作頁面,確保獲取有價值的數據信息。在社交媒體平臺中,每天都會產生大規模的數據,數據類型不一,包括用戶個人信息以及用戶使用社交媒體平臺產生的信息等,信息處理人員應關注非結構或半結構頁面,并采取科學的手段從中獲取有用的數據信息;在獲取數據信息之后,要對其進行轉化,要確保格式統一,最終轉化成結構化資源并輸出。
(二)數據初步整理
1.數據標注。在對獲取的數據進行標注時,會使用到語義數據自動標注法,該方法會在計算機技術的支持下處理數據對象,具體處理的為數據對象的語義概念和語義關系,且整個處理過程的自動化程度較高。當前我國在人工智能領域已經有了對Web資源自動語義標注的研究,但是現階段的自動語義標注還只是停留在對學習統計結構以及專家經驗進行學習的基礎上,因而其精確度難以得到保障。在具體應用過程中,需要結合實際情況進行適當的調整。而在對數據進行標注時,還可以采用本體標注法。在本體標注法下,數據標注人員要對現有的本體語義資源的文本結構進行預處理,要進行本體識別、查詢、抽取,并進一步對本體語義信息進行擴充,最終輸出RDF/OWL文檔。
2.數據比較。在對人文學科進行數字化研究時,數據處理人員需要對數據進行全面的分析。而在傳統的研究動中,人們在分析數據時,對已掌握的文獻資料的依賴程度較大,整體的數據規模較小,且在技術限制下,對數據進行分析時,常使用隨機采樣的方式進行數據分析。而在數字人文支持下,數據分析人員面對的數據規模較大,且面對的數據類型和結構較為復雜,但是基于信息技術的支持,數據分析人員也可以借助相應的平臺和技術對數據進行全面的分析。而在數字人文觀念下進行的數據分析,需要借助數字人文研究平臺,而在該平臺下,可以對數據進行比較。檢索者可以在平臺中對不同數據庫以及媒體平臺提供的不同內容和格式的信息進行比較,并形成可視化的比較結果。當前出現的超星系統已經可以滿足數據比較的需求,但是該系統還是需要進一步完善,以滿足數據處理的其他需求。
3.數據取樣。在數據處理過程中,需要對數據庫中的系統信息進行取樣,以判斷系統功能以及數據是否符合數據應用。在數據取樣時,要遵循隨機取樣原則,取樣完成后要對數據進行分析,如數據標注是否達成一致以及數據庫中是否有全面的關鍵詞、主題詞以及分類詞等。再進一步,則要對研究深網數據的標注是否符合要求等進行分析。對于系統功能,也可以從數據取樣中進行分析,可以對系統功能中的檢索結果可視化功能進行分析,此外,還要判斷系統是否能夠將半結構化以及非結構化數據轉化為結構化編碼等。
4.數據闡釋。對數據進行初步處理時,最后一個環節是數據闡述,即對數據進行自動摘要和語義數據的自動標注,而各異構數據庫中標注的關鍵詞和分類詞等也屬于數據闡述。在對數據進行闡述處理時,需要數據處理人員借助相應的工具,常用的成熟詞表為《中國分類主題詞表》等。而在進行數據闡述時,還需要關注網絡上的常用詞匯,并使數據闡述與網絡詞匯的近義或同義建立映射關系。在進行數據闡述時,常用的分類法為關鍵詞(檢索詞)——主題詞(檢索詞)——學科屬性。而在數據闡述的匯總環節,處理人員要建立數字人文系統的《智能標引詞表》,在上述措施下,數據處理人員就借助軟件實現對數據的自動化標引。
在對圖書館數據進行處理時,數據整合為其核心環節。在具體的圖書館數據整合過程中,基于數字人文的研究角度,可以采用的數據整合模式主要有三種,即館藏數據整合、科研數據收集和網絡開放數據集采集挖掘。其中館藏數據整合是較為常用的數據整合模式。在館藏數據整合時,需要對異構數字資源進行融合、聚類和重組,基于此,可以將資源從數據層的揭示與展現轉向更深層次的服務,即到達信息層和知識層;而在當前信息技術不斷更新的社會背景下,新型科研設備和研究方法不斷出現,用戶在獲取資源時,可以將資源進行可視化的呈現,即使用時間軸、地域軸等形成可視化的知識圖譜。科研數據收集強調的是對數據洪流的高效處理。在該模式下,數據整合人員能夠利用數據整合軟件進行數據整合,從而幫助進行更高效率的科研項目與科研創新;當前的網絡環境具有較高的開放程度,在獲取數據時,開放數據集已經成為數據來源的重要渠道之一,且國家也形成了數據的公開化制度,提供了具有更高質量的官方數據,基于此,可以進行高質量的數據整合。而在數字圖書館的數據整合過程中,數據整合人員可以借助以下四種途徑進行高效的數據整合:第一種為數據源整合。要對獲取的數據源進行格式處理,以形成統一化的數據資料。經過處理后的數據要存儲在數據庫中,并積極構建一站式的數據檢索查詢入口。這樣一來,用戶可以脫離原有的各類異構數據庫平臺的束縛,拓寬數據獲取空間;第二種為門戶整合。對于獲取的異構數據門戶而言,要將其轉化為統一的數據門戶,通過對異構數據的有機整合,可以為用戶提供統一的門戶檢索渠道,使其在該檢索渠道中獲得自己所需的數據;第三種是數據庫整合。即對獲取的各類異構數據庫進行整合,形成新的數據集合。在對數據進行整合處理時,要避免出現數據信息的重復現象;第四種是系統整合。在該整合模式下,數據處理人員不僅要對數據資源和應用系統進行集成,還應該統一數據資源的結構與呈現方式,積極構建數據資源管理平臺,實現一站式管理。在進行數據的系統整合時,也要關注與其他系統的集成,如資源調度、館際互借等,確保能夠提高數據整合后的數據共享度。
(一)深網數據提取技術。在對網絡深層次結構中的數據進行提取時,數據處理人員需要使用深網數據提取技術,具體包括兩種形式。一是基于半監督順序回歸模型的爬蟲算法。該算法首先要對深網頁面分類器進行構造,使用的為半監督順序回歸法,要對主題網頁進行精準的層次定位。接著要在多線程法支持下,利用深網鏈接信息抽取器對有效的鏈接進行抽取。最后數據處理人員要在深網頁面分類器分類結果的支持下對有效鏈接進行自動實時的提取;二是面向實體層Web的信息索引技術。在數據處理過程中,爬蟲工具會對Web數據庫中存儲的本地數據進行抽取和索引。在具體的信息索引過程中,處理人員需要首先生成簡單的頁面索引,在抽取屬性信息時,要以反饋條件隨機域模型為基準。在搜索時,要對所有能夠滿足條件的頁面進行索引,常用的索引法為快速排序和深度搜索方法。接著要在用戶交互定義下,對所有待抽取頁面快速分隔,在進行迭代抽取時,也要以實體模型為依據,對所有的數據結果進行集合,最終形成可信的信息實體。
(二)社交網絡數據提取技術。社交網絡平臺在日常管理過程中對異常狀況會進行跟蹤監測,一般會采用封號或屏蔽IP的方式,因而在利用爬蟲工具時,也會受到限制。此時,數據處理人員就要在對社交平臺進行數據提取的過程中,對瀏覽器測試組件進行充分應用。在瀏覽器測試組件支持下,用戶在啟動瀏覽器時,會在JavaScript庫中注入信息。基于此,可以實現與客戶端的代碼通訊,并對客戶端的信息進行精準翻譯,數據處理人員可以對JavaScript庫函數獲取頁面DOM樹進行調用。此時,數據處理人員可以對頁面數據和元素進行更為直觀的了解,從而能夠進一步獲取與分析數據。在分析數據的過程中則可以對數據進行自動化標注。
(三)整合工具及服務平臺構建。第一,整合工具。在數據整合過程中,數據處理人員可以使用相應的工具構建數據庫,如oracle關系型數據庫。而在具體數據整合時,數據處理人員可以借助XML技術(工具)處理各種異構數據,并使其轉換成標準格式,在數據轉換過程中,各個系統都需要進行多次數據轉換,以此來實現系統間的數據交流。第二,服務平臺構建。在對圖書館數據服務平臺進行構建時,相關人員要確保平臺功能的完整。要構建完善的門戶系統,以便于用戶進行數據檢索、數據分析、學術交流、教學支持以及個性化推送等。在上述前提下,用戶之間還能夠實現高頻率的交互。在構建服務平臺時,要從用戶層、服務層、數據層以及資源層四個層面進行。不同的服務層對應著不同的數據種類以及服務種類,平臺構建人員要基于用戶需求,結合信息技術,提升服務平臺的服務水準。
數字圖書館已經成為當前圖書館建設的主要形式,在數字人文觀念下,數字圖書館遇到了關鍵的發展機遇。針對數字圖書館的發展要求,建設人員需要關注圖書館的數據處理,而通過應用與數字人文相關的技術,則可以實現對圖書館數據的高效處理,包括數據獲取、初步處理和整合處理等。作為圖書館數據的處理人員,要積極更新數據處理理念,創新基于數字人文觀念的圖書館數據處理技術,不斷提高圖書館數據的處理效率。