王 靜
(云南省地方病防治所,云南 大理 671000)
在信息時代,考慮到海量的數(shù)據(jù)和信息歸檔服務(wù),“4V+1C”的特性呈現(xiàn):數(shù)據(jù)量大(volumes)、數(shù)據(jù)類型多樣(diversity)、數(shù)據(jù)密度低值(values)、高速的計算速度(speeds)、復(fù)雜(complex)的數(shù)據(jù)結(jié)構(gòu),使得文件管理員難以在復(fù)雜多樣的數(shù)據(jù)環(huán)境中聚合高質(zhì)量的信息數(shù)據(jù),數(shù)據(jù)處理變得困難,并影響文件資源利用效率。因此,對各類檔案數(shù)據(jù)進行高效的處理和分析,提取不同類型、不同結(jié)構(gòu)、復(fù)雜多樣的數(shù)據(jù)的有價值信息,是檔案管理提升服務(wù)功能的重要保障。80年代中國學(xué)者開始關(guān)注情景化推薦模型,在政府、大學(xué)和科研院所的支持下,情景化推薦被作為計算機科學(xué)領(lǐng)域的重要工程項目。計算機科學(xué)、信息科學(xué)和數(shù)學(xué)領(lǐng)域的科學(xué)家已經(jīng)開始研究和實踐整合多源數(shù)據(jù)的技術(shù)。
把面向文件的業(yè)務(wù)場景,界定為影響用戶實時數(shù)據(jù)需要的時刻、場所和環(huán)境,例如使用文件數(shù)據(jù)資源的用戶環(huán)境,按照文件數(shù)據(jù)資源的特性和用戶需要來做。涉及的內(nèi)容包含了知識偏好、閱讀習(xí)慣和文件資源使用、學(xué)習(xí)時間安排等。
(1)用戶情景。用戶情景是指有關(guān)用戶在使用文件資源,或者通過數(shù)字系統(tǒng)搜索資料時的狀態(tài)或者行為所設(shè)置的場景信息。因此,假設(shè)用戶正在學(xué)習(xí)并利用文件中的資源,他們是否想要自信地鍛煉或玩耍,如何在訓(xùn)練或玩耍期間作出決定等。任何這些場景元素,都會影響用戶的注意力。時間分配和行動決策是影響歸檔服務(wù)情景推薦的重要變量。
(2)位置情景。位置情景是用戶在檢索文件資源時所在的位置,進行用戶位置場景描述,生成的場景信息與用戶位置相關(guān)。例如,如果用戶在學(xué)校或在家使用文件功能和位置,則它包括用戶所在的城市、位置類型(家、學(xué)校、社交聚會等)以及等待的人的狀態(tài)。
(3)時間情景。主要代表用戶花在文件上的時間和他們花在文件上的時間,時間情景用來描述用戶的習(xí)慣和行為偏好(比如晚上),用戶在不同的時間是數(shù)字的,需要信息。他們更注重休息時間的休閑娛樂,更注重工作時間與工作相關(guān)的檔案信息。
(4)環(huán)境情景
環(huán)境情景是用戶需要通過場景選擇系統(tǒng)運行的場景。描述了使用者的生活環(huán)境信息,如氣溫、自然景觀、氣候和濕度。用戶通常處在不同的工作環(huán)境中。在設(shè)計情景化的推薦系統(tǒng)時,必須從多種視角考慮環(huán)境因素,才能掌握采用數(shù)字推薦系統(tǒng)的使用者的實際狀況,及其對收集與更新文件資料的需要。
(5)設(shè)備情景
設(shè)備情景描述了供用戶接收文件資源的數(shù)字移動互聯(lián)網(wǎng)技術(shù)設(shè)備,如手機、智能平板計算機以及移動互聯(lián)網(wǎng)閱讀器。設(shè)備情景圖描述了以下二個主要方面。一是硬件設(shè)施信號方面,如數(shù)字裝置的信號顯示方式、設(shè)備形狀等。另一種則是設(shè)備的網(wǎng)絡(luò)應(yīng)用信息,包含了設(shè)備的硬件上網(wǎng)模式、網(wǎng)絡(luò)顯卡、上網(wǎng)傳輸效率、網(wǎng)絡(luò)型號等信息,它精確定位了應(yīng)用需求,以數(shù)字信息的形式識別情景信息設(shè)備,與設(shè)備共享。
目前對用戶定制情景的科學(xué)研究涵蓋了整個圖書館使用情景作為研究課題,而對用戶定制情景的研究不足,因此情景推薦和用戶定制需求與結(jié)果存在一定的不一致。在數(shù)字信息推薦過程中,應(yīng)根據(jù)用戶所處的時間、環(huán)境和位置來確定情景信息推薦。有些科學(xué)家認為這些因素很重要,有些用戶認為它們不重要,有些用戶認為時間、地點和其他因素很重要。
多源數(shù)據(jù)融合是指運用各種計算工具和大數(shù)據(jù)技術(shù),對相關(guān)數(shù)據(jù)類型、結(jié)構(gòu)和值進行收集、分類、研究和分析。對類型數(shù)據(jù)作出科學(xué)、客觀地評價與分類,以最終獲取更高質(zhì)量的信息資料。多源數(shù)據(jù)合并的主要目的,是對不同類別、不同結(jié)構(gòu)、不同內(nèi)容的數(shù)據(jù)進行更廣泛的優(yōu)化,以吸收不同源數(shù)據(jù)的好處,作為個體更可靠、評價低的規(guī)模數(shù)據(jù)符合決策管理要求,使面向用戶的數(shù)據(jù)服務(wù)更科學(xué)、更有價值、更科學(xué)的數(shù)據(jù)。
根據(jù)當前的科學(xué)研究,多源數(shù)據(jù)融合技術(shù)是一門對多源數(shù)據(jù)進行綜合分類、運算、提取與管理的數(shù)據(jù)處理技術(shù)。對數(shù)據(jù)資源的深入發(fā)掘、分析與總結(jié),使數(shù)據(jù)相互互斥,連接的有機整體讓信息分析師更加方便地全面掌握數(shù)據(jù)。采用了多源數(shù)據(jù)融合技術(shù)的多源數(shù)據(jù)融合管理系統(tǒng)主要應(yīng)用于政府信息情報服務(wù)。該系統(tǒng)主要由二部分構(gòu)成:分布式的信息處理模塊和數(shù)據(jù)識別模塊。分布式數(shù)據(jù)處理模塊功能對各種數(shù)據(jù)結(jié)構(gòu)和類型實現(xiàn)分布式數(shù)據(jù)處理和融合重構(gòu),以及使用算法工具對各種數(shù)據(jù)類型實現(xiàn)深度分析,是一種客觀、準確的決策服務(wù),創(chuàng)造了科學(xué)、有效、高質(zhì)量的信息數(shù)據(jù)。
多源數(shù)據(jù)融合技術(shù),反映了人類對多渠道、多用途數(shù)據(jù)采集的需要,是計算機技術(shù)發(fā)展實踐的重要成果。經(jīng)過不斷的科學(xué)研究與信息實踐,圖書館與政府信息部門都已證實了多源數(shù)據(jù)融合技術(shù)的高安全性與有用的應(yīng)用能力,以及多源數(shù)據(jù)融合作為一種新興信息技術(shù)的高可用性。這些數(shù)據(jù)融合技術(shù)和傳統(tǒng)的數(shù)據(jù)應(yīng)用有著根本性的差異。通過分布式數(shù)據(jù)處理與數(shù)據(jù)識別系統(tǒng),人們能夠準確鑒別多種數(shù)據(jù)源,并對各種數(shù)據(jù)源的數(shù)據(jù)結(jié)構(gòu)和類型進行分析和評估。融合技術(shù)在社會實踐中,多源數(shù)據(jù)融合技術(shù)有助于人類探索數(shù)據(jù)的價值,發(fā)現(xiàn)數(shù)據(jù)規(guī)律的變化,從而認識數(shù)據(jù)的內(nèi)在關(guān)系。
目前,大部分場景化推薦系統(tǒng)都是通過對應(yīng)用場景的一般感知的信息推送活動,而繞過了對應(yīng)用個性化場景信息的解析。所以,場景化推薦文件中需要通過對用戶個性化場景的詳細分析,來建立場景化推薦模式。
本模型的首要功能是從各種應(yīng)用情景信息中,尋找對于用戶數(shù)字閱讀能力影響較大的應(yīng)用場景元素。即對具體的個性化情景作出有針對性的分析,以找到實際需要。把當前場景的節(jié)點和實際自定義場景加以對比,從而整理信息并準確判斷使用者的喜好。通過文件系統(tǒng)中的傳感器,以及RFID技術(shù)可以達到對用戶當前情況的感知。多源數(shù)據(jù)融合系統(tǒng)從不同角度整合用戶信息,并使用數(shù)據(jù)庫記錄實際的系統(tǒng)使用情況并評估具體的行為和情景信息。數(shù)據(jù)評估模式最初基于用戶、數(shù)字和情景信息。從各個角度尋找信息的共性,結(jié)合存儲的用戶語境數(shù)據(jù),形成多維語境歷史評估數(shù)據(jù)鏈接,獲得對用戶需求的準確洞察和分析,并從不同角度的用戶確定自己的閱讀行為偏好和習(xí)慣。該模塊是用戶情景識別的基礎(chǔ),需要分析文件的情景推薦模型。它也是融合多源數(shù)據(jù)的重要數(shù)據(jù)源,是建立情景推薦模型的基礎(chǔ)。
多源數(shù)據(jù)推薦模塊是情景推薦模型中最重要的部分。該模塊首先準確識別用戶的個人資料,從各種情景信息中分析用戶的自定義場景,根據(jù)用戶的個性化場景接收各種來源的數(shù)據(jù),并使用算法工具,精準匹配具體的定制化需求分析。根據(jù)實際的情景需求從多個來源發(fā)送數(shù)據(jù)。這些來自多個來源的數(shù)據(jù)包括基于用戶自定義情景的天氣、位置和環(huán)境信息,以及基于用戶情景對用戶的推薦,例如文件日志記錄和常用詞匯信息、個性化數(shù)據(jù)資源等最新信息,獲取合并不同來源數(shù)據(jù)的建議,盡可能滿足用戶需求。
用戶交互模型和多源數(shù)據(jù)推介管理系統(tǒng)都屬于場景化推介模式的一部分,而文件使用就是多數(shù)據(jù)推介管理系統(tǒng)業(yè)務(wù)的主要目標,使用者在整個文件使用流程中指揮著多數(shù)據(jù)推介管理系統(tǒng)。操作系統(tǒng)根據(jù)使用者的狀態(tài)信息,從多種來源準確地向使用者發(fā)送業(yè)務(wù)數(shù)據(jù),而使用者目前正在接受他們對業(yè)務(wù)圖和操作系統(tǒng)的建議結(jié)果。多源評分以及上傳數(shù)據(jù)倉庫,動態(tài)更新情況,并歸檔為用戶服務(wù)評分。在由多個來源與配置用戶和數(shù)據(jù)提供服務(wù)系統(tǒng)的模塊互動時,文件及時掌握用戶需求動向,準確分析使用者需求,并時刻看到服務(wù)質(zhì)量評價體系的成果,助一臂之力。
檔案情景化推薦模式大大提高了文檔服務(wù)的有效性,解決了使用者的各種業(yè)務(wù)需要,也增強了文檔服務(wù)系統(tǒng)的準確性與科學(xué)性,為使用者提供基于其認知需要的基于文檔內(nèi)容的服務(wù),也十分重要。用戶通過智能大數(shù)據(jù)技術(shù)的檔案數(shù)字全景歸檔服務(wù)在構(gòu)建推薦模式的基礎(chǔ)上,按照用戶行為偏好運行智能歸檔服務(wù),有效定制多源數(shù)據(jù),服務(wù)檔案管理有助于提升歸檔效果。