王家玲
(銅陵學院圖書館,安徽銅陵244000)
數字圖書館用戶隱私信息是指用戶注冊時提交的個人信息以及用戶在使用數字圖書館資源、享受數字圖書館服務時所產生的一切與用戶有關的信息[1],其具體內容包括以下兩方面:(1)用戶個人信息。數字圖書館一般是在用戶成功注冊后才能使用。而用戶在注冊時,需要填寫一份用戶資料信息,包括用戶身份信息和用戶背景信息。用戶身份信息主要包括用戶的真實姓名、年齡、性別、圖書證或身份證證件號、聯系電話、個人郵箱等;用戶背景信息包括用戶的單位、職務、學歷、專業、婚姻情況等。因此,研究知識服務模式下用戶的隱私保護有著重要意義。(2)用戶使用記錄。用戶在查詢或下載數字圖書館資源、享受數字圖書館服務時,其訪問時所用終端設備的IP地址、訪問時間、瀏覽、借閱和下載記錄以及用戶所訂購的信息和服務等都會被Web服務器中的工作日志自動記錄。
1.1知識發現的概念
知識發現是一個對海量數據進行的一種高級處理過程。它是指運用統計學、機器學習和人工智能等多種高新技術,對海量的數據庫資源、數據倉庫資源以及知識庫資源進行分析處理和深層挖掘,找出海量數據中可能的潛在的關聯、規則、模式、趨勢等,以獲取有效的、新穎的、有潛在應用價值的和最終可理解的知識的過程。知識發現的意義在于,它使得人們對數據的需求從低層次的簡單查詢,提升到高層次的知識服務的獲取。
知識發現的過程可總結為三部分,它們分別是數據收集與預處理、數據挖掘和模式表示與評價。知識發現的第一步就是數據收集與預處理過程,這個過程主要是收集與提取將要對其進行挖掘的數據對象,并對數據進行一些預處理,如數據清理、加工、轉換等使收集到的數據適應挖掘算法;數據挖掘是知識發現中最為關鍵的一步,它根據事先選定的數據挖掘算法,對已經過預處理后的數據進行模式的提取;知識發現還要求對數據進行模式表示及評價,即對數據挖掘過程中提取的模式,運用可視化的方式進行表示,以形成用戶可理解的知識,然后根據興趣度評價來確定對用戶有用的知識,從而形成可與用戶互動更新的知識庫。
1.2知識發現與數字圖書館知識服務
數字圖書館知識服務是信息服務的一種高級形式,它為用戶提供的不是簡單的信息服務,而是通過集成化、集約化等形式對數據挖掘所形成的知識進行管理,從而直接為用戶提供知識產品和問題解決方案,實現知識創新[2]。而知識發現可實現將數據轉化成知識的過程,恰可以實現數字圖書館信息資源到知識的轉換,是數字圖書館開展知識服務的前提。圖1給出了基于知識發現的數字圖書館知識服務的模型,該模型將數字圖書館知識服務系統分成四層,分別是數據層、知識層、服務層和交互層。數據層是數字圖書館所有的資源,包括其購買的商業數據庫、自建的特色庫資源,用戶信息資源庫和網絡可獲取的開放資源;知識層利用知識發現將數據層資源轉換成可利用的知識庫,如專家知識庫、學科知識庫、用戶個性化知識庫等;服務層對應于知識發現的知識可視化管理階段,對形成的知識庫進行管理,形成各服務模塊,如知識導航、個性化推薦、知識檢索、知識咨詢等;交互層是用戶的訪問界面,用戶通過友好的界面享受知識服務。由圖1可以看出,知識發現是數據層到知識服務層功能實現的鏈接[3]。

圖1 基于知識發現的數字圖書館知識服務模型
2.1數據收集中的用戶隱私風險
在數據收集階段,除了對數字圖書館的數據庫資源、網絡OA資源進行收集外,還包括對數字圖書館用戶信息的收集。用戶信息的收集主要有兩部分組成,一部分是由用戶主動提供的,比如用戶注冊時提交的個人信息等,主動提供的信息包括用戶的身份信息和背景信息;另一部分則是在用戶不知情的情況下,由系統自動抓取的,如用戶的使用記錄信息,這些信息可以從服務器訪問日志、網絡cookies等中提取和收集。給用戶個人敏感信息或隱私的安全帶來風險[4]。
2.2數據挖掘過程中的用戶隱私風險
知識庫的構建是知識服務的最為關鍵部分。它將收集來的數據運用數據挖掘技術,進行過濾、組織和挖掘,形成各種知識庫。其中用戶個性化知識庫的構建,需要追蹤用戶使用記錄信息,包括用戶的查詢記錄、檢索檢索、瀏覽記錄等。通過對這些記錄的深層次分析,挖掘出各用戶的不同需求特點,預測用戶的需求趨向并發現用戶潛在需求。這個過程可使得用戶的知識需求或行為趨向被提前暴露[5],給用戶隱私帶來風險。
2.3數據傳輸過程中的用戶隱私風險
數字圖書館知識服務過程中,當用戶請求服務時,其檢索請求和各知識庫數據就需要在網絡上進行傳輸,這當然也包含個性化知識庫中的用戶個人隱私數據。而由于網絡的公開性,數據在網絡上傳輸過程中,攻擊者可通過線路搭載、鏈路竊聽等方式可對用戶隱私信息進行截獲、竊聽、篡改或破壞,隱私信息的保密性、完整性無法得到保證。
2.4數據訪問階段的用戶隱私風險
數字圖書館在進行知識服務的過程中,服務器需要頻繁地對數據進行存操作。若身份認證、訪問控制、遠程接入等的防護措施脆弱,一些不法分子會對這些數據進行未經授權的訪問獲取,這樣存放在數字圖書館服務器中的數據被不法分子輕而易舉地竊取。由于用戶終端病毒防御能力缺失,用戶的操作過程很容易被木馬記錄并傳遞給了木馬控制者,木馬控制者也可輕易獲取用戶隱私信息。此外,數字圖書館網絡管理員違規查看數據庫記錄、用戶隱私信息等,這些都有可能造成用戶隱私信息的泄露或篡改。
通過上節的隱私風險分析可知,數字圖書館知識服務的用戶隱私風險主要集中在知識發現的各個階段和用戶訪問界面的網絡邊界。本節針對各階段可能存在的用戶隱私風險,提出分層次多重技術保護框架來保護用戶隱私,如圖2所示。

圖2 數字圖書館知識服務隱私技術保護框架
3.1數據收集階段
針對數據收集階段用戶的隱私風險,可采用與用戶進行隱私保護協商進行隱私保護,P3P標準和EPAL語言等都可實現此功能,它們均對系統搜集用戶信息的目的和用戶信息的類型進行了定義,用戶可從自己的需求出發,自主地選擇適合自己的隱私保護參數[6]。P3P標準和EPAL語言有著不同的特點,可根據具體情況適當選擇。P3P標準可利用瀏覽器來自動讀取和處理隱私政策,對系統所使用的瀏覽器有一定的要求。用戶可以預先在系統中對自己的個人隱私偏好進行設定,然后根據判斷站點的信息收集行為與用戶預先設定的標準是否相符,來確定是否要繼續訪問該站點,或是否要對自己制定的個人隱私策略作出修改,以此實現與用戶隱私保護協商。而EPAL語言是一種基于XML的形式化語言,它可更加詳細地描述隱私保護策略并對其進行配置,但是它的嵌入過程復雜,用戶操作不便。通過P3P標準和EPAL語言等用戶隱私保護協商政策,不僅能在數據收集階段有效保護用戶隱私,還能提高用戶隱私保護意識。
3.2數據挖掘階段
在數字圖書館知識服務中,為防止攻擊者非法地使用數據挖掘技術來獲取用戶的隱私信息,可采用K-匿名技術,L多樣性等匿名保護技術進行保護。在K-匿名技術中,準標志符是指能夠利用推演來標志個體信息的一組屬性。在該技術中,數據中每個元組都存在在準標志屬性上取值相同的元組,而且這樣的元組不少于k個,若攻擊者想通過其他數據鏈來識別元組所屬個體的身份,其概率將不超過1/k,若數據k足夠大,鏈接攻擊造成的隱私泄露的風險就會大大降低。但是對于背景知識攻擊和一致性攻擊,不加控制的K-匿名算法就很容易攻破。針對這種情況,學者提出L多樣性模型,它要求每個等價類中的敏感值必須滿足L多樣性需求,以此來提高敏感值與其所屬個體的鏈接難度,有效防止一致性攻擊和背景知識攻擊。在對數據進行深層次挖掘之前,通過K-匿名技術,L多樣性等匿名保護技術對數據進行轉換,使得個人隱私信息大眾化,脫離個體身份,有效防止用戶隱私泄露。
3.3數據傳輸階段
用戶隱私信息在網絡上進行傳輸時,可使用數據加密技術進行處理,這樣數據即使被非法竊取,由于不知相應的解密算法,竊取者只能看到無意義的密文,無法看到明文,從而有效保護用戶的隱私。目前的加密算法如RSA、DES、MD5等都已具備很高的安全性。虛擬專用網技術是指在公用開放的網絡中附加了上層協議,并通過強有力的加密手段,向用戶提供類似“專用網絡”的網絡服務技術。數據通過安全的專用網絡進行傳輸,偷聽者即使截獲了數據也無法破解,從而保證了通道數據的機密性。建立數字圖書館虛擬專用網絡,可有效保障用戶隱私信息的安全傳輸[7]。
3.4數據訪問階段
針對知識服務的數據訪問階段,不法分子通過網絡邊界非法進入系統或對系統數據進行非法操作,給用戶帶來的隱私風險,框架中提出利用身份認證、入侵檢測和訪問控制等技術進行多重保護。身份認證技術可驗證用戶身份的合法性,保證合法授權的用戶順利進入系統,而未授權用戶則無法進入系統。通過嚴格的身份認證技術,保證系統內數據被合法用戶訪問和使用,它是系統網絡邊界保護的第一道關口。入侵檢測技術通過監視系統的運行狀態,收集并分析計算機網絡和系統關鍵點的數據,發現網絡和系統中是否有被攻擊跡象或者違反安全策略,以保證知識服務系統用戶隱私信息的機密性、完整性和可用性。訪問控制技術對用戶權限進行控制管理,用戶被授予的權限不同,他對系統數據的訪問操作也就不同,它的目的在于保證用戶信息不被非法訪問和使用,以保護用戶隱私。通過身份認證、入侵檢測和訪問控制等多重技術保護,不法分子進入系統盜取或破壞用戶隱私信息的難度大大增加,因此在網絡邊界為用戶隱私保護提供了安全保障。
數字圖書館知識服務是數字圖書館服務的新模式,新模式下用戶的隱私問題更加突出,其隱私保護也將更為復雜。為消除用戶享受知識服務時的隱私顧慮,使得數字圖書館知識服務更快更好的發展,文章對數字圖書館知識服務中用戶可能存在的隱私風險進行了分析,并結合現有的隱私保護技術,給出技術保護框架,旨在為數字圖書館知識服務中用戶隱私保護后續研究提供參考。但文章只限于從技術角度來探討知識服務中的隱私保護,而要實現真正的隱私保護,必須結合立法、法規政策以及用戶自我保護意識,從多方位進行保護。
[1]徐險峰,馬海群,王海東.圖書館用戶隱私權保護研究綜述[J].圖書館建設,2010(7):30-34.
[2]賈玲.圖書館知識服務探析[J].情報資料工作,2013(2):97-100.
[3]邵慧麗,張帆.基于知識發現數字圖書館知識服務研究[J].圖書館,2016(2):70-73.
[4]李愛國,曹翔,汪社教.圖書館用戶信息資源化過程中用戶隱私信息保護問題與對策[J].圖書情報工作,2015(13):26-30.
[5]馬曉亭.大數據時代圖書館個性化服務讀者隱私保護研究[J].圖書館論壇,2014(2):84-89.
[6]潘浩,張幸.一種基于自主計算的數字圖書館個性化服務隱私保護框架[J].圖書情報工作,2009(11):75-77.
[7]薄懷霞.數字圖書館個性化信息服務隱私保護技術研究[J].圖書館學刊,2014(2):112-115.