陸康 劉慧 任貝貝 杜健



摘? 要:[目的/意義]數字圖書館逐漸向智慧圖書館轉變。圖書館數據的收集、分析等數據使用行為不斷被實踐,并對業務管理與服務創新做出一定的貢獻。然而,涉及用戶隱私敏感數據的使用可能會帶來安全方面的問題。[方法/過程]本文在分析傳統的圖書館數據挖掘方法基礎上,嘗試引用PPDM(Privacy-Preserving Data Mining)的數據泛化、清洗、屏蔽、扭曲等方法,將數據挖掘與業務需求相融合,并以用戶數據規范化使用為目標,探索智慧服務背景下用戶隱私保護機制,構建業務實施與數據保護融合的可行性方案。[結果/結論]智慧圖書館數據收集、數據發布、數據共享、數據匯聚都可以借鑒PPDM方法對用戶隱私數據加以保護。智慧圖書館只有緊密聯系技術創新才能夠保障服務創新,從而促進智慧圖書館事業的發展。
關鍵詞:PPDM;智慧圖書館;用戶數據;隱私保護;數據挖掘
DOI:10.3969/j.issn.1008-0821.2020.10.010
〔中圖分類號〕G2520? 〔文獻標識碼〕A? 〔文章編號〕1008-0821(2020)10-0093-11
Research on User Privacy Data Protection of Smart Library Based on PPDM
Lu Kang1? Liu Hui1? Ren Beibei2? Du Jian1
(1.Nanjing Xiaozhuang University,Nanjing 211171,China;
2.Shanghai Institute ForIntegrated Application of Network Technology,Shanghai 200336,China)
Abstract:[Purpose/Significance]Digital libraries are also gradually transforming into smart libraries.The collection,analysis and other data usage behaviors of library data are constantly practiced,and make certain contributions to business management and service innovation.However,the use of sensitive data involving user privacy can raise security concerns.[Method/Process]Based on the analysis of data mining method based on the traditional library,try reference PPDM(privacy preserving data mining),the method of data generalization,cleaning,shielding,distortion,etc,and the integration of business requirements,data mining and the user data is standardized as the goal,to explore the smart service under the background of user privacy protection mechanism,build business implementation and data protection,the feasibility of integration solutions.[Pesult/Conclusion]The PPDM method can be used for data collection,data release,data sharing and data aggregation in a smart library to protect user privacy data.Only by closely connecting with technological innovation can smart libraries guarantee service innovation and thus promote the development of smart libraries.
Key words:privacy-preserving data mining;smart library;user data;privacy protection;data mining
智慧圖書館概念提出至今[1],互聯網智能技術支持書書互聯、書人相聯以及人人相聯等[2],系統之間的關聯構成了智慧圖書館數據匯聚的基礎。在當今互聯網社會高速發展的時代,無處不在的計算機設備產生大量的數據。互聯網社會的數據分析有利于醫療衛生、金融銀行、商業經濟、交通運輸以及網絡安全等領域服務效率的提升。然而,數據源自于主體產生,數據主體大部分與公民相關,即收集的數據可能涉及個人的敏感信息。隨著“棱鏡門”等隱私泄露事件不斷被媒體披露,人們對個人數據隱私問題的關注也逐漸提高。雖然個人層面隱私的概念沒有明確的標準[3],而隱私權的概念在1948年提出[4],并且被公認為一項權利,但是僅限于個人方面。《中華人民共和國網絡安全法》、GDPR(General Data Protection Regulation)等互聯網法律法規先后被相關政府機構頒布實施,為用戶數據隱私與互聯網安全提供了執行標準,也為機構組織數據使用規則的制定提供了依據。隱私權—閱讀、思考和發展思想和信仰的權利,不受政府或其他人的觀察或不必要的監視—是知識自由的基石。它是行使言論自由、思想自由和結社自由的必要條件[5]。自從數字圖書館起,圖書館就依靠互聯網技術實現服務創新。隨著互聯網社會中智慧服務概念的提出,“智慧城市”“智慧醫療”“智慧交通”等概念應運而生。互聯網中的“智慧”主要依托數據。數據敏感性問題直接關系到用戶的隱私。例如,靜態數據方面:用戶的個人身份信息等;動態數據方面:用戶的互聯網訪問行為等。數據蘊含著價值,其中之一就是用戶的核心信息與互聯網行為,這也恰恰是圖書館想要獲取的數據之一。人類在享受互聯網技術成果的同時也逐漸意識到互聯網社會其實也是一個充滿悖論的空間。互聯網技術應用的雙重性以及產生的倫理問題越來越引起人們的反思[6]。所以,在互聯網技術創新的背景下,如何將用戶隱私保護與數據價值獲取做到有效平衡,這也是圖書館開展智慧服務的關鍵。
1? 圖書館隱私的文獻回顧
互聯網社會形成后,計算機系統產生大量的數據,數據被稱為是重要的資源之一。互聯網服務于人類社會,互聯網數據與人類活動存在著重要的關聯,也因此產生了數據隱私等問題。在世界范圍內,“隱私”概念與范圍的界定尚未形成統一的標準。1948年的《世界人權宣言》中對隱私權的定義,僅局限于家庭以及與家庭相關的信息交流。隱私范圍的界定也是比較困難[7-8]。隱私可以分為:信息、主體(個人)、交流(通信)以及范圍(領域、領土)等[9]。其中信息包括用戶個人數據的收集與使用。主體容易因隱私泄露而受到傷害。交流則指任何形式的通信。范圍則指所涉及的物理與虛擬的邊界。信息在可控的傳播范圍內,Westin A F隱私的定義為:個人、機構或者團體為主體決定在時間和方式上以何種程度傳達有關主體的信息,其中主體與隱私之間存在著“映射關系”[10]。這是從控制信息處理權利的角度定義的。Bertino E等從數據控制者角度做了相關定義[11],同時指明了隱私受到侵犯的風險。信息共享與數據匯聚產生了大量的互聯網資源,數據流動讓數據價值得以體現。圖書館數據開放與共享屬于必然的趨勢[12]。圖書館的精準化、個性化、智能化的服務成為智慧圖書館主要特征[13]。精準化、個性化與智能化的服務也需要通過數據來“感知”用戶的需求。智慧圖書館的“感知”只能通過收集、分析用戶數據來實現。用戶的數據是用戶互聯網行為“痕跡”。數據隱私保護的傳統解決方法一般通過修改原始數據來保護個人信息行為,隱藏“痕跡”,然而數據修改破壞了數據完整性,降低了數據價值維度,導致數據分析、挖掘等數據使用得到不準確的結論,該類數據無法滿足精細化、個性化與智能化的智慧服務需求。IBM Almaden研究中心的Agrawal領導的研究小組,在2000年的ACM SIGMOD會議上首次提出了“隱私保護數據挖掘(Privacy-Preserving Data Mining,PPDM)”的概念[14]。PPDM主要考慮兩個方面的問題:1)為了保證數據的控制者、處理者不威脅到數據主體(用戶)的隱私,原始數據的敏感信息(姓名、身份證號、性別、Email、家庭住址、單位地址等標識符)被修改或者清洗掉。2)在數據挖掘過程中獲取的敏感信息、知識也應該被剔除。PPDM主要是從挖掘算法層面對原始數據進行修改,從而讓數據在挖掘前后都保持隱私狀態[15]。PPDM主要是干擾、加密與匿名化等方法[16]。在大數據資源價值的背景下,PPDM最大化保護數據挖掘隱私,保障數據的實用性與價值性,為圖書館等領域的智慧服務提供技術支持。PPDM針對傳統隱私保護技術不再適用大數據價值挖掘而逐漸被學者們關注。PPDM的多場景、多樣化的模擬環境被開發、應用。有些則側重于衡量與比較這些技術在隱私保護的級別、數據完整性與復雜性標準方面。PPDM不僅可以用來從數據中提取知識,同時注重數據隱私的保護,包括數據轉換技術方案,平衡數據挖掘與數據隱私效用,以及分布式隱私技術,用于不披露本地信息而從分布式數據中挖掘宏觀信息。大數據的非結構性特點增加了挖掘與分析的復雜度,數據隱私的關注與保護,使得原本復雜的應用體系變得撲朔迷離,PPDM為智慧服務提供了合理化、規范化使用數據的方案,也為智慧圖書館的發展奠定了基礎。
2? 傳統的數據挖掘與隱私保護方法
沃倫和布蘭代斯完全不能想象的科技,那些我們在相對較短的時間之前無法想象的科技,它們給信息隱私帶來了前所未有的風險[17]。互聯網的技術創新賦予決策新的理念與場景。決策是人們為了實現某一預設的目標,在擁有一定的信息與知識的基礎上,根據主、客觀條件的可能性,提出各種可行的方案,采用一定的科學方法,對所需解決的問題方案進行比較、分析與評價,并最終進行方案選擇的全過程[18]。數據支持決策的過程,取決于互聯網技術工具的保障,例如AI(人工智能)、機器學習、數理統計、數據倉儲、模式識別以及可視化技術等。其中部分工具的組合使用可以實現對數據的自動化分析、歸納、推理,從中提煉出潛在的動態、模式,幫助決策者調整業務策略,達到提高運營效率的目的,這屬于數據價值“提煉”的過程。數據的使用從傳統的數值統計分析等顯性使用到運用關聯分析工具進行數據挖掘分析的逐步深入發掘數據的潛在價值,提高數據的使用效率。數據挖掘也成為大數據領域數據價值提煉的重要方法。而深度使用數據導致的一些問題,也讓圖書館等以互聯網為載體的服務機構有所擔憂。隨著對數據倫理、數據隱私、數據安全以及數據主體(用戶),數據控制者(機構、組織)以及數據處理者(業務實施)三者權利與義務問題探討的逐漸深入,數據研究從傳統技術方法向人文應用方面的轉變,實現技術保障、人文規范的融合模式。而數據挖掘方法的應用不斷嵌入場景需求,使得應用越來越貼近實際需求。
21? 圖書館等領域常用數據挖掘與保護方法
傳感器、業務計算機等工具系統不斷收集大量的數據。電子商務、公共服務等領域可以從數據中提取價值、信息、知識而受益。數據KDD中的知識發現與數據挖掘兩種術語模糊不清。KDD的過程是由數據清洗、數據集成、數據篩選、數據轉化、數據挖掘、模型評估、知識展現構成。其中數據挖掘則是以大數據集合的提取知識并展示與解釋這些知識的過程。電子商務、公共服務領域的數據挖掘方法主要分為分類歸并(聚類分析)、關聯規則挖掘和分類組成。
211? 數據的聚類分析(分類歸并)
聚類分析也可稱為分類歸并,是根據研究對象(樣品或者指標等)的特征,對其進行分類的方法,以降低研究對象的數目。其中該類對象(事物)缺乏可信的文獻資源,無法判斷其類別數量,而聚類的目的就是將相似特征的事物歸納到一類中。事物特征之間存在著一定的關聯性。所以,聚類分析是以未知事物為研究對象,對具有相同特征(同質)的事物進行統計分析的方法。大數據世界的事物具有不確定性,聚類分析的方法能夠幫助人類發現其中的規律,進一步提煉數據價值。聚類方法由于對象與需求的不同,也分為層次聚類與非層次聚類兩大類方法。傳統聚類能夠解決低維度數據的聚類問題,但是大數據發展至今,數據的異構性、非結構化等多樣性,使得傳統聚類方法不能有效解決大數據價值的“提煉”問題。高維度的聚類分析已經成為大數據價值提煉的重要研究方向。物聯網、人工智能等運用多樣化的傳感器工具,使得數據的收集變得越來越容易與及時,這也導致數據存儲從傳統的“數據庫”向“數據池”“數據湖”乃至“數據海”轉變,低維度的數據聚類分析已經不能夠滿足實際應用的需要,而高維度的數據聚類在市場調研分析、信息數據安全、金融趨勢分析以及國家安全領域均有廣泛的應用前景。
212? 數據的關聯規則挖掘
關聯分析又稱為關聯挖掘,即以目標數據中的信息為載體,找出其中存在的項目集合或者對象集合之間的頻繁模式(關系)、關聯以及相關性與因果結構,通俗來說,就是分析目標對象之間存在的一切聯系。該類規則的表示形式一般為:if(條件)、then(結果)。規律的發現,存在著一定的概率,即存在前提條件下,結果發生的概率。Apriori算法、FP-growth算法等是常用的關聯分析方法。關聯分析從大量數據中發現項集之間存在的關聯與相關聯系。在電子商務領域中,“購物籃分析”就是發現用戶在放入購物籃中商品之間的聯系,從中分析用戶的購物習性。通過對用戶的購物行為的分析,可以從中幫助電子商務機構制定個性化的營銷策略,以提高商品的銷售率。圖書館也是如此。圖書館管理系統可以通過用戶借閱的紙質圖書,以及使用的數字資源信息,分析用戶的圖書館資源使用行為,可以幫助圖書館在學科的精準服務中提高資源的推送效率,從而提升圖書館資源服務的“智慧”性。機構、組織可以通過用戶使用互聯網的行為中發現其規律,運用關聯分析等方法,挖掘用戶需求、偏好,從而進行資源的推送,達到提升服務效率的目的。關聯分析可以分為關聯規則挖掘、關聯規則分類。關聯規則挖掘是為了尋找數據集合中變量之間的關系,而關聯規則分類則是一種監督學習問題,其目的是創建一個模型,在一定的條件下,可以識別未知數據并進行分類、標簽。關聯分析也是一種探索未知數據的方式,隨著數據集的增大,其分析模型結構也逐漸向適應海量數據環境進化。
Edward Bloustein在1964年寫了一篇法律評論文章,對當地一家報紙刊登一張新生兒照片的行為進行了評價,認為無論是醫院還是報紙都無權用這種方式介入私人生活[19]。社會對隱私問題的關注由來已久。而互聯網時代的隱私事件不斷被媒體披露,例如“棱鏡門”等事件讓已經適應互聯網帶來便捷服務的人們如夢初醒,重新回歸對個人隱私的認識。大數據環境下的用戶隱私問題不僅僅是靜態信息(如個人姓名、身份證號、住址、電話號碼等)的數據保護,也應該關注動態信息(如互聯網使用行為的數據、可穿戴傳感設備的數據、消費記錄等)的數據保護。匿名化、脫敏技術等傳統的隱私數據保護方法,對于靜態數據保護仍然起到一定的效果,但是對于大數據應用價值發掘分析過程,卻顯得捉襟見肘。數據隱私問題不僅僅是技術問題,也應該是制度、法律、倫理方面綜合探討的問題[20]。傳統的隱私保護是對數據控制者、數據處理者加以約束、規定,忽視對數據主體的數據素養的培養,這就使得數據主體(用戶)由于自身原因使得信息泄露事件頻繁發生,例如從電信詐騙到網絡詐騙等。不論是傳統的數據隱私保護還是大數據環境下的數據隱私保護,都應該是數據主體、數據控制者以及數據處理者等多方努力,規范數據使用行為,運用技術保障、制度規范、法律約束等方法,既保障了數據價值的發掘,又保護了用戶的數據隱私,使得大數據價值促進社會的發展。
22? 數據的隱私保護方法
互聯網領域的隱私保護方法很多,包括數據存儲安全防護,數據傳輸保護以及數據使用保護3種場景。其中運用較多的數據傳輸與數據使用方法,都是圍繞數據失真、數據加密與限制發布3種方式設計不同模型、算法支持不同的業務環境。
221? 數據失真法
數據失真原指原始數據經過計算機或者人為的原因,造成了數據的結果與真實數據發生偏差的現象。數據失真是一種損失和危害。然而在數據隱私保護中,采用一定的規則將數據失真,對真實數據進行隱藏保護是一種人為現象。數據失真與數據加密存在著一定的差異性,數據失真擁有一套“失真”規則,而數據加密也存在著“加密”規則,數據加密有一套對稱的加密算法支持。所以,數據失真法是一種人為擾亂數據的行為,其目的就是為了對特定的數據實施保護。差分隱私保護就是在數據失真的基礎上建立起來的一種隱私保護方法。
222? 數據加密法
數據加密法(也叫數據加密算法,Data Encryption Algorithm,DEA)是一種對稱的加密算法,目前廣泛應用于密鑰系統。其實數據加密是一種傳統的技術,一般是指運用加密算法與密鑰將明文轉化成密文進行傳輸,接收方在通過解密的算法與密鑰恢復成明文的過程,其核心就是密碼學。IBM制定了數據加密標準(Data Encryption Standard,簡稱DES),并在1977年成為美國的官方標準。數據加密法在計算機等領域已經被廣泛使用。在數字圖書館的業務中,用戶身份認證,文獻資源訪問與使用等領域,也運用數據加密法對用戶賬號、文獻資源(版權)進行保護。
223? 限制發布法
限制發布,顧名思義是數據控制者、處理者或者第三方機構對業務系統中一些核心數據或者信息采取限定發布的措施。一般該類的數據或者信息屬于關鍵數據或者包含一定的用戶隱私信息。公布以后會對個人或者組織機構造成不利、不良的社會影響。近些年,圖書館熱衷于將業務數據集中用大屏幕展示出來,如借閱情況、入館情況等。然而涉及到個人借閱、進館信息時,如需展示,也需要匿名化,這就屬于限制發布一種形式。然而,限制發布在大數據環境下起到的效果不那么明顯。多維度的數據匯聚后進行挖掘、分析,雖然在前期數據清洗過程中,已經采取了數據失真、數據加密,但是數據的二次挖掘、三次挖掘仍然有可能挖掘出與用戶隱私相關信息,而數據處理者無法及時發現造成數據泄露現象的發生。
隨著互聯網技術的發展,“智慧”對數據的需求也越來越大,數據也逐漸成為一種重要的戰略資源,數據的真實性、可靠性與穩定性也直接影響了智慧服務的效果。智慧服務也逐漸被圖書館所關注,其中既有涉及下一代圖書館系統的業務智慧化、功能模塊化,又有專注于數據聚合的數據決策支持下的智慧服務系統。無論采用哪種方式實現圖書館服務的“智慧”性,都離不開圖書館對用戶數據的收集、挖掘與分析。以數據為基礎的決策系統,逐漸成為互聯網領域服務機構提升服務效率的重要方法之一,而用戶數據隱私等問題也隨著用戶個人數據的廣泛使用而備受關注。用戶數據的廣泛使用導致了隱私泄露風險的增加,智慧圖書館領域也急需一種適應大數據應用的隱私保護方法對圖書館用戶數據加以保護。傳統的隱私保護方法已經被廣泛用于數字圖書館各種業務中,無論是圖書館用戶的賬戶保護,數字資源的版權保護與規范化應用中,都包括傳統的數據安全保護技術。傳統的常用數據挖掘方法,一方面通過降低挖掘對象的數目來達到目的(小數據挖掘),但是體量的降低也容易造成挖掘獲取信息準確性偏低;另一方面,關聯分析挖掘(多源大數據挖掘)雖然能夠滿足數據挖掘的需要,但是模型的針對性太強,應用的場景變換導致結果存在著很大的差異。雖然傳統的數據挖掘與保護方法中包括匿名化、模糊化等方法對原始用戶數據進行保護,傳統數據挖掘的模式是由小數據轉變而來,無法滿足大數據環境下的數據挖掘與隱私保護要求。PPDM源自于大數據環境,可以被智慧圖書館作為用戶隱私保護的方法加以實踐,同時也能夠兼顧“智慧”數據挖掘的需要。
數據發布的隱私保護方法是通過對原始數據進行隱私保護模型的修改實現,以防止用戶隱私的泄露。不同模型的推論與實施方法各異,在身份與屬性等方面都有各自的優缺點。相對于數據收集時的隱私保護方法而言,數據控制者(數據處理者)可以訪問完整的原始數據,而數據發布隱私模型可以更好的對隱私級別的界定,以達到權衡數據隱私與業務實施的目的。
33? 數據共享的隱私問題
數據共享是數據財產使用行為,也是數據開發與再利用的行為,也可能是個人信息的收集、儲存、利用問題[24]。所以,數據共享并非單純的數據財產的問題,其也涉及用戶個人的信息權、隱私權等保護的問題。普及化的數據共享現象對人格權的保護提出了新的挑戰,這也是互聯網技術創新環境中大數據的發展所帶來的新問題。原始數據集的顯性訪問,是傳統數據共享實現的初衷。然而隨著數據隱私、數據安全問題的顧慮與現實存在,數據挖掘算法與實際應用的緊密結合,使得數據共享對數據敏感信息的查詢、推斷具有一定的啟發作用。圖書館的資源共享機制的建立,使得文獻資源得到廣泛的傳播,達到知識推廣與服務的目的。但是,當數據共享以服務于智慧圖書館的目的時候,卻存在著一系列問題,其中用戶數據的規范化使用問題成為關鍵點。對業務系統中匯聚數據的挖掘以及結果輸出,是智慧服務實施的途徑之一。挖掘結果數據的共享與保護技術借鑒了多種規則。例如:關聯規則隱藏、分類器有效性降級、查詢審核與推理控制等。
大數據的隱私問題主要是因為大數據技術的“第三只眼”留下的“數據足跡”引起的,因此要探討大數據隱私,就必須從“第三只眼”和數據足跡出發[25]。數據足跡涉及隱私方面的內容就是用戶的互聯網行為。而在關聯規則數據的挖掘中,一些規則的明確性可能對用戶信息披露導致用戶隱私泄露。關聯規則隱藏是一種隱私保護技術:當敏感規則不被發現時,挖掘所有非敏感規則[26]。經過多年的實踐,關聯規則隱藏的方案被逐步擴展,其中包括精準的方法,即敏感規則的隱藏,非敏感規則的不隱藏,以提升關聯數據挖掘效率,保障智慧服務的業務實施。例如:圖書館中文獻資源的關聯規則,即一站式檢索,文獻資源的聚合等,涉及較多的非敏感規則。而智慧服務涉及用戶的業務使用行為日志數據,以及多系統之間的關聯規則構建,屬于敏感規則,需要隱藏。數據挖掘中數據分類需要運用到分類器,分類器應用程序有可能存在著用戶信息的泄露問題。例如:集合中成員之間存在著推理攻擊,這類攻擊記錄著數據訓練集(原始數據)。為了保護分類器應用程序中的用戶隱私,一般通過降低分類器精度的方法,這種方法被稱為分類器有效性降級。查詢與審計在數據管理中是重要的操作行為。其中查詢推理控制的運用背景是原始數據受到干擾。查詢審計則是查詢過程被拒絕。查詢審計問題根據數據呈現的情況分為脫機與聯機兩種方式。查詢內容一般是已經產生的結果,查詢審計的結果會反饋給數據主體(用戶),用以評估查詢行為是否違背了隱私保護原則。查詢審計和推理控制技術在上下文的統計數據庫安全中被廣泛研究。
由于構建應用程序數據的實用性低于原始值,應用程序本身被降級或對數據的訪問受到限制,智慧服務等應用程序效果會受到影響。因此,數據隱私保護和業務實用性之間也存在著平衡問題。
34? 數據分布式隱私問題
數據匯聚多維度性能夠提升數據挖掘價值。用戶隱私問題背景下,數據控制者、處理者尋求以匯總統計數據的方法構建全局性價值而忽略局部(本地)信息,數據分布式隱私保護應運而生。這類問題在密碼學領域研究較為廣泛,其中安全多方計算(SMC)較為典型。SMC的目標是在不向其他各方透露此類輸入的情況下,從各方的隱私輸入中共同計算一個函數。也就是說,在計算結束時,所有各方都只會學習輸出。這個問題是通過使用安全數據傳輸協議來解決的,該協議也適用于保護隱私的分布式計算[27]。SMC的情景假設是在各方都遵守協議的基礎上,這類情況往往不是真實存在的。并不是所有的攻擊者都遵守規則。所以,SMC的擴展中定義了兩種攻擊者:惡意攻擊者與半誠實攻擊者。惡意攻擊者則偏離了協議,甚至可能與其他攻擊者相互勾結。半誠實攻擊者被稱為誠實但是好奇的模型,這類是遵守協議規范,目的就是為了獲取更多的信息(包括隱私信息)。半誠實的情況仍然被認為是一種實體的良好模型。
數據挖掘中數據分布分為集中式與分布式兩種,其中分布式數據集可以分為水平與垂直兩個分區。水平情況中(宏觀),每個實體中蘊含著相同的屬性集的不同記錄,其目標就是挖掘相關數據的全局狀態。例如:圖書館文獻資源的用戶使用情況,訪問行為數據挖掘,通過該類數據決策圖書館下階段的文獻資源建設、規劃。垂直情況中(微觀),實體包含著與同一標識相關的不同屬性記錄。例如:圖書館用戶使用各種系統獲取相應的服務記錄。水平分區數據集的例子是一個圖書館用戶鏈,其中每個站點都有不同的用戶,與每個客戶相關聯的屬性對所有站點(如業務行為類型和用戶的QID)都是一致的。對于垂直分區數據集,具有互補項的存儲可以由相同的用戶按順序訪問,從而創建每個存儲的數據庫中不存在的模式。這兩種分區都存在分布式隱私保護算法。
數據分布分布式集中式隱藏方法數據隱藏規則隱藏數據隱藏數據挖掘算法聚類、分類關聯規則聚類、分類關聯規則數據隱私保護技術數據加密技術泛化、清洗屏蔽、扭曲圖1? PPDM挖掘算法分類?數據挖掘隱私保護問題離不開對數據挖掘技術的分析、探索。SMC作為安全協議,用于預先從實體之間的通信和/或計算中披露信息。對于數據的集合,描述了不經意傳輸協議和同態加密。水平與垂直分區則考慮了一組通常在許多數據挖掘算法中使用的原始操作,因此也適用于分布式隱私的保護,其中所描述的操作是安全和、安全集的并集、交集的安全大小、標量積和集交集等流程。第二種類型的協議也可以使用加密技術,例如:不經意的傳輸協議,以防止實體之間的數據信息的泄漏。PPDM方法的特征與具體業務實施環境息息相關,選取合適的PPDM模型與業務所需的數據挖掘算法結合,才能夠形成行之有效的用戶隱私與挖掘應用環境,為數據決策業務以及智慧圖書館業務的開展提供安全、高效的基礎條件。
4? PPDM方法對智慧圖書館用戶數據使用的啟示
技術的變革速度已經超越法律的先例。大數據時代,數據源正在激增與互聯,智慧圖書館將獲得更多的數據,可以發掘更多有價值的信息。而智慧圖書館的“智慧”需要數據挖掘技術支持,而數據中必然涉及到用戶隱私信息。數據挖掘技術在互聯網中廣泛使用,而用戶對個人隱私保護意識也越來越強烈。數據共享與數據隱私的悖論越來越明顯。雖然《網絡安全法》《公共圖書館法》《信息安全技術個人信息保護》等法律、法規與標準被制定與發布,但是個人隱私保護法以及數據隱私保護法尚未立法,圖書館如何規范化使用數據,尤其是涉及用戶的數據開展智慧服務的規則尚未形成統一的規定。智慧圖書館業務的開展伴隨著互聯網大數據技術引入、利用而逐步得以實踐,且其趨勢不可逆轉。智慧圖書館業務的開展離不開數據挖掘技術的支持。智慧圖書館業務包括數據的收集、發布、共享以及數據的匯聚過程。而PPDM對智慧圖書館用戶隱私的保護、業務的有效實施具有一定的借鑒作用。
41? 智慧圖書館數據的收集方面
圖書館文獻建設一直存在著數據的收集、整理,如圖書館的書目數據MARC等,只是這些數據屬于文獻資源類,包括數字圖書館的館藏紙本資源的數字化,以及其他影像、音頻等數字文獻資源。圖書館文獻資源的收集與保存,關注度較高的制度是版權問題。隨著大數據技術的廣泛使用,數字圖書館也逐漸使用用戶數據,獲取挖掘、分析用戶需求,開展精準服務。數據決策等方法也被引入圖書館的營銷規劃與管理層面。數據的多維度收集,當然不可避免與用戶數據相關。長期以來“以用戶為中心的服務理念”成為圖書館服務宗旨。圖書館人為了更好地服務于用戶,不斷引入新技術、新理念以實施滿足用戶個性化需求的智慧服務。然而近些年來用戶對隱私保護問題的重視,使得越來越多的用戶(數據主體)不愿意提供給圖書館(數據控制者)自己的數據。這就給圖書館等數據控制者合理、合法獲取用戶數據開展智慧服務造成了影響。眾所周知,數據維度越高,完整性越強,數據挖掘與分析的結果越精確。PPDM在數據收集過程中的隨機轉換,避免原始數據的存儲等方法,在一定程度上能夠為智慧圖書館收集數據的完整性和可信度提供保證,也能夠降低原始數據泄露造成的數據隱私問題。
42? 智慧圖書館數據的發布角度
圖書館一直都在嘗試著運用自有數據開展文獻資源建設,例如:圖書館支持數字人文研究等[28]。傳統圖書館的數據發布采用“匿名化”的方式,如“張三”發布為“張某”等。而PPDM的數據發布,不僅從展示層面進行匿名化,也從挖掘、分析數據層面進行泛化、扭曲、清洗與屏蔽,進而對二次、三次數據的使用提供更加安全的隱私保護。智慧圖書館數據的發布,不再局限于文獻資源的多維度、多平臺的發布、展示與共享,模糊化的數據代表了群體信息,而精細化的數據發布則需要進行特殊處理,例如:空間管理數據展示,業務運行系統展示等也逐漸成為智慧圖書館數據發布、信息公開的常規化業務。智慧圖書館文獻資源的多維度展示,有利于提升資源的利用率。然而管理數據、業務運行數據的發布與展示,可能存在著用戶隱私泄露的問題。所以,PPDM的泛化、扭曲、清洗與屏蔽等技術方法的使用,能夠對用戶數據隱私起到一定的保護作用。
43? 智慧圖書館數據的共享層面
互聯網的信息共享理念,貫穿著圖書館的業務。從信息共享到數據共享,成為促進經濟發展重要的動力源。然而互聯網社會復雜的環境下,數據安全等問題讓組織機構與用戶都存在著擔憂。數據控制者、數據處理者的責任更重,首先需要數據收集的流程做到規范性,其次數據存儲的安全性保障,第三數據共享與挖掘與分析,需要再次考慮到用戶的隱私信息問題。最后,數據發布信息也需要關注到用戶隱私等問題。數據共享與整合才能提升數據價值,數據的共享也會帶來數據隱私不可控,數據共享后的數據控制者隨之發生改變。數據控制者的數據素養高低不同,也增加了數據安全風險。PPDM規則中,數據共享按需分享、提供數據,并且根據安全風險評估,適當采用敏感數據隱藏、規則隱藏等方法,以降低數據共享帶來的風險。
44? 智慧圖書館數據的匯聚實踐
用戶個人數據作為智慧圖書館大數據的重要來源,具有數據量大、數據結構復雜等特征,圖書館應該從數據管理角度對用戶個人信息采用分類、分級保護的技術方法。例如:圖書館按照業務系統進行數據的匯聚,對用戶個人身份信息定位個人信息,包括敏感信息。而額外的信息包括行為方面的,如電子資源訪問、圖書借閱、期刊查閱以及圖書館網站瀏覽等。這些除了公開信息外,其他的類型信息,都需要納入到隱私保護范圍之內。圖書館業務系統數據的匯聚[29],為智慧服務的開展提供原始的決策素材。數據挖掘、分析可以分為兩個層次:宏觀層面與微觀層面。宏觀層面的分析,可以讓圖書館管理者、館員動態掌握圖書館業務運行情況。微觀層面的分析,讓圖書館管理者與館員動態掌握用戶的文獻資源、空間服務需求,讓用戶能夠享受到個性化的服務。互聯網發展至今,用戶形成了個性鮮明的互聯網思維,對大千世界的看法、認識各不相同,這也造成了圖書館等服務行業難以通過一種或者幾種服務模式滿足廣大用戶的需求。所以,多維度的數據匯聚、挖掘與分析,能夠幫助圖書館感知用戶所需,并因此開展針對性的服務,以提高服務效率,提高用戶的滿意度乃至忠誠度[30]。PPDM分布式環境,與圖書館業務系統環境接近,其中水平分區的數據挖掘、數據隱私保護,能夠協助圖書館管理層,從宏觀層面掌握智慧圖書館的空間、資源、服務等系統運行情況,以便動態調整業務內容與管理方式,提升服務質量。垂直分區的數據挖掘、數據隱私保護,則從微觀層面以用戶為分析對象,深度挖掘、分析用戶的所想、所需,從服務“智慧”性角度,為其提供個性化的文獻資源與空間保障服務。
數據成為資產、產業垂直整合、泛互聯網化是大數據時代的三大發展趨勢[31]。以數據為基礎的智慧圖書館服務體系,數據價值發掘的效果與圖書館服務的“智慧”密切相關。復雜多變的互聯網環境也給智慧圖書館發展帶來了一些困惑與危機,例如:數據安全、信息安全、數據隱私以及數據倫理等。如何處理好這些問題成為智慧圖書館發展道路上重要的課題之一。智慧圖書館運用數據開展服務需要對自己數據使用行為加以約束與規范,這樣既可以對用戶、館員和系統加以保護,也可以獲取到真實、可靠、完整的數據以提升“智慧”服務的效果。現階段PPDM方法雖然不能夠與智慧圖書館數據使用做到全面的融合,但也從技術方法層面給未來智慧圖書館數據的規范化使用提供了一些啟示(如圖2所示),為智慧圖書館有關數據隱私、數據倫理、數據共享等問題的逐一解決提供一些思路與方法,從而促進智慧圖書館的健康發展。
智慧圖書館以大數據為基礎開展的服務,除了進行知識發現以外,另一個最重要的用途就是實施感知用戶需求的智慧服務。既然感知用戶所需,必然涉及用戶的個人信息以及“數據足跡”等,而涉及用戶切身利益的數據存在著被泄露的風險,所以,智慧圖書館數據收集、數據挖掘、數據共享與數據發布等全流程都需要用技術手段對隱私信息進行匿名化等形式的處理,以保障用戶的隱私安全(如圖3所示),而具體數據處理的實施方案需要運用PPDM理念,并與其他隱私保護方法融合,完善智慧圖書館數據管理系統的隱私保護與數據安全體系。
5? 結論與展望
智慧圖書館是一個復雜的系統,其中不僅涉及到互聯網技術與方案,同時也是圖書館人文精神的一種聚合。智慧圖書館與互聯網緊密聯系,互動互鑒。圖書館也由傳統的文獻資源服務逐漸向空間服務等互聯網服務創新理念的影響而轉變。互聯網用戶的需求呈現多元化的局面,圖書館用戶也是如此。然而圖書館用戶在享受文獻資源服務便利的同時,也對互聯網中隱私泄露事件頻繁發生而日益擔憂。智慧圖書館為用戶提供文獻服務的同時,也應該對用戶顧慮加以重視。PPDM方法改變了傳統的隱私保護的理念,更加適應圖書館在大數據環境下用戶隱私數據的保護,同時也滿足了智慧圖書館數據使用的需求。智慧圖書館屬于數字圖書館在互聯網中的技術創新、服務創新,也是圖書館人對下一代圖書館的期盼。智慧圖書館也許并不是一個實體的空間,但是圖書館的智慧服務、以人為本的精神,是廣大館員時刻銘記于心的理念。雖然PPDM等單一的方法不能夠完全解決智慧圖書館發展所面臨的困境,維度問題不僅是PPDM和大數據挖掘共同存在的問題。構建完整的智慧圖書館服務體系,找出其中關鍵屬性來降低數據的維度以及壓縮屬性,以此提升PPDM與智慧服務的效率。PPDM與差分隱私保護等方法以及智慧圖書館隱私保護制度共同作用,才能夠構建智慧圖書館的用戶隱私數據保護體系來促進智慧圖書館的健康發展。只有通過圖書館領域的專家、學者以及計算機領域的安全專家不斷探索,才能夠將數據安全、數據隱私、數據共享等互聯網中普遍存在的問題得以逐一解決,集思廣益、共同為智慧圖書館發展貢獻力量。
參考文獻
[1]嚴棟.基于物聯網的智慧圖書館[J].圖書館學刊,2010,32(7):8-10.
[2]王世偉.未來圖書館的新模式——智慧圖書館[J].圖書館建設,2011,(12):1-5.
[3]Langheinrich M.Privacy in Ubiquitous Computing,in Ubiquitous Computing Fundamentals[M].Boca Raton,FL,USA:CRC Press,2009,(3):95-159.
[4]United NationGeneral Assembly.Universal Declaration of Human Rights[EB/OL].Available:http://www.un.org/en/documents/udhr/,2020-02-10.
[5]ALA Privacy Policy[EB/OL].http://www.ala.org/privacypolicy,2020-07-13.
[6]宋吉鑫.網絡倫理學研究[M].北京:科學出版社,2012:42.
[7]Yu S.Big Privacy:Challenges and Opportunities of Privacy Study in Theage of Big Data[M].IEEE Access,2016:2751-2763.
[8]Acquisti A,Brandimarte L,Loewenstein G.Privacy and Humanbehavior in the Age of Information[J].Science,2015,347(6221):509-514.
[9]Banisar D,et al.Privacy and Human Rights:An International Survey of Privacy Laws and Practice[D].Global Internet Liberty Campaign,London,UK.,Tech.Rep.,1999.
[10]Westin A F.Privacy and Freedom[M].Washington Lee Law Rev.,1968,25(1):166.
[11]Bertino E,Lin D,Jiang W.“A Survey of Quantication of Privacypreserving Data Mining Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:183-205.
[12]葛燕君.圖書館數據開放的內涵、價值、實施與隱私保護[J].情報雜志,2019,38(7):166-170,183.
[13]董同強,馬秀峰.融入“雙一流”建設的高校圖書館智慧型學科服務平臺構建[J].現代情報,2019,39(5):97-103.
[14]Agrawal R,Srikant R.Privacy-preserving Data Mining[J].ACM Sigmod Record,2000,29(2):439-450.
[15]劉雅輝,張鐵贏,靳小龍,等.大數據時代的個人隱私保護[J].計算機研究與發展,2015,52(1):229-247.
[16]Ilavarasi A,Poorani S.A Survey on Privacy Preserving Data Mining Techniques[J].Int Journal of Computer Science and Business Informatics,2013,7(1):1-12.
[17]Schwartz,Paul M,Property,Privacy,and Personal Data.Harvard Law Review,2004,117(7):2055,Available at SSRN:https://ssrn.com/abstract=721642.
[18]于洪,何德牛,王國胤,等.大數據智能決策[J/OL].自動化學報:1-19.http://h-s.doi.org /10.16383/j.aas.c180861,2019-05-29.
[19]Edward Bloustein,Privacy as an Aspect of Human Dignity:An Answer to Dean Prosser,39 NYULRev.962,1964.
[20]陸康.網絡信息環境下讀者隱私保護策略研究[J].現代情報,2016,36(6):119-123,153.
[21]Aggarwal C C,Yu P S.“A General Survey of Privacy-preservingdata Mining Models and Algorithms”,in Privacy-Preserving Data Mining[M].New York,NY,USA:Springer,2008:11-52.
[22]Aggarwal C C.Data Mining:The Textbook[M].New York,NY,USA:Springer,2015.
[23]Dwork C.“Differential Privacy”,in Automata,Languages and Program-ming,vol.4052.Venice[D].Italy:Springer-Verlag,Jul.2006:1-12.
[24]王利明.數據共享與個人信息保護[J].現代法學,2019,41(1):45-57.
[25]黃欣榮.大數據技術的倫理反思[J].新疆師范大學學報:哲學社會科學版,2015,36(3):46-53,2.
[26]Atallah M,Bertino E,Elmagarmid A,et al.“Disclosure Limitation of Sensitive Rules”,in Proc[J].Workshop Knowl.Data Eng.Exchange(KDEX),1999:45-52.
[27]Lindell Y,Pinkas B.Secure Multiparty Computation for Privacypreservingdata Mining[J].JPrivacy Condentiality,2009,1(1):59-98.
[28]肖奕.圖書館支持數字人文研究進展[J].圖書館論壇,2018,38(4):25-30.
[29]陸康.數據圈背景下的智慧圖書館數據匯聚研究[J].現代情報,2019,39(10):102-109.
[30]劉慧,陸康.高校圖書館忠誠度體系研究[J].數字圖書館論壇,2015,(12):69-72.
[31]張蘭廷.大數據的社會價值與戰略選擇[D].北京:中共中央黨校,2014:1.
(責任編輯:郭沫含)