999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多維標簽的信息流轉雙重管控模型與算法

2018-07-19 12:53:20李龔亮敬思遠文澤鵬
計算機工程與設計 2018年7期
關鍵詞:文本信息方法

李龔亮,敬思遠,文澤鵬,梁 燕

(1.中國工程物理研究院 計算機應用研究所,四川 綿陽 621000;2.樂山師范學院 計算機科學學院,四川 樂山 614000)

0 引 言

信息流轉管控主要有基于標簽的方法和基于內容的方法。基于標簽的方法主要用于涉密網或單位內網環境,當前主流文檔防擴散系統均采用此方法,僅在標簽設計和算法上略有區別。此類方法存在兩個明顯缺陷:一是無法管控非文件形式的信息流,例如用戶訪問服務器時的http請求;二是必須信賴信息標識者是完全可靠的,無法防止惡意標識而導致的管控漏洞[1]。基于內容的方法主要用于互聯網輿情監控[2]、文本安全審計[3]等領域,此類方法的不足之處在于,難以適應多對多復雜訪問控制要求下的信息管控需求。本文以涉密網或單位內網的信息流轉管控為目標,綜合以上兩類方法,提出一種基于多維標簽的信息流轉雙重管控模型與算法。

1 基于多維標簽的信息流轉雙重管控模型

圖1 基于多維管控標簽的信息流轉雙重管控模型

信息流轉雙重管控的核心思路在于,以多維標簽為核心,將基于標簽的信息流轉實時判別與基于內容的信息審計與預警結合起來,實現兩種方法的優勢互補。其總體模型結構如圖1所示。

在信息流轉的過程中,首先由發送方進行信息標識。數據流經管控環節時進行標簽提取,同時將內容保存到本地用于信息審計。管控程序按照發送方、接收方和信息三者的標簽,依據實時判別算法判斷是否進行流轉;若通過判別則將信息流轉到接收方。與此同時,管控程序以異步的方式,采用自然語言處理和機器學習方法對信息進行自動標簽標識,并將算法標識的標簽與用戶標識的標簽進行一致性對比,若不一致則將進行系統預警。

按照該模型的設計,將有效杜絕用戶惡意錯誤標識的問題。因為錯誤的標識有較大的概率被發現,且發現一次用戶就將面臨高懲罰的風險,從而形成威懾。另一方面,由于信息審計預警是異步的,系統仍然可以基于標簽的機制進行高速、細粒度的流轉權限判定。

要實現這個模型,有3個問題需要解決。一是如何對數據流和文件進行統一標識,這種標識模型要具有多個維度描述信息的流轉控制權限,同時也能支撐快速的權限判別。二是采取何種方法來對信息標簽進行自動標識。三是如何對標簽進行一致性對比,并實現正確預警。下面三節將分別討論這幾個問題。

2 多維標簽模型

2.1 信息統一標識方法

信息通常以文件與流的形式進行存儲和流轉處理[4]。現有的數字簽名技術很容易對文件進行簽名標識,而對于數據流如何處理卻成為難題。從信息流轉管控需求分析出發,可以發現最易于導致信息擴散的數據流是用戶訪問應用服務器所產生的。在企業應用環境中,這種流的主要形式是http(含web service)的response和request。不失一般性,本文重點分析如何針對http流進行標識。

http流信息的核心部分是業務數據,而非http標簽,而業務數據的來源主是數據庫記錄,因此對http流的標識應以數據庫為源頭。在重要業務系統設計時對需要管控的業務對象均會明確標識,那么在業務對象轉化為http流時,可以以統一的方式將標識注入請求或響應流的頭部,如圖2所示。

圖2 數據流與文檔文件統一標示模型

為統一模型并兼顧http流處理的需求,將所有標識標簽都放置在文件前的“”部分,以XML格式存儲。“”中至少包含3部分內容,信息摘要標識、信息流轉管控標識、信息封裝算法標識。其中信息摘要標識用于標識信息的唯一性,可以是通過哈希算法求得的信息摘要,也可以是信息承載主對象的ID;信息封裝算法標識用于對文件進行加密時封裝所采用的算法,由于http文件具有時效性且在傳輸過程中可通過SSL技術進行加密,可不使用任何信息封裝算法。

需要特別注意的是http文件與普通文件的存在轉換關系,即當以http格式上傳下載普通文件時,不同的應用程序將采用不同的斷點續傳和分片方法將文件切分為多個數據段并封裝為http格式多線程傳輸,從而導致監控單一的http流難以獲得信息內容。針對此類問題,考慮到傳輸中的數據片段難以識別管控,需將管控位置前移到文件上傳下載之前;若在企業內部網絡中文件上傳下載的算法是統一或可數的,也可開發針對性的http多線程數據片段歸并程序在傳輸時實現http流到原始文件的歸回。

2.2 多維標簽模型

傳統的管控標簽通常是一維的,例如BLP(Bell_Lapa-dula)模型的絕密、機密、秘密、非密四分法[5],并規定低密人員不能訪問高密信息,這樣的分類方法相當粗略。例如,對某位機密級授權用戶,他是不能訪問所有機密級數據的。

為了建立信息系統訪問控制的基礎,本文綜合業務實際提出了包含多個維度的管控標簽模型,文中統稱為多維標簽,形式化表示為Tag=(L,P,A,B,D)。 其中,L表示密級,P表示保密期限,A表示定密依據,B表示知悉范圍,D表示業務領域。多維標簽模型如圖3所示。

圖3 多維標簽模型設計

上述多維標簽模型中,密級和保密期限相對容易理解。密級是一個0-n的整數,標定了該信息受保護程度的強弱;保密期限是兩個時間戳標定的受控時間范圍。而定密依據、知悉范圍和業務領域相對比較復雜。定密依據指出了信息受控的原因,知悉范圍指出了信息應在何種范圍內傳播,業務領域標識了信息內容的業務屬性。

本文中,多維標簽中的定密依據、知悉范圍、業務領域均設計為包含有4個節點的樹形結構,每一節點長度為1字節,用以存儲真實標簽對應的代碼。以定密依據為例,該結構可以支持最多255種不同的定密依據標簽(0表示未標識)。而用戶最多可以選擇4個標簽進行標識。模型從標識空間規模上已能夠支撐真實需求,通過增加字段長度也能夠易于擴展。在工程實現時,網絡環境中應存在統一的狀態代碼服務來負責管理代碼與真實定密依據、知悉范圍、業務領域的映射關系。

3 基于多維標簽的信息流轉實時判別算法

信息流轉過程可以形式化描述為一個三元組IT=〈S,R,I〉, 其中S表示發送方,R表示接收方,I表示流轉的信息。S,R,I均采用上節介紹的多維標簽。換句話說,S與R的標簽與信息I的標簽是一致的。無論S和R是真實的用戶還是信息系統,其都應該具有定密依據A、密級L、保密期限P、知悉范圍B、業務領域D這5種屬性。在實際業務中,信息流轉并非剛性的禁止高密低流,而是允許一定程度上的超越權限訪問。本文提出的在信息流轉實時判別算法如下所示。在該判別算法中,如果發送方、信息和接收方三者的密級和期限不符合高密不低流原則,則禁止流轉;否則,算法根據發送方、信息和接收方在其余3個標簽維度上的標簽包含情況進行打分,若最終分值低于給定閾值,則禁止流轉。由于每個單位實際應用環境不同,如文獻[4]中提出信息常出現從高安全級別流向低安全級別情況,因此本文提出算法可根據實際業務進行調整。

基于多維標簽的信息流轉實時判別算法

輸入:IT=〈S,R,I〉

輸出: pass // 0≤pass≤1,若pass低于設定閾值,則禁止流轉

(1)if(S.Tag.L

(2) pass=0; //若密級和期限不符合高密不低流原則,則禁止流轉

(3)else

(4) pass=λ1×Φ(S.Tag.A,I.Tag.A,R.Tag.A);

(5) pass+=λ2×Φ(S.Tag.B,I.Tag.B,R.Tag.B);

(6) pass+=λ3×Φ(S.Tag.D,I.Tag.D,R.Tag.D);

(7)end

(8) return pass;

說明:

(1)?運算符:計算兩個保密期限是否存在包含關系,存在則返回1,否則返回0;

(2)Φ(·)函數:計算參數(即標簽集合)之間的包含程度,計算公式如下

(3)card(·)運算符:計算集合中元素的個數。

4 結合領域知識的多維標簽標識算法

上述方法不能防止用戶惡意標識而導致的管控漏洞,例如發送方故意降低信息密級。因此,本文引入一種“事后審計”方法對其進行補充。傳統基于內容的安全審計一般采用的是字符串匹配方法[3,6]。但是這種方法難以適應當前的安全需求。本文采用基于機器學習的方法,該方法基于多標簽學習理論,結合領域知識,對信息進行多維標簽自動標識。進一步,將算法自動標識的標簽和用戶標識的標簽進行一致性對比,若經過模型判斷后不匹配,則進行預警以及時防止信息擴散。圖4為多維標簽自動標識過程。

圖4 多維標簽自動識別過程

接下來,本文將介紹多維標簽自動標識過程中的文本預處理、特征表示和提取、標簽標識器的訓練以及最后的標簽對比模型。

4.1 文本預處理與領域詞典

本文方法中的文本預處理主要是中文分詞。中文分詞是將輸入的文字序列,切分成一個一個單獨的詞,目前比較常用的方法有基于詞典的最大匹配法、全切分路徑選擇方法、基于字序列標注的方法以及基于轉移的分詞方法[7]。

本文研究問題中需要重點考慮一些具有敏感信息的詞。本研究依據已經有的業務經驗由業務部門整理形成一個敏感詞列表,作為本文的領域詞典,下文中表示為SW={sw1,sw2,…,swm}。 為了防止用戶在信息流中惡意嵌入涉密內容,本文采用一種二階段的中文分詞策略。其基本思路為,首先采用基于詞典的最大匹配法篩選出信息中的敏感詞,然后再以這些敏感詞為邊界,采用全切分路徑選擇方法,對剩余內容進行分詞處理。這樣處理的好處在于:①首先保證了敏感詞的正確切分,這對最終標簽判別結果是否準確非常重要;②其次,該策略無需構造大規模的詞典;③能夠對未登錄詞進行處理。

4.2 特征表示與特征知識庫

文本特征表示一般采用詞袋模型(Bag-of-Word,BOW模型),即將信息文本表示為一個一維的特征向量V=[w1,w2,…,wn]。 其中n是文本特征的大小,wi是文本特征fi在文本中出現的頻次,其中fi是本文特征集合F中的第i個元素。一般來說,文本特征可以采用統計的方法進行選擇。常用的方法有TF-IDF、信息增益法、χ2統計量法、互信息法等[8,9]。

遺憾的是,傳統的BOW模型表達能力非常有限。本文采用了領域詞典來增強文本特征的表達能力,即文本特征集合F=SW∪W。 其中SW是領域詞典中敏感詞的集合,W是一般詞的集合。本文采用χ2統計量法對W進行選擇。

4.3 多標簽標識器訓練

標簽標識器訓練是系統的核心模塊,是實現多維標簽自動標識的關鍵環節。本文需對密級、定密依據、知悉范圍、業務領域4個維度進行自動標簽標識。其中,密級標簽僅需要標識1次,需要的標簽標識器實際上是一種多分類器。另外3個維度可能會進行多次標簽標識,因此需要一個多標簽標識器(即多標簽分類器)。本文重點介紹多標簽標識器的學習問題。

本文采用M.R.Boutell等提出的Binary Relevance多標簽學習算法(簡稱BR方法)[10]來訓練多標簽標識器。BR方法基本思想是,將多標簽識別器的學習問題分解為若干個二分類器(即單標簽標識器)的學習問題。換句話說,即是學習一個單標簽標識器的集合,集合中每一個單標簽標識器都對應一個標簽。在訓練過程中,BR方法采用交叉訓練的方式,即對每一個訓練樣本,如果該樣本帶有該單標簽標識器對應的標簽,則該樣本對于該單標簽標識器為正樣本,否則為負樣本。選擇BR方法的原因在于,首先該方法能夠取得較好的實驗結果;其次,該方法是一種one-to-rest方法,需要訓練的單標簽標識器較少,在時間上更能滿足實際業務需要。

本文中的多維標簽標識問題可以形式化表示為式(1)。該公式并運算符∪左邊表示通過標簽標識器得到第j維的標簽集合,j的取值范圍為1-3,分別對應于定密依據、知悉范圍和業務領域(此處多維標簽的表示符號與前文中略有差異);gj,k(x) 是第j維第k個標簽的標識器,標識器返回值大于0,則將該標簽加入到標簽集合;Nj為第j維的標簽總數。右邊是文獻[11]中采用的T-Criterion策略,它的作用是避免得到的標簽集合為空集

Tagj(x)={tagj,k|gj,k(x)>0,1≤j≤3,1≤k≤Nj}
∪{tagj,k*|k*=arg max1≤k≤Nigj,k(x)}

(1)

4.4 多維標簽一致性判定模型

本文采用4.3節中得到的多維標簽標識器對消息文本x進行自動標識。其中,對于“密級”維度,本文通過標簽標識器得到唯一的標識結果,形式化表示為L(x)。對于另外3個維度,得到的則是3個標簽的集合,表示為Tagj(x)。基于得到的自動標識結果,本文提出一種標簽一致性判定模型,如式(2)所示。

(2)

5 實 驗

本文研制了系統原型對本文提出的管控模型進行了驗證。原型的硬件平臺為3 GHZ處理器+32 GB內存。實驗數據采用的是10萬條本單位的歷史消息數據,并且經過嚴格的標簽標識。多維標簽中的密級為0~9之間的整數,數字越高,密級越高。涉密依據、知悉范圍、業務領域3個維度標簽則是通過專家知識進行定制。領域詞典同樣是由專家知識進行定制,其中包含了278個敏感詞(例如本單位涉及的特有實體名詞)。原型系統中的標簽識別器(包括密級標簽識別器和多標簽識別器)均采用SVM(support vector machine)[11,12]。SVM采用線性核。

實驗分為3個部分。第一部分是對基于多維標簽的信息流轉實時判別算法進行測試。第二部分是對多維標簽自動標識算法進行測試。第三部分是對系統預警能力進行測試。

第一部分實驗的目的是驗證信息流轉判別算法的效率。信息流轉存在時限要求。本文將10萬條數據同時輸入到原型系統,并記錄每一時刻系統吞吐量。實驗結果如圖5所示。從圖中可以看到,系統吞吐量隨時間呈線性增長,其性能可以達到約2000條數據/s。該性能可以滿足大多數單位內部信息流轉要求。

圖5 信息流轉吞吐量

第二部分實驗的目的是驗證結合領域知識的多維標簽自動標識算法的有效性。本文將基于傳統文本特征表示方法的多維標簽標識器作為實驗基線。實驗指標采用的是多維標簽自動標識召回率,如式(3)所示,其中p表示測試樣本空間的大小。本實驗采用十折交叉驗證,實驗結果見表1。從實驗結果來看,本文提出方法的平均召回率指標為88.1%,說明該方法是有效的

(3)

表1 多維標簽自動標識實驗結果比較/%

第三部分實驗的目的是驗證系統預警能力。本文構建了120個測試樣本進行測試。測試樣本中包含80個錯誤標識的樣本和40個正確標識的樣本。實驗指標采用的是準確率和召回率,如式(4)、式(5)所示。其中TP表示正確預警的錯誤樣本數,FN表示未進行預警的錯誤樣本數,FP表示錯誤預警的正確樣本數。從實驗結果來看,召回率指標為93.75%,準確率指標為89.3%

(4)

(5)

6 結束語

本文提出了一種基于多維標簽的信息流轉雙重管控模型和算法。設計的多維標簽能夠實現細粒度的信息流轉管控需求。基于該多維標簽,提出了一種信息流轉實時判別算法,經測試算法平均吞吐量能達到約2000條/s,能夠滿足大多數單位內部的信息流轉要求。提出了一種結合領域知識的多維標簽自動標識算法,該算法在實驗中達到了88.1%的平均召回率,說明算法是有效的。進一步將算法自動標識標簽與用戶標識標簽進行一致性對比,并通過決策模型進行預警。經測試,系統預警的召回率指標和準確率指標均達到了較高水平。

猜你喜歡
文本信息方法
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
如何快速走進文本
語文知識(2014年1期)2014-02-28 21:59:13
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 久久婷婷五月综合97色| 亚洲丝袜中文字幕| 色老头综合网| 伊人成人在线视频| 怡春院欧美一区二区三区免费| 成年片色大黄全免费网站久久| 九九九精品成人免费视频7| 99久久精品无码专区免费| 在线播放国产一区| 午夜不卡视频| 亚洲国产高清精品线久久| 九九热这里只有国产精品| 国产爽歪歪免费视频在线观看 | 欧美va亚洲va香蕉在线| 91精品视频播放| 欧美国产日韩一区二区三区精品影视 | 97综合久久| 免费无遮挡AV| 美女国产在线| 成人在线观看不卡| 色综合天天综合| 国产xxxxx免费视频| 欧美一区二区自偷自拍视频| 日韩欧美国产另类| 欧美色99| 国产黄在线观看| 精品少妇三级亚洲| 女同国产精品一区二区| 国产麻豆精品在线观看| 午夜高清国产拍精品| 国产特一级毛片| 亚洲三级a| 日本午夜三级| 国产亚洲欧美在线中文bt天堂 | 97视频在线观看免费视频| 国产女同自拍视频| 亚洲国产中文综合专区在| 国产美女精品一区二区| 九九久久精品国产av片囯产区| 国产成人精品高清在线| 伊人久热这里只有精品视频99| 国产亚洲视频在线观看| 亚洲人成网站色7799在线播放| 亚洲精品视频免费观看| 91高清在线视频| 国产美女主播一级成人毛片| 日日碰狠狠添天天爽| 四虎精品黑人视频| 无码内射在线| 欧美色综合网站| 在线精品亚洲国产| 亚洲系列中文字幕一区二区| 激情无码字幕综合| 亚洲精品成人7777在线观看| 不卡视频国产| 国产小视频在线高清播放| 欧美日韩精品一区二区在线线| 欧美一级高清片欧美国产欧美| 久久永久视频| 无码专区在线观看| 国产一区成人| 手机成人午夜在线视频| 日韩a级片视频| 69综合网| 亚洲欧美成人在线视频| 日本亚洲成高清一区二区三区| 在线观看欧美精品二区| 日韩精品亚洲一区中文字幕| 天天爽免费视频| 国产一级在线观看www色| 精品国产成人三级在线观看| 亚洲综合片| 国产国语一级毛片| 久久夜色精品| 自拍偷拍一区| 人人91人人澡人人妻人人爽| 又黄又爽视频好爽视频| 亚洲高清无在码在线无弹窗| 毛片在线看网站| 青草视频在线观看国产| 亚洲综合色吧| A级毛片无码久久精品免费|