黃澤 長沙市雅禮中學
隨著互聯網的普及和應用,各種各樣的信息呈爆炸式的趨勢增長,如何對信息進行有效的收集和管理,提高企業的信息利用率成為企業關注的重點問題。現如今,越來越多的企業選擇建立企業競爭情報系統的方式收集自身所需的情報信息,因此對系統中的分布式WEB信息存儲技術提出了更高的要求。
在WEB信息的壓縮存儲中主要采用文本壓縮技術來實現,這種技術能夠利用較少的比特或者字節還表示文本,從而減少在計算機中占用的存儲空間。隨著互聯網技術的發展,信息量逐漸增加,有限的存儲空間無法滿足無限增長的信息,單方面依靠擴大內存也不是長久之計,因此通過對文本的壓縮來實現減少占用空間的方式不失為一個行之有效的好辦法。同時,利用此項技術還有利于減少系統輸入或者輸出管理的開銷以及縮短信息延遲。在利用文本壓縮技術時,主要的時間花費是在文本編碼和解碼上面,利用已經壓縮文件的大小除以未被壓縮文件的大小則能夠得到該本文的壓縮率。
進行存儲文本壓縮最大的挑戰就是信息存取的隨機性,若想在壓縮文本中查找某個單詞,通常需要將所需單詞的所有本文進行解碼,可以將較大的文本分割成幾個小模塊,再逐一尋找。但是隨著模塊越小,壓縮率也就越低。因此,在選擇文本壓縮方式時,既應該考慮到空間的壓縮率,又要注重壓縮文檔的編碼以及解碼的速度,尤其是解碼的速度更為重要。例如,在企業的競爭情報系統中,將收集到的WEB信息進行存儲之后,需要反復操作才能夠被讀出,影響了企業工作效率。
在現實網絡環境中,同樣的WEB信息將以不同版本的方式存在,例如新浪網的主頁,地址都是新浪網站但每天的內容都在更新。還有些網站中的信息被以不同人的需要拷貝走進行更改,因此形成了多種多樣的版本。因此,如何對這些大同小異的WEB信息進行管理成為分布式WEN信息存儲系統中的主要難題。
分布式共享存儲系統是分布式海量存儲系統中的副本管理系統,它能夠根據文件受歡迎的程度進行動態的管理,當其所管理的某個文件的點擊頻率超過設置的閾值時,則會自動生成副本,從而實現降低訪問延遲以及平衡負載的目的。
負載平衡能夠有效提升分布式WEB信息系統的整體性能,平衡策略設計的質量與分布式存儲系統的存儲均衡程度息息相關。設計質量較差的策略算法會給系統的負載帶來較大不利影響,甚至會導致負載失衡。在選擇均衡算法的同時,應根據算法本身的適用環境和特點,可以結合不同算法和技術來使用。
2.1.1 輪詢法
每個部分在任務隊列節點中都具有相同的地位,輪詢法能夠實現將這些組成部分進行順序輪轉選擇。在負載平衡的條件下,算法將會將新的請求輪流傳達給節點隊列中的一點節點,然后進行順序輪轉,如此反復下去,使得每個節點在輪轉中都具有相同的地位參與其中。在輪詢法中,假如有N個節點,則每個節點被選中的幾率為N/1,因此較為容易算出節點的負載分布情況,也是操作性最強的一種方法。
2.1.2 最少連接法
在最少連接法中,主要是記錄一些目前來看最活躍的連接,將新的請求傳達給目前含有最少連接數的節點。這種算法主要應用于TCP連接,但是受網絡延遲等因素的制約,將會產生當前連接數與實際反映應用負載不相符的情況,這主要是由于沒有注重節點性能和請求強度的原因導致,使得平衡負載的效果明顯降低。為了避免這個弊端的出現,應設置最大的連接數上限。
2.1.3 散列法
散列法是指按照一定的規則,利用單向性的函數將節點分配出去,但是在WEB信息量較大的情況下時,承擔計算任務的每個Hash函數值的負擔都比較重。
在負載平衡的WEB數據分布式模型體系中包含多個存儲節點主機,每個主機都代表著網絡“家族”中的一員,并且以單獨的形式存在,具有單獨的存儲空間,能夠動態的加入或者退出。在此模型中,能夠在網絡中各存儲節點的空間磁盤中,建立一個大型的存儲池,使得用戶可以在全局空間內自由搜索自己所需的WEB信息,從而真正實現存儲空間的分布式共享。同時,利用管理服務器能夠對各個存儲節點進行動態的信息表管理,當用戶發送存儲請求時,管理服務器中采用的負載平衡算法將能夠實現各節點之間的動態分配。
雖然管理服務器中的功能多樣,但是不能夠對任何WEB信息進行保存,所有的WEB信息都放置在存儲節點當中,并且另外配備一個備份服務器可以避免管理服務器突然失效產生不良后果。此外,所有的存儲節點信息都在節點信息保存表中進行保存,其中包括節點目前的IP地質、節點狀態、節點剩余空間等等。信息表的存在主要是為了能夠維護一個完整的系統拓撲結構,根據節點的加入和推出不停的更新節點狀態,從而保障其同步和有效。當對企業競爭情報系統中的其他模塊發送存儲請求時,應在存儲節點信息表中進行查詢,獲得適應的節點集,再利用輪詢法進行計算,從而獲得最適宜的存儲節點進行存儲后更新WEB信息表。
綜上所述,隨著互聯網中涵蓋的商業信息量的增加,部分企業為了能夠在激烈的市場競爭中搶得先機,都紛紛加強與互聯網的融合,建立企業競爭情報系統。本文從分布式WEB信息存儲關鍵技術方面對其進行分析,構建企業競爭情報系統應用模型,為企業提供更多可拓展、高效率的海量存儲服務。
[1]許崇龍.分布式WEB信息存儲關鍵技術研究[D].哈爾濱工業大學,2012.
[2]李韌.基于Hadoop的大規模語義Web本體數據查詢與推理關鍵技術研究[D].重慶大學,2013.