□ 文 郝 航 潘智勇
隨著互聯網的高速發展,企業的運轉和服務模式發生了巨大變化,企業運轉越來越依靠信息系統,隨著信息系統數量的增多和規模的增大,企業對互聯網接入帶寬需求也越來越大,導致企業互聯網流量激增,這對企業的互聯網帶寬接入能力帶來了極大的挑戰。互聯網帶寬需求劇增帶來的不僅是容量問題,更是管理問題,單純擴展帶寬容量是不能解決企業內部不同系統、不同業務之間對有限帶寬資源爭用的問題。
同時在企業數字化轉型過程中,對各項投入進行成本核算已成為常態,是企業實現精細化運營的必經之路。在眾多核算項中,互聯網帶寬租賃費用作為企業長期高額投入的部分,對其建立完善的內部核算機制已迫在眉睫。
通過建立企業互聯網帶寬資源的計量計費模式,可實現互聯網接入成本在各類系統、各類業務的分攤,從而建立良性的發展模式,優化有限帶寬資源的分配和利用,實現企業增效降本提質的目標。本文旨在設計一套基于Netflow流量采樣的互聯網帶寬計量計費系統,實現覆蓋企業所有園區互聯網出口的帶寬資源系統維度、業務維度的統計,同時提出了基于鏈路繁忙度的動態激勵計費模式,對引導各類業務錯峰上網,優化企業互聯網帶寬資源分配具有重要意義。
NetFlow是1996年由Cisco公司開發的一款用于分析網絡數據包信息的流量輪廓監控技術,它描述了路由器輸出關于被路由套接字對(the routed socket pairs)統計信息的方法。NetFlow常見的部署結構如圖1所示,一套基于NetFlow的流量統計分析系統通常包括數據導出模塊(NetFlow Data Exporter)、數據采集模塊(NetFlow Data Colle c tor)和數據分析模塊(Net Flow D at a Analyzer)。
NetFlow的工作原理為:NetFlow首先使用標準的交換模式對IP包的數據初始化,同時把IP包的數據緩存下來,形成NetFlow緩存,隨后NetFlow在同一數據流中傳輸緩存信息相似的數據,從而完成數據包的計數和統計。當設備緩存的NetFlow數據包超過上限或緩存的NetFlow條目達到老化時間,就會把該NetFlow數據發送至采集模塊進行統一存儲,存儲在收集器中的NetFlow條目最后會被分析器加載,完成流量數據的最終統計分析。
傳統的NTA(Network Traffic Analysis)設備通常采用實時采樣的方式感知監控鏈路的流量,對設備的性能要求較高,而本文設計的帶寬計量計費系統是通過周期性的啟動、關閉探針實現對監控鏈路的周期性采樣,與傳統的實時采樣相比,周期性采樣的流量統計分析系統具有以下優勢:
(1)減輕統計分析設備負載
企業內部網絡設備負載通常處于較高水平,如采用全流量實時采樣的方式勢必會額外增加設備的計算開銷,導致設備負載持續走高,影響設備性能和可靠性。而對企業互聯網流量進行周期性采樣可以有效降低流量監控范圍,其統計結果也具備較高的可信度。
(2)避免產生過多背景流量
由于NetFlow本身會產生統計報文,因此勢必會在企業網絡中引入背景流量,從而影響企業網絡性能,為盡量降低背景流量對企業網絡的干擾,必須考慮減少NetFlow的生成速率,而周期性采樣流量方式可有效降低NetFlow的生成速率,從而減少對現網的影響。
(3)簡化統計模型設計
企業內部往往運行眾多服務器和業務系統,每臺服務器每個業務系統都會產生大量的聯網數據,基于實時采樣數據的統計模型的設計和實現難度極大。為實現統計模型的簡化,抓住統計重點,必須減少統計的樣本數量,因此適合采用周期性采樣的方式進行統計。
1.3.1 總體架構
本文設計的統計系統包含探針、收集器和分析器三部分,其功能架構如圖2所示。
探針負責根據收集器下發的采樣任務對監控鏈路進行周期性采樣,并在一個采樣周期結束后或緩存的NetFlow條目達到緩存上線后將NetFlow統計信息發送至收集器。
收集器負責所有探針的采樣任務管理和統計數據的收集、存儲,并通過REST接口提供統計報文的查詢服務。
分析器中部署了帶寬計量模型和計費模型,通過從收集器中獲取統計數據并運行計量、計費模型產生業務系統維度和業務部門維度的帶寬使用報表,并提供可視化大屏展示。
主要功能模塊說明如下:
(1)通信模塊:負責探針、收集器和分析器之間的底層數據通信,采用非阻塞式異步通信框架,避免各節點之間因耗時任務執行導致的通信異常。
(2)心跳模塊:用于探針和收集器之間的心跳保活,在探針發生故障后,收集器會因為心跳超時感知故障探針,標記探針狀態并及時發出告警。
(3)采樣任務模塊:收集器上的采樣任務模塊是針對探針采樣任務配置管理,包括設置探針采樣時長和采樣間隔等配置;探針上的采樣任務模塊主要是負責本節點采樣任務的定時啟停和結果上報。
(4)統計分析模塊:通過部署計量、計費模型,對收集器中存儲的NetFlow數據做進一步統計分析,生成可視化大屏所需的帶寬占用數據和費用數據。
部署架構如圖3所示。
本文設計的系統充分考慮企業多園區結構,通過在不同園區內部署探針設備,實現全域互聯網流量的監測,從而實現覆蓋企業全部園區的互聯網帶寬計量和計費。在探針部署階段,對于支持鏡像端口的網絡設備,直接鏡像互聯網出口流量至探針設備;對于不支持鏡像端口的網絡設備,可以借助分流器等設備對原始流量進行克隆并引流至探針設備。

表1 采樣參數
1.3.2 流量采樣頻率
為降低帶寬資源統計分析系統的復雜度,同時考慮采樣數據的準確性,本文提出的帶寬資源統計模型中采樣間隔為5分鐘,24小時采樣,每日采樣數據包括288個/每IP的主機帶寬數據和288個鏈路帶寬數據。
1.3.3 帶寬計量模型
本文所設計的帶寬計量模型相關概念定義如下:
(1)主機采樣帶寬:采樣時刻主機實際使用帶寬。
(2)系統采樣帶寬:采樣時刻系統所屬的主機采樣帶寬之和。
(3)鏈路采樣帶寬:采樣時刻互聯網出口鏈路實際總使用帶寬。
(4)系統日帶寬:每日系統采樣帶寬的95峰值計為系統日帶寬。為避免系統對互聯網突發性訪問造成帶寬計量過高,系統日帶寬采用95峰值計量模式,即對系統所有采樣點進行降序排列,移除最高5%的采樣數據后的次高采樣數據作為系統日帶寬的計量數據。
1.3.4 帶寬計費模型
本文所設計的帶寬計費模型相關概念定義如下:
(1)鏈路帶寬:企業從運營商租賃的互聯網鏈路帶寬。
(2)鏈路繁忙時段:每日鏈路采樣帶寬超過鏈路帶寬50%的時段。
(3)系統高峰時段:每日系統采樣帶寬在80峰值以上的時段。
(4)系統日參堵率:系統高峰時段與鏈路繁忙時段重疊時長與鏈路繁忙時段總時長之比。當鏈路繁忙時段總時長為零時,所有系統日參堵率為零。
本文所設計的帶寬計費模型計算方式如下:
其中,C日是系統日費用;B日是系統日帶寬;C年度租賃費是互聯網鏈路年度租賃費;B總帶寬是鏈路總帶寬;S是計費激勵因子,計算公式:S=0.5*(1+系統日參堵率)。
在以上計費方式中,企業內部系統占用帶寬產生的費用除了與實際占用帶寬大小有關,還與企業互聯網鏈路的繁忙程度相關,當鏈路處于非繁忙時段時,系統占用帶寬產生的費用將優惠至多50%,而鏈路處于繁忙時段時,系統占用帶寬產生的費用優惠力度大幅度降低,從而實現了根據鏈路繁忙度變化的動態激勵方式,達到鼓勵、引導企業不同系統、不同業務錯峰上網,優化互聯網帶寬資源使用的目的。
通過在某企業實際部署系統,收集某天帶寬數據如圖4所示:
已知企業互聯網總帶寬為250Mbit/s,鏈路負載>50%總帶寬的時段是08:00~18:25,系統A、B、C、D的各項參數如表2所示:

表2 系統占用帶寬統計表
假設企業年帶寬租賃費用為100萬/年,使用帶寬計費公式計算A-D系統的日帶寬費用分別是:
由以上結果可知,系統A和C、系統B和D的系統日帶寬基本相同,但C、D系統的日參堵率較高,說明這兩個系統與其它系統之間存在帶寬爭用現象,因此在核算帶寬占用費時優惠幅度小,其帶寬費用較日帶寬占用量相近的A、B系統高出近40%,C、D系統所屬業務部門應當考慮調整用網時段以降低本部門帶寬成本,從而提高企業互聯網鏈路帶寬的綜合利用率。
隨著互聯網的發展,企業對互聯網帶寬的需求日益增長,如何提高企業互聯網帶寬資源的綜合利用率是當前研究的一個重點。本文對帶寬使用采樣統計進行數學模型分析,將解決問題的思路歸納為帶寬采樣、計量模型和計費模型三個方面,并設計了一套較完善的帶寬數據采集、存儲、分析、可視化的計量計費系統,對加強企業互聯網資源的管理有重要意義。同時本文還提出了基于鏈路實時負載的動態激勵模式,對于引導企業內部錯峰上網,優化帶寬資源使用有較高價值。■