文/崔鍇
(南京大學信息化建設管理服務中心 江蘇省南京市 210093)
隨著學校的學術科研能力的大幅度提升,及“雙一流”高校對學科建設的需求,各學科對學術資源的訪問及國際學術交流的日益頻繁,各學科出現數據庫資源訪問問題。為了能夠更好的為師生提供教學與科研服務,通過數據分析、篩選、去重后,由圖書館的180個國內外數據庫訪問記錄中選取 TOP20 的境外域名作為此次優化的方向。我們針對此需求進行多次測試,逐步優化并解決了現有的數據庫資源訪問問題。
針對我校在校師生訪問量較大的國際期刊、數據庫等,通過出口智能優化選路的方式達到最佳的訪問體驗。計劃通過利用流量分析設備、多鏈路智能選路設備的配合完成智能選路方案的可行性調研。除優化訪問外,智能選路方案還能提供智能監控、主動告警、故障定位、數據對比及平臺可視化數據展示的功能。
在項目建設完畢后,希望通過這一整體解決方案,在降低運維故障率的同時,能夠協助網絡運維工作中減輕運維壓力、提高運維效率,更加自動化、智能化、可視化的完成網絡運維工作。
基于以上目標,我們選擇了業內較為知名的網絡廠商如:北京派網、深信服科技、華為、未來網絡、網瑞達科技等,針對項目需求分別進行了可行性交流、產品功能評估、制定實施方案。
廠商產品型號 設備可行性分析調研。
派網 Panabit-NPM:支持強大的應用識別能力并可對在網流量進行靈活調度。
深信服 AD:支持多鏈路智能選路流量分擔、鏈路監控、DNS代理。
華為 USG 防火墻:設備基于應用的智能選路功能能力不足。
未來網絡探針盒:支持有線無線、支持主動探測,具有告警功能。

圖1:Pannabit-NPM引流測試圖

圖2:深信服AD與探針配合測試智能選路功能圖
網瑞達探針盒:不支持無線網絡訪問方式,無法模擬無線用戶的訪問情況。
派網 Panalog:支持基于應用、協議的流量分析以及可視化的報表展示功能。
在進行多次溝通調研意見后,我們最終確定了滿足項目需求的產品:
(1)基于出口流量調度并具有自動選路功能的廠商產品:北京派網(Panabit-NPM)、深信服科技(深信服 AD);
(2)基于主動探針模式并具有監控告警的功能的廠商產品:未來網絡(探針盒);
(3)基于出口流量分析并具有日志統計、數據對比的廠商產品:北京派網(Panalog)作為實現目標功能的子系統模塊。
考慮到目前校園網使用的整體情況,本著盡量不影響校園網現網環境、不影響用戶體驗、盡量減少出口原有線路及配置改動的原則進行項目規劃和制定相應的測試方案。

圖3:我校數據庫出口優化項目拓撲圖

圖4:TOP20數據庫訪問情況總覽

圖5:智能選路效果顯著的13個資源站點
針對境外數據庫優化訪問的目標,項目組計劃通過兩個階段完成整體項目方案的實施規劃。
第一階段:
在測試環境中完成項目囊括的各子系統的功能測試,主要內容包括:
(1)派網 Panabit-NPM 完成應用識別,域名選路、流量牽引的功能。
(2)深信服AD完成智能選路并統計相關流量和路由連接情況的記錄的工作。
(3)探針設備模擬用戶在各時間段內對境外數據庫進行的實時訪問,將記錄并分析訪問結果后再與AD選路結果進行人工比對,從而驗證智能選路的正確性。

圖6:智能選路效果數值(柱形圖)

圖7:人工優化結果
(4)派網 Panalog 日志系統對途徑的流量進行分類統計,以及流量可視化功能的展現。
第二階段:
通過一階段的測試情況,在完成預期的計劃目標后,將各子系統與現網環境相連完成設備方案部署,并進行智能優化選路,主要內容包括:
(1)通過對途徑測試設備的流量進行數據分析、篩選、去重后,從圖書館覆蓋的180個國內外數據庫訪問記錄中選取TO20的境外域名作為此次優化的方向。
(2)將篩選出的TOP20域名通過流量負載均衡設備完成引流動作至AD設備。
(3)智能選路設備根據內置地址庫、智能 RTT 值的配合進行智能選路并記錄相關數據。
(4)探針設備針對多線路出口進行模擬用戶對以下域名進行訪問對比測試,分析訪問結果、若出現訪問問題,可以定位問題發生點并給出解決方案。
實施計劃:
第一階段:在測試環境中完成項目囊括的各子系統的功能測試。
具體計劃如下:
(1)派網 Panabit-NPM完成應用識別,域名選路、流量牽引的功能,同時Panalog日志系統對途徑的流量進行分類統計,以及流量可視化功能的展現。如圖1所示。
(2)深信服AD完成智能選路并統計相關流量和路由連接情況的記錄的工作。
(3)探針設備模擬用戶在各時間段內對境外數據庫進行的實時訪問,將記錄并分析訪問結果后再與AD選路結果進行人工比對,從而驗證AD智能選路的正確性。如圖2所示。
第二階段:完成TOP 20的數據庫自動智能選路模式功能測試,并對結果進行驗證。
具體計劃如下:
(1)我校出口共有五條線路:電信、聯通、移動、教育網、教育網(國際保障),接在出口的交換機上。
(2)下聯華為防火墻(主主)——上網行為管理(主備)——Panabit(AC 主機和核心之間)——核心交換機。AC備機網口默認斷電,所有上網流量均從AC主機和核心之間的線路轉發。
(3)Panabit 設備部署在上網行為管理(AC)主機和核心交換機之間,上下各做 4 組萬兆橋,通過路由策略將訪問指定數據庫域名的流量指向 AD。深信服AD的WAN口連接五條外網線路到出口交換機,LAN口直連 Panibit設備,用于接收訪問指定數據庫的流量。訪問數據庫的流量從Panabit走到AD,經選路策略選路后轉換為AD上外網線路的IP上網。其余不在 Panabit路由策略中的流量正常走AC到華為防火墻出去上網。當AC發生主備切換時,所有流量切換到備機和核心之間,Panabit 路由和AD選路策略失效,所有流量正常由AC和華為防火墻轉發,不影響現有業務。
割接影響及恢復措施:
(1)割接前對設備進行配置,待割接后上架運行,割接網絡中斷時間大約 2-3 分鐘。
(2)割接后,如果出現外網數據庫訪問有問題時,如加載過慢,網頁打不開等現象時,通過修改 Panabit 設備中的流量指向策略,恢復原路由走向。
(1)學校提供各運營商的出口備用 IP 地址,防止因用戶惡意下載導致 IP 地址被封。
(2)Panabit 需提供溯源功能,便于學校將出現安全問題時,提供溯源證據。
部署了兩個設備:
(1)將 Panabit 置入現網中,設備在出口防火墻與流量控制設備中橋接模式串入現網,以獲取真實的用戶訪問流量信息。
(2)將深信服設備旁掛至學校出口,目前實現了 電信、聯通、移動、教育網四個運營商的出口環境,與學校現有的出口環境分離。
(3)將需要測試優化的域名在 Panabit 策略路由 策略中進行引流,通過千兆的線路引流至深信服,通過深信服進行動態選路。探針設備線路上線:

圖8:選取的TOP20域名的原始數據記錄值(未進行智能優化的訪問數據)

圖9:TOP20域名的智能選路前后對比數據訪問情況(每天)
(1)目前深信服設備共六個電口,四個運營商線路共占用四個電口,一個與 Panabit互聯的口,一個管理口。探針目前因為 Panabit 流量分析設備甩到深信服的流量需要占用端口,所有目前沒有多余的端口來支持,此次將探針線路和Panabit引流線路接入二層交換機,再用一根網線接入深信服設備,以達到探針和Panabit 引流線路同時接入。
(2)利用真實用戶流量測試網絡性能,以及探針設備會主動發請求測試數據,來測試網絡性能,以上兩種方式兩個維度的數據來保障測試數據的準確性。
(3)在設備自動選路的同時,人工定期監測網絡運行的質量數據,根據測試數據人工進行優化出口調整,目前支持 IP 地址和泛域名(例如:*.nature.com)的方式進行手動的策略調度。
現場測試:
(1)現場連接 NJU 無線網絡,模擬真實用戶訪問,使用電腦測試 Top20 域名訪問的網絡延時數據。
(2)測試手動引流 Ip 地址功能測試,發現該引流方式在深信服設備教育網出口策略存在環路,因為前期想要歸屬我校的教育網地址作為出口地址NAT訪問,該地址在總部進行了國際帶寬的保障,并且學校已經將此地址報備給了數據庫廠商。調整了教育網的出口互聯地址,教育網地區網絡中心配合將該地址直接指向測試設備,環路問題解決。我校數據庫出口優化項目拓撲圖如圖3所示。
本次項目我們在充分調研后根據校園網出口情況完成了項目分段實施,具體如下:
第一階段:通過設備選型,功能測試及樣本選擇,完成測試環境的搭建,功能實現,以此來確認項目可行性。
第二階段:將數據庫智能選路、優化置入校園網現網環境中,通過數據分析、篩選、去重后,由圖書館的180個國內外數據庫訪問記錄中選取 TOP20 的境外域名作為此次優化的方向。如圖4所示。
根據智能優化選路 的訪問情況,我們通過流量分析設備取得13個資源站點的服務與應用延時平均值數據,并與未進行智能優化選路的數據進行對比,優化效果最高提升了60.85%。如圖5、圖6所示。
服務延時:訪問客戶端與被測域名響應時間。
應用延時:訪問客戶端與被測服務數據響應時間。
此次上線的 Top20 域名中,我們發現存在7個智能選路效果不佳的域名,針對這些域名進行人工復核驗證,我們通過探針設備模擬用戶行為在內網環境中進行多出口的網絡數據測試,并進行數據分析得出智能選路并非是最優效果,我們針對這7個域名手動設置了最優訪問線路,得出如圖7所示數據:
如圖8、圖9。
出口選路優化:
選路策略與現網出口環境融合,在滿足校園網出口訪問策略及安全訪問策略等條件下,達到針對需求訪問資源的優化訪問及保障,提升用戶體驗,保障學術訪問質量。
訪問質量檢測及優化:
針對出口的訪問情況進行智能化的預警監控,針對超過閾值的信息及被動故障進行人工判定,并提出解決方案,定期提供數據化的對比展示,定期提供數據化的運維數據報表。
訪問資源優化工作如:
(1)重點安保時期,保障學術訪問質量。
(2)重點學術需求時期,例如 海外學術視頻會議保障,大流量科研數據傳輸保障。
(3)對用戶提出學術科研保障需求,進行技術支持。
后續數據支持:
(1)現網 Panabit 流量分析設備日志記錄數據 180個數據庫網站中,以流量排名并去重后得出選取Top20(名單附錄)。
(2)利用 Panabit 的流量分析內容,進行服務延時和應用延時等數據進行收集并進行對比分析。目前已經開始記錄每日測試數據平均值。
(3)利用深信服自動選路,來判斷資源訪問優先級。
(4)利用自動測試探針進行自動化的測試任務,采集周期性數據。目前五個探針,分別代表了教育網出口、聯通出口、移動出口、電信出口以及自動選路策略的探針,每三個小時測試一次 Top20 測試列表中的境外數據庫網站的網絡往返延時數據以及 Http 的網絡測試數據等。
綜上所述,目前通過智能選路及人工優化的方式,可最大程度的保障境外數據庫的訪問效果,較之前靜態路由調度的方式,更加靈活、高效,提升了學術訪問體驗。通過對境外數據庫應用訪問數據進行監控,根據探針數據采集、出口設備運行的情況,設置合理閾值,能夠在故障發生時完成主動告警并進行人工干預。