林洋
(吉林廣播電視大學遠程教育技術中心,吉林 長春 130022)
簡論校園IT系統中的故障檢查
——以幾次故障處理過程為例
林洋
(吉林廣播電視大學遠程教育技術中心,吉林 長春 130022)
校園網IT系統的運維相對簡單,但出現故障在所難免,本文從硬件、網絡、業務三個角度出發,以幾個故障處理為例,討論校園網的網絡故障處置方法和運維思路。
運維;檢查;故障管理
IT系統具備相當的復雜性,為保障其可靠運行,在系統設計階段即應進行合理的拓撲規劃和架構設計,仔細考慮當前系統建設需求和未來的需求增速;進行設備選擇時,在滿足當前需求的前提下,需要權衡各個設備在價格和性能方面的平衡。
盡管如此,與所有網絡管理者的意愿相違,IT系統通常處于不穩定的運行狀態之中,它隨時可能因為各種各樣的環境威脅、惡意攻擊以及源自于硬件和軟件的沖突甚至服務等故障導致業務崩潰。因此,網絡管理員還需要提前制定各類故障的對應處理規劃和應急方案,以盡量保障系統的穩定、持續和可靠運行;在網絡運行期間,管理員應定期或不定期從多個維度對整個網絡進行檢查,包括硬件運行狀態、數據包狀態、服務狀態、生產業務狀態等。事實上,對網絡運維管理而言,預防手段遠比故障的及時處理更加重要。

我校網絡系統拓撲結構(2008年)
本文以幾個故障的實際處置為例,嘗試探討校園IT系統中的運維方法。
學校在早期的網絡建設中,從節省資金考慮,并未設置完整的網絡接入層,因此大量教師所屬的終端電腦直接通過雙絞線上行接入核心交換機,為此核心交換機配置了多個高密度千兆電口板。這種做法的好處是網絡拓撲結構簡單,終端PC接入互聯網的物理路徑最短,效率最高,網絡管理手段簡單、直接且有效;但這種結構在網絡體系的安全運行方面存在很大風險。某日雷陣雨,第二天網絡中心即接到終端用戶的故障申報,部分終端無法聯網,且顯示為本地網絡連接物理斷開。經檢查,發現故障范圍局限在核心交換機的特定板卡,且同時存在于該板卡的第1-8端口。根據板卡的廠家描述,該48口千兆板卡的物理結構為每8個端口由一塊芯片集中處理網絡請求,因此實際上48個電口數據由6個處理芯片分別處理,并最終匯聚到核心交換機的背板通道。根據以上信息,結合現場實地考察,又發現出現故障的辦公室大部分位于樓宇頂層。據此我們可以做出推斷:雷陣雨發生后,終端計算機和雙絞線鏈路上堆積了大量電能,而無論是網卡還是交換機板卡,都只能在較小范圍的弱電區域工作,當終端集中開機,較高電壓帶動電流通過雙絞線,擊穿了這8個端口的后端處理板。事實上在事后的故障檢查中,還發現了一些網卡損壞的情況。
在網絡設計和規劃中,盡管預算有限,也應考慮環境因素對網絡安全體系的重大影響,并作出合理安排。如上例所述,對存在雷擊風險的終端電腦、設備應盡早部署防雷擊策略,同時增加網絡接入層設備部署,使得風險發生時,縮小設備故障影響的范圍以及降低設備資源損失。
網絡層IP常見故障主要有兩種:ARP攻擊和IP盜用。
2006年至2008年是ARP病毒泛濫非常嚴重的時期,此后主要IT設備廠家和軟件廠家針對ARP提出了許多管理策略和攻擊防護手段,然而直到今日,ARP攻擊仍舊是校園網內的嚴重安全威脅之一。

以太網ARP數據報文格式
如圖所示,在典型的TCP/IP園區網中,終端和網絡設備需要維持自己的ARP表,用以實現二層地址轉發和三層網絡地址轉發,而攻擊者則首先獲取網關MAC地址,進而偽造以太網ARP數據包,將自己的MAC地址置于廣播報文源地址中,并在二層域中廣播,所有接收廣播報文的終端被迫修改網關MAC地址(在沒有防護的情況下),使得數據流向從正常的網關地址轉移到偽裝網關的地址上來。此舉的主要目的是欺騙,并獲取敏感信息,但大量數據的異常流向,會導致整個網絡效率低下,并阻礙多數數據包返回到正確地址,因此用戶無法正常連接到互聯網。
對于地址欺騙,普遍的做法是使用帶網管的網絡設備開啟ARP攻擊防護,確定合理的MAC刷新閾值,以減少網絡風險。在終端位置,可以考慮使用ARP防護軟件或其他綜合安全軟件,自動綁定網關地址,拒絕ARP欺騙。
校園網內常見的網絡故障還包括IP地址盜用。在很多情況下,網絡中的一些位置、某些部門不適合實施DHCP分配策略,此時需要對所有相關終端手工分配IP地址,但網絡管理者無法總是要求用戶始終保持IP地址正確,而事實上用戶惡意修改地址的情況也經常發生,修改者并不了解整個網絡的拓撲情況和IP規劃,隨意配置IP,經常導致其他同IP用戶無辜斷網。
對于IP地址分配,網絡管理人員需要在網絡規劃階段仔細考慮用戶需求,對無特殊需求的用戶提供DHCP服務,對需要提供審計和存在敏感信息的部門,必須實行地址綁定措施,必要時額外分離VLAN區域,降低IP沖突風險。此外的辦法是增加網絡審計設備,對用戶的網絡連接進行身份驗證和計費。
我校網絡中心采取了嚴格策略,即終端MAC地址、終端IP地址、鏈路、交換機端口、VLAN的完全綁定,任何終端只能從指定鏈路,以指定的地址訪問網絡,否則不予接入。在網絡管理方面,網絡中心長期維護學校全網的地址綁定表格,每次變動都需要再次登記,從而保證了用戶的合法網絡權益,并對非法用戶的連接請求進行管理和直接拒絕。2008年起,在我校接入帶寬十分緊張的情況下,網絡中心通過這樣嚴格的綁定策略,使得用戶的基本接入需求得到有效保障。
作為對外提供服務的窗口,學校通常需要建設專署網站,以WEB方式提供各種教育信息和教學服務,但提供服務即意味風險,風險既來自外部,也來自內部。
2008年12月30日,我校對外網站窗口遭受連續SQL注入攻擊,主頁面臨被篡改風險,網絡中心立即啟動應急響應,并與網絡安全設備廠家聯合,分析攻擊來源并進行防護。經檢查,發現對基于七層協議的SQL注入攻擊,當時的IPS設備尚沒有可靠抵御手段,因此又改為手工檢測,最后從IIS日志中分離出攻擊代碼,代碼如下:
2008-12-3000:15:21GET/xb/file.asp
fileid=1999214006;dEcLaRe%20@S%20VaRcHaR(4000)%20SeT%20@s=cAsT(0x4445434C415245204054205641524348415228323535292C404320564152434841522832353529204445434C415245205461626C655F437572736F7220435552534F5220464F522053454C45435420612E6E616D652C622E6E616D652046524F4D207379736F626A6563747320612C737973636F6C756D6E73206220574845524520612E69643D622E696420414 E4420612……F5354415455533D302920424547494E20455845432827555044415445205B272B40542B275D20534554205B272B40432B275D3D525452494D28434F4E5645525428564152434841522834303030292C5B272B40432B275D29292B27273C736372697074207372633D687474703A2F2F636E2E64617869613132332E636E2F636E2E6A733E3C2F7363726970743E27272729204645544348204E4558542046524F4D205461626C655F437572736F7220494E544F2040542C404320454E4420434C4F5345205461626C655F437572736F72204445414C4C4F43415445205461626C655F437572736F72%20aS%20VaRcHaR(4000));eXeC(@s);
--80-211.117.95.48Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.0)200064421
此后,開發人員針對網站專門完善了SQL注入攻擊的代碼防護,此后網絡中心于2014年購置WAF防護設備,目前已能以較高水平對網站進行安全加固和防護。
從這次攻擊的過程來看,基于防火墻/IPS的傳統網絡安防體系已不能對網絡安全提供完整保護,特別是網絡需要提供對外WEB窗口時,網絡管理員需要重新規劃web安全體系,并與現有網絡安防體系有機整合,從抵抗病毒入侵、低水平黑客攻擊、社會工程學攻擊、跨站攻擊、網絡滲透甚至DDOS攻擊等多角度出發,仔細考慮網絡安全需要,尋找合適、合理的方法,選擇專門的防護設備,從而實現策略可靠的網絡安全部署。目前較為普遍的作法是在網絡拓撲中設計明確的網絡邊界,如用戶區域、計費區域、DMZ區域、存儲區域等,而WEB服務通常位于DMZ區域,在網絡管理中,需要在防火墻上配置各區域的邊界策略,嚴格數據流向審核措施,在可能的情況下對數據進行多層協議審核,并保留系統運行日志。
不出現故障的網絡才是健康的網絡,對網絡管理者而言,這是網絡運維和管理的最終目標,在達到這樣理想的狀態之前,本文提出以下建議:
1.未雨綢繆:在網絡設計和規劃階段,仔細審核和考慮網絡需求,網絡拓撲設計應具有彈性,IP合理規劃,網絡核心和關鍵設備應具備冗余能力,對各種意外和風險有所準備。
2.認真細致:網絡管理和運維是一項長期且枯燥的工作,網絡管理人員應熟悉每一臺設備、每一個業務、每一項服務的初始狀態、正常狀態和故障狀態,并在問題即將出現前有所警覺,在故障發生時能及時發現。
3.完善日志:在網絡運維中,一個有意思的現象是大部分故障的發生具備前后關聯性,網絡管理員應當做好網絡運維日志,在系統運行正常時記錄設備運行狀態,在設備故障時記錄故障狀態,在狀態比對中經常能發現故障具體位置和原因;此外,對故障處理的完整記錄也有助于下次故障的原因倒查,因此保持完善的網絡運維日志,可以減少故障定位時間,加速故障處理進程。
4.經常檢查:大多數的網絡風險發生在網絡管理員最懈怠的時候,特別是黑客攻擊概率在每天的零時前后最高。因此網絡管理員應當制定網絡安全檢查制度,定期或不定期對網絡設備、網絡數據、業務數據進行檢查,發現風險及時處理,防止風險擴大并變成具體威脅。
5.應急策略:網絡故障的發生總是意外的,突發的情況更能考驗整個網絡的綜合素質。因此管理員應盡量事先考慮所有的安全風險,制定風險預案,在故障發生時應有法可依,有據可查,快速恢復業務。
網絡運維是長期持續的過程,保障網絡健康是長期的和艱苦的工作,網絡管理員需要以耐心、細致的態度對網絡進行管理。本文僅從我校網絡運行的實踐經驗出發,討論網絡管理的基本方法,拋磚引玉,懇請廣大同行指導。
[1]彭海深.網絡故障診斷[M].科學出版社,2007.
[2]李強.淺談計算機網絡故障診斷和排除方法[J].中國電子商情:科技創新,2013,(22).
[3]Tursunjan.Mama.關于網絡故障診斷和排除方法的討論[J].網絡安全技術與應用,2013,(11).
TP391
A
1008-7508(2015)10-0144-03
2015-07-11
林洋(1980-),吉林長春人,吉林廣播電視大學遠程教育技術中心講師,研究方向:網絡運維。