田雨 保定卷煙廠
機房又稱為網絡數據中心、數據處理中心和數據交換中心, 在IT 業,機房普遍指的是電信、網通、移動、雙線、電力以及政府或者企業等,存放服務器的,為用戶以及員工提供IT 服務的地方,小的幾十平米,一般放置二三十個機柜,大的上萬平米放置上千個機柜,甚至更多,機房里面通常放置各種服務器和小型機,機房的溫度和濕度以及防靜電措施都有嚴格的要求,非專業項目人員一般不能進入。機房很重要,沒有了機房,工作、生活都會受到極大影響,所以每個機房都要有專業人員管理,保證業務正常運行。網絡機房是由硬件、軟件及網絡布線組成。硬件主要有:服務器、交換機、磁盤存儲陣列、網關、UPS、防火墻、空調等設備組成,根據各個行業的不同,軟件的內容也有所差別,現在的煙草行業主要包含ERP 系統、考勤系統、辦事公開、采購規范管理系統、安全管理信息平臺、生產經營決策系統、NC 系統、MES 系統、中層考核等。機房是整個網絡體系的中心樞紐,通過高速網絡與下行或并行的各個節點相連接。
機房是企業信息數據匯集、轉發的重要場所。企業的協同辦公系統,財務系統、營銷系統等重要系統的服務器都集中在機房,所以企業對計算機機房的穩定性、可靠性、安全性要求較高。一旦電力系統、網絡系統、服務器等出了故障,造成業務中斷,造成的經濟損失是不可估計的。
機房能否正常運行直接決定了企業內部能否正常運作,因此,如果機房的管理與維護工作做的好,就能使企業的工作效益得到保障和提高。
非機房工作人員不允許進入機房,特殊情況需經部門領導批準,并認真填寫《機房出入登記表》后,由部門人員陪同方可進入。
(1)非巡檢人員需進入機房對機房內設備進行操作或其它作業,必須至少兩人或兩人以上同時在場方可作業,并認真填寫出入機房登記表。
(2)機房巡檢人員進入機房巡檢時,應按機房巡檢制度,認真填寫巡檢記錄。
(3)進入機房人員必須更換專用工作鞋或套上機房提供的鞋套。
(1)巡檢要求
a.機房巡檢由專人負責管理,確保機房的不間斷管理;如管理員因故未能到崗,則由管理員經部門領導同意后轉派其他人員進行巡檢。
b.機房巡檢人員應該嚴格遵守每日早、晚兩次對機房進行巡查的要求;如遇氣候情況惡劣、供電不穩定時,應增加巡檢次數,杜絕意外情況的發生。
c.機房巡檢必須按要求填寫《機房日常巡檢表》,巡檢表記錄應在巡檢期間填寫,不應事后補填;巡檢表必須妥善歸檔保存。
d.巡檢期間,發現機房物理環境異常、設備狀態異常,應立即按照規定采取相應措施并按操作規程執行進行恢復操作,如果故障按恢復規程無法及時恢復時,應立即聯系相關人員、單位進行處理,并及時上報部門領導。
e.故障處理過程必須在《機房日常巡檢表》的故障處理欄中詳細記錄,以備查閱。
(2)巡檢內容
a.巡檢人員在對機房進行巡檢時,主要對機房物理環境、服務器及應用系統運行狀態、網絡設備運行狀態、電源設備運行狀態和空調運行狀態進行巡檢。在巡檢過程中,發現問題應立即按照本巡檢制度的故障恢復操作規程進行處理。如按故障恢復操作規程無法解決故障,立即把故障情況詳細報告信息中心領導,并通知相關人員共同解決故障,如仍無法解決故障,應立即啟動應急預案。
b.機房物理環境巡檢應包括:機房監控設備是否存在報警;機房專用空調運行狀況、參數是否正常;機房溫、濕度環境是否符合規定的要求;消防設備是否完好(機房消防設備原始壓力、使用起始年限、現壓力等)。
c.對服務器巡檢時,應察看服務器的運行狀態,是否有報警燈亮,發現問題及時處理、上報和登記。
d.對網絡設備運行狀態巡檢時,應察看各網絡設備的運行狀態,發現問題及時處理并登記。
e.對電源設備運行狀態巡檢時,應察看機房市電配電柜、ups 主機和精密配電柜、電源監控設備的運行狀況和參數進行重點檢查,察看是否有報警發生,并檢查機房內各條電源線路的狀況。發現問題及時處理、上報和登記。
(1)機房設備的采購、驗收、固定資產處置
a.機房設備的采購必須按照相關規定嚴格執行。
b.設備驗收前,采購人員負責收集整理隨機資料、設備配置單、產品序列號、測試文檔等設備詳細資料,并填寫資料清單并妥善保管。設備驗收時,采購人員須提交設備資料清單。
c.管理人員要對購入設備進行嚴格的實物驗收和技術驗收。驗收人員要按照規定填寫設備驗收單并簽名確認。
(2)機房設備的維護維修
a.機房服務器、網絡安全設備及其附屬設備由管理員進行例行檢查和維護,尤其是設備供電、運行狀態是否正常等要特別檢查和維護。
b.發生故障時,要嚴格按操作規程進行恢復,情況嚴重時,要立即上報并按啟動應急預案。
c.如機房設備硬件損壞需要維修,需填寫《機房設備維修單》維修完畢后歸檔保存。
d.每年應至少進行一次全面檢修。如機房發現意外和緊急情況要及時報告,對重大事故要注意保護好現場。
(1)安全保護
a.未經授權,任何人不應以任何方式登陸進入局域網、服務器等設備進行修改、設置、刪除等操作;任何人不應以任何借口盜竊、破壞網絡設施;不應采用各種手段切斷他人網絡的連接。
b.內網與外網出口處必須安裝防火墻、入侵檢測系統等安全設備,確保網絡不受攻擊。
c.數據庫管理人員必須定時備份。當服務器發生故障時,應立即啟動應急預案,盡快恢復數據,確保經營管理活動的正常開展。
d.局域網設備、連接線路及服務器等發生破壞案件后,管理員必須及時處理、記錄并向有關領導報告。
(2)操作管理
a.操作人員操作中心機房的數據必須實行雙人作業制度。
b.操作人員應嚴格執行,必須認真、如實、詳細填寫等各種登記簿,以備后查。
服務器具有功能強大的處理能力、容量很大的存儲器以及快速的輸入輸出通道和聯網能力。通常它的處理器也由高端微處理器芯片組成,例如,用64 位的Alpha 芯片組成的UNIX 服務器;用一個或兩個奔騰芯片、4 個或者更多奔騰芯片組成的NT 服務器;以及用64 位的安騰組成的服務器。要定期檢查服務器的運行狀態是否正常,如果運行狀態正常,液晶顯示器就不會顯示信息,如果顯示器出現報告信息,這是就說明硬件有報警,要及時檢查并發現問題。如果服務器的橙色燈亮起,就說明硬件出現問題,這是要檢查服務器的電源、接線、硬盤等,查出問題后要及時處理。如果服務器的硬盤燈呈綠色顯示,說明服務器工作處在正常狀態,如果服務器的硬盤有損壞,綠色等會熄滅或者呈現閃爍狀態,以1-3 秒的頻率有規律地、不停的閃爍。機房服務維護人員要確保機房在突發事故導致硬件設備故障,影響機房正常運作情況下,及時得到設備供應商的產品維修和技術支持,并快速解決故障。
消防設備的維護是機房最為基本的維護,當消防設備出問題,對于機房的影響是非常巨大的,一般消防設備維護主要是檢查滅火器的控制裝置、火警探測器、手動報警按鈕、煙感熱感探測器、火災警報裝置等;
定時查看漏水傳感器跟感應繩有沒有損壞或失靈,避免災害發生時不能及時檢測到;
機房都會有電池以及ups 相關的設備,那需要對機房不間斷電源的數據進行采集以及檢查維護,確保確保電池組正常工作,同時同時要根據實際情況進行電池核對性容量測試;進行電池組充放電維護及調整充電電流,確保電池組正常工作;檢查記錄輸出波形、諧波含量、零地電壓;查清各參數是否配置正確;定期進行UPS 功能測試,如UPS 同市電的切換試驗;
機房環境及動力設備監控主機具有可靠性高、維護方便的特點,是傳統機房環境及動力設備監控主機的 升級換代產品,可提供對機房重要環境及動力設備的監控功能,包括環境設備監控(溫度、濕度、煙霧、水浸、精密空調、新風機等)、動力設備監控(配電、發電機、UPS、蓄電池、開關、防雷器等)、安防設備監控(消防、門禁、視頻等)。當所監測的參數超過設定的允許值時,系統診斷為有故障(報警)事件發生,監控主機通過短信、電話、語音、聲光、郵件、系統日志等多種方式通知管理人員進行報警處理。為保障機房正常的運行環境,機房動力環境監控系統就顯得十分重要。機房動力環境監控系統提供自動化、智能化的管理,達到無人值守,高效管理的目的。概括來說機房動力環境監控系統可以做到遙控、遙測、遙信,對機房內所需監控的設備、環境等進行監控和管理。實現了在3D 可視化場景中,對機房內所有動環設備進行統一監控,實時了解數據中心內動環設備的運行狀態、能耗、告警等信息,通過3D 場景的直觀展現,管理者可針對運行突發情況及時處理,保證設備穩定、安全地運行。
照明電路設備維護主要包括鎮流器、燈管及時更換,開關更換;線頭氧化處理,標簽巡查更換;供電線路絕緣檢查,防止意外短路;
設備除塵維護主要是定期對設備進行除塵處理,清理,調整安保攝像頭清晰度,防止造成機房監控設備將塵土吸入監控設備內部的情況發生;
時檢測視頻門禁等設備確保設備的長遠運行,避免設備故障,防止不相干人等隨意進出;
機房其他維護包括基礎維護,如:防鼠、地面除塵、防雷器檢查、靜電地板清洗清潔、縫隙調整、損壞更換、接地電阻測試、主接地點除銹、接頭緊固、接地線觸點防氧化加固等維護同時要管理好機房那需要完善機房運維規范,同時需要優化好機房運維管理體系。
總之服務器的維護至關重要,稍有疏忽就會使整個網絡陷入癱瘓,因此服務器的維護是一件非常嚴肅的事,可能在維護的過程中服務器很久也出不了什么問題,但是一旦出問題就有可能會是致命的問題,這時候優秀系統工程師的價值就會體現出來。能保證業務正常運行的人很多,但是能讓業務運行起來并穩定運行下去的人不多。做好機房的管理與維護要從制度完善、人才培養、環境優化、軟硬件升級等方面入手,形成網絡機房管理和維護的措施體系,全面提高網絡機房管理與維護水平,達到對網絡機房管理與維護工作的強化,加快企業的信息化建設步伐,為企業的高速發展提供了更加有利的保障。