機房應急預案合集15篇

來源:文萃谷 3.07W

在現實的學習、工作、生活中,有時會出現一些意料之外的事件或事故,為了減小事故造成的危害,通常會被要求事先編制應急預案。那麼優秀的應急預案是什麼樣的呢?以下是小編精心整理的機房應急預案,歡迎大家分享。

機房應急預案合集15篇

機房應急預案1

機房是我單位的重要場所,重要儀器、設備相對集中,一旦發生事故,會造成嚴重後果 。為此特制定本應急預案。

一、觸電

(1) 一旦發生觸電事故,應迅速安全切斷電源,切忌直接接觸觸電者。

(2) 即刻撥打緊急電話120並通知相關領導,同時開展現場應急救護 。

二、火災

1、報警程序:

即刻通知領導及相關部門,根據火情大小如需報警立即就近用電話或手機報告消防中心(電話119).。

2、組織實施:

機房管理員一旦發現火情後,應即刻切斷電源,並使用滅火器撲救起火設備。

三、空調漏水

若空調系統出現滲漏水,應立即安排停用故障空調,清除機房積水,並及時聯繫設備供應方處理,同時臨時用電扇進行降温。

四、設備發生被盜或人為損害事件

( 1)發生設備被盜或人為損害設備情況時,使用者或管理者應立即報告中心負責人,同時保護好現場。

( 2)中心負責人接報後,通知保衞處,一同核實審定現場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。

( 3)當事人應當積極配合公安部門進行調查, 並將有關情況向領導彙報。

五、機房停電

(1)接到長時間停電通知後,應及時發佈相關信息,部署應對具體措施。

(2)如遇臨時停電,且停電時間在3小時之內,管理員要檢查UPS是否正常工作,以確保機房設備的`正常運行。。

六、網絡故障

(1)發生通信線路中斷、路由故障、流量異常等故障後,網絡管理員應及時查清通信網絡故障位置,隔離故障區域,組織相關技術人員檢測故障區域,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。

(2) 事態或後果嚴重的,應及時報告領導並請求協助解決。

七、不良信息和病毒事件

(1)發現不良信息或網絡病毒時,管理員應立即斷開網線,終止不良信息或網絡病毒傳播,並報告。

(2)中心負責技術人員應採取隔離網絡等措施,及時殺毒或清除不良信息,並追查不良信息來源。

(3)事態或後果嚴重的,應及時報告相關領導以及相關部門。

八、服務器軟件系統故障

(1)發生服務器軟件系統故障後,在確認安全的情況下,重新啟動故障服務器系統;重啟系統成功,則檢查數據丟失情況,利用備份數據恢復;

(2)若重啟失敗,應立即安排備份服務器啟用,並請求技術人員支援,作好技術處理。

九、注意事項:

第一、機房管理員要加強日常監控,及時處理、消除及上報安全隱患。

第二、備齊安全相關裝備。

第三、及時做好備份。

機房應急預案2

核心機房電力的保障一直是維護體系的頭等重要事項,通過實施應急發電演練,建立了可靠的應急預案機制,最大限度的降低電源中斷對網絡傳輸質量的影響。現分享核心機房電源中斷應急預案,希望分公司儘快建立一套統一指揮、職責明確、反應迅速、處置有力的機房安全保障機制。

組織架構:

責任領導、工程維護、網絡監控、網絡運維、質量管理等相關人員。

機房電源系統説明:

1、機房電力是兩路三相四線制供電,進線線纜規格為:RVV50*4+16*1銅芯護套線。

2、機房電源系統採用三級防雷系統,三級防雷分別位於電源進線端、UPS輸入前端。

3、機房現有兩台60KVA-UPS電源,均處於正常運行狀態。

4、機房現有設備機櫃已編號,均通過UPS電源和市電供電,每個機櫃有獨立的20A空氣開關。空調、牆壁插座開關、應急燈、照明等都是單獨空開接市電。

5、運行中的UPS電源所帶負荷,在逆變運行狀態下能正常工作約4小時(已經過UPS放電測試)。

一、核心機房電源中斷預案

1、在接到停電通知的情況下:

1)計劃性停電通知要確保綜合部、工維機房管理部對口人接到通知(提前將對口聯繫人備案在物業處),機房管理員接到計劃停電通知後,升級到調度中心進行信息發送,同步進行郵件通知相應應急小組成員。並與負責組長及責任領導電話告知,確保已經接收到本次停電的時間及可能發生的情況。

2)維部進行發電應急預案小組成員通知,提前做好機房發電預案要求的準備工作,將相應的發電機、連接線、人員安排到位,各司其職,隨時待命現場,做發電準備工作。確保停電時刻的電力安全及機房用電的保障措施,提前調度安排好相應人員做好保障用電的措施。

3)計劃停電時間開始後,馬上啟動應急發電操作,按照機房發電操作步驟實施階梯供電的步驟,恢復市電保障。並進行現場值守及設備工作確認,確保全部正常後電話告知調度中心及維護體系領導。

2、在沒有接到任何通知,突然發生停電的情況下:

確認停電線路,停電時刻,停電時間等要素,啟動核心機房發電應急預案。

1)值班網管工作流程

⑴值班網管監控到核心機房停電,第一時間告知工維部、網絡部、運維部應急小組組長。信息傳達到工維部機房管理員(一主一備),告知停電開始時間。

要求在停電5分鐘內將消息傳達到調度中心,各應急小組組長。如無法聯繫上,進行升級到責任領導-工維部經理經理處。

⑵網管將停電信息電話傳達後,進行調度派單,確保全部的應急小組成員都收到本次故障停電的信息。然後進行機房中設備的檢查,包括:UPS設備主機、各核心設備、匯聚設備、服務器、語音系統等。檢查是否受影響。同時啟動機房降温措施(降温方案:初步為加裝抽排風設備、增加大風扇排風形成熱量流動降温)

⑶實時監控設備及UPS工作情況,包括:電量下降情況,設備工作正常情況,每15分鐘通報一次電量情況。

2)運維部應急工作流程:

⑴運維應急同事接到故障通告後,第一時間往停電現場趕,到現場配合網管/工維部門進行設備儀器的檢查、客服語音系統的保障,應急發電的協助。

⑵現場配合進行機房降温散熱措施實施,實時檢查網絡設備的'工作情況。

3)運營質量管理應急工作流程:

⑴調度中心值班人員接到網管監控調度信息後,第一時間將故障信息記錄併發故障通告到相關應急成員,並電話通知各應急小組組長是否知悉。

⑵進行客服調度系統的設備工作運行系統檢查,特別語音系統級坐席電腦,是否有問題,如發現工作系統有異常,及時與運維應急小組成員溝通,進行檢查處理。

⑶實時關注故障工單流程進度登記,配合應急小組進行人員調度通告。

4)工維部應急工作流程:

⑴機房管理員第一時間往停電現場趕,同時進行電話溝通供電公司、物業方等,諮詢停電原因,是屬於計劃性還是突發性停電,預計停電時長,將諮詢清楚的結果反饋到應急小組成員中,電話聯繫物業溝通好需要發電需求申請。

⑵工維應急小組組長接到時間後第一時間往停電現場趕,同時進行發電應急小組成員調度,安排第一時間到場工作開展,並升級通報告知主管領導,對口集團維護中心上報信息。

⑶工維應急小組成員接到停電時間後第一時間往停電現場趕,要求30分鐘內必須到場(住機房附近的人員往現場去,較遠同事可以進行打車往現場去),先行到處同事配合網管、運維同事啟動做好應急發電前的準備:連接線布放、接續、發電機發電前檢測油/電/水路檢查,確保正常。確保一切就緒後,確認可以進行發電操作後,按照發電操作流程進行發電恢復市電。

⑷網管將監控到停電的相應信息及級別同步發送到運營質量管理部調度崗,由調度崗將相應信息進行工維、運維、網絡關聯同事進行信息告知,同時報工維主管領導知悉。

5)應急機房發電操作流程:

⑴機房用電系統包括四方面:空調製冷、主/備UPS主機、照明系統、客服調度系統。

⑵發電前考慮4方面系統設備用電功率情況,為保障發電機帶動的正常,不能進行同步供電,要區分優先恢復的步驟實施,確認發電機的工作正常。在發電前將需要供電的“空調製冷、主/備UPS主機、照明系統、客服調度系統”的市電輸入主開關關閉。防止同步啟動時發電機的無法供電保證。

⑶啟動發電機,檢測發電輸出電流通斷,待發電機運行穩定後。

第一步啟動空調製冷系統的市電輸入開關,運維應急小組成員重新啟動空調主機(空調因為市電恢復後需要重新啟動)觀察空調製冷工作是否正常。

第二步啟動主UPS設備的市電輸入開關,觀察發電機運行穩定情況,主UPS主機工作穩定情況,網絡設備的工作正常與否。

第三步啟動客服系統的市電輸入開關,包括(客服坐席電腦、UPS設備、空調製冷等),觀察發電機運行穩定情況,設備恢復工作情況。

第四步啟動備UPS設備、市電照明的市電輸入開關,觀察發電機運行穩定情況,備UPS主機工作穩定情況,網絡設備的工作正常與否。

⑷發電機啟動,市電輸入正常後,網管將降温系統的抽排風設備關閉,與運維同事進行所有設備的運行進行全面的檢查,確保設備已經是運行正常。

⑸發電機發起市電正常後,工維應急小組安排專人現場值守,及時關注發電機油量情況,同時與油品供應商確認油品配送要求及時間要求,並實時與供電部門確認市電恢復時間。

6)停電過程中突發事項預防:

⑴網管在停電時進行機房確認運行中的UPS工作組、設備組工作狀態。主/備UPS工作切換是否正常,在市電中斷時UPS是否已經開始進行供電保護。

⑵值班網管對機房中的所有設備進行全面檢查,確保所有的設備已經是有主備供電,市電中斷後UPS已經正常保障設備工作。同時對機房的温度進行觀察,温度是否突然升高。

⑶停電後,UPS處於逆變工作狀態,當班人員要每隔15分鐘觀察一次UPS的蓄電池容量、帶負荷情況、機房環境温度,儘量使蓄電池容量大於60%,帶負荷小於85%(因為已經有自購發電機應急,儘快要求短時間發起電,減少UPS的放電過度)。

⑷發現機房環境温度大於26℃。當以上指標不能保證時,要及時向機房管理員彙報,同時上報責任領導知悉,網管預案小組成員經過慎重討論,適時採取關閉不必要網絡的網絡設備、加強通風降温等措施儘量延長關鍵設備運行時間。

機房應急預案3

沙溝中學實施營養午餐突發斷水斷電等意外事故處理應急預案水、電是實施營養午餐改善計劃學校食堂正常供餐必備的最基本的條件,是食品安全工作的重要組成部分,也是保障師生正常生活的重要基礎。斷水斷電等意外事故在學校時有發生,為進一步加強學校食堂水、電等設施的管理,保障學校斷水斷電等意外事故發生時能正常為學生提供圖紙等的營養午餐,維護學校正常的教育教學秩序,特制定本預案

一、組織機構

(一)成立學校突發斷水斷電等意外事故應急成立領導小組。

組長:王鵬程

副組長:馬紅治

馬志鋭

組員:馬強

呂宗仁

王繼祖

陸巖

馬萬喜

各班主任

指揮部的工作職責是:

(1)啟動學校斷水斷電等意外事故處理應急預案。

(2)領導、組織、協調事故應急處理工作。

(3)負責事故處理事項的決策。

(4)負責上報與事故相關的'重要信息。

(5)審批學校應急處理工作報告。

二、常規管理

(一)、學校組織相關人員定期和吧不定期深入學校對學校可能斷水斷電等意外事件的隱患,即使做查漏補缺,做到早發現、早報告、早治理,不能因為人為因素斷水斷電而停止正常營養午餐。

(二)、學校要與當地政府、水保站、農電站等相關部門保持聯繫,協調學校的用水和用電工作。

(三)、用水緊張或缺水學校,要想辦法做好學校用水的儲蓄工作,並邀請相關部門對學校用水質量檢測,確保水質量好,無安全隱患。

(四)、做好學校食堂用電設施的改造工程,指定專人經常對學校食堂用電設施進行檢修,維護。

(五)、對卻因客觀原因二造成的斷水斷電等意外事故時應立即啟動該預案。

三、建立報告機制

1、對學校發生臨時斷水斷電等意外事故是學校不能對學生實施午餐時,學校從業人員向管理人員報告,管理人員向校長報告,校長協調有關人員檢查檢修,對於用電設施必須有專業人員進行檢修,確保短時間內供水供電。

2、對學校發生長時斷水斷電等意外事故時,學校從業人員向管理人員報告,有管理人員檢查檢修,同時上報縣意外事故應急處理協調領導小組。

四、事件處理

1、各級領導小組負責人接到報告後,及時組織相關人員趕赴學校開展事故處理工作

2、學校應及時對學生做好解釋説明工作,同時採取科學合理的辦法通過各種途徑解決學生營養午餐

3、學校迅速與家長取得聯繫,通過告示等形式給家長做好解釋工作,去的家長的諒解,保證廣大師生及家長在事故發生和過程中的知情權,嚴防事態擴大給學校教育工作造成不良影響。

4、協調各方面力量做好學校穩定工作,保障學校正常的教育教學秩序

5、學校要及早購置手搖鼓風機等應急設備,在學校斷電時能立即啟用。

6、主動和有關部門聯繫,及時購買等價等值、衞生、營養、可口的熟食品,如牛奶、麪包等,及時為學生供應午餐。

7、斷水斷電事故處理結束,要認真總結分析事故發生原因,提出改進意見,完成處置總結報告,報送縣營養辦。

五、責任追究

對斷水斷電突發公共事件的應急處置工作中實行領導責任制和責任追究。對有突出表現的個人予以鼓勵和表彰;對負有直接責任個人依據有關法規和規定給予行政處分;;對處理不當,貽誤時機,造成惡劣影響的直接責任人,要嚴肅追究責任。

六、本預案由學校突發斷水斷電等意外事故一見處理工作領導小組負責解釋。

機房應急預案4

第一條 機房內禁止明火禁止吸煙,機房內的所有設備需要定期維護並做巡檢記錄、根據機房實際情況進行清掃工作。

第二條 機房網絡設備維護由網絡管理員進行,如發現機器故障應及時排除故障,在遇到硬件三包範圍內的故障時,應及時聯繫供應公司上門或將機器送供應公司維修;

第三條 酒店員工必須嚴格遵守有關機房、設備及系統運行管理規定,不得在機房內從事與系統管理、運行維護、系統安裝和調試等無關的工作;

第四條 做好防火、防雨、防濕、防盜工作,注意用電安全;機房內的環境要每週檢查温度、濕度、電力系統、是否滿足機房相關的標準要求。

第五條 機房內的交換機和服務器系酒店運營的關鍵設備,任何人不得自行配置或更改其系統參數。

第六條 要做好機房的安全工作,對服務器的各種帳户、密碼嚴格保密。

第七條 應及時做好數據的備份工作,保證在系統發生故障時,數據能夠快速、安全的恢復。所有備份數據不得更改,並要求做到本地和異地分別備份保存。

第八條 為了確保本酒店網絡正常運行,每日對機房內的設備進行巡視,主要着重於服務器及網絡設備運行正常與否。

1、對機房裏的温度進行調節,如室內温度過高,調節空調對機房進行有效的通風。

2、查看交換機與防火牆及接入設備的工作狀態,如發生異常,對其進行及時有效的維護。

3、監測網絡運行狀況。

第九條 除本酒店網絡管理員外,公司其他人員因工作需要進入機房的,需網絡管理員陪同下進入機房。

第十條 嚴禁帶外單位人員或無關人員進入機房,確因工作需要,如:系統故障診斷和處理,設備維修維護、系統或設備安裝等進入機房,必須由網絡管理員陪同進入,配合項目的.實施。

第十一條 進入機房的設備應在進入機房前拆除外包裝,以保證機房環境的清潔和安

第十二條 嚴禁攜帶易燃、易爆、易腐蝕等危險性物品進入機房。

第十三條 機房內提供的UPS電源只允許為主機、服務器、網絡及存儲等核心設備供電,嚴禁安插其他設備,增加UPS電源供電負荷。

第十四條 嚴禁擅自切斷供電系統,確因工作需要斷電時,首先應做好相應準備工作,經部門領導批准,然後給所有部門發放斷電或斷網通知,最後方可實施。

第十五條 機房內安裝用電設備或有用電需求的項目時,必須經過專業人員或設備提供商的安裝工程師進行現場勘查,經確認在滿足或符合要求後工程才能實施。

機房應急預案5

第一條:機房意外停電後,首先確定停電的範圍以及受影響的設備範圍。

第二條:確認停電的範圍為本公司或本機房,應立即聯繫工機科電話彙報。估算電力可能恢復的時間,並通知直接上級。

第三條:如果確認停電的時間在1個小時內,可以在UPS正常供電的時間內,等到電力恢復。如果不能確認在2個小時內恢復供電,需及時到達現場。做好各設備的電源停電準備。在UPS供電達1.5個小時後,嚴格按操作手冊停掉存儲和各應用服務器的電源,最後停核心交換機和路由期。等待電力恢復,電力恢復供電後轉第七條執行。如果確認停電的範圍僅在於本機房電源故障,立即彙報給機房電源維護負責人。

第四條:機房維護負責人將掉電的電源櫃總空開和分空開的狀態處於下電狀態。並向直接領導彙報,馬上聯繫相關廠家,如有可能請廠家立即到現場支持。第五條:將掉電的所有的設備電源狀態處於下電狀態,以防止電源櫃加電對設備的.衝擊。

第六條:等各廠家和相關的人員到齊後,商議設備恢復時因注意的事項,並形成相關文檔。

第七條:電力室恢復供電後,先不要急於給電源櫃加電,等待10—20分鐘後,再開始給電源櫃加電,以防止供電不穩或再次掉電。

第八條:供電正常後,確定設備處於下電狀態後,打開電力櫃的總控開。第九條:根據設備加電順序,啟動分項空開。第十條:設備加電順序,網絡交換類設備正常後再給磁盤陣列櫃加電,存儲狀態檢查正常後,啟動主機(以上各設備務必按操作手冊的啟動順序上電)。第十一條:設備啟動正常後,開始啟動數據庫。第十二條:數據庫啟動正常後,開始啟動中間件服務器。第十三條:中間件服務器正常後,啟動應用程序。

第十四條:機房設備進行全面點檢,確認所有設備運行和服務正常。

機房應急預案6

機房消防應急預案

為使信息機房發生火災事故時,當班人員能鎮靜有序地處置事件,特制訂本預案,請各成員認真學習,熟悉應急處置程序,提高全員的應急能力,一旦發生突發事件,盡最大努力保證員工人身安全和減少損失。

起火原因一般有明火管理不慎;電氣設備管理、使用不當;縱火等原因。

預案一:當聞到燒焦氣味時

當班人員發現信息機房內有冒煙現象或聞到燒焦氣味時,可能是某處陰燃處於起火階段或電源超負荷發熱引起,容易引發火災,當班人員要立即查明原因和地點,針對不同情況,採取迅速將火源撲滅或關閉電源總開關、隔離火源附近易燃物、關閉窗等措施,消除起火隱患,防止引了火災。事後立即向安保部門報告,並做好現場保護工作和防止起火點復燃,不得隨意離開現場和將事故隱瞞不報。預案二:當班時發現起火或冒出濃煙

由於起火源隱蔽或其他突發原因未能及時發現和消除起火隱患,釀成明火和冒出濃煙,燃燒面積不大,就是火災的初起階段,當班人員發現起火或冒出濃煙時,切忌驚惶失措,要沉着、果斷,會同其他當班人員分工協作,迅速查明原因組織撲救,當火執已無法控制時處置辦法:

一是指定專人立即拔打“119”火警電話報警和向上級保衞部門報告,並向本部門和周圍的`人及羣眾喊叫報警;二是組織本單位、部門在場的人員有序地投入撲救工作,充分利用消防栓、滅火器、水桶等器材滅火,不能消極等待消防隊到來,而錯過滅火良機,力求將火撲滅或控制火勢蔓延,不能只顧個人安危而逃離火場

三是大聲呼喊請求鄰近單位及羣眾的支援。

四是在組織滅火同時,要立即組織人員疏散和轉移物品中,特別昌易燃、易爆物品和易受到火舌威脅的現金、重要憑證要及時轉移到安全地點,並派人員守護,確保安全。

五是滅火後要注意保護現場,維護好秩序,以利於消防部門調查分析火災原因。注意事項:

報警人員報警時要向消防部門講清楚起火地點、單位、起火的種類和火勢大小,報警後即到街道或十字路口迎接、引導消防車輛的到來;撲救人員在消防人員到來後,要立即向消防指揮人員講清火場內存放有何種物資和貴重物品,火場內是否有爆炸、劇毒物品,並協助消防部門維護好現場秩序。自行撲救火災時要留心觀察火勢和環境,防止被火圍困、煙氣中毒、墜物砸傷等,在確保自身安全的情況下撲救火災。

機房應急預案7

中心機房突發事件應急預案

第一條

機房突發事件包括網絡設備或服務器故障、自然災害(水、火、電等)造成的物理破壞、人為失誤造成的安全事件等等。針對突發事件的預防措施如下:

1.建立安全、可靠、穩定運行的`機房環境,防火、防盜、防雷電、防水、防靜電、防塵;建立備份電源系統;加強所有人員防火、防盜等基本技能培訓。

2.服務器採用可靠、穩定的硬件設備,落實數據備份機制,安裝有效的防病毒軟件,及時更新升級掃描引擎;加強對局域網內所有用户和信息系統管理員的安全技術培訓。

第二條

機房漏水應急預案如下:

1.發生機房漏水時,第一目擊者應立即通知機房管理人員。

2.若空調系統出現滲漏水,機房管理人員應立即安排停用故障空調,清除機房積水,並及時聯繫設備供應方處理,同時啟動備用空調,必要情況下可臨時用電扇對服務器進行降温。3.若為牆體或窗户滲漏水,機房管理人員應立即採取有效措施確保機房安全,同時安排通知辦公室,及時清除積水,維修牆體或窗户,消除滲漏水隱患。

第三條

機房火災應急預案如下:

1.完善機房環境,確保機房具備二氧化碳滅火器;禁止攜帶易燃易爆物品進入機房。2.機房管理人員應熟悉機房內部消防安全操作和規則,瞭解消防設備操作原理,掌握消防應急處理步驟、措施和要領,懂得滅火的方法,會撲救初起火災,並定期組織滅火演習。3.一旦發生火災,迅速切斷機房電源,避免災情的擴散,並迅速撥打物業管理和119火警電話。

4.等待消防車到來期間,應組織物業保安或工作人員在保證安全的前提下滅火,應急領導小組應在第一時間內集中所有二氧化碳滅火器,抓住時機,儘可能的把火撲滅。

5.配合消防部門調查事故原因,對造成的損失和起火原因做好記錄,以便進行災後總結。

第四條

雷擊事故應急預案如下:

1.遇雷暴天氣,機房管理人員在下班後應及時關閉所有服務器,切斷電源,暫停內部計算機網絡工作。

2.雷暴天氣結束後,機房管理人員應及時開通服務器,恢復內部計算機網絡工作,對設備和數據進行檢查。出現故障的,事發部門應將故障情況及時報告機房管理人員。

3.因雷擊造成損失的,機房管理人員應會同相關部門進行核實、報損,並在調查工作結束後一日內書面報告領導。

第五條

設備防盜被盜或人為損害應急預案如下:

1.機房管理人員每日查看、清點設備並鎖好機房大門。

2.機房管理人員每日檢查錄像監控服務器狀態,確保監控畫面正常,並檢查每日錄像正常性、完整性。

3.發生設備被盜或人為損害設備情況時,使用者或管理者應立即報告相關負責人,同時保護好現場。

4.機房維護人員接報後,通知保安及公安部門,一同核實審定現場情況,清點被盜物資或盤查人為損害情況,做好必要的影像記錄和文字記錄。

5.事發單位和當事人應積極配合公安部門進行調查,並將有關情況向機房管理人員彙報。

第六條

機房停電應急預案如下:

1.接到停電通知後,機房管理人員應及時通過辦公系統、電話等發佈相關信息,部署應對具體措施,要求用户在停電前停止業務、保存數據。

2.機房管理人員每日檢查UPS電源的狀態,確保在突發停電時,UPS電源能自動供應服務器正常工作半個小時,保證員工工作的數據及時保存。

第七條

通信網絡故障應急預案如下:

1.發生通信線路中斷、流量異常等故障後,員工應及時通知機房管理人員。

2.機房管理人員在接到報告後,迅速組織相關技術人員檢測故障區域,並作相關故障處理,必要時通知通信網絡運營商查清原因;逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。

3.應急處理結束後,機房管理人員應在一日之內提交故障分析報告,以便備案。

第八條

服務器故障應急預案如下:

1.機房管理人員每日檢查服務器狀態,檢查郵箱服務器狀態,確保系統運行的完善。

2.機房管理人員定期備份服務器數據,並將備份資料刻錄成光盤或拷貝到移動硬盤。

第九條

1.發生機房突發事件後,機房管理人員應採取有效措施開展先期處置,恢復信息網絡正常狀態。應急處置工作結束後,機房管理人員對事件發生原因、性質、影響、後果、責任及應急處置能力、恢復重建等問題進行全面調查評估,根據應急處置中暴露出的管理、協調和技術問題,改進和完善預案,實施針對性演練,總結經驗教訓,整改存在隱患,組織恢復正常工作秩序。

機房應急預案8

1.主機和運維管理制度簡介

超級計算機是功能最強、運算速度最快、存儲容量最大的一類計算機。目前只有少數國家掌握研發技術,系統造價非常昂貴,多用於國家高科技領域和尖端技術研究,是國家科技發展水平和綜合國力的重要標誌。上海超級計算中心作為上海信息港主體工程之一,國家和上海市政府投資先後引進神威-I超級計算機、神威-64P集羣計算機、曙光4000A超級計算機系統並投入商業化運行。

上海超級計算中心自20xx年正式開通至今,

這些高性能計算機系統已安全、穩定運行七年多時間,上機用户取得了豐碩的科研成果和社會效益。在這七年中,為保障這些高性能計算機系統安全、穩定、不間斷地運行,技術支持部在中心引進第一台高性能計算機--神威-I超級計算機系統的同時,建立了機房應急預案、運行記錄、設備運行參數等基礎運維制度,在二期引進曙光4000A超級計算機系統過程中,不斷完善原有運維制度,並針對該主機系統特點編寫了大量操作方法和應急預案。

中心自20xx年獲得ISO27001(BS7799)信息安全認證以來,技術支持部根據其要求規範了文檔體系建設,形成了機房管理制度、應急預案、操作方法、運行情況記錄的四大類運維文檔。

正是這些運維管理制度的不斷完善和有效執行,才確保了資產價值高、服務對象廣、社會影響大的中心主機系統安全、穩定運行,保障重點項目、用户服務的連續性。

2.應急預案重要性

上海超級計算中心機房運維管理文檔劃分為機房管理制度、應急預案、操作方法、運行記錄共四大類。

應急預案在應急系統中起着關鍵作用,它明確了在突發緊急情況發生之前、發生過程中以及剛剛結束之後,誰負責做什麼、何時做,以及相應的策略和資源準備等。它是針對可能發生的重大事故,按照其影響和後果嚴重程度,在應急準備、響應、操作各個方面預先做出的詳細安排,是開展及時、有序和有效事故應急工作的行動指南。因此,應急預案在這四類運維管理文檔中處於最為重要的地位。

3.應急預案分類

應急預案按重要性和事件種類,可以劃分為消

防預案、斷電預案、空調預案、其他預案共4種,預案各文檔之間彼此獨立又互為關聯,具有非常強的可操作性。制定預案的指導原則是盡一切可能,最大限度地確保向用户提供的服務不中斷。在緊急事件發生的情況下,保證核心設備連續運行,避免存儲數據丟失。在事件處置完成後,能快速恢復高性能計算服務。

3.1消防預案

消防預案是主機房最重要的應急預案。該類預案根據《上海超級計算中心滅火和應急疏散預案》的原則並結合主機房主機設備和消防設備的運行特性而制定。主要由《主機房消防應急預案》和《主機房氣體噴淋消防系統啟動撤離及處置應急預案》 2個文檔組成。

消防應急預案:該預案着重規範了火警事件發生後,所有主機維護人員如何根據所屬區域和現場情況,判斷和選擇正確的處理方法,同時配合中心物業人員處置,降低事件帶來的影響。

對於設備發生煙霧,主機維護人員協同物業人員尋找煙霧點予以切斷相關區域電源;當設備發生可以控制火情,協同物業人員滅火;當主機房發生火災而無法控制,應採取施救方法等措施。

氣體噴淋預案:該預案描述主機房氣體噴淋系統啟

動的響應和確認並具體規定了撤離機房路線、善後處置。

這兩個預案中,消防應急預案作為消防預案

的主體,涉及到如何處理與消防有關情況的各個方面。氣體噴淋預案是主機房發生重大火災時應對的最終滅火手段和人員撤離引導方法。

3.2斷電預案

斷電預案的重要性僅次於消防預案。該類預

案根據中心供配電系統實際情況和各種斷電影響範圍下對主機運行的最小保障要求而制定的。主要由

《主機房斷電應急預案》、《曙光4000A超級計算機系統緊急關機操作方法》、《曙光4000A超級計算機系統雙路斷電關機操作方法》等多個文檔組成。

主機房斷電應急預案:該預案用於斷電情況

下,主機維護人員如何與中心物業部門聯繫控制主機房供電情況,並且負責對主機系統運行受斷電影響程度做出正確判斷。指導維護人員按影響程度,分別選用預案中對應的操作方法。本預案在所有斷電預案中起指導思想作用。緊急關機操作方法:該預案制定了主機系統在緊急情況下,最快速度關機的操作步驟。主要用於發生煙霧、明火或消防、斷電預案需在數分鐘內關機斷電的事件。

雙路斷電關機操作方法:該緊急操作預案主要用於在外界雙路供電全部中斷情況下的操作。

該預案的關機原則是:根據實際電力供應考慮操作步驟,寧慢勿快,在時間允許的情況下,最大程度保證存儲節點、SAN和SCSI存儲設備、工程用户的計算節點的運行,儘可能減少關閉範圍,以確保能在恢復供電的情況下,主機儘快恢復正常運行狀態,減少影響範圍。

3.3空調預案

超級計算機系統在運行中消耗大量電能,在

提供高性能的計算能力同時產生大量的熱量,必須採用專用空調系統,以保持主機系統適當的温、濕度、空氣潔淨度等運行環境需求。因此,專用空調系統與主機系統密切相關,空調預案是主機房必備的應急預案。

制定該預案的原因在於,斷電情況下,空調與主機系統存在互相牽制的現狀。主機和空調系統均為外界雙路供電,主機系統配有UPS不間斷電源系統,而空調系統無UPS支持。在雙路停電情況下,主機系統可獲得UPS電池組支持運行若干分鐘,空調系統無UPS支持只能停機。由於在無空調冷卻情況下,主機系統會在短時間內積聚大量熱量導致超過運行警戒温度,主機系統在有可供電餘量的情況下,仍將被迫關機。因此,確保空調中斷情況下的主機運行環境是該預案的制定原則。

預案根據各台主機配備的空調系統特點制定,由《曙光機房空調系統故障應急預案》和《神威機房空調系統應急預案》2個文檔組成,這裏僅介紹曙光機房空調系統應急預案。

該預案的第一步:考慮增強主機系統散熱效

果,採用打開主機機櫃前後門,和機房周邊木門,在通風道上佈置有UPS支持的應急風扇,形成空氣對流,帶走熱空氣,從而增強主機系統散熱效果,降低升温速度。

該預案的第二步:在採取上述措施並持續升温到一定温度之上的情況下,考慮緊急關閉部分或全部計算節點,減少熱量生成,確保主機系統的核心存儲和網絡系統不受影響,確保空調系統修復後,主機系統能快速恢復運行。

3.4其他預案

除了固定的三類預案之外,技術支持部還根據主機系統實際運行中出現的'各種意外情況,隨時制定具有針對性的預案。

如《大樓頂棚坍塌應急操作方法》的制定,就

是由於20xx年1月連續發生雨雪等災害性天氣,中心大樓頂棚大量積雪且難融化,物業預計存在情況繼續惡化,有發生頂棚坍塌事故的可能,一旦發生將影響一樓主機運行。

針對該突發的隱患,中心技術支持部制定應急操作方法,對維護巡查頻度範圍、漏水可能發生位置、如何處理受漏水影響的主機設備等操作步驟進行嚴格界定。即使在最後,中心大樓頂棚經受住災害性天氣的考驗,該預案並未發揮作用,這正體現了應急預案的備而不用的特點。而且通過各種意外

情況的迅速分析、應對和實踐操練,不斷鍛鍊主機維護隊伍,使之走向成熟。

4.在實際案例中,應急預案的作用

在主機系統年復一年的運行中,我們希望這些設備正常穩定運行,應急預案永遠不會被使用,然而在實際運行中,總免不了因突發事件執行應急預案。

而每次突發事件是檢驗應急預案制定是否科學、有效的最好證明。

4.1雙路斷電,UPS正常運行案例

20xx年8月某天,因打雷導致供電一路跳閘自動換至另一路供電,曙光機房2台空調掉電。

主機維護人員立即按應急預案操作,電話通知物業人員恢復空調運行,恢復過程中所有空調相繼出現高温報警,機櫃液晶屏平均温度35度,開啟全部曙光機櫃前後門,打開神威-曙光玻璃門並調集應急電扇,於12:45恢復正常。

12:50再次出現雙路供電中斷,曙光空調因無

UPS支撐全部斷電,啟動斷電應急預案,開啟

5、6號木門,開啟神威機房全部空調,佈置電扇,將冷氣導入曙光機房,熱量從6號木門的外部通道排出,選擇性殺除部分作業,至13:05供電恢復,曙光空調開始工作,13:20環境恢復正常。全機在此過程中,正常運行未停機,只損失了部分不重要的作業。

4.2單路斷電,UPS失效案例

20xx年8月某天,因低壓配電櫃開關至UPS房間x-JM櫃電纜發生相對地短路,造成UPS機組逆變器自身保護動作,關閉UPS機組,導致曙光主機系統失電。

全機掉電後,主機維護人員迅速按應急預案

手工關閉所有電源開關。1 0 : 3 0恢復供電,温濕度恢復正常後,全機加電,恢復過程中修復

storage00

1、00

5、010三個盤陣的9個用户文件系統,修復15個節點加電故障,除cnode00

9、anode029電源

環境模塊故障,於當日15:10全機系統恢復正常。

由於處置及時,主機受影響範圍很小,在恢復供電後數小時即成功開啟全系統。

5.隨時保持應急預案的適用性

主機長年累月的運行,故障和問題的發生,往往是必然的,也是客觀、無法迴避的。因此,要求在維護工作中,預先考慮到可能的問題和故障,制定完善的應急預案。應急預案不可能包含所有的故障和問題,但應根據維護經驗,儘可能地設想各種危機情況下的處置措施。做到預想到各種可能的問題。

而在形成應急預案後,更重要的是持續地在

運行中加以完善、測試和演練,儘可能模擬實際情況,做到即使只有1名維護人員在場,也能在真正發生危機時,以最短時間獨立處置故障。

以目前中心的主機運維工作為例,三年內,僅斷電預案就已根據實際運行情況的變化,制定並更新了5~6個版本,針對夏季突發斷電也有專用預案。這樣的措施,直接保障了20xx年8月突發斷電事件中的主機連續運行。而20xx年8月的突發斷電事件中,由於預案在之前剛根據實際情況進行過演練和修改,主機維護人員僅用半小時就完成所有應急操作動作,整機僅有個別設備故障,確保了主機設備未因突發斷電而發生大範圍損壞現象,恢復供電後直接完成開機。

實踐證明,完善而適用的應急預案能保障向用户提供穩定的高性能計算服務。

6.結束語

完備而適用的應急預案能有效降低主機系統因意外事件發生帶來的運行風險,對可能發生的意外來説,是一種事前防範措施。但對整個主機系統產品而言,是一種事後防範措施。如果主機系統生產廠商能把這些防範措施納入整個系統設計過程中,使操作方法更加簡便、更趨於人性化,這將幫助主機維護人員更為妥善處理意外事件,用户得到更為穩定的高性能計算服務。我們相信未來國產的高性能計算機能做到這一點,期待着這一天早日到來。

(為幫助瞭解,特在附錄中節選部分雙路斷電關機預案內容)

附錄:《曙光4000A超級計算機系統雙路斷電關機操作方法》(省略具體操作步驟)

曙光4000A超級計算機系統雙路斷電關機操作方法

注意:

1、本方法專用於主機房發生雙路同時斷電緊急操作使用。(包括單線斷電切換失敗)。

2、本方法作為《曙光-4000A超級計算機系統緊急關機操作方法》的附件。

1.斷電確認及操作:

主機房內一旦發現斷電,並接物業明確通知為雙路斷電,首先執行如下操作(即確保節點温度):

1.1打開機房門便於散熱,

1.2機房通道上佈置應急風扇加強冷熱空氣對流,夏季:應急風扇佈置..;冬季:應急風扇佈置..,使曙光

機房的温度儘量降低。

1.3打開所有機櫃前、後門。

1.4密切注意機房節點平均温度(專指各機櫃液晶面板所示之環境温度值)。

2.緊急關機條件確認:

在完成上述操作後,密切觀察主機房環境。一旦有如下任何一個條件滿足:

2.1自斷電發生起,已達到xx分鐘仍未恢復供電;

2.2採取上述緊急通風措施,節點温度持續上升,超過xx℃;

可認定為緊急斷電事件,即刻按下列緊急關機操作方法進行操作。

3.緊急關機操作步驟:

注意事項:

3.1 ..

3.2關機操作的全過程中,注意隨時保持和物業的通訊聯繫。除根據情況隨時聯絡外,應嚴格保證每xx分鐘與物

業聯繫一次,詢問UPS可支撐時間及恢復供電可能。(分機、手機、對講機等)

3.3應理解關機原則為:根據實際電力供應考慮操作步驟,寧慢勿快,在時間允許的情況下,最大程度保證x排節

點、存儲節點、SAN和SCSI存儲設備的運行,儘可能減少關閉範圍,以確保恢復。

第一級操作:(首先執行)關閉主機系統外圍設備..

第二級操作:(完成上述操作後,當再次發現UPS電池低於xx分鐘或節點平均温度超過xx℃,任一條件滿足,執行如下操作)

關閉非重要用户計算節點(ABC組)..

第三級操作:(完成上述操作後,當再次發現UPS電池低於xx分鐘或節點平均温度超過xx℃,任一條件滿足,執行如下操作)

關閉所有用户計算節點(D組)..

四級操作:(完成上述操作後,當再次發現UPS電池低於xx分鐘或節點平均温度超過xx℃,任一條件滿足,執行如下操作)

關閉SAN存儲設備和LSF數據庫服務器..

第五級操作:(完成上述操作後,當再次發現UPS電池低於xx分鐘或節點平均温度超過xx℃,任一條件滿足,完成關機操作)

關閉SCSI磁盤陣列和所有存儲節點..

特別關注:

1.如時間非常緊急,UPS電池低於xx分鐘:

直接執行關機腳本:

此腳本可分別將計算節點、接入節點、存儲節點進行關閉。

2.如時間極其緊急,UPS電池低於xx分鐘,可按《曙光-4000A超級計算機系統緊急關機操作方法》,直接拉閘操作。

(上述二個方法僅用於突發情況,非極其必要情況下嚴禁使用,應使用前列方法操作)

3.如遇主機失電(如關機操作不及已掉電或突發自動掉電)應關閉所涉範圍所有設備電閘開關。..

機房應急預案9

為了應對各種突發和緊急事件,特制訂以下方案。

一、突發和緊急事件指自然因素或其它原因引起(或可能引起)基站財產安全或較多基站中斷的所有事件。

二、啟動基站維護(緊急)組織實施方案的範圍:梅雨季節地勢低窪基站的防汛;雷電高峯期基站的動力搶修或搶險;大雪(暴雪)基站房屋及鐵塔的維護及應急搶修工作;颱風、地震前中後基站及鐵塔的維護;傳輸或MSC(BSC)故障造成基站大面積故障,故障恢復後基站網絡的測試。

三、啟動基站維護(緊急)組織實施方案的條件:天氣和各種地質災害預報或由此可造成(或正在造成)基站的財產安全和網絡穩定運行,網管統計發現大面積網絡故障時必須立即啟動基站維護(緊急)組織實施方案。

四、對於由自然因素可能引起的基站及分佈系統站點的財產安全和網絡穩定運行,得知地質或天氣預報後,立即組織各代維項目部區和相關工程施工單位對所在地的站點進行預防性巡檢,對於各種隱患要求各項目部現場及時上報給我公司災害預防和處理應急領導小組和各地移動公司應急領導小組。

五、我公司應急領導小組成員和各代維項目部所有維護人員在重大災害預防和搶險過程中的的移動電話必須24小時開機,必須無條件服從公司應急領導小組和代維項目經理統一安排,若某項目出現人員不足的情況下,公司臨時從總部或異地抽調人員和車輛參加搶險;凡當地移動公司所轄站點不是我公司維的護站點出現重大險情後,我公司抗災任務又不重時,各項目部要主動向移動請纓。

六、公司在每一次抗災救險活動結束後

公司應急領導小組應對本次活動的.成功經驗和教訓進行總結,對錶現優秀的團隊或個人進行表彰,表現較差的團隊或個人進行處罰

七、重大災害預防和搶險的人員組織機構:

領導小組由總經理,副總經理,各部門經理及地區經理組成,總經理為總指揮,各代維項目部也應成立相應成立相應的抗災救險領導小組。

八、抗災救險人員安排:

公司總部和各代維項目部應包括以下小組

1、通信保障組:在發生險情時提供移動通信應急保障,負責實施應急通信的詳細方案、應急中所需的備品、備件、測試儀表、工具、技術資料的保管及預防性維護保障工作。

2、物資調撥組:負責所有應急物資日常保管、定期檢查、更新以及應急時的調撥和運送。

3、搶險救災組:負責應急時的搶修和救災方案的實施

九、值班制度

1、各代維項目部在啟動抗災救險預案後應實行24小時值班制度,設立固定值班地點和24小時值班熱線。

2、全體應急人員保持24小時開機。

3、在接到上級關於進入應急狀態的通知後,即由領導小組成員組成指揮中心。

十、體保障措施細則:

1、根據每年的雨情在進入梅雨季節後將基站及分佈系統代維的工作重點轉為重點機房、基站等重點防汛場所的巡視,故障處理。在遇到突發或緊急時間期間,加強對重點基站、低窪基站及傳輸機房的巡視,確保環境監控系統工作正常。重點基站及傳輸機房一週一次,低窪基站二週一次。颱風期間每天對拉線塔進行巡檢,並填寫基站巡檢表。

2、重點保障地點預置好防汛搶險物資。並給各維護小組配備部分隨車搶險物資。如編織袋、鐵鍬、雨衣、雨靴、防火泥、防火包、手電等。對抽水泵,移動油機進行保養,確保其工作正常。對應急燈、應急手機定期充電。

3、出現連續暴雨或颱風情況時,維護人員每天對重點站點及所有拉線塔進行巡視,填寫基站巡檢表。發現緊急情況立即通知我公司地區經理和移動代維管理人員,由代維管理人員上報移動部門領導,並趕赴現場確認,視情況確定是否安排專人(人員由綜合部安排)進行24小時值守。

4、網管值班人員對環境監控設備出現的告警密切觀察並記錄,若確有異常情況發生,立即通知我代維人員趕赴現場檢查。並追蹤代維人員的處理情況和反饋結果,若發現代維人員未及時處理,我網管值班人員應立即向我公司和移動公司彙報。

5、進入汛期後由各項目部負責每天瞭解所在區域的水位情況,並通知網管值班人員,由網管值班人員通知我代維人員及移動代維管理人員,根據水位情況合理調度巡視隊伍與車輛。

6、收到颱風警報後,各項部項目經理立即組織代維人員對全區拉線塔進行巡檢,發現異常發現緊急情況立即通知移動代維管理人員和我公司應急領導小組,視情況確定應急措施。

7、收到大雪或暴雪預報,組織維護人員對所轄基站中拉線塔基站、彩鋼瓦基站進行重點巡檢,當得到網管或其他人員通知所轄基站中有拉線塔基站、彩鋼瓦基站出現故障或非正常情況,立即派搶修人員奔赴現場,並逐級上報。

機房應急預案10

為建立有效防範和處理火災事故的工作機制,防範消防安全事故的發生,力保消防安全事故發生時能夠快速、高效、合理有序地處置,特制定本預案。一.機房火災隱患分析 由於機房內電氣設備多,線路複雜,大部分的火災都是電氣火災,引發電氣火災的主要因素有:

1.電氣線路短路、過載、接地電阻過大等引發火災。 2.由於機房內的電腦、空調、UPS等設備長時間不間斷運行或設備故障引發 火災。 3.靜電產生火災。 4.雷電等強電入侵引發火災。 二.處置程序 1.發現火情後,迅速切斷電源,利用就近滅火器進行滅火,並按照特級事故 通報機制進行通報,向領導彙報火災具體情況。

2.迅速組織相關人員攜帶消防器具趕赴現場滅火,並聽從現場指揮人員指揮。

3.如火情較為嚴重,應立即與大廈消防中控取得聯繫,並與之協商處理辦法 措施,必要時需要專業消防滅火的,迅速撥打119。 4.迅速組織相關人員對重要數據設備進行轉移,儘可能保證關鍵設備安全, 引導人員進行疏散。 三.撲救方法 1.電源或線路起火應首先切斷電源,絕不能用水撲救。 2.撲救機房設備時,最好使用氣體(如CO2)滅火器,乾粉,泡沫滅火器會對設 備造成 腐蝕,使損失增大。 四.注意事項

1.一旦機房發生火災,應遵循以下原則:首先保證人員安全;其次保證關鍵設 備安全;再保證一般設備安全。 2.火災發生時,第一發現人查明起火原因,如因電源引起,應首先切斷電源。

3.火災發生後應遵循邊救火,邊報警的原則。 五.預防措施

1.設備整改:機房現有的電氣設備和消防設備均有存在不合理之處,需要整改, 消除隱患。現有的配電開關為牆上的半埋式家用配電開關,應更換為專業的 獨立空氣配電箱,修改配電櫃各類閘刀和開關的佈局,使其具備獨立切換 的功能。 現有的.滅火器為乾粉滅火器,且維護也已過期,乾粉滅火器雖然 可以有效滅火,但是會對設備造成腐蝕,損壞設備,應更換為氣體滅火器。

2.每天定時對機房重要電氣設備和電子設備的温度進行了監控,能夠及時地發 現並消除隱患。 3.應組織相關人員進行消防安全教育,學習消防知識,學會正確使用各種滅火器,有計劃的進行相關的消防演習。

機房應急預案11

機房消防安全工作極為重要,一旦發生火災,將直接影響大廈內設備正常運行,並對人身安全和經濟財產造成巨大的損失。為防範消防安全事故發生,保證消防安全事故發生時能夠快速、高效、合理有序地處置,特制定本預案。

一、電氣火災的主要因素

1、電氣線路短路、過載、接地電阻過大等引發火災。

2、由於機房內設備長時間不間斷運行或設備故障引發火災。

3、靜電產生火災。

4、雷電等強電入侵引發火災。

二、處置程序

1、發現火情後,迅速切斷電源,利用就近滅火器進行滅火,並按照特級事故通報機制進行通報,向領導彙報火災具體情況。

2、迅速組織相關人員攜帶消防器具趕赴現場滅火,並聽從現場指揮人員指揮。

3、如火情較為嚴重,應立即與大廈消防中控取得聯繫,並與之協商處理辦法措施,必要時需要專業消防滅火的,迅速請示領導撥打119。

三、注意事項

1、一旦機房發生火災,應遵循以下原則:首先保證人員安全;其次保證關鍵設備安全;再保證一般設備安全;救火過程中應邊救火,邊報警。

2、火災發生時,第一發現人查明起火原因,如因電源引起,應首先切斷電源。

四、預防措施

1、對機房內電氣設備定期檢查。發現存在問題的設備及時維修,消除安全隱患。

2、每天定時對機房重要電氣設備和電子設備的温度進行了監控,能夠及時地發現並消除隱患。

3、應組織相關人員進行消防安全教育,學習消防知識,學會正確使用各種滅火器,有計劃的`進行相關的消防演習。

機房應急預案12

第一節總則

1、保證人員和財產的安全為前提的原則:在由於火災或電力問題造成的主機故障,在解決故障前,應以保證人員的生命安全和財產的安全為前提,然後進行故障的解決。

2、最快時間恢復業務的原則:本着先想盡一切方法,儘快恢復業務的原則來處理故障,如在有備用設備的情況下,主設備產生了故障,應先儘快將應用切換到備用機上,使業務能夠運行,再對故障設備進行診斷和維修。

3、故障應急人員高度負責的原則:當故障應急人員在節假日接到故障通知時,本着高度負責的態度,應迅速接手處理障礙,如遠程無法處理解決,應迅速趕到故障設備所在地,進行現場處理,處理故障的同時應及時向領導彙報。應急人員不可互相推卸責任,如因特殊情況,確實無法處理障礙,部門領導必須安排好其他人員處理。

4、儘可能全面的保留故障現場的原則:當故障發生後,應急人員應儘可能全面的備份出能夠反映故障現象的各種日誌、記錄、受損文件等,便於業務恢復後,對故障的分析、解決,杜絕故障的再次發生。

應急方案的目標:保證預付卡運營系統連續安全穩定地運行。

第二節應急領導小組

應急領導小組成員:

組長:副組長:成員:

第三節電源系統故障應急處理

定期檢查信息中心機房電源設備的運行狀況,當發生下列突發事件時,按以下方案進行處置:

當中心機房發生市電供電突然停電或遠程報警電源異常時。首先確認是否為正常停電及預計停電時間。檢查不間斷電源的電池可供電時間,需在不間斷電源供電時效內關閉所有服務器及網絡設備。

聯繫工程部查看停電原因,儘快恢復供電,並將情況報告相關領導

工程部聯繫電話:

第四節空調系統故障應急處理

定期對空調的運行情況進行檢查,如有報警信息,應及時查找故障原因,對於不能自行排除的問題,應及時與設備提供商進行聯繫。

當中心機房主空調因故障無法制冷,致使機房內環境温度超過攝氏40度時,打開機房房門,並關閉所有服務器及網絡設備。對於無法自行處置的`空調系統異常情況,及時與設備提供商聯繫,並報告公司領導。空調問題聯繫人:

第五節中心機房自動消防系統應急處理當中心機房發生火警時,按以下方案進行處置:

1.上班工作時間發生火警,聽到自動消防系統發出的聲光報警後,中心機房附近辦公室人員應及時緊急撤離,避免氣體自動消防系統啟動後,消防氣體對附近人員造成人身傷害。確認火警後,立刻撥打119報警,並説明儘量使用氣體滅火器進行滅火,減少電子設備的損壞。

2.發生火警後,信息中心相關人員應馬上趕赴現場,並向有關領導報告事故情況。同時立即聯繫聯通等相關公司,及時評估事故損失情況,研討儘快恢復信息系統正常運行的最佳方案。安保消防中控電話:

第六節設備、網絡系統故障應急處理

設備、網絡應用系統故障應由發現人通知技術部,技術部門立即檢查故障,進行初步故障定位,解決;

1.網絡設備、服務器、儲存設備均有備份,當設備存在硬件問題時,可隨時把業務切換到備份主機上,保證業務正常運行;2.應用系統每更新一次則做一次遠程備份,在遠程主機上分別備份舊的應用系統和更新後的應用系統,以當天的更新日期命名;3.對磁盤櫃上的數據庫文件有定時任務,每天凌晨4:00會把數據庫裏的數據文件倒出到遠程備份主機上,以確保磁盤櫃出現硬件故障的時候,數據文件不丟失;對於網絡、應用系統出現硬件方面的故障,比較嚴重的問題,對業務的正常運行造成較大的影響,立即向有關領導報告。

4、網絡中有監控服務器,運用Cactiv10最新的版本,監控網絡所有設備(路由器,防火牆,交換機以及服務器設備);對設備本身的硬件檢測、外部入侵檢測、外部攻擊等多種對系統不利因素以發送mail的形式報警;相關人員收到報警信息,分析收到的log日誌以做出相應的處理。

5、每週週五對網絡設備進行日誌及配置文件採集,對數據庫數據文件定期下載,和遠程備份;在本地電腦上保存最近的配置文件,以便在發生毀滅性的災難時,用來重組。

對簡單故障,運維人員應迅速排除故障,解決問題並記錄。如果需要更換設備,應上報有關領導,經批准後馬上更換故障設備,儘快恢復網絡、應用系統運行。運維部門判斷無法及時修理時,應立即通知相關的系統運行服務提供商,在最短的時間內安排修理或更換系統。

如發現屬外部線路的問題,應與線路服務提供商聯繫,敦促對方儘快恢復故障線路。

啟用備份線路、設備、系統,迅速恢復相關的應用。

聯通聯繫電話:

第七節黑客入侵的應急處理

發現網絡上有黑客攻擊行為,任何人員都有義務向技術部門報告。技術部立即啟動應急響應,切斷受攻擊計算機與網絡的連接,停止一切操作、保護現場,並上報有關領導。

對於黑客攻擊,由計算中心組織應急響應專家小組查找入侵蹤跡,分析入侵方式和原因。由安全管理員根據對入侵事件的分析,組織相關人員對內部網計算機整改,防止黑客用同樣的手段再次入侵其他系統。安全管理員檢查確定無安全隱患後,才可將受攻擊計算機重新連接網絡,或啟用備份計算機來恢復應用。

安全管理員應做好記錄,保護現場,進行日誌收集等工作。如果能追查到攻擊者的相關信息,可以對其發出警告,必要時可以採取進一步的行動,乃至採取法律手段。根據破壞程度,經有關領導同意後,上報公安部門。

若系統已被黑客破壞,無法恢復,應將受黑客攻擊的計算機上的重要數據備份到其他存儲介質,確保計算機內重要的數據不丟失。如果數據無法恢復,經有關領導同意後,可與國家指定的部門聯繫,由他們來協助恢復,為保證數據信息安全,需在安全管理部門作記錄。

第八節生產系統、數據庫故障處理

生產系統出現故障,技術部做出應急處理

1.因軟件設計缺陷、設計漏洞等引起的故障,通知公司研發部門在2小時內查明原因,解決問題。

2.數據庫出現故障,運維人員應在2小時內查清故障原因,其他相關部門應積極配合,解決問題。

3.如出現數據丟失情況,確認不能自行恢復後,啟用備份恢復數據,24小時內恢復運營。

本方案自發布之日起施行

機房應急預案13

總則

1.1編制目的

為高效有序地做好機房火災事故的應急處置工作,避免或最大程度地減輕火災事故造成的損失,保障員工生命和企業財產安全,維護社會穩定。

1.2編制依據

《中華人民共和國安全生產法》 《江蘇省消防條例》

1.3適用範圍

適用於機房火災事故的現場應急處置和應急救援工作。

2.事件特徵

2.1事件類型及危險性分析

2.1.1電氣線路短路、過載、接觸電阻過大,靜電,雷擊等強電侵入,機房內電腦、空調等用電設備長時間通電過熱、設備故障等原因均可能引起計算機房的火災事故。

2.1.2機房火災事故會造成計算機設備損壞、系統故障網絡中斷或癱瘓,影響網絡的安全運行。

2.1.3火災產生的有毒煙霧污染機房的空氣,造成人員中毒、窒息等人身傷亡事故。

3.應急組織及職責

3.1火災應急指揮部

應急指揮部總指揮:

機房火災應急搶險指揮:

成員:

3.2指揮部人員的職責

3.2.1指揮的職責:全面指揮突發事件應急救援工作。

3.2.2高低壓專業職責:組織、協調本部門人員參加應急處置和救援工作,對發生險情機房切斷電源。

3.2.3智能化專業職責:監控相關區域事故情況。

3.2.4空調專業職責:發現異常情況,及時切斷空調、通風系統,做好運行方式的調整和故障設備的隔離。 4應急處置

4.1現場應急處置程序

4.1.1最早發現火情者應立即向值班長和機房負責人彙報,機房負責人到現場指揮滅火,

同時報告公司領導,啟動本預案。

4.1.2機房負責人根據事故狀態及危害程度做出相應的應急決定,指揮疏散現場無關人員,各應急救援隊立即開展救援。

4.1.3事故擴大時,撥打119報警電話請求市消防隊支援。報警內容:單位名稱、地址、着火物質、火勢大小、着火範圍。把自己的電話號碼和姓名告訴對方,以便聯繫。同時還要注意聽清對方提出的問題,以便正確回答。打完電話後,要立即到交叉路口等候消防車的到來,以便引導消防車迅速趕到火災現場。

4.2現場應急處置措施

4.2.1機房負責人組織人員迅速查明着火原因。

4.2.2發生火災事故後,運行值班人員在人身安全不受危害的情況下要堅守本職崗位,確保設備運行。

4.2.3火災初起階段,值班人員要利用區域內常規滅火器(乾粉或氣體滅火器)進行撲救。控制初起火災,防止火勢蔓延。根據火勢情況立即啟動氣體自動滅火裝置。

4.2.4被困火場逃生時,應用濕毛巾捂住口鼻,背向煙火方向迅速離開。逃生通道被切斷、短時間內無人救援時,應關緊迎火門窗,用濕毛巾、濕布堵塞門縫,用水淋透房門,防止煙火侵入。

4.2.5火災發生時要採取有效措施撲滅身上的火焰,使傷員迅速脱離開致傷現場。當衣服着火時,應採用各種方法儘快地滅火,如水浸、水淋、就地卧倒翻滾等,千萬不可直立奔跑或站立呼喊,以免助長燃燒,引起或加重呼吸道燒傷。滅火後傷員應立即將衣服脱去,如衣服和皮膚粘在一起,可在救護人員的幫助下把未粘的部分剪去,並對創面進行包紮。

4.2.6在火場,對於燒傷創面一般可不做特殊處理,儘量不要弄破水泡,不能塗龍膽紫一類有色的外用藥,以免影響燒傷面深度的判斷。為防止創面繼續污染,避免加重感染和加深創面,對創面應立即用三角巾、大紗布塊、清潔的衣眼和被單等,給予簡單而確實的包紮。手足被燒傷時,應將各個指、趾分開包紮,以防粘連。

4.2.7消防隊到達火場時,應立即與消防隊負責人取得聯繫並交待失火設備現狀和運行設備狀況,然後協助消防隊滅火,並提供技術支援。

4.2.8復情況,事故應急處理全部結束,才能恢復生產秩序。

4.3火災事故報告流程

4.3.1出現火情後,值班人員除採取有效措施撲滅初期火情外應立即想機房負責人彙報;

4.3.2火勢無法控制時由機房負責人決定報火警請求轄區消防隊救援。並在在火災事故發生後1小時內向所云彙報突發事件信息。速報內容主要包括事故發生的時間、地點、人員傷亡、設備損壞情況、可能的'引發因素和發展趨勢等。

4.3.3聯繫方式

消防隊:119 醫務急救:120

4.4注意事項

4.4.1應急處置時注意防止中毒、窒息、觸電、燙傷。

4.4.2危險區設好警戒線,並掛好標示牌。無操作權限的人員不得亂動現場設備。

4.4.3佩戴個人防護器具時注意檢查防護用品合格,且在有效檢驗期內;正確佩戴使用正壓式呼吸器、隔熱服、隔熱手套、絕緣靴等安全防護用具。

4.4.4現場自救和互救時不熟悉現場情況和滅火方法的人員不得盲目進入危險區域,救人前先確認自己的能力和現場情況是否能夠滿足對他人施救的需要。

4.4.5應急救援結束後要全面檢查,確認現場無火災隱患和建築物坍塌的隱患。

4.4.6加強自身防護,避免救火導致人身傷害。

4.5附則

4.5.1機房應急人員的聯繫方式。

機房應急預案14

網絡信息中心機房環境主要監控目標對象為:電力供應、火情、空調異常。監控對象表徵為:UPS可監控數據(包括輸入、輸出、負載等)、煙霧、環境温濕度值。

環境監控報警根據影響範圍不同定為不同級別,予以不同處置,應急處置流程如下:

一、 緊急告警

(一) 機房煙霧告警

1. 如消防系統已啟動,立即通知相關區域同志撤離機房。

2. 如消防系統尚未啟動,立刻調出該場地視頻監控,確認是否有火情。一旦確認火情,立即疏散,並確認消防系統能正確啟動。

3. 火警必須在第一時間電話通知中心主任、相關機房安全責任人、辦公室主任和環境與設備工程師。

4. 按消防相關程序處置。

(二) UPS輸入掉電告警

1. 立刻通知環境與設備工程師和相關機房負責人,環境與設備工程師即刻響應並處理,通知機房負責人電池放電情況。

2. 相關機房負責人待命響應,根據需要按預定程序逐級安全關閉各類系統或設備,並通知相關部門及人員。

3. 如影響中心關鍵業務,由機房負責人作出判斷,並立即通知業務所屬責任部門。

(三) 機房地濕告警

立刻通知相關機房負責人和環境與設備工程師,現場查看空調底下是否有水管爆裂漏水。

備註:漏水事故影響不可輕忽,某些情況下會引起災難性事故,請務必關注。

(四) UPS輸出故障

1. 立刻通知環境與設備工程師和相關機房負責人,環境與設備工程師即刻響應並處理,通知機房負責人影響範圍。

2. 相關機房負責人立即響應,如影響中心關鍵業務,由機房負責人作出判斷,並立即通知業務所屬責任部門。

二、 重要告警

(一) 監控數據通信中斷告警

發現監控數據通信中斷告警,需要綜合查看,首先排查是否網絡原因,其次排查是否服務器原因。以下狀況考慮環境因素:

如果同時有大面積的網絡故障和服務器故障,很可能是UPS輸出故障,立即通知環境與設備工程師、運行部負責人和系統部負責人。

如果是單純的數據數據通信中斷,一般是監控設備死機,在工作時間通知環境與設備工程師處理。

1. 機房高温告警

立刻通知環境與設備工程師,如判斷空調已失效,則需到現場處置。

備註:由於機櫃上的温濕度儀因熱通道和鐵架的'熱傳導作用使得感應温度偏高很多,只能做參考。因此,如夜間發現高温告警,可注意觀察,如有持續異常升温則通知環境與設備工程師處理。

2. 冷凍水高温告警

發現冷凍水高温告警或空調進水高温告警,即刻通知環境與設備工程師處理。

3. 市電掉電告警

工作時間,立刻通知環境與設備工程師處理。非工作時間,如發生UPS輸入掉電告警,按前述流程處置。

三、 一般告警

其他機房環境監控告警,考慮都是設備故障或者部分功能異常,影響面有限,在工作時間通知環境與設備工程師處理。

機房應急預案15

第一條 機房突發事件包括網絡設備或服務器故障、自然災害(水、火、電等)造成的物理破壞、人為失誤造成的安全事件等等。 針對突發事件的預防措施如下: 建立安全、可靠、穩定運行的機房環境,防火、防盜、防雷電、防水、防靜電、防塵;建立備份電源系統;加強防火、防盜意識。

第二條 機房漏水應急預案如下:

1、發生機房漏水時,第一目擊者應立即通知機房管理人員。

2、若空調系統出現滲漏水,機房管理人員應立即安排停用故障空調,清除機房積水,並及時聯繫設備供應方處理,必要情況下可臨時用電扇對服務器進行降温。

3、若為牆體或窗户滲漏水,機房管理人員應立即採取有效措施確保機房安全,同時安排通知工程人員及時清除積水,維修牆體或窗户,消除滲漏水隱患。

第三條 機房火災應急預案如下:

1、完善機房環境,確保機房放置滅火器;禁止攜帶易燃易爆物品進入機房。

2、機房管理人員應熟悉機房內部消防安全操作和規則,瞭解消防設備操作原理,掌握消防應急處理步驟、措施和要領,懂得滅火的.方法,會撲救初起火源。

3、一旦發生火災,迅速切斷機房電源,避免災情的擴散,並迅速和保安部聯繫必要時立即報火警。

第四條 機房停電應急預案如下:

1、接到停電通知後,應及時通過辦公系統、電話等發佈相關信息,部署應對具體措施,要求在停電前停止業務、保存數據。

2、機房管理人員每日檢查UPS電源的狀態,確保在突發停電時,UPS電源能自動供應服務器正常工作15分鐘以上,保證員工工作的數據及時保存。

第五條 通信網絡故障應急預案如下:

1、發生通信線路中斷、流量異常等故障後,發現狀況的員工或部門領導應及時通知網絡管理員。 2、網絡管理員瞭解情況後,迅速組織檢測故障區域,並作相關故障處理,逐步恢復故障區與服務器的網絡聯接,恢復通信網絡,保證正常運轉。

第六條 服務器故障應急預案如下:

1、機房管理人員每日檢查機房內各服務器狀態。

2、定期備份數據服務器數據。並將備份資料拷貝到移動設備。服務器出現嚴重硬件故障時啟用備用服務器以保障正常運轉。

熱門標籤