case
方案中心
基于對于此次搬遷的各項需求,結合業(yè)務可持續(xù)性要求和行業(yè)內外聲譽,本次數(shù)據中心搬遷將遵從以下幾大原則:
1、規(guī)范性原則
滿足行業(yè)內外相關規(guī)定、中心機房布局及網絡規(guī)劃等要求。
2、 安全性原則
在保證信息系統(tǒng)穩(wěn)定和數(shù)據安全的前提下實施機房搬遷。
3、業(yè)務影響最小化原則
搬遷方案考慮盡量減少停機時間,且停機時間盡可能安排在業(yè)務低谷時段或非服務時段,并制定合理且操作性強的搬遷方案、及有效的應急預案。
4、分步實施原則
搬遷工作涉及多套重要生產系統(tǒng),為控制風險,應綜合考慮系統(tǒng)架構、系統(tǒng)關聯(lián)性、搬遷風險以及停機時間等因素,制定分步實施策略,合理安排各系統(tǒng)的搬遷順序。
5、 經濟性原則
充分考慮現(xiàn)有資產的有效利用,盡量保護已有投資,并合理投資滿足搬遷需要,提高實施的經濟性。
為確保本次搬遷項目的順利進行,本次搬遷項目工作參加的單位預計有:x x x、北京銀信長遠科技股份有限公司、支持廠商和其他參與方。
搬遷工作中各參加單位職責如表。
職責分配表:
參加單位 |
人員組成 |
職責 |
Xxx |
管理人員 業(yè)務人員 |
1) 負責本業(yè)務板塊系統(tǒng)搬遷的上傳下達協(xié)調、通知工作; 2) 負責組織機房搬遷后的本業(yè)務板塊系統(tǒng)業(yè)務測試工作; 3) 負責機房搬遷本業(yè)務板塊的對外宣傳和報備工作; 4) 對本業(yè)務板塊系統(tǒng)搬遷各階段工作成果進行確認。 |
北京銀信 |
項目管理、 技術人員 |
1) 負責整個機房搬遷工程的集成工作; 2) 負責與相關廠家進行商務談判,負責與相關廠商的商務協(xié)調工作,參與相關廠商的技術協(xié)調工作; 3) 在搬遷設計基礎上,組織機房搬遷相關方完成搬遷實施方案的細化; 4) 執(zhí)行質量控制,確保機房搬遷實施方案的有效實施; 5) 負責機房搬遷項目組內部各小組間的協(xié)調工作; 6) 組織、監(jiān)督、檢查搬遷項目組內各小組的工作任務; 7) 參加機房搬遷各個階段的工作; 8) 負責所有應用及數(shù)據庫系統(tǒng)的開、關機及數(shù)據備份及確認; 9) 保證搬遷設備、數(shù)據、系統(tǒng)在搬遷過程中物理安全; 10) 搬運設備; 11) 拆卸、安裝設備; 綜合布線整理,新、舊機房場地整理。 |
支持廠商 |
軟件系統(tǒng)提供商支持人員、硬件設備提供商人員 |
1) 保修期內硬件設備廠商人員參加搬遷工作,提供備件,保修期結束的硬件設備廠商按照合同要求參加搬遷工作; 2) 2)根據需要對搬遷工作進行現(xiàn)場支持或遠程電話支持。 |
運營商 |
客戶經理 技術支撐人員 |
1) 新申請線路及相關設備的安裝、調測; 2) 配合應用系統(tǒng)的割接、搬遷; 3) 保證網絡切換后,提供穩(wěn)定的通訊服務。保證通訊線路正確割接。 |
為確保本次搬遷項目穩(wěn)步、有序、順利地實施和完成,需成立機房搬遷工程領導小組,并由、、搬家以及其他提供技術支持的配合廠商等成立技術支持組,各組工作職責如下:
1. 搬遷工程領導小組:
1) 進行項目重大決策,控制項目總體規(guī)劃、項目進度等工作;
2) 負責把握項目方向,調動各方資源和相關外部資源,監(jiān)督項目管理相關制度的執(zhí)行;
2. 業(yè)務支持組:
1) 負責機房搬遷過程中的業(yè)務指導;
2) 負責機房搬遷的對外宣傳工作;
3) 負責進行系統(tǒng)搬遷后業(yè)務測試;
4) 準備搬遷應急的業(yè)務處理。
3. 技術支持組
各小組職責:
名稱 |
負責內容 |
技術支持組組長 |
1) 組織搬遷方案的細化; 2) 對各個小組進行協(xié)調、調度; 3) 組織搬遷工程的實施,使搬遷工作按方案進行; 4) 確認各階段工作是否按計劃完成; 5) 對搬遷工作的質量進行負責。 |
網絡組 |
1) 負責網絡遷移工作; 2) 維護新舊機房間,新申請的線路、原有線路網絡通暢; 3) 在舊機房保存網絡設備的配置,確認可以關機后,通知拆卸安裝組; 4) 在拆卸安裝組安裝完網絡設備后,負責對其進行配置、調試。 |
主機應用組 |
1) 在系統(tǒng)搬遷之前,對操作系統(tǒng)、核心參數(shù)、數(shù)據、數(shù)據庫進行備份。 2) 按照搬遷方案,執(zhí)行數(shù)據庫和應用系統(tǒng)的檢查、備份、關閉、開啟; 3) 在系統(tǒng)從舊機房搬遷到新機房后,對業(yè)務系統(tǒng)的運行狀況進行監(jiān)控。 |
拆卸安裝組 |
1) 負責關閉主機設備、磁盤陣列、網絡設備和存儲設備的電源,將其從機柜上拆卸下來,首層包裝,交由設備搬運組進行搬運; 2) 將設備拆包裝,裝入新機房指定機柜,連接好所有連線并按照機房標準布線規(guī)范對連線進行整理,開啟電源,啟動操作系統(tǒng),在驗證設備運行正常后,交主機應用組或網絡組; 3) 對新舊機房搬遷后的現(xiàn)場進行清理。 |
設備搬運組 |
1) 負責提供包裝材料; 2) 負責將設備裝箱; 3) 負責設備從舊機房搬運到新機房的指定位置; 4) 負責設備拆箱; 5) 保證搬遷設備在搬遷過程中物理安全。 |
現(xiàn)場支持單位 |
1) 保修期內硬件設備廠商人員參加搬遷工作,提供備件,保修期結束的硬件設備廠商按照合同要求參加搬遷工作; 2) 業(yè)務組進行搬遷后業(yè)務確認; 3) 綜合網上級中心局配合調試廣域網線路。 4) 運營商負責新申請線路及相關設備的安裝、測試,保證網絡切換后,提供穩(wěn)定的通訊服務;保證通訊線路正確割接。 |
遠程支持單位 |
1) 提供技術指導; 2) 各系統(tǒng)應急指導。 |
后勤保障組 |
負責搬遷工作的后勤保障,包括搬遷通道的準備、搬遷保安工作。 |
新機房建設通過測試、驗收,達到集團總部相關標準要求,是實施本次搬遷工程的前提條件,按照機房設計和相關標準要求,搬遷前須對新機房的各項指標進行測試、檢驗。
在建筑安全方面,需要檢查機房地板、天花板、墻面、隔斷玻璃、安全出口的材料是否符合要求,工程質量是否符合要求。
在布線安全方面,電力布線、網絡布線的布線工藝是否達到要求,線纜質量是否達到要求。
在電氣方面,檢查內容包含以下幾個部分:
1. 需要檢查電力系統(tǒng)負荷、電力配線、配電柜、空氣開關的質量、電氣性能是否符合要求,配電線路是否按設計施工。
2. 直流電源系統(tǒng)的安裝、輸入、輸出是否符合設計要求。
3. 機房照明的供電方式和照度是否符合設計要求。
4. 交流工作地、直流邏輯地、安全保護地、防雷保護地、綜合接地等接地性能是否達到設計要求。
5. 消防報警、滅火系統(tǒng)是否達到設計要求。
6. 空調系統(tǒng)是否達到溫度、濕度、新風量的要求。
7. 防雷系統(tǒng)是否達到強雷區(qū)機房的要求。
8. 監(jiān)控系統(tǒng),包含門禁、設備監(jiān)視等是否達到設計要求。業(yè)務準備
● 提前確定相關系統(tǒng)業(yè)務驗證單位,并將搬遷后業(yè)務驗證操作分工到人。
● 業(yè)務部門需制定詳細的業(yè)務驗證方案,下發(fā)到相關驗證人員,并做好明確的工作安排。
● 參與搬遷業(yè)務驗證人員在搬遷之前,必須認真閱讀搬遷業(yè)務驗證案例和要求,搬遷日按時到崗,業(yè)務驗證完畢接到撤退通知方可撤退。
● 編制技業(yè)聯(lián)合預案、業(yè)務應急預案,包括:啟動手工作業(yè)、上傳下達、主管單位匯報、輿情控制等。
聯(lián)系相關維保商做好搬遷專線遷移支持工作。
對舊機房的信息進行收集,例如服務器、網絡設備基礎信息,形成了此次搬遷的設備匯總信息。詳見附表切換演練測試
在系統(tǒng)搬遷前,對所要搬遷的關鍵設備需要進行主、備機或生產環(huán)境與應急環(huán)境間的切換演練測試。以驗證萬一在搬遷過程中出現(xiàn)設備故障的情況下,備用設備和環(huán)境能正常使用。
搬遷的主機及存儲設備上有大量的應用數(shù)據,保證在搬遷結束后為用戶提供連續(xù)的、有效的服務。搬遷需做好相應的設備保險和備份措施,提前根據各個設備進行綜合的測試,設備的重啟動試驗,并根據不同的用戶應用程序、數(shù)據庫以及用戶要求采取不同的技術方案與備份措施,滿足主機系統(tǒng)設備搬遷數(shù)據和設備的安全。
搬遷的數(shù)據備份包括數(shù)據備份與設備配置備份。
數(shù)據備份的內容為:
? 數(shù)據庫備份
? 應用數(shù)據及配置備份
? 重要的文件系統(tǒng)備份
? 系統(tǒng)備份
? 配置備份內容為:
? 網絡配置備份
? 存儲配置備份
? 主機分區(qū)配置備份
? SAN交換機配置備份
對于已經備份完成的備份集,需要在新環(huán)境進行恢復測試,驗證備份集的可用性。
搬遷前的設備配置備份、系統(tǒng)備份和數(shù)據備份非常重要,需要在n-1日晚上完成網絡設備、存儲設備、主機系統(tǒng)、數(shù)據庫的備份。
我們和聯(lián)合具有專業(yè)的IT設備搬運經驗的搬運來完成此次設備的運輸,搬運提供必須的起重機、叉車、平板推車多輛;提供必要的繩索(固定機器等用)、扣件、鋼管、設備搬運的包裝箱,海棉等。
按照所設計的搬運路線和機房設備的擺放位置,指導搬運將各設備推運至相應位置進行固定。以下是需要完成的工作概要:
? 現(xiàn)場勘測,確定搬遷路線;
? 配合物業(yè)管理人員對電梯承重的確認與檢查;
? 結合每段搬遷通道的具體情況和條件制訂具體搬遷方法;
? 物流察看搬遷現(xiàn)場環(huán)境;
? 確定新機房地板臨時改造和燒制臨時鋼制搬遷通道的具體事宜;
? 落實3噸位以上的叉車及運輸車輛2輛及熟練的叉車操作人員2名;
? 提供搬遷使用的設備底座和斜坡;
? 清除搬遷通道上的障礙物,確保搬遷工作能順利進行;
搬遷過程中,根據搬遷人員情況協(xié)調搬遷人員及車輛在各機房的進出;協(xié)調物業(yè)對電梯做一次全面檢查,以保障貨梯電梯的安全性。
為了安全、順利完成中心搬遷任務,新機房搬遷前擬從市州借調15人參與新機房的搬遷工作,所借調人員要求責任心強,吃苦耐勞,能加通宵夜班。具體分配如下:
1. 雙中心保障: 8人
與現(xiàn)有參與到現(xiàn)有服務臺監(jiān)控日常保障中,實現(xiàn)雙中心、雙人、7*24小時值守和應急處理;
要求:信息技術出身。
2. 網絡保障: 3人
網絡支持貫穿整個新機房搬遷,不但要進行搬遷過程中各網絡細節(jié)的調測、實施,還需要進行搬遷過程中各種應用異常的協(xié)助分析、處理,擬在搬遷前抽調內網絡骨干加入中心支持的對伍,共同保障全信息網的平穩(wěn)運行。
3. 搬遷隨工質量保障:4人。
要求:現(xiàn)場管理經驗豐富、細心,文字處理能力強。
職責:分別在新舊中心配合搬遷協(xié)助進行信息的核實、搬遷細節(jié)的關注、記錄、總結、提示等。內自建信息系統(tǒng)需要支持準備:
自建系統(tǒng)在搬遷的過程中同樣需要各支持廠商的準備。
為了將應用系統(tǒng)變更對搬家的影響降到最低,同時將全部精力投入到機房搬遷和保障,要求全在機房搬遷前2周左右開始,對各業(yè)務系統(tǒng)進行封版(含停止自助設備新增、密鑰打印等終端變更工作)。封版期間,原則上不再進行信息系統(tǒng)更新。如在系統(tǒng)封版期內,確需進行提交的重大變更,需報領導小組審批后進行緊急更新。封版不包含集團、總行安排的全國版本軟件升級。
? 根據搬遷規(guī)劃中的批次要求,對相應網絡或系統(tǒng)進行關停。
設備的關機嚴格參照圖4-4,先停主機再停存儲,最后停光纖交換機。項目組按照制定好的人員排班表進行如下過程:
(圖4-4設備停機流程)
1. 設備關機,按照停機的文檔的步驟進行設備停機及檢查。
2. 設備下架,按照制定的拆機順序表,按步驟進行設備下架工作。
3. 將設備運輸?shù)皆O備的包裝區(qū)。
4. 對設備進行包裝,大型設備進行整體打包。
5. 按照制定好的裝車表,進行裝車,并按照實際情況制定裝箱單。
當設備到達新機房后,大批的設備和部件存放到暫存區(qū)之后,由于人多物雜,為了避免忙中出錯,有條不紊和高效的完成設備安裝等工作,搬遷的控制體系就尤為重要了,下圖就是設備卸載和安裝的控制圖。
1. 當設備到達新機房后,緊后就安排人員將設備卸載到制定的區(qū)域,在設備卸載時候,工作人員按照《裝箱單》將對設備的外包裝等物理狀態(tài)進行初步檢查,確認運輸過程是否對設備造成該損傷。
2. 按照搬遷控制圖流程和設備進場順序表,分組人員就設備運輸?shù)綑C房的相應位置。
3. 根據指定的設備位置進行設備固定和安裝,按照制定的profile表以及線纜標示進行線纜連接。
在設備安裝及連接無誤之后,開始主機的上電測試,設備上電的順序和下電順序正好相反,請按照以下方法對設備按順序開機,參考圖《4-5開機流程檢查》:
1. 在設備開機前將對電源環(huán)境以及設備的連接狀態(tài)進行檢查。
2. 檢查通過之后,按照制定的設備開機順序表和開機步驟文檔進行設備起機。
3. 在設備正常啟動后,將進行設備功能測試及錯誤檢查。
4. 當設備啟動失敗后設備部件故障時候,啟動設備恢復預案和系統(tǒng)應急預案。
5. 當所有設備及應用啟動之后,進行系統(tǒng)功能檢查以及系統(tǒng)聯(lián)調。
. 開機流程檢查
1) 搬遷當日,網絡割接或恢復,系統(tǒng)開啟,完成后進行技術、業(yè)務驗證。
1) 由應用、系統(tǒng)、設備、網絡團隊對環(huán)境進行統(tǒng)一確認。
對新老機房的操作區(qū)域做衛(wèi)生保潔:
? 對新老機房的操作區(qū)域做衛(wèi)生保潔;
搬運完畢后物流人員對現(xiàn)場進行清理,將廢棄包裝、防塵、防震材料裝車。
需重點保障的系統(tǒng),是我們工作的重中之重,僅僅從備件準備上是無法滿足降低風險要求的,還包括改變搬遷方式,搭建整體應用環(huán)境,提前部署新機房導軌。需要重點保障的系統(tǒng)涉及系統(tǒng)。
風險分析與應急方案
1. 由于機房搬遷涉及的設備和廠商較多,在進行機房搬遷時,搬遷現(xiàn)場最容易、也最可能出現(xiàn)局面的混亂而影響搬遷的質量;
2. 本次搬遷涉及到應用系統(tǒng)多,系統(tǒng)之間關系復雜,可能會由于搬遷順序不當,造成系統(tǒng)之間關聯(lián)關系被破壞,造成網絡系統(tǒng)長時間停止對外服務;
3. 由于電路連接較多、網絡結構復雜,搬遷時的電路割接相當繁瑣,在搬遷過程中可能因協(xié)調不暢造成不可預測的風險:如設備未能及時就位導致搬遷計劃時間延誤,甚至造成錯過電路割接時間或電路調試失敗,影響整個系統(tǒng)切割和使用。
1. 新舊機房互聯(lián)裸光纖、新中心機房新開通信專線、綜合布線信息點通信質量不穩(wěn)定、延遲、抖動等;
2. 通信運營商線路移機割接或新增電路不能及時到位,導致搬遷不能正常進行。
1. 部份設備長期使用,在設備斷電后很可能不能正常重新啟動,造成系統(tǒng)無法恢復運行和交付使用;
2. 本次搬遷為異地搬遷,在物理搬遷過程中,由于運動、振動、抖動等不可預測因素可能對設備產生意外損傷或損壞,從而造成設備搬遷就位后無法正常使用。
本次搬遷存在單點故障的信息系統(tǒng)23個,涉及15套磁陣,26臺PC服務器。
搬遷過程中的設備風險主要有存儲系統(tǒng)(磁陣)的單節(jié)點故障風險、PC Server故障風險,系統(tǒng)風險按重要性分主要有數(shù)據庫故障風險、應用和中間件故障風險、操作系統(tǒng)故障風險,應用風險按重要性分主要有儲蓄系統(tǒng)故障風險、其他對外營業(yè)應用故障風險、內部處理和管理應用故障風險。風險主要來源于設備的單點故障較多,單點故障主要原因是設備沒有相應的備機或備用系統(tǒng),在出現(xiàn)問題時只能利用更換故障部件去解決故障來恢復業(yè)務運行。風險規(guī)避
建立指揮溝通協(xié)調機制,確保搬遷過程中相關人員之間及時、有效溝通、協(xié)調、匯報,在項目開展過程中,參與項目的各個廠商和分包服務商要服從搬遷指揮部的統(tǒng)一指揮。在搬遷現(xiàn)場,所有的參與搬遷項目的工作人員都聽命于現(xiàn)場總指揮,避免搬遷現(xiàn)場的場面混亂。
利用集團為中心局域網改造項目購置的新設備,和內自購的骨干網匯接路由器及網絡列頭柜交換機,在新中心機房預先搭建一套新的網絡環(huán)境,并與舊機房導通,可以避免大部分老舊網絡設備需要搬遷的風險。目前主要的風險點在于際網搬遷期間的設備風險。需要準備交換機,作為際網搬遷期間原有設備的備機。
通信線路風險應對方案:
目前新舊機房間采用的是兩家不同運營商裸光纖進行鏈路聚合,在搬遷前須進行一次互備測試:在新舊機房核心交換機之間長ping,確保斷開一家運營商光纖,另一家運營商光纖仍能保證新舊機房之間的正常通信。為避免搬遷過程中因跨運營商平臺出現(xiàn)2層網絡問題(如Mac地址學習不到,到網關不通等),服務器搬遷時采用逐個業(yè)務網段整體遷移模式,逐個網段進行遷移,使各業(yè)務系統(tǒng)服務器與網關保持在同一機房內。
為避免在搬遷當晚因專線鏈路傳輸問題進而影響搬遷進展,搬遷前將逐條對各專線點對點測試,發(fā)現(xiàn)有延遲的、抖動及時通知運營商傳輸解決,規(guī)避此類問題的發(fā)生。對于本次搬遷涉及的重要線路,在新機房采用新增專線方式,避免在搬遷當日線路移址的風險。
搬遷前對新機房信息點進行一次全面測試,發(fā)現(xiàn)有信息點不通,延時大、丟包等問題須提前予以解決。
根據日常維護的經驗,我們對單點故障的設備,做了有針對性的備品備件準備(附表:)。比如最可能發(fā)生故障的硬盤和電源,我們的備件會覆蓋到每一臺有單節(jié)點故障的設備,根據不同的需要備不同數(shù)量的硬盤,電源及內存等等。故障發(fā)生時,盡快利用備品備件修復故障。
設備搬遷前,搬遷派出資深的硬件工程師,對PC服務器和存儲做健康檢查,對搬遷前發(fā)現(xiàn)的故障點,及時通知維保商做硬件維修,確認無誤后在下架搬遷。
對網絡設備和存儲的配置,做到全面的配置備份。
對核心業(yè)務系統(tǒng),除了配置整機,還會針對特殊環(huán)境搭建對應的生產備用環(huán)境,以便能在短時間內恢復生產。
搬遷日,涉及到重要系統(tǒng)的,除了協(xié)調技術支持資源外,還需由搬家派出資深的硬件工程師、系統(tǒng)工程師、存儲工程師及數(shù)據庫工程師,現(xiàn)場進行保障。通過硬件和人員保障,最快速的解決問題。除搬家外,與其它維保廠商以及原廠(參4.3.11、4.3.12 廠商支持準備)提前溝通,隨時做好業(yè)務支持。
對于部分單節(jié)點無數(shù)據冗余的業(yè)務系統(tǒng),光從硬件上無法完全滿足系統(tǒng)安全的需求,經綜合比較,我們將該部分系統(tǒng)采用虛擬化備份的方式(將物理機系統(tǒng),通過當今流行的VMware Converter 備份軟件,在線將系統(tǒng)轉換到虛擬機,數(shù)據將集中存放于存儲)。生成的虛擬機和真實的物理系統(tǒng)無大的差別,隨時可頂替故障的物理機。
同時,我們會配置一臺大容量NAS存儲,配合虛擬機數(shù)據的存放的需求。
虛擬化備份的系統(tǒng)包括:
為了避免設備在物理搬遷工程中出現(xiàn)的損壞或丟失,搬遷要提前落實為物理搬遷購買保險。
由于搬遷項目實施周期長,有可能在搬遷過程中,人力資源發(fā)生困難,不能同時調試、搬遷預計的設備和系統(tǒng)。
l 搬遷過程牽涉人員眾多,指揮協(xié)調難度大。需建立指揮溝通協(xié)調機制,確保搬遷過程中相關人員之間及時聯(lián)絡、匯報;配備足夠的通訊工具等。
l 在同城局域網穩(wěn)定可靠的前提下,可以調整進度安排,將每個階段,分成更小的批次,減少每個階段搬遷的系統(tǒng)數(shù)量,保證重點系統(tǒng)的搬運。
l 搬遷前安排重要人員充分休息,并考慮重要人員的備份安排。
l 禁止具體實施人員(含搬遷搬遷人員、支持人員)在實施當日(實施前、后