2020-12-16 作者:Stephen J. Bigelow 來源:企業(yè)網(wǎng)D1Net 閱讀:
次
托管提供商主要提供數(shù)據(jù)中心的空間、電源、冷卻、物理安全性,但托管服務也面臨數(shù)據(jù)中心停機期間響應速度較慢的潛在缺點。采用托管服務的組織必須仔細規(guī)劃重要數(shù)據(jù)的存儲位置,并遵循服務級別協(xié)議,以最大程度地減少托管數(shù)據(jù)中心服務中斷的影響。
當然,組織可以自己建設和運營內(nèi)部部署數(shù)據(jù)中心,擁有、建設和維護基礎(chǔ)設施和設備,雇傭員工,實施政策和運行應用程序,并設定應對任何中斷所需的優(yōu)先級。當遇到問題時,組織領(lǐng)導者知道讓誰處理,并且員工可以專注于組織的利益。
作為托管服務商客戶的組織來說,這些控制權(quán)交給托管服務提供商,他們負責故障排除并與客戶保持聯(lián)系。但是托管服務提供商通常是為了自己的商業(yè)利益而運營的企業(yè),有時并不能滿足托管客戶的需求。
是什么導致托管數(shù)據(jù)中心停機?
托管服務提供商以遠程管理的數(shù)據(jù)中心為核心,通??梢詫?shù)據(jù)中心的停機追溯到許多可能影響內(nèi)部部署數(shù)據(jù)中心面臨的相同問題。停機的原因一般分為四類:電源、人員、災難、連接。
(1) 電源。托管服務提供商通常在其數(shù)據(jù)中心內(nèi)實現(xiàn)更大的彈性,例如備用電源系統(tǒng)。其備用電源包括為服務器和機架設備供電的不間斷電源(UPS),以及在市電中斷時可以為數(shù)據(jù)中心設施供電的工業(yè)級備用發(fā)電機。但是,UPS故障、發(fā)電機啟動或維護不足以及備用電源系統(tǒng)的其他問題,可能會在市電停電時導致托管客戶的業(yè)務中斷。
(2) 人員。人為錯誤是造成數(shù)據(jù)中心停機的主要原因。例如配置錯誤的路由器、服務器、身份驗證系統(tǒng)以及硬件和軟件基礎(chǔ)設施其他錯誤可能導致客戶無法訪問系統(tǒng)。內(nèi)部和外部攻擊或其他惡意活動(如拒絕服務攻擊)也可以干擾或破壞客戶所托管的工作負載。
(3) 災難??蛻粝M泄軘?shù)據(jù)中心設施具有更強的彈性和更高的可靠性,因此通常希望遠離自然災難(颶風、洪水、地震等)和人為災難(火災、車禍和戰(zhàn)爭)。雖然謹慎的托管措施應該可以減少這種風險,但不可能完全避免和消除,而不可預見的災難會使托管數(shù)據(jù)中心設施癱瘓或毀壞。
(4) 連接。托管服務本質(zhì)上是遠程實施的,而WAN或互聯(lián)網(wǎng)連接對于托管服務提供商至關(guān)重要。大多數(shù)托管服務提供商都允許客戶使用一個或多個可用電信提供商的服務。電信基礎(chǔ)設施也不完善,也不是100%可靠的,這可能會導致使用某些電信服務的客戶連接中斷。在這種情況下,必須由電信提供商(而不是托管服務提供商)來恢復服務,但是對這些托管客戶的影響可能像發(fā)生火災或洪水一樣嚴重。
對內(nèi)部和外部場所進行故障排除
作為托管數(shù)據(jù)中心客戶的組織在解決托管數(shù)據(jù)中心發(fā)生的故障尤其具有挑戰(zhàn)性,因為解決問題的過程首先取決于識別/確定問題,然后確定托管數(shù)據(jù)中心提供商(或客戶)是否對故障和糾正措施負責。
傳統(tǒng)托管數(shù)據(jù)中心
例如,假設客戶的工作負載在傳統(tǒng)托管數(shù)據(jù)心設施中運行,并且托管服務提供商只提供空間、電源、制冷和其他服務。如果數(shù)據(jù)中心設施出現(xiàn)故障(例如電源故障),則客戶將依賴托管提供商提供的電力服務,并且托管服務提供商將根據(jù)現(xiàn)行服務等級協(xié)議(SLA)的條款負責查找和糾正電源問題。而根據(jù)問題的嚴重程度,修復過程可能需要數(shù)小時甚至數(shù)天的時間。
但是,客戶仍將負責部署到托管服務提供商的所有服務器、存儲、網(wǎng)絡和其他業(yè)務設備。服務器、存儲子系統(tǒng)、網(wǎng)絡交換機故障,甚至是應用程序故障(軟件錯誤)可能是造成停機的原因??蛻魧⒉捎孟到y(tǒng)管理工具監(jiān)視和報告硬件和軟件的狀態(tài),他們有責任找到并解決問題,可能是通過重新啟動服務器、更換服務器或采用其他潛在的修復方法。
如果客戶確實要負責修復,他們將面臨完成工作的挑戰(zhàn)。對出現(xiàn)故障的應用程序進行修復和排除可能需要實際操作,這可能需要數(shù)小時來部署人員和執(zhí)行修復所涉及的實際工作。在某些情況下,托管服務提供商的員工將會提供幫助,但需要客戶額外付費。
托管或托管主機
在托管數(shù)據(jù)中心或托管方案中,托管服務提供商將提供數(shù)據(jù)中心空間、服務器、存儲設備、網(wǎng)絡以及其他基礎(chǔ)設施,而客戶可以從托管服務提供商那里租用。但是,托管服務提供商對整個基礎(chǔ)設施負有全部責任,客戶不用接觸或關(guān)注托管服務提供商的基礎(chǔ)設施。如果托管數(shù)據(jù)中心設施或計算資源發(fā)生故障,則托管服務提供商必須處理并發(fā)布停機通知,然后按照服務等級協(xié)議(SLA)中規(guī)定的條款對故障進行故障排除和補救。在這種情況下,客戶通常會通過已建立的支持渠道(例如電子郵件、電話或門戶網(wǎng)站)將故障告知托管服務提供商(例如某個應用程序無法正常工作)。
如果問題實際上出在客戶的應用程序而不是托管服務提供商的基礎(chǔ)設施(即托管數(shù)據(jù)中心設施正常運行,但是客戶的應用程序遭受崩潰或其他異常),那么托管服務提供商就沒有更多的義務來確定客戶的應用程序是否正常工作。客戶必須具有適當?shù)谋O(jiān)視以跟蹤應用程序運行狀況或了解應用程序性能。當應用程序出現(xiàn)問題時,客戶的IT團隊可以選擇遠程操作重新啟動應用程序,或者要求托管服務提供商幫助采取糾正措施。
托管數(shù)據(jù)中心支持的類型
當出現(xiàn)問題時,組織必須找到快速且經(jīng)濟高效的方法來解決問題,同時保持行業(yè)標準或法規(guī)遵從性所要求的數(shù)據(jù)完整性和工作負載安全性??蛻艨梢允褂盟姆N類型的支持:
(1) 工作人員。當客戶將自己的設備部署在托管設施中時,可能會自己雇傭IT員工管理和維護,而不是托管服務提供商。這有助于確保IT任務的執(zhí)行符合客戶的最佳利益,但是其員工到路途遙遠的托管數(shù)據(jù)中心工作可能既耗時又會增加成本。
(2) 遠程控制??蛻艨梢云刚埻泄芊仗峁┥痰膯T工協(xié)助開展各種IT任務。這些任務可能包括物理設備故障排除、更換、配置。通常根據(jù)突發(fā)事件或請求遠程操作,并且其費用將添加到客戶的每月賬單中。
(3) 遠程管理?,F(xiàn)代IT系統(tǒng)管理工具擅長通過網(wǎng)絡訪問硬件設備以執(zhí)行常見的管理任務。這些工具通??梢灾匦聠臃掌鳌⒅匦聠討贸绦?、遷移虛擬機以及備份和恢復數(shù)據(jù)。遠程管理在管理日常任務時非常有效,無需客戶派遣員工在托管數(shù)據(jù)中心工作。
(4) 托管服務。托管服務提供商通常提供客戶可以參與的一系列服務,例如托管電子郵件。某些服務費用可能會添加到每月的托管費用中,而某些服務(例如備份)可能會帶來額外的費用。但是,托管服務提供商通??梢詤⑴c添加新服務,更改現(xiàn)有服務或減少或取消不需要的服務。
減輕數(shù)據(jù)中心托管設置中的不確定性
托管服務提供商可能會給客戶帶來更多不確定性和復雜性。在偏遠地區(qū)運營的托管數(shù)據(jù)中心設施可能會受到地緣政治不確定性和安全性問題的影響。托管服務提供商管理成本的愿望可能會削減支持人員數(shù)量,從而可能降低其響應能力。托管服務提供商的合并和請求可能會影響其日常運營。
客戶可以通過謹慎的應急計劃和大量監(jiān)控措施來緩解這些托管問題。常見步驟包括:
工作負載適用性。必須評估每個應用程序在托管數(shù)據(jù)中心中的適用性。由于法規(guī)遵從性、安全性、性能或其他問題,并非所有應用程序都適合托管。有些工作負載應該保留在內(nèi)部部署數(shù)據(jù)中心。
遣返。如果托管服務失敗或證明托管不適合應用程序時,則遷移到托管數(shù)據(jù)中心的每個工作負載都應采取遣返措施,可以在組織的內(nèi)部部署數(shù)據(jù)中心恢復應用程序。
備份和災難恢復。托管工作負載并不保證可用性。重要的工作負載可能需要額外的托管服務投資,以建立備份和災難恢復框架,以確保應用程序在托管服務中運行時的可用性。托管服務提供商在默認情況下不提供此類服務。
詳細監(jiān)控。使用監(jiān)視工具(例如應用程序性能監(jiān)視)和用于重要工作負載的工具來跟蹤應用程序的運行狀況和性能,以及托管服務提供商及其資源的可用性。了解托管服務提供商的服務等級協(xié)議(SLA),并使用監(jiān)控結(jié)果來驗證托管服務提供商是否遵守服務等級協(xié)議(SLA)。
尋求幫助。托管服務提供商將提供各種幫助臺以尋求支持??蛻魬撉宄私饪捎玫膸椭绾握埱髱椭?,以及在必要時如何采取行動并及時采取糾正措施。
歸根結(jié)底,托管服務提供商是客戶的業(yè)務合作伙伴(而不是員工),并且托管服務提供商提供的資源和服務不能被認為是理所當然的。客戶有責任管理自己在托管數(shù)據(jù)中心環(huán)境中運行的工作負載,并且需要能夠與托管服務提供商協(xié)作以維護每個工作負載的可用性和性能。