白皮書
摘要
數據中心和網絡機房的功率要求隨計算負載的變化而瞬息萬變。這種變化的幅度已經在增長,并且隨著電源管理技術在服務器和通信設備中的部署會繼續急劇增長。這種變化帶來了可用性和管理方面的新問題。
數據中心和網絡機房消耗的總電源功率是已安裝的 IT 設備所消耗功率的總和。在以前,這類設備的功耗隨計算負載或工作模式的不同,只會發生極小的變化.為延長筆記本電腦的電池供電時間,需要對處理器的電源消耗進行管理。電源管理技術的應用使筆記本電腦處理器在負載較小的情況下可節電高達 90%。隨著此項技術的逐漸成熟,人們已開始將其移植到服務器的設計中。其結果是當新開發的服務器的工作負載隨時間發生變化時,其功耗可能會隨之發生顯著變化。
當功率隨時間發生變化時,隨之而來的是數據中心和網絡機房設計和管理方面的各種新問題。在幾年以前,這種問題是可以忽略的?,F在,問題已到達不容忽略的程度,并且問題的嚴重性還在不斷加劇。這種功耗波動會導致在數據中心和網絡機房環境中發生意外的不良后果,包括斷路器跳閘、過熱和冗余電源系統中的冗余功能喪失。這種情況給數據中心和網絡機房的設計和操作人員帶來了新的挑戰。
動態功率變化的幅度
在整個 20 世紀 90 年代,幾乎所有服務器所消耗的功率都接近于恒定。造成服務器功率變化的主要因素是磁盤驅動器的旋轉以及溫控風扇的速度變化。處理器和內存子系統上的計算負載所導致的功率變化很小,在總功耗中可以忽略不計。在典型的小型公司或企業服務器中,總功率變化一般在 5% 左右,并且這種變化幾乎與計算運行狀態無關。
要大幅度降低功耗,需要 BIOS、芯片組、處理器和操作系統之間協調配合。在這樣一個電源受到管理的系統中,每當處理器的使用率低于百分百時,操作系統就會執行空閑線程,使處理器進入低功率狀態。處于低功率狀態的時間量與系統上的計算負載成反比(例如,當 CPU 的使用率為 20% 時,處理器將有 80% 的時間處于低功率狀態)。
不同的供應商和不同種類的處理器采用不同的方法來實現低功率狀態。但是,常見的方法包括減少或停止時鐘和減少或停止對處理器、芯片組和內存的各個部件供電。
處理器供應商開始引入可在 CPU 執行任務時節省電力的方法。這些方法包括改變處理器的時鐘頻率和電壓大小,以便更好地匹配處理器在非空閑狀態下的工作負載。
需要注意的是,任何在一定條件下減小處理器功耗的方法,所減小的都是系統平均功耗。大功耗不會改變,并且每一代新 CPU都有功耗升高的趨勢。另外,您還必須認識到,當處理器功耗在服務器總功耗中所占比例較大時,由計算負載造成的服務器總功耗的變化也會相應變大(按百分比計)。因此,具有多處理器的服務器和磁盤驅動器很少的服務器(如,刀片服務器),其動態功率變化百分比高
與動態功率變化相關的問題
動態功率變化導致以下新問題的產生:
分支電路過載
在多數時間下,大部分服務器都在小計算負載下運行。對于具有電源管理功能的服務器而言,這意味著服務器將消耗少于潛在功耗的功率。但是,大多數數據中心和網絡機房的安裝或維護人員并沒有意識到其通常觀察到的服務器功耗可能遠小于高計算負載下的潛在功耗。這種情況可能會導致數據中心或網絡機房的操作人員或IT 工作人員無意地將過多的服務器連接到分支電路中。
當分支電路中服務器的大功耗總和超過分支電路的額定值時,就有可能發生過載。在這種情況下,這些服務器將會正常運行,直到條件發生變化,即足夠多的服務器同時在大負載下運行。導致此類過載的計算條件很少發生,因此系統可能會連續數周甚至數月無故障地正常運轉。
在由于上述情況而導致的過載條件發生期間,分支電路將在高于電路額定值的電流下工作。在數據中心或網絡機房環境中,此情況造成的極嚴重后果是分支電路斷路器可能跳閘并中斷對計算設備的供電。毫無疑問,這是我們不希望發生的情況。此外,由于這種供電中斷是發生在計算負載很高的時間段,因此計算設備有可能正在處理大量事務,這意味著故障很有可能發生在不希望發生的時間點上。
過熱
在數據中心和網絡機房中,計算設備所消耗的所有電能都會變成熱量散發出來(PoE 交換機是個例外,它將大部分功率通過以太網電纜傳輸到 VOIP 電話、Wi-Fi 接入點和其他受電設備)。當計算設備的功耗因計算負載而變化時,其熱量輸出也會變化。如果數據中心某一處設備的功耗突然增加,就會在數據中心出現局部熱點。數據中心制冷系統的制冷能力可能已根據典型功率耗散情況進行了分配,因此局部區域的功率翻倍可能導致不期望的溫度上升,而這種溫度上升在設計制冷系統時并未考慮。這可能導致設備在過熱時關機,工作異?;蛘呤乖O備的保修失效。
冗余喪失
很多服務器都具有雙冗余電源輸入,而具有高可用性的數據中心和網絡機房正是利用這一特性為服務器提供雙路供電。當其中一條供電線路上的任何一點徹底無法供電時,這些系統仍然可獲得電能并繼續運行。在正常運行條件下,計算機設計為讓兩條供電線路平均分擔負載。當其中一條供電線路發生故障時,服務器的全部負載就會轉移到剩下的另一條供電線路上。這會導致供電線路上的負載翻倍。因此,對于為雙路供電系統中的設備供電的 AC 電源分支電路而言,其負載必須小于額定載流容量的 50%。這樣,它才有足夠的剩余能力在必要時承擔全部負載。
當負載呈現出動態變化的功耗時,確保分支電路的負載小于其額定值的 50% 變得更加困難。系統在安裝時已經過測試并且分支電路確實是在其額定值的 50% 之下運行。但是,當未來某個時刻出現高計算負載時,系統就有可能開始在大于額定值的 50% 的條件下運行。
如果雙路供電系統的分支電路出現負載超過自身能力的 50% 的情況,那么系統就喪失了冗余功能。如果一條供電線路發生故障,第二條供電線路會立即過載并可能發生上一節所述的斷路器跳閘情況。同樣,由于這種供電中斷是發生在計算負載很高的時間段,因此計算設備有可能正在處理大量事務,這意味著冗余功能喪失很有可能發生在不希望發生的時間點上。
掩蓋問題
具有動態功耗的設備可能只占數據中心或網絡機房總功耗的很小部分。如果數據中心的 5% 設備具有 2 比 1的動態功率變化,其他設備消耗恒定的功率,那么在主供電線路或配電單元處測量到的數據中心總功率只會變化 2.5%。這種測量結果會誤導操作人員,使其確信不會有重大的動態功率變化問題發生。實際上,發生斷路器跳閘、過熱或冗余功能喪失的風險是非常大的。因此,很有可能問題已存在但經驗豐富的操作人員并未察覺。
管理動態功率變化
為減少上節所述問題的發生,數據中心和網絡機房的設計、管理人員必須針對動態功耗這一新情況采取必要的應對措施。解決這一問題的方法有很多,下面評述了其中的幾種:
為每臺服務器提供專用分支電路
如果每臺服務器都有獨立的分支電路,分支電路過載就不會發生。這是因為設計方案假定每一臺服務器都通過專用分支電路供電運行。此方法解決了分支電路過載問題和冗余功能喪失問題。雖然它沒有解決過熱問題,但該問題通常不是大的風險所在。但是,對于部署了小型服務器(如 1U 或 2U 服務器)的工作環境,由于每個機架所需分支電路的數量極其巨大,因此這是一個非常復雜而昂貴的解決方案。在極端的情況下,裝滿了雙線 1U 服務器的機架可能需要 84 個分支電路,這意味著需要兩個大型電路斷路器配線板。當使用較大型的服務器或刀片服務器時,此解決方案更加實用。
建立極壞情況下的安全容限標準并在安裝時測量兼容性
多數數據中心和網絡機房操作人員都有負載容限標準,通常以占全部負載分支電路額定值的百分數表示。所選擇的典型值一般在分支電路額定值的 60% 到 80% 之間,75% 被認為是兼顧電源容量、成本和可用性的理想折衷值。要確認與標準的兼容性,應對實際分支電路進行測量并確保其符合標準。注意,當系統具有動態變化的功耗時,由于在測量時很難知道計算負載的情況,使用此方法會面臨嚴峻的問題。方法是在測量時將大計算負載加在有保護的設備上,以確保在壞的情況下也能符合標準。
建立壞情況下的安全容限標準并計算兼容性
在另一種情況中,保留一份連接到每個分支電路的設備的詳細清單,以及公布的或測量出的設備大負載數據,然后將負載相加以確保特定分支電路沒有過載。各設備的大負載信息可從其設備制造商處獲得(通常會將負載夸大),或從 UPS 選擇器應用程序獲得。這類應用程序可在 www.apcc.com 網站上找到。保留詳細的分支電路清單是大型高可用性數據中心的工作慣例。但是,這需要操作員能做到時刻準確掌握每個分支電路中所插入的設備。對于大多數網絡機房和較小的數據中心,由于對用戶沒有足夠的控制,因此不能確保用戶不會移動設備、交換設備的位置,或將設備插入其他的插座中。因此,對于很多安裝場所,此方法是不切實際的??梢詫⑦@些容限值進一步降低以便為動態功率的增加做好準備。例如,安全容限規格可以定為當設備在空閑狀態下運行時,測量到的分支電路負載不能超過分支電路額定值的 35%
建立壞情況下的安全容限標準并實時監控兼容情況
在此情況中,建立安全容限并通過自動監控系統對所有分支電路進行實時連續監控。當分支電路負載開始進入安全容限區域時,發出警告。例如,如果使用 60% 的分支電路負載標準,則當負載超過 60% 時就會發出警告。所建立的安全容限應該確保操作人員能夠提前獲得有關問題區域的警告,并且在電流過載情況發生前有足夠的時間來采取糾正措施。此方法可與前面所述的其他方法配合使用。它的大優點在于其適用于用戶可能在數據中心管理員不知情的情況下安裝、移動設備或將設備插入其他插座的情況。這種情況在網絡機房、配置室和中等安全的數據中心時有發生。此方法還可對即將發生的冗余功能喪失發出警告。它是數據中心管理員管理多變環境中的動態功率變化的有力工具。
結論
隨著時間的推移,功耗隨負載變化而顯著變化的 IT 負載在網絡機房或數據中心所占的百分比正在不斷增加。這種情況給數據中心基礎設施操作人員帶了許多不曾預料到的問題。因此,需要對以前用于減小過載風險的措施加以改進以便適應新的情況。對于要在其中安裝大量服務器的新設施和現有設施而言,正確的規劃和監控分支電路功率是確保其可用性的關鍵所在。