據(jù)估計(jì),數(shù)據(jù)中心和其他云計(jì)算業(yè)務(wù)目前占全球用電量的 1%。運(yùn)行這些大型服務(wù)器群(尤其是冷卻服務(wù)器群)所消耗的碳排放量絕非微不足道。據(jù)認(rèn)為,約 50% 的用電量與基本運(yùn)營(yíng)成本有關(guān),而高達(dá) 40% 的用電量與冷卻成本有關(guān)。
數(shù)據(jù)中心正在四處尋找解決方案,從利用更多可再生能源到將數(shù)據(jù)中心置于海底以節(jié)省冷卻成本。
一些最節(jié)省和實(shí)用的解決方案涉及實(shí)施人工智能來(lái)定位和糾正效率低下的問(wèn)題。Gartner的一份報(bào)告估計(jì),未來(lái)兩年,人工智能將在一半的數(shù)據(jù)中心投入使用。IDC 2019年的一份報(bào)告顯示,這種情況可能已經(jīng)發(fā)生。工作量將同比增長(zhǎng)20%,因此這是一個(gè)緊迫的問(wèn)題。
Hitachi Vantara 數(shù)據(jù)平臺(tái)產(chǎn)品營(yíng)銷(xiāo)總監(jiān) Ian Clatworthy 和 DataBank 工程副總裁 Eric Swartz 談到了數(shù)據(jù)中心人工智能解決方案的可能性和局限性。
收集適當(dāng)?shù)臄?shù)據(jù)
為了創(chuàng)建和校準(zhǔn)有用的 AI 儀器,數(shù)據(jù)中心必須收集和輸入適當(dāng)?shù)臄?shù)據(jù)。事實(shí)證明,這很有挑戰(zhàn)性,因?yàn)槟承╊愋偷臄?shù)據(jù)在日常運(yùn)營(yíng)中過(guò)去沒(méi)有用處,因此被忽略了。有些數(shù)據(jù)可能被收集但未被使用。有些數(shù)據(jù)根本沒(méi)有被收集,這意味著操作員必須從頭開(kāi)始或從現(xiàn)有數(shù)據(jù)中推斷。
必要的硬件數(shù)據(jù)包括:可用存儲(chǔ)空間、訪問(wèn)便利性、特定時(shí)間運(yùn)行的機(jī)器數(shù)量以及在任何特定情況下流量被導(dǎo)向的機(jī)器。與機(jī)器供電和冷卻所消耗的能量相關(guān)的數(shù)據(jù)也是必不可少的,與中心內(nèi)外環(huán)境條件相關(guān)的數(shù)據(jù)也是必不可少的。
“為了能夠構(gòu)建一個(gè)合適的機(jī)器學(xué)習(xí)人工智能系統(tǒng),你需要所有這些來(lái)真正提高效率。所有這些都很重要,”Swartz 說(shuō)?!懊恳粋€(gè)數(shù)據(jù)點(diǎn)都可能相互影響?!?/p>
事實(shí)上,人工智能在收集這些信息方面是有用的。在得到正確的指令后,數(shù)據(jù)挖掘可以提取隱藏在看似不相關(guān)的統(tǒng)計(jì)數(shù)據(jù)中的有用數(shù)據(jù)。根據(jù) Clatworthy 的說(shuō)法,當(dāng)正確的數(shù)據(jù)排列好后,它可以“以一種有意義的方式呈現(xiàn)信息”。
如何利用人工智能提高效率
服務(wù)器的用電量是人工智能干預(yù)的主要目標(biāo)。未使用的服務(wù)器處于運(yùn)行狀態(tài),傳入流量在可用設(shè)備之間分配效率低下。調(diào)度控制引擎可以使用深度學(xué)習(xí)來(lái)適當(dāng)引導(dǎo)流量。它可以以最佳方式分布在可用的機(jī)器上,以充分利用其功能,但不會(huì)使其過(guò)載。
然后,可以關(guān)閉未使用的機(jī)器,直到需要它們?yōu)橹?。更好的是,Clatworthy 說(shuō),“我們可以關(guān)閉 CPU。通過(guò)關(guān)閉,你可以減少電力消耗?!彼J(rèn)為,打開(kāi)和關(guān)閉機(jī)器的電源也是低效的。
可以預(yù)測(cè)流量模式,從而更節(jié)約地使用設(shè)備。因此,電源使用效率 (PUE) 得到改善。隨著工作負(fù)載的增加,人工智能可以幫助擴(kuò)展這些流程。
通過(guò)預(yù)測(cè)性維護(hù)可以提高效率。“通過(guò)了解組件問(wèn)題或維護(hù)計(jì)劃的歷史數(shù)據(jù),并將其與預(yù)算分配聯(lián)系起來(lái),組織可以使用人工智能來(lái)提供預(yù)測(cè)模型,”Clatworthy 說(shuō)。
通過(guò)利用數(shù)據(jù)確定何時(shí)可能發(fā)生停電,可以更輕松地建立適當(dāng)?shù)膫浞?。修補(bǔ)和升級(jí)既繁重又費(fèi)力,但也可以在一定程度上實(shí)現(xiàn)自動(dòng)化。故障機(jī)器可以在造成服務(wù)中斷之前進(jìn)行更換或維修。
電源管理本身也可以從人工智能中受益。通過(guò)確定可再生能源何時(shí)最可用(風(fēng)力發(fā)電在刮風(fēng)的日子,太陽(yáng)能發(fā)電在晴天),數(shù)據(jù)中心可以確定何時(shí)從這些能源獲取電力,何時(shí)轉(zhuǎn)向不太理想的化石燃料電力。廢熱可以重新定向,在數(shù)據(jù)中心內(nèi)部或周?chē)O(shè)施內(nèi)使用。
“你不能總是使用可再生能源,”Swartz 聲稱。“通過(guò)使用人工智能來(lái)確定何時(shí)是使用它的最佳時(shí)間,你可以兩全其美?!?/p>
這也可以節(jié)省成本?!凹词?1% [的用電量] 也可能意味著數(shù)十萬(wàn)美元的能源,”他補(bǔ)充道。“將其調(diào)到最有效的運(yùn)行參數(shù)將非常有益?!?/p>
冷卻系統(tǒng)是人工智能效率計(jì)劃的另一個(gè)目標(biāo)。與電力一樣,它們?cè)谶^(guò)去也是恒定的。也就是說(shuō),它們不會(huì)根據(jù)不斷變化的參數(shù)進(jìn)行調(diào)整,而是以模糊的需求估計(jì)確定的穩(wěn)定速率運(yùn)行。
冷卻非常昂貴——無(wú)論是在財(cái)務(wù)上還是在碳排放方面——即使對(duì)冷卻系統(tǒng)進(jìn)行微小的調(diào)整也可以節(jié)省大量成本。熱管理必須考慮環(huán)境溫度、天氣、任何給定時(shí)間運(yùn)行機(jī)器產(chǎn)生的熱量、建筑物建造的材料以及現(xiàn)有的 HVAC 系統(tǒng)等因素。
人工智能可以將冷卻活動(dòng)引導(dǎo)到需要它的系統(tǒng)——直到特定的機(jī)器機(jī)架——并在不需要它的區(qū)域關(guān)閉它們。它甚至可以考慮滯后時(shí)間,預(yù)測(cè)某些區(qū)域何時(shí)恢復(fù)供電并提前將冷卻引導(dǎo)到它們。
數(shù)字孿生如何優(yōu)化數(shù)據(jù)中心系統(tǒng)
創(chuàng)建數(shù)字孿生或數(shù)據(jù)中心物理環(huán)境的虛擬表示有助于模擬其各個(gè)組件如何相互作用,而不會(huì)對(duì)系統(tǒng)本身造成中斷風(fēng)險(xiǎn)。通過(guò)輸入有關(guān)能源、溫度、交通需求和天氣等因素的數(shù)據(jù),AI 架構(gòu)師可以為數(shù)據(jù)中心設(shè)計(jì)最佳條件——至少在理論上是這樣。
“我們可以模擬不同的冷卻配置,”Clatworthy 舉例說(shuō)?!盁o(wú)論是在新加坡、墨爾本、歐洲還是在雨中——我們都可以根據(jù)設(shè)備的位置確定最有效的冷卻布局?!?/p>
缺失數(shù)據(jù)——總是有缺失數(shù)據(jù)——當(dāng)然會(huì)扭曲這些數(shù)字模型。但即使是合理數(shù)量的歷史數(shù)據(jù)也可以創(chuàng)建數(shù)據(jù)中心實(shí)際運(yùn)行和使用能源的現(xiàn)實(shí)模型。
然而,數(shù)字孿生并不是自我維持的。它們需要人類觀察員的調(diào)整,他們可以標(biāo)記超出物理世界中可能出現(xiàn)的參數(shù)。因此,模型會(huì)隨著時(shí)間的推移而完善。
數(shù)據(jù)中心部署 AI 面臨的挑戰(zhàn)
數(shù)據(jù)稀缺是數(shù)據(jù)中心實(shí)施 AI 面臨的最棘手的挑戰(zhàn)。雖然有些數(shù)據(jù)是為了其他目的而收集的,因此可以輸入到 AI 系統(tǒng)中,但一些對(duì)優(yōu)化 AI 性能至關(guān)重要的數(shù)據(jù)迄今為止一直漂浮在數(shù)字以太中。有些數(shù)據(jù)可以從其他來(lái)源追溯收集。但其他類型的數(shù)據(jù)需要新的方法——這意味著沒(méi)有歷史記錄。數(shù)據(jù)中心必須從頭開(kāi)始。
例如,數(shù)據(jù)中心可以使用制造商指定的開(kāi)箱即用機(jī)器的功耗。但隨著機(jī)器老化和性能下降,機(jī)器的功耗可能無(wú)法收集——因此無(wú)法用于 AI 解決方案。對(duì)正在使用的每臺(tái)設(shè)備的功能和漏洞的深入了解是必不可少的——而且通常很難獲得。
正如 Swartz 所指出的,多租戶數(shù)據(jù)中心在收集數(shù)據(jù)方面面臨著另一個(gè)困難,因?yàn)樗麄儽仨氉袷嘏c客戶達(dá)成的隱私協(xié)議?!拔覀冇胁煌愋偷目蛻?,他們有不同的需求和不同的風(fēng)險(xiǎn)水平,”他表示。 “當(dāng)你試圖適應(yīng)所有這些時(shí),你通常無(wú)法成為生活在邊緣的人?!?/p>
人工智能還需要新的復(fù)雜系統(tǒng)和設(shè)備來(lái)支持其實(shí)施——即所謂的人工智能稅。雖然前期成本不低,但后期成本節(jié)省似乎是可靠的。盡管如此,啟動(dòng)和運(yùn)行系統(tǒng)并非易事——必須收集、處理、輸入數(shù)據(jù),然后重新分析。
確保數(shù)據(jù)中心能夠以可持續(xù)的方式相互通信是另一個(gè)挑戰(zhàn)?!拔覀冋谘芯咳绾问褂萌斯ぶ悄苘浖?shù)據(jù)從數(shù)據(jù)中心轉(zhuǎn)移,而不會(huì)對(duì)客戶產(chǎn)生任何影響,”Clatworthy 說(shuō)。當(dāng)考慮到可再生能源時(shí),這會(huì)帶來(lái)許多障礙。“太陽(yáng)在這里落山了。這意味著我們不會(huì)使用可再生能源來(lái)移動(dòng)這個(gè)數(shù)據(jù)集?!?/p>
即使人工智能系統(tǒng)越來(lái)越復(fù)雜,并且它們能夠做出這樣的決定,但在某些情況下,它們?nèi)匀粺o(wú)法與人類推理相提并論。
“人工智能還沒(méi)有能力及時(shí)做出復(fù)雜的戰(zhàn)略決策,”Clatworthy 觀察到。“我希望它告訴我我的長(zhǎng)期能力會(huì)是多少,告訴我需要升級(jí)什么。我將讓我的團(tuán)隊(duì)專注于不可預(yù)見(jiàn)的異常情況?!?/p>
隨著人工智能在數(shù)據(jù)中心運(yùn)營(yíng)中變得越來(lái)越不可或缺,其人工處理人員必須相應(yīng)地調(diào)整其職責(zé)。
作者:Richard Pallardy
來(lái)源:千家網(wǎng)