技術文章

首頁>技術文章
2022/01/26

下一代尖端AI系統的電源解決方案

edm_202202_newsletter_banner

作者: Yat Tam

簡介

人工智慧(AI)綜合了多種解決問題的方法,例如數學、計算統計、機器學習和預測分析。 AI系統通過基於電腦的“神經”網路來模仿人腦學習並解決問題。這種神經網路由並行處理器組成,能夠運行複雜的學習任務並執行軟體演算法。如今的AI還在改革計算架構,以複製並模仿人腦的神經網路。儘管在具有傳統中央處理器(CPU)的服務器上也可以訓練或開發通用模型,但大多數神經網路都需要自定義的內建硬體來進行訓練。
 
圖形處理單元(GPU)和張量處理單元(TPU)是用於加速神經網路訓練的常見加速器。它們可以處理重複性和密集型計算,但卻異常耗電。例如,早期的AI市場主導者NVIDIA的DGX-1 GPU超級計算機內建8個Tesla P100 GPU,每個GPU算力達到21.2 TeraFLOP,總共需要3200W的系統總功率。最新一代的DGX-2超級電腦則內建16個Tesla V100 GPU,每個GPU算力達2 petaFLOP,所需系統總功率達到10kW。因此,AI市場將迅速成長以滿足不斷成長的電源需求也就不足為奇了。
 
電源設計挑戰

AI電源系統設計人員面臨多方面的挑戰。提供千瓦功率是他們的第一個挑戰,而且效率絕對至關重要。要知道,這些計算系統是以全功率運行的複雜負載。活躍度下降,功率需求也會隨之下降。系統必須在整個電力需求中保持盡可能高的效率。浪費的每一瓦能量都會作為熱量消散,並轉化為資料中心對散熱系統的更高要求,這會增加運營成本以及碳足跡。
 
空間成本也在不斷上升。現代資料中心都包含成百上千個處理單元,因此裝置大小非常重要。減小單個單元的尺寸,就可以在與大型解決方案相同的空間中應用更多裝置,從而實現更高的處理能力密度。然而,越小的尺寸越要求極大地提高功率密度,並減小散熱面積。這使得散熱管理成為下一代尖端CPU、GPU和TPU電源設計面臨的重大挑戰之一。
 
另外,系統複雜性的增加和設計週期的壓縮使設計資源更加緊張。資源大部分被分配給系統關鍵知識產權的開發,這意味著電源方案相關的電路常常被忽略,直到開發週期的後期。實際上,我們只需很少的時間,並且可能只需很少的電源設計資源就可以解決上述的挑戰,得到理想的整體電源解決方案,它將是節省空間的、高效的、可擴展的、靈活的,並且只需要最少的設計工作。
 
數位控制與類比控制解決方案

類比控制解決方案現在已無法應對AI市場中快速成長的電源需求。現在的電源系統更加智慧,它被整合到整體解決方案中,與主CPU/GPU/TPU之間的通訊也成為一項設計要求。在為AI市場設計高端電源解決方案時,數位控制解決方案將佔據主導。
 
理想的控制解決方案應當兼容多種產品(例如Intel、AMD、PMBus),並且因可擴展且配置靈活而易於使用。包括MPS在內的很多公司都提供了這類理想的先進控制器(參見表1)。它們提供了廣泛而準確的系統控制,同時提供詳細而精確的監測。電壓、電流、頻率和故障監測均可在寬範圍內進行配置。工程師可以實時存取這些監測值,以全面了解解決方案的效能。有經驗的工程師還可以通過預測分析來優化運行時間,並在需要維修時獲取更多可用數據,從而最大程度地縮短停機時間。
 
  MPS先進控制器解決方案 其他類比控制器解決方案 其他數位控制器解決方案
通訊協議
  • PMBUS(帶或不帶 AVS)
  • SVID
  • SVI2
  • I2C
  • PWM-VID
  • SVID
  • SVI2
  • I2C
  • PWM-VID
  • PMBUS(帶或不帶 AVS)
  • SVID
  • SVI2
  • I2C
最大相位配置
  • 雙軌或單軌,具有靈活的相位分配
  • 10相或以下
  • 雙軌或單軌
  • 7相或以下
  • 雙軌或單軌,具有靈活的相位分配
  • 8相或以下
封裝 5mmx5mm QFN封裝或更小尺寸 7mmx7mm QFN封裝或更小尺寸 7mmx7mm QFN封裝或更小尺寸

表1:先進控制器vs.類比和數位控制解决方案

功率级:整合是關鍵

顯而易見,電源解決方案沒有功率級就無法工作,而功率級通常會採用離散式解決方案。離散式解決方案由驅動器IC和一對外部MOSFET組成,為三晶片解決方案。還有一種方法是將多晶片驅動器-MOSFET(DrMOS)共同封裝到一個IC解決方案中。如前所述,不斷縮小的系統板面積使三晶片解決方案變得不再理想,因為它增加了有限板空間中的組件數量。共同封裝的多晶片解決方案體積更小,所需的組件也更少;不過,其封裝內部的寄生電感仍然很高,這會導致效率的損失,對AI等大功率應用而言也不理想。

Conventional Method for implementing power stage

圖1:功率級的常用實現方法

與傳統的離散式和多晶片解決方案不同,MPS提供了一種單晶片功率級解決方案。其功率級具有低靜態電流、同步降壓柵極驅動器以及單個晶片上的一對上管和下管MOSFET。通過將所有關鍵元件整合在一個封裝中,可以輕鬆控制驅動器/MOSFET,並最大程度地減少開關節點處的振鈴。另外,封裝和板級之間的寄生電感也被大大降低。這種設計可以實現最先進的CPU/GPU/TPU設計所需的低輸出電壓下更高的效率。
 
單晶片功率級只需最少數量的外部元件,因此簡化了原理圖以及PCB佈局。其基本設計可以分兩步完成:
  1. 選擇適當數量的輸入和輸出電容器以滿足電壓和電流紋波要求。
  2. 選擇一個電感器以滿足總負載電流需求。

Conventional Solution compared to advanced solution
圖2:傳統解決方案與先進解決方案的比較

這種元件的典型功率級可在各種溫度下的全負載範圍內實現出色的電流檢測精確度(±2%) ,並以高達3MHz的開關頻率工作(見圖2)。在極其寶貴的空間內還可以同時提供各種可配置的故障保護功能,如過流保護(OCP)、相位故障檢測和IC溫度報告,為設計人員提供了一種小而強大的解決方案,還不會影響效率或瞬態響應。
 
結論

當今的AI系統都是通過多個高性能電腦系統來實現的,它在很多方面都對電源設計人員提出了挑戰。傳統的資料中心設計正迅速從通用的僅CPU解決方案演化為CPU、GPU和TPU的架構方案,這對電源設計解決方案提出了新的、更嚴格的要求。數位控制器及其功率級解決方案帶來了靈活性和適應性,以及精確的控制、遙測和保護功能。它使電源設計人員能夠創建具有高效率和高功率密度的最新電源解決方案,可以滿足快速成長的AI市場當前與未來的高功率需求。

Article Source: MPS  文章 (https://www.monolithicpower.cn/powering-the-next-sophisticated-ai-system)
訂閱電子報,掌握最新科技與產業趨勢 我要訂閱
訂閱電子報
© 2018 EDOM Technology. All Rights Reserved.
本網站使用Cookie為您提供最佳的使用體驗。繼續使用本網站,即表示您同意我們的Cookie Policy
接受