Maury Wood, vicepresidente de marketing estratégico, en la compañía Vicor Corporation nos explica como los nuevos módulos de potencia con alta densidad de corriente mitigan el impacto ambiental de la GenAI con uso intensivo de energía.
Los centros de datos consumen una cantidad asombrosa de energía para alimentar y enfriar el hardware de Inteligencia Artificial generativa (genAI), procesamiento e infraestructura.
El entrenamiento de modelos de redes neuronales artificiales genAI suele llevar meses de tiempo, con miles de miles de millones de procesadores de transistores, memorias magnéticas y semiconductoras de gran ancho de banda y procesadores de redes ópticas funcionando perpetuamente.
(1) (2) The New York Times ha informado que «en un escenario intermedio, para 2027 los servidores de IA podrían usar entre 85 y 134 Teravatios hora (TWh) al año».
(3) El entrenamiento del modelo GenAI presenta un desafío de consumo de energía desalentador y apremiante que no está alineado con los objetivos sociales de cero emisiones netas y reducción de gases de efecto invernadero.
Este artículo analiza las opciones de suministro de energía del procesador genAI y cómo los módulos de potencia avanzados de alta densidad de corriente y los métodos de suministro de energía vertical pueden lograr una mejora significativa en el rendimiento del procesamiento, al tiempo que reducen las pérdidas de energía y ahorran Teravatios de energía anualmente a escala global.
Impulsando los procesadores GenAI modernos
En los últimos años, se han introducido numerosos procesadores genAI destinados al entrenamiento de grandes modelos de lenguaje. Las innovaciones en el proceso y el empaquetado de semiconductores incorporadas en estos procesadores (Figura 1) son asombrosas, con >100 mil millones de transistores fabricados en tecnologías de proceso lógico CMOS de 4 nm, y >144 gigabytes de memoria de alto ancho de banda (HBM) (otros 1.128 billones de transistores) capaces de >9,6 terabytes por segundo en transferencias.
(4) Las demandas de corriente operativa de estos procesadores son muy significativas y ahora se acercan al pico de 2.000 Amperios, lo que resulta en niveles ambientalmente consecuentes de pérdida de energía del procesador y elevan la complejidad de la gestión térmica relacionada. La entrega de 2.000 Amperios a 0,7 V utilizando reguladores de voltaje en el punto de carga (PoL) presenta un desafío de rendimiento térmico y eléctrico muy interesante e importante.
Las soluciones actuales utilizan treinta o más fases moduladas por reguladores de voltaje (VR) dispuestas lateralmente alrededor del procesador de entrenamiento genAI, lo que agrega pérdidas de I2R derrochadoras de 50 vatios o más en los planos de alimentación sobre el material de cobre en el PCB de la placa base.
Una solución a esta pérdida excesiva de energía y carga de gestión térmica es restringir el rendimiento del procesador de entrenamiento genAI a una zona de funcionamiento segura, dejando teraFLOPS (operaciones de coma flotante por segundo) de rendimiento sobre la mesa.
Una mejor solución es pasar a la entrega de energía PoL colocada verticalmente, pero esto requiere un aumento importante en la densidad de corriente de los componentes y una nueva tecnología de encapsulado de módulos de potencia.