8 de julio de 2024

Adaptación de la interconexión del centro de datos para la avalancha de datos de IA

ai

Sin duda, la inteligencia artificial (IA) está remodelando el mundo, desde educación y cuidado de la salud a finanzas y política exterior. A medida que las empresas y los proveedores de centros de datos continúan adoptando plataformas de infraestructura de centros de datos especialmente diseñadas (como NVIDIA DGX SuperPOD) que permiten el uso de IA a escala, las presiones sobre los ingenieros de redes ópticas de los centros de datos están aumentando. Como resultado, la tecnología de transceptores ópticos vuelve a estar en el centro de atención como nunca antes. Así es cómo.

La avalancha de datos de IA crea desafíos para las arquitecturas DCI y dentro del centro de datos

En numerosos sectores verticales, las empresas están adoptando cada vez más cargas de trabajo de IA con uso intensivo de datos con algunas de las aplicaciones de IA generativa más grandes. confiando en billones de parámetros. Desde modelado de lenguajes de gran tamaño y entrenamiento de IA hasta simulaciones de computación de alto rendimiento (HPC), estas cargas de trabajo generan grandes cantidades de datos que deben procesarse, analizarse y enrutarse tanto dentro como entre los centros de datos actuales. Como resultado, los ingenieros de redes de centros de datos se encuentran bajo una inmensa presión para optimizar tanto las arquitecturas de interconexión de sus centros de datos (DCI) como las redes dentro de los centros de datos para adaptarse a las crecientes demandas de las aplicaciones impulsadas por IA en la actualidad, mientras planifican para el futuro.

En un artículo reciente de Data Center Frontier, Sameh Boujelbene, vicepresidente de Dell'Oro Group, dijo que el rápido crecimiento en la cantidad de parámetros manejados por las aplicaciones de IA generativa se multiplica por diez anualmente. A medida que las empresas, los centros de datos de hiperescala e incluso los proveedores de colocación comiencen a implementar miles o incluso “cientos de miles de nodos acelerados”, según Boujelbene, las redes de los centros de datos se verán en apuros para mantenerse al día con la avalancha de datos en curso. Como ejemplo, Peter Jones, presidente de Ethernet Alliance, señala que los límites de la red de centros de datos a hiperescala están "cruzando el umbral de Terabits por segundo". Reciente investigación sobre omdia señala que el uso de la IA aumentará significativamente la adopción de tecnologías ópticas en centros de datos de todos los tamaños, con velocidades de datos más bajas, como 100G y 200G, que disminuirán a medida que aumenten las tasas más altas, como 400G, 800G y 1,6T.

¿Qué significa esto para DCI y las estructuras de red dentro de los centros de datos actuales? La respuesta está en la adopción de velocidades de datos más altas, como 800G e incluso 1,2T y 1,6T. Desde una perspectiva de conectividad dentro del centro de datos, también significa un mayor enfoque en el diseño de transceptores para mejorar la escalabilidad, reducir la latencia y mejorar la eficiencia energética, satisfaciendo así las demandas de alta velocidad, baja latencia y uso intensivo de datos de las aplicaciones de IA.

La cara moderna de DCI y la conectividad dentro del centro de datos: 800G y nuevas interfaces energéticamente eficientes

Con variantes de transceptores de 400G ya bien establecidas en el mercado, los operadores de centros de datos ya están comenzando a considerar la implementación de tecnologías de 800G para planificar los grandes volúmenes de datos que generarán la IA y otras aplicaciones HPC. La OFC, en su Informe posterior al espectáculo 2024, señala que las instalaciones de la variante 800G se acelerarán en 2024 y más allá "para admitir redes backend de IA, así como la red Ethernet general que admite todas las cargas de trabajo del centro de datos".

Cuando se trata de estándares 800G coherentes e interoperables, el trabajo de la OIF en 800ZR y 800LR destaca. El estándar OIF 800ZR es una especificación para Ethernet 800G en una única longitud de onda utilizando óptica coherente. Diseñado para aplicaciones DCI, se puede utilizar para conectar centros de datos a distancias de hasta 80 km. El estándar 800LR se concentra en la transmisión Ethernet 800G en una única longitud de onda para distancias de hasta 10 km. Eso lo hace adecuado para aplicaciones en campus o dentro de centros de datos, que, como señala Dell'Oro, será una frontera importante en la evolución de la red de centros de datos a medida que los crecientes requisitos de ancho de banda de la IA "impulsan la necesidad de transceptores ópticos de 800G dentro de los centros de datos".

Desde una perspectiva dentro del centro de datos, la óptica lineal enchufable (LPO) y la óptica co-empaquetada (CPO) son serios contendientes para revolucionar la ecuación típica de potencia y latencia para los centros de datos. Por su parte, la tecnología de accionamiento lineal, que aprovechan los enlaces LPO, elimina la necesidad de un complejo procesamiento de señales digitales (DSP) en la óptica al confiar en el DSP SERDES en el chip del conmutador para el formateo digital. El DSP en el conmutador ASIC controla un motor óptico en la óptica enchufable que incluye solo amplificadores lineales. Como resultado, el consumo de energía de LPO es mucho menor que el de las variantes enchufables convencionales, lo que la convierte en una opción atractiva ya que los operadores de centros de datos emplean más transceptores dentro de sus redes en respuesta a las demandas de la IA.

La tecnología CPO también puede ofrecer importantes beneficios desde la perspectiva del consumo de energía y la latencia. A diferencia del diseño LPO, la óptica CPO integra motores ópticos directamente con los ASIC de conmutación, todo dentro del mismo paquete. De esta manera, los CPO permiten una comunicación corta y de baja pérdida entre el chip y el motor óptico, lo que permite a los operadores de red reducir la cantidad de DSP de los que dependen, reduciendo así el consumo de energía. Después de todo, el DSP puede aumentar la potencia general del sistema tanto como sea posible. tanto como 25-30%. Los CPO también permiten una comunicación de baja latencia debido a la eliminación de largos rastros de cobre entre el ASIC y la óptica, además de permitir el uso de menos DSP.   

Dicho esto, tanto las LPO como las CPO todavía están en el proceso. primeras etapas de desarrollo y demostración. Por ejemplo, aún abundan las preocupaciones en torno a la compatibilidad con chips de conmutación, el diseño del sistema y la interoperabilidad con respecto a las LPO. Sin embargo, un MSA LPO se ha establecido, lo que proporciona un cierto grado de confianza en que estas cuestiones se solucionarán en un futuro no muy lejano. Tanto para LPO como para CPO, el concepto es encontrar nuevas soluciones que hagan que la óptica sea más eficiente, reduciendo el consumo de energía, la latencia y el costo.

A medida que las aplicaciones de IA generan flujos de datos cada vez más diversos y complejos, los operadores de centros de datos necesitan soluciones ópticas que puedan acomodar y transportar eficientemente estas cargas de datos a través de sus redes. En nuestro documento técnico, titulado Guía del operador de red: los últimos avances en 400G y 800G, Discutimos las oportunidades y desafíos que rodean la adopción de 800G en redes modernas, incluida DCI. Las innovaciones en torno a cada tecnología añaden una serie de consideraciones de integración de sistemas a las ya complejas demandas de adaptar un centro de datos para aprovechar la infraestructura computacional de IA diseñada específicamente. Dicho esto, se está volviendo necesario que los ingenieros de redes de centros de datos utilicen transceptores de 800G en su búsqueda por preparar su infraestructura para el futuro y garantizar la escalabilidad frente a las crecientes demandas de datos.

La adaptación a la IA en el centro de datos requiere una experiencia y asociaciones profundamente arraigadas

Ya sea que esté enfrentando desafíos con la adopción de 400G o esté planeando implementar ópticas de 800G, hay mucho que considerar. Los requisitos de potencia de los transceptores, la popularidad del factor de forma, la interoperabilidad de múltiples proveedores y la orquestación de redes son solo algunos de los problemas que enfrentan los operadores de centros de datos con visión de futuro cuando buscan adaptar sus redes a las demandas de las cargas de trabajo de IA. Ahí es donde podemos ayudar. Nuestro equipo de ingenieros expertos tiene una profunda experiencia en todos los aspectos de la integración de sistemas, arquitecturas de red y los transceptores ópticos que los integran. Con pruebas sólidas y nuestro enfoque consultivo, tenemos un historial comprobado de convertir las visiones de nuestros clientes en realidad. ¡Contáctenos hoy con sus preguntas!