8 juillet 2024

Adaptation de l'interconnexion des centres de données au déluge de données de l'IA

ai

L’intelligence artificielle (IA) est sans aucun doute en train de remodeler le monde, depuis éducation et soins de santé pour finance et la politique étrangère. Alors que les entreprises et les fournisseurs de centres de données continuent d’adopter des plates-formes d’infrastructure de centres de données spécialement conçues (comme le NVIDIA DGX SuperPOD) qui permettent l’utilisation de l’IA à grande échelle, la pression exercée sur les ingénieurs en réseaux optiques des centres de données augmente. En conséquence, la technologie des émetteurs-récepteurs optiques est à nouveau sous les projecteurs comme jamais auparavant. Voici comment.

Le déluge de données d'IA crée des défis pour les architectures DCI et intra-data center

Dans de nombreux secteurs verticaux, les entreprises adoptent de plus en plus des charges de travail d'IA gourmandes en données avec certaines des plus grandes applications d'IA générative. s'appuyant sur des milliards de paramètres. De la modélisation de grands langages et de la formation à l'IA aux simulations de calcul haute performance (HPC), ces charges de travail génèrent de grandes quantités de données qui doivent être traitées, analysées et acheminées à la fois au sein et entre les centres de données actuels. En conséquence, les ingénieurs réseau des centres de données sont soumis à une immense pression pour optimiser à la fois leurs architectures d'interconnexion de centre de données (DCI) et leurs réseaux intra-centre de données afin de répondre aux demandes croissantes des applications basées sur l'IA aujourd'hui tout en planifiant l'avenir.

Dans un article récent de Data Center Frontier, Sameh Boujelbene, vice-président du groupe Dell'Oro, a déclaré que la croissance rapide du nombre de paramètres gérés par les applications d'IA générative est décuplé chaque année. Alors que les entreprises, les centres de données hyperscale et même les fournisseurs de colocation commencent à déployer des milliers, voire des « centaines de milliers de nœuds accélérés », selon Boujelbene, les réseaux des centres de données auront du mal à suivre le déluge actuel de données. À titre d’exemple, Peter Jones, président d’Ethernet Alliance, note que les limites des réseaux de centres de données hyperscale « dépassent le seuil des térabits par seconde ». Récent Recherche Omdia note que l'utilisation de l'IA augmentera considérablement l'adoption des technologies optiques dans les centres de données de toutes tailles, avec des débits de données inférieurs comme 100G et 200G diminuant à mesure que des débits plus élevés comme 400G, 800G et 1,6T augmentent.

Qu'est-ce que cela signifie pour DCI et les structures réseau des centres de données d'aujourd'hui ? La réponse réside dans l’adoption de débits de données plus élevés comme le 800G et même le 1,2T et le 1,6T. Du point de vue de la connectivité intra-centre de données, cela signifie également une concentration accrue sur la conception des émetteurs-récepteurs pour améliorer l'évolutivité, réduire la latence et améliorer l'efficacité énergétique, répondant ainsi aux demandes à haut débit, à faible latence et à forte intensité de données des applications d'IA.

Le visage moderne de la connectivité DCI et intra-centre de données : 800G et nouvelles interfaces économes en énergie

Avec des variantes d'émetteur-récepteur 400G déjà bien établies sur le marché, les opérateurs de centres de données commencent déjà à envisager de déployer des technologies 800G pour planifier les vastes volumes de données que l'IA génératrice et d'autres applications HPC produiront. L'OFC, dans son Rapport post-spectacle 2024, note que les installations de variantes 800G s'accéléreront en 2024 et au-delà « afin de prendre en charge les réseaux backend d'IA ainsi que le réseau Ethernet général qui prend en charge toutes les charges de travail des centres de données ».

En matière de normes 800G interopérables et cohérentes, les travaux de l'OIF sur 800ZR et 800LR se démarque. La norme OIF 800ZR est une spécification pour Ethernet 800G sur une seule longueur d'onde utilisant une optique cohérente. Destiné aux applications DCI, il peut être utilisé pour connecter des centres de données sur des distances allant jusqu'à 80 km. La norme 800LR se concentre sur la transmission Ethernet 800G sur une seule longueur d'onde pour des distances allant jusqu'à 10 km. Cela le rend adapté aux applications sur campus ou intra-DC, qui, comme le note Dell'Oro, constituera une frontière importante dans l'évolution des réseaux des centres de données, car les besoins croissants en bande passante de l'IA « entraînent le besoin d'émetteurs-récepteurs optiques 800G à l'intérieur des centres de données ».

D'un point de vue intra-centre de données, les optiques linéaires enfichables (LPO) et les optiques co-packagées (CPO) sont toutes deux de sérieux concurrents pour révolutionner l'équation typique de puissance et de latence pour les centres de données. Pour sa part, la technologie d'entraînement linéaire, exploitée par les liens LPO, élimine le besoin d'un traitement du signal numérique (DSP) complexe sur l'optique en s'appuyant sur le DSP SERDES dans la puce de commutation pour le formatage numérique. Le DSP sur le commutateur ASIC pilote un moteur optique sur l'optique enfichable qui comprend uniquement des amplificateurs linéaires. En conséquence, la consommation électrique du LPO est bien inférieure à celle des variantes enfichables conventionnelles, ce qui en fait un choix attrayant, car les opérateurs de centres de données utilisent davantage d'émetteurs-récepteurs au sein de leurs réseaux en réponse aux demandes de l'IA.

La technologie CPO peut également offrir des avantages significatifs du point de vue de la consommation d’énergie et de la latence. Contrairement à la conception LPO, les optiques CPO intègrent des moteurs optiques directement aux commutateurs ASIC, le tout dans le même boîtier. De cette manière, les CPO permettent une communication courte et à faible perte entre la puce et le moteur optique, permettant aux opérateurs de réseau de réduire le nombre de DSP sur lesquels ils s'appuient, réduisant ainsi la consommation d'énergie. Après tout, le DSP peut augmenter la puissance globale du système d'autant autant que 25-30%. Les CPO permettent également une communication à faible latence en raison de la suppression des longues traces de cuivre entre l'ASIC et l'optique, ainsi que de l'utilisation de moins de DSP.   

Cela dit, les LPO et les CPO sont toujours dans le premières étapes de développement et de démonstration. Par exemple, les préoccupations concernant la prise en charge des puces de commutation, la conception du système et l'interopérabilité sont toujours nombreuses en ce qui concerne les LPO. Cependant, un MSA LPO a été établi, ce qui donne un certain degré de confiance dans le fait que ces problèmes seront résolus dans un avenir pas trop lointain. Pour LPO et CPO, le concept consiste à trouver de nouvelles solutions qui rendent l'optique plus efficace, en réduisant la consommation d'énergie, la latence et les coûts.

Alors que les applications d’IA génèrent des flux de données de plus en plus diversifiés et complexes, les opérateurs de centres de données ont besoin de solutions optiques capables d’accueillir et de transporter efficacement ces charges utiles de données sur leurs réseaux. Dans notre livre blanc, intitulé Guide de l'opérateur de réseau : les dernières avancées en matière de 400G et 800G, nous discutons des opportunités et des défis liés à l'adoption du 800G dans les réseaux modernes, y compris DCI. Les innovations autour de chaque technologie ajoutent une multitude de considérations d’intégration de systèmes aux exigences déjà complexes d’adaptation d’un centre de données pour tirer parti d’une infrastructure informatique d’IA spécialement conçue. Cela dit, il devient nécessaire pour les ingénieurs réseau des centres de données d'utiliser des émetteurs-récepteurs 800G dans leur quête de pérennité de leur infrastructure et d'assurer l'évolutivité face à l'augmentation de la demande de données.

L'adaptation à l'IA dans les centres de données nécessite une expertise et des partenariats approfondis

Que vous rencontriez des difficultés avec l'adoption du 400G ou que vous envisagiez de déployer des optiques 800G, il y a de nombreux éléments à prendre en compte. Les exigences en matière de puissance des émetteurs-récepteurs, la popularité des facteurs de forme, l'interopérabilité entre plusieurs fournisseurs et l'orchestration du réseau ne sont que quelques-uns des problèmes auxquels les opérateurs de centres de données avant-gardistes sont confrontés lorsqu'ils cherchent à adapter leurs réseaux aux exigences des charges de travail d'IA. C'est là que nous pouvons vous aider. Notre équipe d'ingénieurs experts possède une expertise approfondie dans tous les aspects de l'intégration de systèmes, des architectures de réseau et des émetteurs-récepteurs optiques qui les composent. Grâce à des tests rigoureux et à notre approche consultative, nous avons fait nos preuves dans la transformation des visions de nos clients en réalité. Contactez-nous dès aujourd'hui avec vos questions!