
Las GPU son el cerebro de las computadoras de IA.
En pocas palabras, la unidad de procesamiento gráfico (GPU) actúa como el cerebro de una computadora de IA.
Como ya sabrás, la unidad central de procesamiento (CPU) es el cerebro de un ordenador. La ventaja de una GPU reside en que es una CPU especializada en realizar cálculos complejos. La forma más rápida de realizar estos cálculos es que grupos de GPU resuelvan un problema conjuntamente. Aun así, entrenar un modelo de IA puede llevar semanas o incluso meses. Una vez creado, se integra en el sistema informático de la interfaz y los usuarios pueden hacerle preguntas; este proceso se denomina inferencia.
Un ordenador de IA contiene múltiples GPU.
La mejor arquitectura para resolver problemas de IA consiste en utilizar un grupo de GPU en un rack, conectadas a un conmutador en la parte superior del mismo. Se pueden conectar varios racks de GPU adicionales en un sistema de conectividad de red jerárquico. A medida que los problemas a resolver se vuelven más complejos, los requisitos de GPU también aumentan, y algunos proyectos podrían necesitar implementar clústeres de miles de GPU.
Cada clúster de IA es una pequeña red.
Al construir un clúster de IA, es necesario configurar una pequeña red informática para conectar y permitir que las GPU trabajen juntas y compartan datos de manera eficiente.

El diagrama anterior ilustra un clúster de IA donde los círculos en la parte inferior representan flujos de trabajo que se ejecutan en GPU. Las GPU se conectan a conmutadores en el rack superior (ToR). Estos conmutadores ToR también se conectan a los conmutadores troncales de red que se muestran en el diagrama, lo que demuestra la jerarquía de red clara necesaria cuando intervienen varias GPU.
Las redes representan un cuello de botella en el despliegue de la IA.
El otoño pasado, en la cumbre mundial del Open Computer Project (OCP), donde los delegados estaban construyendo la próxima generación de infraestructura de IA, el delegado Loi Nguyen, de Marvell Technology, señaló un problema clave: "las redes son el nuevo cuello de botella".
Técnicamente, la alta latencia o la pérdida de paquetes debido a la congestión de la red puede provocar que los paquetes se reenvíen, lo que aumenta significativamente el tiempo de finalización de las tareas (JCT). Como resultado, millones o decenas de millones de dólares en GPU pertenecientes a empresas se desperdician debido a sistemas de IA ineficientes, lo que perjudica a las empresas tanto en términos de ingresos como de tiempo de comercialización.
Las pruebas y las mediciones son condiciones cruciales para el funcionamiento exitoso de las redes de IA.
Para operar un clúster de IA de manera eficiente, las GPU deben aprovechar al máximo su capacidad para reducir el tiempo de entrenamiento e implementar modelos de aprendizaje que maximicen el retorno de la inversión. Por lo tanto, es necesario probar y evaluar el rendimiento del clúster de IA (Figura 2). Sin embargo, esta tarea no es sencilla, ya que la arquitectura del sistema implica numerosas configuraciones y relaciones entre la GPU y la estructura de red que deben complementarse para resolver el problema.

Esto genera muchas dificultades y desafíos a la hora de medir las redes de IA:
- El reto de replicar toda la red de producción en el laboratorio se debe a las limitaciones de coste, equipamiento, escasez de ingenieros de redes de IA altamente cualificados, espacio, suministro eléctrico y temperatura.
- Las pruebas in situ en un sistema de producción reducen la capacidad de procesamiento disponible del propio sistema de producción.
- Dificultad para reproducir con precisión los problemas debido a las diferencias en la escala y el alcance de los mismos.
- La complejidad de cómo se conectan colectivamente las GPU.
Para abordar estos desafíos, las empresas pueden realizar pruebas comparativas de un subconjunto de configuraciones propuestas en un entorno de laboratorio para evaluar parámetros clave como el tiempo de finalización de tareas (JCT), el ancho de banda que puede alcanzar el equipo de IA y compararlos con el uso de la plataforma de conmutación y el almacenamiento en caché. Estas pruebas ayudan a encontrar el equilibrio adecuado entre la carga de trabajo de la GPU/procesamiento y el diseño/instalación de la red. Una vez satisfechos con los resultados, los arquitectos informáticos y los ingenieros de redes pueden aplicar estas configuraciones a producción y medir los nuevos resultados.
Los laboratorios de investigación empresariales, los institutos de investigación y las universidades están trabajando para analizar cada aspecto de la creación y el funcionamiento de redes de IA eficaces, con el fin de abordar los desafíos que implica trabajar con grandes redes, especialmente dado que las mejores prácticas están en constante evolución. Este enfoque colaborativo y repetible es la única manera para que las empresas realicen mediciones repetibles y pruebas rápidas de escenarios "si-entonces", fundamentales para optimizar las redes basadas en IA.
(Fuente: Keysight Technologies)
Fuente: https://vietnamnet.vn/ket-noi-mang-ai-5-dieu-can-biet-2321288.html







