No permita que el almacenamiento se convierta en el cuello de botella clave en el entrenamiento de modelos

Se ha dicho que las empresas de tecnología están compitiendo por las GPU o están en camino de adquirirlas.En abril, el director ejecutivo de Tesla, Elon Musk, compró 10 000 GPU y declaró que la empresa continuaría comprando una gran cantidad de GPU de NVIDIA.En el lado empresarial, el personal de TI también se esfuerza por garantizar que las GPU se utilicen constantemente para maximizar el retorno de la inversión.Sin embargo, algunas empresas pueden encontrar que mientras aumenta la cantidad de GPU, la inactividad de la GPU se vuelve más severa.

Si la historia nos ha enseñado algo sobre la computación de alto rendimiento (HPC), es que el almacenamiento y las redes no deben sacrificarse a expensas de centrarse demasiado en la computación.Si el almacenamiento no puede transferir datos de manera eficiente a las unidades informáticas, incluso si tiene la mayor cantidad de GPU en el mundo, no logrará una eficiencia óptima.

Según Mike Matchett, analista de Small World Big Data, los modelos más pequeños se pueden ejecutar en la memoria (RAM), lo que permite un mayor enfoque en la computación.Sin embargo, los modelos más grandes como ChatGPT con miles de millones de nodos no se pueden almacenar en la memoria debido al alto costo.

“No se pueden colocar miles de millones de nodos en la memoria, por lo que el almacenamiento se vuelve aún más importante”, dice Matchett.Desafortunadamente, el almacenamiento de datos a menudo se pasa por alto durante el proceso de planificación.

En general, independientemente del caso de uso, hay cuatro puntos comunes en el proceso de entrenamiento del modelo:

1. Entrenamiento modelo
2. Aplicación de inferencia
3. Almacenamiento de datos
4. Computación acelerada

Al crear e implementar modelos, la mayoría de los requisitos priorizan la prueba de concepto rápida (POC) o los entornos de prueba para iniciar el entrenamiento del modelo, sin que se tenga en cuenta las necesidades de almacenamiento de datos.

Sin embargo, el desafío radica en el hecho de que el despliegue de entrenamiento o inferencia puede durar meses o incluso años.Muchas empresas aumentan rápidamente el tamaño de sus modelos durante este tiempo, y la infraestructura debe expandirse para adaptarse a los modelos y conjuntos de datos en crecimiento.

La investigación de Google sobre millones de cargas de trabajo de capacitación de ML revela que un promedio del 30 % del tiempo de capacitación se dedica a la canalización de datos de entrada.Si bien las investigaciones anteriores se han centrado en optimizar las GPU para acelerar el entrenamiento, aún quedan muchos desafíos en la optimización de varias partes de la canalización de datos.Cuando tiene un poder computacional significativo, el verdadero cuello de botella se convierte en la rapidez con la que puede introducir datos en los cálculos para obtener resultados.

Específicamente, los desafíos en el almacenamiento y la gestión de datos requieren una planificación para el crecimiento de los datos, lo que le permite extraer continuamente el valor de los datos a medida que avanza, especialmente cuando se aventura en casos de uso más avanzados, como el aprendizaje profundo y las redes neuronales, que exigen más. almacenamiento en términos de capacidad, rendimiento y escalabilidad.

En particular:

Escalabilidad
El aprendizaje automático requiere el manejo de grandes cantidades de datos y, a medida que aumenta el volumen de datos, también mejora la precisión de los modelos.Esto significa que las empresas deben recopilar y almacenar más datos todos los días.Cuando el almacenamiento no puede escalar, las cargas de trabajo con uso intensivo de datos crean cuellos de botella, lo que limita el rendimiento y genera un costoso tiempo de inactividad de la GPU.

Flexibilidad
Es necesario un soporte flexible para múltiples protocolos (incluidos NFS, SMB, HTTP, FTP, HDFS y S3) para satisfacer las necesidades de diferentes sistemas, en lugar de limitarse a un solo tipo de entorno.

Latencia
La latencia de E/S es fundamental para crear y utilizar modelos, ya que los datos se leen y releen varias veces.Reducir la latencia de E/S puede acortar el tiempo de entrenamiento de los modelos en días o meses.Un desarrollo de modelos más rápido se traduce directamente en mayores ventajas comerciales.

Rendimiento
El rendimiento de los sistemas de almacenamiento es crucial para el entrenamiento eficiente del modelo.Los procesos de capacitación involucran grandes cantidades de datos, generalmente en terabytes por hora.

Acceso paralelo
Para lograr un alto rendimiento, los modelos de entrenamiento dividen las actividades en múltiples tareas paralelas.Esto a menudo significa que los algoritmos de aprendizaje automático acceden a los mismos archivos desde múltiples procesos (potencialmente en múltiples servidores físicos) simultáneamente.El sistema de almacenamiento debe manejar las demandas simultáneas sin comprometer el rendimiento.

Con sus capacidades sobresalientes de baja latencia, alto rendimiento y E/S paralelas a gran escala, Dell PowerScale es un complemento de almacenamiento ideal para la computación acelerada por GPU.PowerScale reduce efectivamente el tiempo requerido para los modelos de análisis que entrenan y prueban conjuntos de datos de varios terabytes.En el almacenamiento all-flash de PowerScale, el ancho de banda aumenta 18 veces, eliminando los cuellos de botella de E/S, y se puede agregar a los clústeres de Isilon existentes para acelerar y desbloquear el valor de grandes cantidades de datos no estructurados.

Además, las capacidades de acceso multiprotocolo de PowerScale brindan una flexibilidad ilimitada para ejecutar cargas de trabajo, lo que permite que los datos se almacenen mediante un protocolo y se acceda a ellos mediante otro.Específicamente, las potentes funciones, la flexibilidad, la escalabilidad y la funcionalidad de nivel empresarial de la plataforma PowerScale ayudan a abordar los siguientes desafíos:

- Acelerar la innovación hasta 2,7 veces, reduciendo el ciclo de formación del modelo.

- Elimine los cuellos de botella de E/S y proporcione un entrenamiento y una validación de modelos más rápidos, precisión de modelos mejorada, productividad mejorada de la ciencia de datos y retorno maximizado de las inversiones informáticas al aprovechar las características de nivel empresarial, el alto rendimiento, la concurrencia y la escalabilidad.Mejore la precisión del modelo con conjuntos de datos más profundos y de mayor resolución aprovechando hasta 119 PB de capacidad de almacenamiento efectiva en un solo clúster.

- Logre una implementación a escala comenzando con un procesamiento y almacenamiento pequeños y de escala independiente, brindando opciones sólidas de seguridad y protección de datos.

- Mejore la productividad de la ciencia de datos con análisis en el lugar y soluciones validadas previamente para implementaciones más rápidas y de bajo riesgo.

- Aprovechamiento de diseños probados basados ​​en las mejores tecnologías, incluida la aceleración de GPU NVIDIA y arquitecturas de referencia con sistemas NVIDIA DGX.El alto rendimiento y la simultaneidad de PowerScale cumplen con los requisitos de rendimiento del almacenamiento en cada etapa del aprendizaje automático, desde la adquisición y preparación de datos hasta el entrenamiento y la inferencia de modelos.Junto con el sistema operativo OneFS, todos los nodos pueden operar sin problemas dentro del mismo clúster impulsado por OneFS, con características de nivel empresarial como gestión del rendimiento, gestión de datos, seguridad y protección de datos, lo que permite una finalización más rápida del entrenamiento y la validación de modelos para las empresas.


Hora de publicación: 03-jul-2023