No permita que el almacenamiento se convierta en el principal obstáculo en la formación de modelos

Se ha dicho que las empresas de tecnología están luchando por conseguir GPU o en camino de adquirirlas. En abril, el director ejecutivo de Tesla, Elon Musk, compró 10.000 GPU y afirmó que la empresa seguiría comprando una gran cantidad de GPU a NVIDIA. En el lado empresarial, el personal de TI también está esforzándose mucho para garantizar que las GPU se utilicen constantemente para maximizar el retorno de la inversión. Sin embargo, algunas empresas pueden descubrir que, a medida que aumenta el número de GPU, la inactividad de la GPU se vuelve más grave.

Si la historia nos ha enseñado algo sobre la computación de alto rendimiento (HPC), es que el almacenamiento y las redes no deben sacrificarse a expensas de centrarse demasiado en la computación. Si el almacenamiento no puede transferir datos de manera eficiente a las unidades informáticas, incluso si tiene la mayor cantidad de GPU del mundo, no logrará una eficiencia óptima.

Según Mike Matchett, analista de Small World Big Data, se pueden ejecutar modelos más pequeños en la memoria (RAM), lo que permite centrarse más en la computación. Sin embargo, los modelos más grandes como ChatGPT con miles de millones de nodos no se pueden almacenar en la memoria debido al alto costo.

"No se pueden colocar miles de millones de nodos en la memoria, por lo que el almacenamiento se vuelve aún más importante", afirma Matchett. Desafortunadamente, el almacenamiento de datos a menudo se pasa por alto durante el proceso de planificación.

En general, independientemente del caso de uso, existen cuatro puntos comunes en el proceso de formación del modelo:

1. Entrenamiento modelo
2. Aplicación de inferencia
3. Almacenamiento de datos
4. Computación acelerada

Al crear e implementar modelos, la mayoría de los requisitos priorizan la prueba de concepto (POC) rápida o los entornos de prueba para iniciar el entrenamiento del modelo, sin dar la máxima consideración a las necesidades de almacenamiento de datos.

Sin embargo, el desafío radica en el hecho de que el entrenamiento o el despliegue de inferencias pueden durar meses o incluso años. Muchas empresas aumentan rápidamente el tamaño de sus modelos durante este tiempo y la infraestructura debe expandirse para adaptarse a los modelos y conjuntos de datos en crecimiento.

La investigación de Google sobre millones de cargas de trabajo de capacitación de ML revela que un promedio del 30 % del tiempo de capacitación se dedica a la canalización de datos de entrada. Si bien las investigaciones anteriores se han centrado en optimizar las GPU para acelerar el entrenamiento, aún quedan muchos desafíos por resolver en la optimización de varias partes del proceso de datos. Cuando se tiene un poder computacional significativo, el verdadero cuello de botella es la rapidez con la que se pueden introducir datos en los cálculos para obtener resultados.

Específicamente, los desafíos en el almacenamiento y la gestión de datos requieren planificación para el crecimiento de los datos, lo que le permitirá extraer continuamente el valor de los datos a medida que avanza, particularmente cuando se aventura en casos de uso más avanzados, como el aprendizaje profundo y las redes neuronales, que imponen mayores demandas. almacenamiento en términos de capacidad, rendimiento y escalabilidad.

En particular:

Escalabilidad
El aprendizaje automático requiere manejar grandes cantidades de datos y, a medida que aumenta el volumen de datos, también mejora la precisión de los modelos. Esto significa que las empresas deben recopilar y almacenar más datos cada día. Cuando el almacenamiento no puede escalarse, las cargas de trabajo con uso intensivo de datos crean cuellos de botella, lo que limita el rendimiento y genera costosos tiempos de inactividad de la GPU.

Flexibilidad
Es necesario un soporte flexible para múltiples protocolos (incluidos NFS, SMB, HTTP, FTP, HDFS y S3) para satisfacer las necesidades de diferentes sistemas, en lugar de limitarse a un solo tipo de entorno.

Estado latente
La latencia de E/S es fundamental para crear y utilizar modelos, ya que los datos se leen y releen varias veces. Reducir la latencia de E/S puede acortar el tiempo de entrenamiento de los modelos en días o meses. Un desarrollo de modelo más rápido se traduce directamente en mayores ventajas comerciales.

Rendimiento
El rendimiento de los sistemas de almacenamiento es crucial para un entrenamiento de modelos eficiente. Los procesos de formación implican grandes cantidades de datos, normalmente en terabytes por hora.

Acceso paralelo
Para lograr un alto rendimiento, los modelos de capacitación dividen las actividades en múltiples tareas paralelas. Esto a menudo significa que los algoritmos de aprendizaje automático acceden a los mismos archivos desde múltiples procesos (potencialmente en múltiples servidores físicos) simultáneamente. El sistema de almacenamiento debe manejar demandas simultáneas sin comprometer el rendimiento.

Con sus excelentes capacidades de baja latencia, alto rendimiento y E/S paralelas a gran escala, Dell PowerScale es un complemento de almacenamiento ideal para la informática acelerada por GPU. PowerScale reduce eficazmente el tiempo necesario para los modelos de análisis que entrenan y prueban conjuntos de datos de varios terabytes. En el almacenamiento totalmente flash de PowerScale, el ancho de banda aumenta 18 veces, lo que elimina los cuellos de botella de E/S y se puede agregar a los clústeres Isilon existentes para acelerar y desbloquear el valor de grandes cantidades de datos no estructurados.

Además, las capacidades de acceso multiprotocolo de PowerScale brindan flexibilidad ilimitada para ejecutar cargas de trabajo, lo que permite almacenar datos usando un protocolo y acceder a ellos usando otro. Específicamente, las poderosas características, flexibilidad, escalabilidad y funcionalidad de nivel empresarial de la plataforma PowerScale ayudan a abordar los siguientes desafíos:

- Acelerar la innovación hasta 2,7 veces, reduciendo el ciclo de formación del modelo.

- Elimine los cuellos de botella de E/S y proporcione capacitación y validación de modelos más rápidas, mayor precisión del modelo, mayor productividad de la ciencia de datos y máximo retorno de las inversiones en informática aprovechando características de nivel empresarial, alto rendimiento, simultaneidad y escalabilidad. Mejore la precisión del modelo con conjuntos de datos más profundos y de mayor resolución aprovechando hasta 119 PB de capacidad de almacenamiento efectiva en un solo clúster.

- Logre una implementación a escala iniciando una computación y un almacenamiento pequeños y escalando de forma independiente, ofreciendo sólidas opciones de seguridad y protección de datos.

- Mejore la productividad de la ciencia de datos con análisis in situ y soluciones validadas previamente para implementaciones más rápidas y de bajo riesgo.

- Aprovechar diseños probados basados ​​en las mejores tecnologías, incluida la aceleración de GPU NVIDIA y arquitecturas de referencia con sistemas NVIDIA DGX. El alto rendimiento y la simultaneidad de PowerScale cumplen con los requisitos de rendimiento del almacenamiento en cada etapa del aprendizaje automático, desde la adquisición y preparación de datos hasta el entrenamiento y la inferencia de modelos. Junto con el sistema operativo OneFS, todos los nodos pueden operar sin problemas dentro del mismo clúster impulsado por OneFS, con características de nivel empresarial como gestión del rendimiento, gestión de datos, seguridad y protección de datos, lo que permite completar más rápidamente la capacitación y validación del modelo para las empresas.


Hora de publicación: 03-jul-2023