Rendimiento de los sistemas de almacenamiento en matriz de discos en una conexión de host único

En general, los discos o las matrices de discos tienen el mejor rendimiento en un escenario de conexión de un solo host. La mayoría de los sistemas operativos se basan en sistemas de archivos exclusivos, lo que significa que un sistema de archivos solo puede ser propiedad de un único sistema operativo. Como resultado, tanto el sistema operativo como el software de aplicación optimizan la lectura y escritura de datos para el sistema de almacenamiento en disco en función de sus características. Esta optimización tiene como objetivo reducir los tiempos de búsqueda física y disminuir los tiempos de respuesta mecánica del disco. Las solicitudes de datos de cada proceso del programa son manejadas por el sistema operativo, lo que da como resultado solicitudes de lectura y escritura de datos optimizadas y ordenadas para el disco o matriz de discos. Esto conduce al mejor rendimiento del sistema de almacenamiento en esta configuración.

Para las matrices de discos, aunque se agrega un controlador RAID adicional entre el sistema operativo y las unidades de disco individuales, los controladores RAID actuales administran y verifican principalmente las operaciones de tolerancia a fallas del disco. No realizan fusión, reordenación ni optimización de solicitudes de datos. Los controladores RAID están diseñados basándose en el supuesto de que las solicitudes de datos provienen de un único host, ya optimizado y ordenado por el sistema operativo. La memoria caché del controlador solo proporciona capacidades de almacenamiento en búfer directas y computacionales, sin poner en cola los datos para su optimización. Cuando el caché se llena rápidamente, la velocidad disminuye inmediatamente a la velocidad real de las operaciones del disco.

La función principal del controlador RAID es crear uno o más discos grandes tolerantes a fallas a partir de múltiples discos y mejorar la velocidad general de lectura y escritura de datos utilizando la función de almacenamiento en caché en cada disco. La caché de lectura de los controladores RAID mejora significativamente el rendimiento de lectura de la matriz de discos cuando se leen los mismos datos en poco tiempo. La velocidad máxima real de lectura y escritura de todo el conjunto de discos está limitada por el valor más bajo entre el ancho de banda del canal del host, el cálculo de verificación de la CPU del controlador y las capacidades de control del sistema (motor RAID), el ancho de banda del canal del disco y el rendimiento del disco (el rendimiento real combinado de todos los discos). Además, la falta de coincidencia entre la base de optimización de las solicitudes de datos del sistema operativo y el formato RAID, como que el tamaño del bloque de las solicitudes de E/S no se alinee con el tamaño del segmento RAID, puede afectar significativamente el rendimiento de la matriz de discos.

Variaciones de rendimiento de los sistemas tradicionales de almacenamiento en matriz de discos en acceso a múltiples hosts

En escenarios de acceso a múltiples hosts, el rendimiento de las matrices de discos disminuye en comparación con las conexiones de un solo host. En los sistemas de almacenamiento de matrices de discos de pequeña escala, que normalmente tienen un par único o redundante de controladores de matrices de discos y una cantidad limitada de discos conectados, el rendimiento se ve afectado por los flujos de datos desordenados de varios hosts. Esto conduce a mayores tiempos de búsqueda en el disco, información de encabezado y cola de segmentos de datos y fragmentación de datos para procesos de lectura, fusión, verificación y reescritura. En consecuencia, el rendimiento del almacenamiento disminuye a medida que se conectan más hosts.

En los sistemas de almacenamiento de matrices de discos a gran escala, la degradación del rendimiento es diferente a la de las matrices de discos de pequeña escala. Estos sistemas a gran escala utilizan una estructura de bus o una estructura de conmutación de puntos cruzados para conectar múltiples subsistemas de almacenamiento (arreglos de discos) e incluyen cachés de gran capacidad y módulos de conexión de host (similares a concentradores o conmutadores de canales) para más hosts dentro del bus o conmutación. estructura. El rendimiento depende en gran medida del caché en las aplicaciones de procesamiento de transacciones, pero tiene una efectividad limitada en escenarios de datos multimedia. Si bien los subsistemas de matriz de discos internos en estos sistemas a gran escala funcionan de manera relativamente independiente, una única unidad lógica solo se construye dentro de un único subsistema de disco. Por tanto, el rendimiento de una única unidad lógica sigue siendo bajo.

En conclusión, los conjuntos de discos de pequeña escala experimentan una disminución del rendimiento debido a flujos de datos desordenados, mientras que los conjuntos de discos de gran escala con múltiples subsistemas de conjuntos de discos independientes pueden admitir más hosts pero aún enfrentan limitaciones para las aplicaciones de datos multimedia. Por otro lado, los sistemas de almacenamiento NAS basados ​​en tecnología RAID tradicional y que utilizan protocolos NFS y CIFS para compartir almacenamiento con usuarios externos a través de conexiones Ethernet experimentan una menor degradación del rendimiento en entornos de acceso a múltiples hosts. Los sistemas de almacenamiento NAS optimizan la transmisión de datos utilizando múltiples transferencias TCP/IP paralelas, lo que permite una velocidad máxima compartida de alrededor de 60 MB/s en un único sistema de almacenamiento NAS. El uso de conexiones Ethernet permite que los datos se escriban de manera óptima en el sistema de disco después de que el sistema operativo o el software de administración de datos los administre y reordene en el servidor delgado. Por lo tanto, el sistema de disco en sí no experimenta una degradación significativa del rendimiento, lo que hace que el almacenamiento NAS sea adecuado para aplicaciones que requieren compartir datos.


Hora de publicación: 17-jul-2023