Enabling Quality of Service in Hierarchical Switch Architectures
Abstract
Hoy en día, los servicios de supercomputación tienen un papel muy importante en nuestras sociedades. Los supercomputadores están compuestos de cientos de miles de nodos interconectados para crear sistemas escalables, rápidos y eficientes. La red de interconexión es responsable de interconectar los nodos de cómputo creando un sistema donde los problemas se resuelven de forma colaborativa entre todos esos nodos. Por tanto, la red de interconexión es un elemento crítico, una red mal diseñada puede convertirse en el cuello de botella de todo el sistema, degradando el rendimiento de las aplicaciones.
Hay muchos aspectos involucrados en el diseño de una red de altas prestaciones. Entre todos ellos, nuevas arquitecturas de switches jerárquicos, como Omni-Path (OPA), BXI o Cray X2, han aparecido para mejorar la latencia de los paquetes, reducir el coste del sistema y aumentar la tolerancia a fallos. Además, la provisión de calidad de servicio (QoS) se ha convertido en un aspecto importante en estas redes para garantizar que se alcanza un determinado rendimiento. Una prueba de ello es la inclusión de mecanismos orientados a habilitar QoS en las tecnologías de redes de interconexión dominantes como Infiniband (IB), Gigabit Ethernet y OPA.
Un elemento imprescindible para la provisión de calidad de servicio es el algoritmo de planificación de salida, el cual determina cuándo los paquetes se tienen que transmitir. Un algoritmo ideal debe satisfacer tres propiedades: equidad, buena latencia de extremo a extremo y una complejidad de implementación baja. Los planificadores basados en tablas son capaces de proporcionar estas tres propiedades, y debido a esto, IB y OPA implementan esta aproximación.
Los objetivos principales de estas tesis son: i) explorar si los planificadores basados en tablas son apropiados para arquitecturas de switch jerárquicas, ii) adaptar estos planificadores a OPA; y iii) explorar las ventajas de estas arquitecturas frente a las no jerárquicas.
En esta tesis se presentan unos modelos de simulación de switches jerárquicos y no jerárquicos como son OPA e IB, respectivamente. Estos modelos tienen todos los mecanismos necesarios para habilitar QoS. Para llevar a cabo los experimentos, se ha adaptado un planificador basado en una tabla de ancho de banda básica y "Deficit Table" (DTable). DTable es un planificador basado en tablas que ofrece un buen balance entre latencia extremo a extremo y coste de implementación. Además, se ha adaptado DTable a IB y se ha realizado un estudio comparativo para determinar las ventajas de las arquitecturas de switch jerárquicas en términos de provisión de QoS.
Finalmente, se ha explorado cómo mejorar el planificador actual de IB, haciendo uso de las dos tablas de planificación disponisbles. En ese sentido, se presenta una herramienta de análisis de las tablas para determinar de forma precisa la latencia extremo a extremo y la división del ancho de banda esperada. Además, se detalla una metodología de evaluación de QoS en IB en un clúster real y se evalúa la herramienta de análisis, comparando sus resultados con los obtenidos por el clúster real y las simulaciones.