
SISTEMA DE COLAS SGE EE EN LOS SERVIDORES DE CÁLCULO PARALELO DEL CPD 3MARES ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES CLUSTER HPC CALDERON
9 2. Sistema de UPS/SAIs distribuido por cada rack y compuesto por : a. 4 SAIs de 3 Kva cada uno (12 Kva en total) para soportar todos los elemen
10 discos SAS2 de 1 TB cada uno (actualmente instalador 16 discos ! 16 TB) y gestionados por controladora Expander supports SAS2 (6Gb/s
11 Ilustración 1 Esquema de almacenamiento (discos) definitivo de servidores de ATC Esquema de acceso al SERVIDOR El esquema de acceso al CLUSTER
12 Ilustración 2 Esquema de conexión a los sistemas de ATC Cambio de password de usuaria en el CLUSTER Para cambiar el password en el CLUS
13 Introducción a los sistemas de gestión de trabajos por colas Un buen sistema de colas debe ser tolerante al fallo de los trabajos, adaptarse a l
14 Estos efectos son mucho más perniciosos en el caso de los programas en paralelo (MPI/OpenMP …). Si uno de los hilos de ejecu
15 Este documento pretende explicar, de forma resumida y particularizada en nuestro CLUSTER HPC calderon.atc.unican.es, como se maneja el sistema de
16 Política implementada para el CLUSTER n este apartado comenzaremos a explicar de forma breve y sencilla las ideas básicas de la política imple
17 Nodos front-end, nodos de compilación y nodos de cómputo Dadas las características descritas arriba, SGEE se estructura de la siguiente manera:
18 Para el acceso y utilización de éstos nodos, mientras no se indique lo contrario, se debe realizar una solicitud al administrador del sistema. Po
ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES CPD 3MARES © Arquitectura y Tecnología de Computadores FACULTAD DE CIENCIAS UNI
19 b. Media duración: hasta 72 horas c. Corta duración: hasta 3 horas d. Muy corta duración (interactivos): hasta 30 minutos. 3. Naturaleza d
20 Y aquí también consideraremos el hardware de la máquina. En este caso no por la red de interconexión de los nodos de cálculo, si no por
21 i. Grupo 1 (comp, comp-g1, comp-g2, comp-pgi y comp-ps): grupo formado por 2 nodos, cada uno con 4 procesadores AMD Optaron 275 a 2.2 GH
22 (llenen) el nodo. También reconoceremos este modo como fill-up), o de forma intercalada (los procesos se van ubicando uno por
23 por nodo, así como cualquier otra limitación hardware. El tiempo de duración de los trabajos también se considerará una limitación hardware, por
24 Gestión de trabajos continuación describiremos los procedimientos para el envió y control posterior de los trabajos y la monitorización de los
25 b) Corta duración c) Media duración d) Larga duración 3) Según la naturaleza del trabajo: a) Paralelos i) MPI ii) OpenMP b) Secuenciales
26 por SGE EE desde la propia shell de sesión abierta al logearnos al servidor. (frontend o nodos de compilación) Envío Dicho esto, y una vez d
27 #$ -m be # Si NO quiero que el sistema me notifique por mail … #$ -m n #$ -l $colas #$ -pe $parallel_env # ...
28 # Entorno paralelo parallel_env="mthreads/-g{1,7} <numero de procesos del trabajo paralelo a ejecutar>" processors=”<numero d
Tabla de contenidoCAPÍTULO 1 Contexto de trabajo Entorno computacional 3 Esquema de acceso al CLUSTER 8 Cambio de password de usuario en el CLUST
29 # PARAMETROS GLOBALES # PARAMETROS SGE-EE shell_name="/bin/bash” # nombre del TRABAJO job_name="<El nombre que queráis>"
30 • Trabajos NO Paralelos Simples: 1. Copiar y adecuar el script de lanzamiento del trabajo a nuestras necesidades: Shell#:> cp /opt/sgeee/sc
31 cp –a /scratch/\$USER/\$JOB_ID/* \$output_path rm –fr /scratch/\$USER/\$JOB_ID/* ################################################################
32 Shell#:> qrsh [-cwd] –l comp-gpu Debemos tener en cuenta que el lanzamiento de trabajos interactivos de cualquier tipo deberemo
33 Para ello, en primer lugar, mostraremos un conjunto de comandos que SGE EE pone a disposición del usuario, así como su modo básico
34 Para mas información acerca de todos estos comandos, ver el manual “on shell” de los mismos, o la documentación asociada a SGE EE, como e
35 Ilustración 4: Ganglia II
36 Ilustración 5: Ganglia III • C3-tools: Las C3-tools son un conjunto de comandos Unix para clúster HPC que, entre otras funcionalid
37 --------- compute-0-7.local--------- 17:32:42 up 34 days, 6:01, 0 users, load average: 0.00, 0.00, 0.00 --------- compute-0-8.local---------
38 Este comando abre la ventana gráfica que, agrupa a su vez, el conjunto de herramientas gráficas que permiten el envío, manipulación, configuració
3 Contexto de trabajo Entorno computacional En nuestro grupo disponemos de algunos de los más potentes y completos entornos computacio
39 Ilustración 7 Desde esta pantalla podemos fundamentalmente, monitorizar los trabajos según su estado pendiente, ejecutando y finaliza
40 Ilustración 8 Envío de de trabajos al sistema de colas I Ilustración 9 Envío de de trabajos al sistema de colas II Es esta pantalla, el usuar
41 environment” especificado, el entorno de ejecución de nuestro trabajo paralelo. En adelante, se configurarán varios entornos de este tipo que car
42 Ilustración 11 Propiedades de una cola (límites y características) Navegando por las pestañas de la pantalla se podrán ver todos los parámetros
43 Recursos y PE disponibles hora enumeraremos los recursos disponible y las “parallel environment” necesarios para el envío de trabajos en SGE EE
44 o [FUERA DE SERVICIO9] Grupo 1 (g1): grupo formado por 9 nodos con 2 procesadores (2 cores) AMD Optaron 248 a 2.2 GHz y 4 GB de memoria
45 1. envío de trabajo de larga duración a grupo 2: • … -l long-g2 … 2. envío de trabajo de corta duración a grupo 1: • … -l short-g1 … 3. enví
46 Aunque es posible ampliar este límite, y cualquier otro, siempre y cuando se lo solicitemos al Administrador de Sistemas de ATC o responsable de
47 • Cantidad de memoria por trabajo: En este caso indicaremos al sistema la cantidad de memoria estimada que nuestros trabajos van a utilizar. De
48 directamente como parámetro de qsub, lleva a cabo una solicitud de utilización del recurso de memoria RAM mas allá del límite estab
4 • Power Distribution Units (PDU) inteligentes • Múltiples SAIs distribuidos (2-6 KVAs) Refrigeración de Alta Eficiencia: • Aislamiento de zo
49 Parallel environment Los entornos paralelos son un elementos aportado por el sistema de colas SGE EE para la ejecución de trabajo
50 Este parámetro debemos indicárselo en nuestros envíos de la siguiente manera: o En línea de comandos como parámetro del comando qsub Shell#:>
51 • mthreads (mthreads-g{1,2,3,4,5,6,7,gpu}): Este entorno paralelo se usará para trabajos OpenMP. Además, con este entorno paralelo, los procesos
52 Servicios adicionales n este capitulo describiremos los servicios adicionales a los de cálculo propiamente dicho que ATC ofrece a sus usuar
53 Esto es lo que sería nuestro hardware para soportar las copias de seguridad de nuestros sistemas. Ahora describiremos la política implementada. N
54 Como en el grupo 1, también aquí realizaremos tanto backup completos (full) como incrementales. calderon Completo (anual) (a determinar)
55 Conclusiones ste documento trata de ser una guía fácil, resumida y útil para los usuarios de nuestro clúster HP calderon y en gen
5 • Sistema de monitorización global (gráficos de estado, históricos de uso …) • Gestión de ALARMAS en tiempo real • “TODO” accesible de forma r
6 Cluster HPC El clúster (y demás servidores departamentales de ATC) se encuentran encapsulados dentro del CPD en lo que llamamos CUBO Intr
7 - 1 Switch Infiniband Mellanox bi-canal con 10 Gbps por canal para comunicación paralela y 24 puertos. - 1 Sistema de gestión de consolas KVM +
8 Se trata de una arquitectura multi-computador de memoria distribuida. Procesadores Memoria Almacenamiento Otros 2 x 15 AMD Opteron 248 a 2.2 GH
Comments to this Manuals