MSI SuperServer 6026TT-HIBQRF User Manual

Browse online or download User Manual for Servers MSI SuperServer 6026TT-HIBQRF. Cluster HPC calderon - Atc [da] [es] [fr] [it] [nl] [pt] [sk] [sv]

  • Download
  • Add to my manuals
  • Print

Summary of Contents

Page 1 - CALDERON

SISTEMA DE COLAS SGE EE EN LOS SERVIDORES DE CÁLCULO PARALELO DEL CPD 3MARES ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES CLUSTER HPC CALDERON

Page 2 - CPD 3MARES

9 2. Sistema de UPS/SAIs distribuido por cada rack y compuesto por : a. 4 SAIs de 3 Kva cada uno (12 Kva en total) para soportar todos los elemen

Page 3 - Tabla de contenido

10 discos SAS2 de 1 TB cada uno (actualmente instalador 16 discos ! 16 TB) y gestionados por controladora Expander supports SAS2 (6Gb/s

Page 4 - Entorno computacional

11 Ilustración 1 Esquema de almacenamiento (discos) definitivo de servidores de ATC Esquema de acceso al SERVIDOR El esquema de acceso al CLUSTER

Page 5

12 Ilustración 2 Esquema de conexión a los sistemas de ATC Cambio de password de usuaria en el CLUSTER Para cambiar el password en el CLUS

Page 6

13 Introducción a los sistemas de gestión de trabajos por colas Un buen sistema de colas debe ser tolerante al fallo de los trabajos, adaptarse a l

Page 7

14 Estos efectos son mucho más perniciosos en el caso de los programas en paralelo (MPI/OpenMP …). Si uno de los hilos de ejecu

Page 8

15 Este documento pretende explicar, de forma resumida y particularizada en nuestro CLUSTER HPC calderon.atc.unican.es, como se maneja el sistema de

Page 9

16 Política implementada para el CLUSTER n este apartado comenzaremos a explicar de forma breve y sencilla las ideas básicas de la política imple

Page 10

17 Nodos front-end, nodos de compilación y nodos de cómputo Dadas las características descritas arriba, SGEE se estructura de la siguiente manera:

Page 11

18 Para el acceso y utilización de éstos nodos, mientras no se indique lo contrario, se debe realizar una solicitud al administrador del sistema. Po

Page 12 - CPD ATC

ARQUITECTURA Y TECNOLOGÍA DE COMPUTADORES CPD 3MARES © Arquitectura y Tecnología de Computadores FACULTAD DE CIENCIAS UNI

Page 13 - Shell#:> passwd

19 b. Media duración: hasta 72 horas c. Corta duración: hasta 3 horas d. Muy corta duración (interactivos): hasta 30 minutos. 3. Naturaleza d

Page 14 - Capítulo

20 Y aquí también consideraremos el hardware de la máquina. En este caso no por la red de interconexión de los nodos de cálculo, si no por

Page 15 - Soluciones

21 i. Grupo 1 (comp, comp-g1, comp-g2, comp-pgi y comp-ps): grupo formado por 2 nodos, cada uno con 4 procesadores AMD Optaron 275 a 2.2 GH

Page 16

22 (llenen) el nodo. También reconoceremos este modo como fill-up), o de forma intercalada (los procesos se van ubicando uno por

Page 17 - CLUSTER

23 por nodo, así como cualquier otra limitación hardware. El tiempo de duración de los trabajos también se considerará una limitación hardware, por

Page 18 - nodos de compilación y

24 Gestión de trabajos continuación describiremos los procedimientos para el envió y control posterior de los trabajos y la monitorización de los

Page 19 - Política y modos de uso

25 b) Corta duración c) Media duración d) Larga duración 3) Según la naturaleza del trabajo: a) Paralelos i) MPI ii) OpenMP b) Secuenciales

Page 20

26 por SGE EE desde la propia shell de sesión abierta al logearnos al servidor. (frontend o nodos de compilación) Envío Dicho esto, y una vez d

Page 21

27 #$ -m be # Si NO quiero que el sistema me notifique por mail … #$ -m n #$ -l $colas #$ -pe $parallel_env # ...

Page 22

28 # Entorno paralelo parallel_env="mthreads/-g{1,7} <numero de procesos del trabajo paralelo a ejecutar>" processors=”<numero d

Page 23

Tabla de contenidoCAPÍTULO 1 Contexto de trabajo Entorno computacional 3 Esquema de acceso al CLUSTER 8 Cambio de password de usuario en el CLUST

Page 24 - Datos de

29 # PARAMETROS GLOBALES # PARAMETROS SGE-EE shell_name="/bin/bash” # nombre del TRABAJO job_name="<El nombre que queráis>"

Page 25 - Gestión de trabajos

30 • Trabajos NO Paralelos Simples: 1. Copiar y adecuar el script de lanzamiento del trabajo a nuestras necesidades: Shell#:> cp /opt/sgeee/sc

Page 26

31 cp –a /scratch/\$USER/\$JOB_ID/* \$output_path rm –fr /scratch/\$USER/\$JOB_ID/* ################################################################

Page 27

32 Shell#:> qrsh [-cwd] –l comp-gpu Debemos tener en cuenta que el lanzamiento de trabajos interactivos de cualquier tipo deberemo

Page 28 - MYRINET

33 Para ello, en primer lugar, mostraremos un conjunto de comandos que SGE EE pone a disposición del usuario, así como su modo básico

Page 29

34 Para mas información acerca de todos estos comandos, ver el manual “on shell” de los mismos, o la documentación asociada a SGE EE, como e

Page 30

35 Ilustración 4: Ganglia II

Page 31

36 Ilustración 5: Ganglia III • C3-tools: Las C3-tools son un conjunto de comandos Unix para clúster HPC que, entre otras funcionalid

Page 32

37 --------- compute-0-7.local--------- 17:32:42 up 34 days, 6:01, 0 users, load average: 0.00, 0.00, 0.00 --------- compute-0-8.local---------

Page 33 - Monitorización del trabajo

38 Este comando abre la ventana gráfica que, agrupa a su vez, el conjunto de herramientas gráficas que permiten el envío, manipulación, configuració

Page 34

3 Contexto de trabajo Entorno computacional En nuestro grupo disponemos de algunos de los más potentes y completos entornos computacio

Page 35 - Ilustración 3: Ganglia I

39 Ilustración 7 Desde esta pantalla podemos fundamentalmente, monitorizar los trabajos según su estado pendiente, ejecutando y finaliza

Page 36 - Ilustración 4: Ganglia II

40 Ilustración 8 Envío de de trabajos al sistema de colas I Ilustración 9 Envío de de trabajos al sistema de colas II Es esta pantalla, el usuar

Page 37 - • C3-tools:

41 environment” especificado, el entorno de ejecución de nuestro trabajo paralelo. En adelante, se configurarán varios entornos de este tipo que car

Page 38 - Entorno gráfico

42 Ilustración 11 Propiedades de una cola (límites y características) Navegando por las pestañas de la pantalla se podrán ver todos los parámetros

Page 39

43 Recursos y PE disponibles hora enumeraremos los recursos disponible y las “parallel environment” necesarios para el envío de trabajos en SGE EE

Page 40 - Ilustración 7

44 o [FUERA DE SERVICIO9] Grupo 1 (g1): grupo formado por 9 nodos con 2 procesadores (2 cores) AMD Optaron 248 a 2.2 GHz y 4 GB de memoria

Page 41

45 1. envío de trabajo de larga duración a grupo 2: • … -l long-g2 … 2. envío de trabajo de corta duración a grupo 1: • … -l short-g1 … 3. enví

Page 42

46 Aunque es posible ampliar este límite, y cualquier otro, siempre y cuando se lo solicitemos al Administrador de Sistemas de ATC o responsable de

Page 43

47 • Cantidad de memoria por trabajo: En este caso indicaremos al sistema la cantidad de memoria estimada que nuestros trabajos van a utilizar. De

Page 44 - Recursos y PE disponibles

48 directamente como parámetro de qsub, lleva a cabo una solicitud de utilización del recurso de memoria RAM mas allá del límite estab

Page 45

4 • Power Distribution Units (PDU) inteligentes • Múltiples SAIs distribuidos (2-6 KVAs) Refrigeración de Alta Eficiencia: • Aislamiento de zo

Page 46

49 Parallel environment Los entornos paralelos son un elementos aportado por el sistema de colas SGE EE para la ejecución de trabajo

Page 47

50 Este parámetro debemos indicárselo en nuestros envíos de la siguiente manera: o En línea de comandos como parámetro del comando qsub Shell#:>

Page 48

51 • mthreads (mthreads-g{1,2,3,4,5,6,7,gpu}): Este entorno paralelo se usará para trabajos OpenMP. Además, con este entorno paralelo, los procesos

Page 49

52 Servicios adicionales n este capitulo describiremos los servicios adicionales a los de cálculo propiamente dicho que ATC ofrece a sus usuar

Page 50 - Parallel environment

53 Esto es lo que sería nuestro hardware para soportar las copias de seguridad de nuestros sistemas. Ahora describiremos la política implementada. N

Page 51

54 Como en el grupo 1, también aquí realizaremos tanto backup completos (full) como incrementales. calderon Completo (anual) (a determinar)

Page 52

55 Conclusiones ste documento trata de ser una guía fácil, resumida y útil para los usuarios de nuestro clúster HP calderon y en gen

Page 53 - Servicios adicionales

5 • Sistema de monitorización global (gráficos de estado, históricos de uso …) • Gestión de ALARMAS en tiempo real • “TODO” accesible de forma r

Page 54

6 Cluster HPC El clúster (y demás servidores departamentales de ATC) se encuentran encapsulados dentro del CPD en lo que llamamos CUBO Intr

Page 55

7 - 1 Switch Infiniband Mellanox bi-canal con 10 Gbps por canal para comunicación paralela y 24 puertos. - 1 Sistema de gestión de consolas KVM +

Page 56 - Conclusiones

8 Se trata de una arquitectura multi-computador de memoria distribuida. Procesadores Memoria Almacenamiento Otros 2 x 15 AMD Opteron 248 a 2.2 GH

Comments to this Manuals

No comments