Cluster HPC Linux
Cluster HPC Linux
Cluster HPC Linux
Unidad Iztapalapa
puzzle inc.
Introduccin
Hoy en da los Cluster en Linux para HPC (High Performance Computing) son muy populares, ya que estn al alcance de todos y se consideran como una herramienta fundamental para el desarrollo de la investigacin de muchos tericos.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
Sistema Distribuido: Sistema en el que recursos de cmputo (CPU, memoria y dispositivos de I/O se comunican y trabajan entre si mediante un sistema o tecnologa de comunicacin).
Programacin en Paralelo: Estilo o mtodo de programacin que permite dividir en subprogramas a un programa para resolver un problema determinado.
puzzle inc.
Tecnologa VIA: Protocolo de comunicacin con caractersticas gran Ancho de banda y baja latencia.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
http://www.top500.org
puzzle inc.
puzzle inc.
Nodo Maestro
puzzle inc.
Nodo n
puzzle inc.
Tipo
Conexin
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
5) Software para Clusters: SO (Distribuciones), Sistemas de Administracin, Software de Paso de Mensajes, Compiladores, ...
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
Un ambiente de administracin e instalacin centralizado y tolerante a fallas. Sistema de administracin Centralizado Fcil Recuperacin de Fallas Sin perdida de Datos instalacin, configuracin y Puesta punto de forma Centralizada Monitoreo Centralizado Sistema de Asignacin de Recursos (Memoria y CPU) Automatizado Fcil manejo de Entrada/Salida de Datos
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
1) Introduccin a la Administracin de Servidores Linux 2) Administracin Bsica 3) TCP/IP 4) Servicios TCP/IP Importantes para Clusters (rsh, xinetd, ssh, etc.)
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
ADMINISTRACION DE RECURSOS Planeacin de recursos desde el principio (nmero de usuarios, espacio, etc.) Garantizar uso eficiente y balanceado Estimar potencial del equipo de cmputo Planeacin a futuro
puzzle inc.
puzzle inc.
RESPALDOS EFECTUAR RESPALDOS PERIODICAMENTE !!! Diferenciar datos crticos y no crticos La recuperacin en caso de falla debe de ser lo ms rpida posible
puzzle inc.
COMO root ?
puzzle inc.
puzzle inc.
2) Administracin Bsica
puzzle inc.
puzzle inc.
/etc/group, /etc/sk
Atencin especial: .bash_profile, .bash_login, .bash_history Implementacin de Quota para sistemas con muchos usuarios Propagacion del HOME de los usuarios ...
puzzle inc.
puzzle inc.
NOTA: Las particiones se pueden montar manualmente, /etc/fstab esta un paso arriba en la jerarqua
puzzle inc.
2) a traves de la Red (NAS del ingls Network Attached Storage).Tecnologa dedicada a compartir la capacidad de almacenamiento de un Servidor con elementos clientes a travs de una red p/e: CIFS, NFS, FTP o TFTP.
puzzle inc.
puzzle inc.
DISPOSITIVOS DE ALMACENAMIENTO Representados por diferentes dispositivos en Linux 1) SCSI, SAS, SATA, USB 2) IDE 3) TAPE /dev/hdXX /dev/rmtX /dev/sdXX
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
En un momento dado, cada proceso esta en alguno de estos estados: Corriendo, Esperando, Durmiendo
INIT
PROC1
PROC2
PROC3
PROC1_2
PROC3_1
puzzle inc.
PROCESOS O ESTADO DEL KERNEL /proc Directorios de todos los procesos (File handlers, argumentos, ...) /proc Parametros del Kernel (Sistema de archivos, TCP/IP stack, informacin del sistema, hardware) /proc Interfaz entre el Kernel y el administrador
puzzle inc.
LOGS DEL SISTEMA (MONITOREO) El demonio SYSLOGD guarda todos los eventos importantes del sistema en varios archivos en /var/log. /var/log/messages y /var/log/secure son los mas importantes. Tambien existen comandos como DMESG para ver mensajes del Kernel y el UPTIME para monitorear la actividad del sistema
puzzle inc.
OTROS COMANDOS ... Otros comandos importantes de Linux: CRON, AT, IPCS, IPCRM MC (Midnight Commander)
puzzle inc.
MANUALES Y AYUDA ON-LINE .. LDP (Linux Documentation Project) HOWTOs, Man Pages, Info, /usr/share/doc, www.google.com/linux, Listas de correo de una aplicacin especifica
puzzle inc.
puzzle inc.
ENCENDIDO Y/O APAGADO Asi como internamente un SO tiene un prodecimiento de encendido y apagado en cluster tambien hay procedimientos ...
puzzle inc.
3) TCP/IP
puzzle inc.
puzzle inc.
TIPOS DE REDES Tipo A: Redes WAN, pueden consistir de 256*256*256=1 millon de nodos Tipo B: Redes WAN, pueden consistir de 256*256=65536 nodos
puzzle inc.
puzzle inc.
4) Hostname. Nombre de la maquina o alias (/etc/sysconfig/network y /etc/hosts) 5) DNS (Op). Servidor de nombres (/etc/resolv.conf)
puzzle inc.
puzzle inc.
puzzle inc.
puzzle inc.
SSH Tienen la misma funcion que los comandos R la diferencia es que utiliza un canal ecriptado. Archivos de configuracin: /etc/ssh/ssh_config, /etc/sshd_config
puzzle inc.
puzzle inc.
puzzle inc.
OTROS SERVICIOS TCP/IP IMPORTANTES PARA CLSUTERS DNS ? APACHE ? SENDMAIL ? TFTPBOOT ? FTP ?
puzzle inc.
puzzle inc.
puzzle inc.
MONITOREO Importancia de hacer monitoreo Comandos (df, top, etc) Logs Detectando intrusiones y fallas Acciones en caso de falla
puzzle inc.
1) Explicar Diferencias de Administracin de un Cluster de un solo Servidor 2) Sistemas de Administracin 3) Sistemas de Asignacion de Recursos de Cmputo 4) Sistemas de Paso de Mensajes 5) Programacin para Clusters (Que Tipo de Programas se puede Ejecutar en un Cluster) 6) Formas de Monitoreo de un Cluster
puzzle inc.
puzzle inc.
La diferencia escencial entre la admiinstracin de un servidor a un cluster es el numero de maquinas o grupos que tengamos en nuestra red, mientras mas organizado y planeado tengamos nuestro sistema mas eficiente sera nuestra administracin
puzzle inc.
2) Sistemas de Administracin
puzzle inc.
Hoy en dia existen varios sistemas de administracin para clusters que son centralizados, distribuidos, tolerantes a fallas y agradables al usuario: Rocks Scalli SCSC Kick-start CIA
puzzle inc.
puzzle inc.
puzzle inc.
Es altamente recomendable que un Cluster tengo uno por muy chico que sea, y mas si lo utiliza mas de un usuario.
puzzle inc.
puzzle inc.
MPI 2 utiliza el pricipio de maquina virtual como PVM y a traves de esta ha mejorado la comunicacion multihilo y multicore.
puzzle inc.
Cmo se puede realizar? A traves de scripts automatizados A traves de aplicaciones o herramientas ya populares como Rocks, CIA, Ganglia, etc..
puzzle inc.
puzzle inc.
puzzle inc.
Conclusiones
Un Cluster para HPC o CAR depende de muchas variables pero principalmente de tres en general para su uso eficiente o adecuado: 1) De la Infraestructura. 2) De su Administracin. 3) De su uso por parte de los usuarios.
puzzle inc.
GRACIAS !
puzzle inc.
puzzle inc.