HOPE¶
Problemas comunes¶
Infiniband¶
Luego de inicializado el sistema no levanta bien la red infiniband quedando en estado Initializing lo que resulta en que no se puede correr en la cola de infiniband. Para ver en que estado está primero hay que loguearse en el nodo hope y desde ahí hacer
[hopeadmin@hope ~]$ ssh compute-0-0
[hopeadmin@compute-0-0 ~]$ ibstat | grep -i State
State: Initializing
Physical state: LinkUp
Esto ocurre porque el servicio opensm no está corriendo. Para eso lo que hacemos es desde hope
[hopeadmin@hope ~]$ su root
Password:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Fri Jun 12 20:56:24 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 15:30 26-Mar-2020
Kickstarted 15:35 26-Mar-2020
[root@compute-0-0 ~]# /etc/init.d/opensm status
opensm is stopped
[root@compute-0-0 ~]# /etc/init.d/opensm start
En caso de no funcionar el comando /etc/init.d/opensm en el nodo compute-0-0, lo que ocurre es que hay que volver a instalar el paquete opensm
[hopeadmin@hope ~]$ su root
Password:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Fri Jun 12 20:56:24 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 15:30 26-Mar-2020
Kickstarted 15:35 26-Mar-2020
[root@compute-0-0 ~]# yum install opensm
[root@compute-0-0 ~]# /etc/init.d/opensm start
Luego ya tiene que funcionar el infiniband.
Prueba Infiniband¶
PING¶
El comando para realizar ping en infiniband es el ibping. Este funciona con un modelo cliente servidor, o sea para que funcione en un nodo lo tenemos que inicializar como servidor y desde otro podemos hacer el ping propiamente dicho.
Inicializamos el servidor
[hopeadmin@hope ~]$ ssh compute-0-4
[root@compute-0-4 ~]# ibstat | grep -i 'Base lid'
Base lid: 2
[root@compute-0-4 ~]# ibping -S
Hacemos ping
[hopeadmin@hope ~]$ ssh compute-0-0
[hopeadmin@compute-0-0 ~]$ ibping -L 2 -c 4
Pong from compute-0-4.local.(none) (Lid 2): time 0.156 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.136 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.149 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.122 ms
--- compute-0-4.local.(none) (Lid 2) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 4000 ms
rtt min/avg/max = 0.122/0.140/0.156 ms
Usuarios¶
Una vez instalado desde cero al sistema, el único usuario que tiene el sistema es hopeadmin. El mismo fue creado por el proceso de instalación.
Cuando haciamos ssh compute-0-0 el resultado obtenido era
[hopeadmin@hope ~]$ ssh compute-0-1
Last login: Tue Aug 25 16:51:13 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 10:28 10-Aug-2020
Kickstarted 10:33 10-Aug-2020
Could not chdir to home directory /export/home/hopeadmin: No such file or directory
-bash-4.1$
El sistema utiliza el auto.home de cada nodo para montar el home.
[hopeadmin@hope ~]$ sudo -s
[sudo] password for hopeadmin:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Tue Aug 25 16:54:16 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 10:28 10-Aug-2020
Kickstarted 10:33 10-Aug-2020
[root@compute-0-0 ~]# cat /etc/auto.home
hopeadmin hope.local:/export/home/hopeadmin
[root@compute-0-0 ~]#
Entonces lo que hice fue lo siguiente
[hopeadmin@hope ~]$ sudo -s
[root@hope hopeadmin]# rocks run host "usermod -d /home/hopeadmin hopeadmin"
compute-0-0: down
usermod: no changes
Luego de ejecutar en varias oportunidades el comando rocks-user-sync el archivo /etc/auto.home tiene líneas repetidas.
[root@hope hopeadmin]# rocks-user-sync
[root@hope hopeadmin]# ssh compute-0-1
[root@compute-0-1 ~]# cat /etc/auto.home
hopeadmin hope.local:/export/home/hopeadmin
hopeadmin hope.local:/export/home/hopeadmin
hopeadmin hope.local:/export/home/hopeadmin
hopeadmin hope.local:/export/home/hopeadmin
Lo solucionamos desde el front-end de la siguiente manera
[root@hope hopeadmin]# rocks run host "sort /etc/auto.home | uniq > /tmp/auto.home; mv -f /tmp/auto.home /etc;"
UPS¶
$ wget "https://ftp.tu-chemnitz.de/pub/linux/dag/redhat/el6/en/x86_64/rpmforge/RPMS/apcupsd-3.14.10-1.el6.rf.x86_64.rpm"
$ rpm -i apcupsd-3.14.10-1.el6.rf.x86_64.rpm
$ cp -p /etc/apcupsd/apcupsd.conf /etc/apcupsd/apcupsd.conf-original
$ vi /etc/apcupsd/apcupsd.conf
Se modificaron las siguientes variables y se desactivó el NETSERVER
Original |
Modificado |
UPSCABLE smart UPSTYPE apcsmart DEVICE /dev/ttyS0 |
UPSCABLE usb UPSTYPE usb DEVICE |
Original |
Modificado |
|---|---|
UPSCABLE smart |
UPSCABLE usb |
UPSTYPE apcsmart |
UPSTYPE usb |
DEVICE /dev/ttyS0 |
DEVICE |
Original |
Modificado |
|---|---|
UPSCABLE smart |
UPSCABLE usb |
UPSTYPE apcsmart |
UPSTYPE usb |
DEVICE /dev/ttyS0 |
DEVICE |
https://www.pontikis.net/blog/apc-ups-master-slave-setup-apcupsd