HOPE

Problemas comunes

Infiniband

Luego de inicializado el sistema no levanta bien la red infiniband quedando en estado Initializing lo que resulta en que no se puede correr en la cola de infiniband. Para ver en que estado está primero hay que loguearse en el nodo hope y desde ahí hacer

[hopeadmin@hope ~]$ ssh compute-0-0
[hopeadmin@compute-0-0 ~]$ ibstat | grep -i State
                State: Initializing
                Physical state: LinkUp

Esto ocurre porque el servicio opensm no está corriendo. Para eso lo que hacemos es desde hope

[hopeadmin@hope ~]$ su root
Password:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Fri Jun 12 20:56:24 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 15:30 26-Mar-2020

Kickstarted 15:35 26-Mar-2020
[root@compute-0-0 ~]# /etc/init.d/opensm status
opensm is stopped
[root@compute-0-0 ~]# /etc/init.d/opensm start

En caso de no funcionar el comando /etc/init.d/opensm en el nodo compute-0-0, lo que ocurre es que hay que volver a instalar el paquete opensm

[hopeadmin@hope ~]$ su root
Password:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Fri Jun 12 20:56:24 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 15:30 26-Mar-2020

Kickstarted 15:35 26-Mar-2020
[root@compute-0-0 ~]# yum install opensm
[root@compute-0-0 ~]# /etc/init.d/opensm start

Luego ya tiene que funcionar el infiniband.

Prueba Infiniband

PING

El comando para realizar ping en infiniband es el ibping. Este funciona con un modelo cliente servidor, o sea para que funcione en un nodo lo tenemos que inicializar como servidor y desde otro podemos hacer el ping propiamente dicho.

Inicializamos el servidor

[hopeadmin@hope ~]$ ssh compute-0-4
[root@compute-0-4 ~]# ibstat | grep -i 'Base lid'
                Base lid: 2
[root@compute-0-4 ~]# ibping -S

Hacemos ping

[hopeadmin@hope ~]$ ssh compute-0-0
[hopeadmin@compute-0-0 ~]$ ibping -L 2 -c 4
Pong from compute-0-4.local.(none) (Lid 2): time 0.156 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.136 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.149 ms
Pong from compute-0-4.local.(none) (Lid 2): time 0.122 ms

--- compute-0-4.local.(none) (Lid 2) ibping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 4000 ms
rtt min/avg/max = 0.122/0.140/0.156 ms

Usuarios

Una vez instalado desde cero al sistema, el único usuario que tiene el sistema es hopeadmin. El mismo fue creado por el proceso de instalación.

Cuando haciamos ssh compute-0-0 el resultado obtenido era

[hopeadmin@hope ~]$ ssh compute-0-1
Last login: Tue Aug 25 16:51:13 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 10:28 10-Aug-2020

Kickstarted 10:33 10-Aug-2020
Could not chdir to home directory /export/home/hopeadmin: No such file or directory
-bash-4.1$

El sistema utiliza el auto.home de cada nodo para montar el home.

[hopeadmin@hope ~]$ sudo -s
[sudo] password for hopeadmin:
[root@hope hopeadmin]# ssh compute-0-0
Last login: Tue Aug 25 16:54:16 2020 from hope.local
Rocks Compute Node
Rocks 6.2 (SideWinder)
Profile built 10:28 10-Aug-2020

Kickstarted 10:33 10-Aug-2020
[root@compute-0-0 ~]# cat /etc/auto.home
hopeadmin       hope.local:/export/home/hopeadmin

[root@compute-0-0 ~]#

Entonces lo que hice fue lo siguiente

[hopeadmin@hope ~]$ sudo -s
[root@hope hopeadmin]# rocks run host "usermod -d /home/hopeadmin hopeadmin"
compute-0-0: down
usermod: no changes

Luego de ejecutar en varias oportunidades el comando rocks-user-sync el archivo /etc/auto.home tiene líneas repetidas.

[root@hope hopeadmin]# rocks-user-sync
[root@hope hopeadmin]# ssh compute-0-1
[root@compute-0-1 ~]# cat /etc/auto.home
hopeadmin       hope.local:/export/home/hopeadmin
hopeadmin       hope.local:/export/home/hopeadmin
hopeadmin       hope.local:/export/home/hopeadmin
hopeadmin       hope.local:/export/home/hopeadmin

Lo solucionamos desde el front-end de la siguiente manera

[root@hope hopeadmin]# rocks run host "sort /etc/auto.home | uniq > /tmp/auto.home; mv -f /tmp/auto.home /etc;"

UPS

$ wget "https://ftp.tu-chemnitz.de/pub/linux/dag/redhat/el6/en/x86_64/rpmforge/RPMS/apcupsd-3.14.10-1.el6.rf.x86_64.rpm"
$ rpm -i apcupsd-3.14.10-1.el6.rf.x86_64.rpm
$ cp -p /etc/apcupsd/apcupsd.conf /etc/apcupsd/apcupsd.conf-original
$ vi /etc/apcupsd/apcupsd.conf

Se modificaron las siguientes variables y se desactivó el NETSERVER

Original

Modificado

UPSCABLE smart UPSTYPE apcsmart DEVICE /dev/ttyS0

UPSCABLE usb UPSTYPE usb DEVICE

Original

Modificado

UPSCABLE smart

UPSCABLE usb

UPSTYPE apcsmart

UPSTYPE usb

DEVICE /dev/ttyS0

DEVICE

Title

Original

Modificado

UPSCABLE smart

UPSCABLE usb

UPSTYPE apcsmart

UPSTYPE usb

DEVICE /dev/ttyS0

DEVICE

https://www.pontikis.net/blog/apc-ups-master-slave-setup-apcupsd