==== HOPE ==== Problemas comunes ================= Infiniband ---------- Luego de inicializado el sistema no levanta bien la red infiniband quedando en estado Initializing lo que resulta en que no se puede correr en la cola de infiniband. Para ver en que estado está primero hay que loguearse en el nodo hope y desde ahí hacer .. code-block:: console [hopeadmin@hope ~]$ ssh compute-0-0 [hopeadmin@compute-0-0 ~]$ ibstat | grep -i State State: Initializing Physical state: LinkUp Esto ocurre porque el servicio opensm no está corriendo. Para eso lo que hacemos es desde hope .. code-block:: console [hopeadmin@hope ~]$ su root Password: [root@hope hopeadmin]# ssh compute-0-0 Last login: Fri Jun 12 20:56:24 2020 from hope.local Rocks Compute Node Rocks 6.2 (SideWinder) Profile built 15:30 26-Mar-2020 Kickstarted 15:35 26-Mar-2020 [root@compute-0-0 ~]# /etc/init.d/opensm status opensm is stopped [root@compute-0-0 ~]# /etc/init.d/opensm start En caso de no funcionar el comando /etc/init.d/opensm en el nodo compute-0-0, lo que ocurre es que hay que volver a instalar el paquete opensm .. code-block:: console [hopeadmin@hope ~]$ su root Password: [root@hope hopeadmin]# ssh compute-0-0 Last login: Fri Jun 12 20:56:24 2020 from hope.local Rocks Compute Node Rocks 6.2 (SideWinder) Profile built 15:30 26-Mar-2020 Kickstarted 15:35 26-Mar-2020 [root@compute-0-0 ~]# yum install opensm [root@compute-0-0 ~]# /etc/init.d/opensm start Luego ya tiene que funcionar el infiniband. Prueba Infiniband ----------------- PING ---- El comando para realizar ping en infiniband es el ibping. Este funciona con un modelo cliente servidor, o sea para que funcione en un nodo lo tenemos que inicializar como servidor y desde otro podemos hacer el ping propiamente dicho. Inicializamos el servidor .. code-block:: console [hopeadmin@hope ~]$ ssh compute-0-4 [root@compute-0-4 ~]# ibstat | grep -i 'Base lid' Base lid: 2 [root@compute-0-4 ~]# ibping -S Hacemos ping .. code-block:: console [hopeadmin@hope ~]$ ssh compute-0-0 [hopeadmin@compute-0-0 ~]$ ibping -L 2 -c 4 Pong from compute-0-4.local.(none) (Lid 2): time 0.156 ms Pong from compute-0-4.local.(none) (Lid 2): time 0.136 ms Pong from compute-0-4.local.(none) (Lid 2): time 0.149 ms Pong from compute-0-4.local.(none) (Lid 2): time 0.122 ms --- compute-0-4.local.(none) (Lid 2) ibping statistics --- 4 packets transmitted, 4 received, 0% packet loss, time 4000 ms rtt min/avg/max = 0.122/0.140/0.156 ms .. include:: usuarios.rst UPS === .. code-block:: console $ wget "https://ftp.tu-chemnitz.de/pub/linux/dag/redhat/el6/en/x86_64/rpmforge/RPMS/apcupsd-3.14.10-1.el6.rf.x86_64.rpm" $ rpm -i apcupsd-3.14.10-1.el6.rf.x86_64.rpm $ cp -p /etc/apcupsd/apcupsd.conf /etc/apcupsd/apcupsd.conf-original $ vi /etc/apcupsd/apcupsd.conf Se modificaron las siguientes variables y se desactivó el NETSERVER +-------------------+-------------------+ | Original | Modificado | +-------------------+-------------------+ | UPSCABLE smart | UPSCABLE usb | | UPSTYPE apcsmart | UPSTYPE usb | | DEVICE /dev/ttyS0 | DEVICE | +-------------------+-------------------+ =================== =================== Original Modificado =================== =================== UPSCABLE smart UPSCABLE usb UPSTYPE apcsmart UPSTYPE usb DEVICE /dev/ttyS0 DEVICE =================== =================== .. list-table:: Title :header-rows: 1 * - Original - Modificado * - UPSCABLE smart - UPSCABLE usb * - UPSTYPE apcsmart - UPSTYPE usb * - DEVICE /dev/ttyS0 - DEVICE https://www.pontikis.net/blog/apc-ups-master-slave-setup-apcupsd