CénitS - COMPUTAEX
Publicado en CénitS - COMPUTAEX (https://web.computaex.es)


Preguntas de usuario

En este apartado podrá encontrar resueltas preguntas de usuario.

¿Cómo finalizar un trabajo del gestor de colas?

Si desea finalizar un trabajo debido a un comportamiento erróneo u otro motivo, ejecute el siguiente comando:

  • $ scancel id_trabajo

¿Cómo consulto mis trabajos lanzados en el gestor de colas?

Para realizar una consulta de los trabajos actualmente en cola (pendientes o activos), ejecute:

  • $ squeue

¿Cómo puedo visualizar la salida de un trabajo que está ejecutándose?

La salida de un trabajo en ejecución puede visualizarse en los ficheros de salida creados por Slurm, los cuales tienen el siguiente formato por defecto:

  • slurm-job_id.txt

Dichos ficheros mostrarán la salida estándar de consola para cada trabajo, incluidos los mensajes de error de ejecución.

Mi software tiene unos requisitos de almacenamiento predefinidos ¿Cómo puedo solicitar este almacenamiento?

El formulario de solicitud de recursos [1] incluye un apartado para el almacenamiento requerido por los aplicativos de los usuarios. 

Completé el formulario de solicitud de recursos y estoy haciendo uso del Supercomputador, pero necesito más almacenamiento del que solicité ¿Qué debo hacer?

Para solicitar almacenamiento extra, póngase en contacto con el equipo técnico de CénitS a través de la cuenta:

  • solicitudesatcenits [dot] es.

Mis trabajos necesitan mucha E/S ¿Hay algún tipo de almacenamiento para cubrir esta necesidad?

Los dos nodos de cómputo disponen de una partición de scratch montada en /scratch, que viene a cubrir la alta demanda de E/S en tiempo de ejecución de los trabajos de los usuarios. 

¿Por qué no se ejecuta mi trabajo?

Puede que haya solicitado recursos que no se encuentren disponibles, o bien simplemente aún no ha llegado su turno (los trabajos lanzados tiene un valor de orden o prioridad asociada, calculada automáticamente en su lanzamiento, en función de distintas variables).

¿Cómo puedo saber cual es el uso de recursos de un trabajo?

En principio, los recursos usados en total serán los solicitados en su script de lanzamiento de trabajos. Si desea conocer el uso de recursos en un nivel de detalle más elevado, contacte con los técnicos que le ofrecerán asistencia, para cada caso particular, en la dirección de correo:

soporteatcenits [dot] es.

Al realizar la conexión se ha mostrado un mensaje sobre autenticidad de servidor ¿Qué debo hacer?

Mensaje de autenticidad de servidor:

The authenticity of host 'ssh.cenits.es (193.144.255.13)' can't be established.
RSA key fingerprint is fa:83:85:6c:88:2a:6b:31:74:f7:8f:39:98:a3:75:f0.
Are you sure you want to continue connecting (yes/no)?

Este mensaje se muestra la primera vez que se realiza la conexión contra un servidor ssh. También puede mostrarse con posterioridad si se ha borrado el fichero known_hosts de su ordenador.

Este mensaje indica que la clave pública del servidor al que se está intentando acceder no se reconoce y pregunta si se desea confiar en el servidor. Se deberá aceptar para poder acceder al servidor.

Estoy experimentando problemas de rendimiento en mis trabajos. ¿A qué puede deberse?

Los problemas de rendimiento pueden ocasionarse por diversos los motivos:

  • Uso inadecuado del gestor de colas. Cuando se lanzan los trabajos hay que indicar el número de procesos con los que se va a trabajar, si el número indicado es incorrecto puede afectar al rendimiento del propio trabajo y del resto de usuarios.
  • Uso inadecuado de la implementación y la ejecución de los procesos en los nodos. Por ejemplo, es posible que se esté utilizando paso de mensajes en un único nodo, cuando sería más conveniente memoria compartida.
  • Uso inadecuado del almacenamiento. Es posible que no esté haciendo uso del almacenamiento de alto rendimiento ubicado en /scratch, con lo que puede experimentar un descenso del rendimiento cuando se realizan E/S.
  • Uso inadecuado de la red de comunicaciones. i se están ejecutando procesos en ambos nodos y se necesita comunicación entre ellos, asegurarse de NO haber especificado el nombre de los nodos. Por defecto, se utiliza la red de cómputo, por lo que no es necesario indicar el nombre de los nodos donde se va a ejecutar, en el caso de ser necesario hay que indicar el nombre o nombres, que se pueden averiguar mediante el comando "sinfo" cuya salida mostrará algo similar a lo siguiente (el texto resaltado se corresponde con el nombre de los nodos):
    PARTITION    AVAIL  TIMELIMIT  NODES  STATE NODELIST
    distribuida        up           infinite         12         idle fcn[27-38]
    Los nodos disponibles para cada usuario dependerán de la partición a la que tenga acceso.

Tras comprobar lo anteriormente indicado, si persiste el problema, póngase en contacto con el equipo técnico de CénitS.  


URL del envío:https://web.computaex.es/faq/preguntas-usuario

Enlaces
[1] https://web.computaex.es/solicitud-recursos