1509 views
--- tags: icj, info --- # Les services informatiques à l'ICJ Cette page contient des informations sur l'[état courant](#État-courant-des-services) des services informatiques de l'ICJ et les [interventions prévues](#Interventions-prévues-dans-les-7-jours-risquant-d’impacter-les-services) qui pourraient impacter ces services sur les 7 prochains jours. Les événements passés sont visibles au moins 7 jours. ## Légende :heavy_check_mark: Service en fonction, pas de problème connu :exclamation: Fonctionnement partiel, problème répertorié :x: Interruption du service ## État courant des services * 2024-11-21 14h44 : :heavy_check_mark: c'est revenu. * 2024-11-21 13h43 : :x: rebelotte, problème de communication avec le stockage comme hier. Pas de raisons identifiées jusque là... * 2024-11-20 11h28 : :heavy_check_mark: le webmail fonctionne à nouveau * 2024-11-20 11h15 : :exclamation: le webmail semble capricieux ("serveur injoingable" lors de l'authentification)... * 2024-11-20 10h57 : :heavy_check_mark: retour à la normale. La cause de l'interruption n'est pas connue pour le moment (problème réseau ?) * 2024-11-20 10h32 : :x: problème général en cours :heavy_check_mark: [**Mails**](#Mails) :heavy_check_mark: [**Fichiers**](#Fichiers) :heavy_check_mark: [**Clients lourds**](#Clients-lourds) :heavy_check_mark: [**Partages Windows**](#Partages-Windows) :heavy_check_mark: [**Passerelles SSH**](#Passerelles-SSH) :exclamation: [**Cluster de calcul**](#Cluster-de-calcul) :heavy_check_mark: [**Imprimantes**](#Imprimantes) :heavy_check_mark: [**Sites web**](#Sites-web) :heavy_check_mark: [**Visio**](#Visio) :heavy_check_mark: [**Réseau**](#Réseau) ## Interventions prévues (dans les 7 jours) risquant d'impacter les services. :heavy_check_mark: [**Mails**](#Mails1) :heavy_check_mark: [**Fichiers**](#Fichiers1) :heavy_check_mark: [**Clients lourds**](#Clients-lourds1) :heavy_check_mark: [**Partages Windows**](#Partages-Windows1) :heavy_check_mark: [**Passerelles SSH**](#Passerelles-SSH1) :heavy_check_mark: [**Cluster de calcul**](#Cluster-de-calcul) :heavy_check_mark: [**Imprimantes**](#Imprimantes1) :heavy_check_mark: [**Sites web**](#Sites-web) :heavy_check_mark: [**Visio**](#Visio1) :heavy_check_mark: [**Réseau**](#Réseau1) ## Table des matières [TOC maxLevel=2] ## Détails de l'état courant des services ### Mails **Rappel :** les mails expédiés par des correspondants situés hors du laboratoire restent stockés sur les serveurs relais SMTP du CISR et leurs receptions ne sont pas impactées par des arrets de moins de trois jours. * 2024-11-08 22h00 : :heavy_check_mark: ça fonctionne à nouveau. * 2024-11-08 20h00 : :x: le serveur mail est injoignable * 2024-11-08 10h00 : :heavy_check_mark: tout est revenu à la normal * 2024-11-08 09h45 : :heavy_check_mark: Clients lourds fonctionnent, les mails toujours pas ... * 2024-11-08 09h15 : :exclamation: serveurs en cours de redémarrage ... * 2024-11-07 17h30 : :x: saturation de l'espace de stockage, les services associés sont hors service (fichiers, mails, clients lourds, ...). Retour à la normale à 9h15 le 8/11. * 2024-09-29 19h00 : :heavy_check_mark: après un nettoyage et une augmentation de la capacité de stockage, le serveur mail est de nouveau fonctionnel. * 2024-09-27 21h35 : :x: le serveur mail SMTP n'accepte plus aucun mail entrant suite à une saturation son espace de stockage * 2024-01-31 08h30 : :heavy_check_mark: retour à la normale dans la nuit * 2024-01-30 17h00 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, ...) du à un problème réseau à priori * 2024-01-23 15h00 : :heavy_check_mark: Fin de la panne * 2024-01-23 11h15 : :x: rebelotte, le serveur de fichier semble saturé, un redémarrage est prévu. * 2024-01-23 11h00 : :heavy_check_mark: retour à la normale * 2024-01-23 10h40 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, sites web, ...) * 2023-11-08 11h00 : :heavy_check_mark: la situation devrait être revenu à la normale. * 2023-11-07 23h15 : :exclamation: le problème a été résolé côté Mathrice, il va falloir un peu de temps pour que les mails mis en attente soient envoyés. * 2023-11-07 19h00 : :exclamation: il semble qu'il y ait un problème avec le serveur d'envoi de Mathrice (`smtps.math.cnrs.fr`) : les mails n'arrivent pas à destination, depuis au moins ce matin. Il est conseillé d'utiliser le serveur d'envoie de l'ICJ (via le VPN de l'UCBL pour les accès distants) ou d'utiliser le [webmail](https://math.univ-lyon1.fr/rainloop/). * 2023-10-21 22h30 : :heavy_check_mark: le certificat a été mis à jour. * 2023-10-21 09h00 : :exclamation: apparement un problème de certificat empêche la récupération des mails depuis un client mail. Le [webmail](https://math.univ-lyon1.fr/rainloop/) fonctionne par contre, et l'envoi/réception des mails sur les serveurs de l'ICJ ne semble pas impacté. * 2023-05-26 16h45 : :heavy_check_mark: Tout refonctionne à nouveau (il peut y avoir un délai à la réception, le temps de traiter la queue) * 2023-05-26 15h15 : :exclamation: Le serveur SMTP de l'ICJ refuse actuellement l'envoi de mails. Le serveur de réception des mails est aussi impacté. * 2022-12-24 16h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-24 08h24 : :x: Problème avec le système de fichiers * 2023-11-06 09h00 : :exclamation: Le stockage des fichiers `homes` est plein empêchant la création de tout nouveau fichier. Cela peut bloquer la connexion à un serveur, l'authentification sur les clients lourds, etc. Les mails et les pages web ne sont pas impactées (volume différent). Le quota alloué à `homes` va être augmenté ou de l'espace va être libéré. * 2022-12-21 13h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-21 09h17 : :x: rebelote ce matin * 2022-12-20 12h25 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-20 09h05 : :x: Problème avec le système de fichier, l'accès aux mails n'est plus possible. ### Clients lourds * 2024-11-08 09h45 : :heavy_check_mark: Clients lourds fonctionnent, les mails toujours pas ... * 2024-11-08 09h15 : :exclamation: serveurs en cours de redémarrage ... * 2024-11-07 17h30 : :x: saturation de l'espace de stockage, les services associés sont hors service (fichiers, mails, clients lourds, ...). Retour à la normale à 9h15 le 8/11. * 2024-07-26 09h00 : :heavy_check_mark: confirmation de la résolution du problème. * 2024-07-25 09h00 : :exclamation: source du problème à priori trouvée, une option de montage réseau pourtant présente depuis longtemps mais qui a posé d'un coup problème lors de la précédente coupure de courant. Il faut **redémarrer** les clients lourds. * 2024-07-16 14h00 : :exclamation: lenteurs et blocages observés sur les clients lourds, on ne sait pas si ça provient du réseau ou du stockage, la cause n'est pas identifiée ... * 2024-04-29 12h30 : :heavy_check_mark: retour à la normale * 2024-04-29 11h00 : :x: problème de montage des homes depuis les clients lourds (les sessions ne peuvent pas s'ouvrir) * 2024-01-31 08h30 : :heavy_check_mark: retour à la normale dans la nuit * 2024-01-30 17h00 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, ...) du à un problème réseau à priori * 2024-01-23 15h00 : :heavy_check_mark: Fin de la panne * 2024-01-23 11h15 : :x: rebelotte, le serveur de fichier semble saturé, un redémarrage est prévu. * 2024-01-23 11h00 : :heavy_check_mark: retour à la normale * 2024-01-23 10h40 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, sites web, ...) * 2023-11-06 09h20 : :heavy_check_mark: Nettoyage et augmentation du quota effectué. * 2023-11-06 07h45 : :x: Le stockage des fichiers `homes` est plein empêchant la création de tout nouveau fichier. Cela peut bloquer la connexion à un serveur, l'authentification sur les clients lourds, etc. Les mails et les pages web ne sont pas impactées (volume différent). Le quota alloué à `homes` va être augmenté ou de l'espace va être libéré. * 2023-09-18 09h54 : :heavy_check_mark: redémarrage de faddef, les clients lourds démarrent à nouveau * 2023-09-18 09h00 : :x: les clients lourds ne démarrent pas * 2023-08-28 10h15 : :heavy_check_mark: redémarrage de faddef, les clients lourds démarrent à nouveau * 2023-08-28 07h35 : :x: les clients lourds ne démarrent pas (problème de connexion TFTP) * 2023-06-13 14h25 : :heavy_check_mark: retour à la normale suite à un problème de résolution de nom de domaine qui empêchait la connexion à des services essentiels. * 2023-06-13 09h00 : :x: l'authentification sur les clients lourds n'est plus possible suite apparemment à un problème d'accès au serveur de fichiers. * 2023-04-17 15h00 : :heavy_check_mark: les problèmes de lenteur semblent avoir été résolus suite à la réactivation d'un cache d'accès au stockage des fichier du système d'exploitation utilisé par les clients lourds. * 2023-03-10 13h30 : :exclamation: ça semble dû à une saturation d'un lien réseau, l'origine est inconnue pour le moment. * 2023-03-06 14h30 : :exclamation: des lenteurs observées depuis les clients lourds uniquement (ça semble ok depuis un serveur du labo) ### Fichiers (fichiers vus depuis `ssh-math` et les nœuds du cluster) * 2023-11-06 09h20 : :heavy_check_mark: Nettoyage et augmentation du quota effectué. * 2023-11-06 07h45 : :exclamation: Le stockage des fichiers `homes` est plein empêchant la création de tout nouveau fichier. Cela peut bloquer la connexion à un serveur, l'authentification sur les clients lourds, etc. Les mails et les pages web ne sont pas impactées (volume différent). Le quota alloué à `homes` va être augmenté ou de l'espace va être libéré. * 2022-12-24 16h00 : :heavy_check_mark: Serveur NFS+SSH redémarrés, retour à la normale (investigations en cours). * 2022-12-21 13h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-21 09h17 : :x: rebelote ce matin * 2022-12-20 12h25 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale. * 2022-12-20 11h30 : :x: Redémarrage en cours de `filer-math` et `disque1-math` * 2022-12-20 09h05 : :x: Problème avec le système de fichier. * 2022-12-02 11h10 : :heavy_check_mark: serveur de fichiers et mails redémarrés, ça refonctionne * 2022-12-02 8h50 : :x: problème d'accès aux fichiers ### Partages Windows * 2022-01-07 14h00 : :heavy_check_mark: pas de nouveaux problèmes depuis quelques jours * 2022-01-02 22h00 : :exclamation: il y a manifestement des problèmes d'authentification aux partages Samba pour certains utilisateurs * 2022-01-02 14h50 : :x: il y a des problèmes d'accès aux partages Samba ### Passerelles SSH * 2024-01-31 08h30 : :heavy_check_mark: retour à la normale dans la nuit * 2024-01-30 17h00 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, ...) du à un problème réseau à priori * 2024-01-23 15h00 : :heavy_check_mark: Fin de la panne * 2024-01-23 11h15 : :x: rebelotte, le serveur de fichier semble saturé, un redémarrage est prévu. * 2024-01-23 11h00 : :heavy_check_mark: retour à la normale * 2024-01-23 10h40 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, sites web, ...) * 2023-09-05 17H00 : :heavy_check_mark: fin de redémarrage du serveur suite à un passage en 'écriture seule' de son système de fichier après un bug d'écriture apparu le 14 août. * 2023-07-11 10h00 : :heavy_check_mark: probleme d'authentification pour l'acces aux dossiers personnels suite à une panne (probablement reseau) dans la nuit sur les stockages des machines virtuelles de l'ICJ, redemarrage du serveur à 10h00 pour arreter les sessions en panne et retrouver des points de montage reseau propre. * 2023-04-27 10h30 : :heavy_check_mark: les personnes impactées par le problème d'accès au dossier personnel depuis `ssh-math` et qui devaient taper régulièrement la commande `kinit`, peuvent maintenant taper une fois pour toute la commande `math-kerberos` (qui demande votre mot de passe). Cette manipulation devrait être définitive. * 2023-03-26 19h20 : :exclamation: les personnes impactées peuvent se connecter en ssh sur ssh-math.univ-lyon1.fr et taper la commande `kinit`, valider avec votre mot de passe et se déconnecter. Ça devrait fonctionner à la prochaine connexion. * 2023-03-23 15h00 : :exclamation: les fichiers ne sont plus accessibles depuis la passerelle SSH pour certains comptes. * 2023-02-17 18h00 : :exclamation: une passerelle SSH temporaire est de nouveau en service, il peut exister des problèmes d'authentification, contactez <systeme-icj@math.univ-lyon1.fr> si c'est le cas. * 2023-02-08 15h00 : :x: la passerelle SSH ne démarre plus ! * 2022-12-24 16h00 : :heavy_check_mark: Serveur NFS+SSH redémarrés, retour à la normale (investigations en cours). * 2022-12-24 08h24 : :x: Problème avec le système de fichiers * 2022-12-21 13h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-21 09h17 : :x: rebelote ce matin * 2022-12-20 12h25 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale. * 2022-12-20 09h05 : :x: Problème avec le système de fichier, l'identification sur les passerelles sont impactées. ### Cluster de calcul * 2024-01-31 08h30 : :heavy_check_mark: retour à la normale dans la nuit * 2024-01-30 17h00 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, ...) du à un problème réseau à priori * 2024-01-23 15h00 : :heavy_check_mark: Fin de la panne * 2024-01-23 11h15 : :x: rebelotte, le serveur de fichier semble saturé, un redémarrage est prévu. * 2024-01-23 11h00 : :heavy_check_mark: retour à la normale * 2024-01-23 10h40 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, sites web, ...) * 2023-02-07 15h30 : :exclamation: c'est probablement un bout de configuration réseau du chassis qui a été perdu lors de la précédente extinction * 2023-02-07 10h00 : :exclamation: on va profiter de la coupure du 8/02 pour redémarrer un équipement réseau associé * 2022-11-16 12h00 : :exclamation: pièce remplacée, le chassis a redémarré mais certains serveurs restent injoignables (peut-être un problème réseau) * 2022-11-15 15h40 : :exclamation: intervention planifiée au 17/11 à 10h30 * 2022-11-09 10h45 : :exclamation: intervention reportée car la pièce de rechange n'est pas disponible... * 2022-11-07 16h30 : :exclamation: diagnotic et déclenchement d'une intervention Dell prévue mercredi 10h30 pour les serveurs 22 à 27 * 2022-11-03 16h30 : :exclamation: le chassis contenant les serveurs 22 à 27 ne démarre plus. La frontale qui fournit, entre autre, le service Ganglia ne fonctionne plus également. * 2022-11-03 10h30 : :x: interruption totale du service pendant la coupure de courant, reprise prévue vers 16h30 ### Imprimantes 2023-03-15 15h45 : :heavy_check_mark: l'imprimante BR250 refonctionne, sa file d'attente est de nouveau opérationnelle. 2023-03-10 13h30 : :exclamation: BR250 (Braconnier) a un problème de prise papier, sa file d'attente est désactivée en attendant le passage d'un technicien. 2023-02-21 15h30 : :heavy_check_mark: le filtrage réseau sur les IP connectées sur Eduroam (en Braconnier) a été levé. 2023-02-13 09h00 : :exclamation: suite à un problème de filtrage réseau, les imprimantes ne sont pas accessibles via le réseau Wifi de Braconnier. Il faut passer par le réseau filaire en attendant. ### Sites web * 2024-01-23 15h00 : :heavy_check_mark: Fin de la panne * 2024-01-23 11h15 : :x: rebelotte, le serveur de fichier semble saturé, un redémarrage est prévu. * 2024-01-23 11h00 : :heavy_check_mark: retour à la normale * 2024-01-23 10h40 : :x: grosse coupure des services de l'ICJ (clients lourds, serveurs, mails, sites web, ...) * 2023-10-11 11h00 : :heavy_check_mark: problème probablement résolu quelques temps après son début... * 2023-10-11 10h00 : :exclamation: problème d'accès au site web du laboratoire, probablement dû à la migration en cours des pages persos. * 2023-08-24 15h50 : :heavy_check_mark: l'annuaire est de nouveau disponible * 2023-08-23 11h00 : :exclamation: l'annuaire ne fonctionne pas * 2023-03-02 09h15 : :heavy_check_mark: ça refonctionne * 2023-03-02 09h00 : :x: les sites web ne fonctionnent pas depuis hier soir * 2023-01-09 12h00 : :heavy_check_mark: ça refonctionne * 2023-01-19 09h00 : :exclamation: VM du site web de l'ICJ redémarrée mais problème avec le système de fichier associé. Les autres sites web fonctionnent. * 2023-01-18 18h15 : :x: Le site web de l'ICJ n'est plus accessible. * 2022-12-24 16h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-24 08h24 : :exclamation: Problème avec le système de fichiers, les pages persos sont impactées * 2022-12-21 13h00 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale (investigations en cours). * 2022-12-21 09h17 : :exclamation: rebelote ce matin pour les pages persos * 2022-12-20 12h25 : :heavy_check_mark: Serveur de stockage (et autres services) redémarrés, retour à la normale. * 2022-12-20 09h05: :exclamation: Problème avec le système de fichier, les pages persos sont inaccessibles. ### Visio ### Réseau * 2024-07-25 09h00 : :heavy_check_mark: source du problème à priori trouvée et aucun rapport avec le réseau * 2024-07-19 09h00 : :exclamation: ça ne vient finalement pas de là, la source du problème n'est pas encore trouvée ! En tout cas, si problème il y a, cela ne concerne que le réseau filaire. * 2024-07-17 12h00 : :heavy_check_mark: les lenteurs provenaient probablement d'une saturation des écritures sur le stockage * 2024-07-16 14h00 : :exclamation: lenteurs observées sur le réseau filaire * 2023-02-07 10h00 : :heavy_check_mark: pas de problèmes constatés depuis un certain temps... * 2022-12-21 9h30 : :exclamation: probleme de communication entre disque1-math, disque-math et filer-math ## Détails des interventions prévues ### Mails ### Fichiers (fichiers vus depuis `ssh-math` et les nœuds du cluster) ### Clients lourds ### Partages Windows ### Passerelles SSH ### Cluster de calcul ### Imprimantes ### Sites web ### Visio ### Réseau ## Interventions passées * 2024-07-23 : **coupure de courant** non prévue dans plusieurs bâtiments de la Doua le 23 Juillet entre 11h00 et 11h42 : * 11h30 : tous les services sont arrêtés, le courant n'est pas revenu * 11h37 : onduleur à 23%, la salle serveur est coupée * 11h42 : le courant est revenu * 12h00 : le redémarrage va être temporisé pour attendre le rechargement de l'onduleur et profiter de l'arrêt pour faire une maintenance * 13h00 : maintenance et redémarrage en cours * 13h49 : redémarrage terminé * 2023-11-06 : Maintenance de l'onduleur de la salle machine. Cela n'a pas induit l'arrêt des services de l'ICJ. * 2023-07-18 16h30 : coupure électrique du bâtiment Braconnier (et d'autres) le 18 juillet entre 17h30 et minuit. L'arrêt de la salle machine a été déclenché à partir de 16h30 en coupant manuellement le courant pour vérifier la procédure d'arrêt automatique sur onduleur. Le redémarrage a été tenté le lendemain à partir de 8h15 mais n'a pas abouti à cause d'un problème de démarrage d'un équipement réseau dans la salle. Les services sont revenus progressivement à partir de 10h30. * 2023-02-08 : Arrêt total de la salle machine le **8 février de 11h à 18h**. Le réseau Wifi, Ethernet et les systèmes de visio de Braconnier (Salle 112 et Fokko) devraient toujours être en fonction. * 2022-11-03 : Coupure du réseau éléctrique dans la salle machine à partir de 10h30 le 3 novembre 2022, supression des arrivées electriques sur l'onduleur 10kVA Sprinter, raccordements des disjonteurs en sorties du 10kVA sur les sorties de l'onduleur triphasé 20kVA, test de montée en charge sur le 20kVA, nouvel arret electrique, maintenance préventives des composants de l'onduleur 20kVA, étiquettage d'une partie des alimentations éléctriques, élimination des cables débranchés des machines restants, pendants, dans les armoires, redémarrage des systèmes avant 16h30. Passage de disque1 DELL vers disque1 HP des arborescences `/srv/homes` et `/srv/administration` ## Interventions à plus ou moins long terme 23Q? Passage en diskless 23Q? Passage a faddef2 et à une nouvelle version de l'OS 23Q2 Passage à une mouture basée sur Debian avec TurboVNC (cf: adm-math) 23Q1 Arret redémarrage de mail-math et math pour mises à jour 22Q4 Arret redémarrage de ldap et kdc.math pour mises à jour