Panne globale

Post-mortem – Crash de l’application Web

Date et heure de l’incident : Le 17 juillet 2025
Début de l’incident : 8:14
Résolution : 10:19

Résumé de l’incident : Ce matin, notre application Web a subi un incident majeur entraînant une interruption du service entre 8:14 et 10:19. L’incident a duré 2 heures et 5 minutes et a impacté l’ensemble de nos applications : tom, tom3, Aladin et Avisplaie. Tous les utilisateurs de ces services ont été affectés.

Symptômes observés :

Messages d’erreurs généralisées sur l’ensemble des fonctionnalités

Déroulement de l’incident :

8:15 : Un premier incident est survenu lors du déploiement de la mise à jour 2.31.0 de tom. L’équipe a été contrainte d’interrompre le déploiement en raison d’un temps de déploiement anormalement long, ce qui a provoqué une instabilité sur l’ensemble des applications.

8:45 : Lors d’une seconde tentative de relance de tom, la base de données a été surchargée et est devenue indisponible. Nous avons immédiatement contacté notre hébergeur afin de procéder à un redémarrage rapide de la base de données.

10:00 : Une fois la base de données de nouveau disponible, nous avons relancé le déploiement de la mise à jour, qui s’est cette fois déroulé jusqu’à son terme. Cependant, l’application restait indisponible. Après investigation, une modification de la configuration du serveur a été réalisée, permettant de rétablir l’ensemble des services.

Analyse des causes : L’incident a été provoqué par l’interruption du déploiement, suivie d’une surcharge de la base de données lors de la relance. Le retour à la normale a nécessité une intervention manuelle sur la configuration du serveur, non prévue dans la procédure standard.

Actions correctives mises en place :

Interruption immédiate du déploiement problématique
Intervention rapide de l’hébergeur pour relancer la base de données
Relance du déploiement après rétablissement de la base de données
Correction de la configuration serveur pour restaurer les services

Mesures préventives : Afin de prévenir ce type d’incident à l’avenir, nous avons décidé d’améliorer la procédure de déploiement.

Nous tenons à présenter nos excuses à nos utilisateurs pour la gêne occasionnée et restons pleinement mobilisés pour garantir la fiabilité et la qualité de nos services.