Panne globale
Résolu
17 Juil à 17:35 CEST
Post-mortem – Crash de l’application Web
Date et heure de l’incident : Le 17 juillet 2025
Début de l’incident : 8:14
Résolution : 10:19
Résumé de l’incident : Ce matin, notre application Web a subi un incident majeur entraînant une interruption du service entre 8:14 et 10:19. L’incident a duré 2 heures et 5 minutes et a impacté l’ensemble de nos applications : tom, tom3, Aladin et Avisplaie. Tous les utilisateurs de ces services ont été affectés.
Symptômes observés :
Messages d’erreurs généralisées sur l’ensemble des fonctionnalités
Déroulement de l’incident :
8:15 : Un premier incident est survenu lors du déploiement de la mise à jour 2.31.0 de tom. L’équipe a été contrainte d’interrompre le déploiement en raison d’un temps de déploiement anormalement long, ce qui a provoqué une instabilité sur l’ensemble des applications.
8:45 : Lors d’une seconde tentative de relance de tom, la base de données a été surchargée et est devenue indisponible. Nous avons immédiatement contacté notre hébergeur afin de procéder à un redémarrage rapide de la base de données.
10:00 : Une fois la base de données de nouveau disponible, nous avons relancé le déploiement de la mise à jour, qui s’est cette fois déroulé jusqu’à son terme. Cependant, l’application restait indisponible. Après investigation, une modification de la configuration du serveur a été réalisée, permettant de rétablir l’ensemble des services.
Analyse des causes : L’incident a été provoqué par l’interruption du déploiement, suivie d’une surcharge de la base de données lors de la relance. Le retour à la normale a nécessité une intervention manuelle sur la configuration du serveur, non prévue dans la procédure standard.
Actions correctives mises en place :
- Interruption immédiate du déploiement problématique
- Intervention rapide de l’hébergeur pour relancer la base de données
- Relance du déploiement après rétablissement de la base de données
- Correction de la configuration serveur pour restaurer les services
Mesures préventives : Afin de prévenir ce type d’incident à l’avenir, nous avons décidé d’améliorer la procédure de déploiement.
Nous tenons à présenter nos excuses à nos utilisateurs pour la gêne occasionnée et restons pleinement mobilisés pour garantir la fiabilité et la qualité de nos services.
Services affectés