Degraded Service | Service dégradé

Incident Report for eSIMsmart

Postmortem

Title: Service Disruption 26th February 2026

Start of Service Disruption:   11:35 CEST

End of Service Disruption:     15:21 CEST

1.     Incident Details

At approximately 12:15 CET a maintenance operation was performed on a database server within the eSIMsmart core network.

The maintenance operation accidentally locked the database that grants octets to subscribers requesting data services. The CCA application continued attempting to write to the locked database, which used up all the CPU threads and caused the database cluster to become unresponsive.

This caused a significant number of devices to lose data allowance – the resulting experience being that customers devices appeared no longer connected to the internet.

During this period provisioning via APIs was also affected.

Engineers were engaged immediately and were able un-lock the database and clear down the CPU threads waiting to write to the database.

Once the database was responsive again, this left some subscribers connected to the PGWs in a “blocked” state, so a process was initiated to refresh those subscribers so they were granted the octets again and data service access was restored to all subscribers by 15:21 CET.

1.1.Post Incident review

The maintenance operation was not properly planned, as to assess the impact by the engineering team. As a result unintended behaviour occurred as a consequence.

Proper planning would have meant the operation would have not been attempted during working hours, and also should not have been so impactful.

1.1.Mitigating Actions

  • There was already a project on going to move away from the CCA application to   a more modern OCS application (OCS was not impacted during this period) – this will now be expedited to reduce the risk of any re-occurrence.
  • Add support in PGW configuration to be able to assume “positive” answer from OCS when received error from OCS. This can mitigate service disruption when OCS is un-reachable.
  • Process improvement including additional peer checks for maintenance operations.

Titre: Interruption du service : 26 février 2026

Début de la perturbation du service : 11:35 CEST

Interruption de fin de service :          15:21 CEST

1.                 Détails de l'incident

Vers 12h15 CET, une opération de maintenance a été effectuée sur un serveur de base de données au sein du réseau central eSIMsmart.

L'opération de maintenance a accidentellement verrouillé la base de données qui accorde des octets aux abonnés demandant des services de données. L'application CCA continuait d'essayer d'écrire dans la base de données verrouillée, ce qui consommait tous les threads du processeur et rendait le cluster de base de données non réactif.

Cela a entraîné la perte de données d'un nombre important d'appareils – l'expérience résultant étant que les appareils des clients semblaient ne plus être connectés à Internet.

Durant cette période, le provisionnement via les API a également été affecté.

Les ingénieurs ont été immédiatement engagés et ont pu déverrouiller la base de données et vider les threads CPU en attente d'écriture dans la base de données.

Une fois la base de données réactive, certains abonnés connectés aux PGW étaient dans un état « bloqué », un processus a été lancé pour rafraîchir ces abonnés afin qu'ils obtiennent à nouveau les octets et l'accès aux services de données soit rétabli à tous les abonnés à 15h21 CET.

1.1.    Revue post-incident

L'opération de maintenance n'a pas été correctement planifiée, afin d'évaluer l'impact par l'équipe d'ingénierie. En conséquence, un comportement non intentionnel s'est produit.

Une planification adéquate aurait signifié que l'opération n'aurait pas été tentée pendant les heures de travail, et n'aurait pas dû avoir autant d'impact.

1.1.1    Mesures d'atténuation

  • Il y avait déjà un projet visant à passer de l'application CCA à une application OCS plus moderne (l'OCS n'a pas été affecté durant cette période) – cela sera désormais accéléré pour réduire le risque de récidive.
  • Ajouter un support en configuration PGW pour pouvoir supposer une réponse « positive » d'OCS lors d'une erreur reçue d'OCS. Cela peut atténuer les perturbations du service lorsque l'OCS est injoignable.
  • Amélioration des processus, incluant des vérifications supplémentaires par les pairs pour les opérations de maintenance.
Posted Feb 27, 2026 - 19:54 CET

Resolved

The issue has now been resolved. Apologies for the inconvenience caused. A root cause analysis and RCA document will be available via this status page in the post-mortem section as soon as possible.
If any devices/subscribers continue to have issues a Refresh command can be sent from the SIM management portal.
----
Le problème est désormais résolu. Veuillez nous excuser pour la gêne occasionnée. Une analyse des causes profondes et un document RCA seront disponibles dès que possible sur cette page d'état, dans la section post-mortem.
Si certains appareils/abonnés continuent à rencontrer des problèmes, une commande de rafraîchissement peut être envoyée depuis le portail de gestion des cartes SIM.
Posted Feb 26, 2026 - 15:56 CET

Monitoring

The underlying issue now appears to be resolved and subscribers/devices are starting to show signs of recovery and can see data services are now flowing correctly. Some subscribers are needing a manual refresh to force the granting of "octets" again, so engineers are currently working through a process to do that, so services should return to normal within the next 30 minutes.
Engineers will then enter a period of constant monitoring to be sure services remain stable.
Apologies again for any inconvenience.
----
Le problème sous-jacent semble désormais résolu et les abonnés/appareils commencent à montrer des signes de rétablissement. Les services de données fonctionnent à nouveau correctement. Certains abonnés doivent effectuer une actualisation manuelle pour forcer l'octroi d'« octets », les ingénieurs travaillent donc actuellement à la mise en place d'un processus pour y parvenir. Les services devraient donc revenir à la normale dans les 30 prochaines minutes.
Les ingénieurs entreront ensuite dans une période de surveillance constante afin de s'assurer que les services restent stables.
Nous vous prions de nous excuser pour la gêne occasionnée.
Posted Feb 26, 2026 - 14:25 CET

Identified

The issue appears to be related to the performance of a back-end database, which is responsible for granting the "octets" or data services to a subscriber when it requests data. Engineers are looking to correct this asap.
Apologies for any inconvenience.
---
Le problème semble être lié aux performances d'une base de données back-end, qui est chargée d'accorder les « octets » ou services de données à un abonné lorsqu'il demande des données. Les ingénieurs s'efforcent de corriger ce problème dans les plus brefs délais.
Nous vous prions de nous excuser pour la gêne occasionnée.
Posted Feb 26, 2026 - 13:27 CET

Investigating

We have identified an issue that may be causing degraded service for some subscribers.
Some subscribers attempting to establish a data session are unable to transmit or receive any data.
Subscribers already in session do not appear to be impacted.
Engineers are working on this as a priority.
Apologies for any inconvenience.

---

Nous avons identifié un problème susceptible d'entraîner une dégradation du service pour certains abonnés.
Certains abonnés qui tentent d'établir une session de données ne parviennent pas à transmettre ou à recevoir des données.
Les abonnés déjà en session ne semblent pas être affectés.
Nos ingénieurs travaillent en priorité sur ce problème.
Nous vous prions de nous excuser pour la gêne occasionnée.
Posted Feb 26, 2026 - 13:04 CET
This incident affected: Network (France - Data, Roaming - Data, IoT Services).