Cómo un pequeño error se convirtió en una interrupción masiva que derribó Internet
Por Lisa Eadicicco y David Goldman, CNN
Una interrupción masiva de AWS el lunes que hizo caer algunas de las aplicaciones y servicios más populares del mundo comenzó con un error.
El error, que se produjo cuando dos sistemas automatizados intentaban actualizar los mismos datos simultáneamente, se convirtió en algo significativamente más serio que los ingenieros de Amazon se apresuraron a solucionar, dijo la compañía el jueves en una evaluación post mortem.
La interrupción masiva del servicio en la nube impidió que los usuarios pudieran pedir comida, comunicarse con las redes hospitalarias, acceder a la banca móvil o conectarse a sus sistemas de seguridad y dispositivos domésticos inteligentes.
Grandes empresas globales, como Netflix, Starbucks y United Airlines, no pudieron ofrecer temporalmente a sus clientes acceso a sus servicios en línea.
“Nos disculpamos por el impacto que este evento causó a nuestros clientes”, declaró Amazon en un comunicado en el sitio web de AWS. “Sabemos que este evento afectó significativamente a muchos clientes. Haremos todo lo posible por aprender de este evento y aprovecharlo para mejorar aún más nuestra disponibilidad”.
A grandes rasgos, el problema se debía a que dos programas competían por escribir la misma entrada DNS (esencialmente, un registro en la agenda telefónica de internet) al mismo tiempo, lo que resultaba en una entrada vacía. Esto desorganizó varios servicios de AWS.
“La analogía de una guía telefónica es bastante acertada, ya que la gente al otro lado de la línea está ahí, pero si no sabes cómo contactarlos, tienes un problema”, declaró a CNN Angelique Medina, directora del servicio de monitoreo de redes ThousandEyes Internet Intelligence de Cisco. “Y esa guía telefónica desapareció”.
Indranil Gupta, profesor de ingeniería eléctrica e informática de la Universidad de Illinois, utilizó una analogía de aula para explicar el análisis técnico de Amazon en un correo electrónico a CNN. Supongamos que a dos estudiantes, uno que trabaja rápido y el otro que trabaja más despacio, se les pide que colaboren en un cuaderno compartido.
El estudiante más lento “presta atención en breves intervalos, pero su trabajo puede entrar en conflicto o contradecir el del estudiante más rápido”, escribió. Al mismo tiempo, el estudiante más rápido puede estar “intentando constantemente ‘arreglar’ las cosas rápidamente” y eliminar el trabajo del estudiante más lento porque está desactualizado.
“El resultado… una página en blanco (o una página tachada) en el cuaderno de laboratorio, cuando el profesor viene y la inspecciona”, escribió.
Esa “página vacía” provocó la caída de la base de datos DynamoDB de AWS, lo que generó un efecto dominó que afectó a otros servicios de AWS como EC2, que ofrece servidores virtuales para desarrollar e implementar aplicaciones, y Network Load Balancer, que gestiona la demanda en toda la red.
Cuando DynamoDB volvió a estar en línea, EC2 intentó reactivar todos sus servidores a la vez, pero no pudo mantener el ritmo.
Amazon está realizando una serie de cambios en sus sistemas luego de la interrupción, incluida la solución del “escenario de condición de carrera”, que provocó que los dos sistemas sobrescribieran el trabajo del otro en primer lugar, y agregando un conjunto de pruebas adicional para su servicio EC2.
Apagones como el del lunes, aunque poco frecuentes, son una realidad, afirmó Gupta. Pero lo importante es cómo se abordan estos problemas.
“Apagones a gran escala como este ocurren sin más. No se puede hacer nada para evitarlos, al igual que ocurre con la gente que se enferma”, declaró Gupta a CNN por teléfono. “Pero creo que la forma en que la empresa reacciona ante los apagones y mantiene informados a los clientes es fundamental”.
The-CNN-Wire
™ & © 2025 Cable News Network, Inc., a Warner Bros. Discovery Company. All rights reserved.