SHM CONSULTING: Fallo en dos importantes servicios de computación en la nube

viernes, 6 de mayo de 2011

Fallo en dos importantes servicios de computación en la nube

Dos cortes de gran calibre ilustran lo complicado que es mantener en marcha un sistema en la nube.

Por Erica Naone

Recientemente, dos importantes servicios de computación en la nube, la Elastic Compute Cloud de Amazon y la PlayStation Network de Sony, han sufrido apagones prolongados. A pesar de que las circunstancias de cada uno son diferentes, los detalles que las empresas han dado a conocer acerca de sus causas muestran lo delicados que los complejos sistemas en la nube pueden ser.

La Elastic Compute Cloud de Amazon—uno de los servicios web más populares—estuvo apagada desde el jueves 21 de abril al domingo 24 de abril. Popular entre las startups, el servicio es utilizado por Foursquare, Quora y Reddit, entre otros. Los usuarios pueden alquilar recursos de computación virtuales y escalarlos hacia arriba o hacia abajo según fluctúen sus necesidades.

El corte de Amazon fue causado por una función llamada Elastic Block Store, que ofrece una forma de almacenar datos para que funcionen de manera óptima con las máquinas virtuales de la Elastic Compute Cloud. Elastic Block Store está diseñada para evitar que los datos que se pierdan durante la creación de forma automática de réplicas de las unidades de memoria, o "nodos" dentro de la red de Amazon.

El problema ocurrió cuando los ingenieros de Amazon trataban de actualizar la principal red de Elastic Block Store y accidentalmente enviaron algo de tráfico a una red de apoyo que no tenía capacidad suficiente. A pesar de que este error individual fue pequeño, tuvo efectos de largo alcance que fueron amplificados por los sistemas establecidos para proteger los datos.

Un gran número de nodos de Elastic Block Store perdieron su conexión con las réplicas que habían creado, haciendo que buscaran de inmediato un lugar para crear una nueva réplica. El resultado fue lo que Amazon llama "una tormenta de re-creación", a medida que los nodos creaban nuevas réplicas. El corte empeoró cuando otros nodos comenzaron a fallar bajo el ataque de tráfico, creando aún más huérfanos a la caza de espacio de almacenamiento en el que crear réplicas.

Los intentos de Amazon para solucionar el problema fueron obstaculizados por la necesidad de evitar interferencias con otros sistemas. Por ejemplo, Elastic Block Store no reutiliza los nodos que fallen, ya que los ingenieros que construyeron la función asumieron que contendría datos que quizá necesitasen ser recuperados.

Amazon afirma que el problema ha dado lugar a una mejor comprensión de su red. "Ahora entendemos la cantidad de capacidad necesaria para eventos de gran recuperación y modificaremos nuestra capacidad de planificación y alarma para que podamos implementar la capacidad de seguridad adicional necesaria para fallos a gran escala", escribió en un comunicado el equipo responsable del arreglo de la red.

Sin embargo, algunos expertos se preguntan si esto realmente ayudará a evitar interrupciones en el futuro. "No sólo los sistemas individuales pueden fallar", afirma Neil Conway, estudiante de doctorado en la Universidad de California, Berkeley, y que trabaja en un proyecto de investigación sobre plataformas informáticas de gran tamaño y complejidad. "Un fallo puede provocar todos estos efectos en cascada". Un problema similar condujo a la caída del Simple Storage Service de Amazon en 2008.

Uno de los mayores desafíos, explica Conway, es que "hacer pruebas es casi imposible, ya que, por definición, se trata de situaciones inusuales". Añade que es difícil simular el comportamiento de un sistema tan grande y complejo como los servicios web de Amazon, o incluso saber qué simular.

Conway espera que las empresas y los investigadores busquen nuevas formas de hacer pruebas de situaciones anormales para los sistemas de computación en la nube. "La gravedad del fallo y el tiempo que le llevó a Amazon recuperarse van a llamar mucho la atención de la gente", explica.

La PlayStation Network de Sony, una plataforma de juegos en línea vinculada a la PlayStation 3, aún no ha sido totalmente restaurada tras su interrupción el 20 de abril. La compañía la apagó en respuesta a una violación de seguridad y ha estado trabajando frenéticamente en la modificación del sistema para que se mantenga mejor protegido en el futuro. En un comunicado de prensa, Sony ofrece algunos detalles de su progreso hasta la fecha. La compañía ha añadido niveles mejorados de protección de datos y cifrado, cortafuegos adicionales, y mejores métodos para la detección de intrusiones y actividad inusual.

Tanto para Sony como Amazon, estos problemas se están produciendo en público, bajo presión, y bajo el escrutinio de millones de ojos. Los sistemas tan complejos como los servicios en la nube van a fallar, y es imposible prever todas las condiciones que podrían conducir a los problemas. Sin embargo, a medida que la computación en la nube madure, las empresas construirán pruebas, métodos de análisis y sistemas de copia de seguridad más extensos para evitar apagones que den como resultado pasar vergüenza pública y pérdidas financieras.

viernes, 6 de mayo de 2011

Fallo en dos importantes servicios de computación en la nube

No hay comentarios:

Publicar un comentario