Cómo Amazon advierte fallas del Data Center como Delta $150 M colapso


presentado por conocimiento de centro de datos

es típico para los operadores de centros de datos en la escala de hyper como Amazon construir su propia infraestructura tecnológica cuando no está disponible en el mercado o cuando se sienten, puede hacer más barato por su cuenta.

una pieza de tecnología construido interna Amazon pretende eludir lo que se de la parte superior de la infraestructura de la empresa ingenieros describen como prioridades fuera de lugar en el diseño de los proveedores de aparellaje eléctrico de sus productos.

es este problema que probablemente causó el verano últimos Delta datos centros abajo que finalmente costó a la compañía $ 150 millones, así como el famoso abajo 2013 durante el Super Bowl. Y John Hamilton, Vicepresidente y distinguido ingeniero en Amazon Web Services, ha visto este tipo de falla en los centros de datos, que supervisó durante su carrera.

Véase también: Amazonas dice ruptura de nube de empleado Error causado el martes

“operando a un nivel mucho más alto, yo personalmente lo resolvió dos veces en mi vida profesional”, escribió en un post en su blog personal. No se sabe donde trabajó cuando estos fallos que sucedieron, pero el ingeniero pasó una docena de años de Microsoft antes de ingresar a la Amazonía.

Hamilton no es ninguna referencia a Delta específicamente en su blog, pero que había que de una sola línea aérea importante data center falta el verano pasado incluyendo la línea aérea divulgó más adelante consecuencias de nueve dígitos.

Vea también: Cómo sobrevivir a un colapso de la nube

la tecnología Amazon diseñada para evitar este tipo de falta es el firmware que decide qué aparellaje eléctrico debe ser utilizado cuando un centro de datos pierde poder la utilidad. Proveedor típico firmware da prioridad a dañar prevenir costosos generadores backup para prevenir un desglose del centro de datos completo, según Hamilton. Amazon (y probablemente la mayoría otros operadores de centro de datos a gran escala) prefieren el riesgo de la pérdida de un equipo de $1 millón más que el riesgo de la interrupción de las aplicaciones comunes.

cuando todo va según lo previsto durante una falla (que es el caso de la mayoría de las veces), las expectativas del aparato durante unos segundos en el caso cuando el poder (también el escenario más común) y si no, el equipo se enciende generadores, mientras que el centro de datos está trabajando a la energía almacenada por los sistemas de UPS. Una vez que los generadores se han estabilizado, el aparato hace que la principal fuente de alimentación para sistemas informáticos.

apagón del año pasado centro de datos de Delta ha sido atribuida al aparato de ‘bloqueo’ de los generadores en la planta de la compañía en Atlanta. No es qué aparato está diseñado para hacer cuando se detecta una anomalía de gran tensión en el centro de datos o sobre la utilidad de entrada de alimentación. Conectar un generador a un circuito corto circuito generalmente fríe el generador y equipos eléctricos de los generadores de cerraduras en para evitar que.

Véase también: Centro de datos de falla de enfriamiento altera Azure Cloud Japón

en la mayoría de los casos, la falta es fuera del edificio, si ese plan no ayuda a otro que causar la falla del centro de datos, escribió Hamilton. (Los dos eventos, es ayudado fueron causadas por coches bancos encuestas de aluminio, que cayeron en los cables de electricidad.) En el caso raro donde cuando hay un corto dentro de lo data center, es un interruptor de circuito de rama se abre y servidores, se alimenta del interruptor a una fuente de energía diferente, o (si la falla es más alta en el sistema de distribución eléctrica o si un interruptor no se abre) un generador puede dañarse si no está bloqueado.

“Más bien pondría un poco menos de $ 1 millón en riesgo para garantizar que la carga será caída.” Si un cliente podría perder $ 100 millones, excepto el generador de la derecha no se siente como la prioridad de la derecha, “él escribió.

cuando ingenieros de Amazonas pidió su fabricante de equipo eléctrico para eliminar el bloqueo de su condición de firmware, entendiéndose que ellos estaban dispuestos a aceptar el posible fallo del equipo, el vendedor ha disminuido, forzando a la decisión de Amazon de hacer su propio firmware interno.

“Tengo suerte de trabajar en un operador de alta gama donde ingeniería personalizada para evitar el todavía un fallo raro todavía tiene excelente sentido económico, así que hemos resuelto este modo particular de falla unos años atrás,” Hamilton escribió.