Fallos catastróficos en sistemas informáticos

De FdIwiki ELP
Saltar a: navegación, buscar

A lo largo de los años han sucedido múltiples fallos catastróficos causados por errores informáticos, que han causado cuantiosas pérdidas económicas e incluso humanas. Dado que conocer la historia es imprescindible para no repetirla, veremos una lista de los errores informáticos con peores consecuencias.

Therac-25

El Therac-25 era una máquina fabricada en 1982 por Atomic Energy of Canada Limited para administrar radioterapia a enfermos de cáncer. La máquina tenía dos modos de funcionamiento: en el primero emitía un haz de electrones de baja potencia directamente hacia el paciente, y en el segundo emitía otro haz de alta potencia que era modulado por un colimador, un dispositivo que limitaba la radiación recibida por el paciente.

Esta máquina era controlada exclusivamente por un computador y no tenía sistemas de protección mecánicos para evitar irradiar a los pacientes con dosis demasiado elevadas. Además, el sistema tenía una condición de carrera que provocaba que si el operador de la máquina introducía comandos en un momento determinado, la máquina funcionara en modo de alta potencia sin colimador, irradiando al paciente con una dosis cien veces superior a lo indicado.

La consecuencia de este fallo de software fue que, entre 1985 y 1987, al menos seis pacientes fueron irradiados con dosis muy superiores a lo normal, y al menos tres de ellos fallecieron por los efectos de la radiación.

Knight Capital

Knight Capital Group era una compañía de servicios financieros especializada en trading de alta frecuencia (HFT, compra-venta de acciones vía Internet). El 1 de agosto de 2012, Knight Capital perdió 460 millones de dólares en un plazo de 45 minutos, lo que casi llevó a la compañía a la bancarrota y acabó siendo adquirida por otra compañía en diciembre del mismo año.

La compañía operaba con un clúster de ocho servidores que ejecutaban el mismo software de HFT. Dicho software operaba mediante ciertos "flags" en la configuración que activaban diferentes funcionalidades del código. El día del incidente los administradores del sistema desplegaron una nueva versión del código en siete de los ocho servidores y activaron globalmente uno de dichos "flags". Esto produjo que en el único servidor que no tenía la nueva versión del código se activara una funcionalidad que había sido diseñada para hacer pruebas en un entorno controlado, y comenzara a realizar operaciones sin sentido que implicaban cuantiosas pérdidas. Dicho funcionamiento anómalo tardó 45 minutos ser detectado y subsanado, pero para entonces la compañía había perdido unos 460 millones de dólares.

Sistema antimisiles Patriot

El 25 de febrero de 1991 un misil iraquí destruyó un barracón del ejército americano en Arabia Saudí que estaba protegido por el sistema antimisiles Patriot, causando 28 muertos.

La investigación posterior determinó que el sistema informático que controlaba el radar usado para detectar misiles enemigos tenía un fallo en el reloj interno que aumentaba en relación al tiempo que permanecía encendido. Aquél día el sistema llevaba operando unas 100 horas por lo que el reloj estaba desfasado en un tercio de segundo. Esto implicó que cuando el computador trató de trazar la trayectoria del misil que había detectado, no pudiera encontrarlo en la zona que había predicho el software y por tanto descartara la amenaza como una falsa alarma.

Semanas antes el ejército israelí había informado al fabricante del problema detectado y de la solución que ellos utilizaban, que consistía en reiniciar el sistema frecuentemente.