Los fallos "silenciosos" de los chips ponen a prueba a los fabricantes de equipos

|

Los fallos "silenciosos" de los chips de CPU, GPU y aceleradores de inteligencia artificial (IA) pueden suponer una amenaza para los equipos, ya que provocan que los programas no funcionen con normalidad y no dejan rastro del error.



La llamada "corrupción silenciosa de los datos" (CDS, por sus siglas en inglés), hace referencia al fenómeno por el que los defectos en el 'hardware' hacen que se produzcan errores en los dispositivos sin que se perciban como tales.



Los errores en los chips de CPU, GPU y aceleradores de inteligencia artificial pueden producirse durante la etapa de diseño y fabricación, o incluso posteriormente a causa del envejecimiento del dispositivo o el entorno en el que opere.



Sin embargo, los fabricantes detectan entre el 95 y 99 por ciento de los errores, dejando un mínimo margen para que los chips defectuosos se incluyan en dispositivos. Según un análisis de la Universidad de Atenas, empresas de la talla de Meta, Google o Alibaba han revelado que una de cada mil de sus CPU pueden generar este tipo de fallos "silenciosos".



Estos chips defectuosos pueden generar errores visibles, como un fallo de carga, que se puede solucionar reiniciando el equipo, o si es un fallo más grave puede requerir un mayor soporte técnico. Sin embargo, existen también otros "fallos invisibles", que ocurren cuando no se bloquea la ejecución ni el proceso en el sistema porque no se ha detectado el fallo.



Precisamente, el hecho de que estos errores no se notifiquen hace que las empresas no sepan la cifra exacta de chips que están generando problemas, impidiendo su corrección y prevención, por lo que tienen que trabajar con estimaciones.



No obstante, el análisis indica que sí que hay una solución para que las empresas puedan reducir este tipo de errores, pero pasaría por incorporar mecanismos de prueba, detección y monitorización de 'hardware' y 'software' más sofísticados, lo que aumentaría los costes de producción y exigiría un mayor consumo de energía.



Así, las empresas se enfrentan a un nuevo reto: mejorar sus características mientras mantienen la fiabilidad en el rendimiento de sus equipos.




europapress