Servidores RAID: La verdad tras su posible recuperación (PARTE 7)

<-- Ver la PARTE 6 aquí Ver la PARTE 8 aquí -->

Continuamos con nuestro blog sobre servidores RAID y la verdad tras su posible recuperación. La pregunta del blog anterior fue:

¿Qué pasaría si usted no tiene “Unidades trabajando” con las cuales pueda reconstruir?

En este caso usted deberá reparar los discos duros dañados y tratar de clonarlos

¿Qué pasaría si no soy capaz de determinar cuales son las “Unidades trabajando”?

En este caso usted deberá reconstruir el arreglo con diferentes combinaciones y descifrar cual dará el mejor resultado reconstruido.

En la foto siguiente notamos un disco duro SCSI …… que tiene daños en la superficie. La velocidad de este disco duro asciende a 15K RPM sumado la distancia de los cabezales, un impacto contra la superficie es suficiente para calentar la unidad muy fuerte y terminar de destruir la información contenida en el mismo.

ESCENARIO CUANDO CAEN 2 DISCOS DUROS – EL CASO MÁS COMÚN EN LA FALLA DE UN RAID 5

El escenario más frecuente en los arreglos de RAID 5 es la caída de 2 discos duros al mismo tiempo. La razón es simple, la verdad es que al comienzo cae 1 disco duro y nadie se da cuenta de lo sucedido. Luego, el RAID 5 continua operando en modo degradado, simulando el disco duro perdido, durante meses. En este punto, el sistema corre un poco más despacio de lo usual pero ningún usuario se percata hasta que el segundo disco duro cae. Finalmente, el servidor de RAID cae y es forzado a detenerse, apareciendo en ese momento como si los 2 discos duros hubieran caído al mismo tiempo.

La trampa de los 2 discos duros caídos

Para explicar el riesgo que peligro y riesgo que existe cuando 2 discos duros caen es mejor ilustrarlo con un ejemplo: Imaginemos que usted tiene un RAID 5 con 4 x 100 GB, 1 disco duro cae y el RAID continúa trabajando, en modo degradado, con 3 discos duros. Luego, 6 meses más tarde, un segundo disco duro falla y el RAID se detiene. Debido a ello, digamos que el técnico IT viene a revisar el problema y vuelve a encender todo el servidor. Para ello, él necesitará por lo menos 3 “Unidades trabajando” para realizar una recuperación perfecta. Ahora, imaginemos que el disco duro fallido tiene la tarjeta de circuito impresa dañada, el disco duro que fallo hace 6 meses solo tiene algunos sectores y reinicias el servidor. Pues bueno, el arreglo de RAID inteligente encontrará que este disco fallido hace meses tiene problemas y no debe ser usado. Aún así, el técnico IT puede forzar al RAID a aceptar la unidad defectuosa y terminar por reconstruir el servidor usando este. Sumado a esto, al momento de colocar una nueva unidad dentro y reiniciar el servidor, es cuando el problema incrementa. El sistema operativo indica que el sistema de archivos esta dañado y necesita ser reparado. Aquí es cuando el técnico IT deja que la reparación de discos se realice y empieza a crearse una cantidad de daños inimaginables y la pérdida de datos de su servidor se vuelve inevitable. Por ejemplo, hemos encontrado casos de servidores que los han dejado reconstruyendo hasta 10 horas y nunca encontraron datos, lo único que hicieron fue hallar datos corruptos e irrecuperables ( Lo cual era de esperarse)

Historia del caso: Al momento del diagnóstico preguntamos si no se habían dado cuenta del mensaje de error que aparece en la pantalla de inicio y respondieron no. Pero cuando la secretaria oyó del mismo, dijo que el mensaje había aparecido un día y solo presionó ENTER y todo continuó funcionando como siempre.

Entonces: Como evitar que 2 discos duros fallen simultáneamente?

Esto es inevitable, en muchos casos, por eso usted debe estar siempre pendiente de los mensajes que aparecen en pantalla y tomar las medidas correctivas. Además, reconstruir con un nuevo disco duro en blanco no causa ningún daño, siempre y cuando lo realice de la manera correcta. Finalmente, considere siempre reiniciar su sistema cuidadosamente y de manera segura, revisando primero si hay daños en otros discos duros.

HACER: REINICIO SEGURO – CÓMO REINICIAR DE FORMA SEGURA Y VERIFICAR LOS DAÑOS?

Luego de reconstruir o reconfigurar un arreglo de RAID, usted necesita levantar el sistema en modo seguro donde nada permita la sobre escritura de los datos. Usted tiene que verificar que los archivos estén funcionando sin problemas, evitando se sobrescriban en los discos duros. Primero desconecte los usuarios y los cables de red, y cuando el sistema empiece a bottear, presione ESC para interrumpir el CHKDSK u otras acciones que reparen las inconsistencias del sistema de archivos. Cuando usted reinicie Windows, este tratara de correr el CHKDSK con la intención de reparar los volúmenes – NO LO PERMITA!, es mejor presionar RESET que dejar reparándolo por horas (Mac’s harán lo mismo). Una vez usted haya ingresado al Windows, deberá realizar un TEST SOLO DE LECTURA del sistema RAID y para hacerlo debe ingresar al command prompt y correr el “chkdsk X:” (X es el volumen a revisar) y verifique los mensajes de error. Para ello, poca cantidad de errores no es usual pero si arroja muchos errores de archivos dañados, algo no está funcionando bien y NO TRATE de reparar estos errores usando “CHKDSK /F” porque algo esta errado en la configuración y en este momento, ejecutar acciones causará daños irreversibles al sistema de archivos de su arreglo RAID. Por ello, DETÉNGASE EN ESTE PUNTO y llame a un experto (EN PERÚ RECUPERACIÓN DE DATOS ITP – EMERGENCIAS: 01-4442368/ 991936674). En el caso de Mac’s ejecute “diskutil verifyvolume” para verificar los volúmenes pero no trate de repararlo.