Deduplicación de datos

Optimizando la capacidad disponible

La protección de datos está cambiando rápidamente, y, según la mayoría de los expertos, para bien. Una de las nuevas propuestas más interesantes es la deduplicación de datos, también conocida como “optimización de la capacidad disponible”, “commonality factoring” o “almacenamiento de única instancia”, según el lenguaje preferido por cada suministrador.

La deduplicación de datos ha emergido como una tecnología clave en el intento de reducir la cantidad de datos sobre los que diariamente se realiza backup; un volumen que en muchas empresas aumenta a ritmos superiores al 100% anual. En un reciente informe, IDC pronosticaba que la capacidad de almacenamiento disponible resultará insuficiente ya este mismo año. Según la consultora, si los ritmos actuales continúan y no se encuentra alguna solución, el volumen global de datos creados a nivel mundial ascenderá a 988 exabytes –988.000 millones de gigabytes– en 2010, mientras que la capacidad de los sistemas para almacenarlos será de tan sólo 600 exabytes.
La deduplicación puede ser una solución, al menos parcial, al problema. También conocidas como tecnologías de almacenamiento de una sola instancia, su funcionamiento se basa en la eliminación de las copias redundantes que puedan existir en copias de seguridad completas e incrementales. Con ellas, algunas empresas aseguran haber podido almacenar un año completo de copias de backup en la misma capacidad, que, antes de su introducción, quedaba agotada en dos o tres semanas.
En el contexto del backup, la deduplicación va un paso más allá de los métodos incrementales, que minimizan el tráfico copiando sólo los bloques de datos que hayan cambiado después del backup anterior. La deduplicación, sin embargo, copia sólo los bloques modificados y que, además, sean únicos.

Gestión centralizada
En cualquiera de sus formas, la deduplicación tiene el potencial de ahorrar a los usuarios finales grandes cantidades de euros en espacio de almacenamiento. Su aplicación continuada puede reducir los requerimientos de medios en el back-end de forma significativa, y ello sin sacrificar en absoluto la protección de los datos. De hecho, este tipo de soluciones proporciona a menudo reducciones en tasas de 20 a uno en datos de backup.
Pero los potenciales beneficios de su introducción no se limitan al ahorro de espacio de almacenamiento. Como resultado de los enormes ratios de compresión facilitados por la tecnología de deduplicación, el disco se está convirtiendo en una alternativa de soporte de almacenamiento más atractiva y viable; una alternativa online capaz de sustituir a los tradicionales sistemas de backup basados en cinta, acelerando así muchos procesos empresariales, además de optimizar el uso del ancho de banda corporativo y facilitar la gestión centralizada.
Las personas que trabajan en sucursales remotas, por ejemplo, necesitan acceso instantáneo a todos los datos y aplicaciones disponibles en la sede central corporativa. Y para ello, los departamentos de TI generalmente se ven obligados a desplegar minicentros de datos en tales sucursales, con servidores de aplicación, almacenamiento de datos basado en bloques y ficheros, cintas de backup e impresoras de informes, sacrificando así el control administrativo. Pero con la deduplicación, los backups pueden realizarse sobre la WAN utilizando el ancho de banda desaprovechado en períodos de inactividad, eliminando así la necesidad de disponer de cintas en los sitios remotos.
De esta manera, la deduplicación está emergiendo como una opción cada vez más robusta para minimizar la redundancia de datos en los principales sistemas de almacenamiento, pero también como un medio de hacer posible diversos servicios WAN, dado que la replicación se hace mucho más asequible si se consigue minimizar el tráfico de área amplia. Aunque ha estado disponible ya el año pasado a través de startups como Asigra, Avamar (adquirida por EMC en noviembre de 2006), DataDamain y Diligent, y proveedores de software OEM, como Recksoft, en los últimos tiempos ha conseguido hacerse un respetable hueco en las estrategias de todos las firmas de protección de datos.

Múltiples enfoques
De cualquier modo, no todas las soluciones de deduplicación –a la que algunos se refieren como “de-dupe” para abreviar– son iguales ni se ajustan de la misma manera a todas las empresas. Común a todas, sin embargo, es, como se ha dicho, la aplicación de técnicas de detección de factores comunes en la información para reducir el volumen de datos, ya sea a nivel del servidor de backup (fuente) o del dispositivo de almacenamiento de destino. Una vez detectada la información redundante, se consolidan los datos duplicados, eliminando archivos repetidos y reduciendo al mínimo la cantidad posible cuando se actualizan los ficheros. Pero esto puede hacerse a dos niveles diferentes. Más concretamente, la duplicación puede realizarse a nivel de algún tipo de sistema de backup (deduplicación en destino) o a nivel de la fuente de datos a los que se aplica el backup, como el servidor de aplicación (deduplicación en fuente). Tradicionalmente, los productos de deduplicación más frecuentes han sido los del primer tipo, pero existe un creciente interés en su aplicación a nivel de servidor por cuanto, según algunos expertos, aporta beneficios aún mayores. Seguramente, esta segunda alternativa será por la que se decantarán las empresas más preocupadas por la fidelidad de lo datos y que quieran prevenir cualquier posibilidad de borrado accidental de datos únicos.
Los productos de-dupe en destino son generalmente utilizados como parte de un repositorio final para backup de datos. Hoy, la mayoría del software de recuperación soporta volúmenes de cinta, ficheros o discos como destinos, y los productos de-dupe en destino actúan como una librería de cintas y soportan librerías de cintas virtuales (VTL), o pueden actuar como un servidor de ficheros NAC (Network-Attached Storage) con capacidades NFS (Network File System) o CIFS (Common Internet File System). También pueden funcionar como un disco con soporte de números de unidades lógicas (LUN) Fibre Channel o iSCSI.
Los productos de deduplicación en fuente sustituyen el software de backup utilizado en una configuración cliente/servidor, donde los clientes remotos deduplican los datos que se someten a backup y sólo transmiten un único dato al servidor central. Esto reduce los requerimientos de ancho de banda considerablemente, un beneficio propio y exclusivo de la deduplicación basada en fuente cuando los datos sometidos a back-up se encuentran en oficinas remotas y el destino de la copia es alguna plataforma en la central corporativa. La deduplicación a posteriori en destino no aporta en tales casos ventajas al consumo de ancho de banda WAN.
Las soluciones de deduplicación en destino pueden, a su vez, distinguirse entre sí según el momento en el que se produce el proceso. Para minimizar el efecto de estos procesos sobre el rendimiento del backup, algunos suministradores deduplican los datos en un segundo plano, fuera de banda. Las soluciones de este tipo dirigen la corriente de datos a la memoria intermedia (buffer) del disco y es entonces cuando reducen su tamaño vía deduplicación.
Otros productos de deduplicación en destino, por el contrario, mane

Contenido Patrocinado

Fernando Rubio Román, CTO de Microsoft España. TECNOLOGÍA
Forma parte de nuestra comunidad

 

¿Te interesan nuestras conferencias?

 

 
Cobertura de nuestros encuentros
 
 
 
 
Lee aquí nuestra revista de canal

DealerWorld Digital