Big Data | Noticias | 07 ABR 2015

La adicción al big data y el estado gravitacional del dato

La clave del éxito en big data no se sustenta en saber si es mejor Spark o Hadoop, sino en la elección de la infraestructura adecuada.
Big data
Marga Verdú

Big data no es algo que tenga que ver con procesos en tiempo real contra procesos batch. Tampoco es una cuestión que tenga una relación directa con las predicciones de analistas de prestigio como Ovum. No es sorprendente  que surjan controversias a estas alturas dada la extensa gama de opciones y workloads que permiten construir una espléndida estrategia de big data.

 

Más controvertido, aunque no resulta tan sorprendente, es ponerse de acuerdo en la naturaleza de la infraestructura requerida para sacar el máximo partido al big data. Por ejemplo, Matt Wood, responsable científico de AWS (Amazon Web Services), advierte que, mientras que la analítica de datos puede resultar una práctica adictiva, esta adicción positiva podría agriarse rápidamente si la infraestructura fuese incapaz de soportar los procedimientos de análisis de una manera efectiva. “La clave del éxito en big data no consiste en elegir entre una u otra plataforma, sino en poner en marcha y gestionar una infraestructura elástica.

 

Desde el punto de vista de Shaun Connolly, vicepresidente de estrategia corporativa de Hortonworks, la nube juega un papel fundamental en los procesos de analítica de big data. No obstante, Connolly cree que el factor principal en determinar dónde los procesos de big data tienen lugar no reside en la elasticidad de la infraestructura, sino en el estado “gravitacional del dato”.  Connolly señala que “el incremento de sistemas tradicionales como data warehouses será el factor que conducirá a la proliferación de infraestructuras internas de big data.” En cualquier caso, este experto reconoce que cloud está emergiendo como una opción popular creciente para el desarrollo y testeo de nuevas aplicaciones de análisis y procesamiento del big data que se genera entre las cuatro paredes de la empresa.

 

Los clientes de big data de AWS van desde pequeñas startups como Reddit a empresas que mueven volúmenes masivos de datos como Novartis y Merck. Para cualquiera de estos casos, Wood sugiere la incorporación de 3 componentes clave que han de estar presentes en cualquier sistema de analítica de datos: una única fuente de datos verdadera. En este sentido, AWS proporciona múltiples maneras para almacenar esta fuente de datos desde sistemas de almacenamiento S3 hasta bases de datos como DynamoDB, RDS o Aurora a soluciones de data warehousing de tipo Redshift.

 

En procesos de analítica en tiempo real, Wood afirma que las compañías a menudo incrementan esta única fuente de verdad con datos procedentes de streaming, como clickstreams de sitios web o transacciones financieras. Mientras AWS ofrece Kinesis para el proceso de datos en tiempo real, existen otras opciones como Apache Storm y Spark. “Con estos componentes en mente, big data no es una cuestión de batch versus procesamiento en tiempo real, sino en un gran conjunto de herramientas que van a permitir manejar los datos de diversas maneras a través de funciones de analítica en tiempo real, y la adopción de clusters como Hadoop para tareas relacionadas con la visualización de los datos. 

Contenidos recomendados...

Comentar
Para comentar, es necesario iniciar sesión
Se muestran 0 comentarios
X

Uso de cookies

Esta web utiliza cookies técnicas, de personalización y análisis, propias y de terceros, para facilitarle la navegación de forma anónima y analizar estadísticas del uso de la web. Consideramos que si continúa navegando, acepta su uso. Obtener más información