Data lakes (3)

Para ser clasificado como un verdadero lago de datos, un repositorio Big Data tiene que exhibir tres características

  1. Debe ser un único repositorio compartido de datos, típicamente almacenado dentro de un sistema de archivos distribuidos de Hadoop (HDFS).
  2. Incluir capacidades de orquestación y programación de trabajos (por ejemplo, a través de YARN).
  3. Contener un conjunto de aplicaciones o flujos de trabajo para consumir, procesar o actuar sobre los datos.

El almacenamiento de datos en un enterprise data warehouse (EDW), funciona bien para ciertos tipos de analítica y muchos de los usuarios finales dependen del enriquecimiento que las áreas de IT hacen sobre el EDW. Pero, la complejidad, inflexibilidad de diseño e intolerancia al error humano los hacen poco prácticos para su explotación en la era del Big Data.

References

  1. Alice LaPlante & Ben Sharma, «Architecting Data Lakes«; O’Reilly Media, Inc., March 2016, ISBN 978-1-491-95257-3.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.