Para ser clasificado como un verdadero lago de datos, un repositorio Big Data tiene que exhibir tres características
- Debe ser un único repositorio compartido de datos, típicamente almacenado dentro de un sistema de archivos distribuidos de Hadoop (HDFS).
- Incluir capacidades de orquestación y programación de trabajos (por ejemplo, a través de YARN).
- Contener un conjunto de aplicaciones o flujos de trabajo para consumir, procesar o actuar sobre los datos.
El almacenamiento de datos en un enterprise data warehouse (EDW), funciona bien para ciertos tipos de analítica y muchos de los usuarios finales dependen del enriquecimiento que las áreas de IT hacen sobre el EDW. Pero, la complejidad, inflexibilidad de diseño e intolerancia al error humano los hacen poco prácticos para su explotación en la era del Big Data.
References
- Alice LaPlante & Ben Sharma, «Architecting Data Lakes«; O’Reilly Media, Inc., March 2016, ISBN 978-1-491-95257-3.