La facilidad de los lagos de datos para incursionar en la era del Big Data residen en:
- Su independencia de un único modelo de datos.
- Su habilidad para manejar flujos de datos (streaming).
- El ajuste de la tarea a la herramienta (el no requerir preparativos previos para el uso de una herramienta sino el construir los esquemas de datos necesarios hasta el momento de hacer las consultas).
- Accesibilidad más simple, pues el modelado de datos se hace a un lado hasta que realmente se haga uso de los datos.
- Reducción de costos al hacer uso de tecnología enfocada al entornos distribuidos.
- Escalabilidad al hacer uso de tecnología creada ex profeso con miras en su crecimiento en entornos distribuidos.
Gobernabilidad y administración
El mantenimiento y «gobernanza» del lago de datos puede ser llevado a cabo bajo diferentes enfoques que, principalmente dependerán de los propósitos de misión crítica (aquellos propósitos de los que el negocio depende). Cuatro opciones se plantean para agregar esto.
- Atención a posteriori. Existe, la opción de no hacer nada (el simplemente agregar contenido al lago) y determinar luego qué hacer. Esto puede ser considerado una opción adicional, pero tampoco es una recomendable. Por supuesto, la mejor y más natural forma de administrar el data lake es destinar o construir herramientas ex-profeso que permitan agregar datos al data lake en forma irrestricta y buscar herramientas que ayuden a preparar datos llegado el momento. El aislamiento de conjuntos de datos que pueden ser útiles es un riesgo frecuente, ante la dificultad de saber por dónde inciar ante el enorme volumen de datos disponibles.
- Uso de herramientas legadas. Por supuesto una opción para explotar aquello en lo que ya se ha invertido y que se conocen bien. Pero, estas herramientas fueron creadas para situaciones y condiciones de trabajo muy específicas su uso puede ser mucho más costoso en tiempo de aprendizaje y adaptación a las nuevas condiciones de los conjuntos de datos de entrada. Una opción costosa, que no está exenta de las labores de ETL (Extract-Transform-Load) necesarias para muchos productos ya desarrollados pero enfocados a EDW (Enterprise Data Warehouse[s/-ing]).
- Elaboración de guiones personalizados. Guiones de trabajo (scripts) elaborados ex profeso para conectar procesos, aplicaciones, validaciones y procesos ETL (Extract-Transform-Load), una opción popular para agregar gobernanza y gestión al lago de datos. Desafortunadamente, también es la menos confiable. Se necesitan analistas altamente calificados inmersos en Hadoop y código abierto, quienes requerirán escribir scripts para conectar mucho de lo que seguramente será heterogéneo. Este proceso se volverá más lento y costoso a medida que crezca la dependencia del lago de datos. Después de todo, scripts personalizados deben actualizarse y reconstruirse constantemente, a medida que más fuentes de datos son vertidas en el lago de datos y más propósitos encontrados para los datos. Se deben revisar el código y los flujos de trabajo continuamente. Conforme el personal personal calificado llega y abandona la empresa, valioso conocimiento se pierde con el tiempo.
- Desplegar una plataforma de administración para data lakes. Una opción muy popular, orientada a hacer uso de las herramientas que están surgiendo para la explotación de los lagos de datos.
References
- Alice LaPlante & Ben Sharma, «Architecting Data Lakes«; O’Reilly Media, Inc., March 2016, ISBN 978-1-491-95257-3.