Data lakes (6)

Los lagos de datos se construyen como vehículos para almacenar y proporcionar acceso a grandes volúmenes de datos dispares, pero son una solución universal. Permiten que datos puedan ser almacenados juntos para la búsqueda y descubrimiento, pero enfrentan desafíos para construir, administrar y obtener valor de aquellos datos fuera de este entorno.

Algunos de los retos de construcción son:

  • Desarrollo y evolución de la tecnología de Hadoop, esencialmente.
  • Conseguir personal calificado.
  • Complejidad tecnológica.

En lo que concierne a su administración, los desafíos para el consumo de datos son:

  • Publicar y mantener un catalogo de metadatos.
  • Administración de accesos.
  • Cumplimiento de regulaciones.

La administración del lago de datos contempla también el proceso de trasladar los datos al entorno distribuido, acción conocida como «ingestión», tras lo que continua el proceso de aseguramiento de la calidad de los datos (por facilidad de desempeño en el ambiente distribuido). Siendo los datos de naturaleza diferente, las reglas de gobernabilidad y calidad serán diferentes.

Los requerimientos básicos para la ingestión de datos incluyen:

  • Definición de los datos desde la perspectiva del negocio.
  • Documentar el «linaje de los datos», contexto y frecuencia de los datos de entrada.
  • Establecer las clasificaciones de seguridad sobre los datos (restringidos, sensibles, internos, públicos).
  • Creación, uso, privacidad, regulación y regla de ocultamiento (e.g. encriptación, cifrado) a aplicar.
  • Identificación de la propiedad y derechos sobre los datos.
  • Establecimiento de albaceas o protectores  sobre los datos y «su salud».
  • La continua medición de la salud de conjuntos de datos específicos.

La ausencia de un catálogo de datos promoverá una falta de visibilidad de los datos almacenados, y la privacidad y cumplimiento de regulaciones será siempre una preocupación sin una solución de administración.

Finalmente, sobre los retos y complicaciones, podemos decir que, mientras no se tenga una solución de administración, el manejo del lago de datos será artesanal. Cuando esto es así, los ya de por sí abrumados departamentos de tecnología informática y sistemas tendrán requerimientos sobre el lago de datos que competirán por recursos y atención.

Siguiente

References

  1. Alice LaPlante & Ben Sharma, «Architecting Data Lakes«; O’Reilly Media, Inc., March 2016, ISBN 978-1-491-95257-3.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.