Data lakes (5)

La enorme cantidad de datos que presupone un data lake puede ser abrumadora para cualquier organización. Un marco conceptual basado en las mejores prácticas ayuda a las organizaciones a aprovechar de manera más efectiva todos sus datos para obtener información comercial y tomar buenas decisiones sobre las cuatro las funciones básicas que un data lake debe contemplar:

Ingestión de datos. La capacidad de capturar datos que provengan desde procesos en lotes (batch) hasta de flujo (streaming).

Almacenamiento y retención. De acuerdo a las necesidades, el alojamento de datos irá desde sistemas distribuidos (e.g. Hadoop HDFS) hasta bases de datos adecuadas a las necesidades de procesamiento (especialmente aquellas NoSQL).

Procesamiento. El procesamiento de datos es provisto tanto para procesamiento por lotes hasta para aquello en los que se necesita un procesamiento de tiempo real. Asegura el aprovisionamiento de capacidades de cómputo para establecer flujos de trabajo y procesamiento de datos repetibles.

Acceso. Disponibilidad por medio de API y capacidades de presentación (visualización) de resultados de análisis o procesamiento de datos.

Un aspecto esencial es la capacidad de administración y monitoreo que debe tenerse y las soluciones abordan el problema desde diferentes ángulos. Un enfoque descendente (top-down) toimará las mejores prácticas de las experiencias EDW de las organizaciones, e intentará imponer la gobernanza y la gestión desde el momento en que los datos se agregan al lago de datos. Otras soluciones toman un enfoque ascendente (bottom-up), que permite a los usuarios explorar, descubrir y analizar los datos de manera mucho más fluida y flexible.

Un enfoque combinado, también puede ser adoptado. Por ejemplo, para algunos el proceso de «arriba hacia abajo» (top-down) es esencial si los datos del lago van ser una parte central de la arquitectura general de datos de la empresa. Al mismo tiempo, gran parte del lago de datos se puede administrar desde abajo (bottom-up), incluida la ingestión de datos gestionados, inventario de datos, enriquecimiento de datos, calidad de datos, gestión de metadatos, linaje de datos, flujo de trabajo, y acceso de autoservicio.

Con un enfoque descendente, las políticas de gobernanza de datos se definen por un organismo centralizado dentro de la organización, como un jefe de datos. Las políticas se hacen cumplir por todas las diferentes funciones y roles que requiera construir el lago de datos. Esto incluye calidad de datos, seguridad de datos, sistemas de origen que pueden proporcionar datos, la frecuencia de las actualizaciones, las definiciones de los metadatos, identificando los elementos de datos críticos, y procesos centralizados impulsados ​​por una autoridad.

En un enfoque ascendente, los consumidores del lago de datos son probablemente científicos o analistas de datos. El aporte colectivo de estos consumidores es utilizado para decidir qué conjuntos de datos son valiosos, útiles y tienen buena calidad. Luego, se presentan esos conjuntos de datos a otros consumidores, para así apreciar la forma en que sus compañeros han tenido éxito con el lago de datos.

Con un enfoque combinado, se evita obstaculizar la agilidad y la innovación (lo que sucede con el enfoque descendente), y al mismo tiempo evitar el caos del enfoque de ascendente. Sin embargo, una estrategia de gobernanza sólida requiere tener los metadatos correctos en sitio. Con metadatos precisos y descriptivos, se pueden establecer políticas y estándares para administrar y usar datos. Por ejemplo, se pueden crear políticas que refuercen la capacidad de los usuarios para adquirir datos de ciertos lugares; qué usuarios los poseen y, por lo tanto, son responsables de éstos; qué usuarios pueden acceder a los datos; cómo se pueden usar los datos y cómo están protegidos, incluida la forma en que se almacena, archiva y respalda.

La estrategia de gobierno también debe especificar cómo se auditarán los datos para asegurarse de cumplir con las regulaciones gubernamentales. Esta puede ser complicado ya que se combinan y transforman diversos conjuntos de datos. Pero todo esto es posible si implementa una sólida plataforma de gestión de datos que proporcione los metadatos técnicos, operativos y comerciales necesarios.

References

  1. Alice LaPlante & Ben Sharma, «Architecting Data Lakes«; O’Reilly Media, Inc., March 2016, ISBN 978-1-491-95257-3.

Deja una respuesta

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.