Dataiku (DDS)

Apuntes sobre el uso de Dataiku Data Science Studio (DSS).


Presentación

Al igual que otras páginas de este sitio, este no es un tutorial o manual de usuario. Se trata de anotaciones que el autor de este sitio hace (para posteriores referencias y consultas personales) de todo aquello que considera útil, aquello que le ha costado trabajo entenderlo o encontrarlo, lo que es curioso o sorprendente. Todo aquello que considera es digno o necesario de anotarse porque seguramente lo necesitará más tarde y que además no tiene problema por compartirlo.

Para el interesado, de requerir manuales o tutoriales de este producto, favor de consultar las referencias que a lo largo del texto sean implícitamente sugeridas por híper vínculos en el contenido o aquellas que explícitamente pudieran ser incluidas en el adecuado apartado bibliográfico.

Uso

En lo que respecta a la instalación y desinstalación de la aplicación, se ha optado por crear páginas adicionales describiendo la experiencia de cada entorno probado. La aplicación funciona bajo el modelo cliente-servidor y se accede a ésta mediante un browser (quizás para algunos es más una aplicación de web server).  Como se señala en la presentación, estas notas se enfocan más a cosas que ha aprendido el autor de esta página y que no se encuentran directa o fácilmente accesibles en la documentación de Dataiku. Estas notas no buscan exponer nuevamente lo que en la documentación del producto ya se menciona. Para aprender a usar la herramienta se recomienda primero revisar los tutoriales que el desarrollador del producto ofrece en su página web1.

Git

Dataiku hace uso internamente de git, lo que le permite llevar un buen control de cambios en los proyectos desarrollados en la herramienta.

Para configurar la integración de Dataiku se debe:

  1. Generar una llave SSH RSA en el equipo donde se usará y copiarla (generarla sin passphrase; si ya se cuenta con una llave, puede usarse siempre y cuando no tenga passphrase; dejar el nombre por defecto del archivo de la llave)
    $ ssh-keygen
    $ pbcopy < /Users/<user>/.ssh/id_rsa.pub
  2. Para el caso de GitHub, registrar la llave como Deployment Key en los Settings del proyecto (de esta forma sólo se da acceso al repositorio y no a toda la cuenta en GitHub como ocurriría se se registrara la llave en los Settings de la cuenta.
  3. En Dataiku, registrar el repositorio a través de la opción de menú Control Version.
  4. Sincronizar con el servicio Git.

Esto es esencialmente lo que la documentación de Dataiku sugiere pero ésta resulta muy obscura cuando se trata de llevar a la práctica y hay mucho «asegunes» (o consideraciones) sobre cómo es que esto debe supuestamente funcionar. Recomiendo leer la parte 1 y 2 de un post que elaboré al respecto de esto.

Referencias

  1. «Dataiku Academy«, dataiku.com, web. Visited: 2021.02.19. URL: https://academy.dataiku.com.

Twitter Wordpress eMail
© Todos los derechos reservados.
Dr. Eduardo René Rodríguez Avila
Creación: 2021.02.19
Última actualización: 2022.12.10
El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto.