Tecnologías

Datalake con MinIO y PrestoDB

La Onesait Platform, como plataforma data-centric, dispone de un Data Lake basado en la combinación de dos soluciones Open Source ampliamente utilizadas:

  • MinIO, como repositorio de ficheros.
  • PrestoDB, como motor de consultas SQL.

En una entrada anterior, comentábamos como se había integrado MinIO en la Plataforma como motor de persistencia para almacenamiento de ficheros.

Las características de MinIO en cuanto a almacenamiento distribuido, replicación de ficheros, alta disponibilidad, volumen de información almacenada, escalado horizontal y velocidad de transferencia, lo hacen ideal para usarlo como base de almacenamiento para el Data Lake: los usuarios pueden crear sus estructuras de directorios, almacenar la información en forma de ficheros y automatizar la carga y procesado de manera integrada con la plataforma (Api S3, Dataflow, FlowEngine, Notebooks, etc).

PrestoDB por su parte proporciona un motor de consultas SQL distribuido que puede utilizar los ficheros almacenados en MinIO, de manera que toda la información almacenada en forma de ficheros queda disponible para ser consultada y visualizada de una rápida y eficiente mediante sentencias SQL.

El Data Lake se proporciona a los usuarios como cualquier otra Entidad de la Plataforma. Simplemente hay que crear la entidad indicando que su información proviene de la Base de datos Histórica:

Y construir la tabla en PrestoDB, estructurando su origen como ficheros almacenados en MinIO:

Una vez creada la Entidad, toda la información existente en el directorio de MinIO, así como la que se vaya añadiendo en el futuro, queda disponible para ser consultada de forma transparente vía SQL, y puede ser utilizada por el resto de motores de explotación de la información de la plataforma (Dashboards, Informes Jasper, Notebooks, Dataflows, etc.), constituyendo una importante herramienta para el soporte BI de la organización.

Seguidamente os mostramos un vídeo de ejemplo de cómo hacer todo esto:

YouTube | Integración de Presto en la Onesait Platform

✍🏻 Author(s)

Deja una respuesta