Trabajando con un Data Lake en la Onesait Platform (parte 3)

03/12/2021 LuisMi Gracia

Bienvenidos a nuestra tercera entrada sobre Data Lakes y la Onesait Platform. Aunque aun no hemos llegado a este último punto, de momento ya hemos visto qué es un Data Lake y qué beneficios nos aporta, y en qué se diferencia con un Data Warehouse.

Hoy os queremos contar los tipos de Data Lakes que existen, hablaros de Hadoop, y comentaros algunas propuestas Open Source existentes en el mercado.

Hadoop como Data Lake

El Data Lake se asocia a menudo con el almacenamiento de objetos orientado a Hadoop. En este escenario, los datos de una organización se cargan primero en la plataforma Hadoop y, a continuación, se aplican las herramientas de análisis y de minería de datos a los datos que residen en los nodos clúster de Hadoop.

En el núcleo de Hadoop encontramos su capa de almacenamiento, el HDFS (Sistema de archivos distribuidos de Hadoop), que almacena y replica los datos por múltiples servidores, además el ecosistema Hadoop engloba varias herramientas suplementarias, como Hive, Flume, Sqoop y Kafka que ayudan con la ingesta, la preparación y la extracción de datos.

Los Data Lakes de Hadoop pueden montarse localmente o en Cloud mediante plataformas de empresa como Cloudera, Azure HDInsight o GCP DataProc.

Puntos fuertes de un Data Lake sobre Hadoop

Aún hoy en día, montar un Data Lake sobre Hadoop es una opción muy usada por los siguientes motivos:

Mayor familiaridad entre el equipo técnico.
Solución Open Source, que hace que su implantación sea económica.
Más económicos, porque son de código abierto.
Muchas herramientas disponibles para la integración con Hadoop.
Fácil de escalar.
La localidad de los datos permite una computación más rápida.
Posibilidad de montarlo On Premise o como servicio en las diversas Clouds.

Hadoop en la actualidad

Hadoop fue en su día la opción dominante para los Data Lakes, pero en el cambiante mundo de la tecnología hay otros enfoques más modernos basados en herramientas como Spark o Presto.

Echemos la vista atrás para entender cómo han cambiado las cosas; Hadoop surgió a principios de la década de 2000 y se hizo popular en la década, de hecho, debido a que muchas empresas apostaron por el código abierto, la mayoría de los primeros proyectos BigData y Data Lakes de entonces se basaron en Hadoop.

person wearing black leather shoes — Imagen de Fallon Michael en Unsplash

Hadoop ofrecía 2 capacidades principales:

Sistema de archivos distribuido (HDFS) para persistir los datos.
Marco de procesamiento que permite procesar todos esos datos en paralelo.

Cada vez más, las organizaciones comenzaron a querer trabajar con todos sus datos y no sólo con algunos. Y como resultado de ello, Hadoop se hizo popular por su capacidad para almacenar y procesar nuevas fuentes de datos, incluidos los registros de logs, los flujos de clics y los datos generados por sensores y máquinas.

En los dos mil, Hadoop tenía mucho sentido ya que permitía construir clústeres locales con hardware básico para almacenar y procesar estos nuevos datos de forma barata.

Pero el Open Source seguía evolucionado y surgió un marco nuevo: Apache Spark, optimizado para trabajar con datos en memoria y no en disco. Y esto, por supuesto, significa que los algoritmos que se ejecutan en Spark serán más rápidos, pero seguía siendo necesario persistir los datos, de modo que Spark se incluía en muchas distribuciones de Hadoop. Eso funcionaba, pero con el auge de la nube, hay un enfoque mejor para la persistencia de sus datos: el almacenamiento de objetos.

Además de esto, con la compra de Hortonworks por Cloudera (y la de MapR por HP) en esencia podemos decir que ya no existen distribuciones gratuitas de Hadoop, y esto hace que se estén buscando soluciones alternativas en el mundo Open Source.

MinIO y Presto como Data Lake

Comentábamos que en la actualidad se puede montar sobre Spark y un repositorio de objetos. En este punto vamos a describir una alternativa interesante a los entornos basados en HDFS y al resto del ecosistema Hadoop basada en MinIO y Presto.

green forest near lake and mountain under cloudy sky — Imagen de dirk von loen-wagner en Unsplash

Concretando esta aproximación, MinIO es un almacenamiento de objetos (Object Storage) distribuido que implementa la API de AWS S3 (de esto os hablamos el lunes pasado). MinIO puede desplegarse en On-Premise y en Cloud y funciona sobre Kubernetes. Además, basa su almacenamiento en objetos, donde cada objeto se compone de 3 conceptos:

Los datos propiamente dichos. Los datos pueden ser cualquier cosa que se quiera almacenar, desde una foto hasta un manual de 400.000 páginas.
Una cantidad ampliable de metadatos. Los metadatos son definidos por quien crea el objeto; contienen información contextual sobre lo que son los datos, para qué deben usarse, su confidencialidad, o cualquier otra cosa que sea relevante para la forma en que deben usarse los datos.
Un identificador único global. El identificador es una dirección que se da al objeto, para que pueda ser encontrado en un sistema distribuido. De este modo, es posible encontrar los datos sin tener que conocer su ubicación física (que podría existir en diferentes partes de un centro de datos o en diferentes partes del mundo).

Y si MinIO puede sustituir a HDFS como almacenamiento en un Data Lake, nos falta un motor de consultas SQL al estilo de HIVE, y aquí es donde entra en juego Presto.

Presto es un motor de consultas SQL distribuido Open Source, construido en Java y pensado para lanzar consultas analíticas interactivas contra un gran número de fuentes de datos (a través de conectores) soportando consultas sobre fuentes de datos que van desde gigabytes hasta petabytes.

También se considera un motor de consulta ANSI-SQL, lo que permite consultar y manipular datos en cualquier fuente de datos conectada con las mismas sentencias, funciones y operadores SQL.

En el Data Lake podemos por tanto usar Presto para consultar los datos almacenados en MinIO. Además, Presto puede ejecutar sobre Spark, lo que permite aprovechar Spark como entorno de ejecución para las consultas de Presto.

Ventajas de esta aproximación

Esta aproximación tiene numerosas ventajas sobre el montaje de un Data Lake sobre Hadoop:

La combinación es más elástica que la típica configuración Hadoop, mientras que en Hadoop añadir y quitar nodos a un clúster Hadoop es un proceso completo, en esta aproximación todo ejecuta sobre Kubernetes, lo que nos permite escalar de forma sencilla.
Computación y almacenamiento independientes: Con Hadoop si se quiere añadir más almacenamiento, se hace añadiendo más nodos (con computación). Si necesitas más almacenamiento, vas a tener más cómputo, lo necesites o no mientras que con la arquitectura de almacenamiento de objetos si necesitas más computación, puedes añadir nodos al clúster Presto y mantener el almacenamiento, de modo que la computación y el almacenamiento no son sólo elásticos, son elásticos de forma independiente.
Mantenimiento: Mantener un clúster Hadoop estable y fiable es una labor compleja, por ejemplo la actualización de un clúster suele implicar la parada del clúster, las actualizaciones continuas son complejas, etc.
Reducción de costes: Con esta arquitectura tendremos una reducción del coste total de la propiedad: ya que MinIO apenas requiere gestión, y además el almacenamiento de objetos es más barato.

white biplane — Imagen de Pascal Meier en Unsplash

Como podemos ver, el potencial de MinIO y Presto es enorme. Tanto es así, que hemos incorporado tanto MinIO en la Onesait Platform, de lo que os hablamos el lunes pasado, como Presto, de lo que os hablaremos el próximo lunes.

La semana que viene os hablaremos de los Data Lakes y la nube, y las ventajas que tiene frente a la solución On-Premise más común hasta ahora. ¡Os esperamos!

Imagen de encabezado de Philipp Katzenberger en Unsplash

✍🏻 Author(s)

LuisMi Gracia

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Hadoop como Data Lake

Puntos fuertes de un Data Lake sobre Hadoop

Hadoop en la actualidad

MinIO y Presto como Data Lake

Ventajas de esta aproximación

✍🏻 Author(s)

LuisMi Gracia

También te puede gustar

MLOps: niveles de madurez y herramientas Open Source

¿Cómo explotar datos de Twitter con los Dashboards?

Soporte de plantillas de Microsoft Word

Deja una respuesta Cancelar la respuesta