Trabajando con un Data Lake en la Onesait Platform (parte 1)

19/11/2021 LuisMi Gracia

Seguro que todos hemos oído alguna vez hablar sobre algo llamado «Data Lake» y su relación con el Big Data. Pero, ¿sabemos en qué consiste exactamente?

A lo largo de esta serie de entradas temáticas, vamos a ir desgranando qué es un Data Lake, su diferencia con un Data Warehouse, tipos de Data Lakes, su relación con la nube, y cómo lo soportamos en la Onesait Platform.

¿Qué es, y para qué sirve un Data Lake?

Esta es, quizás, la pregunta más importante que debemos hacernos para empezar. Bien, pues según la consultora Gartner, podemos definir un Data Lake como:

Una colección de instancias de almacenamiento de diversos activos de datos donde estos activos se almacenan y mantienen como una réplica del formato de la fuente estructurada o no estructurada, además de los almacenes de datos originales

Algunos ejemplos de Data Lakes serían Amazon S3, Apache Hadoop o Azure Data Lake. Seguramente estos nombres también nos suenen.

De momento, vamos a darle otra vuelta a la definición de Data Lake, que seguro que tal como está definido, no queda del todo claro.

El término Data Lake (literalmente, lago de datos en inglés) fue acuñado por James Dixon, director tecnológico de Pentaho, y hace referencia a la naturaleza particular de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos o Data Mart.

Según Dixon, si se piensa en un Data Mart como un almacén de agua embotellada limpia, empaquetada y estructurada para su fácil consumo, un Data Lake sería una gran masa de agua en un estado más natural. Su contenido proviene de una fuente que llena el lago y varios usuarios del mismo pueden venir a examinar, bucear o tomar muestras.

Quizás una definición más concreta sea la de Amazon Web Services, que lo define de la siguiente forma:

Repositorio centralizado que permite almacenar todos los datos estructurados y no estructurados a cualquier escala. Puede almacenar los datos tal cual, sin tener que estructurarlos primero, y ejecutar diferentes tipos de análisis, desde cuadros de mando y visualizaciones hasta grandes procesamientos de datos, análisis en tiempo real y aprendizaje automático para tomar mejores decisiones.

Con esto creo que ya nos hacemos una idea de qué es esto del Data Lake, ¿verdad?

Beneficios que aporta un Data Lake

Esto es importante; me tiene que aportar algo valioso para utilizarlo, ya que sino, no merece la pena. Pues bien, un Data Lake nos aporta los siguientes beneficios:

Centralización de fuentes de contenido dispares: permite centralizar todos los datos en un mismo lugar, sea cual sea su origen para posteriormente ser procesado.
Reducción de costes de preparación: los datos se preparan «según sea necesario», lo que permite no tener que conocer cómo deben procesarse inicialmente y hacerlo cuando aplique (como si es requerido por los Data Warehouses).
Procesamiento Big Data: una vez extraídas de sus «silos de información», estas fuentes pueden ser combinadas y procesadas, puede normalizarse y enriquecerse, además de descubrimiento, exploración de datos y análisis para toma de decisiones. Los científicos de datos pueden acceder, preparar y analizar datos más rápidamente y con mayor precisión gracias a los Data Lakes.

Ubicuidad cualquier usuario autorizado puede acceder a la información y enriquecerla desde cualquier lugar, lo que ayuda a la organización a reunir con más facilidad los datos necesarios para tomar decisiones.
Adaptación a los cambios: siendo una de las principales quejas sobre los data warehouses es cuánto tiempo se tarda en cambiarlos.
Seguridad: un Data Lake contempla seguridad en el acceso a los datos para que los usuarios sólo pueda acceder a los datos a los que tiene permiso
Ahorro de costes: los Data Lakes suelen ejecutar una serie de clústeres de hardware commodity y permiten la escalabilidad horizontal, de modo que se puede ir incrementando la capacidad del Data Lake conforme sea necesaria.

Nada mal, ¿eh? A simple vista parece que los beneficios que aporta merecen la pena meterse en este berenjenal.

Entre los beneficios ha salido un término interesante, el de «Warehouses». La semana que viene veremos en qué consiste y en qué se diferencia de un Data Lake. ¡Os esperamos!

Header Photo by Philipp Katzenberger on Unsplash

✍🏻 Author(s)

LuisMi Gracia

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Trabajando con un Data Lake en la Onesait Platform (parte 1)

¿Qué es, y para qué sirve un Data Lake?

Beneficios que aporta un Data Lake

✍🏻 Author(s)

LuisMi Gracia

5 comentarios en «Trabajando con un Data Lake en la Onesait Platform (parte 1)»

Deja una respuesta Cancelar la respuesta

¿Qué es, y para qué sirve un Data Lake?

Beneficios que aporta un Data Lake

✍🏻 Author(s)

LuisMi Gracia

También te puede gustar

Integración de PrestoDB como motor de consultas multi-repositorio

¿Cómo explotar datos de Twitter con los Dashboards?

Trabajando con un Data Lake en la Onesait Platform (parte 3)

5 comentarios en «Trabajando con un Data Lake en la Onesait Platform (parte 1)»

Deja una respuesta Cancelar la respuesta