Trabajando con un Data Lake en la Onesait Platform (parte 2)

26/11/2021 LuisMi Gracia

La semana pasada os contamos qué es eso del «Data Lake» y qué beneficios nos aporta. También nos quedamos con la incógnita de qué era el concepto de «Warehouse», ya que los conceptos de «Data Lake» y «Data Warehouse» se confunden a menudo, aunque su aproximación es diferente.

Un Data Warehouse permite almacenar datos, pero no de cualquier manera; la información debe almacenarse de forma estructurada en función de las necesidades del usuario mientras que, como hemos visto, un Data Lake es un almacén de datos en bruto, donde los datos se almacenan como han llegado hasta que se usan Veamos los principales elementos diferenciadores de un Data Lake con respecto al enfoque de un Data Warehouse.

Veamos los principales elementos diferenciadores de un Data Lake con respecto al enfoque de un Data Warehouse.

person in white top — Imagen de Jezael Melgoza en Unsplash

Un Data Lake conserva todos los datos

Durante el desarrollo de un Data Warehouse, se dedica tiempo a analizar las fuentes de datos, entendiendo los procesos de negocio y perfilando los datos. El resultado es un modelo de datos estructurado diseñado para la generación de informes.

Una gran parte de este proceso incluye tomar decisiones sobre qué datos incluir y no incluir en el almacén. Generalmente, si los datos no se utilizan pueden excluirse del almacén, para así simplificar el modelo de datos y también para conservar espacio en el almacenamiento.

brown wooden shelf with books — Imagen de Jacques Dillies en Unsplash

En contraste, el Data Lake conserva todos los datos, no sólo los datos que se utilizan actualmente, sino los datos que se pueden utilizar e incluso los datos que nunca se van a ser utilizados sólo porque quizás podrían ser utilizados algún día.

Los datos también se mantienen todo el tiempo para que podamos volver en el tiempo a cualquier punto para hacer el análisis. Este enfoque es posible porque el hardware para un Data Lake suele ser muy diferente del utilizado para un Data Earehouse y la ampliación a terabytes puede hacerse de manera económica.

Un Data Lake soporta todos los tipos de datos

Los Data Warehouses generalmente se componen de datos extraídos de sistemas transaccionales junto con métricas cuantitativas y los atributos que las describen. Las fuentes de datos no tradicionales, como los registros del servidor web, los datos de sensores, la actividad de las redes sociales, el texto y las imágenes, se ignoran en gran medida.

El enfoque del Data Lake abarca estos tipos de datos no tradicionales. En el Data Lake, guardamos todos los datos independientemente de la fuente y la estructura. Los mantenemos en su forma bruta y sólo los transformamos cuando estamos listos para usarlos. Este enfoque se conoce como «Schema on Read» en comparación con el «Schema on Write» que es el enfoque utilizado en el Data Warehouse.

Un Data Lake soporta a todos los usuarios

En la mayoría de las organizaciones, el 80% o más de los usuarios son «operacionales», estos quieren obtener sus informes, ver sus KPIs o seleccionar el mismo conjunto de datos en una hoja de cálculo todos los días. El Data Warehouse es ideal para estos usuarios porque está estructurado, fácil de usar y comprender y está diseñado para responder a sus preguntas.

El siguiente 10% hace más análisis en esos datos. Utilizan el Data Warehouse, pero a menudo vuelven a los sistemas de origen para obtener datos que no están incluidos. Su herramienta favorita es la hoja de cálculo y crean nuevos informes que a menudo se distribuyen en toda la organización.

three people sitting in front of table laughing together — Imagen de Brooke Cagle en Unsplash

Por último, el otro 10% hace un análisis profundo, mezclan muchos tipos diferentes de datos, pueden crear fuentes de datos totalmente nuevas, a menudo ignoran el Data Warehouse, ya que normalmente se les solicita que vayan más allá de sus capacidades. Estos usuarios incluyen a los científicos de datos y pueden utilizar avanzadas herramientas analíticas y capacidades como el análisis estadístico y el modelado predictivo.

El enfoque del Data Lake soporta igualmente a todos estos usuarios. Los científicos de datos pueden ir al Data Lake y trabajar con el variado conjunto de datos que necesitan, mientras que otros usuarios hacen uso de vistas más estructuradas de los datos proporcionadas para su uso.

Los Data Lakes se adaptan fácilmente a los cambios

Una de las principales quejas sobre los Data Warehouses es cuánto tiempo se tarda en cambiarlos. Un tiempo considerable se gasta por adelantado durante el desarrollo de la estructura del almacén. Un buen diseño de almacén puede adaptarse al cambio, pero debido a la complejidad del proceso de carga de datos y al trabajo realizado para facilitar el análisis y la elaboración de informes, estos cambios necesariamente consumirán algunos recursos de desarrolladores y tomarán algún tiempo.

Muchas preguntas comerciales no pueden esperar a que el equipo del Data Warehouse adapte su sistema para responderlas. La necesidad cada vez mayor de respuestas más rápidas es lo que ha dado lugar al concepto de autoservicio de inteligencia empresarial.

En el Data Lake, por otro lado, como todos los datos se almacenan en bruto y siempre con accesibles a alguien que necesite utilizarlos, los usuarios tienen el poder de ir más allá de la estructura del almacén para explorar datos de nuevas maneras y responder a sus preguntas a su ritmo.

assorted-color lear hanging decor — Imagen de Chris Lawton en Unsplash

Si se demuestra que el resultado de una exploración es útil y existe el deseo de repetirlo, entonces se puede aplicar un esquema más formal y se puede desarrollar la automatización y la reutilización para ayudar a extender los resultados a un público más amplio. Si se determina que el resultado no es útil, puede descartarse y no se han realizado cambios en las estructuras de datos ni se han consumido recursos de desarrollo.

¿Interesante, verdad? Pues ya conocemos qué es un Data Lake y en qué se diferencia con un Data Warahouse. La semana que viene veremos ejemplos de Data Lakes, así como propuestas Open Source. ¡Os esperamos!

Imagen de encabezado de Philipp Katzenberger en Unsplash

✍🏻 Author(s)

LuisMi Gracia

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Trabajando con un Data Lake en la Onesait Platform (parte 2)

Un Data Lake conserva todos los datos

Un Data Lake soporta todos los tipos de datos

Un Data Lake soporta a todos los usuarios

Los Data Lakes se adaptan fácilmente a los cambios

✍🏻 Author(s)

LuisMi Gracia

Un comentario en «Trabajando con un Data Lake en la Onesait Platform (parte 2)»

Deja una respuesta Cancelar la respuesta

Un Data Lake conserva todos los datos

Un Data Lake soporta todos los tipos de datos

Un Data Lake soporta a todos los usuarios

Los Data Lakes se adaptan fácilmente a los cambios

✍🏻 Author(s)

LuisMi Gracia

También te puede gustar

Integración de PrestoDB como motor de consultas multi-repositorio

MLOps: niveles de madurez y herramientas Open Source

Trabajando con un Data Lake en la Onesait Platform (parte 1)

Un comentario en «Trabajando con un Data Lake en la Onesait Platform (parte 2)»

Deja una respuesta Cancelar la respuesta