Trabajando con un Data Lake en la Onesait Platform (parte 4)
Una semana más, continuamos con nuestra serie de entradas sobre Data Lake. Ya hemos en qué consiste y qué beneficios nos aporta, en qué se diferencia de un Data Warehouse, y qué tipos de Data Lakes encontramos.
La entrada de hoy va a ser cortita, pues queremos comentar brevemente la relación entre un Data Lake y la nube, para ya la semana que viene terminar la serie con el soporte que damos en la Onesait Platform.
Data Lake y el Cloud
Hasta hace unos años, los Data Lakes se implantaban mayoritariamente On-Premise y, como hemos explicado la semana pasada, sobre Hadoop en muchos casos. Pero el uso de infraestructuras locales tiene ciertos problemas:
- La configuración: la adquisición de hardware y la configuración de centros de datos no es sencilla y puede tardar semanas o meses hasta ponerlos en funcionamiento.
- La escalabilidad: si existe la necesidad de ampliar la escala de capacidad de almacenamiento, se requiere tiempo y esfuerzo (aprobaciones, espacio en el CPD).
- El cálculo de requisitos: dado que la escalabilidad no es sencilla en entornos locales, al principio del proyecto resulta importante calcular los requisitos de hardware correctamente, lo cual no es fácil datos crecen de manera no sistemática todos los días, este objetivo es muy difícil de lograr.
- El coste: montar en entorno local requiere un desembolso inicial, mientras que en Cloud podemos pagar conforme usamos la infraestructura.
Dicho de otra forma, montar un Data Lake en Cloud es:
- Más fácil y rápido de iniciar: la nube permite a los usuarios empezar paulatinamente.
- Es rentable, con un modelo de pago por uso.
- Más fácil de escalar al alza cuando las necesidades aumenten, lo que elimina la tensión de tener que calcular requisitos y obtener autorizaciones.
- Data Lake como servicio: los diferentes proveedores Clouds ofrecen servicios Data Lake, algunos basados en Hadoop como GCP DataProc o Azure HDInsight, o en tecnologías propias como Amazon S3 o GCP BigTable.
Como vemos, las ventajas de la nube son importantes, ya que como en otros casos, nos permite ir escalando según nuestras necesidades.
Tal como hemos comentado al principio, ahora que tenemos todos los conceptos claros, la semana que viene os contaremos cómo damos soporte desde la Plataforma a los Data Lake, introduciendo el concepto de Data Fabric. ¡No os lo perdáis!
Imagen de encabezado de Philipp Katzenberger en Unsplash