Guardar datos de Entidades utilizando S3

19/02/2025 cfsanchez

En muchos proyectos es muy común querer guardar datos históricos almacenados en Entidades, de forma que posteriormente se pueda aligerar el tamaño de los datos en las bases de datos. Un ejemplo, sería leer datos de Entidades y almacenarlos como ficheros en S3. Por ejemplo, de esta forma, se podrían tener backups de datos de Entidades en S3.

En esta entrada vamos a ver ejemplos útiles con el módulo Onesait Platform Dataflow para implementar todos estos casos de uso.

El objetivo no es dar una guía paso a paso de cómo replicar el ejemplo. Aquí se resaltarán las configuraciones más relevantes en cada pipeline. Empecemos con cómo guardar datos desde Entidades a S3.

Escritura en S3

Vamos a comenzar con el ejemplo más sencillo, que sería la lectura de los datos y la escritura directamente usando S3.

En esta primera aproximación lo que hacemos es definir una conector con Onesait Platform como origen. Este conector ejecutará una query para leer los datos que se quieran almacenar. Por ejemplo, se podría querer leer todos los datos anteriores a una fecha determinada.

Una vez leídos los datos, usaremos el componente Amazon S3 para almacenar los datos utilizando S3. Aunque el componente se llame Amazon S3, se puede utilizar otro almacenamiento que soporte S3. En concreto, en este ejemplo utilizamos la integración de MinIO que tenemos en Onesait Platform.

Para configurar el conector de Onesait Platform, hay que tener en cuenta principalmente lo siguiente:

En la pestaña Connection, tenemos que rellenar los valores «Token» e «IoT Client» con los valores del Digital Client que vayamos a utilizar, teniendo en cuenta que este Digital Client debe tener permisos sobre la Entidad de la cual tomaremos los datos.
En Ontology deberemos poner el nombre de la Entidad elegida para este proceso, como se muestra en la imagen anterior, y donde podemos hacer uso de los parámetros
En la pestaña Configuration deberemos escribir la query que usaremos para obtener los datos de la Entidad

Para configurar el destino S3 los datos más relevantes son:

Algo que hay que tener en cuenta con este ejemplo es que, por cómo funciona S3, con esta configuración se creará un fichero nuevo por cada batch de datos leídos de la Entidad origen. Si la Entidad contiene pocos datos se podrían leer todos los datos de una sola vez y generar un sólo fichero o usar un tamaño de batch lo suficientemente grande para que se genere un número aceptable de ficheros en S3. Sin embargo esto es bastante limitado si tenemos un gran número de datos.

Esto nos lleva a la evolución lógica de este ejemplo, que es contar con un paso intermedio que cree los ficheros con el tamaño que nos interese para almacenarlos en S3, con independencia del tamaño del batch, lo que nos permitirá incluso trabajar en streaming si fuese necesario.

Para ello, vamos a partir el flujo de datos en dos flujos. El primero se en cargará de leer de Onesait Platform y crear ficheros temporales con los datos. El segundo leerá los ficheros temporales y los guardará en S3. Además este segundo flujo de datos eliminará el fichero una vez esté en S3.

El primer flujo tendrá este aspecto:

Sin entrar en los detalles de configuración, lo relevante aquí es elegir el tamaño de fichero teniendo en cuenta el tamaño de fichero que queremos tener en S3. El destino Local S3 permite definir este valor en base a número de líneas y tamaño de fichero. Se puede observar que se ha implementado un flujo de eventos para parar el pipeline. Esto no es obligatorio y dependerá del caso de uso. Para este ejemplo se ha hecho para que se pare automáticamente cuando termine de ejecutar la query que hay configurada, sin quedarse a escuchar nuevos registros que pudiesen llegar más adelante.

El segundo flujo de datos es parecido al original, salvo que lee de un directorio local.

Lo más relevante en este caso es que en todos los casos anteriores estábamos trabajando a nivel de registros utilizando formato JSON. En este caso ya no es necesario. En este ejemplo en el directorio local tenemos el fichero temporal ya formateado como nos interesa subirlo a S3 por lo tanto no necesitamos volver a parsear todas las líneas. Para evitar este procesamiento innecesario se utiliza el formato wholefile para leer del directorio local y para escribir en S3.

Además, para evitar tener que gestionar manualmente los ficheros temporales, en el directorio de origen se ha configurado la opción de post procesado para que borre los ficheros ya tratados.

Escritura en Onesait Platform leyendo desde S3

Este es un ejemplo bastante sencillo. Lo más relevante es configurar el origen Amazon S3 para que lea los ficheros que se desee y configurar un destino para Onesait Platform. Por ejemplo, esto se podría hacer para restaurar una entidad en base a ficheros almacendados en S3.

Conclusiones

En este ejemplo hemos visto cómo con flujos de datos muy sencillos se pueden crear procesos que importen y exporten datos entre Entidades en Onesait Platform y un almacén de datos que use S3, por ejemplo AWS S3 o MinIO. Estos flujos se pueden utilizar junto con las capacidades del módulo Flowengine para automatizar estas tareas.

Imagen de cabecera: David Ballew en Unsplash

✍🏻 Author(s)

cfsanchez

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Escritura en S3

Escritura en Onesait Platform leyendo desde S3

Conclusiones

✍🏻 Author(s)

cfsanchez

También te puede gustar

Análisis de Redpanda como sustituto de Kafka

Conociendo Langflow

Conociendo KubeVirt

Deja una respuesta Cancelar la respuesta