¿Cuándo usar el módulo Dataflow?

16/10/2020 cfsanchez

En esta entrada queremos describir cómo el modulo Dataflow de la Onesait Platform puede ayudar a resolver varios escenarios típicos de muchos proyectos.

Pero, ¿en qué consiste este módulo? Pues permite definir de forma gráfica y sencilla flujos de datos, transformaciones de datos, etc. Si os interesa consultar en detalle las capacidades técnicas del módulo, os recomendamos este artículo al respecto de nuestro Portal del Desarrollador.

La idea que tenemos para esta entrada no es ya pretender mostraros ejemplos concretos de los flujos de datos, sino mostrar a más alto nivel las posibilidades que ofrece este módulo.

Procesamiento de datos en streaming

Una de las capacidades más usadas del Dataflow es el procesamiento de datos en streaming. Con este módulo se pueden definir flujos de datos desde la conexión con el origen de dichos datos hasta los posibles destinos de los mismos. Además, permite implementar las transformaciones de datos necesarias.

Veamos un ejemplo para describir en mayor detalle las distintas etapas y posibilidades. En la siguiente figura muestra un ejemplo en el que hay dos fuentes de datos en streaming distintas.

Estas fuentes de datos pueden ser incluso de diferentes tecnologías; por ejemplo, brokers de comunicación tales como Apache Kafka y Google Pub/Sub. También se pueden usar como fuentes de datos orígenes más tradicionales como bases de datos relacionales, bases de datos NoSQL, servidores FTP, etc. La lista de tecnologías soportadas es muy amplia y continúa extendiéndose.

Procesamiento Batch

Otro escenario muy típico en los proyectos son tareas que tienen que realizarse periódicamente sin que ningún usuario tenga que supervisar o activar dichas tareas.

En la figura anterior se muestra un escenario similar al comentado anteriormente. Sin embargo, la diferencia radica en que, en este caso, los conectores no estarán suscritos a las fuentes de datos sino que será un planificador el que lance las tareas de forma programada.

La Onesait Platform permite esta planificación usando el componente Flowengine. En este escenario, el pipeline comenzará cuando el planificador se lo indique. En caso de ser necesario el propio planificador puede pasar parámetros a los pipelines. Una vez se han procesado los datos los pipelines se pararán hasta que el planificador decida lanzar una nueva ejecución.

Replicación de datos entre entornos

Muchos proyectos tienen la necesidad de contar con copias de los datos de producción en entornos de pruebas o preprodución. Con el Dataflow se puede cumplir con esta necesidad. Hay varias formas de hacer esta replicación de datos con el Dataflow. En la siguiente figura se muestra un escenario en el que el Dataflow de uno de los entornos exporta a otro entorno directamente.

Otras posibilidades serían que el Dataflow del destino leyese los datos desde el origen, o incluso se podría contar con un broker o repositorio intermedio. Dependiendo de la conectividad que exista entre los entornos se deberán usar unas variantes u otras. Normalmente las limitaciones de conectividad vienen determinadas por los requisitos de seguridad.

Integración de sistemas

En otros proyectos, la integración entre distintos sistemas se hace a nivel de datos. En estos casos se puede usar el Dataflow para obtener los datos de sistemas externos y tenerlos disponibles en los nuevos desarrollos que se hagan sobre la Plataforma. Lo mismo sucede al contrario: Hay clientes que cuentan con herramientas u otros sistemas que necesitarán almacenar datos localmente y hay que suministrárselos.

En la figura previa se muestra un ejemplo en el que se cuenta con dos instancias del módulo Dataflow, una de ellas dedicada a la adquisición de datos desde fuentes externas y otra dedicada a proporcionar datos a sistemas externos. Tener instancias dedicadas de Dataflow facilita la gestión de los pipelines cuando su número empieza a crecer.

Centralización de datos

En muchos casos, la Onesait Platform se usa para centralizar datos de diversos sistemas. Un claro ejemplo son los proyectos de tipo «Data Lake». En este caso, se definirá un pipeline por cada fuente de datos.

Gracias a la flexibilidad del Dataflow se podrán contar con multitud de tecnologías como origen de datos, además de poder añadir nuevos orígenes sin tener que desplegar nuevo software, ya que los pipelines del Dataflow se definen de forma dinámica.

Conclusiones

Hemos visto algunos de los casos típicos que pueden implementarse con el Dataflow. Hay muchos más casos que se pueden resolver con este módulo, ya que si por algo destaca es por su flexibilidad.

Esperamos que os haya parecido interesante, y si os surge alguna duda dejadnos un comentario.

✍🏻 Author(s)

cfsanchez

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Procesamiento de datos en streaming

Procesamiento Batch

Replicación de datos entre entornos

Integración de sistemas

Centralización de datos

Conclusiones

✍🏻 Author(s)

cfsanchez

También te puede gustar

Ejecutar una aplicación Spark con StreamSets

IoT MQTT connect en la Onesait Platform

Análisis exploratorio de datos mediante Python y Pandas

Deja una respuesta Cancelar la respuesta