Análisis de evolución de casos de COVID-19 con la Plataforma: ingesta y carga en Portal Open Data

03/06/2020 gjuan

Introducción

En esta entrada vamos a ver como ingestar datos en la Plataforma para añadirlos al Open Data Portal de Onesait que acabamos de integrar. Utilizaremos como fuente de datos el portal de Datos Abiertos del Gobierno de España. Los pasos a realizar serán:

Modelado de la Ontología.
Flujo de ingesta en Plataforma usando el FlowEngine.
Creación de Dataset y ecursos en CKAN.
Visualización de los datos y creación de vistas.

Modelado de la Ontología

Antes de nada, debemos modelar el formato de los datos que queremos ingestar en la Onesait Platform.

Nos interesa saber cómo han evolucionado los casos de COVID-19 en todo España. En este primer tutorial usaremos únicamente la web de Datos Abiertos del Gobierno para representar la evolución en la población de Alcobendas. En la segunda parte cruzaremos el número total de casos y altas por Comunidad Autónoma a partir de los datos de datadista.

Catálogo de datos epidemiológicos referidos al COVID-19 del portal de Datos Abiertos.

Tenemos por un lado los datos en distintos tipos de formatos, y un shapefile con los datos geográficos de cada zona referenciada. Hemos decidido utilizar el formato CSV para realizar la ingesta, pero podemos trabajar con el formato que queramos. El fichero CSV tiene el siguiente aspecto:

La primera línea del fichero contiene los nombres de cada campo, separados por comas. Con esto tenemos todo lo necesario para la definición de nuestra Ontología.

Utilizaremos la herramienta de la Plataforma de creación de Ontologías Creation step by step, y seleccionaremos la opción Empty Base, tras haber rellenado los metadatos de la Ontología.

Detalle del gestor de creación de Ontologías.

Definimos los nombres de los campos y el tipo de dato correspondiente:

A continuación, pincharemos en la opción Update Schema para visualizar el esquema generado. Si pinchamos en la opción Generate Instance podremos ver un ejemplo de instancia.

Estructura del esquema generado para la Ontología.

Tras pinchar en NEW, ya tendremos nuestra Ontología creada y lista para ser utilizada en nuestros flujos de ingesta.

Flujo de ingesta

A continuación realizaremos el flujo de ingesta para disponibilizar los datos públicos en la Platforma, con el formato definido en el punto anterior. El flujo es el siguiente:

Flujo de FlowEngine definido para la importación de datos.

Timestamp: inyecta un mensaje en el flujo para forzar su ejecución.
HTTP Request: indicamos la URL a la que atacar: https://datos.alcobendas.org/dataset/e841a91e-a7d8-4bd8-977c-f842169cd04e/resource/be4732de-a69a-48c2-849a-be8130a9f64f/download/recurso.csv

Pantalla de configuración del bloque de HTTP Request.

CSV: convierte el mensaje en formato CSV, un array de objetos para su procesado posterior. Le indicamos la coma como separador de campo(,), activamos el check para procesar la primera línea como nombres de los campos, y especificamos que queremos a la salida un mensaje con un array con todos los datos.

*Pantalla de configuración del bloque de nodo CSV*.

Function: aquí le damos el formato a cada registro de datos de acuerdo al esquema de Ontología definido en el primer punto.

*Pantalla de configuración del bloque de nodo de función*.

Join: esta caja sirve para agrupar registros, de forma que podamos realizar operaciones bulk en vez de persistir cada registro de manera individual. Tenemos que indicar el campo del mensaje que queremos agrupar (payload), el formato destino (array), así como el límite de registros que se pueden añadir, o un timeout en caso de no llegar al límite superior.

*Pantalla de configuración del bloque de nodo de unión*.

onesaitplatform-insert: sirve para ingestar datos en una Ontología de la Plataforma. Debemos indicarle la Ontología destino.

*Pantalla de configuración del bloque de nodo de inserción*.

Ahora solo nos queda ejecutar el flujo para persistir los registros en la base de datos. Una vez lo ejecutemos, podremos ver en la pestaña de debug el resultado de la operación de inserción. Como podemos observar, persistimos los registros de 100, que es nuestro límite superior de agrupación.

Creación del Dataset y recurso de CKAN

Por último, para poder visualizar los datos en el portal, debemos crear el recurso correspondiente en CKAN. Si no tenemos un dataset donde guardar el recurso, deberemos crearlo:

Ahora ya podremos crear nuestro recurso y asignarlo al Dataset recién creado.

En la pantalla de creación definimos el nombre del recurso, el Dataset al que pertenece, la Ontología origen y la consulta a realizar.

Una vez se haya subido el recurso a CKAN, ya tendremos los datos disponibles en nuestro portal.

Visualización de datos y creación de vistas

Al acceder al portal (/opendata), podremos ver el Dataset que hemos creado así como sus recursos:

Pantalla de Datasets del entorno OpenData de Plataforma.

Detalle del recurso generado previamente.

Y podremos hacer uso del datastore CKAN para la consulta y filtrado de datos en tiempo real.

También podemos definir nuevas vistas para la representación de los datos.

Crearemos una vista de tipo gráfico como ejemplo. Para ello, se accederá a New View > Chart Builder.

Formulario de generación de nuevo tipo de visualización de datos.

Seleccionamos como claves de datos la tasa total, la tasa en los últimos 14 días y los casos totales, que representaremos con su correspondiente zona, codigo_gis y fecha.

Detalle del selector de datos a mostrar.

Pulsamos en Preview para visalizar la renderización del gráfico:

Gráfica de resultado con la información filtrada.

En último lugar, añadiremos el fichero shapefile para la visualización de las distintas zonas del distrito dentro del mismo Dataset.

De momento no tenemos integrado en Onesait Platform la creación de este tipo de recursos, pero lo podemos añadir como recurso externo en el mismo CKAN. Para ello, únicamente tenemos que crear el recurso correspondiente (formato SHP).

Una vez se ha subido al datastore, podemos visualizarlo con el plugin de shapefile.

Como hemos visto, no resulta complicado la integración de datos externos en nuestro Open Data. También se han facilitado servicios para la creación de recursos a partir de ficheros, así como recursos de la Plataforma (GIS, Dashboards, etc). Esto convierte al CKAN de Onesait Platform en una herramienta muy potente para la integración y visualización de datos abiertos.

¡Esperamos que os haya gustado! Y cualquier duda que os surja, dejadnos un comentario.

Author(s)

gjuan

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Introducción

Modelado de la Ontología

Flujo de ingesta

Creación del Dataset y recurso de CKAN

Visualización de datos y creación de vistas

Author(s)

gjuan

También te puede gustar

Cómo usar el API JavaScript para comunicar con la Plataforma

Despliegue continuo con OpenShift

Conociendo Fn (parte 2): Generando una función Fn con Java y GraalVM

Deja una respuesta Cancelar la respuesta