Carga de archivos GeoJSON en ontologías mediante DataFlow

Header of a DataFlow

La Plataforma se nutre de muy diferentes formas de información en bruto, siendo los archivos GeoJSON una de esas formas.

Un GeoJSON no es más que un archivo JSON que incluye información de localización espacial que permite representar geometrías sencillas en un visor de mapas. Dichas geometrías son puntos, líneas y polígonos.

Ejemplos de geometrías. Fuente: Wikipedia

Este tipo de JSON se estructura como un objeto de tipo FeatureCollection formado de una serie de Features, siendo cada uno de estos Features el o los elementos geométricos junto a sus propiedades. Por ejemplo, un GeoJSON que contenga un punto que represente la localización de la sede de Minsait tendría esta información:

{
  "type": "FeatureCollection",
  "features": [
    {
      "type": "Feature",
      "properties": {
          "lugar": "Minsait"
      },
      "geometry": {
        "type": "Point",
        "coordinates": [
          -3.6412596702575684,
          40.52915218240344
        ]
      }
    }
  ]
}

A la hora de crear una ontología que incorpore esta información, podemos encontrarnos con dos situaciones: que todo el GeoJSON comparta el mismo tipo de geometría (una capa de todo puntos, o todo líneas, o todo polígonos), para lo cual se genera en la ontología un campo del tipo de geometría correspondiente (geometry-point, por ejemplo); o que se incluyan multigeometrías, lo que implica hacerlo de una manera más artesanal.

Una vez definida nuestra ontología, existen diversos métodos para ingestar datos en ella, desde ir introduciendo datos de uno en uno a mano (algo no muy práctico) a utilizar herramientas de carga de datos que optimice el proceso.

Una de las herramientas con las que contamos en Plataforma para realizar estar cargas de datos es DataFlow, basado en StreamSets.

Tras configurar los parámetros de entrada -la fuente de datos- y de salida -la ontología- lanzando el DataFlow cargamos de manera automática toda la información contenida en el GeoJSON en la ontología, disponibilizando su contenido para usarlo en nuestros proyectos.

Para llevar a cabo todo este procedimiento, hemos creado en nuestro Confluence un tutorial de cómo cargar un GeoJSON en una ontología mediante DataFlow. Mediante ejemplos prácticos explicamos paso a paso cómo llevar a cabo la generación de la ontología, preparar un GeoJSON con las Comunidades Autónomas de la zona de la Península para su carga, creación del Pipeline del DataFlow y su configuración para su funcionamiento.

Como resultado, tendremos una ontología funcional que podrá utilizarse, por ejemplo, para generar una capa a visualizar en un mapa en un Gadget de Dashboard.


Esperamos que el tutorial os sea de interés y podáis sacarle provecho. Recordad que este es un ejemplo muy sencillo de una carga de datos, por lo que si estáis interesados en conocer más sobre esta herramienta, os recomendamos nuestras guías de ayuda sobre DataFlow.

Cualquier duda o problema que tengáis, dejadnos un comentario y lo analizaremos tan pronto como nos veas posible.

Más información

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *