Un vistazo al DataRefiner
Con el objetivo de incorporar nuevas capacidades de Data Governance en la Plataforma, hemos incluido un nuevo módulo -denominado DataRefiner (también llamado DataCleaner)- accesible desde la entrada de menú «Analytics Tools».
Este módulo nos permite cargar datos en diferentes formatos (XSL, CSV, XML, JSON, etc.) desde mi PC, internet o la propia Plataforma (a través de una consulta SQL) y trabajar con ellos para hacer una limpieza, mejora, reestructuración o conciliación de estos antes de cargarlos en la Plataforma como una Ontología.
También permite trabajar con datos almacenados en plataforma como Ontologías para procesarlos, limpiarlos y generar ficheros desde ellos. Para ello, la herramienta ofrece una interfaz Excel-like.
Este módulo está construido sobre Open Refine, una herramienta Java open-source (licencia BSD-3) de la que os hablamos aquí en el blog hace no mucho.
Más información al respecto aquí.
Capacidades del módulo
En el módulo se contempla:
- Importación de ficheros en diversos formatos y orígenes.
- Exportación de datos procesados a diferentes formatos.
- Importar datos desde una Ontología: en esta sección podremos conectarnos con una instancia de la Plataforma, seleccionar una consulta y cargar estos datos en la herramienta:
- Exportar datos ya procesados (limpiados, agregados, etc.) a una Ontología eligiendo una instancia de la Plataforma: trabajando en formato JSON, o también exportarla como fichero JSON a local:
- La posibilidad de aplicar transformaciones: a un fichero de forma manual y luego automatizar la aplicación de estas mismas reglas sobre otros ficheros (por ejemplo, podría trabajar sólo con datos de un mes y luego aplicarlos a un fichero anual) a través de un componente de DataFlow:
- Seguridad a nivel de usuario: cada usuario podrá ver sólo sus proyectos .
En nuestro Portal de Desarrollo tenemos varias guías sobre DataRefiner, por lo que os animamos a que echéis un ojo, que os explicamos en detalle su uso.