Tecnologías

La tecnología detrás del DataCleaner: Open Refine

Nuestra herramienta de DataCleaner se basa en el software OpenRefine, al que le hemos añadido un conjunto de extensiones para trabajar con la Plataforma.

Open Refine es una herramienta Java basada en una licencia Open Source (BSD-3) que, con un interfaz web al estilo de Microsoft Excel, permite cargar datos provenientes de diferentes sitios y en diferentes formatos, entenderlos, limpiarlos, conciliarlos y por supuesto, mejorarlos.

En primer lugar tenemos que hacer notar que el concepto de OpenRefine consiste en que puedas hacer las transformaciones desde tu propio ordenador, sólo que en lugar de usando una aplicación cliente, lo hagas desde tu navegador (aunque como siempre, hay formas de llevarse este concepto al Cloud).

¿Te interesa conocer más sobre OpenRefine? Puedes encontrarlo en su repositorio de GitHub, y encontrar más información en su Wiki. De todos modos, hablemos un poco más de ello.

Antecedentes

OpenRefine fue inicialmente desarrollado por Metaweb con el nombre Freebase Gridworks, y después fue adquirido y evolucionado por Google con el nombre Google Refine. A partir de 2012, Google liberó el código, que se convritió en proyecto open source llamado Open Refine.

Cuando Google cedió el software a la comunidad, la verdad es que le costó arrancar un poco. Para que os hagáis una idea, veamos cómo ha sido su desarrollo con el tiempo:

AñoVersiónDetalles
2013– Google Refine 2.5Última versión con branding de Google.
2015– Open Refine 2.6-rc1Tardan dos años en generar una Release Candidate, de la que no salió versión final.
2017– Open Refine 2.7 Release
– Open Refine 2.8 Release
Por fin tenemos una release; bueno, realmente tuvimos dos.
2018– Open Refine 3.0 Release
– Open Refine 3.1 Release
Han pasado cinco años hasta que hubo una versión major de Open Refine.
2019– Open Refine 3.2 Release 
2020– Open Refine 3.3 Release 
Más información: releases de OpenRefine.

La versión actual es la 3.4.1, la cual salió a finales de septiembre de 2020. Como se puede apreciar en la tabla, desde el año 2018 ó 2019 se nota que el proyecto se ha reactivado.

Cómo instalar OpenRefine

Bueno, todo muy interesante pero, ¿cómo puedo instalarme OpenRefine? Pues es muy sencillo, la verdad.

Como hemos dicho, OpenRefine está pensado para usarse en el ordenador local, por lo que para usarlo basta con que descarguéis la distribución para vuestro sistema operativo.

En la página de releases podéis encontrar los instaladores para cada tipo de entorno:

Una vez descargado el software y lanzado el ejecutable, se os abrirá un navegador en localhost, apuntando al puerto 3333 (http://127.0.0.1:3333).

Sencillo, ¿verdad? Pues desde aquí ya podéis poneros a trabajar con vuestros archivos y sacarles brillo.

✍🏻 Author(s)

Un comentario en «La tecnología detrás del DataCleaner: Open Refine»

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *