¿Cómo explotar datos de Twitter con los Dashboards?

28/04/2022 Pedro Luis Antona Díaz

Hace no mucho os contábamos cómo podíamos trabajar con Twitter desde nuestro módulo de FlowEngine. Como vimos, podíamos interactuar con #hashtags de Twitter y almacenar la información que nos resultase interesante (contenidos, autores, etc.).

Ahora bien, una vez que tenemos esa información, ¿qué podríamos hacer con ella?

A lo largo de esta entrada vamos a ver cómo podemos explotar esos datos almacenados en Entidades de la Plataforma para exponerlos y analizarlos desde nuestro módulo de Dashboard.

Como en el caso anterior, vamos a hacer uso de CloudLab, nuestro entorno de experimentación gratuito y abierto a todo el mundo, así que os animamos a usarlo si queréis realizar este tutorial.

Cómo empezar a trabajar con CloudLab

Análisis de los Datos

Con los datos de Twitter que hemos obtenidos directamente desde el API de Twitter, y que tenemos almacenados en una de nuestras entidades (para este ejemplo, en una llamada «TweetsFromFlowEngine») , vamos a proceder a una explotación de los mismos.

Como ya se mostro en la entrada anterior, vamos a usar la herramienta de Query Tool, que se encuentra en el menú de «Tools > Query Tool», y con la que podremos lanzar diferentes consultas sobre los datos.

Para realizar estas consultas podemos usar tanto lenguaje SQL como el nativo (en este caso, el lenguaje de consulta de MongoDB). Para el caso que mostramos vamos a utilizar lenguaje SQL, que es el lenguaje estándar de consulta que proporciona la Plataforma.

Vamos a ir lanzando consultas sobre los datos que tenemos para poder tener una base sobre la que construir a continuación nuestro Dashboard analítico.

A la hora de hacer estas consultas, si no cambiamos la consulta que se nos genera por defecto vemos que la consulta recupera únicamente tres registros de la entidad:

SELECT * FROM TweetsFromFlowEngine AS c LIMIT 3

Si queremos recuperar todos los datos, únicamente tendríamos que eliminar la coletilla de «LIMIT 3». Ahora bien, esto nos puede devolver una consulta bastante grande (dependiendo de lo que hayamos llegado a almacenar), así que vamos a empezar conociendo cuantos registros tenemos en total.

Esto lo podemos hacer mediante la siguiente consulta (resaltamos en negrita lo importante):

SELECT count(*) FROM TweetsFromFlowEngine AS c

Pues bueno, no es un valor exagerado, pero lo suficientemente grande como para estar contándolo a mano. Visto esto, el siguiente paso podría ser conocer, por ejemplo, el número de registros que tenemos por cada idioma presente. Esta consulta sería:

SELECT lang, count(*) as cc FROM TweetsFromFlowEngine AS c group by lang

Vale, esto va cogiendo forma. Una consulta similar pero más interesante sería ordenar esos idiomas por número de ocurrencias de manera descendiente, con lo que obtendríamos un ranking por idioma (por así decirlo). Esto lo podemos conseguir mediante esta consulta:

SELECT lang, count(*) as cc FROM TweetsFromFlowEngine AS c group by lang order by cc desc

En este caso, hemos usado la visualización por tabla que nos facilita la compresión de los datos planos. ¿Que cómo se activa esta opción? Pulsando el siguiente botón situado en la parte derecha de la pantalla:

Otro campo que puede resultarnos interesante es el de la localidad del usuario, información que podemos obtener de los tweets (aunque con cierto ojo, pues es el valor definido por el usuario). Esto lo conseguimos con:

SELECT location.place, count(*) as conteoporlugar FROM TweetsFromFlowEngine AS c group by location.place order by conteoporlugar desc

Ya os decíamos que ojo con las localidades de los usuarios, que si bien o no las tienen definidas, o el lugar que ponen puede no corresponderse con la realidad. Esto se podría solucionar atendiendo al campo de «tweet.geo», que geolocaliza desde donde se escribe el tweet, pero este valor casi siempre es nulo, pues los usuarios suelen desactivarlo por privacidad (y si no lo habéis hecho ya, tardáis).

Para evitar los datos nulos (que no quedan muy allá), podemos modificar la consulta anterior a:

SELECT location.place, count(*) as conteoporlugar FROM TweetsFromFlowEngine AS c group by location.place where location.place is not null order by conteoporlugar desc

Bueno, pues los datos parecen que tienen buena pinta, por lo que guardamos la consulta para más adelante, dando por terminado el preprocesado de datos y pasar a la parte de representación visual.

Construcción del Dashboard

En primer lugar vamos a generar un nuevo Dashboard. Para ello, navegaremos hasta el menú de «Visualization & GIS > My Dashboards».

Para crear uno nuevo, pulsaremos en el botón de «+» situado en la parte superior derecha del listado de Dashboards.

Tras pulsarlo, nos aparecerá el formulario de creación del Dashboard, así como diferentes opciones a completar. En este punto, daremos un nombre a nuestro Dashboard, incluiremos una descripción y marcaremos el estilo «Default Style from 2.2». Finalmente pulsaremos en el botón «Crear» y nuestro Dashboard estará listo.

Dentro podremos ver el lienzo sobre el que podremos ir colocando los Gadgets:

Para añadir nuestro primer gadget, pulsaremos en el botón «+» lo que hará que aparezca el panel con el que podremos arrastrar elementos.

El primer gadget que vamos a crear será un tipo tabla con los diferentes tweets. Para ello, arrastraremos el icono de la «tabla» sobre el lienzo y lo dejaremos caer. Hecho esto, nos saldrá una ventana indicando qué tipo de Gadget vamos a implementar.

Pulsaremos en «New Gadget», ya que lo que buscamos es crear un Gadget nuevo desde cero. Daremos un nombre y seleccionaremos la entidad de «TweetsFromFlowEngine».

A continuación podremos introducir la consulta de filtrado de los datos. En este caso, dejaremos la que viene por defecto.

Pulsaremos en «Continue» y seleccionaremos los siguientes campos:

Tweet.id_str
Tweet.user.name
Tweet.user.location
Tweet.text

En la parte inferior del Gadget veremos una previsualización de cómo va a quedar:

Si nos gusta como queda, pulsaremos en «Create» para generarlo.

Seguidamente vamos a generar un gráfico de barra para poder ver cuantos Tweets hay por idioma. Arrastraremos en este caso el Icono de «Bar Chart», y le daremos a «New Gadget». En este caso usaremos la siguiente consulta:

SELECT lang, count(*) as cc FROM TweetsFromFlowEngine AS c group by lang order by cc desc

Daremos a «Continue» y desmarcaremos la opción de «Sort» ya que este campo nos ordenaría la visualización por el eje X, y eso no es lo que queremos.

Y dejaremos el eje Y sin un máximo, para que se recalcule automáticamente.

Después, usaremos con eje X el campo de «lang» y como eje Y «cc». Podremos darle algún estilo adicional si lo vemos necesario.

Daremos a «Create» y ya tendremos nuestro gadget listo.

Ahora vamos a crear un gadget de tipo tarta con información sobre la localización. La consulta será la siguiente:

SELECT location.place, count(*) as conteoporlugar FROM TweetsFromFlowEngine AS c where location.place is not null group by location.place order by conteoporlugar desc

Usaremos como ejes los campos de «place» y el de «conteoporlugar».

A continuación vamos a conectar los gadgets entre ellos, de modo que podamos filtrar por el campo de «lang» desde el gadget de barras. Para ello usaremos el botón de «Datalink».

Seleccionaremos como origen el Gadget de tipo tabla y el campo «lang». Como destino, ambos Gadgets y el campo «lang». En este caso, tendremos que escribir explícitamente el campo «lang» en el destino, al ser un campo que la consulta no nos trae.

Con las dos conexiones añadidas, tendremos algo así:

Hecho esto, cerraremos el Datalink y podremos comprobar que pulsando las barras del primer gadget podremos filtrar los otros dos:

Friendly reminder: este es un buen momento para guardar el Dashboard y evitar perder el trabajo realizado con el botón.

Finalmente, usando diferentes opciones del Dashboard podemos estilizar el mismo para tener una presentación más vistosa:

Imagen de cabecera de Stephen Dawson en Unsplash.

✍🏻 Author(s)

Pedro Luis Antona Díaz

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Análisis de los Datos

Construcción del Dashboard

✍🏻 Author(s)

Pedro Luis Antona Díaz

También te puede gustar

Trabajando con un Data Lake en la Onesait Platform (parte 4)

Insertar datos usando REST en un topic Kafka mediante DataFlow

Un vistazo al DataRefiner

Deja una respuesta Cancelar la respuesta