Conectando con Google BigQuery: Agentes JDBC

02/11/2020 Pedro Luis Antona Díaz

En muchas ocasiones, nuestro objetivo de negocio se basa en el acceso y operación sobre mucha información que reside en diferentes bases de datos. En la Onesait Platform, gracias al concepto de ontología, podemos tener una abstracción sobre las mismas, de modo que podemos trabajar con estos datos directamente e independientemente de la implementación que tengan. Para nosotros, será una ontología más, con todas sus capacidades.

En el plano técnico, tenemos diversos conectores sobre múltiples bases de datos, tales como MongoDB, Kudu, Impala/Hive, MySQL, Oracle, SQLServer, PostgreSQL, etc., que proporciona la Plataforma sin necesidad de hacer nada.

Algunos de ellos, se pueden usar de forma directa desde las opciones avanzadas de creación de ontologías paso a paso:

Otros sin embargo, funcionan como conexiones JDBC a una base de datos, permitiendo inferir ontologías desde tablas existentes o creando nuevas tablas con las denominadas ontologías sobre bases de datos relacionales.

En este segundo tipo, puede ocurrir que tengamos que acceder a una nueva base de datos vía JDBC y que no sea ninguna de las anteriores o sea alguna versión incompatible de las mismas, con los drivers proporcionados por la Plataforma. En estos casos, se nos podría ocurrir incluir estos nuevos drivers, de modo que acabaríamos teniendo infinitos drivers con los posibles problemas que podrían generar, conflictos entre los mismos, tamaño en disco, etc.

Es por eso que en la Plataforma se implementó un conector universal para este tipo de casuísticas, de modo que podemos desacoplar el driver de la base de datos e incluso escalarlo independientemente si es necesario, con los agentes JDBC de Calcite Avatica.

Estos agentes JDBC, se desplegarán como contenedores y funcionarán de intermediarios entre la Onesait Platform y la base de datos que queremos usar. El driver en sí de la base de datos irá embebido en el contenedor del agente JDBC que montará un servidor JDBC de Avatica, donde la Plataforma, con sólo el driver cliente de Avatica, se conectará a cualquier base de datos que maneje el agente que funcionará de proxy entre la Plataforma y la base de datos.

Configuración y uso de estos agentes

Vamos a seguir un proceso en el que vamos a conectarnos por JDBC a Google BigQuery (vía cuenta de servicio + token JSON de acceso), el cual es un buen caso de driver pesado y que no tiene sentido incluir en el core de la Plataforma.

El driver JDBC puede obtenerse desde esta URL en concreto.

Necesitaremos también una cuenta de servicio de BigQuery junto con un token JSON de acceso que tendremos que descargar. Esto puede crearse todo desde la consola de Google Cloud Platform.

También, vamos usar una tabla creada con BigQuery que será la que usemos como ontología.

Creación del agente JDBC

El primer paso, requiere desplegar en el CaaS una de las imágenes existentes como un contenedor y configurarla correctamente. También, podría ser necesario, según el caso, crear una imagen Docker partiendo de una existente, para especializarla en cierta base de datos.

En este momento, existen 3 imágenes, MySQL 8, BigQuery y una imagen genérica para construir nuestro propio agente JDBC.

Uso de la imagen específica para crear conexiones

Las imágenes especificas son fáciles de usar, sólo es necesario definir la variable de entorno JDBC_URL que determinará la URL de conexión JDBC a la base de datos destino. Por ejemplo, para definir una conexión contra BigQuery vía nuestro archivo JSON de autenticación con el agente, usaremos la imagen especifica de BigQuery.

Será necesario usar un volumen compartido donde dejar la clave JSON (en /token) y después incluir la propia url de conexión (jdbc:bigquery://… https://www.simba.com/products/BigQuery/doc/JDBC_InstallGuide/content/jdbc/bq/using/connectionurl.htm):

Esto nos arrancará un agente JDBC que atacará a BigQuery por la URL proporcionada, junto con el token de acceso. Este agente será accesible por el puerto 8765 del contenedor, que será el que tendremos que usar para acceder al mismo.

Uso de la imagen genérica para crear conexiones

En el caso de usar la imagen genérica, es necesario proporcionar también los drivers, vía volumen compartido sobre la carpeta “/my-database-jars”. Aquí incluiremos los descargados.

Para su uso en Rancher, sólo es necesario proporcionar la variable de entorno JDBC_URL y, en caso de usar la imagen genérica, el volumen con los drivers:

Una vez el contenedor está configurado y arrancado, se puede continuar al siguiente paso.

Creación de Ontología a partir del Agente JDBC

Para este paso iremos a la opción JDBC Connections Management, algo sólo disponible para el rol Administrador, y crearemos una nueva conexión:

En esta página, hay que usar la opción «OP_QUERYDATAHUB» en la base de datos y, a la hora de seleccionar la URL, completar una del tipo:

jdbc:avatica:remote:url=http://{agentip}:{agentport};serialization=protobuf

Por ejemplo:

jdbc:avatica:remote:url=http://jdbc4datahubbigquery:8765;serialization=protobuf

Después, sólo si la base de datos destino tiene usuario/password, deberán proporcionarse en esta pantalla y darle a crear la conexión. El agente enviará estas credenciales a la base de datos destino, con lo que no tendremos que tenerlas almacenadas en otro sitio. En el caso de bigquery no es necesario (al usar el Token de acceso), por lo que lo podemos dejar vacío.

Con lo anterior realizado, ya es posible crear ontologías como cualquiera del tipo relacional a través de «Creation from external relational database» y seleccionando la nueva conexión.

Y finalmente accediendo a los datos como a cualquier ontología, por lo que podemos usar esta ontología para generar un Dashboard sobre BigQuery, exponerla como API o muchas otras opciones que nos ofrece plataforma.

Sencillo, ¿verdad? Esperamos que os haya parecido interesante, y cualquier duda que tengáis, dejadnos un comentario.

✍🏻 Author(s)

Pedro Luis Antona Díaz

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Configuración y uso de estos agentes

Creación del agente JDBC

Uso de la imagen específica para crear conexiones

Uso de la imagen genérica para crear conexiones

✍🏻 Author(s)

Pedro Luis Antona Díaz

También te puede gustar

Actualización de versión de un clúster RKE2

Consola de Operación (Parte 2): Primeros pasos

Configuración avanzada de Fluentd

Deja una respuesta Cancelar la respuesta