Data Fabric: concepto, capacidades y estado del arte

24/01/2022 LuisMi Gracia

No es fácil definir el concepto de Data Fabric porque la definición va cambiando según evoluciona el concepto que ha pasado de estar asociado inicialmente a un producto a un enfoque arquitectónico y de diseño para la gestión e integración de datos. De hecho, muchos proveedores han creado su propia definición de Data Fabric adaptándolo a su oferta, lo que ha generado más confusión aún.

Actualmente, el interés en torno al concepto de Data Fabric es muy grande, ya que existe una necesidad real de gestionar mejor los datos por motivos como:

La escasez de ingenieros de datos cualificados, lo que hace que la automatización sea una necesidad.
La adopción de soluciones en la nube ha introducido muchos almacenes de datos de propósito especial para capturar y gestionar datos.
El aumento del número de fuentes de datos que hay que integrar y la diversidad de estas (estructuradas, semiestructuradas y no estructuradas).
La creación de más silos de datos.
Las empresas se enfrentan a la intrusión de eventos y fuerzas externas que requieren un rápido análisis en el entorno de datos. Esto impulsa la necesidad de poder integrar fuentes de datos nuevas de forma ágil.
La necesidad de reducir los costes a largo plazo debido al aumento de la competencia.

people doing office works — Image de Alex Kotliarskyi en Unsplash

Estos y otros factores impulsan la necesidad de un Data Fabric, ya que este puede ayudarnos en la automatización y optimización de los datos, permitiendo gestionar e integrar mejor los datos, al tiempo que proporciona una capa uniforme a la que pueden acceder todos los consumidores de datos.

Capacidades de un Data Fabric

Para facilitar el análisis, vamos a agrupar las capacidades esperadas de un Data Fabric en estas categorías:

Catálogo de datos ampliado: ser capaz de encontrar, conectar, catalogar e integrar todos los tipos de datos y metadatos es una de las capacidades principales de un Data Fabric. El catálogo de datos se conecta a los metadatos de todas las fuentes y automatiza algunas de las tareas relacionadas con el uso de un catálogo de datos, como el descubrimiento y la ingestión de metadatos.
Grafo de conocimiento enriquecido con semántica: este grafo está diseñado y construido para almacenar y visualizar la compleja relación entre múltiples entidades. Además, las taxonomías y ontologías utilizadas en los grafos de conocimiento deben ser intuitivas de interpretar y mantener para los recursos no técnicos.
Activación de los metadatos: tradicionalmente, sólo se han considerado los metadatos pasivos que se generan en el momento en que se crean los objetos de datos individuales (por ejemplo, el tipo de datos, la longitud y la descripción). En un Data Fabric se consideran metadatos técnicos adicionales, como registros de transacciones, registros de usuarios y planes de optimización de consultas. En combinación con el grafo de conocimiento, los metadatos técnicos se utilizan para crear lo que se denomina metadatos activos. Los metadatos activos se utilizarán como entrada para el motor de recomendación.
Motor de recomendación: basándose en los metadatos activos, se aplican rutinas de inteligencia artificial (IA) y aprendizaje automático (ML) para recomendar optimizaciones de la integración y la entrega de datos. Por ejemplo, el motor de recomendación puede proponer la conversión de un flujo de datos implementado a través de la virtualización a un modo de entrega near-real-time debido al deterioro del rendimiento.
Preparación y entrega de datos: un Data Fabric permite la preparación de datos en régimen de autoservicio, permitiendo a los usuarios acceder a la capa semántica común, representada por el grafo de conocimiento, en un entorno donde pueden explorar y transformar los datos para crear nuevos conjuntos de datos. El segundo elemento, la entrega de datos, es la capacidad de soportar diferentes estilos de entrega de datos a los consumidores de datos (por ejemplo: soporte para streaming, bulk/batch y virtualización).
Orquestación y DataOps: la capa de orquestación apoyará una mejor sincronización de los flujos de datos. El uso de los principios de DataOps en todo el proceso permite una entrega de datos ágil y repetible.

Estas categorías o pilares de un Data Fabric constituyen una arquitectura Data Fabric diseñada para soportar todo el espectro de gestión y tratamiento de datos.

Estado del arte

Como hemos dicho, actualmente el concepto de Data Fabric se define más como un patrón de diseño emergente de gestión e integración de datos que como un producto. La implementación de un Data Fabric requiere una combinación de diferentes tecnologías de gestión de datos, tanto conocidas como emergentes.

magnifying glass near gray laptop computer — Imagen de Agence Olloweb en Unsplash

Según el Hype Cycle for Data Management (2021), el Data Fabric tiene una penetración estimada en el mercado de entre el 1% y el 5% y se sitúa en la cima del Pico de Expectativas Infladas. Tiene un horizonte de cinco a diez años para alcanzar su plena madurez.

Además, algunos de los componentes de un Data Fabric están aún menos maduros y, por tanto, también tienen una penetración de mercado aún menor. Por ejemplo, DataOps todavía se define como un activador de la innovación con una penetración en el mercado inferior al 1%.

En la actualidad, ningún proveedor es capaz de proporcionar una cobertura completa de todos los pilares de un Data Fabric en una sola plataforma totalmente integrada, esto significa que no es posible simplemente comprar un producto Data Fabric que cubra todas las capacidades.

¿Cómo lo veis? ¿Pensáis que esto se podrá acelerar por el interés generado, o habrá que esperar esos cinco a diez años que se comentan?

Imagen de cabecera de 🇸🇮 Janko Ferlič en Unsplash

✍🏻 Author(s)

LuisMi Gracia

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Capacidades de un Data Fabric

Estado del arte

✍🏻 Author(s)

LuisMi Gracia

También te puede gustar

Tecnologías de la Onesait Platform (parte 1)

Hablemos de mvnd

¿Cómo definir la arquitectura de tu sistema con C4 Model?

Deja una respuesta Cancelar la respuesta