Análisis de Redpanda como sustituto de Kafka

26/04/2024 René Tashi

Redpanda es un reemplazo directo de Kafka como broker de eventos para el uso de clientes Kafka (consumidores/productores)

Está desarrollado en C++, afirmando que de esta manera es más eficiente que Kafka (implementado en Java) y por tanto no usa una JVM, permitiendo una mejor gestión del uso de memoria.

También elimina la necesidad de utilizar Zookeeper/KRaft, ya que basan Redpanda en un único binario con todas las funcionalidades requeridas. De esta manera, Redpanda implementa el protocolo de consenso Raft.

Arquitectura de cluster Kafka vs Redpanda (fuente: redpanda.com)

Redpanda frente a Kafka

Ya hemos podido ver las mayores diferencias entre Kafka y Redpanda, al menos a nivel de implementación y/o arquitectura:

Concepto	Kafka	Redpanda
Licencia	Apache 2.0	Community Edition en BSL y otra licencia comercial para Enterprise Edition.
Implementación	JAVA	C++
Módulos	Brokers, Zookeeper/KRaft controller, Schema Registry, etc.	Arquitectura de un sólo binario. Toda la funcionalidad se implementa en el nodo de Redpanda.

El principal atractivo de Redpanda es la simplicidad de configuración y velocidad (baja latencia), así como el mejor uso de los recursos para el clúster de brokers desplegados.

Así lo afirma Redpanda con el siguiente benchmark, en el que se afirma una reducción en coste de 6x y un aumento de velocidad 10x.

Como contrapunto, tenemos este otro benchmark, creado a partir del anterior, por un empleado de Confluent, donde comenta algunos puntos interesantes sobre la configuración de Kafka y los resultados de los mismos. Este análisis es bastante más detallado, teniendo en cada uno de los puntos que veremos a continuación, una subsección explicando el resultado obtenido y cómo lanzar dicho benchmark.

Los resultados más significativos son:

La latencia aumenta en Redpanda a medida que aumentan los productores: según los datos, cuando subimos de cuatro (benchmark de Redpanda) a cincuenta (benchmark de Kafka) productores, el tiempo de latencia se dispara en Redpanda.
Deterioro del rendimiento en ejecuciones continuadas en el tiempo: tras doce horas de ejecución, Redpanda muestra un aumento en la latencia que viene de los discos NVMe. En concreto, se achaca a cómo Redpanda acaba distribuyendo los datos de las particiones, siguiendo un patrón más similar a acceso aleatorio, lo cual lleva a un mayor IO de disco. En Kafka no sucede por la naturaleza más secuencial de organizar los datos.
Deterioro de la latencia en Redpanda cuando se alcanza el punto de retención de datos: esto es muy importante, ya que en un entorno de producción lo habitual es estar siempre en este punto, en el que los tópicos se vayan «purgando» según las políticas de retención definidas.
El impacto de escribir mensajes/eventos con clave: si bien es cierto que para la mayor parte de nuestros casos de uso no hacemos uso de esta funcionalidad (que ayuda a repartir los mensajes entre particiones de manera única y garantizar el orden), en los casos en los que es necesario, se detecta una reducción significativa del throughput para Redpanda cuando también se aumentan los productores.
Redpanda no llega al límite de transferencia de los discos NVMe con acks=1: esta configuración nos acepta la escritura del dato siempre que haya sido persistido en el líder, no esperando a la replicación completa. En estos casos se observa que Redpanda no alcanza el throughput límite de los discos NVMe mientras que Kafka sí.
Problemas con Redpanda a la hora de agotar el backlog: supongamos que en un escenario dado, mantenemos los clústers de Kafka/Redpanda corriendo, así como los productores de datos, pero paramos los consumidores. Al volver a conectar dichos consumidores, se detecta que Redpanda tiene problemas para ir bajando el lag en el consumo de datos.

Integración en Onesait Platform

Además de la comparativa de rendimiento, latencias y throughput, si analizamos Redpanda como reemplazo directo de Kafka vemos que permite autenticación y autorización.

Como parte de la integración de Kafka dentro de la Plataforma, hacemos uso de nuestro propio plugin de autenticación y por debajo usamos la Admin API de Kafka para generar las ACLs de esos usuarios/ clientes digitales creados.

Desde Redpanda en su documentación vemos que soporta los siguiente métodos de autenticación:

API	Supported Authentication Methods
Kafka API	– SASL – SASL/SCRAM – SASL/OAUTHBEARER (OIDC) – SASL/GSSAPI (Kerberos) – mTLS
Admin API	– Basic authentication – OIDC
HTTP Proxy (PandaProxy)	– Basic authentication – OIDC
Schema Registry	– Basic authentication – OIDC

Esto nos deja fuera la posibilidad de usar nuestro plugin de seguridad tanto para la API de Kafka como para la de Admin.

Conclusiones

Tras ver todo esto, no creemos que Redpanda pueda ser un reemplazo directo del uso de Kafka para nuestros casos de uso habituales, a menos a día de hoy.

En la mayoría de proyectos que usan Kafka con la Plataforma, estamos en posiciones donde entran en juego algunos de los puntos mencionados anteriormente, principalmente los puntos 2, 3 y 6 de la comparativa de bechmarks:

Ejecuciones continuadas en el tiempo: para la mayoría de nuestros casos de uso, Kafka es un bus de entrada de datos/ comunicación de procesos, que permanece en continua conexión.
Retención de datos: dado que son procesos continuados en el tiempo, lo habitual es que siempre entre en juego la retención de datos (por defecto a siete días, pero configurable).
Agotar el backlog: hay casos de uso en los que el backlog aumenta (productores que envían de manera irregular, paradas de mantenimiento, etc.) y tenemos que garantizar que acaba bajando a cero lo más rápidamente posible.

Imagen de cabecera: Ravi Pinisetti en Unsplash

✍🏻 Author(s)

René Tashi

See author's posts

Cookie	Duración	Descripción
__cfruid	session	Cloudflare sets this cookie to identify trusted web traffic.
connect.sid	1 day	This cookie is used for authentication and for secure log-in. It registers the log-in information.
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
JSESSIONID	session	The JSESSIONID cookie is used by New Relic to store a session identifier so that New Relic can monitor session counts for an application.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Duración	Descripción
pll_language	1 year	The pll _language cookie is used by Polylang to remember the language selected by the user when returning to the website, and also to get the language information when not available in another way.
ugid	1 year	This cookie is set by the provider Unsplash. This cookie is used for enabling the video content on the website.

Cookie	Duración	Descripción
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_127650363_5	1 minute	Set by Google to distinguish users.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duración	Descripción
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.

Cookie	Duración	Descripción
atlassian.account.ffs.id	1 year	No description available.
atlassian.account.xsrf.token	session	No description available.
cloud.session.token	past	No description
pvc_visits[0]	1 hour	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
SESSION	session	No description

Redpanda frente a Kafka

Integración en Onesait Platform

Conclusiones

✍🏻 Author(s)

René Tashi

También te puede gustar

Catálogo Swagger centralizado (microservicios)

El Esquema Nacional de Seguridad (ENS) y la Onesait Platform (parte 1)

¿Qué tecnología Open Source recomendamos para reemplazar Hadoop?

Deja una respuesta Cancelar la respuesta