Quels sont les avantages et les inconvénients de Kafka sur Apache Pulsar

Yahoo développé Pulsar, pub-sub système de messagerie et l'a rendu open source. Son désormais Apache incubation de projet. Depuis Kafka est également utilisé pour le même but. Envie de savoir, de grands plus et moins de points de Kafka sur Pulsar.

InformationsquelleAutor Ajit Dongre | 2017-09-05

apache-kafka apache-pulsar

40

J'ai joué un peu avec les deux ces derniers temps, et voici ce que j'ai recueillies.

Neutre:
- Je vais faire de Kafka gagner sur la communauté/la documentation, etc. Mais je n'étais pas en mesure de trouver les réponses aux questions que j'avais sur Kafka facilement, certains étaient vieux et confus (cibler l'héritage de l'API). Mais Pulsar documentation est assez bonne, les développeurs sont très réactifs sur la Slack (bonjour @Matteo Merli 🙂 ) , et le sous-jacent pièces (Gardienne d'animaux, aide-Comptable) ont décent de la documentation ainsi si vous voulez plonger dans les entrailles.
- Kafka vise haut débit, Pulsar pour une faible latence. Les deux fournissent des paramètres de contrôle.
- Les deux sont prêtes pour la production et la bataille-testé dans plusieurs entreprises
Pro pulsar:
- à partir de mon expérience de l'API est plus facile à utiliser. Dans Kafka, le courtier est bête et les consommateurs à faire le travail de structuration de la communication comme ils l'entendent. Cette flexibilité est livré à la coût de l'utilisateur de Kafka avoir à comprendre comment faire les pièces s'assemblent. Je suppose que le but avantage est une plus grande flexibilité, mais depuis Pulsar a été en mesure de reproduire Kafka Consommateurs de l'API (et avec assez peu de code) je donne ça comme un pro de Pulsar.
- vous pouvez faire des choses qui ne sont pas facile à faire (ou peut-être impossible de Kafka): multi-bail (sécurité, isolation...), la gestion des ressources (le sujet de la limitation des quotas), de la géo-réplication
- Il a certaines caractéristiques que Kafka manque actuellement, comme la recherche à une MessageId
- Pulsar échelles à des millions de sujets, whicle Kafka est limitée par la façon dont il structure les données de Zookeeper
- Un déploiement plus facile. Autonome Pulsar va commencer son propre local Zookeeper, et personnellement, j'ai trouvé la configuration plus facile à comprendre
- écrit en Java, par rapport à un mélange de l'héritage de la Scala et du code Java. Aussi j'ai trouvé la base de code bien organisé et plus facile à suivre. En partie parce qu'il s'appuie sur la Gardienne et Comptable, qui sont des projets externes à leur propre documentation/communauté/développeurs etc. (veuillez noter que ceux-ci sont aussi à la fondation Apache, et également en provenance de Yahoo afin qu'ils fonctionnent bien ensemble).
Pro Kafka:
- Kafka a des choses construite sur le dessus comme Kafka Flux (jamais utilisé donc je ne peux pas dire si il y a un équivalent)
Lire aussi:
- Je vous serais reconnaissant une explication de la downvoters.
- pro Pulsar: 6 éléments, pro Kafka: 1 point. Je n'avais pas downwoted, mais cette réponse ne semble biaisée.
- bien sûr, il est biaisée 🙂 c'est ma réponse, vous pouvez avoir un avis différent et je serais heureux d'envisager d'autres pro Kafka points. Ce qui s'est passé à la partialité moi, c'est que j'ai joué avec Kafka premier (et n'a pas de plan sur la recherche plus loin). Mais certaines choses ont été frustrant. Puis j'ai entendu parler de pulsar, et c'était beaucoup mieux (au moins pour moi).
InformationsquelleAutor nha
24

Apache Kafka est plus mature (il a été autour depuis longtemps) et a un plus haut niveau de l'Api (c'est à dire KStreams). C'est de la maturité, cependant, limite la fluidité et la souplesse c'est à dire ~500 ouvrir PR sur github

Apache Pulsar a étudié en profondeur les décisions de conception de Apache Kafka, et a intégré un design amélioré et un ensemble de très excitant: c'est à dire l'idée de namespacing sujets, et en permettant à ACL ou de quotas pour être appliquée sur un nom-niveau d'espace semble d'une telle profounding bonne idée, afin de fournir de meilleurs multi-tenancy de soutien. Quelques autres fonctionnalités intéressantes de Pulsar est le géo-réplication, ainsi que la unification de la mise en attente et le streaming

InformationsquelleAutor Antonios Chalkiopoulos
8

Nous avons besoin d'une plate-forme de streaming avec la persistance des sujets et raisonnable, de latence et de débit élevé. Récemment, nous avons évalué si nous devrions aller avec Kafka ou Pulsar et contrairement à @nha nous sommes maintenant en faveur de Apache Kafka. Voici nos résultats:

Pulsar - Pros
- riche en fonctionnalités persistant/non persistantes sujets, multilocataire, Acl, Multi-DC réplication etc.
- plus souple de l'API client - y compris CompletableFutures, couramment interfaces etc.
- client java composants sont thread-safe - client consommateur peut accuser réception de messages provenant de différents threads
Pulsar - Cons
- client java a peu ou pas de javadoc
- petite communauté - 8 stackoverflow questions actuellement
- messageId concept lié à l'Comptable - les consommateurs ne peuvent pas facilement se positionner sur le sujet par rapport à Kafka décalage qui est en continuité de la séquence de nombres.
- Lecteur ne peut pas lire facilement des derniers messages dans le sujet - besoin de parcourir tous les messages à la fin.
- pas de transactions
- plus élevé de complexité opérationnelle - Zookeeper + Courtier nœuds + Comptable - toutes regroupées
- latence discutable -, il en est un en plus d'appels à distance entre le Courtier de nœud et Comptable (par rapport à Kafka)
Kafka - Pros
- très riche et utile javadoc
- Kafka Flux
- mature & large communauté
- plus faciles à opérer dans la production moins les composants - courtier nœud fournit également de stockage
- transactions - atomique lit&écrit dans le cadre des sujets
- décalages forme d'une séquence continue - consommateur peut facilement chercher à dernier message
Kafka - Cons
- consommateur ne peut pas reconnaître message à partir d'un autre thread
- pas multilocataire
- pas robuste Multi-DC à la réplication (offert au Confluent de l'Entreprise)
- > messageId concept lié à l'Comptable - les consommateurs ne peuvent pas facilement se positionner sur le sujet par rapport à Kafka décalage qui est en continuité de la séquence de nombres. --- Les consommateurs peuvent utiliser messageId de se positionner sur n'importe quel message. MessageId peuvent également être stockées à l'extérieur de Pulsar et utilisé pour la restauration de message spécifique.
- 2. (dernière entrée) Lecteur peut spécifier MessageId.dernière à se positionner à la fin du flux
- 3. (la complexité opérationnelle) -- Pour de petits groupes, le mode de déploiement est de combiner broker & comptable. C'est le même numéro de composant comme Kafka
- 4 (temps de latence discutable) -- Ce n'est pas vrai. Tout d'abord, Kafka a aussi le réseau supplémentaire hop (lors de la réplication à un autre courtier). Deuxièmement, Pulsar, avec un Comptable peut en effet garantir une latence beaucoup plus faible par rapport à Kafka, offrant même une forte durabilité, par rapport à Kafka en mémoire cache de la page d'approche. Le temps de latence, pour le système de messagerie est généralement dominée par des accès disque modèle, plutôt que de réseau.
- 1 réseau supplémentaire hop est de ~0,1 millisecondes, Pulsar peut garantir 99pct de la latence de la < 5ms, tandis que Kafka serait généralement dans les ~15 ms (sans la durabilité des données) et des pointes à 100s de ms (pour le 99pct). Vous pouvez les tests de différents systèmes de messagerie avec OpenMessaging de référence: openmessaging.cloud/docs/repères
- comment avez-vous effectivement consommer dernier message publié à partir de la rubrique? À mon humble avis, ce n'est pas possible sans l'écrémage par l'ensemble de la rubrique Kafka vous cherchez simplement à lastOffset -1.
InformationsquelleAutor Milos Gregor
3

source

Pulsar, l'Apache Software Foundation nouveau projet pour atteindre le top niveau de l'état, est le dessin d'un lot de comparaison de Kafka, un autre ASF projet.

Pulsar est une très évolutif, à faible latence, plate-forme de messagerie en cours d'exécution sur le matériel de base. Il fournit une simple pub-sub et la file d'attente de la sémantique sur les rubriques, léger calculer cadre, automatique curseur de gestion pour les abonnés, et de la croix-centre de données de réplication.

Pendant ce temps, l'2018 Apache Kafka Rapport, qui a interrogé plus de 600 utilisateurs, données trouvées des pipelines et de messagerie, les deux principales utilisations de la technologie. Il a trouvé l'utilisation croissante avec l'augmentation de microservices architectures.

“Il y a un grand chevauchement dans le cas d'utilisation pour les deux systèmes, mais les dessins originaux ont été très différentes”, a déclaré Matteo Merli, l'un de ses créateurs qui ont constitué depuis des Streamlio, une startup proposant un rapide de plate-forme de données.

Yahoo créé Pulsar comme un seul multi-locataire système comme une solution à ses problèmes avec plusieurs systèmes de messagerie et de plusieurs équipes de les déployer.

Il a été publié en open source en 2016 et entra à l'ASF incubateur en juin 2017. Pendant près de quatre ans, il a été utilisé dans Yahoo applications de Messagerie, de la Finance, le Sport, les Gémeaux Annonces et Sherpa, Yahoo distribué clé-valeur de service.

Dans un billet de blog, co-fondateur Sijie Guo résumer Pulsar vs Kafka de cette façon:

“Apache Pulsar combine une haute performance de streaming (qui Apache Kafka poursuit) et flexible traditionnelles files d'attente (qui RabbitMQ poursuit) dans un programme de messagerie unifiée modèle et de l'API. Pulsar vous offre un système unique pour la diffusion en continu et la file d'attente, avec la même haute performance, en utilisant une API unifiée.”

Dit Merli: “Il y a des différences entre le streaming et la file d'attente; il y a beaucoup de cas d'utilisation où vous avez besoin de l'un ou de l'autre, mais la plupart des gens ont besoin à la fois pour les différents cas d'utilisation.”

Deux-Couches De L'Architecture
Une à deux couches de la conception est la clé de la Pulsar, Merli dit. Il y a un apatride couche de courtiers, de recevoir et de transmettre des messages, et avec un état de la couche de persistance, avec un ensemble de Apache Comptable nœuds de stockage appelé les bookmakers qui fournissent à faible latence pour le stockage durable.

Pulsar a été construit sur l'idée d'avoir des données solides garanties, Merli dit. Il a été conçu pour le partage de la consommation, tandis que Kafka n'était pas. Et Pulsar permet aux utilisateurs de configurer une période de conservation pour les messages, même après tous les abonnements de les consommer.

Son architecture en couches et le segment centrée sur le stockage de fournir des avantages clés:

Vous pouvez mettre à l'échelle les courtiers ou de la couche de stockage de manière indépendante.
Depuis les courtiers sont apatrides, un sujet peut se déplacer rapidement à d'autres courtiers. Qui ouvre une voie efficace pour équilibrer le trafic à travers les courtiers.
Peut avoir plusieurs consommateurs sur la même partition, et vous pouvez en ajouter autant que vous voulez.
Puisque aucune donnée n'est stockée localement, il élimine la nécessité pour copier les données de la partition lors de l'expansion de la capacité, ni le rééquilibrage est nécessaire. Lorsque partitionnée topic est créé, Pulsar partitionne automatiquement les données dans un agnostique façon pour les consommateurs et les producteurs.

Le courtier envoie un message de données à de multiples Comptable des noeuds, ce qui écrire les données dans un write-ahead log et aussi de garder une copie de la mémoire. Avant le nœud envoie un accusé de réception, le journal est la force-écrit pour le stockage stable, ce qui assure la rétention, même si vous perdez la puissance. Rubrique partitions peut évoluer jusqu'à la capacité totale de l'ensemble de la Comptable de cluster, et vous pouvez l'échelle d'un cluster par simple ajout de nœuds.

Depuis son entrée dans l'incubateur, l'accent a été mis sur le rendant plus facile d'obtenir commencé avec la Pulsar .

La Version 2.0 de Pulsar a été publié en juin, y compris un “flux " maternelle” la capacité de traitement appelé Pulsar Fonctions qui permet aux utilisateurs d'écrire des fonctions de traitement en Java ou en Python pour les données comme il se déplace à travers le pipeline. La Version 2.2 sortira bientôt, qui mettra en vedette interactive SQL d'interrogation.

Pulsar offre de multiples langues et les liaisons de protocole, y compris Java, C++, Python, et les WebSockets, ainsi que d'un Kafka-compatible API.

Pour en savoir plus : Apache Pulsar : Est-il un KAFKA Killer?

Apache Pulsar : Est-il un KAFKA Killer? Écrit Par Bhagwan s. Soni

POURQUOI devrions-nous choisir Apache Pulsar plus de Kafka?

Apache Pulsar est une Entreprise Édition de PubSub, à l'Origine développé par Yahoo et désormais prise en charge par Apache Software Foundation. Apache Pulsar est en cours d'exécution sur les systèmes de Production de durer plus de 3 ans et l'a prouvé la stabilité.

Apache Pulsar couvre presque toutes les fonctionnalités dont Kafka nous offre, peut-être avec différents noms. Pulsar possède de nombreuses fonctionnalités, mais je tiens à souligner certains d'entre eux qui vont nous aider à faire la différence avec Kafka -

1} Apache Pulsar vous offre 3 types d'abonnement sur le sujet:
Un} Exclusif
— Seulement un consommateur de consommer les données à partir d'une Rubrique
B} Partagé
— Plusieurs Consommateurs consomment les données à partir d'une Rubrique
C} Basculement
— Plus d'un Consommateur, mais à un moment donné de temps que l'on va consommer les données.

2} Chaque espace de noms peut avoir un ou plusieurs sujets

3} un Fort soutien pour Multitanency

4} réplication des Données sur plusieurs cluster

5} message Fort de la durabilité de soutien contre la perte de données

InformationsquelleAutor Ram Ghadiyaram

Vous devez vous connecter pour publier un commentaire.