Dans Apache Kafka pourquoi ne peut-on pas être plus grand cas que les partitions?

Je suis en train d'apprendre à propos de Kafka, la lecture de l'introduction de l'article ici

https://kafka.apache.org/documentation.html#introduction

plus précisément à la partie sur les Consommateurs. Dans l'avant dernier paragraphe de l'Introduction, il lit

Kafka ne fait mieux. En ayant une notion de parallélisme—partition—dans le cadre des sujets, Kafka est
en mesure de fournir à la fois des garanties de classement et d'équilibrage de la charge sur un groupe de consommateurs processus. Cette
est obtenue en attribuant les partitions dans la rubrique pour les consommateurs dans le groupe de consommateurs, de sorte que
chaque partition est consommée par exactement un consommateur dans le groupe. En faisant cela, nous nous assurons que l'
le consommateur est le seul lecteur de la partition et consomme les données dans l'ordre. Comme il ya beaucoup de
partitions-ce encore l'équilibrage de la charge sur la plupart des instances. Notez cependant qu'il ne peut
être des consommateurs en cas de partitions.

Ma confusion vient de la dernière phrase, parce que dans l'image de droite ci-dessus que le paragraphe où l'auteur dépeint deux groupes de consommateurs et un 4-partition sujet, il y a plus de consommation d'instances de partitions!

Il ne fait pas de sens qu'il ne peut pas être plus consommateur en cas de partitions, parce que les partitions être incroyablement petit et il semble que la surcharge lors de la création d'une nouvelle partition pour chaque consommateur instance enliserait Kafka. Je comprends que les partitions sont utilisés pour la tolérance aux pannes et de réduire la charge sur un serveur, mais la phrase ci-dessus n'a pas de sens dans le contexte d'un système distribué qui est censé être capable de gérer des milliers de consommateurs à un moment.

InformationsquelleAutor almel | 2014-09-17

apache-kafka distributed

52

Ok, pour le comprendre, il faut comprendre plusieurs parties.
1. Dans le but de fournir de commande total de la commande, le message peut être envoyé à un seul consommateur. Sinon, il serait extrêmement inefficace, car il aurait besoin d'attendre que tous les consommateurs, pour recevoir le message avant d'envoyer le suivant:
Cependant, bien que le serveur distribue les messages dans l'ordre, les messages sont transmis de manière asynchrone pour les consommateurs, de sorte qu'ils peuvent arriver dans le bon ordre sur les différents consommateurs. Cela signifie que l'ordre des messages est perdu dans la présence de parallèle de la consommation. Les systèmes de messagerie souvent contourner ce problème en utilisant une notion de "exclusif consommateurs" qui ne permet qu'un seul processus à consommer à partir d'une file d'attente, mais bien sûr, cela signifie qu'il n'y a pas de parallélisme dans le traitement.

Kafka ne fait mieux. En ayant une notion de parallélisme—partition—dans le cadre des sujets, Kafka est en mesure d'offrir des garanties de classement et d'équilibrage de la charge sur un groupe de consommateurs processus. Ce résultat est obtenu en attribuant les partitions dans la rubrique pour les consommateurs dans le groupe de consommateurs, de sorte que chaque partition est consommée par exactement un consommateur dans le groupe. En faisant cela, nous nous assurons que le consommateur est le seul lecteur de la partition et consomme les données dans l'ordre. Car il y a plusieurs partitions-ce encore l'équilibrage de la charge sur la plupart des instances. À noter toutefois qu'il ne peut y avoir plus de cas de consommation de partitions.

Kafka seulement fournit un ordre total sur les messages à l'intérieur d'une partition, et non entre les différentes partitions dans une rubrique.

Aussi ce que vous pensez est une perte de performance (plusieurs partitions) est en fait un gain de performances, comme Kafka pouvez effectuer des actions de différentes partitions complètement en parallèle, en attendant que d'autres partitions à la fin.
1. Le montrent les photos des différents groupes de consommateurs, mais la limitation de la durée maximale d'un consommateur par partition est seulement au sein d'un groupe. Vous pouvez avoir de multiples groupes de consommateurs.
Au début, les deux scénarios sont décrits:

Si tous les consommateurs instances ont le même groupe de consommateurs, alors cela fonctionne exactement comme un traditionnel de la file d'attente de l'équilibrage de la charge sur les consommateurs.

Si tous les consommateurs instances ont différents groupes de consommateurs, alors cela fonctionne comme publish-subscribe et tous les messages sont diffusés à l'ensemble des consommateurs.

Donc, plus des groupes d'abonnés que vous avez, moins le rendement est, comme kafka a besoin de répliquer les messages à tous les groupes et de garantie le montant de la commande.

D'autre part, au moins un groupe, et plus de partitions que vous avez, plus vous gagnez de parallizing le traitement du message.
- Donc, la question peut être répondu avec la précision suivante: il ne peut y avoir plus de consommateurs instances de au sein d'un seul groupe de consommateurs qu'il y a des partitions.
- le serveur distribue les messages dans l'ordre" : comment kafka serveur mains les messages pour les consommateurs. Je pensais, car le décalage est maintenu par le consommateur, le consommateur tire les messages de la kafka sujet. Ou est-il comme consommateur dit kafka jusqu'où il a lu et kafka pousse des données de consommation. Ma vraie question est, est kafka push-elle fondée? ou tirez-elle fondée?
- Belle réponse, mais il y a une chose importante qui n'est pas abordée. Que faire si nous voulons exactement une partition par le consommateur? Que signifierait, en nombre égal, des partitions et des consommateurs au sein d'un groupe (si Kafka n'bon équilibre, et il le fait). OK, maintenant nous voulons faire en sorte que, même si certaines de consommateur en cas d'échec, nous avons encore une partition par le consommateur de l'instance. Logique façon de le faire serait d'ajouter plus de consommateurs du groupe; alors que tout est OK, ils ne feraient rien, mais lorsque certains consommateurs échoue à l'un d'entre eux recevra la partition.Pourquoi est-ce pas?
- le plus de groupes d'abonnés que vous avez, moins le rendement est, comme kafka a besoin de répliquer les messages à tous les groupes et de garantie le montant de la commande." Le temps de latence dans ce cas, est-il linéaire ou sublinéaire en relation avec le nombre de groupes de défense des consommateurs?
InformationsquelleAutor peter
5

Il est important de rappeler que Kafka en garde un décalage par [consommateur, groupe, sujet, partition]. C'est la raison.

Je suppose que la phrase

À noter toutefois qu'il ne peut y avoir plus de cas de consommation de partitions.

est en se référant à la "automatique le groupe des consommateurs de ré-équilibrer" mode par défaut mode de consommation quand vous venez de vous abonner() certains nombre de consommateurs à une liste de sujets.

Je suppose que parce que, au moins avec Kafka 0.9.x, rien n'empêche d'avoir plusieurs consommateurs instances, les membres du même groupe, la lecture de la même partition.

Vous pouvez faire quelque chose comme cela dans deux ou plusieurs threads différents
```
Properties props = new Properties();
props.put(ConsumerConfig.GROUP_ID_CONFIG, "MyConsumerGroup");
props.put("enable.auto.commit", "false");
consumer = new KafkaConsumer<>(props);
TopicPartition partition0 = new TopicPartition("mytopic", 0);
consumer.assign(Arrays.asList(partition0));
ConsumerRecords<Integer, String> records = consumer.poll(1000);
```
et vous aurez deux (ou plus) des consommateurs de la lecture à partir de la même partition.

Maintenant, le "problème" est que les consommateurs seront à partager le même décalage, vous n'avez pas d'autres option, car il y a un seul groupe, le sujet et l'partition en jeu.

Si à la fois les consommateurs à lire le décalage actuel en même temps, puis deux d'entre eux de lire la même valeur, et deux d'entre eux obtenir les mêmes messages.

Si vous souhaitez que chaque consommateur à lire les différents messages, vous devrez synchroniser, de sorte que l'on peut extraire et valider le décalage à la fois.

InformationsquelleAutor Luciano Afranllie
2

Il ya une raison pourquoi Kafka ne peut supporter plusieurs consommateurs par partition.

Kafka courtier écrit des données dans le fichier par partition. Donc, disons que si deux partitions sont configurés, le courtier va créer deux fichiers et d'assigner de multiples groupes de consommateurs où les messages peuvent être envoyés.

Maintenant, pour chaque partition, seulement un consommateur consomme messages en fonction de l'offset du fichier. e.g Consommateur 1 va d'abord lire les messages à partir d'un fichier offset 0 à 4096. Maintenant, ces compensées sont une partie de la charge utile, de sorte consommateur de savoir ce qui a contrebalancé les utiliser tout en demandant pour les prochains messages à lire.

Si plusieurs consommateurs sont en lecture à partir de la même partition, puis à la consommation 1 lit à partir d'un fichier avec un décalage 0-4096 mais de consommation 2 sera toujours essayer de lire à partir de l'offset 0 à moins qu'il reçoit aussi un message envoyé à la consommation 1.
Maintenant si même les messages sont envoyés à plusieurs consommateurs que ce n'est pas un équilibrage de la charge, de sorte Kafka a divisés en groupes de consommateurs de sorte que tous les groupes de consommateurs peuvent reçoit des messages, mais au sein d'un groupe de consommateurs, un seul consommateur peut recevoir le message.
- vous dites que Kafka ne pouvez pas avoir plusieurs consommateurs par partition. Si C1 et C2 sont de différents groupes de consommateurs, ils peuvent les lire à partir de la même partition? Je pense qu'ils doivent être en mesure de, ou encore Kafka est efficacement à l'aide d'un exclusif à la consommation (exclusif à une partition en particulier) approche et vous n'obtenez pas l'équilibrage de la charge. Il serait très utile de vous entendre ce que Kafka est en train de faire de distinction entre les consommateurs de différents groupes de consommateurs. Aussi, depuis Kafka écrit des données sur le disque, le fait d'avoir plusieurs consommateurs de différents groupes semble vraiment lent si l'écrit ne sont plus linéaires.
InformationsquelleAutor rjoshi
1

Dans Kafka, un seul consommateur instance peut consommer des messages à partir d'une partition. Si les consommateurs instances sont plus que des partitions, alors il n'y aura pas d'utilisation supplémentaire de la consommation d'instances. Donc, kafka ne pas permettre à ces consommateurs instances.

Maintenant, Si plusieurs consommateurs peuvent consommer de la partition, puis il n'y aurait pas une commande de la consommation de messages. C'est la raison pour laquelle kafka ne pas permettre à plusieurs consommateurs par partition

InformationsquelleAutor Abhinav
0

Kafka groupe de consommateurs est un modèle hybride de la mise en attente mécanisme où le message une fois lu par un consommateur instance est supprimé de la file d'attente tout de suite et pub/sub mécanisme où le message n'est pas supprimé jusqu'à ce que la période de rétention définie ou jusqu'à ce qu'il expire et est disponible à toutes les instances jusqu'à l'échéance. Donc, si vous avez des cas d'utilisation où vous souhaitez l'utiliser qui est un pub/sub modèle mais qui veulent l'exploiter comme un mécanisme de files d'attente vous créez un groupe de consommateurs pour tous vos consommateurs instances. Compte tenu de Kafka distribue les partitions chez le consommateur des instances au sein d'un seul groupe de consommateurs, il est garanti que 1 message n'est traitée qu'une fois. Si Kafka vous permet d'avoir plus de consommation des instances au sein d'un seul groupe de consommateurs puis il bat le but d'avoir le groupe de consommateurs.

Considérons cet exemple:

API REST pub1 publié 4 messages topic1 qui dispose de 4 partitions part1 thru part4, de sorte que chaque partie a 1 message.

Vous avez 2 microservices sub1 et sub2 abonnés et il y a 4 occurrences de chaque microservices en cours d'exécution.

Maintenant, si vous créer 2 groupes de consommateurs, une pour chaque miroservice
sub1instance1 sera mappé à part1, sub1instance2 sera mappé à part2, etc
De même sub2instance1 sera mappé à part1, sub2instance2 mappé à part2 etc.

Tant que votre consommateur occurrences au sein de chaque groupe de consommateurs sont inférieur ou égal au nombre de partitions, chaque instance de votre microservice va traiter le message qu'une seule fois. Dans ce cas sub1instance1 et sub2instance traitera msg1 de part1.

S'il n'y a plus de consommation d'instances que les partitions puis Kafka devez affecter même les partitions vers plusieurs consommateurs instances messages seront traités plusieurs fois par chaque consommateur instance mappé à cette partition. C'est la raison pour laquelle Kafka nous empêche d'avoir plus de consommateurs instances au sein d'un groupe de consommateurs que le nombre de partitions à l'intérieur d'un sujet que le groupe de consommateurs est souscrit.

Espérons que cela a du sens.

InformationsquelleAutor kaycee

Vous devez vous connecter pour publier un commentaire.