Comment filtrer les messages avant de les transmettre sur les consommateurs?
Je suis de la création de plomb et de système de gestion d'événements avec Kafka. Le problème est que nous obtenons beaucoup de fausses pistes (publicité). Nous avons également beaucoup de consommateurs dans notre système. Est-il de toute façon à filtrer la publicité avant d'aller pour les consommateurs?
Ma solution est de tout écrire dans la première rubrique, puis de le lire par un filtre de consommation, puis l'écrire dans le deuxième thème ou d'un filtre.
Mais je ne sais pas si c'est efficace ou pas. Une idée?
Cela sonne comme une approche raisonnable, de mettre ensemble un pic de la solution et de voir comment il le fait.
OriginalL'auteur user1079877 | 2015-06-18
Vous devez vous connecter pour publier un commentaire.
Vous pouvez utiliser Kafka Flux (http://kafka.apache.org/documentation.html#streamsapi) avec 0.10.+ la version de Kafka. C'est exactement à votre cas d'utilisation je pense.
OriginalL'auteur JongHyok Lee
Oui, en fait je suis surtout convaincu que c'est la façon dont vous êtes censé gérer un problème dans votre contexte. Parce que Kafka n'est utile que pour l'efficacité de la transmission de données, il n'y a rien qu'elle peut faire en termes de nettoyage de vos données. Consommer toutes les informations que vous obtenez par un intermédiaire consommateurs qui peuvent s'exécuter ses propres tests afin de déterminer ce qui passe à son filtre et pousser à un sujet différent de la partition /(selon vos besoins) pour obtenir les meilleures données.
OriginalL'auteur Jeff Gong
Vous pouvez utiliser Spark Streaming: https://spark.apache.org/docs/latest/streaming-kafka-integration.html.
OriginalL'auteur Nikita Shamgunov
Prendre un coup d'oeil au Confluent du KSQL. (Il est gratuit et open source, https://www.confluent.io/product/ksql/.) Il utilise Kafka Flux sous le capot, vous pouvez définir votre ksql de requêtes et de tables sur le côté serveur, dont les résultats sont écrits de kafka sujets, vous pouvez donc le consommer ces sujets, au lieu d'écrire du code pour créer un intermédiaire de filtrage des consommateurs. Vous ne devez écrire le ksql table "ddl" ou des requêtes.
OriginalL'auteur mancini0