Comment enregistrer la dernière compenser cette Étincelle consommée pour ZK ou Kafka et peut lire après le redémarrage

Je suis en utilisant Kafka 0.8.2 pour recevoir des données d'AdExchange puis-je utiliser Spark Streaming 1.4.1 pour stocker des données à MongoDB.

Mon problème est que lorsque je redémarre mon Spark Streaming Travail par exemple comme la mise à jour nouvelle version corrige le bug, ajouter de nouvelles fonctionnalités. Il continuera de lire le dernier offset de kafka à l'époque alors j'ai perdu des données AdX pousser à kafka pendant le redémarrage de l'emploi.

J'essaie quelque chose comme auto.offset.reset -> smallest mais il recevra de 0 -> dernier de données est énorme et en double en db.

J'ai aussi essayer de définir un ensemble de group.id et consumer.id à Spark mais il la même.

Comment enregistrer la dernière offset étincelle consommée pour zookeeper ou kafka peut alors relire les dernières offset?

OriginalL'auteur giaosudau | 2015-08-06