Compter le nombre de lignes dans un RDD

Je suis à l'aide d'étincelle avec java, et je dispose d'un CA de 5 millions de lignes. Est-il une solution qui me permet de calculer le nombre de lignes de mon CA. J'ai essayé RDD.count() mais il prend beaucoup de temps. J'ai vu que je peux utiliser la fonction fold. Mais je n'ai pas trouvé de documentation de java de cette fonction.
Pourriez-vous me montrer comment faire, ni me montrer une autre solution pour obtenir le nombre de lignes de mon CA.

Voici mon code :

JavaPairRDD<String, String> lines = getAllCustomers(sc).cache();
    JavaPairRDD<String,String> CFIDNotNull = lines.filter(notNull()).cache();
    JavaPairRDD<String, Tuple2<String, String>> join =lines.join(CFIDNotNull).cache();


    double count_ctid = (double)join.count(); //i want to get the count of these three RDD
    double all = (double)lines.count();
    double count_cfid = all - CFIDNotNull.count();
    System.out.println("********** :"+count_cfid*100/all +"% and now : "+ count_ctid*100/all+"%");

Merci.

source d'informationauteur Amine CHERIFI | 2015-02-09