Comment utiliser regex pour inclure / exclure certains fichiers d'entrée dans sc.textFile?

J'ai essayé de filtrer des dates pour des fichiers à l'aide d'Apache spark à l'intérieur du fichier RDD fonction sc.textFile().

J'ai tenté de faire ce qui suit:

sc.textFile("/user/Orders/201507(2[7-9]{1}|3[0-1]{1})*")

Ce qui devrait correspondre à la suivante:

/user/Orders/201507270010033.gz
/user/Orders/201507300060052.gz

Une idée de comment réaliser cela?

source d'informationauteur eboni