filtre DataFrame avec la Regex avec Spark en Scala

Je veux filtrer les lignes Spark DataFrame qui ont la colonne Email qui ressemblent à de vrais, voici ce que j'ai essayé:

df.filter($"Email" match {case ".*@.*".r => true case _ => false})

Mais cela ne fonctionne pas. Quelle est la bonne façon de le faire?

Utilisation rlike comme décrit ici: stackoverflow.com/questions/27249685/...

OriginalL'auteur Bamqf | 2015-11-27

apache-spark regex scala spark-dataframe

26

Étendre sur @TomTom101 du commentaire, le code que vous cherchez est:
```
df.filter($"Email" rlike ".*@.*")
```
La première raison pour laquelle les match ne fonctionne pas est parce que DataFrame a deux les fonctions de filtrage qui prennent une Chaîne de caractères ou une Colonne. C'est à l'inverse RDD avec un filtre qui prend une fonction de T Booléens.

Matthieu, ce morceau de code dans l'Étincelle REPL mais pas dans mon fichier principal. Ce que l'importation ai-je besoin pour exécuter ce?
le REPL configure quelques choses que vous devez configurer vous-même dans une Application. Donc, de deux Qs: 1) votre fonction de travail avec des opérations plus simples (vous pouvez réussir à créer et à compter d'un dataframe, par exemple)? 2) êtes-vous d'exécuter la même Étincelle version pour votre REPL et où le principal fichier est exécuté?
Matthieu, vous avez raison. J'ai besoin d'ajouter val sqlContext= new org.apache.spark.sql.SQLContext(sc) et import sqlContext.implicits._

OriginalL'auteur Matthew Graves

Vous devez vous connecter pour publier un commentaire.