Appliquer la même fonction à tous les domaines de l'étincelle dataframe ligne
J'ai dataframe dans lequel j'ai environ 1000 colonnes ( variable).
Je veux faire toutes les valeurs majuscules.
Ici est l'approche que j'ai pensé , peut vous suggérer si c'est la meilleure façon.
- Prendre la ligne
- Trouver de schéma et de les stocker dans la gamme et de trouver combien de champs sont là.
- carte dans chaque ligne dans le bloc de données et jusqu'à la limite du nombre d'éléments dans le tableau
- appliquer la fonction majuscule chaque champs et retour ligne
Vous devez vous connecter pour publier un commentaire.
Tout simplement si vous souhaitez appliquer les mêmes fonctions pour toutes les colonnes à quelque chose comme cela devrait être suffisant:
ou en Python
Voir aussi: SparkSQL: appliquer des fonctions d'agrégation pour une liste de la colonne
alias
définit un nom pour la colonne.:_*
dénote varargs syntaxe en Scala. En d'autres termes, il passe chaque élément de la séquence comme un argument pourselect
.J'avais besoin de faire similaire, mais a dû écrire ma propre fonction pour convertir des chaînes vides à l'intérieur d'un dataframe à null. C'est ce que j'ai fait.
Voici un plus raffiné fonction de emptyToNull à l'aide des options au lieu de null.