Scala: Comment puis-je remplacer la valeur dans Dataframes utilisation de scala

Par exemple je veux remplacer tous les nombres égaux à 0,2 dans une colonne à 0. Comment puis-je le faire en Scala? Grâce

Modifier:

|year| make|model| comment            |blank|
|2012|Tesla| S   | No comment         |     | 
|1997| Ford| E350|Go get one now th...|     | 
|2015|Chevy| Volt| null               | null|

C'est mon Dataframe je suis en train de changer de Tesla dans la colonne de S

par la conversion de RDD avec .rdd et à l'aide de map de changer à 0 si 0,2 ?
Qu'est-ce que la carte de commande pour le changement de 0 si 0,2?
Et comment puis-je me concentrer sur une colonne spécifique?
Donnez-nous un exemple de vos données, ce que vous avez essayé jusqu'à présent.
+----+-----+-----+--------------------+-----+ |année| marque|modèle| commentaire|blanc| +----+-----+-----+--------------------+-----+ |2012|Tesla| S| Pas de commentaire| | |1997| Ford| E350|Aller maintenant en avoir un th...| | |2015| Chevrolet| Volt| null| null| Ceci est mon Dataframe je suis en train de changer de Tesla dans la colonne de S. je viens de commencer à apprendre à Scala. Vraiment reconnaissant de votre aide!
Éditer votre premier post avec les infos ci-dessus
Ainsi, à la fin, vous vous attendez à |2012|S| S| pour les premières données dans votre exemple?
Oui.Désolé pour le format foiré
Alors, comment puis-je choisir le "Tesla" et la changer en "s"?
Je peux changer le type de la colonne en faisant cela, val featureDf = df.withColumn("an2", toInt(df("année"))).sélectionnez("an2", "faire", "modèle", "commentaire", "vide")
Ne sais toujours pas comment faire pour changer la valeur
ok. Belle réponse. Si la colonne particulière dans dataframe ont une valeur particulière puis-je changer la valeur dans les autres colonnes dans dataframe.

InformationsquelleAutor Tong | 2015-09-02

12

Note:
Comme mentionné par Olivier Girardot, cette réponse n'est pas optimisé et le withColumn solution est celle à utiliser (Azeroth2b réponse)

Ne pouvez pas supprimer cette réponse comme il a été acceptée

Ici est mon point de vue sur celui-ci:
```
 val rdd = sc.parallelize(
      List( (2012,"Tesla","S"), (1997,"Ford","E350"), (2015,"Chevy","Volt"))
  )
  val sqlContext = new SQLContext(sc)

  //this is used to implicitly convert an RDD to a DataFrame.
  import sqlContext.implicits._

  val dataframe = rdd.toDF()

  dataframe.foreach(println)

 dataframe.map(row => {
    val row1 = row.getAs[String](1)
    val make = if (row1.toLowerCase == "tesla") "S" else row1
    Row(row(0),make,row(2))
  }).collect().foreach(println)

//[2012,S,S]
//[1997,Ford,E350]
//[2015,Chevy,Volt]
```
Vous pouvez réellement utiliser directement map sur le DataFrame.

Donc, fondamentalement, vous cochez la colonne 1 de la Chaîne tesla.
Si c'est tesla, utiliser la valeur S pour make d'autre que vous la valeur actuelle de la colonne 1

Puis de construire un n-uplet avec toutes les données de la ligne à l'aide de l'index (de base zéro) (Row(row(0),make,row(2))) dans mon exemple)

Il y a sans doute une meilleure façon de le faire. Je ne suis pas encore familier avec l'Étincelle parapluie
- Merci pour votre aide. J'ai une autre question. Votre solution d'impression, l'impression que les cordes que je veux. Cependant, que faire si je veux modifier la valeur dans le dataframe lui-même? Lorsque je fais un dataframe.show() la valeur est toujours tesla
- Dataframe sont basés sur les Rdd qui sont immuables. Essayez val newDF = dataframe.map(row => { val row1 = row.getAs[String](1) val make = if (row1.toLowerCase == "tesla") "S" else row1 Row(row(0),make,row(2)) }) qui doit construire de nouveaux DataFrame.
- Merci! Il fonctionne! Se sent si bien! J'ai mis un nouveau bloc de données et ajouter une nouvelle colonne.
- Salut! D'abord merci pour la résolution de mon problème. Puis-je convertir un DataFrame pour CA que par .rdd? Est-il un risque comme la modification du schéma? Merci encore!
- Je sais que cette façon de convertir de rdd. Je ne sais pas pour le schéma. Vous devriez poster une autre question, de sorte que d'autres personnes vont le voir et de répondre à
- Merci! L' .ca fonctionne assez bien. Savez-vous comment puis-je convertir des rdd retour à DataFrame? Apprécions vraiment que vous répondez à autant de questions pour moi.
- Utilisation toDF() de RDD à DataFrame
- J'ai essayé, mais il dit que la valeur toDF n'est pas un membre de org.apache.spark.rdd.RDD[org.apache.spark.sql.Ligne].
- À partir de la sqlContext, vous pouvez utiliser la méthode def createDataFrame(rowRDD: RDD[Row], schema: StructType): DataFrame .
- Pour générer un Dataframe: import sqlContext.implicits._; dataframe.map(row => {val make = row.getAs[String]("make");(row.getAs[Int]("year"), if (make == "tesla") "S" else make,row.getAs[String]("model"), ...)}).toDF("year","make","model", ...)
- cela permettra de briser la spark catalyseur d'optimisations, et, par conséquent, n'est pas la meilleure pratique, la withColumn approche est la mieux adaptée pour cela.
InformationsquelleAutor ccheneson
37

Étincelle 1.6.2, le code Java (désolé), ce qui va changer à chaque instance de la Tesla S pour l'ensemble de la dataframe sans passer par un RDD:
```
dataframe.withColumn("make", when(col("make").equalTo("Tesla"), "S")
                             .otherwise(col("make") 
                    );
```
Édité pour ajouter @marshall245 "autrement" pour s'assurer de la non-Tesla colonnes ne sont pas convertis à la valeur NULL.
- hey man, que faire si je veux modifier une colonne avec une valeur à partir d'un autre dataframe de la colonne (les deux dataframes ont une colonne id) je n'arrive pas à le faire en java étincelle.
- C'est probablement mieux servi avec un select .. rejoindre l'id, étant donné que, sonne comme une nouvelle question. Espérons que vous avez commencé.
- Pourquoi modifier ce un et le faire la même réponse que @marshall245?
- Où puis-je trouver de la doc pour withColumn fonction? En fait, j'ai plus de conditions et de plusieurs colonnes pour modifier les valeurs de. J'ai eu ce docs.azuredatabricks.net/spark/1.6/sparkr/functions/... mais ce n'est pas aider. Quelqu'un peut-il aider?
- Que pourrait être une nouvelle question. Vous pouvez la chaîne dataframe commandes. Par exemple, vous pouvez faire dataframe.withcolumn(...).withcolumn(...).<autres choses>. Chaque appel renvoie une nouvelle dataframe, une mutation de l'original en fonction de la commande.
InformationsquelleAutor Azeroth2b

Construction de la solution de @Azeroth2b. Si vous souhaitez remplacer seulement un couple de points et de laisser le reste inchangé. Procédez de la manière suivante. Sans l'aide de l'autre(...) la méthode, le reste de la colonne est nulle.

import org.apache.spark.sql.functions._
val newsdf = sdf.withColumn("make", when(col("make") === "Tesla", "S")
                                   .otherwise(col("make"))
                           );

Vieux DataFrame

+-----+-----+ 
| make|model| 
+-----+-----+ 
|Tesla|    S| 
| Ford| E350| 
|Chevy| Volt| 
+-----+-----+

Nouveau Datarame

+-----+-----+
| make|model|
+-----+-----+
|    S|    S|
| Ford| E350|
|Chevy| Volt|
+-----+-----+

InformationsquelleAutor marshall245

Ceci peut être réalisé en dataframes avec des fonctions définies par l'utilisateur (udf).

import org.apache.spark.sql.functions._
val sqlcont = new org.apache.spark.sql.SQLContext(sc)
val df1 = sqlcont.jsonRDD(sc.parallelize(Array(
      """{"year":2012, "make": "Tesla", "model": "S", "comment": "No Comment", "blank": ""}""",
      """{"year":1997, "make": "Ford", "model": "E350", "comment": "Get one", "blank": ""}""",
      """{"year":2015, "make": "Chevy", "model": "Volt", "comment": "", "blank": ""}"""
    )))

val makeSIfTesla = udf {(make: String) => 
  if(make == "Tesla") "S" else make
}
df1.withColumn("make", makeSIfTesla(df1("make"))).show

Je suppose que cela permettra d'améliorer la performance, car vous n'êtes pas convertir df de rdd et l'ajout d'une nouvelle colonne.
Ce n'est pas le résultat en double exemplaire make colonnes?
non, withColumn fera une nouvelle colonne s'il n'existe pas, ou remplacer une colonne existante.spark.apache.org/docs/latest/api/scala/... spark.apache.org/docs/1.6.0/api/scala/...

InformationsquelleAutor Al M

1

df2.na.replace("Nom",la Carte("John" -> "Akshay","Cindy" -> "Jayita")).show()

remplacer dans la classe DataFrameNaFunctions de type [T](col: Chaîne de caractères de remplacement: Carte[T,T])org.apache.spark.sql.DataFrame

Pour l'exécution de cette fonction, vous devez disposer active étincelle objet et le dataframe avec les en-têtes.
- Cette réponse n'a pas été écrite pour les OP de cas d'utilisation, mais est la façon la plus simple pour accomplir la tâche. Vous avez besoin de import org.apache.spark.sql.DataFrameNaFunctions
InformationsquelleAutor Akshay Pandya

Vous devez vous connecter pour publier un commentaire.