Comment créer corriger le bloc de données pour la classification Spark ML

Je suis en train de lancer aléatoire de classification des forêts en utilisant Spark ML api mais je suis d'avoir des problèmes avec la création de droit de la trame de données d'entrée dans le pipeline.

Voici un exemple de données:

age,hours_per_week,education,sex,salaryRange
38,40,"hs-grad","male","A"
28,40,"bachelors","female","A"
52,45,"hs-grad","male","B"
31,50,"masters","female","B"
42,40,"bachelors","male","B"

âge et hours_per_week sont des entiers alors que d'autres fonctionnalités, y compris l'étiquette salaryRange sont catégoriques (String)

Le chargement de ce fichier csv (appelons cela de l'échantillon.csv) peut être fait par Spark csv bibliothèque comme ceci:

val data = sqlContext.csvFile("/home/dusan/sample.csv")

Par défaut, toutes les colonnes sont importés en tant que chaîne de caractères, donc nous avons besoin de changer "âge" et "hours_per_week" Int:

val toInt    = udf[Int, String]( _.toInt)
val dataFixed = data.withColumn("age", toInt(data("age"))).withColumn("hours_per_week",toInt(data("hours_per_week")))

Juste pour vérifier comment schéma ressemble maintenant:

scala> dataFixed.printSchema
root
 |-- age: integer (nullable = true)
 |-- hours_per_week: integer (nullable = true)
 |-- education: string (nullable = true)
 |-- sex: string (nullable = true)
 |-- salaryRange: string (nullable = true)

Puis vous permet de définir la croix-programme de validation et de pipeline:

val rf = new RandomForestClassifier()
val pipeline = new Pipeline().setStages(Array(rf)) 
val cv = new CrossValidator().setNumFolds(10).setEstimator(pipeline).setEvaluator(new BinaryClassificationEvaluator)

D'erreur s'affiche lors de l'exécution de cette ligne:

val cmModel = cv.fit(dataFixed)

java.lang.IllegalArgumentException: Champ "caractéristiques" n'existe pas.

Il est possible de définir l'étiquette de la colonne et de la fonctionnalité de la colonne dans RandomForestClassifier ,cependant j'ai 4 colonnes comme prédicteurs (caractéristiques) pas un seul.

Comment je dois organiser mon bloc de données de sorte qu'il a l'étiquette et les caractéristiques des colonnes organisé correctement?

Pour votre confort, voici le code complet :

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.classification.RandomForestClassifier
import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator
import org.apache.spark.ml.tuning.CrossValidator
import org.apache.spark.ml.Pipeline
import org.apache.spark.sql.DataFrame
import org.apache.spark.sql.functions._
import org.apache.spark.mllib.linalg.{Vector, Vectors}
object SampleClassification {
def main(args: Array[String]): Unit = {
//set spark context
val conf = new SparkConf().setAppName("Simple Application").setMaster("local");
val sc = new SparkContext(conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
import com.databricks.spark.csv._
//load data by using databricks "Spark CSV Library" 
val data = sqlContext.csvFile("/home/dusan/sample.csv")
//by default all columns are imported as string so we need to change "age" and  "hours_per_week" to Int
val toInt    = udf[Int, String]( _.toInt)
val dataFixed = data.withColumn("age", toInt(data("age"))).withColumn("hours_per_week",toInt(data("hours_per_week")))
val rf = new RandomForestClassifier()
val pipeline = new Pipeline().setStages(Array(rf))
val cv = new CrossValidator().setNumFolds(10).setEstimator(pipeline).setEvaluator(new BinaryClassificationEvaluator)
//this fails with error
//java.lang.IllegalArgumentException: Field "features" does not exist.
val cmModel = cv.fit(dataFixed) 
}
}

Merci pour l'aide!

Pas au courant de la scala de langue, mais où êtes-vous les étiquettes et les caractéristiques de l'ensemble de données à quelque chose comme LabeledPoint(étiquettes, liste(caractéristiques)) , vérifiez l'exemple de spark.apache.org/docs/latest/mllib-linear-methods.html
Veuillez vérifier mon commentaire à la question ci-dessous.
cochez cette exemple github.com/apache/spark/blob/master/examples/src/main/scala/org/... où val modèle = pipeline.ajustement(de la formation.toDF()) rend l'utilisation de dataframe dans le pipeline

InformationsquelleAutor Dusan Grubjesic | 2015-06-24

Vous devez simplement vous assurer que vous avez un "features" colonne dans votre dataframe de type VectorUDF comme montré ci-dessous:

scala> val df2 = dataFixed.withColumnRenamed("age", "features")
df2: org.apache.spark.sql.DataFrame = [features: int, hours_per_week: int, education: string, sex: string, salaryRange: string]
scala> val cmModel = cv.fit(df2) 
java.lang.IllegalArgumentException: requirement failed: Column features must be of type org.apache.spark.mllib.linalg.VectorUDT@1eef but was actually IntegerType.
at scala.Predef$.require(Predef.scala:233)
at org.apache.spark.ml.util.SchemaUtils$.checkColumnType(SchemaUtils.scala:37)
at org.apache.spark.ml.PredictorParams$class.validateAndTransformSchema(Predictor.scala:50)
at org.apache.spark.ml.Predictor.validateAndTransformSchema(Predictor.scala:71)
at org.apache.spark.ml.Predictor.transformSchema(Predictor.scala:118)
at org.apache.spark.ml.Pipeline$$anonfun$transformSchema$4.apply(Pipeline.scala:164)
at org.apache.spark.ml.Pipeline$$anonfun$transformSchema$4.apply(Pipeline.scala:164)
at scala.collection.IndexedSeqOptimized$class.foldl(IndexedSeqOptimized.scala:51)
at scala.collection.IndexedSeqOptimized$class.foldLeft(IndexedSeqOptimized.scala:60)
at scala.collection.mutable.ArrayOps$ofRef.foldLeft(ArrayOps.scala:108)
at org.apache.spark.ml.Pipeline.transformSchema(Pipeline.scala:164)
at org.apache.spark.ml.tuning.CrossValidator.transformSchema(CrossValidator.scala:142)
at org.apache.spark.ml.PipelineStage.transformSchema(Pipeline.scala:59)
at org.apache.spark.ml.tuning.CrossValidator.fit(CrossValidator.scala:107)
at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:67)
at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:72)
at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:74)
at $iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC$$iwC.<init>(<console>:76)

EDIT1

Essentiellement, il y a besoin d'être deux champs dans votre bloc de données "caractéristiques" pour les fonction de vecteurs et de "label" pour l'exemple des étiquettes. L'Instance doit être de type Double.

Pour créer un "caractéristiques" des champs avec Vector type de d'abord créer un udf comme montré ci-dessous:

val toVec4    = udf[Vector, Int, Int, String, String] { (a,b,c,d) => 
val e3 = c match {
case "hs-grad" => 0
case "bachelors" => 1
case "masters" => 2
}
val e4 = d match {case "male" => 0 case "female" => 1}
Vectors.dense(a, b, e3, e4) 
}

Maintenant aussi coder le "label" sur le terrain, en créer un autre, udf comme indiqué ci-dessous:

val encodeLabel    = udf[Double, String]( _ match { case "A" => 0.0 case "B" => 1.0} )

Maintenant nous transformer original dataframe à l'aide de ces deux udf:

val df = dataFixed.withColumn(
"features",
toVec4(
dataFixed("age"),
dataFixed("hours_per_week"),
dataFixed("education"),
dataFixed("sex")
)
).withColumn("label", encodeLabel(dataFixed("salaryRange"))).select("features", "label")

Notez qu'il peut être très colonnes /champs présents dans le dataframe, mais dans ce cas j'ai sélectionné uniquement features et label:

scala> df.show()
+-------------------+-----+
|           features|label|
+-------------------+-----+
|[38.0,40.0,0.0,0.0]|  0.0|
|[28.0,40.0,1.0,1.0]|  0.0|
|[52.0,45.0,0.0,0.0]|  1.0|
|[31.0,50.0,2.0,1.0]|  1.0|
|[42.0,40.0,1.0,0.0]|  1.0|
+-------------------+-----+

Maintenant son jusqu'à vous pour corriger les paramètres de votre algorithme d'apprentissage pour le faire fonctionner.

Toute chance vous pouvez montrer comment je peux créer une colonne nommée "caractéristiques" de type VectorUDF de mes données ?
J'ai ajouté des exemples de code. Veuillez vérifier EDIT1
c'est vraiment super! Je ne suis pas sûr de savoir comment nous pouvons transmettre des informations à la classificateur de ML que maintenant ces e3 et e4 sont catégoriques dispose pas de numérique? Cause de "bas niveau" mllib api, il est possible de passer categoricalFeaturesInfo avec l'index et le nombre de catégories de catégories de fonctionnalités. Dans le "haut niveau" ml api , ce doit être extraite directement à partir du schéma.
Dans ce cas, le resluting Vector de Double valeurs ( tout numérique ) constituent l'élément de vecteur. Vous voudrez peut-être faire de la normalisation, ohe-chaud encodage, la normalisation ... tout ce qui vous semble adaptée pour votre algorithme, mais les valeurs dans votre fonction de vecteur d'être tout Double. Qui API de bas niveau sont en vous référant?
Il y a 2 paquets de Spark pour l'apprentissage de la machine. L'un est mllib -ce que j'appelle "le faible niveau d'api" et l'autre est ml - ce que j'appelle "haut niveau d'api". De toute façon , tuxdna merci pour l'aide je vais sélectionner votre réponse comme la meilleure de toutes les autres.
Je suis heureuse qu'elle vous a été utile. Et merci pour la distinction entre mlllib et ml 🙂

InformationsquelleAutor tuxdna

45

Comme d'Étincelle 1.4, vous pouvez utiliser un Transformateur de org.apache.spark.ml.fonctionnalité.VectorAssembler.
Il suffit de fournir les noms de colonnes que vous voulez faire.
```
val assembler = new VectorAssembler()
.setInputCols(Array("col1", "col2", "col3"))
.setOutputCol("features")
```
et l'ajouter à votre portefeuille.
- tuxdna réponse a expliqué les détails du problème, et la solution a ressembler. Cette réponse montre la bonne façon de l'accomplir.
- Cela ne fonctionnerait pas, car certaines fonctions sont de type String. Excellente solution pour strictement données numériques.
- Vous aurez besoin d'utiliser StringIndexer première pour convertir des chaînes en numérique. Pourrait être intéressant d'ajouter cette étape de la réponse pour plus de clarté.
InformationsquelleAutor WeiChing Lin
0

Selon l'étincelle de la documentation sur mllib - aléatoire des arbres, me semble que vous devriez définir les caractéristiques de la carte que vous utilisez et les points devraient être un labeledpoint.

Cela indiquera à l'algorithme de la colonne qui doit être utilisé en tant que prédiction et ceux qui en sont les caractéristiques.

https://spark.apache.org/docs/latest/mllib-decision-tree.html
- Il y a une vieille api situé dans le paquet mllib et les points devraient être LabeledPoint en effet. Cependant, je suis en train d'essayer d'utiliser les nouvelles api se trouve dans ml package cause qu'il soutient des pipelines , de la croix de validation etc.. Cette nouvelle api utilise DataFrame comme entrée. par exemple, de comparer ces deux : RandomForestClassifier à partir de ml qui utilise DataFrame et RandomForestModel (spark.apache.org/docs/1.4.0/api/scala/...) à partir de mllib
InformationsquelleAutor Adriano Almeida

Vous devez vous connecter pour publier un commentaire.