Enregistrer ML modèle pour un usage futur

J'ai été l'application de certains algorithmes d'Apprentissage automatique comme la Régression Linéaire, la Régression Logistique, et Naive Bayes pour certaines données, mais j'essayais d'éviter d'utiliser des Rdd et commencer à utiliser DataFrames parce que le Rdd sont plus lents que Dataframes sous pyspark (voir photo 1).

Enregistrer ML modèle pour un usage futur

L'autre raison pour laquelle je suis à l'aide de DataFrames est parce que la ml de la bibliothèque dispose d'une classe très utile pour paramétrer les modèles, qui est CrossValidator cette classe renvoie à un modèle après la pose, évidemment, cette méthode a tester plusieurs scénarios, et après qui renvoie un modèle ajusté (avec les meilleures combinaisons de paramètres).

Le cluster-je utiliser n'est pas si grand et que les données sont assez gros et certains raccord prendre des heures si je veux enregistrer ces modèles afin de les réutiliser plus tard, mais je n'ai pas compris, comment, est-il quelque chose que je suis ignorant?

Notes:

  • La mllib du modèle de classes ont une méthode save (c'est à dire NaiveBayes), mais mllib n'a pas CrossValidator et l'utilisation RDDs donc je suis pour l'éviter il premeditatedly.
  • La version actuelle est spark 1.5.1.
  • +1 Bonne question. Je suis dans le même lieu que je suis en train de faire de l'interrupteur de RDDs à DataFrames. Je suis dans 1.6.1, mais je vais avoir le même problème, parce que sauver la fonctionnalité ne semble pas encore être mis en œuvre pour OneVsRest stackoverflow.com/questions/36243455/...