Comment puis-je me connecter à une base de données postgreSQL dans Apache Spark utilisation de scala?

Je veux savoir comment puis-je faire les choses suivantes dans la scala?

Se connecter à une base de données postgreSQL à l'aide de l'Étincelle scala.
Écrire des requêtes SQL comme SELECT , UPDATE, etc. pour modifier une table dans
cette base de données.

Je sais faire à l'aide de la scala, mais comment faire pour importer le connecteur pot de psql scala en sbt, tandis que l'emballage il?

Pourquoi les downvotes? Je pense que c'est une bonne question. Il est assez générique, mais alors la réponse peut également être générique et aider beaucoup d'utilisateurs.
vous êtes-vous retrouvée à l'aide de mysql ou postgres? Si postgres est-il possible d'avoir un oeil à votre sbt et l'exemple de code?

InformationsquelleAutor febinsathar | 2014-07-23

43

Notre objectif consiste à exécuter en parallèle des requêtes SQL à partir de l'Étincelle travailleurs.

Construire le programme d'installation

Ajouter le connecteur JDBC et à la libraryDependencies dans build.sbt. J'ai seulement essayé cela avec MySQL, donc je vais utiliser que dans mes exemples, mais Postgres devrait être sensiblement le même.
```
libraryDependencies ++= Seq(
  jdbc,
  "mysql" % "mysql-connector-java" % "5.1.29",
  "org.apache.spark" %% "spark-core" % "1.0.1",
  //etc
)
```
Code

Lorsque vous créez le SparkContext vous dira quels pots pour copier les exécuteurs testamentaires. Inclure le connecteur jar. Une belle façon de le faire:
```
val classes = Seq(
  getClass,                   //To get the jar with our own code.
  classOf[mysql.jdbc.Driver]  //To get the connector.
)
val jars = classes.map(_.getProtectionDomain().getCodeSource().getLocation().getPath())
val conf = new SparkConf().setJars(jars)
```
Maintenant Étincelle est prêt à se connecter à la base de données. Chaque exécuteur testamentaire exécuter la partie de la requête, de sorte que les résultats sont prêtes pour le calcul distribué.

Il y a deux options pour cela. L'ancienne approche est d'utiliser org.apache.spark.rdd.JdbcRDD:
```
val rdd = new org.apache.spark.rdd.JdbcRDD(
  sc,
  () => {
    sql.DriverManager.getConnection("jdbc:mysql://mysql.example.com/?user=batman&password=alfred")
  },
  "SELECT * FROM BOOKS WHERE ? <= KEY AND KEY <= ?",
  0, 1000, 10,
  row => row.getString("BOOK_TITLE")
)
```
Consultez la documentation pour les paramètres. Brièvement:
- Vous avez le SparkContext.
- Ensuite une fonction qui crée la connexion. Ce sera appelée à chaque travailleur de se connecter à la base de données.
- Alors la requête SQL. Ce doit être similaire à l'exemple, et contiennent des espaces réservés pour le début et la fin de la clé.
- Ensuite, vous spécifiez la plage de touches (0 à 1000 dans mon exemple) et le nombre de partitions. La gamme sera réparti entre les partitions. Donc, un exécuteur testamentaire thread sera à la fin de l'exécution de SELECT * FROM FOO WHERE 0 <= KEY AND KEY <= 100 dans l'exemple.
- Et enfin, nous avons une fonction qui convertit les ResultSet en quelque chose. Dans l'exemple que nous avons de le convertir en un String, si vous vous retrouvez avec un RDD[String].
Depuis Apache Spark version 1.3.0 une autre méthode est disponible à travers le DataFrame de l'API. Au lieu de la JdbcRDD vous devez créer un org.apache.spark.sql.DataFrame:
```
val df = sqlContext.load("jdbc", Map(
  "url" -> "jdbc:mysql://mysql.example.com/?user=batman&password=alfred",
  "dbtable" -> "BOOKS"))
```
Voir https://spark.apache.org/docs/1.3.1/sql-programming-guide.html#jdbc-to-other-databases pour la liste complète des options (la clé de la gamme et le nombre de partitions peut être définie comme avec JdbcRDD).

Mises à jour

JdbcRDD ne prend pas en charge les mises à jour. Mais vous pouvez simplement les faire dans un foreachPartition.
```
rdd.foreachPartition { it =>
  val conn = sql.DriverManager.getConnection("jdbc:mysql://mysql.example.com/?user=batman&password=alfred")
  val del = conn.prepareStatement("DELETE FROM BOOKS WHERE BOOK_TITLE = ?")
  for (bookTitle <- it) {
    del.setString(1, bookTitle)
    del.executeUpdate
  }
}
```
(Ce qui crée une connexion par partition. Si c'est un problème, utilisez un pool de connexion!)

DataFrames charge les mises à jour par le biais de la createJDBCTable et insertIntoJDBC méthodes.
- Votre mise à jour crée une nouvelle connexion pour chaque partition.
- Oui. Chaque partition peut être traitée sur une machine différente, de sorte qu'ils ne peuvent pas partager une seule connexion. Vous pouvez utiliser un pool de connexion même si, de sorte que si deux partitions sont traitées sur la même machine, dans le même thread, l'un après l'autre, ils pourraient réutiliser la connexion. Autant que je sache, il n'y a pas de pool de connexion à la norme Java API, donc, ce serait compliquer l'exemple de manière significative. Mais laissez-moi savoir si vous connaissez une bonne solution!
- à droite sur. La nouvelle Étincelle de docs pour 1.5.1 show 3 exemples de choses à faire et à ne pas concernant cette affaire. Ils ont une jolie solution élégante à l'aide d'un pool de connexions.
- Oh fantastique!!!! Avez-vous un lien vers cette page dans la documentation? Merci!
- Désolé, je ne peux pas trouver n'importe quoi sur un pool de connexion à l'URL. Ce qui me manque?
- Désolé, j'ai posté dans le mauvais lien
- Ici, vous allez: spark.apache.org/docs/latest/...
- Merci! C'est assez élégant, mais c'est pseudo. Le ConnectionPool objet qu'ils utilisent est un personnage fictif de l'API. En tant que tel, je préfère ne pas l'inclure dans ma réponse. Mais j'ai ajouté un paragraphe à suggérer à l'aide d'un pool de connexions.
InformationsquelleAutor Daniel Darabos

Vous devez vous connecter pour publier un commentaire.

Construire le programme d'installation

Code

Mises à jour