Localement lecture S3 fichiers par Étincelle (ou mieux: pyspark)

Je veux lire un fichier S3 de mon (local) de la machine, par l'intermédiaire de l'Étincelle (pyspark, vraiment). Maintenant, je continue à recevoir des erreurs d'authentification comme

java.lang.IllegalArgumentException: AWS ID de Clé d'Accès et de Secret
La Clé d'accès doit être spécifié en tant que nom d'utilisateur ou mot de passe
(respectivement) d'un s3n URL, ou par la définition de la fs.s3n.awsAccessKeyId
ou fs.s3n.awsSecretAccessKey propriétés (respectivement).

J'ai regardé partout ici et sur le web, essayé beaucoup de choses, mais apparemment S3 a été l'évolution au cours de la dernière année ou mois, et toutes les méthodes ont échoué, mais l'une:

pyspark.SparkContext().textFile("s3n://user:password@bucket/key")

(note de l' s3n [s3 n'a pas de travail]). Maintenant, je ne veux pas utiliser une URL avec l'utilisateur et le mot de passe parce qu'ils peuvent apparaître dans les journaux, et je suis également pas sûr de la façon de les obtenir à partir de la ~/.aws/credentials fichier de toute façon.

Alors, comment puis-je lire en local à partir de S3 par Étincelle (ou, mieux, pyspark) en utilisant les informations d'identification AWS à partir de l' standard ~/.aws/credentials fichier (dans l'idéal, sans copier les informations d'identification, il y à encore un autre fichier de configuration)?

PS: j'ai essayé os.environ["AWS_ACCESS_KEY_ID"] = … et os.environ["AWS_SECRET_ACCESS_KEY"] = …, il n'a pas de travail.

PPS: je ne suis pas sûr où "jeu de la fs.s3n.awsAccessKeyId ou fs.s3n.awsSecretAccessKey propriétés" (Google n'est pas venu avec quelque chose). Cependant, j'ai essayé de nombreuses façons de définir ces: SparkContext.setSystemProperty(), sc.setLocalProperty(), et conf = SparkConf(); conf.set(…); conf.set(…); sc = SparkContext(conf=conf). Rien n'a fonctionné.

Voir aussi cette réponse.
Il a travaillé pour moi de définir les variables d'environnement à la ligne de commande avant de l'exécuter étincelle soumettre avec pyspark localement. En les définissant à l'intérieur de pyspark à l'aide de os.environ n'ai pas de travail parce qu'il est trop tard pour obtenir ramassé.
Ouais, les choses devraient fonctionner de cette façon (ou par le bon fichier de configuration). Cette question ne se pose qu'en raison d'un bug sur boto.

InformationsquelleAutor Eric O Lebigot | 2015-04-04

7

Oui, vous devez utiliser s3n au lieu de s3. s3 est un étrange abus de S3, dont les avantages ne sont pas claires pour moi.

Vous pouvez transmettre les informations d'identification de la sc.hadoopFile ou sc.newAPIHadoopFile appels:
```
rdd = sc.hadoopFile('s3n://my_bucket/my_file', conf = {
  'fs.s3n.awsAccessKeyId': '...',
  'fs.s3n.awsSecretAccessKey': '...',
})
```
- Merci, c'est instructif. Qu'est-ce que ce my_file censé être? Juste un endroit où le fichier de configuration est stocké? Pourrait-il être stocké à l'avance, et au niveau local? Une autre de mes questions était de savoir comment l'accès par programme les données de ~/.aws/credentials (court de l'analyse avec ConfigParser): savez-vous comment faire?
- my_file est le fichier que vous tentez de lire. Au lieu de passer les clés dans l'URL, vous les transmettre par le biais de la conf paramètre. Autant que je sache ~/.aws/credentials est un détail d'implémentation de aws-cli. Vous pourriez analyser vous-même, ou de mettre les clefs dans votre propre fichier de configuration de votre format préféré. (Je vois qu'il n'est pas une réponse complète. J'espère que c'est utile quand même!)
- Pour référence: si j'ai bien vu à plusieurs reprises que s3n devrait être utilisé à la place de la "vieille" s3 "bloc" système de fichiers, l'officiel actuel de la documentation indique que s3 doit être utilisé: docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/....
- Ne fonctionne pas pour moi (spark1.5, hadoop2.4). J'ai le message d'erreur "Accès AWS Key ID et la Clé d'Accès Secrète doit être spécifié en tant que nom d'utilisateur ou le mot de passe (respectivement) d'une URL s3, ou par la définition de la fs.s3.awsAccessKeyId ou fs.s3.awsSecretAccessKey propriétés (respectivement)". Et le S3 url n'est d'aucune utilité là, depuis quand vous avez un "/" dans la clé, il ne fonctionne pas (HADOOP-3733)
- On dirait que vous êtes en utilisant s3:// au lieu de s3n://.
- Ne fonctionne pas avec spark1.5 et hadoop2.4.
- Je dois faire quelques tests et d'améliorer cette réponse. Je me souviens d'une version spécifique de questions. Essayez de la Spark Hadoop 1.x construire. Vous pouvez également essayer s3a au lieu de s3n. Il devrait être l'amélioration de remplacement de s3n de Hadoop 2.6 sur. Je n'ai pas encore essayé, mais appsflyer.com/blog/the-bleeding-edge-spark-parquet-and-s3 décrit des cerceaux vous devez sauter à travers pour qu'il fonctionne.
InformationsquelleAutor Daniel Darabos
2

Le problème était en fait un bug dans l'Amazonie boto module Python. Le problème était lié au fait que MacPort version est en fait vieux: installation boto par pip a résolu le problème: ~/.aws/credentials a été lue correctement.

Maintenant que j'ai plus d'expérience, je dirais qu'en général (à compter de la fin de 2015) Amazon Web Services, des outils et des Étincelles/PySpark ont une inégale de la documentation et peut avoir de graves bugs qui sont très faciles à exécuter dans. Pour le premier problème, je le recommande à première mise à jour de l'interface de ligne de commande aws, boto et Étincelle à chaque fois que quelque chose d'étrange se passe: c'est la "magie" résolu quelques problèmes déjà pour moi.
- J'ai installé python 3.6 et s'est cassé awscli. Je suppose que j'ai d'abord installé avec 2,7 j'ai dû ensuite pip install awscli de nouveau dans un Python 3 contexte. De sorte que la suggestion de toujours garder aws cli, boto d'allumage et de mise à jour est de bon conseil!
InformationsquelleAutor Eric O Lebigot
2

Voici une solution sur la façon de lire les informations d'identification de ~/.aws/credentials. Il utilise le fait que les informations d'identification de fichier est un fichier INI qui peut être analysé avec Python configparser.
```
import os
import configparser

config = configparser.ConfigParser()
config.read(os.path.expanduser("~/.aws/credentials"))

aws_profile = 'default' # your AWS profile to use

access_id = config.get(aws_profile, "aws_access_key_id") 
access_key = config.get(aws_profile, "aws_secret_access_key") 
```
Voir aussi mes gist à https://gist.github.com/asmaier/5768c7cda3620901440a62248614bbd0 .

InformationsquelleAutor asmaier
1

Les variables d'environnement de l'installation susceptible de l'aider.

Ici, dans l'Étincelle de la FAQ sous la question "Comment puis-je accéder à des données en S3?", ils suggèrent de définir AWS_ACCESS_KEY_ID et AWS_SECRET_ACCESS_KEY variables d'environnement.
- Suivi le lien et la question ne semble plus être là.
- pour Spark 2.0.0 cela peut vous aider github.com/amplab/spark-ec2#accessing-data-in-s3
InformationsquelleAutor Zeke Fast
0

Je ne peux pas en dire beaucoup sur la java des objets que vous avez à donner à la hadoopFile fonction, seulement que cette fonction semble déjà depricated pour certains "newAPIHadoopFile". La documentation sur ce sujet est assez louche et je pense que vous devez savoir Scala/Java pour vraiment aller au fond de ce tout ce.
Dans le même temps, j'ai compris comment en fait pour obtenir certaines s3 données dans pyspark et j'ai pensé que je voudrais partager mes découvertes.
Cette documentation: Étincelle la documentation de l'API dit qu'il utilise un dict qui est converti en java de configuration (XML). J'ai trouvé la configuration de java, cela doit refléter les valeurs que vous devriez mettre dans le dict: Comment accéder S3/S3n de la locale de l'installation de hadoop
```
bucket = "mycompany-mydata-bucket"
prefix = "2015/04/04/mybiglogfile.log.gz"
filename = "s3n://{}/{}".format(bucket, prefix)

config_dict = {"fs.s3n.awsAccessKeyId":"FOOBAR",
               "fs.s3n.awsSecretAccessKey":"BARFOO"}

rdd = sc.hadoopFile(filename,
                    'org.apache.hadoop.mapred.TextInputFormat',
                    'org.apache.hadoop.io.Text',
                    'org.apache.hadoop.io.LongWritable',
                    conf=config_dict)
```
Cet extrait de code charge le fichier sur le seau et le préfixe (chemin d'accès du fichier dans le seau), inscrite sur les deux premières lignes.
- Ne fonctionne pas pour moi (spark1.5, hadoop2.4). J'ai le message d'erreur "Accès AWS Key ID et la Clé d'Accès Secrète doit être spécifié en tant que nom d'utilisateur ou le mot de passe (respectivement) d'une URL s3, ou par la définition de la fs.s3.awsAccessKeyId ou fs.s3.awsSecretAccessKey propriétés (respectivement)". Et le S3 url n'est d'aucune utilité là, depuis quand vous avez un "/" dans la clé, il ne fonctionne pas (HADOOP-3733)
InformationsquelleAutor firelynx

Vous devez vous connecter pour publier un commentaire.