Comment spécifier AWS ID de Clé d'Accès et la Clé d'Accès Secrète dans le cadre d'un amazon s3n URL

Je suis de passage d'entrée et de sortie des dossiers en tant que paramètres à mapreduce word count programme de la page web.

L'obtention d'erreur ci-dessous:

D'État HTTP 500 - traitement de la Requête a échoué; nested exception est
java.lang.IllegalArgumentException: AWS ID de Clé d'Accès et de Secret
La Clé d'accès doit être spécifié en tant que nom d'utilisateur ou mot de passe
(respectivement) d'un s3n URL, ou par la définition de la fs.s3n.awsAccessKeyId
ou fs.s3n.awsSecretAccessKey propriétés (respectivement).

InformationsquelleAutor user3795951 | 2014-07-24

39

La documentation a le format: http://wiki.apache.org/hadoop/AmazonS3
```
 s3n://ID:SECRET@BUCKET/Path
```
- Malheureusement, cela ne fonctionne pas s'il arrive que le secret a un "/" en elle. Ce qui est assez fréquent. C'est un vieux bug connu issues.apache.org/jira/browse/HADOOP-3733, et peut être fixé dans hadoop 2.8 pour s3a protocole. issues.apache.org/jira/browse/HADOOP-11573. L'alternative est de mettre les clés dans la résolution conf (mais cela a d'autres mises en garde de trop)
- Il a travaillé pour de dme-4.3.0. Dme-4.4.0 et le système de dme-4,5,0 jeter java.lang.IllegalArgumentException: Bucket name must not be formatted as an IP Address, comme si l'ID et le SECRET faisaient partie du seau nom. Dme-4.6.0 jette java.lang.IllegalArgumentException: Bucket name should be between 3 and 63 characters long. Des idées?
- s3n n'est plus supporté.
InformationsquelleAutor RickH
9

Je vous suggère d'utiliser ceci:
```
hadoop distcp \
-Dfs.s3n.awsAccessKeyId=<your_access_id> \ 
-Dfs.s3n.awsSecretAccessKey=<your_access_key> \
s3n://origin hdfs://destinations
```
Il fonctionne aussi comme une solution de contournement pour l'apparition des barres obliques dans la clé.
Les paramètres avec l'id et la clé d'accès doit être fourni exactement dans cet ordre: après disctcp et avant origine
- s3n n'est plus supporté.
- Si nous changeons s3n à s3a et il fonctionne comme un charme!
InformationsquelleAutor Ricardo Teixeira
7

De passage dans l'AWS informations d'Identification dans le cadre de l'Amazonie s3n url n'est normalement pas recommandé, sage de la sécurité. Surtout si le code est poussé à un référentiel de la tenue de service (comme github). Idéalement, l'ensemble de vos informations d'identification dans le conf/core-site.xml comme:
```
<configuration>
  <property>
    <name>fs.s3n.awsAccessKeyId</name>
    <value>XXXXXX</value>
  </property>

  <property>
    <name>fs.s3n.awsSecretAccessKey</name>
    <value>XXXXXX</value>
  </property>
</configuration>
```
ou réinstaller awscli sur votre machine.
```
pip install awscli
```
- L'endroit où ajouter le <configuration> de données? Mon pom.xml doen semble pas aimer ça. Je suis une Étincelle de travail sur une VM CentOS, et l'installation et la configuration AWS CLI n'a pas aidé.
- ajouter dans ce fichier: conf/core-site.xml
- Quoi et où est-ce conf/core-site.xml?
- que faire si il y a différents s3 comptes nécessitant différentes touches?
- Malheureusement je n'étais pas capable de résoudre ce problème.
InformationsquelleAutor dyltini

Pour pyspark débutant:

Préparer

Téléchargement pot de https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-aws

mettez-étincelle pots dossier

Alors vous pouvez

1. Hadoop fichier de config

core-site.xml

export AWS_ACCESS_KEY_ID=<access-key>
export AWS_SECRET_ACCESS_KEY=<secret-key>

<configuration>
  <property>
    <name>fs.s3n.impl</name>
    <value>org.apache.hadoop.fs.s3native.NativeS3FileSystem</value>
  </property>

  <property>
    <name>fs.s3a.impl</name>
    <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
  </property>

  <property>
    <name>fs.s3.impl</name>
    <value>org.apache.hadoop.fs.s3.S3FileSystem</value>
  </property>
</configuration>

2. pyspark config

sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)
sc._jsc.hadoopConfiguration().set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3.S3FileSystem")

Exemple

import sys
from random import random
from operator import add

from pyspark.sql import SparkSession
from pyspark.conf import SparkConf


if __name__ == "__main__":
    """
        Usage: S3 sample
    """
    access_key = '<access-key>'
    secret_key = '<secret-key>'

    spark = SparkSession\
        .builder\
        .appName("Demo")\
        .getOrCreate()

    sc = spark.sparkContext

    # remove this block if use core-site.xml and env variable
    sc._jsc.hadoopConfiguration().set("fs.s3.awsAccessKeyId", access_key)
    sc._jsc.hadoopConfiguration().set("fs.s3n.awsAccessKeyId", access_key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.access.key", access_key)
    sc._jsc.hadoopConfiguration().set("fs.s3.awsSecretAccessKey", secret_key)
    sc._jsc.hadoopConfiguration().set("fs.s3n.awsSecretAccessKey", secret_key)
    sc._jsc.hadoopConfiguration().set("fs.s3a.secret.key", secret_key)
    sc._jsc.hadoopConfiguration().set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
    sc._jsc.hadoopConfiguration().set("fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")
    sc._jsc.hadoopConfiguration().set("fs.s3.impl", "org.apache.hadoop.fs.s3.S3FileSystem")

    # fetch from s3, returns RDD
    csv_rdd = spark.sparkContext.textFile("s3n://<bucket-name>/path/to/file.csv")
    c = csv_rdd.count()
    print("~~~~~~~~~~~~~~~~~~~~~count~~~~~~~~~~~~~~~~~~~~~")
    print(c)

    spark.stop()

InformationsquelleAutor Mithril

de créer le fichier core-site.xml et le mettre dans le chemin de classe.
Dans le fichier spécifier

<configuration>
    <property>
        <name>fs.s3.awsAccessKeyId</name>
        <value>your aws access key id</value>
        <description>
            aws s3 key id
        </description>
    </property>

    <property>
        <name>fs.s3.awsSecretAccessKey</name>
        <value>your aws access key</value>
        <description>
            aws s3 key
        </description>
    </property>
</configuration>

Hadoop par défaut spécifie deux ressources, chargés dans l'ordre depuis le classpath:

core-default.xml: Lecture seule par défaut pour hadoop
core-site.xml: Site de la configuration spécifique pour une hadoop
installation

InformationsquelleAutor Oleksandr Tsurika

Vous devez vous connecter pour publier un commentaire.