Transférer le fichier depuis HDFS

Je veux transférer des fichiers à partir de HDFS pour le système de fichiers local d'un autre serveur qui n'est pas dans le cluster hadoop, mais dans le réseau.

J'aurais pu faire:

hadoop fs -copyToLocal <src> <dest>
and then scp/ftp <toMyFileServer>.

Que les données est énorme et en raison de l'espace limité sur le système de fichiers local de hadoop à l'ordinateur de la passerelle, je voulais éviter cela et les données envoyées directement à mon serveur de fichiers.

S'il vous plaît aider avec quelques conseils sur la façon de traiter ce problème.

source d'informationauteur dipeshtech

2

Donc, vous avez probablement un fichier avec un tas de pièces que pour la sortie de votre hadoop programme.
```
part-r-00000
part-r-00001
part-r-00002
part-r-00003
part-r-00004
```
Donc permet de faire une partie à un moment?
```
for i in `seq 0 4`;
do
hadoop fs -copyToLocal output/part-r-0000$i ./
scp ./part-r-0000$i you@somewhere:/home/you/
rm ./part-r-0000$i
done
```
Vous pourriez avoir à chercher le mot de passe modificateur de scp
9

C'est la façon la plus simple de le faire:
```
ssh <YOUR_HADOOP_GATEWAY> "hdfs dfs -cat <src_in_HDFS> " > <local_dst>
```
Il fonctionne pour les fichiers binaires.
2

Je pense que la solution la plus simple serait de montage réseau ou SSHFS pour simuler serveur de fichiers local directory local.

Vous pouvez également monter un serveur FTP à un répertoire local:
http://www.linuxnix.com/2011/03/mount-ftp-server-linux.html
1

Vous pourriez faire usage de webHDFS API REST pour le faire. Faire un curl de l'ordinateur où vous souhaitez télécharger les fichiers.
```
curl -i -L "http://namenode:50075/webhdfs/v1/path_of_the_file?op=OPEN" -o ~/destination
```
Une autre approche pourrait être d'utiliser le DataNode API par wget pour ce faire :
```
wget http://$datanode:50075/streamFile/path_of_the_file
```
Mais, de la façon la plus pratique, à mon humble avis, serait d'utiliser le NameNOde webUI. Depuis cette machine fait partie du réseau, vous pouvez simplement pointer votre navigateur web pour NameNode_Machine:50070. Après que naviguer à travers le HDFS, ouvrez le fichier que vous souhaitez télécharger et cliquez sur Download this file.
0

J'ai essayé de le faire aussi (j'ai été en utilisant de sécurité Kerberos). Cela m'a aidé après la petite mise à jour: https://hadoop.apache.org/docs/r1.0.4/webhdfs.html#OPEN

Exécuter directement curl -L -i --negotiate "http://<HOST>:<PORT>/webhdfs/v1/<PATH>?op=OPEN" n'a pas fonctionné pour moi, je vais vous expliquer pourquoi.

Cette commande fera en deux étapes:
1. trouver un fichier que vous souhaitez télécharger et de créer un lien temporaire - retour 307 Temporary Redirect
2. à partir de ce lien, il va télécharger les données de retour HTTP 200 OK.
Le commutateur -L dit qu'il prend un fichier et de continuer avec le sciage directement. Si vous ajouter à la commande curl -vil va connecter à la sortie; si oui, vous verrez décrite en deux étapes en ligne de commande, comme je l'ai dit. MAIS - parce qu'en raison de l'ancienne version de curl (dont je ne udpate), ça ne marchera pas.

SOLUTION POUR CELA (en Coque):
```
LOCATION=`curl -i --negotiate -u : "${FILE_PATH_FOR_DOWNLOAD}?op=OPEN" | /usr/bin/perl -n -e '/^Location: (.*)$/&& print "$1\n"'`
```
Cette obtiendrez de liaison temporaire et l'enregistrer sur $LOCATION variable.
```
RESULT=`curl -v -L --negotiate -u : "${LOCATION}" -o ${LOCAL_FILE_PATH_FOR_DOWNLOAD}`
```
Et cela permettra d'économiser votre fichier local, si vous ajoutez -o <file-path>.

J'espère que cela a aidé.

J.

Vous devez vous connecter pour publier un commentaire.