hadoop Pas de système de fichiers pour le système de fichier

Je suis en train de lancer un simple NaiveBayesClassifer l'utilisation d'hadoop, cette erreur

Exception in thread "main" java.io.IOException: No FileSystem for scheme: file
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1375)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:180)
    at org.apache.hadoop.fs.Path.getFileSystem(Path.java:175)
    at org.apache.mahout.classifier.naivebayes.NaiveBayesModel.materialize(NaiveBayesModel.java:100)

Code :

    Configuration configuration = new Configuration();
    NaiveBayesModel model = NaiveBayesModel.materialize(new Path(modelPath), configuration);//error in this line..

modelPath vers NaiveBayes.bin fichier, et de l'objet de configuration de l'impression - Configuration: core-default.xml, core-site.xml

Je pense que c'est parce que des jarres, des idées?

Besoin d'un peu plus d'infos...
Ne sais pas moi, mais un rapide coup d'oeil sur google suggère qu'il y a certaines questions autour de pots de ne pas être référencé comme vous l'avez suggéré. Peut-être les liens suivants vous donneront une réponse. groups.google.com/a/cloudera.org/forum/#!topic/scm-utilisateurs/... grokbase.com/t/cloudera/cdh-user/134r64jm5t/...
J'étais en ajoutant hadoop-common-2.0.0-cdh4.3.0-sources.jar et hadoop-core-0.20.2.jar au chemin de classe, j'ai enlevé le premier et il a travaillé ne sais pas pourquoi.
Hmm..Pourriez-vous me dire au sujet de votre environnement? Aussi, veuillez me montrer la complète message d'exception.
Quel est la valeur de modelPath? avez-vous essayé file:///path/to/dir
comme @emile suggéré, assurez-vous que vous exécutez votre jar via hadoop, pas de java. c'est à dire "il suffit d'exécuter le distribuées pot avec "hadoop jar", au lieu d'essayer de l'exécuter autonome "java-jar"."
J'ai utilisé hadoop jar test.jar au lieu de java-jar test.jar

InformationsquelleAutor Mahender Singh | 2013-06-23

hadoop io java

164

C'est un cas typique de maven-assembly plugin casser des choses.

Pourquoi cela nous est arrivé

Différents Pots (hadoop-commons pour LocalFileSystem, hadoop-hdfs pour DistributedFileSystem) contiennent chacune un autre fichier appelé org.apache.hadoop.fs.FileSystem dans leur META-INFO/services répertoire. Ce fichier répertorie les canonique noms de classe du système de fichiers implémentations ils veulent déclarer (Ce qui est appelé un Fournisseur de Service d'Interface implémentée via java.util.ServiceLoader, voir org.apache.hadoop.FileSystem ligne 2622).

Lorsque nous utilisons maven-assembly-plugin, il fusionne tous nos Pots dans un, et tous les META-INFO/services/org.apache.hadoop.fs.FileSystem écraser les uns les autres. Un seul de ces fichiers reste (la dernière qui a été ajouté). Dans ce cas, le FileSystem liste de hadoop-commons remplace la liste de hadoop-hdfs, donc DistributedFileSystem n'était plus déclaré.

Comment nous l'avons fixé

Après le chargement de la configuration Hadoop, mais juste avant de faire quelque chose FileSystemliés, nous appelons cela:
```
    hadoopConfig.set("fs.hdfs.impl", 
        org.apache.hadoop.hdfs.DistributedFileSystem.class.getName()
    );
    hadoopConfig.set("fs.file.impl",
        org.apache.hadoop.fs.LocalFileSystem.class.getName()
    );
```
Mise à jour: le corriger corriger

Il a été porté à mon attention par krookedking qu'il y a une configuration à base de manière à rendre le maven-assembly utiliser une version fusionnée de tous les FileSystem services de déclarations, découvrez sa réponse ci-dessous.
- Voici le code équivalent requis pour faire la même chose dans Spark: val hadoopConfig: Configuration = spark.hadoopConfiguration hadoopConfig.set("fs.hdfs.impl", classOf[org.apache.hadoop.hdfs.DistributedFileSystem].getName) hadoopConfig.set("fs.file.impl", classOf[org.apache.hadoop.fs.LocalFileSystem].getName)
- En fait, je viens d'ajouter cette dépendance maven http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs/2.2.0 à maven et le problème est résolu.
- J'ai essayé d'ajouter hadoop-hdfs, hadoop-core, hadoop-commun, hadoop-client, mais Aussi essayé d'ajouter hadoopConfig.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.classe.getName() ); hadoopConfig.set("fs.fichier.impl", org.apache.hadoop.fs.LocalFileSystem.classe.getName() ); mais pas de travail, lors de l'exécution d'eclipse, il est en cours d'exécution fine, mais lors de l'exécution de java -cp commande il montre d'erreur ci-dessus
- Harish, qu'avez-vous vu? Même problème ici, mais avec intellij
- Juste un ajout à la merveilleuse réponse: si l'on utilise hadoop POTS mais l'exécution de l'emploi dans un non-cluster hadoop, """hadoopConfig.set("fs.hdfs.impl....."""" ne fonctionnera pas. Dans ce cas, nous allons tomber en arrière sur la gestion de l'assemblage. par exemple, dans le sbt nous pourrions faire un mergeStrategy de concat ou même filterDistinctLines
- où nous devrions l'appeler ?Ifin thedriver classe puis, quand nous permet de voir à la sortie en utilisant bin/hdfs dfs -ls /somefile alors ce qui va se passer /
InformationsquelleAutor david_p
55

Pour ceux qui utilisent l'ombre plugin, à la suite de david_p conseils, vous pouvez fusionner les services dans la ombragée bocal en ajoutant le ServicesResourceTransformer pour le plugin config:
```
  <plugin>
    <groupId>org.apache.maven.plugins</groupId>
    <artifactId>maven-shade-plugin</artifactId>
    <version>2.3</version>
    <executions>
      <execution>
        <phase>package</phase>
        <goals>
          <goal>shade</goal>
        </goals>
        <configuration>
          <transformers>
            <transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>
          </transformers>
        </configuration>
      </execution>
    </executions>
  </plugin>
```
Cela permettra de fusionner tous les org.apache.hadoop.fs.Système de fichiers des services dans un fichier
- J'aime cette solution meilleure. Résoudre le problème à la source (l'accumulation) plutôt que de patcher avec les modifications de configuration après le fait.
- Grande réponse. Corrigé mon erreur similaire. Essayé avec maven-assembly-plugin ainsi que maven-jar-plugin/maven-dépendance-plugin combinaison, mais n'a pas fonctionné. Cette solution a mon Étincelle application de fonctionner. Merci beaucoup!
- Super réponse! Merci beaucoup!
- Ce doit être marqué comme accepté de répondre. Le ServicesResourceTransformer est nécessaire lorsque les fichiers jar carte d'interfaces pour les implémentations à l'aide d'un META-INF/services d'annuaire. Plus d'informations peuvent être trouvées ici: maven.apache.org/plugins/maven-shade-plugin/examples/...
- Excellente réponse.
- Merci beaucoup, très utile!
- Wow! Vous venez de me protégeant 4 heures de casse-tête! Ce doit être la accepté de répondre!
- comment utiliser ce quand nous avons opté pour des pots au lieu de maven?
- quelqu'un peut-il traduire de ce tas de construire.sbt l'ombre de la mise en œuvre?
InformationsquelleAutor krookedking

Pour l'enregistrement, il en est encore ainsi dans hadoop 2.4.0. Tellement frustrant...

J'ai été en mesure de suivre les instructions de ce lien: http://grokbase.com/t/cloudera/scm-users/1288xszz7r/no-filesystem-for-scheme-hdfs

J'ai ajouté ce qui suit à mon core-site.xml et cela a fonctionné:

<property>
   <name>fs.file.impl</name>
   <value>org.apache.hadoop.fs.LocalFileSystem</value>
   <description>The FileSystem for file: uris.</description>
</property>

<property>
   <name>fs.hdfs.impl</name>
   <value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
   <description>The FileSystem for hdfs: uris.</description>
</property>

InformationsquelleAutor Achaiah

M'a pris les âges de la figure avec de l'Étincelle 2.0.2, mais voici mon bits:

val sparkBuilder = SparkSession.builder
.appName("app_name")
.master("local")
//Various Params
.getOrCreate()

val hadoopConfig: Configuration = sparkBuilder.sparkContext.hadoopConfiguration

hadoopConfig.set("fs.hdfs.impl", classOf[org.apache.hadoop.hdfs.DistributedFileSystem].getName)

hadoopConfig.set("fs.file.impl", classOf[org.apache.hadoop.fs.LocalFileSystem].getName)

Et les parties pertinentes de mon build.sbt:

scalaVersion := "2.11.8"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.0.2"

J'espère que cela peut aider!

InformationsquelleAutor Mauro Arnoldi

grâce david_p,scala

conf.set("fs.hdfs.impl", classOf[org.apache.hadoop.hdfs.DistributedFileSystem].getName);
conf.set("fs.file.impl", classOf[org.apache.hadoop.fs.LocalFileSystem].getName);

<property>
 <name>fs.hdfs.impl</name>
 <value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
</property>

Seulement après que j'ai lu ce que j'ai compris que le conf ici, c'est la Configuration Hadoop: brucebcampbell.wordpress.com/2014/12/11/...

InformationsquelleAutor Andy

6

Pour maven, il suffit d'ajouter la dépendance maven pour hadoop-hdfs (voir le lien ci-dessous) permettra de résoudre le problème.

http://mvnrepository.com/artifact/org.apache.hadoop/hadoop-hdfs/2.7.1

InformationsquelleAutor kwky

En supposant que vous utilisez mvn et de la distribution cloudera hadoop. Je suis en utilisant cdh4.6 et l'ajout de ces dépendances ont travaillé pour moi.Je pense que vous devriez vérifier les versions de hadoop et mvn dépendances.

<dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-core</artifactId>
        <version>2.0.0-mr1-cdh4.6.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.0.0-cdh4.6.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-client</artifactId>
        <version>2.0.0-cdh4.6.0</version>
    </dependency>

n'oubliez pas d'ajouter cloudera mvn référentiel.

<repository>
        <id>cloudera</id>
        <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
</repository>

InformationsquelleAutor husnu

4

- Je utiliser sbt assemblée package de mon projet. Je rencontre aussi ce problème. Ma solution est ici.
Etape 1: ajouter des META-INF mergestrategy dans votre construction.sbt
```
case PathList("META-INF", "MANIFEST.MF") => MergeStrategy.discard
case PathList("META-INF", ps @ _*) => MergeStrategy.first
```
Etape 2: ajouter des hadoop-hdfs lib à construire.sbt
```
"org.apache.hadoop" % "hadoop-hdfs" % "2.4.0"
```
Etape 3: sbt propre; sbt assemblée

Espérons que les informations ci-dessus peut vous aider.
- Une meilleure solution pourrait être de fusionner comme: case PathList("META-INF", "services", "org.apache.hadoop.fs.FileSystem") => MergeStrategy.filterDistinctLines Cela permet de garder tous les systèmes de fichiers
- Merci à @ravwojdyla , assez propre solution. Vous avez sauvé mes cheveux. Pour les âmes perdues à la découverte de cette réponse pour Apache spark. Ajouter à construire.sbt quand sbt-assemblée, fonctionne correctement.
- La solution fournie par @ravwojdyla est la seule qui a fonctionné pour moi.
- La solution donnée par @ravwojdyla est idéal. J'ai fait une configuration similaire dans la construction.sbt et utilisé: `` assemblyMergeStrategy dans l'assemblée := { cas PathList("META-INF", "MANIFESTE.MF") => MergeStrategy.jetez cas PathList("META-INF", "services", "org.apache.hadoop.fs.Système de fichiers") => MergeStrategy.concat cas _ => MergeStrategy.d'abord } ``
InformationsquelleAutor Haimei
2

Je suppose que vous générer l'exemple de l'aide de maven.

Veuillez vérifier le contenu de la JARRE que vous essayez d'exécuter. Surtout META-INFO/services répertoire, fichier org.apache.hadoop.fs.FileSystem. Il devrait y avoir une liste de filsystem classes d'implémentation. Vérifier la ligne de org.apache.hadoop.hdfs.DistributedFileSystem est présent dans la liste pour HDFS et org.apache.hadoop.fs.LocalFileSystem pour le système de fichiers local.

Si c'est le cas, vous devez remplacer les visées de ressources lors de la compilation.

Autre possibilité est que vous simplement n'avez pas hadoop-hdfs.jar dans votre classpath, mais cela a une probabilité faible. Habituellement, si vous avez la bonne hadoop-client dépendance qu'elle n'est pas une option.
- SALUT Romain ..j'ai le même problème et les MÉTA-informations/services/org.apache.hadoop.fs.Système de fichiers n'a pas hdfs ligne.J'ai 2.0.0-mr1-cdh4.4.0 comme la seule dépendance. Que dois-je faire? Toute la documentation à ce sujet? À l'aide de Maven pour construire
InformationsquelleAutor Roman Nikitchenko
2

Une autre cause possible (même si l'OPs question n'est pas lui-même souffrir de cela) si vous créez une configuration de l'instance qui ne prend pas en charge les paramètres par défaut:
```
Configuration config = new Configuration(false);
```
Si vous n'avez pas de charger les valeurs par défaut, puis vous n'obtiendrez pas les paramètres par défaut pour des choses comme la FileSystem implémentations qui conduit à des erreurs de ce type lorsque vous tentez d'accéder HDFS. De commutation pour le constructeur sans paramètre de passage dans true pour charger les valeurs par défaut peut résoudre ce problème.

De plus, si vous ajoutez une configuration personnalisée des emplacements (par exemple, sur le système de fichiers) à la Configuration objet d'attention de qui de surcharge de addResource() que vous utilisez. Par exemple, si vous utilisez addResource(String) puis Hadoop suppose que la chaîne est un chemin de classe de ressource, si vous avez besoin de spécifier un fichier local, essayez les opérations suivantes:
```
File configFile = new File("example/config.xml");
config.addResource(new Path("file://" + configFile.getAbsolutePath()));
```
InformationsquelleAutor RobV

Il m'a fallu quelque temps pour comprendre à fixer à partir des réponses, à cause de mon newbieness. C'est ce que j'ai trouvé, si quelqu'un d'autre a besoin d'aide dès le début:

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object MyObject {
  def main(args: Array[String]): Unit = {

    val mySparkConf = new SparkConf().setAppName("SparkApp").setMaster("local[*]").set("spark.executor.memory","5g");
    val sc = new SparkContext(mySparkConf)

    val conf = sc.hadoopConfiguration

    conf.set("fs.hdfs.impl", classOf[org.apache.hadoop.hdfs.DistributedFileSystem].getName)
    conf.set("fs.file.impl", classOf[org.apache.hadoop.fs.LocalFileSystem].getName)

Je suis en utilisant Étincelle 2.1

Et j'ai cette partie dans mon build.sbt

assemblyMergeStrategy in assembly := {
  case PathList("META-INF", xs @ _*) => MergeStrategy.discard
  case x => MergeStrategy.first
}

InformationsquelleAutor Akavall

Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://nameNode:9000");
FileSystem fs = FileSystem.get(conf);

set fs.defaultFS fonctionne pour moi! Hadoop-2.8.1

InformationsquelleAutor Asran Deng

Pour SBT utilisation ci-dessous mergeStrategy dans la construction.sbt

mergeStrategy in assembly <<= (mergeStrategy in assembly) { (old) => {
    case PathList("META-INF", "services", "org.apache.hadoop.fs.FileSystem") => MergeStrategy.filterDistinctLines
    case s => old(s)
  }
}

InformationsquelleAutor Asad Raza

Si vous utilisez sbt:

//hadoop
lazy val HADOOP_VERSION = "2.8.0"

lazy val dependenceList = Seq(

//hadoop
//The order is important: "hadoop-hdfs" and then "hadoop-common"
"org.apache.hadoop" % "hadoop-hdfs" % HADOOP_VERSION

,"org.apache.hadoop" % "hadoop-common" % HADOOP_VERSION
)

InformationsquelleAutor Peluo

J'ai connu le même problème. J'ai trouvé deux solutions:
(1) Éditer le fichier jar manuellement:

Ouvrir le fichier jar avec WinRar (ou d'autres outils similaires). Aller à la Méta-info > les services , et de modifier "org.apache.hadoop.fs.Système de fichiers" en ajoutant:

org.apache.hadoop.fs.LocalFileSystem

(2) de Changer l'ordre de mes dépendances suivre

<dependencies>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-hdfs</artifactId>
  <version>3.2.1</version>
</dependency>

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>3.2.1</version>
</dependency>

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-mapreduce-client-core</artifactId>
  <version>3.2.1</version>
</dependency>

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-client</artifactId>
  <version>3.2.1</version>
</dependency>



</dependencies>

InformationsquelleAutor Mohammad-Ali

-1

L'utilisation de ce plugin

<plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>1.5</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>

                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                            <shadedArtifactAttached>true</shadedArtifactAttached>
                            <shadedClassifierName>allinone</shadedClassifierName>
                            <artifactSet>
                                <includes>
                                    <include>*:*</include>
                                </includes>
                            </artifactSet>
                            <transformers>
                                <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                    <resource>reference.conf</resource>
                                </transformer>
                                <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                </transformer>
                                <transformer 
                                implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer">
                                </transformer>
                            </transformers>
                        </configuration>
                    </execution>
                </executions>
            </plugin>

InformationsquelleAutor Harish Pathak

-1

Je suis aussi tombée sur des questions semblables.
Ajouté core-site.xml et hdfs-site.xml comme les ressources de la conf (objet)
```
Configuration conf = new Configuration(true);    
conf.addResource(new Path("<path to>/core-site.xml"));
conf.addResource(new Path("<path to>/hdfs-site.xml"));
```
Également édité des conflits de version dans pom.xml. (par exemple, Si elle est configurée version d'hadoop est 2.8.1, mais dans pom.xml fichier, des dépendances a la version 2.7.1, puis changement de 2.8.1)
Exécuter Maven installer de nouveau.

Cela a résolu d'erreur pour moi.

InformationsquelleAutor Raxit Solanki

Vous devez vous connecter pour publier un commentaire.

Pourquoi cela nous est arrivé

Comment nous l'avons fixé

Mise à jour: le corriger corriger