Créer la table de la Ruche et insérer des données depuis un fichier xls

J'ai obtenu une tâche de projet à partir de mon directeur de thèse, qui prétend qu'il est possible d'utiliser de la Ruche dans HDInsight (pour Windows), afin d'interroger deux différents types de fichiers, puis d'extraire des données à partir d'eux. Un de ces fichiers est un .xls, et l'autre .fichier csv.

J'ai réussi à télécharger ces deux fichiers sur le cluster Hadoop avec VS et ensuite essayé de créer un tableau de la Ruche de la .fichier xls (j'ai utilisé des tutoriels avant de .les fichiers csv fonctionne très bien avec de la Ruche), mais avec l' .fichier xls je ne cesse de recevoir l'erreur "Échec lors de la tentative.

J'ai essayé l'exemple de code suivant pour créer la table, la délimitation, le champ de la résiliation (dont j'en ai essayé plusieurs sans succès), le type de fichier (pas sûr de ce que d'autre ici) et l'emplacement cible.

DROP TABLE IF EXISTS table1;

CREATE EXTERNAL TABLE IF NOT EXISTS table1(id int, postcde int, city string) 
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION 'wasb://[email protected]/folder1/data.xls/'

Je ne suis pas sûr de savoir si ou non cela est possible puisqu'il n'y semblent contradictoires des réponses à une question similaire ici, mais selon mon superviseur, il devrait être possible de le faire avec de la Ruche - sans avoir à convertir les types de fichiers au même format avant de les télécharger sur Hadoop!

https://community.hortonworks.com/questions/31968/hi-is-there-a-way-to-load-xlsx-file-into-hive-tabl.html