Comment faire pour insérer des données dans le Parquet de la table dans la Ruche

J'ai simple table de texte (délimité par des ",") avec le format suivant:

orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING

Je veux insérer ces données dans un Parquet de table:
J'ai créé la table à l'aide de:

CREATE TABLE parquet_test (orderID INT, CustID INT, OrderTotal FLOAT, 
OrderNumItems INT, OrderDesc STRING) 
ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' stored as 
INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat' 
OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormat';

mais lorsque j'essaie d'insérer les données à l'aide de

insert overwrite table parquet_small_orders select * from small_orders;

il échoue. toutes les pensées?

OriginalL'auteur Alex L | 2014-04-18

4

Je vais partager ce que je viens de tester et il fonctionne parfaitement bien. Je sais que ça peut être une version de problème lié à la Ruche qui pourrait l'ai résolu en ce moment. Je vais vous expliquer ce que je viens de le faire, de toute façon,

1. La vérification des données brutes

$ cat myFile.txt
```
orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING
100,1000,100000,5,"aa"
200,2000,200000,6,"bb"
300,3000,300000,7,"cc"
400,4000,400000,8,"dd"
500,5000,500000,9,"ee"
```
2. Le montage d'un tableau de la Ruche pointant vers le Fichier
```
Create external table myDB.orders(orderID INT, CustID INT, OrderTotal FLOAT, OrderNumItems INT, OrderDesc STRING)
row format 
delimited FIELDS TERMINATED BY ',' 
STORED AS TEXTFILE 
LOCATION '/my/path/to/csv'
tblproperties ("skip.header.line.count"="1");
```
4. Vérification de la table de la Ruche fonctionne correctement. Notez que j'ai ajouté une peine d'ignorer la première ligne, qui est souvent l'en-tête du fichier csv.

sélectionnez * à partir de myDB.les commandes;
```
100,1000,100000.0,5,"aa" 
200,2000,200000.0,6,"bb" 
300,3000,300000.0,7,"cc" 
400,4000,400000.0,8,"dd" 
500,5000,500000.0,9,"ee"
```
5. Montage Parquet de table:
```
CREATE TABLE myDB.parquet_test (orderID INT, CustID INT, OrderTotal FLOAT,
OrderNumItems INT, OrderDesc STRING)
ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' stored as
INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat'
OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormat'
location '/my/path/to/parquet';
```
6. Insertion de données à partir d'un fichier CSV tableau de la Ruche à la Ruche Parquet (table de Conversion de parquet dans le processus)
```
insert overwrite table myDB.parquet_test select * from myDB.orders;
```
Enfin, j'ai une double vérification de la transformation de données est correct de faire une simple requête à myDB.parquet_test.
Pour être sûr à 100%, les données sont en Parquet, je suis allé à /my/path/to/parquet et j'ai vérifié que ces fichiers sont en Parquet.
Vous ne savez pas si votre problème est que vous n'êtes pas à sauter peut-être l'en-tête du fichier, ou peut-être la version que vous utilisez, mais encore une fois, ces étapes que je viens de vous expliquer fonctionne bien.

OriginalL'auteur dbustosp

Quels sont les messages d'erreur que vous obtenez sur la ruche côté serveur?

J'ai eu un problème similaire. Dans la ruche journal du serveur j'ai vu des tas de problèmes de mémoire.

Je pourrais résoudre le problème sur mon installation de hadoop à l'aide des valeurs plus élevées dans mapred-site.xml

<property>
  <name>mapreduce.map.memory.mb</name>
  <value>1536</value> 
</property>

<property>
  <name>mapreduce.map.java.opts</name>
  <value>-Xmx1024M</value> 
</property>

<property>
  <name>mapreduce.reduce.memory.mb</name>
  <value>3072</value> 
</property>

<property>
  <name>mapreduce.reduce.java.opts</name>
  <value>-Xmx2560M</value> 
</property>

OriginalL'auteur woopi

Fonctionne pour moi; voir ci-dessous.
Nous ne pouvons pas voir votre csv définition de la table, mais je crois que vous pouvez avoir besoin de donner le délimiteur?
De toute façon, mon code devrait aider.

Matt

hive> create table te3 (x int, y int)                                        
    > row format delimited                                                   
    > FIELDS TERMINATED BY ','       
    > STORED AS TEXTFILE;
hive> LOAD DATA LOCAL INPATH '/home/cloudera/test/' OVERWRITE INTO TABLE te3;
Copying data from file:/home/cloudera/test
Copying file: file:/home/cloudera/test/testfile.csv
Loading data to table default.te3
Table default.te3 stats: [numFiles=1, numRows=0, totalSize=12, rawDataSize=0]
OK
Time taken: 1.377 seconds
hive> select * from te3;                                                     
OK
1   2
3   4
5   6
Time taken: 0.566 seconds, Fetched: 3 row(s)
hive> create table ptest (a INT, b INT)
    > ROW FORMAT SERDE 'parquet.hive.serde.ParquetHiveSerDe' stored as 
    > INPUTFORMAT 'parquet.hive.DeprecatedParquetInputFormat' 
    > OUTPUTFORMAT 'parquet.hive.DeprecatedParquetOutputFormat';
OK
Time taken: 0.413 seconds
hive> insert overwrite table ptest select * from te3;
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1423179894648_0001, Tracking URL = http://quickstart.cloudera:8088/proxy/application_1423179894648_0001/
Kill Command = /usr/lib/hadoop/bin/hadoop job  -kill job_1423179894648_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2015-02-09 14:08:16,308 Stage-1 map = 0%,  reduce = 0%
2015-02-09 14:08:45,342 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 1.55 sec
MapReduce Total cumulative CPU time: 1 seconds 550 msec
Ended Job = job_1423179894648_0001
Stage-Stage-1: Map: 1   Cumulative CPU: 1.99 sec   HDFS Read: 234 HDFS Write: 377 SUCCESS
Total MapReduce CPU Time Spent: 1 seconds 990 msec
OK
Time taken: 68.96 seconds
hive> select * from ptest;
OK
SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation
SLF4J: See http://www.slf4j.org/codes.html#StaticLoggerBinder for further details.
1   2
3   4
5   6
Time taken: 0.06 seconds, Fetched: 3 row(s)
hive>

OriginalL'auteur matthieu lieber

0

La réponse par Matthieu Lieber décrit comment vous pouvez charger des données d'un parquet à la table.

Couple de choses avant de poster votre question suivante.
1. Veuillez indiquer de quelle version vous utilisez. Le Parquet n'a pas été pris en charge nativement dans la Ruche, les versions antérieures à 0,13 et vous devez ajouter quelques explicite des pots afin d'obtenir la fonctionnalité.
2. Veuillez ajouter les journaux d'erreur et messages d'erreur. "Il ne" une vague description de l'erreur et cela rend les choses difficiles à déboguer. La façon dont vous effectuez le chargement des données semble OK et cela devrait fonctionner. Cependant, un journal que les choses auraient été claires quant à ce qu'est la question.
Si c'est encore une question ouverte, vous pouvez vous référer à Cloudera de la documentation pour voir quelques notions de base sur la façon dont vous pouvez utiliser Parquet avec de la Ruche.

Merci!

OriginalL'auteur Rahul

Avez-vous suivi ces étapes?

Télécharger parquet-hive-bundle-1.5.0.jar

Réviser hive-site.xml d'inclure ceci:

<property>
   <name>hive.jar.directory</name>
   <value>/home/hduser/hive/lib/parquet-hive-bundle-1.5.0.jar</value>
   <description>
       This is the location hive in tez mode will look for to find a site wide installed hive instance. If not set, the directory under hive.user.install.directory corresponding to current user name will be used.
   </description>
</property>

OriginalL'auteur Shiwangi

Vous devez vous connecter pour publier un commentaire.