La ruche gzip fichier de décompression

J'ai chargé tas de .gz fichier dans HDFS et quand je crée une table brutes sur le dessus d'eux je vois le comportement étrange lors du calcul du nombre de lignes. En comparant le résultat du count(*) from le gz table par rapport à la non compressé résultats de la table de ~85% de différence. La table qui contient le fichier gz comprimé a moins de dossiers. Quelqu'un a vu?

CREATE EXTERNAL TABLE IF NOT EXISTS test_gz(
  col1 string, col2 string, col3 string)
ROW FORMAT DELIMITED
   LINES TERMINATED BY '\n'
LOCATION '/data/raw/test_gz'
;

select count(*) from test_gz;    result 1,123,456
select count(*) from test;  result 7,720,109
U pourrait saisir plus d'information? Comme le nom de fichier dans HDFS, le résultat de select * from test et select * from test_gz

OriginalL'auteur Marcin | 2013-01-30