Comment trouver la taille de l'étincelle RDD / Dataframe?
Je sais comment trouver la taille du fichier en scala.Mais comment trouver un RDD/dataframe taille spark?
Scala:
object Main extends App {
val file = new java.io.File("hdfs://localhost:9000/samplefile.txt").toString()
println(file.length)
}
Étincelle:
val distFile = sc.textFile(file)
println(distFile.length)
mais si je le traiter ne pas obtenir la taille du fichier. Comment trouver le RDD taille?
source d'informationauteur Venu A Positive
Vous devez vous connecter pour publier un commentaire.
Si vous êtes simplement à la recherche pour compter le nombre de lignes dans la
rdd
n':Si vous êtes intéressé dans les octets, vous pouvez utiliser le
SizeEstimator
:https://spark.apache.org/docs/latest/api/java/org/apache/spark/util/SizeEstimator.html
Oui j'ai Finalement trouvé la solution.
Inclure ces bibliothèques.
Comment trouver le RDD Taille:
Fonction pour trouver DataFrame taille:
(Cette fonction, il suffit de convertir DataFrame de RDD en interne)
Ci-dessous est une façon en dehors de
SizeEstimator
.J'utilise fréquemmentDe savoir à partir de code sur un EDR si il est mis en cache, et, plus précisément, comment de nombreux de ses partitions sont mis en cache dans la mémoire et comment beaucoup de sont mis en cache sur le disque? pour obtenir le niveau de stockage, également voulez connaître l'actuelle mise en cache d'état.pour Connaître la consommation de mémoire.
Étincelle Contexte a developer api méthode getRDDStorageInfo()
Occasionnellement, vous pouvez utiliser ce.
Semble que l'étincelle de l'interface utilisateur a également utilisé les mêmes à partir de ce code