Comment partition de RDD par clé dans l'Allumage?

Étant donné que la HashPartitioner docs disent:

[HashPartitioner] met en œuvre de hachage basée sur le partitionnement à l'aide de Java
Objet.hashCode.

Dire que je veux partition DeviceData par son kind.

case class DeviceData(kind: String, time: Long, data: String)

Serait-il correct de la partition RDD[DeviceData] par l'écrasement de la deviceData.hashCode() méthode et l'utilisation que le hashcode de kind?

Mais étant donné que HashPartitioner prend un certain nombre de partitions paramètre je suis confus quant à savoir si j'ai besoin de savoir le nombre de types à l'avance et qu'advient-il si il existe plusieurs types de partitions?

Est-il exact que si j'écris des données partitionnées sur le disque, il restera partitionné lors de la lecture?

Mon but est d'appeler

  deviceDataRdd.foreachPartition(d: Iterator[DeviceData] => ...)

Et ont seulement DeviceData's de la même kind de la valeur de l'itérateur.

InformationsquelleAutor BAR | 2015-09-12

8

Comment faire juste un groupByKey à l'aide de kind. Ou une autre PairRDDFunctions méthode.

Vous faites, il me semble que vous n'avez pas vraiment sur le partitionnement, c'est juste que vous obtenez tout d'un genre spécifique dans un flux de traitement?

La paire de fonctions de permettre cela:
```
rdd.keyBy(_.kind).partitionBy(new HashPartitioner(PARTITIONS))
   .foreachPartition(...)
```
Cependant, vous pouvez probablement être un peu plus sûr avec quelque chose de plus comme:
```
rdd.keyBy(_.kind).reduceByKey(....)
```
ou mapValues ou un certain nombre d'autres fonctions paire qui vous garantissons que vous obtenir les pièces ensemble

InformationsquelleAutor Justin Pihony
7

Serait-il correct de la partition RDD[DeviceData] en remplacement de la deviceData.hashCode() la méthode et utiliser uniquement le hashcode de la sorte?

Il ne serait pas. Si vous prenez à la Java Object.hashCode de la documentation que vous trouverez les informations suivantes sur les conditions générales du contrat de hashCode:

Si deux objets sont égaux selon la equals(Object) méthode, puis en appelant la méthode hashCode sur chacun des deux objets doit produire le même résultat sous forme d'entier.

Donc, à moins que la notion de l'égalité fondée uniquement sur une kind de l'appareil s'adapte à votre cas d'utilisation, et je doute sérieusement qu'il n', bricoler avec HashCode à désiré partitionnement est une mauvaise idée. Dans le cas général, vous devriez mettre en place votre propre programme de partitionnement mais ici, il n'est pas nécessaire.

Depuis, à l'exclusion spécialisé scénarios en SQL et GraphX, partitionBy est valable uniquement sur PairRDD il est logique de créer RDD[(String, DeviceData)] et l'utilisation de la plaine HashPartitioner
```
deviceDataRdd.map(dev => (dev.kind, dev)).partitionBy(new HashPartitioner(n))
```
Il suffit de garder à l'esprit que, dans une situation où kind a faible cardinalité ou très inégale répartition de l'utiliser pour le partitionnement peut être pas une solution optimale.
- Bon point. Les objets ne doivent pas être égale bc ils ont le même genre.
- Pas de. Il y a une erreur de logique ici ->"à moins que la notion d'égalité fondée uniquement sur un type d'appareil s'adapte à votre cas d'utilisation, et je doute sérieusement qu'il n', bricoler avec HashCode pour obtenir désiré partitionnement est une mauvaise idée" HashCode basée sur la Nature n'implique que l'Égalité est purement basée sur le Genre. Juste que, si 2 enregistrements sont Égaux, ils ont le même Genre, et c'est facilement satisfaite.
InformationsquelleAutor zero323

Vous devez vous connecter pour publier un commentaire.