Pouvez-vous diviser un flux de données en deux volets?

J'ai un ensemble de données représentée par un Java 8 stream:

Stream<T> stream = ...;

Je peux voir comment filtrer pour obtenir un sous-ensemble aléatoire - par exemple

Random r = new Random();
PrimitiveIterator.OfInt coin = r.ints(0, 2).iterator();   
Stream<T> heads = stream.filter((x) -> (coin.nextInt() == 0));

Je peux aussi voir comment je pourrais réduire ce flux pour obtenir, par exemple, deux listes représentant les deux aléatoire moitiés de l'ensemble de données, puis activez-les dans le cours d'eau.
Mais, est-il un moyen direct pour générer deux flux à partir de la première? Quelque chose comme

(heads, tails) = stream.[some kind of split based on filter]

Merci pour toute la perspicacité.

InformationsquelleAutor user1148758 | 2013-11-12

12

Pas exactement. Vous ne pouvez pas obtenir deux Streams à l'extérieur de celle-ci; ce n'est pas logique -- comment voulez-vous effectuer une itération sur un sans avoir besoin de générer de l'autre en même temps? Un flux peut uniquement être exploité à la fois.

Cependant, si vous souhaitez vider dans une liste ou quelque chose, vous pourriez faire
```
stream.forEach((x) -> ((x == 0) ? heads : tails).add(x));
```
- Pourquoi n'est-il pas de sens? Depuis un flux est un pipeline, il n'y a aucune raison qu'il ne pouvait pas créer deux producteurs du flux original, j'ai pu voir cette gérée par un collectionneur qui fournit des deux ruisseaux.
- Pas thread-safe. De mauvais conseils, essayez d'ajouter directement une collection, c'est pourquoi nous avons le stream.collect(...) pour prédéfinis thread-safe Collectors, qui fonctionnent bien, même sur les non thread-safe Collections (sans synchronisé conflit de verrouillage). Meilleure réponse par @MarkJeronimus.
- Il n'est pas thread-safe si les têtes et les queues sont thread-safe. En outre, en supposant l'utilisation de la non-courants parallèles, que l'ordre n'est pas garantie, de sorte qu'ils sont thread-safe. C'est au programmeur pour résoudre des problèmes de concurrence, de sorte que cette réponse est parfaitement adapté si les collections sont thread-safe.
- il n'est pas adapté à la présence d'une meilleure solution, que nous avons ici. Avoir un tel code peut conduire à un mauvais précédent, causant d'autres de l'utiliser dans un mauvais sens. Même si aucun flux parallèles sont utilisés, il est seulement une étape. Bonnes pratiques de codage nous obligent pas à maintenir l'état pendant les flux d'opérations. La prochaine chose à faire est de codage dans un cadre comme Apache spark, et même les pratiques de vraiment conduire à des résultats inattendus. C'était une solution créative, je donne, je pourrait l'avoir écrit moi-même n'y a pas longtemps.
- Aussi, Louis, c'est une bonne documentation. Je préfère que cela n'est pas supprimé. Cela pourrait aussi aider quelqu'un d'une manière différente, ou que quelqu'un pourrait trouver mon observation à l'erreur, ce qui ne serait pas la première fois.
- Ce n'est pas une meilleure solution, c'est dans les faits plus inefficace.Cette ligne de pensée termine finalement à la conclusion que toutes les Collections doivent être thread-safe par défaut pour éviter des conséquences imprévues, ce qui est tout simplement faux.
- thread-safe de l'utilisation d'une collection n'implique pas que les collections doivent être thread-safe. Plutôt que de suivre un mécanisme de verrouillage en utilisant des méthodes synchronisées, vous évitez la conservation de l'état dans les threads ou de l'introduction de effets secondaires. Ce sujet a été minutieusement examiné ici.
- vous devriez être en mesure de modifier votre réponse avec la mise à jour pour indiquer les améliorations que vous souhaitez faire plus tard.
InformationsquelleAutor Louis Wasserman
268

Un collecteur peut être utilisé pour cela.
- Pour les deux catégories, l'utilisation Collectors.partitioningBy() usine.
Cela va créer une Map de Boolean à List, et de mettre des articles dans l'une ou l'autre liste basée sur un Predicate.

Remarque: Depuis le flux doit être consommé entier, cela ne peut pas travailler sur les flux infinis. Parce que le flux est consommé de toute façon, cette méthode met tout simplement dans les Listes au lieu de faire un nouveau flux de données avec la mémoire.

Aussi, pas besoin de l'itérateur, pas même dans les chefs-seul exemple que vous avez fournis.
```
Random r = new Random();

Map<Boolean, List<String>> groups = stream
    .collect(Collectors.partitioningBy(x -> r.nextBoolean()));

System.out.println(groups.get(false).size());
System.out.println(groups.get(true).size());
```
- Pour plus de catégories, utilisez un Collectors.groupingBy() usine.
```
Map<Object, List<String>> groups = stream
    .collect(Collectors.groupingBy(x -> r.nextInt(3)));
System.out.println(groups.get(0).size());
System.out.println(groups.get(1).size());
System.out.println(groups.get(2).size());
```
Dans le cas où les flux ne sont Stream, mais l'une des primitives des cours d'eau,IntStream, alors ce .collect(Collectors) méthode n'est pas disponible. Vous aurez à le faire de la manière manuelle sans un collecteur d'usine. C'est la mise en œuvre ressemble à ceci:
```
IntStream intStream = IntStream.iterate(0, i -> i + 1).limit(1000000);

Predicate<Integer> p = x -> r.nextBoolean();
Map<Boolean, List<Integer>> groups = intStream.collect(() -> {
    Map<Boolean, List<Integer>> map = new HashMap<>();
    map.put(false, new ArrayList<>());
    map.put(true, new ArrayList<>());
    return map;
}, (map, x) -> {
    boolean partition = p.test(x);
    List<Integer> list = map.get(partition);
    list.add(x);
}, (map1, map2) -> {
    map1.get(false).addAll(map2.get(false));
    map1.get(true).addAll(map2.get(true));
});

System.out.println(groups.get(false).size());
System.out.println(groups.get(true).size());
```
Modifier

Comme l'a fait remarquer, au dessus de "solution" n'est pas thread-safe. La conversion à une vie normale Stream avant la collecte est le chemin à parcourir:
```
Stream<Integer> stream = intStream.boxed();
```
- Belle. Cependant, la dernière solution pour IntStream ne sera pas thread-safe dans le cas d'un parallélisée de flux. La solution est beaucoup plus simple que vous pensez que c'est ... stream.boxed().collect(...);! Il va faire comme annoncé: convertir la primitive IntStream à la boîte Stream<Integer> version.
- Ce doit être la accepté de répondre comme il répond directement à l'OP question.
- Je souhaite Débordement de Pile permettrait à la communauté de remplacer la réponse sélectionnée si un meilleur soit trouvé.
- Je ne suis pas sûr que cela répond à la question. La question des demandes de fractionnement d'un ruisseau dans les cours d'eau - et non pas des Listes.
- Comme je l'ai dit au début, vous obtenez deux nouvelles listes. Il est facile d'extrapoler et d'obtenir deux cours d'eau à partir de ces listes.
- En Python, vous obtenez itertools.tee(), qui, un peu comme un carrefour en T, dans un pipeline, divise le flux de séquence. La magie, c'est que tous les éléments consommés par un flux et non les autres sont mis en cache dans un tampon. Cela signifie que, si un flux consomme tout avant les autres flux consomme, vous pourriez aussi bien vider le tout dans un récipient. Mais si ils avancent plus-moins en parallèle, puis, petit état est conservé dans la mémoire. Cela dit, je soupçonne le filetage des implications de l'empêchent d'être mis en œuvre en Java.
InformationsquelleAutor Mark Jeronimus
20

Malheureusement, ce que vous demandez est directement désapprouvées dans la JavaDoc de Flux:

Un flux doit être opéré (invocation d'un intermédiaire ou d'un terminal
flux d'exploitation) qu'une seule fois. Cela exclut, par exemple, "en fourche"
les ruisseaux, où la même source alimente deux ou plus de deux pipelines, ou
plusieurs traversals de la même catégorie.

Vous pouvez contourner cela en utilisant peek ou d'autres méthodes si vous désirez vraiment, ce type de comportement. Dans ce cas, ce que vous devez faire, c'est plutôt d'essayer de prendre deux cours d'eau à partir de la même Flux d'origine de la source avec un fork de filtre, vous dupliquez votre flux et le filtre de chacun des doublons de manière appropriée.

Cependant, vous pouvez vouloir reconsidérer si un Stream est la structure appropriée à votre cas d'utilisation.
- La javadoc formulation n'exclut pas de partitionnement en plusieurs flux, aussi longtemps comme un seul flux élément ne va dans un de ces
- Je ne suis pas sûr de la duplication d'un flux élément est le principal obstacle à une fourche de flux. Le principal problème est que la bifurcation de l'opération est essentiellement une exploitation du terminal, de sorte que lorsque vous décidez de fourche vous sont fondamentalement de la création d'une collection de quelque sorte. E. g. Je peux écrire une méthode List<Stream> forkStream(Stream s) mais mon conséquence, les flux seront, au moins partiellement, être soutenus par des collections, et non pas directement par le flux sous-jacent, par opposition à-dire filter qui n'est pas un terminal de flux de l'opération.
- C'est l'une des raisons pour lesquelles je pense que le langage Java, les ruisseaux sont un peu bâclée par rapport à github.com/ReactiveX/RxJava/wiki parce que le point de flux consiste à appliquer des opérations sur un ensemble potentiellement infini d'éléments du monde réel et des opérations souvent besoin de la scission, de la duplication et de la fusion de flux.
InformationsquelleAutor Trevor Freeman

Je suis tombé sur cette question à mon auto et j'ai l'impression que fourchue flux a certains cas d'utilisation, qui pourrait s'avérer valide. J'ai écrit le code ci-dessous en tant que consommateur, de sorte qu'il ne fait rien mais on pourrait l'appliquer à des fonctions et à rien d'autre, vous pourriez trouver.

class PredicateSplitterConsumer<T> implements Consumer<T>
{
  private Predicate<T> predicate;
  private Consumer<T>  positiveConsumer;
  private Consumer<T>  negativeConsumer;

  public PredicateSplitterConsumer(Predicate<T> predicate, Consumer<T> positive, Consumer<T> negative)
  {
    this.predicate = predicate;
    this.positiveConsumer = positive;
    this.negativeConsumer = negative;
  }

  @Override
  public void accept(T t)
  {
    if (predicate.test(t))
    {
      positiveConsumer.accept(t);
    }
    else
    {
      negativeConsumer.accept(t);
    }
  }
}

Maintenant votre code de mise en œuvre pourrait être quelque chose comme ceci:

personsArray.forEach(
        new PredicateSplitterConsumer<>(
            person -> person.getDateOfBirth().isPresent(),
            person -> System.out.println(person.getName()),
            person -> System.out.println(person.getName() + " does not have Date of birth")));

InformationsquelleAutor Ludger

8

C'est contre le mécanisme général de Flux. Dire que vous pouvez diviser les Flux de S0 à Sa et Sb comme tu le voulais. L'exécution de toute exploitation du terminal, dire count(), sur Sa va nécessairement de "consommer" de tous les éléments dans S0. Par conséquent Sb perdu sa source de données.

Précédemment, le Flux a une tee() méthode, je pense, qui double un flux à deux. Il est retiré maintenant.

Stream peek() la méthode, vous pourriez être en mesure de l'utiliser pour atteindre vos exigences.
- peek est exactement ce que l'habitude d'être tee.
InformationsquelleAutor ZhongYu
5

pas exactement, mais vous pouvez être en mesure d'accomplir ce que vous avez besoin en invoquant Collectors.groupingBy(). vous créez une nouvelle Collection, et peut ensuite instancier streams sur cette nouvelle collection.

InformationsquelleAutor aepurniet

C'était la moins mauvaise réponse que je pouvais venir.

import org.apache.commons.lang3.tuple.ImmutablePair;
import org.apache.commons.lang3.tuple.Pair;
public class Test {
public static <T, L, R> Pair<L, R> splitStream(Stream<T> inputStream, Predicate<T> predicate,
Function<Stream<T>, L> trueStreamProcessor, Function<Stream<T>, R> falseStreamProcessor) {
Map<Boolean, List<T>> partitioned = inputStream.collect(Collectors.partitioningBy(predicate));
L trueResult = trueStreamProcessor.apply(partitioned.get(Boolean.TRUE).stream());
R falseResult = falseStreamProcessor.apply(partitioned.get(Boolean.FALSE).stream());
return new ImmutablePair<L, R>(trueResult, falseResult);
}
public static void main(String[] args) {
Stream<Integer> stream = Stream.iterate(0, n -> n + 1).limit(10);
Pair<List<Integer>, String> results = splitStream(stream,
n -> n > 5,
s -> s.filter(n -> n % 2 == 0).collect(Collectors.toList()),
s -> s.map(n -> n.toString()).collect(Collectors.joining("|")));
System.out.println(results);
}
}

Cela prend un flux de nombres entiers et les sépare à 5. Pour ceux de plus de 5 filtrer uniquement les numéros et les met dans une liste. Pour le reste, il se joint à eux avec |.

sorties:

 ([6, 8],0|1|2|3|4|5)

Ses pas idéal, car il rassemble tout dans l'intermédiaire des collections de la rupture du flux (et a trop d'arguments!)

InformationsquelleAutor Ian Jones

Je suis tombé sur cette question tout en cherchant un moyen de filtrer certains éléments d'un flux de données et les enregistre comme des erreurs. Je n'ai donc pas vraiment besoin de diviser le flux de façon plus joindre un prématuré de résiliation de l'action d'un prédicat avec discrète de la syntaxe. C'est ce que je suis venu avec:

public class MyProcess {
/* Return a Predicate that performs a bail-out action on non-matching items. */
private static <T> Predicate<T> withAltAction(Predicate<T> pred, Consumer<T> altAction) {
return x -> {
if (pred.test(x)) {
return true;
}
altAction.accept(x);
return false;
};
/* Example usage in non-trivial pipeline */
public void processItems(Stream<Item> stream) {
stream.filter(Objects::nonNull)
.peek(this::logItem)
.map(Item::getSubItems)
.filter(withAltAction(SubItem::isValid,
i -> logError(i, "Invalid")))
.peek(this::logSubItem)
.filter(withAltAction(i -> i.size() > 10,
i -> logError(i, "Too large")))
.map(SubItem::toDisplayItem)
.forEach(this::display);
}
}

InformationsquelleAutor Sebastian Hans

-2

Comment sur:

Supplier<Stream<Integer>> randomIntsStreamSupplier =
() -> (new Random()).ints(0, 2).boxed();
Stream<Integer> tails =
randomIntsStreamSupplier.get().filter(x->x.equals(0));
Stream<Integer> heads =
randomIntsStreamSupplier.get().filter(x->x.equals(1));

Depuis le fournisseur est appelé deux fois, vous obtiendrez deux collection aléatoire. Je pense que c'est l'OP de l'esprit de diviser la cote de la evens dans le même séquence produite

InformationsquelleAutor Matthew

Vous devez vous connecter pour publier un commentaire.