Flux de Données SSIS Comment faire pour Supprimer les Doublons, mais le Journal les Doublons dans SSIS

J'ai appris de Supprimer les doublons dans le Flux de Données SSIS comment utiliser la transformation de Tri pour supprimer les lignes en double dans des valeurs de données.

Dans mon cas, je suis en train de lire un fichier délimité, la nécessité d'éliminer les doublons, et connecter les lignes qui avait le double des clés de. J'ai besoin de la sortie de ces lignes à un autre fichier délimité, et l'envoyer par courrier électronique au client afin qu'ils puissent corriger les données et essayez à nouveau.

Je n'arrive pas à trouver comment faire cela, cependant. Je vais faire l'essai avec de l'Agrégat et de Jointure de Fusion, mais j'espère qu'il y a un modèle connu pour cela.

OriginalL'auteur John Saunders | 2012-09-06

6

Bonjour, ma réponse va travailler avec toutes les données, parce que certaines solutions internet besoin de la clé primaire de lignes, pour ma solution clé primaire n'est pas nécessaire.
Ici exemple de la structure et de l'échantillon de données:
```
a   b
1   23
1   23
16  59
12  12
13  45
12  12
45  56
```
Seulement par l'ensemble des colonnes et ajouter en dernier column - count tous (Si il y a plus de deux colonnes ou plus, vous avez juste besoin de la "somme" de l'élément de mettre toutes les colonnes et foreach ensemble du groupe par et à la fin mettre "Compter Tous" de la colonne):

Puis il suffit d'ajouter de fractionnement conditionnel élément et de prendre toutes les lignes où sont plus de 1 même ligne:

Exemple Réel:

Assez bon: +1. Mais que faire si les colonnes a et b sont les colonnes de clé, et je veux aussi que les colonnes C et D dans le résultat de Destination OLE DB?
BTW, souhaite que je pourrais +10 pour le détail dans la réponse
John Saunders IL N'a pas d'importance, si toutes les colonnes sont les clés ne sont pas et combien il y a de colonnes. Vous avez juste besoin de la "somme" de l'élément de mettre toutes les colonnes et foreach ensemble du groupe par et à la fin mettre "nombre de Tous" de la colonne. Cela va fonctionner.
Salut @Justin, quand vous dites "pour ma solution clé primaire n'est pas nécessaire", vous êtes exactement à parler de quoi? la clé primaire est plus un concept, je veux dire que dans ce cas, votre clé primaire est la colonne a et de b, donc je n'ai pas fini de l'attraper.
certaines solutions internet requis pirmary clé - une pièce d'identité colonne de la ligne.... dans ce cas, oui, c'est un concept

OriginalL'auteur Justin
2

Je aller à travers quelques options sur mon blog de supprimer les doublons à partir du flux de données, avec une petite note de bas de page ici sur la façon de "sauver" les lignes en double pour un autre traitement.

OriginalL'auteur Todd McDermid
0

Il pourrait être possible via un script.

Tout d'abord, vous utiliser un script pour itérer sur l'ensemble de données et d'identifier les doublons par programmation. Ensuite, vous pouvez écrire des entrées dans le fichier journal pour les dupes que vous trouvez.

OriginalL'auteur dev_etter

Vous devez vous connecter pour publier un commentaire.