SQL - supprimer les doublons d'une jointure gauche

Je suis de la création d'une joint la vue de deux tables, mais je suis arriver indésirables les doublons de table2.

Par exemple: table1 a plus de 9000 dossiers et j'ai besoin de l'avis résultant de contenir exactement les mêmes; table2 peut avoir plusieurs enregistrements avec le même FKID mais je ne veux retourner un enregistrement (aléatoire choisi est ok avec mon client). J'ai le code suivant qui fonctionne correctement, mais la performance est plus lent que prévu (plus de 14 secondes).

SELECT     
    OBJECTID
    , PKID
    ,(SELECT TOP (1) SUBDIVISIO
        FROM dbo.table2 AS t2
        WHERE (t1.PKID = t2.FKID)) AS ProjectName
    ,(SELECT TOP (1) ASBUILT1
        FROM dbo.table2 AS t2
        WHERE (t1.PKID = t2.FKID)) AS Asbuilt
FROM dbo.table1 AS t1

Est-il un moyen de faire quelque chose de similaire avec des jointures pour accélérer les performances?

Je suis à l'aide de SQL Server 2008 R2.

Je me suis rapproché avec le code suivant (~.5 secondes), mais Distinctes de " seulement de filtrer les enregistrements lorsque toutes les colonnes sont en double (plutôt que seulement la FKID).

SELECT
    t1.OBJECTID
    ,t1.PKID
    ,t2.ProjectName
    ,t2.Asbuilt
FROM dbo.table1 AS t1
    LEFT JOIN (SELECT
        DISTINCT FKID
        ,ProjectName
        ,Asbuilt
        FROM dbo.table2) t2
    ON t1.PKID = t2.FKID

exemples de table

table1          table2

OID, PKID       FKID, ProjectName, Asbuilt
1, id1          id1, P1, AB1
2, id2          id1, P5, AB5
3, id4          id2, P10, AB2
5, id5          id5, P4, AB4

Dans l'exemple ci-dessus enregistrements retournés doivent être id5/P4/AB4, id2/P10/AB2, et (id1/P1/AB1 OU id1/P5/AB5)

Ma recherche est venu avec des questions similaires, mais aucun qui a résolu mon problème. lien, lien

Merci d'avance pour votre aide. Ceci est mon premier post alors laissez-moi savoir si j'ai brisé toutes les règles.

Bienvenue sur StackOverflow. Quand vous postez une question, vous devez également inclure le moteur de base de données que vous utilisez. Si une réponse résout votre problème, alors vous devez les accepter la réponse. Vous pouvez également upvote autant de réponses que vous le souhaitez.

InformationsquelleAutor Rick Momsen | 2013-01-30

13

Cela vous donnera les résultats que vous avez demandé et devrait avoir les meilleures performances.
```
SELECT     
    OBJECTID
    , PKID
    , t2.SUBDIVISIO,
    , t2.ASBUILT1

FROM        dbo.table1 AS t1
OUTER APPLY (
    SELECT  TOP 1 *
    FROM    dbo.table2 AS t2
    WHERE   t1.PKID = t2.FKID
    ) AS t2
```
- cela fonctionne aussi! Je vais devoir chercher plus loin vers l'EXTÉRIEUR s'APPLIQUENT.
- Juste par curiosité, comment rapide est-il maintenant?
- C'est ma solution car elle systématiquement renvoie un enregistrement entier.
- 6891ms comparé avec 7581ms (mon sous-requête select). Je tiens à noter que j'ai pour exécuter ce à l'encontre d'une vue plutôt que de la table source. Votre requête est plus rapide que les autres (mentionnées plus haut) quand a couru à l'encontre de la vue ou de la source de la table; à l'exception de Gordon option2 avait peu de différence de performances entre la table ou de la vue
InformationsquelleAutor RBarryYoung
3

Votre requête initiale est de produire des valeurs arbitraires pour les deux colonnes (l'utilisation de top sans order by). Vous pouvez obtenir le même effet avec cette:
```
SELECT t1.OBJECTID, t1.PKID, t2.ProjectName, t2.Asbuilt
FROM dbo.table1 t1 LEFT JOIN
     (SELECT FKID, min(ProjectName) as ProjectName, MIN(asBuilt) as AsBuilt
      FROM dbo.table2
      group by fkid
     ) t2
    ON t1.PKID = t2.FKID
```
Cette version remplace la distinct avec un group by.

D'avoir une ligne au hasard dans SQL Server (votre syntaxe suggère que vous utilisez), essayez ceci:
```
SELECT t1.OBJECTID, t1.PKID, t2.ProjectName, t2.Asbuilt
FROM dbo.table1 t1 LEFT JOIN
     (SELECT FKID, ProjectName, AsBuilt,
             ROW_NUMBER() over (PARTITION by fkid order by newid()) as seqnum
      FROM dbo.table2
     ) t2
    ON t1.PKID = t2.FKID and t2.seqnum = 1
```
Cela suppose version 2005 ou plus.
- Merci Gordon! J'ai essayé option1, mais le groupe a gardé par défaut b/c les autres champs n'ont pas été agrégées. J'ai aussi essayé option2, mais ne pouvait pas le faire fonctionner. Je vais aller avec option1 en raison de la cohérence des résultats.
- Désolé, mais je dois décocher votre réponse. le "MIN" dans le sous sélectionnez en fait des mélanges de valeurs entre les enregistrements, et je préfère avoir un dossier complet retourné. De cette façon, le client ne peut pas se confondre sur le dossier qui doit être mis à jour. J'apprécie l'éducation!
- J'ai pensé qu'il serait utile de noter que votre option2 est beaucoup plus rapide que les autres requêtes lorsque couru sur une vue. (364ms vs 7581ms et 6891ms)
- Votre requête d'origine aussi des résultats mitigés, ce qui est pourquoi j'ai écrit ça (et j'ai essayé d'expliquer que, dans la première phrase). Je suis un peu surpris de voir que la deuxième version est plus rapide, mais les fonctions de la fenêtre sont hautement optimisé.
- Vous avez raison Gordon. Le souci de performances qui m'a arrêté avant que j'ai étudié les résultats et savait que ce serait un problème. Merci encore!
InformationsquelleAutor Gordon Linoff
1

Si vous voulez décrit conséquent, vous devez utiliser INNER JOIN et à la suite de la requête sauront satisfaire votre besoin:
```
SELECT
  t1.OID,
  t1.PKID,
  MAX(t2.ProjectName) AS ProjectName,
  MAX(t2.Asbuilt) AS Asbuilt
FROM table1 t1
JOIN table2 t2 ON t1.PKID = t2.FKID
GROUP BY
  t1.OID,
  t1.PKID
```
Si vous voulez voir toutes les lignes de la table de gauche (table1) si il a une paire dans le tableau de droite ou pas, puis utilisez LEFT JOIN et même requête vous a donné le résultat souhaité.

ÉDITÉ

Cette construction a de bonnes performances, et vous n'avez pas besoin d'utiliser des sous-requêtes.
- Cela fonctionne aussi, mais a le MIN/MAX des questions comme Gordon de l'Option 1 ci-dessus.
- Je suis d'accord, mais je suis en utilisant de simples JOINDRE au lieu de table dérivée.
InformationsquelleAutor veljasije

Vous devez vous connecter pour publier un commentaire.