T-SQL donne le pourcentage de caractère match de 2 cordes

Disons que j'ai un set de 2 mots:

Alexander et Alecsander OU Alexander et Alegzander

Alexander et Aleaxnder, ou toute autre combinaison. En général, nous parlons de l'homme d'erreur en tapant un mot ou un ensemble de mots.

Ce que je veux réaliser est d'obtenir le pourcentage de correspondance des caractères des 2 chaînes.

Voici ce que j'ai à ce jour:

    DECLARE @table1 TABLE
(
  nr INT
  , ch CHAR
)

DECLARE @table2 TABLE
(
  nr INT
  , ch CHAR
)


INSERT INTO @table1
SELECT nr,ch FROM  [dbo].[SplitStringIntoCharacters] ('WORD w') --> return a table of characters(spaces included)

INSERT INTO @table2
SELECT nr,ch FROM  [dbo].[SplitStringIntoCharacters] ('WORD 5')

DECLARE @resultsTable TABLE
( 
 ch1 CHAR
 , ch2 CHAR
)
INSERT INTO @resultsTable
SELECT DISTINCt t1.ch ch1, t2.ch ch2 FROM @table1 t1
FULL JOIN @table2 t2 ON  t1.ch = t2.ch  --> returns both matches and missmatches

SELECT * FROM @resultsTable
DECLARE @nrOfMathches INT, @nrOfMismatches INT, @nrOfRowsInResultsTable INT
SELECT  @nrOfMathches = COUNT(1) FROM  @resultsTable WHERE ch1 IS NOT NULL AND ch2 IS NOT NULL
SELECT @nrOfMismatches = COUNT(1) FROM  @resultsTable WHERE ch1 IS NULL OR ch2 IS NULL


SELECT @nrOfRowsInResultsTable = COUNT(1)  FROM @resultsTable


SELECT @nrOfMathches * 100 / @nrOfRowsInResultsTable

La SELECT * FROM @resultsTable sera de retour le suivant:

ch1         ch2
NULL        5
[blank]     [blank] 
D           D
O           O
R           R
W           W

Et quel est le problème avec elle? Que le code de travail est-elle correcte?
Qu'il n'est pas précise.

OriginalL'auteur Dragos Durlut | 2011-12-15

Ok, voici ma solution pour l'instant:

SELECT  [dbo].[GetPercentageOfTwoStringMatching]('valentin123456'  ,'valnetin123456')

retourne 86%

CREATE FUNCTION [dbo].[GetPercentageOfTwoStringMatching]
(
@string1 NVARCHAR(100)
,@string2 NVARCHAR(100)
)
RETURNS INT
AS
BEGIN
DECLARE @levenShteinNumber INT
DECLARE @string1Length INT = LEN(@string1)
, @string2Length INT = LEN(@string2)
DECLARE @maxLengthNumber INT = CASE WHEN @string1Length > @string2Length THEN @string1Length ELSE @string2Length END
SELECT @levenShteinNumber = [dbo].[LEVENSHTEIN] (   @string1  ,@string2)
DECLARE @percentageOfBadCharacters INT = @levenShteinNumber * 100 / @maxLengthNumber
DECLARE @percentageOfGoodCharacters INT = 100 - @percentageOfBadCharacters
-- Return the result of the function
RETURN @percentageOfGoodCharacters
END
-- =============================================     
-- Create date: 2011.12.14
-- Description: http://blog.sendreallybigfiles.com/2009/06/improved-t-sql-levenshtein-distance.html
-- =============================================
CREATE FUNCTION [dbo].[LEVENSHTEIN](@left  VARCHAR(100),
@right VARCHAR(100))
returns INT
AS
BEGIN
DECLARE @difference    INT,
@lenRight      INT,
@lenLeft       INT,
@leftIndex     INT,
@rightIndex    INT,
@left_char     CHAR(1),
@right_char    CHAR(1),
@compareLength INT
SET @lenLeft = LEN(@left)
SET @lenRight = LEN(@right)
SET @difference = 0
IF @lenLeft = 0
BEGIN
SET @difference = @lenRight
GOTO done
END
IF @lenRight = 0
BEGIN
SET @difference = @lenLeft
GOTO done
END
GOTO comparison
COMPARISON:
IF ( @lenLeft >= @lenRight )
SET @compareLength = @lenLeft
ELSE
SET @compareLength = @lenRight
SET @rightIndex = 1
SET @leftIndex = 1
WHILE @leftIndex <= @compareLength
BEGIN
SET @left_char = substring(@left, @leftIndex, 1)
SET @right_char = substring(@right, @rightIndex, 1)
IF @left_char <> @right_char
BEGIN -- Would an insertion make them re-align?
IF( @left_char = substring(@right, @rightIndex + 1, 1) )
SET @rightIndex = @rightIndex + 1
-- Would an deletion make them re-align?
ELSE IF( substring(@left, @leftIndex + 1, 1) = @right_char )
SET @leftIndex = @leftIndex + 1
SET @difference = @difference + 1
END
SET @leftIndex = @leftIndex + 1
SET @rightIndex = @rightIndex + 1
END
GOTO done
DONE:
RETURN @difference
END

si vous avez posté une question pour rien ^^
Non, je n'ai pas poster une question pour rien. J'ai posté une question, puis j'ai continué à chercher une solution à mon problème. J'ai trouvé quelque chose d'utilisation et je l'ai posté ici, donc peut-être que quelqu'un avec plus de connaissances que moi peut me dire si il y a une meilleure ou d'une manière plus précise à-vis de cela. Aussi, dans l'avenir peut-être quelqu'un va profiter de cette situation. J'ai eu d'autres situations similaires(stackoverflow.com/questions/3107514/...) où mes réponses ont aidé les autres.
+1 pour créditer la source de votre algorithme de Levenshtein dans les commentaires de code. Chic.
Eh bien, il a expliqué mieux que je le pouvais.
Cet algorithme est horrible. Il considère que les 2 chaînes en tant que "18%" similaire: "129 W MCKNIGHT FAÇON" <---> "SPD". Sérieusement? Il n'y a littéralement rien de semblable à propos de ces deux chaînes. L'adresse ne contient pas de "S", pas de "P", et non "D". Ils sont de longueurs différentes. Ils devraient être énumérés comme 0%.

OriginalL'auteur Dragos Durlut

8

En fin de compte, vous semblez être à la recherche à résoudre pour la probabilité que les deux chaînes sont un "flou" match l'un de l'autre.

SQL fournit efficace, optimisée des fonctions intégrées qui le fera pour vous, et probablement avec de meilleures performances que ce que vous avez écrit. Les deux fonctions sont SOUNDEX et DIFFÉRENCE.

Alors qu'aucun d'eux ne résout exactement ce que vous avez demandé - c'est à dire qu'ils ne renvoient pas à un pourcentage de concordance - je crois qu'ils résoudre ce que vous êtes en fin de compte cherche à atteindre.

SOUNDEX renvoie un 4-code de caractère qui est la première lettre du mot, plus un 3-numéro de code qui représente le motif sonore de la parole. Considérez les points suivants:
```
SELECT SOUNDEX('Alexander')
SELECT SOUNDEX('Alegzander')
SELECT SOUNDEX('Owleksanndurr')
SELECT SOUNDEX('Ulikkksonnnderrr')
SELECT SOUNDEX('Jones')
/* Results:
A425
A425
O425
U425
J520
*/
```
Ce que vous remarquerez est que le nombre à trois chiffres 425 est le même pour tous ceux qui à peu près le même son de cloche. Donc, vous pouvez facilement correspondre entre eux et de dire "Vous avez tapé 'Owleksanndurr', avez-vous peut-être dire 'Alexander'?"

En outre, il y a le DIFFERENCE fonction qui compare le SOUNDEX écart entre les deux cordes et donne un score.
```
SELECT DIFFERENCE(  'Alexander','Alexsander')
SELECT DIFFERENCE(  'Alexander','Owleksanndurr')
SELECT DIFFERENCE(  'Alexander', 'Jones')
SELECT DIFFERENCE(  'Alexander','ekdfgaskfalsdfkljasdfl;jl;asdj;a')
/* Results:
4
3
1
1     
*/
```
Comme vous pouvez le voir, plus le résultat est faible (entre 0 et 4), plus les cordes sont un match.

L'avantage de SOUNDEX sur DIFFERENCE est que si vous avez vraiment besoin de faire de fréquentes correspondance floue, vous pouvez stocker et indexer le SOUNDEX de données dans un document distinct (à plaquettes indexables) de la colonne, tandis que DIFFERENCE ne peut calculer que le SOUNDEX au moment de la comparaison.

+1 Merci. Je vais tenir compte de votre réponse. Par les regards de celui-ci, je ne peux que prendre en compte les résultats qui ont "1".
Une correspondance exacte sera de retour à zéro. Je ne peux pas montrer que, dans l'exemple, mais il est important de savoir si vous n'avez pas commencé à le faire OÙ la DIFFÉRENCE(...) = 1 et manque tous les matchs parfaits. 🙂
En fait, la valeur 0 indique une faible ou aucune similitude et 4 indique une forte similitude. msdn.microsoft.com/en-us/library/ms188753.aspx
Aussi la Différence et de la Soundex seulement calculer la différence du premier mot (SQL 2008 R2). Donc, pour une phrase, vous avez besoin de la distance de Levenshtein, en plus de certains de la logique floue avec des longueurs de chaîne. Je suis venu à la même conclusion que ci-dessus mais je me demandais si l'utilisation de la plus courte longueur de la chaîne, plus la longueur de la chaîne, ou de les ajouter et de les diviser par la différence.
Les résultats de la liste sont à l'envers. J'ai mis un edit suggestion.

OriginalL'auteur Jonathan Van Matre

Vous devez vous connecter pour publier un commentaire.