algorithme pour la vérification des adresses pour les matchs?

Je suis en train de travailler sur un programme d'enquête où les gens seront de promotion des considérations la première fois qu'ils remplir un sondage. Dans beaucoup de scénarios, la seule façon que nous pouvons empêcher les gens de tricher le système et d'obtenir une promotion qu'ils ne méritent pas est de vérifier l'adresse de la rue chaînes de caractères les uns contre les autres.

J'ai été à la recherche à l'aide de levenshtein pour me donner un numéro à mesure de similarité, et de considérer ceux-dessous d'un certain seuil d'un duplicata.

Cependant, si quelqu'un était à la recherche de jeu, le système, ils pourraient facilement écrire "S 5th St" au lieu de "South Fifth Street", et de levenshtein examinera les chaînes de caractères très différents. Alors j'ai été pensée pour convertir toutes les cordes pour un "standard de l'adresse' c'est à dire dans le " Sud "devient " s", "Cinquième" devient "5ème", etc.

Alors je me disais que c'est sans espoir, et trop d'effort pour le faire fonctionner de manière fiable. S'agit-il?

Je travaille avec PHP/MySql, j'ai donc les limites inhérentes à ce système.

Si, à la place de "S. 5e Saint -" quelqu'un entre dans "S. 4e Saint"? Ce ne pouvait pas être utilisé de jeu, le système (en supposant que vous êtes d'envoi de la promotion des trucs), mais il pourrait disqualifier les gens pour vivre un pâté de plus. Juste un bord de cas de test.
ce scénario n'est pas un problème, car alors ils ne seraient pas recevoir leurs offres promotionnelles. Sauf s'ils sont de connivence avec les gens qui habitent cette maison d'adresse sur la 4e rue, mais il ya seulement donc beaucoup de ménages, ils peuvent conspirer avec. C'est l'auto-limitation, je pense 🙂
Non, je veux dire que si ces deux personnes légitimement inscrire indépendamment les uns des autres? Votre algorithme doit être assez intelligent pour voir la différence entre ces deux adresses, mais également assez intelligent qu'il voit l'origine des exemples que vous avez donné comme le même.
Tu veux dire, si quelqu'un a accidentellement donne une autre adresse? Ouais, c'est un problème, mais je ne vois pas comment le système pouvait l'aborder sans être ouverte à d'autres jeux ("Êtes-vous sûr que vous avez voulu dire, 4e rue? Nous en avons déjà un pour cette adresse. Soin d'essayer de nouveau?" )
Non, je voulais dire que si deux personnes vivant à de très similaire, mais différent des adresses de signer tous les deux, l'un d'entre eux risquent de ne pas obtenir leur prix.

OriginalL'auteur user151841 | 2010-05-20