Trouver les anagrammes d'un mot donné

Deux mots sont des anagrammes si l'un d'eux a exactement les mêmes caractères que celle d'un autre mot.

Exemple : Anagram & Nagaram sont des anagrammes (insensible à la casse).

Maintenant il ya beaucoup de questions similaires à ce . Un couple d'approches pour trouver si les deux chaînes sont des anagrammes sont :

1) Sort les cordes et de les comparer.

2) Créer un frequency map de ces chaînes et de vérifier si elles sont identiques ou non.

Mais dans ce cas , nous sont données avec un mot (par souci de simplicité, nous supposons un seul mot seulement, et il sera seul mot anagrammes seulement) et nous avons besoin de trouver les anagrammes pour que.

Solution que j'ai à l'esprit est que , nous pouvons générer toutes les permutations de la parole et de vérifier lequel de ces mots existe pas dans le dictionnaire . Mais clairement , c'est très inefficace. Oui , le dictionnaire est aussi disponible.

Donc quelles alternatives avons-nous ici ?

J'ai aussi lu dans un même thread que quelque chose peut être fait en utilisant Tries mais la personne n'a pas expliqué à ce que l'algorithme était et pourquoi nous utilisons un Trie dans la première place , juste une mise en œuvre a été fourni que de trop en Python ou Ruby. Donc ce n'était pas vraiment utile, c'est pourquoi j'ai créé ce fil. Si quelqu'un veut partager leur mise en œuvre (autre que C,C++ ou Java), puis de bien vouloir l'expliquer aussi.

Quelque chose pour vous aider à la recherche d'une réponse: stackoverflow.com/questions/7896694/... Fondamentalement, ce que vous pouvez faire est d'avoir de fonction de hachage qui rapporte la même valeur pour les anagrammes, et ensuite de les convertir votre dictionnaire à une structure qui permet de récupérer la liste des mots tels hachage.
Que voulez-vous vraiment faire ? Trouver tous les anagrammes qui existe dans un dictionnaire à partir d'un ensemble donné de lettres ? Ou de construire une anagramme rapport sur tous les mots dans un dictionnaire, c'est à dire étant donné un mot dans le dictionnaire, récupérer de manière efficace tous les valides anagrammes ?
Étant donné un dictionnaire avec un ensemble fixe de mots , et un mot au hasard (ou peut-être pas dans le dictionnaire) , trouver ses anagrammes (qui sont présents dans le dictionnaire). Du sens?

InformationsquelleAutor h4ck3d | 2012-09-18

72

Exemple d'algorithme:
```
Open dictionary
Create empty hashmap H
For each word in dictionary:
  Create a key that is the word's letters sorted alphabetically (and forced to one case)
  Add the word to the list of words accessed by the hash key in H
```
Pour vérifier tous les anagrammes d'un mot donné:
```
Create a key that is the letters of the word, sorted (and forced to one case)
Look up that key in H
You now have a list of all anagrams
```
Relativement rapide à construire, hyper rapide sur look-up.
- le tri par ordre alphabétique des mots pour produire la clé est une bonne idée. Bien que prudent après la recherche, vous avez encore le besoin d'éliminer les éventuels faux positifs. Tout simplement parce que les deux mots ont le même hash, il ne signifie pas qu'ils sont nécessairement égaux (même si c'est très probable en commun des langues). Laisse encore un peu de place pour l'erreur.
- Je serais heureux si vous pouvez trouver deux mots qui ont le même triée séquence de lettres qui ne sont pas des anagrammes les uns des autres (veuillez noter que nous ne sommes pas l'abandon de toute lettres, la clé de "la banane" serait "aaabnn" et un autre mot avec exactement ce que la clé serait, par nécessité, être un anagramme de "banane").
- Je ne parle pas de la triée séquence de lettres, je parlais de son numérique de hachage (qui est ce que la table de hachage sera effectivement utiliser comme une clé). Mais je suppose que cela dépend de la langue que vous utilisez, la table de hachage de la mise en œuvre permettra de faire face avec la clé de collision.
- Ah, oui, un type hashmap mise en œuvre doit permettre de distinguer deux clés différentes avec le même hash avant de vous donner le résultat.
- Où nous avons utilisé la TRIE ds ici ?
- à tous, je ne vois pas que l'utilisation d'un trie est la meilleure solution.
- Vraiment très rapide en python à l'aide de ce style de l'algorithme reddit.com/r/answers/comments/13o511/...
- Au lieu de "Relativement rapide à construire, hyper rapide sur look-up", un moyen standard pour exprimer la complexité (par exemple O(n), O(log(n)) etc) aurait été mieux.
- semble être O(w n log(w)) à construire et à O(w log(w)) sur la recherche, en moyenne, où w est la moyenne de la longueur des mots dans le dictionnaire et n est le dictionnaire de la longueur.
InformationsquelleAutor Vatine
17

Je suis venu avec une nouvelle solution je pense. Il utilise le Théorème Fondamental de l'Arithmétique. L'idée est donc d'utiliser un tableau de 26 premiers nombres premiers. Ensuite, pour chaque lettre dans le mot d'entrée nous obtenons le correspondant de nombre premier A = 2, B = 3, C = 5, D = 7 ... et puis nous calculons le produit de notre mot d'entrée. Ensuite, nous faisons cela pour chaque mot dans le dictionnaire, et si un mot correspond à notre mot d'entrée, puis on l'ajoute à la liste des résultats. Tous les anagrammes possèdent la même signature, car

Tout entier plus grand que 1 est un nombre premier, ou peut être écrit
comme un produit de nombres premiers (sans tenir compte de l'ordre).

Voici le code. - Je convertir le mot en MAJUSCULES et 65 ans est la position de l'Un qui correspond à mon premier nombre premier:
```
private int[] PRIMES = new int[] { 2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31,
        37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101, 103,
        107, 109, 113 };
```
C'est la méthode:
```
 private long calculateProduct(char[] letters) {
    long result = 1L;
    for (char c : letters) {
        if (c < 65) {
            return -1;
        }
        int pos = c - 65;
        result *= PRIMES[pos];
    }
    return result;
}
```
- Il s'agit essentiellement d'une autre façon de créer une clé unique pour tous les mots sont des anagrammes de chaque d'autres, c'est à dire qui ont les mêmes lettres. C'est une belle idée, mais la plus évidente de l'approche consiste à trier les lettres dans l'ordre alphabétique (ou ce que vous voulez, tant que c'est cohérent). E. g. la clé pour l'ordre alphabétique est aaabcehilllpty. Je me demande cependant si vous êtes l'approche serait de produire un plus compact de la clé, et aurait donc le potentiel d'être plus efficaces de calcul.
- le vôtre est aussi une bonne idée, en effet. Le tri est un peu plus cher que la multiplication.
- Sorting is a bit more expensive than multiplication bon point. Dans ce cas, je crois que je préfère votre approche à l'aide de nombres premiers. Je vais chercher plus loin.
- J'ai utilisé cette méthode
- utilisé avant ou après la lecture de ma réponse 🙂 ?
- Avant de. J'ai été très déçu quand j'ai vu que quelqu'un y a pensé avant moi lol. Une expérience serait (que je n'ai pas essayé) pour essayer vraiment long termes pour voir si le produit peut être stocké un long int. Exemple Pneumonoultramicroscopicsilicovolcanoconiosis .
- Pendant de longues chaînes, on ne peut pas avoir un type de données à stocker un grand multiplication. Donc, peut-être pas le plus solide de la solution, mais mieux que le tri si nous savons que les chaînes de caractères ne sera pas très long.
- ceci est prévu pour des mots. Java est long peut soutenir à long valeurs pour les mots jusqu'à 40 caractères. Sinon, BigInteger pourrait être utilisé.
- le Tri est un peu plus cher que la multiplication. Mais on peut supposer que le dictionnaire est lu en une fois, les personnages de mots triés et stockés comme une liste en vertu de la "triés anagramme de" la clé (et la "liste des anagrammes" enregistré de manière permanente dans une forme utile). Puis les mots sous l'une des clés sont des anagrammes. Tout mot d'entrée est rapidement "haché" triées anagramme clé, et vérifié connues anagrammes. Recherche de nombres premiers par ord(chr) ou similaire va être au moins aussi longue que triées caractères dans les mots. Personne n'a le temps de ce dans n'importe quelle langue?
- la préparation des données est un algorithme différent, par conséquent, vous ne peut pas le considérer comme l'un algorithme
InformationsquelleAutor ACV
2

Nous savons que si les deux mots n'ont pas la même longueur, ils ne sont pas des anagrammes. De sorte que vous pouvez partitionner votre dictionnaire dans les groupes de mots de même longueur.

Maintenant nous concentrer sur un seul de ces groupes et, fondamentalement, tous les mots ont exactement la même longueur dans ce petit univers.

Si chaque lettre de position est une dimension, et la valeur de cette dimension est basée sur la lettre (dire le code ASCII). Ensuite, vous pouvez calculer la longueur du vecteur de mot.

Par exemple, dire 'A'=65, B=66, puis length("AB") = sqrt(65*65 + 66*66). Évidemment, length("AB") = length("BA").

Clairement, si deux mots sont des anagrammes, puis leurs vecteurs ont la même longueur. La prochaine question est de savoir si deux mots (de même nombre de lettres) de vecteurs ont la même longueur, sont-ils des anagrammes? Intuitivement, je dirais que non, puisque tous les vecteurs de cette longueur, forme une sphère, il y a beaucoup de. Pas sûr, puisque nous sommes dans l'entier de l'espace dans ce cas, combien il y en a en réalité.

Mais à tout le moins, il permet de partitionner votre dictionnaire encore plus loin. Pour chaque mot dans votre dictionnaire, calculer le vecteur de distance:
for(each letter c) { distance += c*c }; distance = sqrt(distance);

Puis créer une carte pour tous les mots de longueur n, et avec la distance et la valeur est une liste de mots de longueur n que le rendement de cette distance.

Vous allez créer une carte pour chaque distance.

Alors votre recherche devient l'algorithme suivant:
1. Utiliser le bon dictionnaire de la carte basée sur la longueur du mot
2. Calculer la longueur de votre mot de vecteur
3. De recherche de la liste de mots qui correspond à cette longueur
4. Parcourir la liste et choisir les anagrammes à l'aide d'un algorithme naïf est maintenant la liste des candidats est considérablement réduit
- C'est plus comme une approche heuristique?
InformationsquelleAutor mprivat
1

Bien Essaie de le rendre plus facile à vérifier si le mot existe.
Donc, si vous placez l'ensemble de dictionnaire dans un trie:

http://en.wikipedia.org/wiki/Trie

ensuite vous pourrez par la suite prendre la parole et faire simple retour en arrière en prenant un char et de façon récursive de vérifier si l'on peut "marcher" en bas de la Trie avec tout combiniation du reste de la station (ajout d'un char à un moment). Lorsque tous les caractères sont utilisés dans une récursivité de la branche et il y avait un chemin d'accès valide dans la Trie, puis le mot existe.

La Trie aide parce que son une belle condition d'arrêt:
Nous pouvons vérifier si la partie de la chaîne, de l'e.g "Anag" est un chemin d'accès valide dans la trie, si l'on peut briser particulier la récursivité de la branche. Cela signifie que nous n'avons pas de vérifier chaque permutation des caractères.

En pseudo-code
```
checkAllChars(currentPositionInTrie, currentlyUsedChars, restOfWord)
    if (restOfWord == 0)
    {
         AddWord(currentlyUsedChar)
    }
    else 
    {
        foreach (char in restOfWord)
        {
            nextPositionInTrie = Trie.Walk(currentPositionInTrie, char)
            if (nextPositionInTrie != Positions.NOT_POSSIBLE)
            {
                checkAllChars(nextPositionInTrie, currentlyUsedChars.With(char), restOfWord.Without(char))
            }
        }   
    }
```
Évidemment vous avez besoin d'une belle Trie discbased qui vous permet de progressivement à "marcher" en bas de l'arbre et de vérifier à chaque nœud si il y a un chemin avec le char à tout nœud suivant...
- Pourriez-vous nous donner un exemple? Pas vraiment clair à partir de votre description.
InformationsquelleAutor Daniel

static void Main(string[] args)
{

    string str1 = "Tom Marvolo Riddle";
    string str2 = "I am Lord Voldemort";

    str2=  str2.Replace(" ", string.Empty);
    str1 = str1.Replace(" ", string.Empty);
    if (str1.Length != str2.Length)
        Console.WriteLine("Strings are not anagram");
    else
    {
        str1 = str1.ToUpper();
        str2 = str2.ToUpper();
        int countStr1 = 0;
        int countStr2 = 0;
        for (int i = 0; i < str1.Length; i++)
        {
            countStr1 += str1[i];
            countStr2 += str2[i];

        }
        if(countStr2!=countStr1)
            Console.WriteLine("Strings are not anagram");
        else Console.WriteLine("Strings are  anagram");

    }
    Console.Read();
}

Pouvez-vous revenir sur votre réponse et de décrire la façon dont il résout la question, et mentionner également ce qu'il propose en plus de la déjà existant réponses?

InformationsquelleAutor KrtkNyk

1
- Réduire les mots à dire - les minuscules (clojure.string/lower-case).
- Les classer (group-by) par lettre de la fréquence de la carte (frequencies).
- Baisse de la fréquence des cartes,
- ... laissant les collections des anagrammes.
(These) sont les fonctions correspondantes dans le dialecte de Lisp Clojure.

L'ensemble de la fonction peut être exprimée ainsi:
```
(defn anagrams [dict]
  (->> dict
       (map clojure.string/lower-case)
       (group-by frequencies)
       vals))
```
Par exemple,
```
(anagrams ["Salt" "last" "one" "eon" "plod"])
;(["salt" "last"] ["one" "eon"] ["plod"])
```
Une fonction d'indexation qui fait correspondre chaque chose à sa collection est
```
(defn index [xss]
  (into {} (for [xs xss, x xs] [x xs])))
```
De sorte que, par exemple,
```
((comp index anagrams) ["Salt" "last" "one" "eon" "plod"])
;{"salt" ["salt" "last"], "last" ["salt" "last"], "one" ["one" "eon"], "eon" ["one" "eon"], "plod" ["plod"]}
```
... où comp est la fonctionnelle de la composition de l'opérateur.

InformationsquelleAutor Thumbnail
0

Générer toutes les permutations est facile, je suppose que vous êtes inquiet à ce que la vérification de leur existence dans le dictionnaire est "hautement inefficace" partie. Mais cela dépend en réalité de ce que la structure de données que vous utilisez pour le dictionnaire: bien sûr, une liste de mots serait inefficace pour votre cas d'utilisation. En parlant de Essaie, ce serait probablement une représentation idéale, et assez efficace, aussi.

Une autre possibilité serait de faire quelques pré-traitement dans votre dictionnaire, par exemple, construire une table de hachage dont les clés sont les mots en lettres triées, et les valeurs sont des listes de mots. Vous pouvez même sérialiser cette table de hachage de sorte que vous pouvez l'écrire dans un fichier et de le recharger rapidement plus tard. Alors pour chercher des anagrammes, il vous suffit de trier votre mot donné et recherchez l'entrée correspondante dans la table de hachage.
- Générer les permutations lui-même est O(n!) et très inefficace.
- O(n!) n'est rien compte tenu de la longueur moyenne des mots.
- Même un enfant de 10 longueur de mot serait comme O(3628800)
InformationsquelleAutor Artyom
0

Qui dépend de la façon dont vous stockez votre dictionnaire. Si c'est un simple tableau de mots, pas d'algorithme sera plus rapide que linéaire.

Si elle est triée, puis ici, c'est une approche qui peut fonctionner. Je l'ai inventé tout à l'heure, mais je suppose que c'est plus rapide que l'approche linéaire.
1. Désigner votre dictionnaire D, préfixe courant que les S. S = 0;
2. Vous créez de la fréquence de la carte pour votre mot. Permet de dénoter par F.
3. À l'aide de binaires de recherche, de trouver des pointeurs de début de chaque lettre dans le dictionnaire. Permet de désigner ce tableau de pointeurs par P.
4. Pour chaque char c de A à Z, si F[c] == 0, l'ignorer, d'autre
  - S += c;
  - F[c] --;
  - P <- pour chaque personnage, je P[i] = pointeur sur premier mot commençant par S+i.
  - Récursive appelez l'étape 4 jusqu'à ce que vous trouver une correspondance pour votre mot ou jusqu'à ce que vous trouver qu'une telle correspondance.
C'est comment j'allais le faire, de toute façon. Il devrait y avoir une approche plus conventionnelle, mais c'est plus rapide, puis linéaire.
- Stocker le dictionnaire comme un TRIE.
InformationsquelleAutor Saage

essayé de mettre en œuvre la table de hachage solution

public class Dictionary {

    public static void main(String[] args){

    String[] Dictionary=new String[]{"dog","god","tool","loot","rose","sore"};

    HashMap<String,String> h=new HashMap<String, String>();

    QuickSort q=new QuickSort();

    for(int i=0;i<Dictionary.length;i++){

        String temp =new String();

        temp= q.quickSort(Dictionary[i]);//sorted word e.g dgo for dog

        if(!h.containsKey(temp)){
           h.put(temp,Dictionary[i]);
        }

        else
        {
           String s=h.get(temp);
           h.put(temp,s + " , "+ Dictionary[i]);
        }
    }

    String word=new String(){"tolo"};

    String sortedword = q.quickSort(word);

    if(h.containsKey(sortedword.toLowerCase())){ //used lowercase to make the words case sensitive

        System.out.println("anagrams from Dictionary   :  " + h.get(sortedword.toLowerCase()));
    }

}

InformationsquelleAutor megha

0
- Calculer la fréquence de comptage vecteur pour chaque mot dans le dictionnaire, un vecteur de longueur de l'alphabet liste.
- générer un vecteur aléatoire Gaussien de la longueur de l'alphabet liste
- projet de chaque mot du dictionnaire du comte de vecteur dans cette direction au hasard et de stocker la valeur de (insérez tels que le tableau de valeurs est triée).
- Donné un nouveau test de la parole, du projet dans la même direction au hasard utilisé pour les mots du dictionnaire.
- Faire un binaire de recherche pour trouver la liste des mots que la carte de la même valeur.
- Vérifier si chaque mot obtenu comme ci-dessus est en effet un vrai anagramme. Si pas, le retirer de la liste.
- Revenir le reste des éléments de la liste.
PS: La procédure ci-dessus est une généralisation du premier numéro de procédure qui peuvent potentiellement conduire à un grand nombre (et donc de calcul de la précision des questions)

InformationsquelleAutor Vedarun
-3

Une solution est -
Carte des nombres premiers de lettres de l'alphabet et de multiplier le premier numéro de
```
For ex - 

    a -> 2
    b -> 3
    ......
    .......
    ......
    z -> 101
```
Donc
```
'ab' -> 6
'ba' -> 6
'bab' -> 18
'abba' -> 36
'baba' -> 36
```
Obtenir MUL_number pour la parole Donnée. retour à tous les mots de dictionnaire, qui ont même MUL_number comme mot donné
- Par erreur affiché sans compléter la réponse.Édité et corrigé maintenant
- C'est l'approche posté juste au-dessus.
InformationsquelleAutor Jitendra Rathor
-3

D'abord vérifier si la longueur des chaînes de caractères sont les mêmes.
ensuite, vérifiez si la somme des caractères les chaînes de caractères sont les mêmes (c'est à dire le code ascii somme)
puis les mots sont des anagrammes
d'autre pas un anagramme

InformationsquelleAutor Athul

Vous devez vous connecter pour publier un commentaire.