Tensorflow modèle pour l'OCR

Je suis nouveau dans Tensorflow et je suis en train de construire un modèle qui sera en mesure d'exécuter l'OCR sur mes images. J'ai à lire à 9 caractères (fixe dans toutes les images, de chiffres et de lettres. Mon modèle serait semblable à ce

https://matthewearl.github.io/2016/05/06/cnn-anpr/

Mes questions serait, dois-je former mon modèle à l'encontre de chaque personnage tout d'abord, et après combiner les caractères pour obtenir l'étiquette représentée. Ou, devrais-je en train sur l'étiquette droite ?

Je sais que j'ai besoin de passer à un modèle, d'images + étiquettes correspondant à l'image, quel est le format de ces labels, est-il fichier texte, je suis un peu confus au sujet de la partie, de sorte que toute explication sur le format des étiquettes, qui sont passés de modèle serait utile ? J'apprécie, merci.

Je vous recommande de formation sur toutes les étiquettes confondues. C'est la solution la plus propre. Si cela échoue, alors vous pouvez essayer différentes méthodes. Vous passez habituellement dans un "one-hot" codé vecteur de l'étiquette. Par exemple avec les chiens et les chats, vous auriez étiquette chat représenté comme [1,0] et le chien comme [0,1].
Ok merci, comment je peut passer par exemple de l'étiquette "17C31T2F" ?
Le HASYv2 dataset manuscrites symboles de taille 32px x 32px pourrait être intéressant pour vous.

OriginalL'auteur thug_ | 2017-04-25

7

Je le recommande pour former un bout à l'OCR modèle avec attention. Vous pouvez essayer l'Attention de ROC dont nous avons utilisé pour transcrire les noms de rue https://github.com/tensorflow/models/tree/master/research/attention_ocr

Je suppose que cela devrait fonctionner assez bien pour votre cas. Reportez-vous à la réponse https://stackoverflow.com/a/44461910 pour obtenir des instructions sur la façon de préparer les données pour la.

Merci Alexandre pour votre répondre, je vais essayer de le faire sur la façon dont vous l'avez suggéré.
salut Alexandre, pensez-vous que l'attention de l'ocr modèle serait de travailler sur les plaques d'immatriculation? Par exemple, le numéro de la plaque comme ceci: j'.la src.ca/1.3112890.1434422741!/fileImage/httpImage/... Et supposons que nous disposons de suffisamment de données pour former, savez-vous ce que serait la précision du modèle peut atteindre? Merci.
avez-vous essayé l'attention de l'ocr? Faut-il travailler pour vous? Merci.
Salut Bob, malheureusement je ne pouvais pas le faire fonctionner pour moi. Pour ce projet, nous avons utilisé différentes solution d'ocr qui n'est pas à l'aide de l'IA.
merci pour l'info.

OriginalL'auteur Alexander Gorban
5

Il ya un couple de façons de traiter ce (la liste suivante n'est pas exhaustive).

1) La première est la parole de classement directement à partir de votre image. Si votre vocabulaire de 9 caractères est limité, vous pouvez former un mot classificateur. Vous pouvez ensuite convolve ce classificateur avec votre image et sélectionnez le mot avec la probabilité la plus élevée.

2) La deuxième option est de former un caractère de classifier, de retrouver tous les personnages de votre image, et de trouver le plus probable de la ligne qui a le 9 de caractères que vous recherchez.

3) La troisième option est de former un texte, un détecteur de trouver tous les possibles zones de texte. Alors lisez toutes les zones de texte avec un modèle basée sur la séquence, et de sélectionner la solution la plus probable qui suit vos contraintes. Un simple modèle basée sur la séquence est introduite dans l'article suivant: http://ai.stanford.edu/~ang/documents/ICPR12-TextRecognitionConvNeuralNets.pdf. La séquence d'autres modèles à base pourrait être basé sur des Hmm, Connexionniste Temporelle de la Classification, de l'Attention, en fonction des modèles, etc.

4) La quatrième option sont attention les modèles à base de ce travail de bout en bout, à savoir tout d'abord le texte, puis sortie les caractères un par un.

Noter que cette liste n'est pas exhaustive, il peut y avoir différentes manières de résoudre ce problème. D'autres options peuvent même utiliser des solutions tierces comme Abbyy ou Tesseract pour vous aider à résoudre votre problème.

Merci, est-il un des exemples disponible pour 1, 2 et 4. Par votre avis qui serait le mieux et qui serait plus facile pour aller avec ?et pourquoi?

OriginalL'auteur Xochipilli

Vous devez vous connecter pour publier un commentaire.