Mise en Page en utilisant une analyse de Tesseract?
Tesseract 3 est en mesure d'effectuer la mise en page de l'analyse. Cependant, je ne pouvais pas trouver n'importe quel exemple de code ou de la documentation sur la façon d'utiliser la bibliothèque pour de telles fins. J'espère que quelqu'un ici peut expliquer comment effectuer l'analyse de la présentation sur une image et comment analyser les données qui en résultent.
OriginalL'auteur Pedro | 2011-11-13
Vous devez vous connecter pour publier un commentaire.
Tesseract ne peut être donnée une page en mode paramètre (
-psm
) qui peut avoir les valeurs suivantes:0
= Orientation et de script de détection (OSD).1
= Automatique de segmentation page avec le menu OSD.2
= Page automatique de segmentation, mais pas d'OSD, ou OCR3
= Entièrement automatique de la page de segmentation, mais pas de l'OSD. (Par défaut)4
= Supposons qu'une seule colonne de texte de tailles variables.5
= Supposons qu'un unique bloc de alignées verticalement du texte.6
= Supposons qu'un unique bloc de texte.7
= Traiter l'image comme une seule ligne de texte.8
= Traiter l'image comme un seul mot.9
= Traiter l'image comme un seul mot dans un cercle.10
= Traiter l'image comme un seul caractère.Exemple:
Cependant, je ne suis pas sûr qu'il est possible d'utiliser l'analyse de la présentation en mode autonome.
OriginalL'auteur poiuytrez
Tout d'abord, initialisez
TessBaseAPI
instance. Vous pouvez soit utiliserInit()
(si vous voulez effectuer d'autres reconnaissance de texte) ouInitForAnalysePage()
(si vous êtes intéressé seulement dans les zones de texte).Deuxième, réglez l'image en utilisant
SetImage()
.Et enfin, l'appel
AnalyseLayout()
pour obtenirPageIterator
qui vous fournit avec des zones de texte.OriginalL'auteur Dmitry Zaytsev
Ne sais pas si cela exactement à répondre à votre question, mais j'ai atterri ici en cherchant des façons d'obtenir de la bbox-coordonnées info (et le texte reconnu à l'intérieur de la bbox en option) a donné une image d'entrée. La solution à ce qui est maintenant possible à l'aide de tesseract.
Les paramètres de notification dans le code ci-dessus-extrait sont " gas " et "tsv'. 'gas' sélectionne la page de la segmentation de la mode et de 'tsv' génère une belle sortie tabulaire fichier avec toutes les informations (page de bloc-numéro de ligne bbox coods, de confiance, de prédit de texte) vous auriez besoin sur votre texte-image (ci-dessous)
OriginalL'auteur NightFury13
Il y a une option depuis 3.04:
Ici est une référence à ce qui ressemble à de la de développement liées à la thread.
OriginalL'auteur Laurent