L'obtention de la boîte englobante de mots reconnus à l'aide de python-tesseract

Je suis à l'aide de python-tesseract pour extraire des mots à partir d'une image. C'est un wrapper python pour tesseract qui est un ROC code.

J'utilise le code suivant pour obtenir les mots:

import tesseract

api = tesseract.TessBaseAPI()
api.Init(".","eng",tesseract.OEM_DEFAULT)
api.SetVariable("tessedit_char_whitelist", "0123456789abcdefghijklmnopqrstuvwxyz")
api.SetPageSegMode(tesseract.PSM_AUTO)

mImgFile = "test.jpg"
mBuffer=open(mImgFile,"rb").read()
result = tesseract.ProcessPagesBuffer(mBuffer,len(mBuffer),api)
print "result(ProcessPagesBuffer)=",result

Cela renvoie seulement les mots et de ne pas leur emplacement/taille/orientation (ou en d'autres termes un cadre de sélection contenant de mer) dans l'image. Je me demandais si il n'y a aucun moyen d'obtenir que ainsi

peut aider github.com/tesseract-ocr/tesseract/wiki/...

OriginalL'auteur Abtin Rasoulian | 2013-12-30

12

tesseract.GetBoxText() méthode retourne la position exacte de chaque caractère dans un tableau.

En outre, il est une option de ligne de commande tesseract test.jpg result hocr qui va générer un result.html fichier avec chaque mot reconnu coordonnées. Mais je ne suis pas sûr qu'il peut être appelé par le script python.

J'obtiens le résultat.hocr fichier avec la commande, si le fichier est au format HTML.

OriginalL'auteur lennon310

L'aide du code ci-dessous, vous pouvez obtenir la boîte englobante correspondant à chaque personnage.

import csv
import cv2
from pytesseract import pytesseract as pt

pt.run_tesseract('bw.png', 'output', lang=None, boxes=True, config="hocr")

# To read the coordinates
boxes = []
with open('output.box', 'rb') as f:
    reader = csv.reader(f, delimiter = ' ')
    for row in reader:
        if(len(row)==6):
            boxes.append(row)

# Draw the bounding box
img = cv2.imread('bw.png')
h, w, _ = img.shape
for b in boxes:
    img = cv2.rectangle(img,(int(b[1]),h-int(b[2])),(int(b[3]),h-int(b[4])),(255,0,0),2)

cv2.imshow('output',img)

ne fonctionne pas, boîtes de paramètre inconnu dans la dernière pytesseract

OriginalL'auteur khushhall

5

Utilisation pytesseract.image_to_data()
```
import pytesseract
from pytesseract import Output
import cv2
img = cv2.imread('image.jpg')

d = pytesseract.image_to_data(img, output_type=Output.DICT)
n_boxes = len(d['level'])
for i in range(n_boxes):
    (x, y, w, h) = (d['left'][i], d['top'][i], d['width'][i], d['height'][i])
    cv2.rectangle(img, (x, y), (x + w, y + h), (0, 255, 0), 2)

cv2.imshow('img', img)
cv2.waitKey(0)
```
Parmi les données renvoyées par pytesseract.image_to_data():
- left est la distance à partir du coin supérieur gauche du cadre
  la boîte, à la bordure gauche de l'image.
- top est la distance entre le coin supérieur gauche de la boîte englobante,
  à la bordure supérieure de l'image.
- width et height sont la largeur et la hauteur de la boîte englobante.
- conf est le modèle de confiance pour la prédiction de la parole à l'intérieur de cette boîte englobante. Si conf est -1, ce qui signifie que le correspondant de la boîte englobante contient un bloc de texte, plutôt que juste un seul mot.
Les boîtes englobantes retourné par pytesseract.image_to_boxes() joindre des lettres donc je crois pytesseract.image_to_data() est ce que vous cherchez.

C'est en fait la bonne réponse à cette question. Mais peut être ignoré par les gens à cause de la complexité de cette méthode
C'est la réponse correcte.

OriginalL'auteur stwykd

Python tesseract peut le faire sans l'écriture dans le fichier, à l'aide de la image_to_boxes fonction:

import cv2
import pytesseract

filename = 'image.png'

# read the image and get the dimensions
img = cv2.imread(filename)
h, w, _ = img.shape # assumes color image

# run tesseract, returning the bounding boxes
boxes = pytesseract.image_to_boxes(img) # also include any config options you use

# draw the bounding boxes on the image
for b in boxes.splitlines():
    b = b.split(' ')
    img = cv2.rectangle(img, (int(b[1]), h - int(b[2])), (int(b[3]), h - int(b[4])), (0, 255, 0), 2)

# show annotated image and wait for keypress
cv2.imshow(filename, img)
cv2.waitKey(0)

Pourquoi y-coordinate est soustraite de la hauteur de l'image

OriginalL'auteur jtbr

0

Aurait des commentaires sous lennon310 mais ne pas avoir assez de réputation pour le commentaire...

Pour exécuter sa commande en ligne de commande tesseract test.jpg result hocr dans un script python:
```
from subprocess import check_call

tesseractParams = ['tesseract', 'test.jpg', 'result', 'hocr']
check_call(tesseractParams)
```
OriginalL'auteur Endyd

Vous devez vous connecter pour publier un commentaire.