Instalar y educar Tesseract-OCR de Google

De Reyesoft
Saltar a: navegación, buscar

Plantilla:Esbozo

Error al crear miniatura: No se ha podido guardar la miniatura

Tesseract-OCR es un potente reconocedor visual de caracteres creado por HP y luego comprado, liberado y administrado por Google. Por las estadísticas que busqué es el mejor en cuento velocidad y precisión (en especial si la imagen es en blanco y negro).

En este artículo intentaré explicar cómo instalar y enseñar al OCR lectura de una determinada fuente, ideal para leer captchas o libros completos.

Trabajaré sobre Ubuntu 9.10 32-bits. Desinstala toda versión de Tesseract-OCR de tu PC. Los parches los iremos aplicando a medida que nos vayamos encontrando los problemas para saber que vamos bien.

Intentaremos leer la imagen del artículo.

Instalación

Instalaremos Tesseract-OCR versión 2.01, ya que es la versión para las que están hechos los patches que verás más adelante. Puedes ver todos los archivos en http://code.google.com/p/tesseract-ocr/downloads/list.

Aplicamos el parche proveído por Google (puedes bajar de la misma lista de downloads).

Cualquier problema podemos leer http://code.google.com/p/tesseract-ocr/wiki/ReadMe.

./configure   #chequear que todo salió bien (saldrá % make al final)
make
sudo make install

#probamos
tesseract aaa.tif aaa

Ocurrirá un problema que nos dirá:

Unable to load unicharset file /usr/local/share/tessdata/spa.unicharset

Entonces

  1. Bajamos tesseract-2.00.eng.tar.gz desde http://code.google.com/p/tesseract-ocr/downloads/list
  2. Extraemos los archivos
  3. Copiamos todos a /usr/local/share/tessdata/
#probamos nuevamente tendría que correr de maravillas
tesseract aaa.tif aaa

Enlaces relacionados

Herramientas personales