Instalar y educar Tesseract-OCR de Google
De Reyesoft
Tesseract-OCR es un potente reconocedor visual de caracteres creado por HP y luego comprado, liberado y administrado por Google. Por las estadísticas que busqué es el mejor en cuento velocidad y precisión (en especial si la imagen es en blanco y negro).
En este artículo intentaré explicar cómo instalar y enseñar al OCR lectura de una determinada fuente, ideal para leer captchas o libros completos.
Trabajaré sobre Ubuntu 9.10 32-bits. Desinstala toda versión de Tesseract-OCR de tu PC. Los parches los iremos aplicando a medida que nos vayamos encontrando los problemas para saber que vamos bien.
Intentaremos leer la imagen del artículo.
Instalación
Instalaremos Tesseract-OCR versión 2.01, ya que es la versión para las que están hechos los patches que verás más adelante. Puedes ver todos los archivos en http://code.google.com/p/tesseract-ocr/downloads/list.
Aplicamos el parche proveído por Google (puedes bajar de la misma lista de downloads).
Cualquier problema podemos leer http://code.google.com/p/tesseract-ocr/wiki/ReadMe.
./configure #chequear que todo salió bien (saldrá % make al final) make sudo make install #probamos tesseract aaa.tif aaa
Ocurrirá un problema que nos dirá:
- Unable to load unicharset file /usr/local/share/tessdata/spa.unicharset
Entonces
- Bajamos tesseract-2.00.eng.tar.gz desde http://code.google.com/p/tesseract-ocr/downloads/list
- Extraemos los archivos
- Copiamos todos a /usr/local/share/tessdata/
#probamos nuevamente tendría que correr de maravillas tesseract aaa.tif aaa
Enlaces relacionados
- Guía para educar Tesseract (en inglés), fuente de este artículo.
- Tesseract-OCR (página oficial)
