OCR¶

En esta sección se brinda mayor información relacionada con los parámetros psm y oem utilizados por la función de OCR (Reconocimiento Óptico de Caracteres) de la librería.

Nota

Los lenguajes disponibles para el OCR dependen de los idiomas instalados en Tesseract. Para mayor información sobre como instalar nuevos idioma, referirse a la sección Instalación de Tessereact.

oem

(int) {0, 1, 2, 3}. OEM hace referencia al modo del motor OCR (OCR engine mode en inglés). Tesseract tiene 2 motores, Legacy Tesseract y LSTM, y el parámetro oem permite escoger cada uno de estos motores por separado, ambos al tiempo o automáticamente:

0: utilizar únicamente el motor Legacy.
1: utilizar únicamente el motor de redes neuronales LSTM.
2: utilizar los motores Legacy y LSTM.
3: escoger el motor según lo que hay disponible.

psm

(int) {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13}. PSM hace referencia a los modos de segmentación de las páginas (page segmentation modes, en inglés) de la librería Pytesseract. Cada número hace referencia a un modo de segmentación:

0: orientation y detección de script (OSD) únicamente.
1: segmentación automática de páginas con OSD.
2: segmentación automática de páginas sin OSD ni OCR.
3: segmentación completamente automática de páginas sin OSD.
4: supone una única columna de texto de tamaños variables.
5: supone un único bloque uniforme de texto alineado de forma vertical.
6: asume un único bloque uniforme de texto.
7: trata la imagen como una única línea de texto.
8: trata la imagen como una única palabra.
9: trata la imagen como una única palabra dentro de un círculo.
10: trata la imagen como un único carácter.
11: Buscador de texto disperso. Encontrar la mayor cantidad de texto posible sin un orden en particular.
12: Buscador de texto disperso con OSD.
13: trata el texto como una única línea, sin utilizar métodos específicos de Tesseract.

Lenguajes soportados Comparación