OCR

En esta sección se brinda mayor información relacionada con los parámetros psm y oem utilizados por la función de OCR (Reconocimiento Óptico de Caracteres) de la librería.

Nota

  • Los lenguajes disponibles para el OCR dependen de los idiomas instalados en Tesseract. Para mayor información sobre como instalar nuevos idioma, referirse a la sección Instalación de Tessereact.

oem

(int) {0, 1, 2, 3}. OEM hace referencia al modo del motor OCR (OCR engine mode en inglés). Tesseract tiene 2 motores, Legacy Tesseract y LSTM, y el parámetro oem permite escoger cada uno de estos motores por separado, ambos al tiempo o automáticamente:


  • 0: utilizar únicamente el motor Legacy.
  • 1: utilizar únicamente el motor de redes neuronales LSTM.
  • 2: utilizar los motores Legacy y LSTM.
  • 3: escoger el motor según lo que hay disponible.

psm

(int) {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13}. PSM hace referencia a los modos de segmentación de las páginas (page segmentation modes, en inglés) de la librería Pytesseract. Cada número hace referencia a un modo de segmentación:


  • 0: Horientación y detección de script (OSD) únicamente.
  • 1: segmentación automática de páginas con OSD.
  • 2: segmentación automática de páginas sin OSD ni OCR.
  • 3: segmentación completamente automática de páginas sin OSD.
  • 4: supone una única columna de texto de tamaños variables.
  • 5: supone un único bloque uniforme de texto alineado de forma vertical.
  • 6: asume un único bloque uniforme de texto.
  • 7: trata la imagen como una única línea de texto.
  • 8: trata la imagen como una única palabra.
  • 9: trata la imagen como una única palabra dentro de un círculo.
  • 10: trata la imagen como un único carácter.
  • 11: Buscador de texto disperso. Encontrar la mayor cantidad de texto posible sin un orden en particular.
  • 12: Buscador de texto disperso con OSD.
  • 13: trata el texto como una única línea, sin utilizar métodos específicos de Tesseract.