Stemming

class stemming.Stemmer(lenguaje='es', tokenizador=None)

Bases: object

Constructor por defecto de la clase Stemmer. Esta clase se encarga de hacer la operación de stemming, o reducción de palabras a su raíz, en textos.

Parámetros
  • lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.

  • tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

(Stemmer) Objeto del tipo de la clase Stemmer.

establecer_lenguaje(lenguaje)

Permite definir o cambiar el lenguaje de los textos sobre los cuales va a aplicarse el objeto de la case Stemmer.

Parámetros

lenguaje ({'es', 'en', 'fr', 'ge'}) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados.

iniciar_stemmer()

Inicializa el objeto de la clase SnowballStemmer de la librería NLTk, para el lenguaje definido previamente, y lo asigna al atributo «stemmer» del objeto de clase Stemmer.

stemming(texto, limpiar=False)

Aplica stemming sobre un texto de entrada, y devuelve el texto resultante.

Parámetros
  • texto (str) – Texto al que se desea aplicar el stemming.

  • limpiar (bool, opcional) – Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto antes de aplicar el stemming. Valor por defecto False.

Devuelve

(str) Texto luego de la aplicación del stemming.

stemming.stem_texto(texto, lenguaje='es', limpiar=False, stemmer=None)

Función que aprovecha la clase Stemmer para realizar stemming, o reducción de palabras a su raíz, en un texto de entrada.

Parámetros
  • texto (str) – Texto al que se desea aplicar el stemming.

  • lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.

  • limpiar (bool, opcional) – Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto antes de aplicar el stemming. Valor por defecto False.

  • stemmer (Stemmer, opcional) – Objeto de la clase Stemmer para aplicar stemming sobre el texto de entrada. Se puede utilizar para aplicar stemming a varios textos a la vez, sin necesidad de inicializar una instancia de la clase Stemmer en cada ocasión. Esto puede representar ahorro en tiempos al momento de aplicar la función. Valor por defecto None.

Devuelve

(str) Texto luego de la aplicación del stemming.