Stemming¶
- class stemming.Stemmer(lenguaje, tokenizador=None)¶
Bases:
object
Constructor por defecto de la clase Stemmer. Esta clase se encarga de hacer la operación de stemming, o reducción de palabras a su raíz, en textos.
- Parámetros
lenguaje – (str) Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados.
tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se cargará por defecto una instancia de la clase TokenizadorNLTK.
- Devuelve
(Stemmer) Objeto del tipo de la clase Stemmer
- establecer_lenguaje(lenguaje)¶
Permite definir o cambiar el lenguaje de los textos sobre los cuales va a aplicarse el objeto de la case Stemmer.
- Parámetros
lenguaje – (str) Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados.
- iniciar_stemmer()¶
Inicializa el objeto de la clase SnowballStemmer de la librería NLTk, para el lenguaje definido previamente, y lo asigna al atributo «stemmer» del objeto de clase Stemmer.
- stemming(texto, limpiar=False)¶
Aplica stemming sobre un texto de entrada, y devuelve el texto resultante.
- Parámetros
texto – (str) Texto al que se desea aplicar el stemming.
limpiar – (bool) {True, False} Valor por defecto: False. Argumento opcional que define si se desea hacer una limpieza básica ( aplicando la función limpieza_basica del módulo limpieza) al texto antes de aplicar el stemming.
- Devuelve
(str) Texto luego de la aplicación del stemming.
- stemming.stem_texto(texto, lenguaje='es', limpiar=False, stemmer=None)¶
Función que aprovecha la clase Stemmer para realizar stemming, o reducción de palabras a su raíz, en un texto de entrada.
- Parámetros
texto – (str) Texto al que se desea aplicar el stemming.
lenguaje – (str) Valor por defecto: “es”. Lenguaje del texto al que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados.
limpiar – (bool) {True, False} Valor por defecto: False. Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto de entrada, antes de aplicar el stemming.
stemmer – (Stemmer). Parámetro opcional. Objeto de la clase Stemmer para aplicar stemming sobre el texto de entrada. Se puede utilizar para aplicar stemming a varios textos a la vez, sin necesidad de inicializar una instancia de la clase Stemmer en cada ocasión. Esto puede representar ahorro en tiempos al momento de aplicar la función.
- Devuelve
(str) Texto luego de la aplicación del stemming.