Stemming¶
- class stemming.Stemmer(lenguaje='es', tokenizador=None)¶
Bases:
object
Constructor por defecto de la clase Stemmer. Esta clase se encarga de hacer la operación de stemming, o reducción de palabras a su raíz, en textos.
- Parámetros
lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.
tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.
- Devuelve
(Stemmer) Objeto del tipo de la clase Stemmer.
- establecer_lenguaje(lenguaje)¶
Permite definir o cambiar el lenguaje de los textos sobre los cuales va a aplicarse el objeto de la case Stemmer.
- Parámetros
lenguaje ({'es', 'en', 'fr', 'ge'}) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados.
- iniciar_stemmer()¶
Inicializa el objeto de la clase SnowballStemmer de la librería NLTk, para el lenguaje definido previamente, y lo asigna al atributo «stemmer» del objeto de clase Stemmer.
- stemming(texto, limpiar=False)¶
Aplica stemming sobre un texto de entrada, y devuelve el texto resultante.
- Parámetros
texto (str) – Texto al que se desea aplicar el stemming.
limpiar (bool, opcional) – Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto antes de aplicar el stemming. Valor por defecto False.
- Devuelve
(str) Texto luego de la aplicación del stemming.
- stemming.stem_texto(texto, lenguaje='es', limpiar=False, stemmer=None)¶
Función que aprovecha la clase Stemmer para realizar stemming, o reducción de palabras a su raíz, en un texto de entrada.
- Parámetros
texto (str) – Texto al que se desea aplicar el stemming.
lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Lenguaje de los textos a los que se va a aplicar stemming. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.
limpiar (bool, opcional) – Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto antes de aplicar el stemming. Valor por defecto False.
stemmer (Stemmer, opcional) – Objeto de la clase Stemmer para aplicar stemming sobre el texto de entrada. Se puede utilizar para aplicar stemming a varios textos a la vez, sin necesidad de inicializar una instancia de la clase Stemmer en cada ocasión. Esto puede representar ahorro en tiempos al momento de aplicar la función. Valor por defecto None.
- Devuelve
(str) Texto luego de la aplicación del stemming.