Limpieza

limpieza.cargar_stopwords(ubicacion_archivo, encoding='utf8')

Función para cargar las listas de palabras y expresiones que se desean eliminar de un texto a partir de un archivo plano.

Parámetros
  • ubicacion_archivo – (str) Ubicación del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea.

  • encoding – (str) Valor por defecto “utf-8”. Codificación del archivo de texto.

Devuelve

(tuple) Tupla que contiene:

  • lista_palabras (list): Lista que contiene las palabras que se desean quitar en un texto.
  • lista_expresiones (list): Lista que contiene las expresiones que se desean quitar de un texto.

limpieza.limpieza_basica(texto, quitar_numeros=True)

Limpieza básica del texto. Esta función realiza una limpieza básica del texto de entrada, transforma todo el texto a letras minúsculas, quita signos de puntuación y caracteres especiales, remueve espacios múltiples dejando solo espacio sencillo y caracteres de salto de línea o tabulaciones.

Parámetros
  • texto – (str) Texto de entrada al que se le aplicará la limpieza básica.

  • quitar_numeros – (bool) {True, False} Valor por defecto: True. Indica si desea quitar los números dentro del texto.

Devuelve

(str) Texto después de la limpieza básica.

limpieza.limpieza_texto(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, n_min=0, quitar_numeros=True, quitar_acentos=False, tokenizador=None, momento_stopwords='ambos')

Limpieza completa de texto. Esta función hace una limpieza exhaustiva del texto de entrada. Es capaz de quitar palabras y expresiones contenidas en lista_palabras y lista_expresiones, quita acentos de las palabras, números y palabras de longitud menor a n_min.

Parámetros
  • texto – (str) Texto de entrada al que se le aplicará el proceso de limpieza.

  • lista_palabras – (list) Parámetro opcional. Lista de palabras que se quieren quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.

  • lista_expresiones – (list) Parámetro opcional. Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener expresiones compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas expresiones del texto de entrada.

  • ubicacion_archivo – (str) Valor por defecto: None. Parámetro opcional. Indica la ubicación del archivo plano que contiene la lista de palabras y/o expresiones separadas por comas o saltos de línea. Si se usa este parámetro, no se tendrán en cuenta los parámetros lista_palabras y lista_expresiones.

  • n_min – (int) Parámetro opcional. Longitud mínima de las palabras aceptadas en el texto de entrada.

  • quitar_numeros – (bool) {True, False} Valor por defecto: True. Si False, no se quitan los números dentro del texto de entrada

  • quitar_acentos – (bool) {True, False} Valor por defecto: False. Opción para determinar si se quitan acentos (tildes, diéresis, virgulilla) del texto.

  • tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos al momento de quitar stopwords. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

  • momento_stopwords – (str) {“antes”, “después”, “ambos”} Valor por defecto: “ambos”. Indica en qué momento remover las stopwords del texto. Las opciones son hacerlo antes o después de las demás operaciones de limpieza del texto de entrada, eligiendo los valores «antes» o «después», respectivamente (la función acepta los valores con o sin tildes y/o mayúsculas). También es posible remover stopwords de los textos tanto antes como despúes de las otras operaciones de limpieza, al asignar el valor «ambos» a este parámetro. Cualquier otro valor que se asigne a este parámetro ocasionará que no se haga remoción de stopwords en el texto.

Devuelve

(str) Texto después de la limpieza completa.

limpieza.lista_apellidos()

Genera lista de apellidos más comunes del español.

Devuelve

(list) Lista de apellidos más comunes del español.

limpieza.lista_geo_colombia(tipo='todos')

Genera lista de nombres de municipios y departamentos de Colombia.

Parámetros

tipo – (str) {“todos”, “municipios”, “departamentos”} Valor por defecto “todos”. “todos” genera una lista de nombres de municipios y departamentos de Colombia, “municipios” genera nombres solo de municipios y “departamentos” genera nombres solo de departamentos.

Devuelve

(list) Lista de nombres de municipios, departamentos o ambos.

limpieza.lista_nombres(tipo='todos')

Genera lista de nombres más comunes del español. Retorna lista con los nombres más comunes, tanto para hombre y mujer del idioma español. La función permite generar lista de nombres solo de mujeres o solo de hombres con el parámetro tipo.

Parámetros

tipo – (str) {“todos”, “mujeres”, “hombres”} Valor por defecto: “todos”. Permite generar una lista de nombres de: solo mujeres (tipo=”mujeres”), solo nombres de hombres (tipo=”hombres”) o ambos (tipo=”todos”).

Devuelve

(list) Lista de nombres en español.

limpieza.lista_stopwords(lenguaje='es')

Genera una lista de stopwords (palabras que se quieren quitar de un texto). Función que genera una lista de stopwords de un idioma predeterminado.

Parámetros

lenguaje – (str) Valor por defecto: “es” (Español). Define el lenguaje de las stopwords. Para mayor información, consultar la sección de Lenguajes soportados.

Devuelve

(list) Lista de palabras stopwords del idioma seleccionado.

limpieza.quitar_repetidos(texto, sep='|', remover_espacios=True)

Función para quitar frases o palabras repetidas que están separadas por un caracter en específico.

Parámetros
  • texto – (str) Texto de entrada.

  • sep – (str) Valor por defecto: “|”. Separador determinado para encontrar palabras repetidas.

  • remover_espacios – (bool) {True, False} Valor por defecto: True. Si True quita los espacios presentes al inicio y al final de una palabra.

Devuelve

(str) Texto sin palabras o expresiones repetidas.

limpieza.remover_acentos(texto)

Quita los acentos (tildes, diéresis, virgulilla) de un texto de entrada. Esta reemplaza cada carácter con acento en el texto por su equivalente sin acento.

Parámetros

texto – (str) Texto al que se le quieren quitar los acentos.

Devuelve

(str) Texto sin acentos después de la limpieza.

limpieza.remover_palabras_cortas(texto, n_min)

Quita las palabras en el texto con longitud estrictamente menor a n_min.

Parámetros
  • texto – (str) Texto de entrada al que se quitarán las palabras menores a n_min.

  • n_min – (int) Longitud mínima de las palabras aceptadas en el texto de entrada.

Devuelve

(str) Texto sin las palabras de longitud menor a n_min.

limpieza.remover_stopwords(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, tokenizador=None)

Quita las palabras y expresiones determinadas de un texto. Esta función quita del texto de entrada, palabras específicas contenidas en lista_palabras, o expresiones de palabras contenidas en lista_expresiones.

Parámetros
  • texto – (str) Texto al cual se le quitarán palabras y expresiones contenidas en lista_palabras y lista_expresiones.

  • lista_palabras – (list) Parámetro opcional. Lista de palabras que se quieren quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.

  • lista_expresiones – (list) Parámetro opcional. Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada.

  • ubicacion_archivo – (str) Valor por defecto: None. Ubicación del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones.

  • tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

(str) Texto sin las palabras y expresiones incluidas en la limpieza.