Limpieza

limpieza.cargar_stopwords(ubicacion_archivo, encoding='utf8')

Función para cargar las listas de palabras y expresiones que se desean eliminar de un texto a partir de un archivo plano.

Parámetros
  • ubicacion_archivo (str) – Ruta del directorio o carpeta que contiene los archivos planes de lista de palabras y/o lista de expresiones separadas por comas, espacios o saltos de línea.

  • encoding (str, opcional) – Codificación del archivo de texto. Valor por defecto “utf-8”.

Devuelve

(tuple) Tupla que contiene:

  • lista_palabras (list): Lista que contiene las palabras que se desean quitar en un texto.
  • lista_expresiones (list): Lista que contiene las expresiones que se desean quitar de un texto.

limpieza.limpieza_basica(texto, quitar_numeros=True, ignorar_mayus=True)

Limpieza básica del texto. Esta función realiza una limpieza básica del texto de entrada, transforma todo el texto a letras minúsculas, quita signos de puntuación y caracteres especiales, remueve espacios múltiples dejando solo espacio sencillo y caracteres de salto de línea o tabulaciones.

Parámetros
  • texto (str) – Texto de entrada al que se le aplicará la limpieza básica.

  • quitar_numeros (bool, opcional) – Indica si desea quitar los números dentro del texto. Valor por defecto True.

  • ignorar_mayus (bool, opcional) – Si ignorar_mayus = True, convierte el texto todo a letras minúsculas, en caso contrario, deja el texto como el original. Valor por defecto True.

Devuelve

(str) Texto después de la limpieza básica.

limpieza.limpieza_texto(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, n_min=0, quitar_numeros=True, quitar_acentos=False, ignorar_mayus=True, tokenizador=None, momento_stopwords='ambos')

Limpieza completa de texto. Esta función hace una limpieza exhaustiva del texto de entrada. Es capaz de quitar palabras y expresiones contenidas en lista_palabras y lista_expresiones, quita acentos de las palabras, números y palabras de longitud menor a n_min.

Parámetros
  • texto (str) – Texto de entrada al que se le aplicará la limpieza.

  • lista_palabras (list, opcional) – Lista de palabras que se desean quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.

  • lista_expresiones (list, opcional) – Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada.

  • ubicacion_archivo (str, opcional) – Ruta del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones. Valor por defecto: None.

  • n_min (int, opcional) – Longitud mínima de las palabras aceptadas en el texto de entrada. Valor por defecto 0.

  • quitar_numeros (bool, opcional) – Indica si desea quitar los números dentro del texto. Valor por defecto True.

  • quitar_acentos (bool, opcional) – Opción para determinar si se quitan acentos (tildes, diéresis, virgulilla) del texto. Valor por defecto False.

  • ignorar_mayus (bool, opcional) – Si ignorar_mayus = True, convierte el texto todo a letras minúsculas, en caso contrario, deja el texto como el original. Valor por defecto True.

  • tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

  • momento_stopwords ({'antes', 'después', 'ambos'}, opcional) – Indica en que parte del proceso de limpieza de texto se remueven las stopwords. Las opciones son hacerlo antes o después de las demás operaciones de limpieza del texto, eligiendo los valores antes o después. También es posible remover stopwords de los textos en ambos instantes al asignar el valor momento_stopwords = “ambos”. Valor por defecto ambos.

Devuelve

(str) Texto después de la limpieza completa.

limpieza.lista_apellidos()

Genera lista de apellidos más comunes del español.

Devuelve

(list) Lista de apellidos más comunes del español.

limpieza.lista_geo_colombia(tipo='todos')

Genera lista de nombres de municipios y departamentos de Colombia.

Parámetros

tipo ({'todos', 'municipios', 'departamentos'}, opcional) – Si tipo = “todos” genera una lista de nombres de municipios y departamentos de Colombia. Si tipo = “municipios” genera nombres solo de municipios. Si tipo = “departamentos” genera nombres solo de departamentos. Valor por defecto todos.

Devuelve

(list) Lista de nombres de municipios, departamentos o ambos.

limpieza.lista_nombres(tipo='todos')

Genera lista de nombres más comunes del español. Retorna lista con los nombres más comunes, tanto para hombre y mujer del idioma español. La función permite generar lista de nombres solo de mujeres o solo de hombres con el parámetro tipo.

Parámetros

tipo ({'todos', 'mujeres', 'hombres'}, opcional) – Permite generar una lista de nombres de: solo mujeres (tipo=”mujeres”), solo nombres de hombres (tipo=”hombres”) o ambos (tipo=”todos”). Valor por defecto todos.

Devuelve

(list) Lista de nombres en español.

limpieza.lista_stopwords(lenguaje='es')

Genera una lista de stopwords (palabras que se quieren quitar de un texto). Función que genera una lista de stopwords de un idioma predeterminado.

Parámetros

lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Define el lenguaje para la generación de las stopwords. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.

Devuelve

(list) Lista de palabras stopwords del idioma seleccionado.

limpieza.quitar_repetidos(texto, sep='|', remover_espacios=True)

Función para quitar frases o palabras repetidas que están separadas por un caracter en específico.

Parámetros
  • texto (str) – Texto de entrada.

  • sep (str, opcional) – Separador determinado para encontrar palabras repetidas. Valor por defecto “|”.

  • remover_espacios (bool, opcional) – Si remover_espacios = True quita los espacios presentes al inicio y al final de una palabra. Valor por defecto True.

Devuelve

(str) Texto sin palabras o expresiones repetidas.

limpieza.remover_acentos(texto)

Quita los acentos (tildes, diéresis, virgulilla) de un texto de entrada. Esta reemplaza cada carácter con acento en el texto por su equivalente sin acento.

Parámetros

texto (str) – Texto de entrada.

Devuelve

(str) Texto sin acentos después de la limpieza.

limpieza.remover_palabras_cortas(texto, n_min)

Quita las palabras en el texto con longitud estrictamente menor a n_min.

Parámetros
  • texto (str) – Texto de entrada al que se quitarán las palabras de longitudes menores a n_min.

  • n_min (int) – Longitud mínima de las palabras aceptadas en el texto de entrada.

Devuelve

(str) Texto sin las palabras de longitud menor a n_min.

limpieza.remover_stopwords(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, tokenizador=None)

Quita las palabras y expresiones determinadas de un texto. Esta función quita del texto de entrada, palabras específicas contenidas en lista_palabras, o expresiones de palabras contenidas en lista_expresiones.

Parámetros
  • texto (str) – Texto al cual se le quitarán palabras y expresiones contenidas en lista_palabras y lista_expresiones.

  • lista_palabras (list, opcional) – Lista de palabras que se desean quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.

  • lista_expresiones (list, opcional) – Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada.

  • ubicacion_archivo (str, opcional) – Ruta del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones. Valor por defecto: None.

  • tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

(str) Texto sin las palabras y expresiones incluidas en la limpieza.