Limpieza¶

limpieza.cargar_stopwords(ubicacion_archivo, encoding='utf8')¶

Función para cargar las listas de palabras y expresiones que se desean eliminar de un texto a partir de un archivo plano.

Parámetros

ubicacion_archivo (str) – Ruta del directorio o carpeta que contiene los archivos planes de lista de palabras y/o lista de expresiones separadas por comas, espacios o saltos de línea.
encoding (str, opcional) – Codificación del archivo de texto. Valor por defecto “utf-8”.

Devuelve

(tuple) Tupla que contiene:

lista_palabras (list): Lista que contiene las palabras que se desean quitar en un texto.
lista_expresiones (list): Lista que contiene las expresiones que se desean quitar de un texto.

limpieza.limpieza_basica(texto, quitar_numeros=True, ignorar_mayus=True)¶

Limpieza básica del texto. Esta función realiza una limpieza básica del texto de entrada, transforma todo el texto a letras minúsculas, quita signos de puntuación y caracteres especiales, remueve espacios múltiples dejando solo espacio sencillo y caracteres de salto de línea o tabulaciones.

Parámetros

texto (str) – Texto de entrada al que se le aplicará la limpieza básica.
quitar_numeros (bool, opcional) – Indica si desea quitar los números dentro del texto. Valor por defecto True.
ignorar_mayus (bool, opcional) – Si ignorar_mayus = True, convierte el texto todo a letras minúsculas, en caso contrario, deja el texto como el original. Valor por defecto True.

Devuelve

(str) Texto después de la limpieza básica.

limpieza.limpieza_texto(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, n_min=0, quitar_numeros=True, quitar_acentos=False, ignorar_mayus=True, tokenizador=None, momento_stopwords='ambos')¶

Limpieza completa de texto. Esta función hace una limpieza exhaustiva del texto de entrada. Es capaz de quitar palabras y expresiones contenidas en lista_palabras y lista_expresiones, quita acentos de las palabras, números y palabras de longitud menor a n_min.

Parámetros

texto (str) – Texto de entrada al que se le aplicará la limpieza.
lista_palabras (list, opcional) – Lista de palabras que se desean quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.
lista_expresiones (list, opcional) – Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada.
ubicacion_archivo (str, opcional) – Ruta del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones. Valor por defecto: None.
n_min (int, opcional) – Longitud mínima de las palabras aceptadas en el texto de entrada. Valor por defecto 0.
quitar_numeros (bool, opcional) – Indica si desea quitar los números dentro del texto. Valor por defecto True.
quitar_acentos (bool, opcional) – Opción para determinar si se quitan acentos (tildes, diéresis, virgulilla) del texto. Valor por defecto False.
ignorar_mayus (bool, opcional) – Si ignorar_mayus = True, convierte el texto todo a letras minúsculas, en caso contrario, deja el texto como el original. Valor por defecto True.
tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.
momento_stopwords ({'antes', 'después', 'ambos'}, opcional) – Indica en que parte del proceso de limpieza de texto se remueven las stopwords. Las opciones son hacerlo antes o después de las demás operaciones de limpieza del texto, eligiendo los valores antes o después. También es posible remover stopwords de los textos en ambos instantes al asignar el valor momento_stopwords = “ambos”. Valor por defecto ambos.

Devuelve

(str) Texto después de la limpieza completa.

limpieza.lista_apellidos()¶

Genera lista de apellidos más comunes del español.

Devuelve: (list) Lista de apellidos más comunes del español.

limpieza.lista_geo_colombia(tipo='todos')¶

Genera lista de nombres de municipios y departamentos de Colombia.

Parámetros: tipo ({'todos', 'municipios', 'departamentos'}, opcional) – Si tipo = “todos” genera una lista de nombres de municipios y departamentos de Colombia. Si tipo = “municipios” genera nombres solo de municipios. Si tipo = “departamentos” genera nombres solo de departamentos. Valor por defecto todos.
Devuelve: (list) Lista de nombres de municipios, departamentos o ambos.

limpieza.lista_nombres(tipo='todos')¶

Genera lista de nombres más comunes del español. Retorna lista con los nombres más comunes, tanto para hombre y mujer del idioma español. La función permite generar lista de nombres solo de mujeres o solo de hombres con el parámetro tipo.

Parámetros: tipo ({'todos', 'mujeres', 'hombres'}, opcional) – Permite generar una lista de nombres de: solo mujeres (tipo=”mujeres”), solo nombres de hombres (tipo=”hombres”) o ambos (tipo=”todos”). Valor por defecto todos.
Devuelve: (list) Lista de nombres en español.

limpieza.lista_stopwords(lenguaje='es')¶

Genera una lista de stopwords (palabras que se quieren quitar de un texto). Función que genera una lista de stopwords de un idioma predeterminado.

Parámetros: lenguaje ({'es', 'en', 'fr', 'ge'}, opcional) – Define el lenguaje para la generación de las stopwords. Para mayor información, consultar la sección de Lenguajes soportados. Valor por defecto “es”.
Devuelve: (list) Lista de palabras stopwords del idioma seleccionado.

limpieza.quitar_repetidos(texto, sep='|', remover_espacios=True)¶

Función para quitar frases o palabras repetidas que están separadas por un caracter en específico.

Parámetros

texto (str) – Texto de entrada.
sep (str, opcional) – Separador determinado para encontrar palabras repetidas. Valor por defecto “|”.
remover_espacios (bool, opcional) – Si remover_espacios = True quita los espacios presentes al inicio y al final de una palabra. Valor por defecto True.

Devuelve

(str) Texto sin palabras o expresiones repetidas.

limpieza.remover_acentos(texto)¶

Quita los acentos (tildes, diéresis, virgulilla) de un texto de entrada. Esta reemplaza cada carácter con acento en el texto por su equivalente sin acento.

Parámetros: texto (str) – Texto de entrada.
Devuelve: (str) Texto sin acentos después de la limpieza.

limpieza.remover_palabras_cortas(texto, n_min)¶

Quita las palabras en el texto con longitud estrictamente menor a n_min.

Parámetros

texto (str) – Texto de entrada al que se quitarán las palabras de longitudes menores a n_min.
n_min (int) – Longitud mínima de las palabras aceptadas en el texto de entrada.

Devuelve

(str) Texto sin las palabras de longitud menor a n_min.

limpieza.remover_stopwords(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, tokenizador=None)¶

Quita las palabras y expresiones determinadas de un texto. Esta función quita del texto de entrada, palabras específicas contenidas en lista_palabras, o expresiones de palabras contenidas en lista_expresiones.

Parámetros

texto (str) – Texto al cual se le quitarán palabras y expresiones contenidas en lista_palabras y lista_expresiones.
lista_palabras (list, opcional) – Lista de palabras que se desean quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras.
lista_expresiones (list, opcional) – Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada.
ubicacion_archivo (str, opcional) – Ruta del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones. Valor por defecto: None.
tokenizador (Tokenizer, opcional) – Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

(str) Texto sin las palabras y expresiones incluidas en la limpieza.

Lenguajes Stemming