Limpieza¶
- limpieza.cargar_stopwords(ubicacion_archivo, encoding='utf8')¶
- Función para cargar las listas de palabras y expresiones que se desean eliminar de un texto a partir de un archivo plano. - Parámetros
- ubicacion_archivo – (str) Ubicación del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. 
- encoding – (str) Valor por defecto “utf-8”. Codificación del archivo de texto. 
 
- Devuelve
- (tuple) Tupla que contiene: - lista_palabras (list): Lista que contiene las palabras que se desean quitar en un texto.
- lista_expresiones (list): Lista que contiene las expresiones que se desean quitar de un texto.
 
 
- limpieza.limpieza_basica(texto, quitar_numeros=True)¶
- Limpieza básica del texto. Esta función realiza una limpieza básica del texto de entrada, transforma todo el texto a letras minúsculas, quita signos de puntuación y caracteres especiales, remueve espacios múltiples dejando solo espacio sencillo y caracteres de salto de línea o tabulaciones. - Parámetros
- texto – (str) Texto de entrada al que se le aplicará la limpieza básica. 
- quitar_numeros – (bool) {True, False} Valor por defecto: True. Indica si desea quitar los números dentro del texto. 
 
- Devuelve
- (str) Texto después de la limpieza básica. 
 
- limpieza.limpieza_texto(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, n_min=0, quitar_numeros=True, quitar_acentos=False, tokenizador=None, momento_stopwords='ambos')¶
- Limpieza completa de texto. Esta función hace una limpieza exhaustiva del texto de entrada. Es capaz de quitar palabras y expresiones contenidas en lista_palabras y lista_expresiones, quita acentos de las palabras, números y palabras de longitud menor a n_min. - Parámetros
- texto – (str) Texto de entrada al que se le aplicará el proceso de limpieza. 
- lista_palabras – (list) Parámetro opcional. Lista de palabras que se quieren quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras. 
- lista_expresiones – (list) Parámetro opcional. Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener expresiones compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas expresiones del texto de entrada. 
- ubicacion_archivo – (str) Valor por defecto: None. Parámetro opcional. Indica la ubicación del archivo plano que contiene la lista de palabras y/o expresiones separadas por comas o saltos de línea. Si se usa este parámetro, no se tendrán en cuenta los parámetros lista_palabras y lista_expresiones. 
- n_min – (int) Parámetro opcional. Longitud mínima de las palabras aceptadas en el texto de entrada. 
- quitar_numeros – (bool) {True, False} Valor por defecto: True. Si False, no se quitan los números dentro del texto de entrada 
- quitar_acentos – (bool) {True, False} Valor por defecto: False. Opción para determinar si se quitan acentos (tildes, diéresis, virgulilla) del texto. 
- tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos al momento de quitar stopwords. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK. 
- momento_stopwords – (str) {“antes”, “después”, “ambos”} Valor por defecto: “ambos”. Indica en qué momento remover las stopwords del texto. Las opciones son hacerlo antes o después de las demás operaciones de limpieza del texto de entrada, eligiendo los valores «antes» o «después», respectivamente (la función acepta los valores con o sin tildes y/o mayúsculas). También es posible remover stopwords de los textos tanto antes como despúes de las otras operaciones de limpieza, al asignar el valor «ambos» a este parámetro. Cualquier otro valor que se asigne a este parámetro ocasionará que no se haga remoción de stopwords en el texto. 
 
- Devuelve
- (str) Texto después de la limpieza completa. 
 
- limpieza.lista_apellidos()¶
- Genera lista de apellidos más comunes del español. - Devuelve
- (list) Lista de apellidos más comunes del español. 
 
- limpieza.lista_geo_colombia(tipo='todos')¶
- Genera lista de nombres de municipios y departamentos de Colombia. - Parámetros
- tipo – (str) {“todos”, “municipios”, “departamentos”} Valor por defecto “todos”. “todos” genera una lista de nombres de municipios y departamentos de Colombia, “municipios” genera nombres solo de municipios y “departamentos” genera nombres solo de departamentos. 
- Devuelve
- (list) Lista de nombres de municipios, departamentos o ambos. 
 
- limpieza.lista_nombres(tipo='todos')¶
- Genera lista de nombres más comunes del español. Retorna lista con los nombres más comunes, tanto para hombre y mujer del idioma español. La función permite generar lista de nombres solo de mujeres o solo de hombres con el parámetro tipo. - Parámetros
- tipo – (str) {“todos”, “mujeres”, “hombres”} Valor por defecto: “todos”. Permite generar una lista de nombres de: solo mujeres (tipo=”mujeres”), solo nombres de hombres (tipo=”hombres”) o ambos (tipo=”todos”). 
- Devuelve
- (list) Lista de nombres en español. 
 
- limpieza.lista_stopwords(lenguaje='es')¶
- Genera una lista de stopwords (palabras que se quieren quitar de un texto). Función que genera una lista de stopwords de un idioma predeterminado. - Parámetros
- lenguaje – (str) Valor por defecto: “es” (Español). Define el lenguaje de las stopwords. Para mayor información, consultar la sección de Lenguajes soportados. 
- Devuelve
- (list) Lista de palabras stopwords del idioma seleccionado. 
 
- limpieza.quitar_repetidos(texto, sep='|', remover_espacios=True)¶
- Función para quitar frases o palabras repetidas que están separadas por un caracter en específico. - Parámetros
- texto – (str) Texto de entrada. 
- sep – (str) Valor por defecto: “|”. Separador determinado para encontrar palabras repetidas. 
- remover_espacios – (bool) {True, False} Valor por defecto: True. Si True quita los espacios presentes al inicio y al final de una palabra. 
 
- Devuelve
- (str) Texto sin palabras o expresiones repetidas. 
 
- limpieza.remover_acentos(texto)¶
- Quita los acentos (tildes, diéresis, virgulilla) de un texto de entrada. Esta reemplaza cada carácter con acento en el texto por su equivalente sin acento. - Parámetros
- texto – (str) Texto al que se le quieren quitar los acentos. 
- Devuelve
- (str) Texto sin acentos después de la limpieza. 
 
- limpieza.remover_palabras_cortas(texto, n_min)¶
- Quita las palabras en el texto con longitud estrictamente menor a n_min. - Parámetros
- texto – (str) Texto de entrada al que se quitarán las palabras menores a n_min. 
- n_min – (int) Longitud mínima de las palabras aceptadas en el texto de entrada. 
 
- Devuelve
- (str) Texto sin las palabras de longitud menor a n_min. 
 
- limpieza.remover_stopwords(texto, lista_palabras=[], lista_expresiones=[], ubicacion_archivo=None, tokenizador=None)¶
- Quita las palabras y expresiones determinadas de un texto. Esta función quita del texto de entrada, palabras específicas contenidas en lista_palabras, o expresiones de palabras contenidas en lista_expresiones. - Parámetros
- texto – (str) Texto al cual se le quitarán palabras y expresiones contenidas en lista_palabras y lista_expresiones. 
- lista_palabras – (list) Parámetro opcional. Lista de palabras que se quieren quitar del texto. Por ejemplo, la lista [“hola”, “de”, “a”] eliminará esas palabras. 
- lista_expresiones – (list) Parámetro opcional. Lista de expresiones que se quieren quitar al texto. A diferencia de lista_palabras, esta puede contener palabras compuestas. Por ejemplo, [“San juan de Dios”, “Distrito Capital, “fuente de agua”]; esta lista quitará esas palabras compuestas del texto de entrada. 
- ubicacion_archivo – (str) Valor por defecto: None. Ubicación del archivo plano que contiene la lista de palabras y/o lista de palabras separadas por espacios, comas o saltos de línea. En caso contrario no es necesario especificar los parametros lista_palabras y lista_expresiones. 
- tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK. 
 
- Devuelve
- (str) Texto sin las palabras y expresiones incluidas en la limpieza.