Exploración

exploracion.frecuencia_ngramas(texto, n_grama=1, n_max=None)

Genera un diccionario con los n-gramas y sus respectivas frecuencias de ocurrencia en el texto.

Parámetros
  • texto – (str) Corresponde al texto que se desea analizar.

  • n_grama – (int) Valor por defecto: 1. Cantidad de elementos a tener en cuenta en la generación de n-gramas.

  • n_max – (int) Valor por defecto: None. Cantidad máxima de n-gramas a generar.

Devuelve

(dict) diccionario de n-gramas más frecuentes.

exploracion.grafica_barchart_frecuencias(texto, n_grama=1, dim_figura=(8, 5), titulo='Términos más frecuentes', ascendente=True, ubicacion_archivo='', graficar=True, n_terminos=15, devolver_grafica=False)

Permite graficar o exportar un gráfico de barras horizontales de la frecuencia de palabras (n-gramas) a partir de un texto.

Parámetros
  • texto – (str) Corresponde al texto que se desea analizar.

  • n_grama – (int) Valor por defecto: 1. Cantidad de elementos a tener en cuenta en la generación de n-gramas.

  • dim_figura – (float, float) Valor por defecto: (8, 5). Corresponden al ancho y alto de la figura en pulgadas.

  • titulo – (str) Valor por defecto: “Términos más frecuentes”. Corresponde al título de la nube de palabras.

  • ascendente – (bool) {True, False} Valor por defecto: True. Determina si las barras de términos se muestran de menos (abajo) a más (arriba) frecuentes en la gráfica.

  • ubicacion_archivo – (str) Valor por defecto: vacío (“”). Ruta donde desea exportar la gráfica como archivo tipo imagen. Al nombrar el archivo se recomienda utilizar la extensión jpg. Si no se especifica una ruta, la gráfica no se exporta.

  • graficar – (bool) {True, False} Valor por defecto: True. Permite visualizar la gráfica en el IDE que esté utilizando.

  • n_terminos – (int) Valor por defecto: 15. Cantidad de n-gramas a graficar.

  • devolver_grafica – (bool) {True, False} Valor por defecto: False. Indica si se desea obtener el gráfico de barras como un objeto de Matplotlib.

Devuelve

(objeto Figure de Matplotlib) Figura con el gráfico de barras, solo si devolver_grafica=True.

exploracion.graficar_coocurrencias(mat, prop_fuera=0, ubicacion_archivo='', graficar=True, K=5, color_borde='orchid', color_nodo='silver', semilla=123, dim_figura=(13, 13), devolver_grafica=False)

Grafica una matriz de coocurrencias de términos como un grafo no dirigido.

Parámetros
  • mat – (dataframe) Matriz de coocurrencias que desea graficar.

  • prop_fuera – (float) (valor entre 0 y 100). Permite eliminar las conexiones con menor peso para aclarar un poco la imagen.

  • ubicacion_archivo – (str) Valor por defecto: “”. Ruta donde desea exportar la gráfica como archivo tipo imagen. Al nombrar el archivo se recomienda utilizar la extensión jpg. Si no se especifica una ruta, la gráfica no se exporta.

  • graficar – (bool) {True, False} Valor por defecto: True. Permite visualizar la gráfica en el IDE que esté utilizando.

  • K – (float) Valor por defecto: 5. Distancia óptima entre nodos, aumente este valor para separar los nodos.

  • color_borde – (str) Valor por defecto: “orchid”. Corresponde al color de los bordes de la red, se puede asignar el nombre de un color predefinido o el código hexadecimal de un color.

  • color_nodo – (str) Valor por defecto: “silver”. Corresponde al color de los nodos, se puede asignar el nombre de un color predefinido o el código hexadecimal de un color.

  • semilla – (int) Valor por defecto: 123. Estado inicial del generador aleatorio para establecer la posición de los nodos.

  • dim_figura – (float, float) Valor por defecto: (13, 13). Corresponden al ancho y alto de la figura en pulgadas.

  • devolver_grafica – (bool) {True, False} Valor por defecto: False. Indica si se desea obtener el gráfico de barras como un objeto de Matplotlib.

Devuelve

(objeto Figure de Matplotlib) Figura con el grafo de coocurrencias, solo si devolver_grafica=True.

exploracion.matriz_coocurrencias(texto, min_frec=1, max_num=200, modo='documento', ventana=3, tri_sup=True, limpiar=False, tokenizador=None)

Calcula la matriz de coocurrencias de un texto.

Parámetros
  • texto – (str o list) Corresponde al texto (o lista de textos/documentos) que se desea analizar.

  • min_frec – (int) Valor por defecto: 1. Frecuencia mínima de aparición de palabras, si la frecuencia de una palabra es menor a min_frec, dicha palabra es excluida de la matriz.

  • max_num – (int) Valor por defecto: 200. Número máximo de palabras a dejar en la matriz (se eligen las más frecuentes).

  • modo – (str) {“documento”, “ventana”} Valor por defecto: “documento”. Corresponde al modo de análisis, con “documento” se calcula la co-ocurrencia de términos sin importar la distancia entre estos, con “ventana” se calcula la co-ocurrencia de términos teniendo en cuenta una distancia máxima entre estos.

  • ventana – (int) Valor por defecto: 3. Tamaño de la ventana (solo se usa cuando modo=”ventana”). Número de palabras anteriores o posteriores a tener en cuenta con respecto al término de análisis, equivalente a calcular la co-ocurrencia con n-gramas, siendo n=ventana+1.

  • tri_sup – (bool) {True, False} Valor por defecto: True. Si el valor es True devuelve la versión diagonal superior de la matriz de coocurrencias, si es False devuelve la matriz completa.

  • limpiar – (bool) {True, False} Valor por defecto: False. Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto de entrada, antes de calcular las coocurrencias.

  • tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

(dataframe) Coocurrencias de los textos de entrada.

exploracion.nube_palabras(texto, n_grama=1, n_terminos=100, graficar=True, dim_figura=(10, 10), hor=0.6, titulo='Términos más frecuentes', ubicacion_archivo='', mask=None, semilla=1234, devolver_nube=False)

Permite graficar o exportar una nube de palabras (n-gramas) a partir de un texto.

Parámetros
  • texto – (str) Corresponde al texto que se desea analizar.

  • n_grama – (int) Valor por defecto: 1. Cantidad de elementos a tener en cuenta en la generación de n-gramas.

  • n_terminos – (int) Valor por defecto: 100. Cantidad de n-gramas a graficar.

  • graficar – (bool) {True, False} Valor por defecto: True. Permite visualizar la gráfica en el IDE que esté utilizando.

  • dim_figura – (float, float) Valor por defecto: (10, 10). Corresponden al ancho y alto de la figura en pulgadas.

  • hor – (float) (valor entre 0 y 1). Corresponde a la orientación de las palabras en el gráfico, siendo 0 una distribución vertical, 1 una distribución horizontal y una distribución mixta a cualquier valor entre 0 y 1.

  • titulo – (str) Valor por defecto: “Términos más frecuentes”. Corresponde al título de la nube de palabras.

  • ubicacion_archivo – (str) Valor por defecto: vacío (“”). Ruta donde desea exportar la gráfica como archivo tipo imagen. Al nombrar el archivo se recomienda utilizar la extensión jpg. Si no se especifica una ruta, la gráfica no se exporta.

  • mask – (array) o None, Valor por defecto: None. Correspondiente a la máscara base donde se dibujan las palabras, por defecto se utiliza una máscara circular.

  • semilla – (int) Valor por defecto: 1234. Corresponde al estado inicial del generador, este incide en la posición y color de las palabras. En caso de querer replicar la nube de palabras, se recomienda utilizar un mismo valor de semilla.

  • devolver_nube – (bool) {True, False} Valor por defecto: False. Indica si desea obtener la nube de palabras como un objeto tipo WordCloud.

Devuelve

objeto tipo WordCloud, solo si devolver_nube=True.

exploracion.obtener_ngramas(texto, n=1, devolver_lista=True, limpiar=False, tokenizador=None)

Permite generar n-gramas a partir de un texto.

Parámetros
  • texto – (str) Corresponde al texto que se desea analizar.

  • n – (int) Cantidad de elementos a tener en cuenta en la generación de n-gramas. Por ejemplo, si n=1 se retornarán palabras, y si n=2 se retornarán bigramas.

  • devolver_lista – (bool) {True, False} Valor por defecto: True. Si el valor es True se retorna un objeto tipo lista; si el valor es False se retorna un objeto tipo generador.

  • limpiar – (bool) {True, False} Valor por defecto: False. Define si se desea hacer una limpieza básica (aplicando la función limpieza_basica del módulo limpieza) al texto de entrada, antes de encontrar los n-gramas.

  • tokenizador – Valor por defecto: None. Objeto encargado de la tokenización y detokenización de textos. Si el valor es “None”, se utilizará por defecto una instancia de la clase TokenizadorNLTK.

Devuelve

n-gramas generados con las características especificadas.

exploracion.par_nubes(texto, n1=1, n2=2, dim_figura=(20, 11), ubicacion_archivo='', graficar=True, devolver_grafica=False)

Permite graficar o exportar un par de nubes de palabras (una junto a otra) a partir de un texto.

Parámetros
  • texto – (str) Corresponde al texto que se desea analizar.

  • n1 – (int) Valor por defecto: 1. Cantidad de elementos a tener en cuenta en la generación de n-gramas de la nube de palabras izquierda.

  • n2 – (int) Valor por defecto: 2. Cantidad de elementos a tener en cuenta en la generación de n-gramas de la nube de palabras derecha.

  • dim_figura – (float, float) Valor por defecto: (20, 10). Corresponden al ancho y alto de la figura en pulgadas.

  • ubicacion_archivo – (str) Valor por defecto: “”. Ruta donde desea exportar la gráfica como archivo tipo imagen. Al nombrar el archivo se recomienda utilizar la extensión jpg. Si no se especifica una ruta, la gráfica no se exporta.

  • graficar – (bool) {True, False} Valor por defecto: True. Permite visualizar la gráfica en el IDE que esté utilizando.

  • devolver_grafica – (bool) {True, False} Valor por defecto: False. Indica si se desea obtener el gráfico con el par de nubes de palabras como un objeto de Matplotlib.

Devuelve

(objeto Figure de Matplotlib) Figura con el par de nubes de palabras, solo si devolver_grafica=True.