Control de cambios

0.2 (2021-12-15)

Agregado

Cambiado

Código

  • Se reestructuró el módulo datos_gov en la clase datos_gov.DatosGov
  • Se agregó parámetro filtro dentro de la función datos_gov.DatosGov.tabla_inventario() del módulo datos_gov, que permite filtrar por palabras clave.
  • Se reemplazó el parámetro df por datos dentro de la función reporte.generar_reporte()
  • Se agregó soporte para lectura directa de archivos tipo .xlsx, y .csv por parte de la clase calidad_datos.CalidadDatos
  • Se agregó soporte para lectura directa de objetos tipo leila.DatosGov() por parte de la clase calidad_datos.CalidadDatos
  • Se agregó parámetro especificas dentro de la función reporte.generar_reporte(), que permite personalizar el reporte automático.
  • Se agregó el parámetro limite_filas a las funciones CantidadDuplicados y EmparejamientoDuplicados de la clase “CalidadDatos”. Este parámetro define el límite de filas que se tendrá en cuenta al calcular los duplicados por columnas (el valor por defecto es 30.000).
  • Se ajustó el código de los siguientes métodos de la clase “CalidadDatos”, para no copiar el conjunto de datos de entrada y evitar problemas de memoria: CorrelacionCategoricas, DescripcionNumericas, DescripcionCategoricas, CantidadDuplicados, EmparejamientoDuplicados.
  • Se adecuó el código de la librería al estilo PEP-8.
  • Se ajustó el código del método “TipoColumnas” de la clase CalidadDatos para mejorar los tiempos de ejecución.
  • Se adecuó el código de la clase CalidadDatos para que el tipo específico y el tipo general de las columnas se calculen cuando se crea la clase y no cuando se ejecutan los métodos que hacen uso de los tipos.
  • Los módulos “calidad_datos” y “reporte” tendrán el nuevo parámetro castDatos, el cual indica si se desean convertir las columnas al mejor tipo de columna, según la función “convert_dtypes” de la librería Pandas. Este parámetro remplazará a castNumero, el cual será deprecado en un futuro.

Repositorio

  • Se redactó guía en GitHub en español para reportar issues en la librería
  • Se redactó guía en español para realizar colaboraciones y adiciones a la librería en GitHub
  • Se añaden nuevos ejemplos de uso de la librería en la carpeta de ejemplos
  • Se actualiza documentación de LEILA con respecto a los nuevos cambios.

Memoria y tiempo de ejecución

  • Se mejoró los tiempos de ejecución para las funciones CantidadDuplicados y EmparejamientoDuplicados de la clase calidad_datos.CalidadDatos
  • Se redujeron los tiempos de ejecución generales y los requisitos de memoria.
  • Las funciones de la librería se pueden ejecutar para conjuntos de datos más grandes
  • Las funciones generan resultados más rápidos para los mismos conjuntos de datos

Wiki de LEILA

El Wiki de LEILA se encuentra en el repositorio web de GitHub y contiene la siguiente información:

  • Proceso de trabajo de los desarrolladores de LEILA
  • Guía para hacer preguntas de uso, reportar errores y solicitar nuevas características para LEILA
  • Guía para hacer contribuciones y pull-request a LEILA
  • Reglas de comunidad

Obsoleto

Borrado

  • Se eliminó función filtrar_tabla() del módulo datos_gov

Arreglado

  • Se corrigieron errores generados por conflictos de librerías de soporte al instalar la librería