Executive Secretary
III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation
SITIC 2025
Abstract
Data quality is crucial for building reliable machine learning models. To ensure the robustness of machine learning models, it is essential to assess the fidelity of generated tabular data, that is, their ability to replicate the distributions, correlations, and predictive patterns of the original data, but unified metrics for this comprehensive assessment are currently lacking. This work proposes "TabDSFidelity," a new unified quality measure for assessing the fidelity of such data in classification tasks. TabDSFidelity integrates classifier accuracy, distribution similarity, and correlation preservation into a single, adaptive, weighted score. Validation used ten real-world datasets from an Intensive Care Unit. Balanced sets were generated through oversampling and the synthetic large-scale datasets using SMOTE RSB* Adapted with Gaussian Noise and CTGAN, with optimal datasets selected at each stage using TabDSFidelity. Experimental results using various classifiers consistently demonstrate that models trained on the data selected by TabDSFidelity significantly outperform those trained on the original data. Furthermore, a significant positive correlation was found between TabDSFidelity scores and the actual accuracy of the models. In conclusion, TabDSFidelity presents itself as an effective and adaptable tool for objectively assessing the fidelity of generated tabular data, facilitating the informed selection of datasets that improve the predictive effectiveness of classification models.
Resumen
La calidad de los datos es crucial para la construcción de modelos de aprendizaje automático fiables. Para asegurar la robustez de los modelos de aprendizaje automático es esencial evaluar la fidelidad de los datos tabulares generados, es decir, su capacidad para replicar las distribuciones, correlaciones y patrones predictivos de los datos originales, pero actualmente se carece de métricas unificadas para esta evaluación integral. Este trabajo propone "TabDSFidelity", una nueva medida de calidad unificada para evaluar la fidelidad de dichos datos en tareas de clasificación. TabDSFidelity integra la precisión del clasificador, la similitud de distribución y la preservación de correlaciones en una única puntuación ponderada y adaptable. La validación empleó diez conjuntos de datos reales de una Unidad de Cuidados Intensivos. Se generaron conjuntos balanceados mediante sobremuestreo y sintéticos, a gran escala, con SMOTE RSB* Adaptado con Ruido Gaussiano y CTGAN, seleccionando en cada etapa los óptimos con TabDSFidelity. Los resultados experimentales, utilizando diversos clasificadores, demuestran de manera consistente que los modelos entrenados con los datos seleccionados por TabDSFidelity superan significativamente en eficacia a los entrenados con datos originales. Además, se encontró una correlación positiva y significativa entre las puntuaciones de TabDSFidelity y la precisión real de los modelos. En conclusión, TabDSFidelity se presenta como una herramienta efectiva y adaptable para la evaluación objetiva de la fidelidad de datos tabulares generados, facilitando la selección informada de conjuntos que mejoran la efectividad predictiva de modelos de clasificación.
About The Speaker
MsC. Marcos Díaz Bastida

Discussion