Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Computer system for the evaluation of probabilistic data balancing algorithms

Abstract

Class imbalance is a common issue in supervised classification, where minority classes are significantly underrepresented. This hinders a model’s ability to detect the most critical cases, such as fraud detection or medical diagnosis. Although various oversampling techniques exist, recent probabilistic methods developed at the University of Camagüey—SMOTE-COV-LW, SMOTE-RL, and SMOTE-EN—offer innovative statistical approaches. However, their adoption has been limited by the need for programming knowledge. To overcome this limitation, a software system was designed to make these probabilistic oversampling algorithms for imbalanced binary classification datasets accessible through a graphical interface, eliminating the need for coding expertise. Developed using Python and PyQt6, the system supports imbalanced binary classification dataset import, algorithm execution, and result export. To assess performance, the probabilistic algorithms were evaluated and compared with widely established classical techniques (SMOTE, Borderline-SMOTE, SMOTE-RSB, and ADASYN). The evaluation used several imbalanced binary classification datasets and five classifiers—C4.5, MLP, KNN, Random Forest, and SVM—alongside AUC and F1-Score as performance metrics. Results showed that probabilistic algorithms often achieved similar or even superior outcomes, highlighting their potential as competitive alternatives.

Resumen

El desbalance de clases es un problema habitual en tareas de clasificación supervisada, donde la clase minoritaria se encuentra representada por una proporción significativamente menor de instancias. Esta situación compromete la capacidad de los modelos para reconocer correctamente los casos más relevantes, como en la detección de fraudes o diagnósticos médicos. Aunque existen múltiples algoritmos de sobremuestreo que abordan este reto, las soluciones probabilísticas desarrolladas recientemente en la Universidad de Camagüey —SMOTE-COV-LW, SMOTE-RL y SMOTE-EN— presentan un enfoque innovador basado en modelos estadísticos. Sin embargo, su uso ha estado limitado a entornos de programación, lo que restringe su aplicación por parte de usuarios no especializados. Para facilitar su acceso, se diseñó un sistema informático que permite aplicar estos algoritmos de sobremuestreo probabilísticos para conjuntos de datos de clasificación binaria de forma gráfica y sin necesidad de conocimientos técnicos avanzados. El sistema fue desarrollado con tecnologías como Python y PyQt6, e incluye herramientas para importar bases de conocimientos de clasificación binarias, aplicar balanceo y exportar resultados. Para evaluar el rendimiento de los algoritmos probabilísticos desarrollados en la Universidad de Camagüey, fueron comparados con técnicas clásicas ampliamente utilizadas (SMOTE, Borderline-SMOTE, SMOTE-RSB y ADASYN). La evaluación se realizó usando conjuntos de datos de clasificación binaria desbalanceados, utilizando como clasificadores a C4.5, MLP, KNN, Random Forest y SVM, y como métricas de desempeño el AUC y el F1-Score. Los resultados mostraron que los algoritmos probabilísticos alcanzaron resultados similares o incluso superiores en varios escenarios, lo que evidencia su competitividad frente a los métodos tradicionales