Executive Secretary

XIX Simposio Internacional de Ingeniería Eléctrica

SIE 2021

Clasificación de cáncer de mama con técnicas de PCA-KernelPCA y algoritmos de SVM -Regresión Logística.

Resumen

Cuando un conjunto de datos tiene muchas características, es difícil manejarlos, por lo que el objetivo de este trabajo fue reducir la dimensión de las características y clasificar la información.

El conjunto de datos de Breast Cancer Wisconsin contenía información de biopsias y se utilizaron células nucleares y la plataforma Python Jupyter. Se implementaron técnicas de PCA y KernelPCA (kPCA) para reducir la dimensión a 2, 4, 6. Se llevó a cabo una validación cruzada para seleccionar los mejores hiperparámetros de los algoritmos de SVM y Regresión Logística. La clasificación se realizó con el conjunto de trenes, el conjunto de trenes (PCA y kPCA) y el conjunto de pruebas (conjunto de pruebas transformado de PCA y kPCA). La comparación de resultados se llevó a cabo con el área bajo la curva roc, exactitud, precisión, f1, métricas de recuperación.

El PCA con 6 componentes explicó la tasa de variación casi el 90%. Con respecto a la validación cruzada, los mejores hiperparámetros fueron para SVM: kernel linear y C = 100, para LR fueron C = 100, solver Newton-cg e I2. Para SVM, los mejores resultados de exactitud, precisión, recuperación, f1 y AUC fueron para PCA 2 y 4. Fueron 0,99, 0,99, 1,00, 0,99, 0,99, respectivamente. Para el conjunto de trenes con datos originales, esos valores fueron 0,96, 0,95, 0,99, 0,97, 0,95. Para LR, los mejores resultados fueron para kPCA con 6 componentes. Los resultados estadísticos fueron 1,00, 1,00, 1,00, 1,00, 1,00, respectivamente. Para el conjunto de trenes con datos originales, esos valores fueron 0.96, 0.95, 0.9,9 0.97, 0.95.

Finalmente, se demostró que los resultados de las métricas mejoraron utilizando técnicas de PCA y kPCA.

Abstract

When a dataset has many features it is difficult to manage them so the objective of this work was to reduce dimension of features and classify the data.

Dataset from Breast Cancer Wisconsin contained information from biopsies and nuclear cell and Python Jupyter platform were used. PCA and KernelPCA (kPCA) techniques were implemented to reduce dimension to 2, 4, 6. Cross validation was carried out to select the best hyper parameters of SVM and Logistic Regression algorithms. Classification was performed with train set, train set (PCA and kPCA) and test set (transformed test set from PCA and kPCA). Comparison of results was carried out with area under roc curve, accuracy, precision, f1, recall metrics.

PCA with 6 components explained the variation ratio almost the 90 %. Respect to Cross validation, the best hyperparameter were for SVM: kernel linear and C=100, for LR they were C=100, solver Newton-cg, and I2. For SVM, the best results of accuracy, precision, recall, f1 and AUC were for PCA 2 and 4. They were 0.99, 0.99, 1.00, 0.99, 0.99, respectively. For train set with original data those values were 0.96, 0.95, 0.99, 0.97, 0.95. For LR, the best results were for kPCA with 6 components. The statistical results were 1.00, 1.00, 1.00, 1.00, 1.00, respectively. For train set with original data those values were 0.96, 0.95, 0.9,9 0.97, 0.95.

Finally, it was showed that the results of metrics improved using PCA and kPCA techniques.