II Simposio Internacional sobre "Generación y Transferencia de Conocimiento para la Transformación Digital"
SITIC2023
Resumen
La clasificación de enzimas es un reto importante en bioinformática debido a la escasez de datos en algunas familias, constituyendo un problema de clases desbalanceadas. En este estudio se aborda este desafío, especialmente en familias con poca información disponible, como las quitinasas. Se propuso combinar técnicas de aprendizaje profundo y preprocesamiento de datos para abordar el desafío de la identificación de enzimas en familias poco conocidas. Se utilizó la técnica de aprendizaje profundo Autoencoders de manera semisupervisada para predecir las familias de enzimas. Cada familia de enzimas se entrenó con un Autoencoder individual. Las salidas de estos se combinaron en un modelo conjunto, permitiendo una predicción más precisa. Se empleó la técnica SMOTE para aminorar el desbalance de las clases y evitar sesgos en el modelo, además de otros preprocesamientos requeridos. Los Autoencoders se entrenaron y se optimizaron utilizando el algoritmo Adam y una función de pérdida. La propuesta se evaluó mediante precisión y F1-Score, y los resultados demostraron un rendimiento satisfactorio en la clasificación de enzimas.
Abstract
Classifying enzymes is a significant challenge in bioinformatics due to the scarcity of data in some families, resulting in a problem of imbalanced classes. In this study, this challenge is addressed, especially in families with limited available information, such as chitinases. We proposed combining deep learning techniques and data preprocessing to tackle the enzyme identification challenge in less-known families. We employed the semi-supervised deep learning technique Autoencoders to predict enzyme families. Each enzyme family was trained with an individual Autoencoder, and their outputs were combined into a joint model, allowing for more accurate predictions. The SMOTE technique was used to mitigate class imbalance and prevent biases in the model, in addition to other required preprocessing steps. The Autoencoders were trained and optimized using the Adam algorithm and a loss function. The method was evaluated using precision and F1-Score, and the results demonstrated satisfactory performance in enzyme classification.
Sobre el ponente
Darian Fernandez Gutierrez
Discussion