II Simposio Internacional sobre "Generación y Transferencia de Conocimiento para la Transformación Digital"  "SITIC2023" -I Taller Internacional de Tecnologías y Aplicaciones de Web Semántica en el entorno de Inteligencia Artificial de las Cosas

II Simposio Internacional sobre "Generación y Transferencia de Conocimiento para la Transformación Digital"

SITIC2023

Autoencoders aplicados a la clasificación de enzimas

Resumen

La clasificación de enzimas es un reto importante en bioinformática debido a la escasez de datos en algunas familias, constituyendo un problema de clases desbalanceadas. En este estudio se aborda este desafío, especialmente en familias con poca información disponible, como las quitinasas. Se propuso combinar técnicas de aprendizaje profundo y preprocesamiento de datos para abordar el desafío de la identificación de enzimas en familias poco conocidas. Se utilizó la técnica de aprendizaje profundo Autoencoders de manera semisupervisada para predecir las familias de enzimas. Cada familia de enzimas se entrenó con un Autoencoder individual. Las salidas de estos se combinaron en un modelo conjunto, permitiendo una predicción más precisa. Se empleó la técnica SMOTE para aminorar el desbalance de las clases y evitar sesgos en el modelo, además de otros preprocesamientos requeridos. Los Autoencoders se entrenaron y se optimizaron utilizando el algoritmo Adam y una función de pérdida. La propuesta se evaluó mediante precisión y F1-Score, y los resultados demostraron un rendimiento satisfactorio en la clasificación de enzimas. 

Abstract

Classifying enzymes is a significant challenge in bioinformatics due to the scarcity of data in some families, resulting in a problem of imbalanced classes. In this study, this challenge is addressed, especially in families with limited available information, such as chitinases. We proposed combining deep learning techniques and data preprocessing to tackle the enzyme identification challenge in less-known families. We employed the semi-supervised deep learning technique Autoencoders to predict enzyme families. Each enzyme family was trained with an individual Autoencoder, and their outputs were combined into a joint model, allowing for more accurate predictions. The SMOTE technique was used to mitigate class imbalance and prevent biases in the model, in addition to other required preprocessing steps. The Autoencoders were trained and optimized using the Adam algorithm and a loss function. The method was evaluated using precision and F1-Score, and the results demonstrated satisfactory performance in enzyme classification.

Sobre el ponente

Darian Fernandez Gutierrez

Darian Fernandez Gutierrez

UCLV Flag of Cuba

Discussion

Información Práctica
No Presencial
Spanish / Español
noviembre 13, 2023 1:30 p. m.
5 minutos
Sala Virtual SITIC 1
Autores
Darian Fernandez Gutierrez
Ariadna Arboláez-Espinosa
Deborah Galpert-Cañizares
Ph. D. María Matilde García Lorenzo
Palabras clave
autoencoders
bioinformatics
bioinformática
embebidos
embeddings
Documentos