2nd International Symposium on "Generation and Transfer of Knowledge for Digital Transformation"  "SITIC2023" -I Taller Internacional de Tecnologías y Aplicaciones de Web Semántica en el entorno de Inteligencia Artificial de las Cosas

2nd International Symposium on "Generation and Transfer of Knowledge for Digital Transformation"

SITIC2023

Autoencoders applied to enzyme classification

Abstract

Classifying enzymes is a significant challenge in bioinformatics due to the scarcity of data in some families, resulting in a problem of imbalanced classes. In this study, this challenge is addressed, especially in families with limited available information, such as chitinases. We proposed combining deep learning techniques and data preprocessing to tackle the enzyme identification challenge in less-known families. We employed the semi-supervised deep learning technique Autoencoders to predict enzyme families. Each enzyme family was trained with an individual Autoencoder, and their outputs were combined into a joint model, allowing for more accurate predictions. The SMOTE technique was used to mitigate class imbalance and prevent biases in the model, in addition to other required preprocessing steps. The Autoencoders were trained and optimized using the Adam algorithm and a loss function. The method was evaluated using precision and F1-Score, and the results demonstrated satisfactory performance in enzyme classification.

Resumen

La clasificación de enzimas es un reto importante en bioinformática debido a la escasez de datos en algunas familias, constituyendo un problema de clases desbalanceadas. En este estudio se aborda este desafío, especialmente en familias con poca información disponible, como las quitinasas. Se propuso combinar técnicas de aprendizaje profundo y preprocesamiento de datos para abordar el desafío de la identificación de enzimas en familias poco conocidas. Se utilizó la técnica de aprendizaje profundo Autoencoders de manera semisupervisada para predecir las familias de enzimas. Cada familia de enzimas se entrenó con un Autoencoder individual. Las salidas de estos se combinaron en un modelo conjunto, permitiendo una predicción más precisa. Se empleó la técnica SMOTE para aminorar el desbalance de las clases y evitar sesgos en el modelo, además de otros preprocesamientos requeridos. Los Autoencoders se entrenaron y se optimizaron utilizando el algoritmo Adam y una función de pérdida. La propuesta se evaluó mediante precisión y F1-Score, y los resultados demostraron un rendimiento satisfactorio en la clasificación de enzimas. 

About The Speaker

Darian Fernandez Gutierrez

Darian Fernandez Gutierrez

UCLV Flag of Cuba

Discussion

Practical Info
No Presencial
Spanish / Español
November 13, 2023 1:30 PM
5 minutes
Sala Virtual SITIC 1
Authors
Darian Fernandez Gutierrez
Ariadna Arboláez-Espinosa
Deborah Galpert-Cañizares
Ph. D. María Matilde García Lorenzo
Keywords
autoencoders
bioinformatics
bioinformática
embebidos
embeddings
Documents