Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation "SITIC 2025"

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Hierarchical Classification of Chitinase Enzymes Using Multimodal Variational Autoencoder
Set Favorite

Abstract

Enzyme classification, particularly for underrepresented groups like chitinases, faces critical challenges due to the lack of effective methods to distinguish them among amino acid sequences or enzyme families. To address this, an approach to improve their classification using deep learning models is proposed. A three-level hierarchical classifier is developed to discriminate enzymatic sequences. The SwissProt database is used, integrating two sequence representations: physicochemical descriptors and structural tokens, employing data augmentation techniques like SMOTE. In the first stage, convolutional neural networks (CNNs) identify whether a sequence corresponds to an enzyme. The second stage, also CNN-based, identifies the main family according to the EC classification. Finally, if the enzyme is a hydrolase, a multimodal variational autoencoder trained on non-chitinase hydrolases acts as an anomaly detector. This model uses both descriptors and tokens to reconstruct sequences and flag distinctive features of chitinases. During training, high performance was achieved despite the low representation of this enzyme family, and results were compared with other specialized models in this field, such as ECPick. This multimodal approach aims to overcome limitations of traditional methods, offering a robust framework for characterizing underrepresented enzymes.

Resumen

La clasificación de enzimas, particularmente aquellas con baja representatividad como las quitinasas enfrenta desafíos críticos debido a la carencia de métodos eficaces para distinguirlas entre secuencias de aminoácidos o familias de enzimas. Para esto se propone un enfoque para mejorar su clasificación mediante modelos de aprendizaje profundo. Se desarrolla un clasificador jerárquico de tres niveles que discrimina secuencias enzimáticas. Para ello se usa la base de datos SwissProt y se integran dos representaciones de secuencias: descriptores fisicoquímicos y tokens estructurales, empleándose técnicas para el aumento de los datos como SMOTE. En la primera etapa, redes neuronales convolucionales (CNN) identifican si una secuencia corresponde a una enzima. La segunda etapa, también basada en CNN, identifica la familia a principal a la que pertenece de acuerdo a la clasificación EC. Finalmente, si la enzima es una hidrolasa, un autoencoder variacional multimodal entrenado con hidrolasas no quitinasas actúa como detector de anomalías, utilizando tanto descriptores como tokens para reconstruir secuencias y señalar divergencias propias de quitinasas. Durante el entrenamiento se alcanzaron rendimientos altos pese a la baja representatividad de esa familia de enzimas y se compararon los resultados con otros modelos especializados en esta área como el ECPick. Este enfoque multimodal busca superar limitaciones de métodos tradicionales, ofreciendo un marco robusto para la caracterización de enzimas poco representadas. 

About The Speaker

Victor Manuel

Victor Manuel

UCLV Flag of Cuba

Discussion

Practical Info
Presentation
Spanish / Español
October 20, 2025 3:12 PM
3 minutes
Hotel Grand Memories Cayo Santa María
Authors
Victor Manuel
Dr. Deborah Galpert Cañizares
Darian Fernández Gutiérrez
Keywords
anomaly detection
aprendizaje profundo
autoencoder variacional multimodal
chitinases
clasificación de enzimas
convolutional network
deep learning
descriptores fisicoquímicos
detección de anomalías
enzyme classification
multimodal variational autoencoder
physicochemical descriptors
quitinasas
redes convolucionales
tokens
Documents