Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Hierarchical Classification of Chitinase Enzymes Using Multimodal Variational Autoencoder

Abstract

Enzyme classification, particularly for underrepresented groups like chitinases, faces critical challenges due to the lack of effective methods to distinguish them among amino acid sequences or enzyme families. To address this, an approach to improve their classification using deep learning models is proposed. A three-level hierarchical classifier is developed to discriminate enzymatic sequences. The SwissProt database is used, integrating two sequence representations: physicochemical descriptors and structural tokens, employing data augmentation techniques like SMOTE. In the first stage, convolutional neural networks (CNNs) identify whether a sequence corresponds to an enzyme. The second stage, also CNN-based, identifies the main family according to the EC classification. Finally, if the enzyme is a hydrolase, a multimodal variational autoencoder trained on non-chitinase hydrolases acts as an anomaly detector. This model uses both descriptors and tokens to reconstruct sequences and flag distinctive features of chitinases. During training, high performance was achieved despite the low representation of this enzyme family, and results were compared with other specialized models in this field, such as ECPick. This multimodal approach aims to overcome limitations of traditional methods, offering a robust framework for characterizing underrepresented enzymes.

Resumen

La clasificación de enzimas, particularmente aquellas con baja representatividad como las quitinasas enfrenta desafíos críticos debido a la carencia de métodos eficaces para distinguirlas entre secuencias de aminoácidos o familias de enzimas. Para esto se propone un enfoque para mejorar su clasificación mediante modelos de aprendizaje profundo. Se desarrolla un clasificador jerárquico de tres niveles que discrimina secuencias enzimáticas. Para ello se usa la base de datos SwissProt y se integran dos representaciones de secuencias: descriptores fisicoquímicos y tokens estructurales, empleándose técnicas para el aumento de los datos como SMOTE. En la primera etapa, redes neuronales convolucionales (CNN) identifican si una secuencia corresponde a una enzima. La segunda etapa, también basada en CNN, identifica la familia a principal a la que pertenece de acuerdo a la clasificación EC. Finalmente, si la enzima es una hidrolasa, un autoencoder variacional multimodal entrenado con hidrolasas no quitinasas actúa como detector de anomalías, utilizando tanto descriptores como tokens para reconstruir secuencias y señalar divergencias propias de quitinasas. Durante el entrenamiento se alcanzaron rendimientos altos pese a la baja representatividad de esa familia de enzimas y se compararon los resultados con otros modelos especializados en esta área como el ECPick. Este enfoque multimodal busca superar limitaciones de métodos tradicionales, ofreciendo un marco robusto para la caracterización de enzimas poco representadas.