Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation "SITIC 2025"

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Explanable classification of chitinase enzymes based on large language models
Set Favorite

Abstract

Enzyme classification remains a challenge in bioinformatics, particularly for chitinase enzymes within glycoside hydrolase families GH18 and GH19. Traditional methods, such as sequence alignment, struggle to distinguish functionally distinct enzymes with structural similarities. This study addresses these limitations by developing an explainable classifier using Large Language Models to identify chitinases. Leveraging the pre-trained ProtT5 model, transfer learning was applied through Low-Rank Adaptation, enabling efficient fine-tuning while preserving the model’s foundational knowledge. A balanced dataset was constructed using sequences from chitinase and non-chitinase families, augmented by inverting protein sequences. The model architecture incorporated a feed-forward neural network for classification and Integrated Gradients to interpret the influence of specific amino acids on predictions. Training achieved near-perfect performance on the training set and test set demonstrated high precision, with misclassifications limited to non-chitinase sequences from subfamilies similars. The results were compared with other models such as ECPICK and CLEAN. Explainability analysis revealed distinct regions of amino acids critical for classification. These insights underscore the model’s ability to capture biologically relevant features. The study demonstrates that LLMs, when combined with parameter-efficient fine-tuning and data augmentation, offer a robust solution for classifying underrepresented enzymes. 

Resumen

La clasificación de enzimas sigue siendo un reto para la bioinformática, sobre todo en el caso de las quitinasas de las familias de glucósido hidrolasas GH18 y GH19. Los métodos tradicionales, como la alineación de secuencias, tienen dificultades para distinguir enzimas funcionalmente distintas con similitudes estructurales. Este estudio aborda estas limitaciones mediante el desarrollo de un clasificador explicable que utiliza Grandes Modelos de Lenguaje(LLMs) para identificar quitinasas. Aprovechando el modelo ProtT5 preentrenado, se aplicó el aprendizaje por transferencia a través de Low-Rank Adaptation(LoRA), lo que permitió un ajuste fino eficiente a la vez que se preservaban los conocimientos fundamentales del modelo. Se construyó un conjunto de datos equilibrado con secuencias de familias de quitinasas y no quitinasas, al que se añadieron secuencias de proteínas invertidas. La arquitectura del modelo incorporó una red neuronal feed-forward para la clasificación e Integrated Gradients para interpretar la influencia de aminoácidos específicos en las predicciones. El entrenamiento alcanzó un rendimiento casi perfecto en el conjunto de entrenamiento y el conjunto de prueba demostró una alta precisión, con clasificaciones erróneas limitadas a secuencias no quitinasas de subfamilias similares. Los resultados fueron comparados con otros modelos como ECPICK y CLEAN. El análisis de explicabilidad reveló distintas regiones de aminoácidos críticas para la clasificación. Estos datos subrayan la capacidad del modelo para captar características biológicamente relevantes. El estudio demuestra que los LLMs, cuando se combinan con un ajuste fino eficiente de los parámetros y un aumento de los datos, ofrecen una solución robusta para clasificar enzimas infrarrepresentadas.

About The Speaker

Alejandro Cespón Ferriol

Alejandro Cespón Ferriol

UCLV Flag of Cuba

Discussion

Practical Info
Presentation
Spanish / Español
October 20, 2025 3:15 PM
3 minutes
Hotel Grand Memories Cayo Santa María
Authors
Alejandro Cespón Ferriol
Christian Gabriel Lara López
Dr. Deborah Galpert Cañizares
Rosalís Amador García
Willian José García Bravo
Isael Pérez Triana
Keywords
aprendizaje por transferencia
clasificación de enzimas
enzyme classification; large language model; transfer learning; explainability.
explicabilidad.
grandes modelos de lenguaje
Documents