Simposio Internacional de Ciencias Farmacéuticas "SICF"

Simposio Internacional de Ciencias Farmacéuticas

SICF

Un modelo de consenso basado en un conjunto de datos altamente desbalanceados para clasificar la actividad antileishmanial
Un modelo de consenso basado en un conjunto de datos altamente desbalanceados para clasificar la actividad antileishmanial

Resumen

Las predicciones in-silico de la actividad antileishmanial usando modelos de Relaciones Cuantitativas Estructura-Actividad (QSAR) han sido desarrollados sobre bases de datos pequeñas y limitadas a series congenéricas de compuestos. La actual disponibilidad de grandes y diversas bases de datos obtenidas de High-Throughput Screening (HTS) provee la oportunidad a la comunidad científica de modelar esta actividad. En este estudio, se presenta un flujo de trabajo implementado en KNIME que permite modelar grandes, diversas y altamente desbalanceadas bases de compuestos. La estrategia se basa en la selección de diferentes series de entrenamiento balanceadas que permiten la construcción de un modelo consenso basado en árboles de decisión. El consenso basado en árboles fue elegido después de una comparación de su desempeño con consensos que usaron Gaussian-Naïve-Bayes, Support Vector-Machine, Random-Forest, Gradient-Boost, and Multi-Layer-Perceptron como modelos base. Los modelos fueron rigurosamente validados usando series de prueba y externa y fueron comparados entre ellos usando los estadísticos de Friedman and Bonferroni−Dunn. Para el modelo consenso elegido, el nivel de consenso más bajo que cubre el 100% del espacio químico, las estadísticas de predicción están entre 71 y 74% (prueba) y 71 y 76% (externo), mientras que para un espacio químico reducido hasta el 21% (después de usar un nivel de consenso incremental), las estadísticas ascienden hasta el 92% (ambos conjuntos). Un conjunto externo II conformado por 139 estructuras activas con actividad antileishmanial (EC50) reportada en la base de datos PubChem AID 2008, junto a 10 compuestos comerciales se utilizaron para evaluar nuestra metodología y clasificar y ranquear la actividad de esas estructuras activas. Los resultados mostraron el potencial de esta herramienta en el tamizaje virtual de librerías de compuestos así como en el reposicionamiento de fármacos. El flujo de trabajo presentado aquí permite a otros investigadores reproducir nuestro diseño y usarlo en sus propios problemas de QSAR que utilicen bases de datos altamente desbalanceadas.

Abstract

In this study, we present a KNIME automated workflow to modeling a large, diverse, and highly imbalanced dataset of compounds with antileishmanial activity. Because the data is strongly biased toward inactive compounds, a novel strategy was implemented based on the selection of different balanced training sets and a further consensus model using single decision trees as the base model and three criteria for output combinations. The decision tree consensus was adopted after comparing its classification performance to consensuses built upon Gaussian-Naïve-Bayes, Support Vector-Machine, Random-Forest, Gradient-Boost, and Multi-Layer-Perceptron base models. All these consensuses were rigorously validated using internal and external test validation sets and were compared against each other using Friedman and Bonferroni−Dunn statistics. For the retained decision tree-based consensus model, which covers 100% of the chemical space of the dataset and with the lowest consensus level, the overall accuracy statistics for test and external sets were between 71 and 74% and 71 and 76%, respectively, while for a reduced chemical space (21%) and with an incremental consensus level, the accuracy statistics were substantially improved with values for the test and external sets between 86 and 92% and 88 and 92%, respectively. An external test set II made of 139 active structures with confirmed antileishmanial EC50 activity from the PubChem AID 2008 dataset and a list of 10 commercially available compounds served to evaluate our methodology at classifying and ranking the activity of these confirmed active compounds and commercially available drugs, showing its potential interest for testing further commercially available libraries or marketed drugs with the aim of repurposing. The open-access workflow provided with this study can directly be used for this task.

Sobre el ponente

Aliuska Morales Helguera

Ph. D. Aliuska Morales Helguera

UCLV Flag of Cuba


Información Práctica
Póster digital
English (US)
noviembre 26, 2021 6:20 p. m.
15 minutos
L14
Autores
Ph. D. Aliuska Morales Helguera
Omar Casanova Alvarez
Christophe Molina
Miguel Ángel Cabrera Pérez
Reinaldo Molina Ruiz
Palabras clave
actividad antileismanial
antileishmanial activity
base de datos desbalanceada
consensus model
desicion tree
imbalanced data set
knime
modelo consenso
árboles de decisión


BioCubaFarma