Simposio Internacional de Ciencias Farmaceúticas "SICF"

Simposio Internacional de Ciencias Farmaceúticas

SICF

ADME prediction with KNIME: In silico aqueous solubility consensus model based on supervised recursive random forest approaches
ADME prediction with KNIME: In silico aqueous solubility consensus model based on supervised recursive random forest approaches

Abstract

In-silico prediction of aqueous solubility plays an important role during the drug discovery and development processes. For many years, the limited performance of in-silico solubility models has been attributed to the lack of high-quality solubility data for pharmaceutical molecules. However, some studies suggest that the poor accuracy of solubility prediction is not related to the quality of the experimental data and that more precise methodologies (algorithms and/or set of descriptors) are required for predicting aqueous solubility for pharmaceutical molecules. In this study a large and diverse database was generated with aqueous solubility values collected from two public sources; two new recursive machine-learning approaches were developed for data cleaning and variable selection, and a consensus model based on regression and classification algorithms was created. The modeling protocol, which includes the curation of chemical and experimental data, was implemented in KNIME, with the aim of obtaining an automated workflow for the prediction of new databases. Finally, we compared several methods or models available in the literature with our consensus model, showing results comparable or even outperforming previous published models.The automated workflow developed is available at: https://pikairos.eu/adme-prediction-with-knime-a-retrospective-contribution-to-the-second-solubility-challenge/

Resumen

La predicción in-silico de la solubilidad acuosa desempeña un papel fundamental durante los procesos de diseño y desarrollo de fármacos. Durante muchos años, el limitado rendimiento de los modelos in-silico de solubilidad se ha atribuido a la falta de datos de solubilidad de alta calidad. Sin embargo, algunos estudios sugieren que la escasa precisión de la predicción de la solubilidad no está relacionada con la calidad de los datos experimentales y que se necesitan metodologías más precisas (algoritmos y/o conjunto de descriptores) para predecir la solubilidad acuosa de las moléculas farmacéuticas. En este estudio, se generó una base de datos amplia y diversa de valores de solubilidad acuosa recogidos de dos fuentes públicas; se desarrollaron dos nuevos enfoques de aprendizaje automático recursivo para la limpieza de datos y la selección de variables; y se creó un modelo consenso basado en algoritmos de regresión y clasificación. La validación interna y externa del modelo demostró su utilidad como herramienta para la predicción de la solubilidad acuosa de nuevas entidades moleculares, mostrando resultados comparables o superiores a la mayoría de los modelos disponibles.  El protocolo de modelización, incluyendo la curación de datos químicos y experimentales, se implementó en KNIME, con el objetivo de obtener un flujo de trabajo automatizado para la predicción de nuevas bases de datos. El flujo automático desarrollado se encuentra disponible en: https://pikairos.eu/adme-prediction-with-knime-a-retrospective-contribution-to-the-second-solubility-challenge/

About The Speaker

Gabriela Falcón Cano

Prof. Gabriela Falcón Cano

UCLV Flag of Cuba


Practical Info
Póster digital
English (US)
November 26, 2021 6:20 PM
15 minutes
L14
Authors
Prof. Gabriela Falcón Cano
Prof.Dr.C. Gabriela Falcón Cano
Keywords
quantitative structure-property relationship (qspr); knime; aqueous solubility; adme; machine learning; random forest; supervised recursive selection
relación cuantitativa estructura-propiedad (qspr); knime; solubilidad acuosa; absorción-distribución-metabolismo-excreción (adme); aprendizaje automático; bosque aleatorio; selección recursiva supervisada


BioCubaFarma