Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Loading Video...

Prediction model for University of Panama admission rates based on sociodemographic and academic characteristics

Abstract

The core issue is the absence of a model capable of predicting the admission index for the University of Panama, with the aim of developing strategies to improve this index. The main objective is to build a predictive model that determines whether an applicant will achieve an admission index greater than or equal to 1 to qualify for a university spot, using sociodemographic and academic variables. This is modeled as a binary classification problem. The methodology employed analyzed the following models: logistic regression, decision trees, and simple neural networks, using data from the period 2015–2019. The file contained 16,152 entries, of which 15,865 were retained for analysis; entries missing essential information were removed. Additionally, columns containing information unnecessary for the analysis were deleted. A feature selection process was performed using the Best-First algorithm to define the most important attributes, reducing the dimensionality of the dataset. The three models were trained on 70% of the data and validated on the remaining 30%. Among the three models, the MLP (Multilayer Perceptron) yielded the best results, with accuracy metrics of 97.18%, a COGEN’SKAPPA of 0.94, and a ROC AUC of 0.99. It was concluded that feature selection contributed to reducing training time, and all three models achieve good prediction of university admission or non-admission. As future work, it is proposed to assess or determine the predictive value of certain variables in the dataset, such as pca and pcg.

Resumen

La problemática es la falta de un modelo capaz de predecir el índice de ingreso a la universidad de Panamá, con el objetivo de elaborar estrategias para mejorar este índice. El objetivo general es construir un modelo predictivo que determine si un aspirante alcanzará un índice de ingreso mayor o igual que 1 para optar por una plaza en la universidad, usando variables sociodemográficas y académicas, modelándose como un problema de clasificación binaria. En la metodología empleada fueron analizados los modelos: regresión logística, árboles de decisión y redes neuronales simples, utilizando datos correspondientes al período 2015 – 2019. El fichero contenía 16152 entradas, las cuales quedaron para el análisis 15865, eliminándose aquellas a las cuales le faltaba información esencial. Además, se eliminaron columnas con información no necesaria para el análisis. Se realizó un proceso de selección de atributos para definir los rasgos más importantes mediante el algoritmo Best-First, reduciéndose la dimensionalidad del conjunto. Los tres modelos fueron entrenados con el 70% de los datos y validados con el 30% restante. De los 3 modelos el de mejores resultados fue el MLP con métricas de exactitud de un 97.18%, un índice Kappa de 0.94 y 0.99 de área bajo la curva ROC. Se concluyó que la selección de atributos contribuyó a disminuir el tiempo de entrenamiento, los tres modelos logran una buena predicción de entrada o no a la universidad. Como trabajo futuro se propone valorar o determinar el valor de predicción de algunas variables del conjunto, tales como pca y pcg.