Executive Secretary

III Simposio Internacional Sobre “Generación y Transferencia de Conocimiento para la Transformación Digital "SITIC 2025"

III Simposio Internacional Sobre “Generación y Transferencia de Conocimiento para la Transformación Digital

SITIC 2025

Método para la evaluación de datasets textuales combinando modelos Transformers y métodos de explicabilidad. Caso de estudio: Detección de falacias
Marcar como Favorito

Resumen

En este trabajo se presenta la primera aproximación de un método para la evaluación y mejora de conjuntos de datos utilizados en tareas de clasificación de texto. Ante la creciente aplicación de modelos de lenguaje basados en arquitecturas Transformer, como BERT y RoBERTa, se reconoce que la calidad de los datasets es un factor crítico que incide directamente en la calidad del entrenamiento y la eficacia en los resultados. La investigación propone combinar el análisis de la confianza del modelo con técnicas de Inteligencia Artificial Explicable (XAI), como LIME y SHAP, para detectar errores en el etiquetado, evaluar la coherencia de las predicciones y mejorar la transparencia del proceso de clasificación. Se emplea un enfoque que permite identificar instancias dudosas o inconsistentes mediante el análisis probabilístico de las salidas del modelo y la explicación de las características textuales más influyentes en las decisiones, este procedimiento automatizado facilita un ciclo iterativo de refinamiento del dataset, reduciendo la dependencia del análisis manual experto. El método se evaluó en el ámbito de la detección de falacias, ya ser para la detección de falacias propiamente (clasificación binaria), como en la clasificación en tipos de falacias (multi-clase). Los resultados experimentales confirman que el método permite mejorar el entrenamiento de los modelos y la eficacia en los resultados

Abstract

This paper presents the first approach to a method for evaluating and improving datasets used in text classification tasks. Given the increasing application of Transformer-based language models like BERT and RoBERTa, it is recognized that dataset quality is a critical factor directly impacting training performance and model effectiveness. The study proposes combining model confidence analysis with Explainable Artificial Intelligence (XAI) techniques—such as LIME and SHAP—to detect labeling errors, assess prediction consistency, and enhance classification process transparency. The approach employs probabilistic analysis of model outputs and explanations of the most influential textual features in decision-making, enabling the identification of dubious or inconsistent instances. This automated procedure facilitates an iterative dataset refinement cycle, reducing reliance on manual expert analysis. The method was evaluated in the context of fallacy detection, both for binary classification (fallacy detection) and multi-class classification (fallacy type identification). Experimental results confirm that the method improves model training and overall effectiveness

Sobre el ponente

Alfredo Simón Cuevas

Dr. Alfredo Simón Cuevas

CUJAE Flag of Cuba

Discussion

Información Práctica
Ponencia
Spanish / Español
octubre 21, 2025 11:35 a. m.
5 minutos
Hotel Grand Memories Cayo Santa María
Autores
Dr. Alfredo Simón Cuevas
Alejandro Montes Hernández
Naylet Benítez Velázquez
José A. Troyano
Fermín L. Cruz
Palabras clave
dataset evaluation
detección de falacias
evaluación de datasets
lime
modelos pre-entrenados transformers
métodos de explicabilidad
pretrained transformer models
shap
shap; fallacy detection
xai methods
Documentos