Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Method for evaluating textual datasets combining Transformer models and explainability methods. Case study: Fallacy detection

Abstract

This paper presents the first approach to a method for evaluating and improving datasets used in text classification tasks. Given the increasing application of Transformer-based language models like BERT and RoBERTa, it is recognized that dataset quality is a critical factor directly impacting training performance and model effectiveness. The study proposes combining model confidence analysis with Explainable Artificial Intelligence (XAI) techniques—such as LIME and SHAP—to detect labeling errors, assess prediction consistency, and enhance classification process transparency. The approach employs probabilistic analysis of model outputs and explanations of the most influential textual features in decision-making, enabling the identification of dubious or inconsistent instances. This automated procedure facilitates an iterative dataset refinement cycle, reducing reliance on manual expert analysis. The method was evaluated in the context of fallacy detection, both for binary classification (fallacy detection) and multi-class classification (fallacy type identification). Experimental results confirm that the method improves model training and overall effectiveness

Resumen

En este trabajo se presenta la primera aproximación de un método para la evaluación y mejora de conjuntos de datos utilizados en tareas de clasificación de texto. Ante la creciente aplicación de modelos de lenguaje basados en arquitecturas Transformer, como BERT y RoBERTa, se reconoce que la calidad de los datasets es un factor crítico que incide directamente en la calidad del entrenamiento y la eficacia en los resultados. La investigación propone combinar el análisis de la confianza del modelo con técnicas de Inteligencia Artificial Explicable (XAI), como LIME y SHAP, para detectar errores en el etiquetado, evaluar la coherencia de las predicciones y mejorar la transparencia del proceso de clasificación. Se emplea un enfoque que permite identificar instancias dudosas o inconsistentes mediante el análisis probabilístico de las salidas del modelo y la explicación de las características textuales más influyentes en las decisiones, este procedimiento automatizado facilita un ciclo iterativo de refinamiento del dataset, reduciendo la dependencia del análisis manual experto. El método se evaluó en el ámbito de la detección de falacias, ya ser para la detección de falacias propiamente (clasificación binaria), como en la clasificación en tipos de falacias (multi-clase). Los resultados experimentales confirman que el método permite mejorar el entrenamiento de los modelos y la eficacia en los resultados