Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation "SITIC 2025"

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Cleaning unstructured data in BIG DATA
Set Favorite

Abstract

Today, in the era of Big Data, data cleansing, specifically that of unstructured text data, is crucial for processes such as data analysis, data science, and decision-making. In this context, data cleansing surpasses the traditional approach of extraction, transformation, and loading processes, due to the large volume of data to be processed measured in exabytes (1018) and zettabytes (1021) and the diverse and heterogeneous formats from which it is extracted. Unstructured text data is used in many big data applications where information in free formats is critical, such as in healthcare and biomedical sciences, in social media analytics, customer experience, and academic research, among others. Several investigations have been conducted in recent years focused on data cleansing in Big Data. Although the phases are the same: analysis, definition of the transformation flow, verification, transformation, and replacement of dirty data with clean data, most traditional methods are not feasible for this new environment. This paper documents a study that includes the characterization of unstructured text data in Big Data environments, the procedures established in the scientific literature on cleansing in this context, and a description of the existing tools for carrying it out.

Resumen

Hoy día, en la era de Big Data, la limpieza de datos especificamente, la de datos tipo texto no estructurado, es crucial para procesos como el análisis de datos, la ciencia de datos y la toma de decisiones. En este contexto, la limpieza de los datos supera el enfoque tradicional de los procesos de extracción, transformación y carga, producto del gran volumen de datos a procesar que puede medirse en exabytes(1018) y zettabytes(1021), y los formatos tan diversos y heterogéneos de los que se extraen. Los datos textos no estructurados son empleados en muchas aplicaciones de manejo de grandes volúmenes de datos donde la información en formatos libre es crítica, como por ejemplo, en la salud y las ciencias biomédicas, en los análisis de las redes sociales, experiencia del cliente y de investigaciones académicas, entre otras. Varios investigaciones han sido realizadas en los últimos años enfocadas a la limpieza de datos en Big Data, pues aunque las fases son las mismas: análisis, definición del flujo de transformaciones, verificación, transformación y sustitución del dato sucio por el limpio, para este nuevo entorno la generalidad de los métodos tradicionales no son factibles de aplicar. En este trabajo, se documenta un estudio que incluye la caracterización del dato no estructurado tipo texto en entornos de Big Data, los procedimientos establecidos en la literatura científica sobre la limpieza en este contexto y una descripción de las herramientas existentes para llevarla a cabo.

About The Speaker

Beatriz Eugenia López Porrero

Dr. Beatriz Eugenia López Porrero

UCLV Flag of Cuba

Profesora titular del departamento de Computación de la UCLV

Dra. en Ciencias Técnicas, temas Tecnologías de Bases de datos, Limpieza de datos

Discussion

Practical Info
Presentation
Spanish / Español
October 20, 2025 2:20 PM
4 minutes
Hotel Grand Memories Cayo Santa María
Authors
Dr. Beatriz Eugenia López Porrero
Taymari Trimiño Pérez
Ramiro Alberto Pérez Vázquez
Keywords
big data
data cleansing
dato no estructurado
limpieza de datos
unstructured data
Documents