Executive Secretary

21st International Symposium on Electrical Engineering

SIE 2025

Preparation and Analysis of Data for Anomaly Detection in Power Consumption

Abstract

In Cuba, there is a sustained increase in energy demand, which contrasts with the limited technological availability to meet it. In this context, implementing precise control of electricity consumption is essential to encourage changes in usage habits and improve service quality. This study focuses on the preparation and analysis of a dataset from the municipality of Placetas, in Villa Clara, aimed at detecting anomalous behaviors associated with fraud or infrastructure failures. The dataset includes information such as user type, location, average consumption, monthly readings, incident reports, and audit records related to non-technical losses. The applied methodology encompassed data cleaning, transformation, and structuring, including handling of missing values, removal of duplicates, and encoding of categorical variables using One Hot Encoding. For feature selection, statistical techniques such as correlation analysis, analysis of variance, and Cramér’s V association coefficient were employed. The result was a refined and structured dataset, suitable for training machine learning models focused on anomaly detection.

Resumen

En Cuba se aprecia un aumento sostenido en la demanda energética, que se contrasta con una baja disponibilidad tecnológica para satisfacerlas. En este contexto es vital implementar un control preciso del consumo eléctrico, con el objetivo de modificar los hábitos de uso y mejorar la calidad del servicio. Este estudio se enfoca en la preparación y análisis de una base de datos proveniente del municipio Placetas, en Villa Clara, orientada a la detección de comportamientos anómalos asociados a fraudes o fallos en la infraestructura. La información utilizada incluye tipo de usuario, ubicación, consumo promedio, lecturas mensuales, reportes de incidencias y auditorías por pérdidas no técnicas. La metodología aplicada abarcó la limpieza, transformación y estructuración de los datos, incluyendo el manejo de valores nulos, la eliminación de duplicados y la codificación de variables categóricas mediante One Hot Encoding. Para la selección de características relevantes se utilizaron técnicas estadísticas como la correlación, el análisis de varianza y el coeficiente de asociación Cramér’s V. El resultado fue un conjunto de datos depurado y estructurado, adecuado para el entrenamiento de modelos de aprendizaje automático orientados a la detección de anomalías.