2nd International Symposium on "Generation and Transfer of Knowledge for Digital Transformation"  "SITIC2023" -I Taller Internacional de Tecnologías y Aplicaciones de Web Semántica en el entorno de Inteligencia Artificial de las Cosas

2nd International Symposium on "Generation and Transfer of Knowledge for Digital Transformation"

SITIC2023

Model for metadata quality assessment: a proposal for Open Science management in Cuba

Abstract

The evaluation of metadata quality is of vital importance in the management of open science in Cuba. In the metadata used in open access computer systems, unresolved quality problems such as incompleteness of records, ambiguous author names, null values, inconsistency in the use of data exchange formats, and the non-adoption of procedures for metadata quality management are detected. Therefore, this paper proposes a model for the evaluation of metadata quality associated with open science management in Cuba. This model is constituted by four stages. Stage one refers to the measurement of the identified quality dimensions. Stage two corresponds to data cleaning and standardization. Stage three corresponds to data integration and stage four deals with data disambiguation based on open access criteria and standards. As a result, completeness at the record level and accuracy at the author’s name level were identified as the main dimensions of quality. Possible duplicate elements were detected for subsequent integration. A case study is presented with two variant solutions, one for grouping synonymous author names and the other for disambiguating synonymous and homonymous author names. This lays the foundations for the interoperability of the computational systems.

Resumen

La evaluación de la calidad de los metadatos cobra vital importancia en la gestión de la ciencia abierta en Cuba. En los metadatos utilizados en los sistemas computacionales de acceso abierto, se detectan problemas de calidad sin resolver tales como la incompletitud de los registros, los nombres de autores ambiguos, los valores nulos, la inconsistencia en el uso de formatos de intercambio de datos, y la no adopción de procedimientos para la gestión de la calidad de los metadatos. Por consiguiente, el presente trabajo se propone un modelo para la evaluación de la calidad de metadatos asociado a la gestión de la ciencia abierta en Cuba. Este modelo está constituido por cuatro etapas. La etapa uno se refiere a la medición de las dimensiones de calidad identificadas. La etapa dos corresponde a la a la limpieza y estandarización de los datos. La etapa tres corresponde integración de datos y la etapa cuatro aborda la desambiguación de datos a partir de criterios y normas de acceso abierto. Como resultado se identifican la completitud a nivel de registro y la exactitud a nivel de los nombres de autores como principales dimensiones de calidad. Se detectaron los posibles elementos duplicados para su posterior integración. Se presenta un caso de estudio con dos variantes de solución una para agrupar los nombres de autores sinónimos y otra para desambiguar los nombres de autores sinónimos y homónimos. Sentándose así las bases para la interoperabilidad de los sistemas computacionales.

About The Speaker

Lisandra Díaz de la Paz

Lisandra Díaz de la Paz

UCLV Flag of Cuba

Discussion

Practical Info
Presentation
Spanish / Español
November 15, 2023 3:30 PM
5 minutes
Salon SITIC 1
Authors
Lisandra Díaz de la Paz
Alberto Taboada Crispí
Dr. Amed Abel Leiva Mederos
Keywords
calidad de los metadatos; ciencia abierta; desambiguación de los nombres de autores
integración de datos; limpieza de datos.
metadata quality; open science; author name disambiguation; data integration; data cleaning.
Documents