II Simposio Internacional sobre "Generación y Transferencia de Conocimiento para la Transformación Digital"
SITIC2023
Resumen
La evaluación de la calidad de los metadatos cobra vital importancia en la gestión de la ciencia abierta en Cuba. En los metadatos utilizados en los sistemas computacionales de acceso abierto, se detectan problemas de calidad sin resolver tales como la incompletitud de los registros, los nombres de autores ambiguos, los valores nulos, la inconsistencia en el uso de formatos de intercambio de datos, y la no adopción de procedimientos para la gestión de la calidad de los metadatos. Por consiguiente, el presente trabajo se propone un modelo para la evaluación de la calidad de metadatos asociado a la gestión de la ciencia abierta en Cuba. Este modelo está constituido por cuatro etapas. La etapa uno se refiere a la medición de las dimensiones de calidad identificadas. La etapa dos corresponde a la a la limpieza y estandarización de los datos. La etapa tres corresponde integración de datos y la etapa cuatro aborda la desambiguación de datos a partir de criterios y normas de acceso abierto. Como resultado se identifican la completitud a nivel de registro y la exactitud a nivel de los nombres de autores como principales dimensiones de calidad. Se detectaron los posibles elementos duplicados para su posterior integración. Se presenta un caso de estudio con dos variantes de solución una para agrupar los nombres de autores sinónimos y otra para desambiguar los nombres de autores sinónimos y homónimos. Sentándose así las bases para la interoperabilidad de los sistemas computacionales.
Abstract
The evaluation of metadata quality is of vital importance in the management of open science in Cuba. In the metadata used in open access computer systems, unresolved quality problems such as incompleteness of records, ambiguous author names, null values, inconsistency in the use of data exchange formats, and the non-adoption of procedures for metadata quality management are detected. Therefore, this paper proposes a model for the evaluation of metadata quality associated with open science management in Cuba. This model is constituted by four stages. Stage one refers to the measurement of the identified quality dimensions. Stage two corresponds to data cleaning and standardization. Stage three corresponds to data integration and stage four deals with data disambiguation based on open access criteria and standards. As a result, completeness at the record level and accuracy at the author’s name level were identified as the main dimensions of quality. Possible duplicate elements were detected for subsequent integration. A case study is presented with two variant solutions, one for grouping synonymous author names and the other for disambiguating synonymous and homonymous author names. This lays the foundations for the interoperability of the computational systems.
Sobre el ponente
Lisandra Díaz de la Paz
Discussion