Executive Secretary

III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation

SITIC 2025

Author Name Disambiguation in LAGOS-AND using a hybrid approach

Abstract

Author name disambiguation in scientific publications faces critical challenges in the era of big data, mainly due to homonymy (different authors with the same name) and synonymy (multiple variants for one author). This study addresses the problem using the hybrid HFAND framework, which combines a co-authorship ontology to model semantic relationships with deep neural networks, evaluated on the LAGOS-AND benchmark. Three models (MLP, LSTM, GRU) were implemented using Python3/TensorFlow 2 with optimizations in Rust for scalability. Results show that the MLP achieves an F1-score of 90.51%, outperforming other approaches. Parallelization in Rust reduced training time versus standard implementations that were not able to run due to the high dimensionality of LAGOS-AND, highlighting computational advantages. The main contribution includes an ontology model adaptable to multidisciplinary domains and a reproducible pipeline that unites the efficiency of Rust with the flexibility of Python for deep learning. These innovations improve scholarly metadata management, with practical applications in automated recommender systems and dynamic researcher profiling. Qualitative analyses show that the hybrid approach reduces common errors such as confusion between homonyms from different disciplines or inconsistent unification of nominative variants. As future perspectives, it is proposed to extend the framework to multilingual data and temporal dynamics, essential for global academic repositories with constant updating. This work establishes a methodological advance by demonstrating synergies between semantic representation (ontologies) and neural models, offering scalable solutions for disambiguation problems in complex and exponentially growing academic environments.

Resumen

La desambiguación de nombres de autores en publicaciones científicas enfrenta desafíos críticos en la era del big data, principalmente por homonimia (autores distintos con mismo nombre) y sinonimia (múltiples variantes para un autor). Este estudio aborda el problema mediante el marco híbrido HFAND, que combina una ontología de coautorías para modelar relaciones semánticas con redes neuronales profundas, evaluado en el benchmark LAGOS-AND. Se implementaron tres modelos (MLP, LSTM, GRU) usando Python3/TensorFlow 2 con optimizaciones en Rust para escalabilidad. Los resultados demuestran que el MLP logra un F1-score de 90.51%, superando otros enfoques. La paralelización en Rust redujo el tiempo de entrenamiento versus implementaciones estándar que no fueron capaces de correr debido a la alta dimensionalidad de LAGOS-AND, destacando ventajas computacionales. La contribución principal incluye un modelo ontológico adaptable a dominios multidisciplinares y un pipeline reproducible que une la eficiencia de Rust con la flexibilidad de Python para aprendizaje profundo. Estas innovaciones mejoran la gestión de metadatos académicos, con aplicaciones prácticas en sistemas de recomendación automatizados y perfiles dinámicos de investigadores. Los análisis cualitativos evidencian que el enfoque híbrido reduce errores comunes como confusión entre homónimos de distintas disciplinas o unificación inconsistente de variantes nominativas. Como perspectivas futuras, se propone extender el marco a datos multilingües y dinámicas temporales, esencial para repositorios académicos globales con actualización constante. Este trabajo establece un avance metodológico al demostrar sinergias entre representación semántica (ontologías) y modelos neuronales, ofreciendo soluciones escalables para problemas de desambiguación en entornos académicos complejos y en crecimiento exponencial.