Executive Secretary
III International Symposium on “Generation and Transfer of Knowledge for Digital Transformation
SITIC 2025
Abstract
Scientific computing infrastructure has become an important pillar in AI strategies, facilitating its adoption. With the boom of deep learning to solve dissimilar complex problems, where models such as LLM stand out in the field of generative AI, computational resources are beginning to become scarce due to the high demand for supercomputing. Sometimes, institutions are not able to afford the upfront investment of very expensive hardware infrastructure like GPU cards for parallel computing or a high-speed network with InfiniBand. For a short-term solution, you can easily use HPC services directly from the cloud. With access to almost unlimited computational resources. They all have bare metal services that reduce virtualization overhead, like AWS Nitro System, Azure Cray solution, etc. But you have to regularly pay, and it´s not always possible to store your datasets in a public cloud for privacy or security reasons. Deploying high-performance computing on your own premises is not an easy task. A skilled HPC staff must be updated with the latest techniques, about parallel and distributed computing for AI. Shared memory commonly uses OpenMP, is easy to use with low overhead, but can scale just within a single node, and faces problems with data races and memory contention. Instead, distributed computing using MPI can scale to many nodes, but is harder to implement and faces problems of synchronization and communication overhead. This paper exposes a comparison between parallel and distributed computing in GPU and CPU by training deep learning models for image recognition with on-premises hardware infrastructure, showing the feasibility of using hybrid computing on CPU.
Resumen
La infraestructura de computación científica se ha convertido en un pilar fundamental en las estrategias de IA, facilitando su adopción. Con el auge del aprendizaje profundo para resolver disímiles problemas complejos, donde se destacan modelos como LLM en el campo de la IA generativa, los recursos computacionales comienzan a escasear debido a la alta demanda de supercomputación. En ocasiones, las instituciones no pueden permitirse la inversión inicial en infraestructura de hardware muy costosa, como tarjetas GPU para computación paralela o una red de alta velocidad con InfiniBand. Como solución a corto plazo, se pueden usar fácilmente servicios de HPC directamente desde la nube, con acceso a recursos computacionales prácticamente ilimitados. Todos ofrecen servicios de hardware dedicado que reducen la sobrecarga de virtualización, como AWS Nitro System, Azure Cray, etc. Sin embargo, hay que pagar regularmente, y no siempre es posible almacenar los datasets en una nube pública por motivos de privacidad o seguridad. Implementar computación de alto rendimiento en las propias instalaciones no es tarea fácil. Un personal de HPC cualificado debe estar actualizado con las últimas técnicas de computación paralela y distribuida para IA. La memoria compartida suele usar OpenMP, es fácil de usar y tiene baja sobrecarga, pero escala en un solo nodo y presenta problemas de data race y contención de memoria. En cambio, la computación distribuida con MPI puede escalar a varios nodos, pero es más difícil de implementar y presenta problemas de sincronización y sobrecarga de comunicación. Este artículo presenta una comparación entre la computación paralela y distribuida en GPU y CPU mediante el entrenamiento de modelos de aprendizaje profundo para el reconocimiento de imágenes con infraestructura de hardware local, lo que demuestra la viabilidad de usar computación híbrida en CPU.
About The Speaker
Ph. D. Héctor Cruz Enriquez

Director de Informatización UCLV Coordinador local del programa de RED del VLIR (Cuban ICT NETWORK)
Discussion