Executive Secretary

2nd International Symposium on "Generation and Transfer of Knowledge for Digital Transformation"

SITIC2023

Unstructured Data Processing at scale by integrating GPT4All into a Big Data architecture.

Abstract

The exponential growth of unstructured data in contemporary digital environments has emphasized the need for efficient processing solutions that can seamlessly operate at scale. One of the perennial objectives in the data management sphere is to develop automated systems that can process unstructured and semi-unstructured documents and automatically generate searchable tables efficiently without constant adaptation. The present study is devoted to the conceptualization and development of a prototype designed for the data ingestion phase in a big data infrastructure. This implementation leverages the integration of the open-source ecosystem GPT4All, with the Large Language Model (LLM) Nous-Hermes-13b playing a pivotal role in processing, while the vector library Chroma is used in conjunction with the LLM to address duplicate removal in the information stored in the PostgreSQL database. The implementation tests were conducted from three fundamental perspectives: result accuracy, processing time, and scalability in relation to available resources. The outcome demonstrated that the model's load during inference is substantial, and processing times for each iteration are moderate. This suggests that the prototype's performance is quite competitive, given the infrastructure resources used in the research. However, it is noted that the design's scalability could be improved through the optimization of these resources and improvement of the model.

Resumen

El crecimiento exponencial de datos no estructurados en entornos digitales contemporáneos ha enfatizado la necesidad de soluciones eficientes de procesamiento que puedan operar sin problemas a gran escala. Uno de los objetivos perennes en el ámbito de la gestión de datos es desarrollar sistemas automatizados que puedan procesar documentos no estructurados y semi-estructurados para generar automáticamente tablas consultables de manera eficiente sin adaptaciones constantes. El presente estudio se dedica a la conceptualización y desarrollo de un prototipo diseñado para la fase de ingestión de datos en una infraestructura de big data. Esta implementación aprovecha la integración del ecosistema de código abierto GPT4All, con el Modelo de Lenguaje Grande (LLM) Nous-Hermes-13b desempeñando un papel fundamental en el procesamiento, mientras que la biblioteca de vectores Chroma se utiliza en conjunto con el LLM para abordar la eliminación de duplicados en la información almacenada en la base de datos PostgreSQL. Las pruebas de implementación se llevaron a cabo desde tres perspectivas fundamentales: precisión de los resultados, tiempo de procesamiento y escalabilidad en relación con los recursos disponibles. El resultado demostró que la carga del modelo durante la inferencia es sustancial y los tiempos de procesamiento para cada iteración son moderados. Esto sugiere que el rendimiento del prototipo es bastante competitivo, dadas los recursos de infraestructura utilizados en la investigación. Sin embargo, se observa que la escalabilidad del diseño podría mejorarse mediante la optimización de estos recursos y la mejora del modelo.