II Simposio Internacional sobre "Generación y Transferencia de Conocimiento para la Transformación Digital"
SITIC2023
Resumen
El uso de sistemas conversacionales basados en grandes modelos lingüísticos está ganando impulso en la industria, principalmente en contextos en los que un chatbot puede ayudar en tareas sencillas respondiendo a preguntas o recuperando información. Hay situaciones en las que los sistemas conversacionales deben responder a preguntas generales del dominio y otros casos en los que se responde a preguntas específicas del dominio a partir de una base de conocimientos previamente construida. Por otro lado, es costoso desde el punto de vista computacional afinar un modelo neural de lenguaje como el GPT-3. Sin embargo, estos modelos realizan una tarea nueva a partir de su descripción. Por lo tanto, se propone desarrollar un modelo basado en el transformador de frases entrenado mediante ajuste fino de pocos disparos. Se describe la metodología experimental y la construcción del conjunto de datos. Se realiza el ajuste de hiperparámetros del modelo y se comparan los resultados bajo diferentes regímenes de entrenamiento. Con el modelo de clasificación de intenciones es posible detectar si el usuario está realizando una interacción para solicitar datos a un usuario virtual en la conversación o está realizando preguntas de propósito general.
Abstract
The use of conversational systems based on large language models is gaining momentum in the industry, mainly in contexts where a chatbot can assist in simple tasks by answering questions or retrieving information. There are situations where conversational systems must answer general domain questions and other cases where domain specific questions are answered from a previously built knowledge base. On the other hand, it is computationally expensive to fine-tune a neural language model such as GPT-3. However, these models perform a new task based on their description. Therefore, we propose to develop a model based on sentence transformer trained by few-shot fine-tuning. The experimental methodology and the construction of the data set are described. We perform the hyperparameter tuning of the model and compare the results under different training regimes. With the intent classification model it is possible to detect whether the user is performing an interaction to request data from a virtual user in the conversation or is asking general purpose questions.
Sobre el ponente
Orlando Grabiel Toledano López
Discussion