Simposio “Transferencia de Conocimiento en Tecnologías de la Información”
Resumen
El uso de aplicaciones y sistemas dentro de estos entornos genera un enorme cúmulo de información y datos que son desaprovechados a causa de que la misma no está estructurada, por lo que de nada sirve tener un gran volumen de datos donde no se puede extraer el valor de la información. La detección de tópicos consiste en descubrir las estructuras semánticas subyacentes en documentos y buscar similitudes entre textos. Esta tiene como propósito colocar de forma automática, documentos dentro de un número fijo de categorías (temas o clases) predefinidas, en función de su contenido. El presente trabajo propone desarrollar un método que permita identificar tópicos en los mensajes emitidos en la red de mensajería instantánea de la Universidad de las Ciencias Informáticas (UCI). Se describió el procedimiento que sigue el método presentado, se analiza el funcionamiento del modelo Latent Dirichelt Allocation (LDA) para la detección y se realizaron validaciones en aras de verificar la calidad de la solución. Como resultado final se obtienen visualizaciones de los tópicos, así como las palabras claves representativas de cada uno, lo que puede ser usado para la toma de desiciones.
Abstract
The use of applications and systems within these environments generates a huge accumulation of information and data that is wasted because it is not structured, so it is useless to have a large volume of data where the value cannot be extracted of the information. Topic detection consists of discovering the underlying semantic structures in documents and looking for similarities between texts. The idea is to automatically place documents within a fixed number of predefined categories (topics or classes), depending on their content. The present work proposes to develop a method that allows to identify topics in the messages emitted in the instant messaging network of the University of Informatics Sciences (UCI). The procedure followed by the presented method was described, the operation of the Latent Dirichelt Allocation (LDA) model for detection was analyzed and validations were carried out in order to verify the quality of the solution. As a final result, visualizations of the topics are obtained, as well as the representative keywords of each one, which can be used for making decisions.
Sobre el ponente
Prof. Vladimir Milián Núñez