Uso de deep learning para a construção de um modelo de recuperação da informação aplicado para o setor de mineração no Brasil

Em Questão

Endereço:
Rua Ramiro Barcelos 2705, sala 519
Porto Alegre / RS
90035 007
Site: http://seer.ufrgs.br/EmQuestao
Telefone: (51) 3308-2141
ISSN: 1808-5245
Editor Chefe: Samile Andréa de Souza Vanz
Início Publicação: 01/01/1986
Periodicidade: Quinzenal
Área de Estudo: Ciências Sociais Aplicadas, Área de Estudo: Ciência da informação

Uso de deep learning para a construção de um modelo de recuperação da informação aplicado para o setor de mineração no Brasil

Ano: 2024 | Volume: 30 | Número: Não se aplica
Autores: Luander Cipriano de Jesus Falcão, Brenner Lopes, Renato Rocha Souza, Ricardo Rodrigues Barbosa
Autor Correspondente: Ricardo Rodrigues Barbosa | [email protected]

Palavras-chave: processamento de linguagem natural, deep learning, bert, ats, mineração

Resumos Cadastrados

Resumo Português:

Diante do crescimento exponencial de dados e informações, proporcionado por sensores e mídias sociais, um ecossistema composto por novas infraestruturas de armazenamento e processamento, denominado Big Data, foi desenvolvido. Todo esse desenvolvimento redundou em uma nova área do conhecimento, denominada Ciência de Dados. Apesar de haver um ecossistema e uma área do conhecimento para tratar esse bloco massivo de dados e informação, o incomodo da superabundância de dados ainda permanece, e se torna mais expressivo quando as empresas tomam consciência que podem usar zetabytes de dados e informações para direcionarem a estratégia e as operações. Baseado nisso, essa pesquisa buscou desenvolver um método para resumir as notícias do setor de mineração do Brasil, identificando o efeito da similaridade semântica na análise, possibilitando a recuperação da informação e uso em processos de compreensão do setor. Nesse método foi aplicado o transformer BERTSUM para sumarizar as notícias, e após sumarizadas o transformer BERT foi aplicado para medir a similaridade entre as notícias. O método permitiu reduzir em 75% todo o bloco de texto, retirar notícias com o mesmo teor semântico, e deduzir que há um padrão no discurso das notícias relacionadas ao setor de mineração.



Resumo Inglês:

Faced with the exponential growth of data and information, provided by sensors and social media, an ecosystem composed of new storage and processing infrastructures, called Big Data, was developed. All this development resulted in a new area of knowledge, called Data Science. Despite there being an ecosystem and an area of knowledge to deal with this massive block of data and information, the discomfort of an overabundance of data still remains and becomes more significant when companies become aware that they can use zettabytes of data and information to direct their strategy and operations. Based on this, this research sought to develop a method to summarize news from the mining sector in Brazil, identifying the effect of semantic similarity in the analysis, enabling information retrieval and use in processes of understanding the sector. In this method, the BERTSUM transformer was applied to summarize the news, and after summarizing, the BERT transformer was applied to measure the similarity between the news. The method made it possible to reduce the entire block of text by 75%, remove news with the same semantic content, and deduce that there is a pattern in the discourse of news related to the mining sector.