Utilização de Dataflow para previsão de aceitação de respostas no fórum StackOverflow.com

REPA - Revista de Engenharia e Pesquisa Aplicada

Endereço:
Rua Benfica, n. 455 - Madalena
Recife / PE
50720001
Site: http://revistas.poli.br/index.php/repa/index
Telefone: (81) 3184-7513
ISSN: 2525-4251
Editor Chefe: Diego José Rátiva Millan
Início Publicação: 01/10/2018
Periodicidade: Quadrimestral
Área de Estudo: Ciências Exatas, Área de Estudo: Engenharias

Utilização de Dataflow para previsão de aceitação de respostas no fórum StackOverflow.com

Ano: 2018 | Volume: 3 | Número: 3
Autores: T. A. de Araújo, J. B. Rodrigues
Autor Correspondente: T. A. de Araújo | [email protected]

Palavras-chave: Big Data; Aprendizado de Máquina; Dataflow; Apache Beam;

Resumos Cadastrados

Resumo Português:

Nos últimos anos processar dados em larga escala tem sido um grande desafio, sendo, para isso, necessária a utilização de sistemas de alto desempenho para esse processamento. Este trabalho tem como objetivo apresentar um framework que permita que seja desempenhada essa função de forma rápida e simples, tirando proveito da estrutura do DataFlow para processamento de Big Data. A análise realizada é do tipo preditiva, em uma base disponibilizada on-line. A partir dela, será mostrado o uso do framework e se procurará verificar se o modelo gerado teve sucesso ou não. Os indicadores usados para essa comprovação serão a acurácia, a curva ROC, a especificidade e a sensitividade. Como resultado, espera-se extrair conhecimento sobre a aplicação do framework DataFlow para análise de grandes quantidades de dados e mostrar algumas vantagens no seu uso prático.



Resumo Inglês:

In recent years large-scale data processing has been a major challenge, requiring the use of highperformance systems for this processing. This work aims to present a framework that allows this function to be performed quickly and easily, taking advantage of the DataFlow structure for Big Data processing. The analysis performed is of the predictive type, in a database made available online. From this, it will be shown the use of the framework and will try to verify if the model generated was successful or not. The indicators used for this verification will be the accuracy, the ROC curve, the specificity and the sensitivity. As a result, it is expected to extract knowledge about the application of the DataFlow framework for analyzing large amounts of data and to show some advantages in its practical use.