Estudo sobre multi-armed bandits

Revista Terra & Cultura

Endereço:
Rua Alagoas, 2050 - Centro
Londrina / PR
86020430
Site: http://periodicos.unifil.br/index.php/Revistateste/index
Telefone: (43) 3375-7448
ISSN: 0104-8112
Editor Chefe: Leandro Henrique Magalhães
Início Publicação: 01/09/1981
Periodicidade: Semestral
Área de Estudo: Multidisciplinar

Estudo sobre multi-armed bandits

Ano: 2023 | Volume: 39 | Número: Especial
Autores: Diogo Cardoso Fernandes, Mario Henrique Adaniya
Autor Correspondente: Diogo Cardoso Fernandes | [email protected]

Palavras-chave: multi-armed bandit, contextual bandit, reinforcement learning.

Resumos Cadastrados

Resumo Português:

Este trabalho analisa as classificações do algoritmo multi-Armed bandits (MAB) e os seus campos de aplicação, por ser um algoritmo genérico o MAB tem diversas aplicações atuais. Um algoritmo MAB refere-se à uma subclasse do aprendizado por reforço onde o algoritmo, tem um agente que segue um processo sequencial de decisão em que procura otimizar suas ações enquanto melhora seu conhecimento sobre as opções disponíveis no ambiente. Sendo estas aplicações de problema bandidos encontradas em várias áreas de pesquisa envolvendo desde sistemas de recomendações, teste clínicos, problemas de roteamento em redes cognitivas, pesquisa operacional, economia e estatística. O objetivo deste trabalho é realizar um estudo dos problemas bandidos e suas diferentes configurações, e encontrar na literatura quais passos serão abordados em trabalhos futuros.



Resumo Inglês:

This paper analyzes the classifications of the multi-armed bandits (MAB) algorithm and its fields of application. Since it is a generic algorithm, MAB has several current applications. A MAB algorithm refers to a subclass of reinforcement learning where the algorithm has an agent that follows a sequential decision process in which it seeks to optimize its actions while improving its knowledge about the options available in the environment. These bandit problem applications are found in several research areas involving recommendation systems, clinical trials, routing problems in cognitive networks, operations research, economics and statistics. The objective of this work is to carry out a study of bandit problems and their different configurations, and to find in the literature which steps will be addressed in future work.