Aprimorando a classificação de descrições de produtos em português com a utilização de técnicas da recuperação de informação: uma abordagem de agrupamento de descrições

Em Questão

Endereço:
Rua Ramiro Barcelos 2705, sala 519
Porto Alegre / RS
90035 007
Site: http://seer.ufrgs.br/EmQuestao
Telefone: (51) 3308-2141
ISSN: 1808-5245
Editor Chefe: Samile Andréa de Souza Vanz
Início Publicação: 01/01/1986
Periodicidade: Quinzenal
Área de Estudo: Ciências Sociais Aplicadas, Área de Estudo: Ciência da informação

Aprimorando a classificação de descrições de produtos em português com a utilização de técnicas da recuperação de informação: uma abordagem de agrupamento de descrições

Ano: 2024 | Volume: 30 | Número: Não se aplica
Autores: Gilsiley Henrique Daru, Gustavo Valentim Loch, Daniel Felipe Pietezak
Autor Correspondente: Gilsiley Henrique Daru | [email protected]

Palavras-chave: aprendizado de máquina, processamento de linguagem natural, classificação de texto, descrição do produto, texto curto, bag of words, frequência de termos, frequência inversa de documentos

Resumos Cadastrados

Resumo Português:

A crescente demanda por sistemas automatizados de classificação de produtos em plataformas de e-commerce impulsionou a busca por soluções eficientes para a categorização de produtos, especialmente em português. Este estudo investiga a adaptação de técnicas clássicas de recuperação da informação, como bag-of-words, TF e TF-IDF, para a tarefa de classificar descrições curtas de produtos. A pesquisa avalia diferentes estratégias de pré-processamento e tokenização, incluindo a análise do impacto da normalização. Os resultados demonstraram que métodos simples de recuperação da informação, quando combinados com pré-processamento adequado e otimização de parâmetros, podem alcançar desempenho significativamente superior.



Resumo Inglês:

The growing demand for automated product classification systems in e-commerce platforms has fueled the search for efficient solutions for product categorization, particularly in Portuguese. This study investigates the adaptation of classical information retrieval techniques, such as bag-of-words, TF, and TF-IDF, for the task of classifying short product descriptions. The research evaluates different preprocessing and tokenization strategies, including analyzing normalization impact. The results show that simple information retrieval methods, when combined with appropriate preprocessing and parameter optimization, can achieve significantly superior performance.