Método de normalização de sintagmas nominais na indexação automática

Em Questão

Endereço:
Rua Ramiro Barcelos 2705, sala 519
Porto Alegre / RS
90035 007
Site: http://seer.ufrgs.br/EmQuestao
Telefone: (51) 3308-2141
ISSN: 1808-5245
Editor Chefe: Samile Andréa de Souza Vanz
Início Publicação: 01/01/1986
Periodicidade: Quinzenal
Área de Estudo: Ciências Sociais Aplicadas, Área de Estudo: Ciência da informação

Método de normalização de sintagmas nominais na indexação automática

Ano: 2019 | Volume: 25 | Número: 1
Autores: Renato Fernandes Corrêa, Victor Galvão Celerino
Autor Correspondente: Renato Fernandes Corrêa | [email protected]

Palavras-chave: Indexação automática. Sintagmas nominais. Normalização de sintagmas nominais. Palavras-chave. Tesauro

Resumos Cadastrados

Resumo Português:

Propõe e avalia um método de normalização de sintagmas nominais em termos canônicos, que visa contribuir para a melhora qualitativa da indexação automática, evitando a dispersão terminológica e preservando as palavras-chave dos autores, presentes no interior dos sintagmas nominais. A pesquisa é exploratória e empírica, pautada em pesquisa bibliográfica e realização de um experimento em um corpus de artigos científicos da área de Ciência da Informação. O método proposto é constituído por regras e critérios de normalização que obedecem às restrições de preservação da estrutura válida do sintagma nominal e das palavras-chave. O método proposto é avaliado através da presença de termos do Tesauro Brasileiro em Ciência da Informação (TBCI) nos sintagmas nominais resultantes da aplicação das regras e critérios. O método consiste em duas etapas: a primeira é composta por 85 regras para minimizar os sintagmas nominais extensos; a segunda etapa é composta por sete critérios responsáveis por eliminar dos sintagmas nominais elementos gramaticais desnecessários em sua estrutura. Os resultados da avaliação indicam que o método de normalização permite o alcance de resultados positivos, mesmo com dois critérios da segunda etapa não apresentando resultados para o corpus utilizado. Conclui-se que a aplicação do método de normalização em sistema de indexação automática é viável e traz bons resultados.



Resumo Inglês:

This work proposes and evaluates a method of standardisation of noun phrases in canonical terms. This procedure aims to contribute to the qualitative improvement of automatic indexing avoiding the terminological dispersion and preserving the keywords present within the noun phrases. The research is exploratory and empirical, based on bibliographic research and an experiment in a corpus composed of scientific articles in Information Science. The proposed standardisation method contains rules and criteria that follow the constraints of preserving the valid structure of the noun phrase and the keywords. The method evaluation consists of the analysis of the presence of terms of the Brazilian Thesaurus in Information Science (TBCI) in the noun phrases resulting from the application of the proposed rules and criteria. The method consists of two stages: the first consists of 85 rules to reduce the size of the noun phrases, and the second stage contains seven criteria responsible for eliminating unnecessary grammatical elements from the noun phrases. The results of the evaluation indicate that the proposed method allows the achievement of positive results, even with two criteria of the second stage not presenting results for the corpus. It concludes that the application of the method in automatic indexing system is feasible and brings good results.