Este artigo descreve a construção de um corpus de textos, o qual é formado por artigos científicos, no domínio educacional, trazendo as estatísticas que o compõem. Com este trabalho, pretendese obter um corpus que torne possíveis diversas pesquisas na área de Processamento de Linguagem Natural e especificamente na área de Sumarização Automática, para possibilitar análise da performance de sumarizadores na Língua Portuguesa.
This article describes the construction of a Portuguese texts corpus in the educational domain. The corpus consists of scientific articles. The work also brings the statistics that make up this corpus. This work aims to obtain a corpus which make possible several research in natural language processing area and specifically in Automatic Summarization area to enable analysis of summarizers performance in Portuguese.