Este artigo descreve o processo de descoberta de conhecimento utilizando base de dados da Secretaria da Fazenda de Pernambuco. As atividades desempenhadas consistem no préprocessamento dos dados, limpeza, mineração e avaliação dos resultados obtidos. O órgão governamental possui a necessidade de classificar e identificar perfis de empresas com maior potencial de se comportarem de maneira irregular em relação a legislação dos impostos estaduais. Portanto, o objetivo deste trabalho consistiu em aplicar algoritmos de Mineração de Dados, através das tarefas de classificação e clusterização. Os resultados apontam para uma maior taxa de acerto com o classificador Random Forests e identificou níveis de empresas nocivas na base de dados através dos algoritmos de clusterização.
This article describes the process of knowledge discovery using the database of the Pernambuco Department of Finance. The activities performed consist of data pre-processing, cleaning, mining and evaluation of the results obtained. The government agency has the need to classify and identify profiles of companies with greater potential to behave in an irregular manner in relation to the state taxes legislation. Therefore, the objective of this work was to apply Data Mining algorithms, through the tasks of classification and clustering. The results point to a higher hit rate with the Random Forests classifier and identified levels of noxious companies in the database through clustering algorithms.