A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras

AtoZ

Endereço:
Universidade Federal do ParanáSetor de Ciências Sociais Aplicadas // Av. Prefeito Lothário Meissner, 632 - Campus III - Jardim Botânico
Curitiba / PR
80210-170
Site: http://www.revistas.ufpr.br/atoz
Telefone: (04) 1336-0419
ISSN: 2237-826X
Editor Chefe: Profª. Drª. Maria do Carmo Duarte Freitas
Início Publicação: 31/07/2011
Periodicidade: Semestral
Área de Estudo: Ciência da computação, Área de Estudo: Administração, Área de Estudo: Ciência da informação, Área de Estudo: Comunicação, Área de Estudo: Multidisciplinar

A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras

Ano: 2014 | Volume: 3 | Número: 2
Autores: J. de J. Costa, F. C. Bernardini, J. Viterbo Filho
Autor Correspondente: J. de J. Costa | [email protected]

Palavras-chave: dados governamentais abertos, mineração de dados, regras de associação, descoberta de conhecimento em bases de dados

Resumos Cadastrados

Resumo Português:

Introdução: Apresenta e analisa os resultados encontrados com a aplicação do processo de Mineração de Dados nos boletins de ocorrências de rodovias federais brasileiras gerados pela Polícia Rodoviária Federal (PRF) em 2012. O objetivo desse trabalho é analisar a viabilidade da aplicação do processo de Mineração de Dados sobre os dados fornecidos pela PRF, a fim de identificar associações entre variáveis relacionadas aos acidentes de trânsito em todas as rodovias federais. Método: Empregaram-se algoritmos de aprendizado supervisionado e simbólico e um algoritmo de regras de associação, ambos implementados na ferramenta Weka. Quanto à base de dados o estudo compreende os registros referentes ao ano de 2012. Sobre essa parcela da base de dados aplicou-se a etapa de pré-processamento dos dados, os quais foram utilizados para extração dos modelos e padrões na ferramenta Weka e, por último, avaliaram-se os modelos e os padrões extraídos. Resultados: No aprendizado supervisionado, os resultados obtidos com os algoritmos J48 e PART foram considerados promissores, pois para todas as classes de causas de acidente, os valores obtidos de área sob a curva ROC (AUC) estiveram acima de 0,5. Além disso, utilizando-se o algoritmo Apriori, foram geradas 38 regras de associação com confiança maior que 0,8. Conclusão: Conclui-se que é importante uma proposta de modelo para distribuição dos dados dessa base de dados, com o objetivo de utilizá-la para o processo de mineração de dados, bem como para outras tarefas de extração de conhecimento e tomada de decisão. Observa-se, ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados desde a fase de coleta, ou seja, nos sistemas para cadastro dos dados.



Resumo Inglês:

Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.



Resumo Espanhol:

Introducción: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minería de datos en los boletines de ocurrencias de las carreteras federales brasileñas generadas por la Policía Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicación de la proceso de minería de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de tránsito en las autopistas federales brasileñas. Método: Se utilizó algoritmos simbólicos de aprendizaje supervisado, así como un algoritmo de generación de reglas de asociación, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevó a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracción de modelos y patrones en la herramienta Weka y, por último, evaluado los modelos y patrones extraídos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de área bajo la curva ROC (AUC) fueron superiores a 0,5. Además, utilizando el algoritmo Apriori se han generado 38 reglas de asociación con la confianza mayor que 0,8. Conclusiones: Se concluyó que es importante proponer un modelo para la distribución de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minería de datos, así como otras tareas de extracción de conocimiento y toma de decisiones. Se observó aún, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilación de datos, es decir, en los mismos sistemas utilizados para grabar los datos.