A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras

Resumo Português:

IntroduÃ§Ã£o: Apresenta e analisa os resultados encontrados com a aplicaÃ§Ã£o do processo de MineraÃ§Ã£o de Dados nos boletins de ocorrÃªncias de rodovias federais brasileiras gerados pela PolÃcia RodoviÃ¡ria Federal (PRF) em 2012. O objetivo desse trabalho Ã© analisar a viabilidade da aplicaÃ§Ã£o do processo de MineraÃ§Ã£o de Dados sobre os dados fornecidos pela PRF, a fim de identificar associaÃ§Ãµes entre variÃ¡veis relacionadas aos acidentes de trÃ¢nsito em todas as rodovias federais. MÃ©todo: Empregaram-se algoritmos de aprendizado supervisionado e simbÃ³lico e um algoritmo de regras de associaÃ§Ã£o, ambos implementados na ferramenta Weka. Quanto Ã base de dados o estudo compreende os registros referentes ao ano de 2012. Sobre essa parcela da base de dados aplicou-se a etapa de prÃ©-processamento dos dados, os quais foram utilizados para extraÃ§Ã£o dos modelos e padrÃµes na ferramenta Weka e, por Ãºltimo, avaliaram-se os modelos e os padrÃµes extraÃdos. Resultados: No aprendizado supervisionado, os resultados obtidos com os algoritmos J48 e PART foram considerados promissores, pois para todas as classes de causas de acidente, os valores obtidos de Ã¡rea sob a curva ROC (AUC) estiveram acima de 0,5. AlÃ©m disso, utilizando-se o algoritmo Apriori, foram geradas 38 regras de associaÃ§Ã£o com confianÃ§a maior que 0,8. ConclusÃ£o: Conclui-se que Ã© importante uma proposta de modelo para distribuiÃ§Ã£o dos dados dessa base de dados, com o objetivo de utilizÃ¡-la para o processo de mineraÃ§Ã£o de dados, bem como para outras tarefas de extraÃ§Ã£o de conhecimento e tomada de decisÃ£o. Observa-se, ainda, a necessidade de melhoria da qualidade dos dados a serem disponibilizados desde a fase de coleta, ou seja, nos sistemas para cadastro dos dados.

Resumo Inglês:

Introduction: This paper presents and analyzes the results obtained when applying Data Mining process in the bulletins of occurrences of the Brazilian federal highways generated by the Federal Highway Police (PRF) in 2012. The purpose of this work is to analyze the feasibility of implementing the Data Mining process on data provided by PRF in order to identify associations between variables related to transit accidents in all Brazilian federal highways. Method: It was used symbolic supervised learning algorithms, as well as an algorithm of generation of association rules, implemented in Weka tool. Regarding the database, it was used the records of 2012. On this portion of the database it was conducted the step of data preprocessing, which were used for extracting models and patterns in the Weka tool and, lastly, evaluated the models and extracted patterns. Results: In supervised learning, the results obtained with J48 and PART algorithms have been considered promising due to the fact that for all classes of accidents causes, the values of area under the ROC curve (AUC) were above 0.5. Furthermore, using the Apriori algorithm there have been generated 38 association rules with confidence greater than 0.8. Conclusions: It was concluded that is important to propose a model for data distribution of this database, in order to use it for data mining process, as well as other knowledge extraction tasks and decision making. It was noted still, the need to improve the quality of data to be provided from the initial stage of data gathering, that is, in the very systems used to record the data.

Resumo Espanhol:

IntroducciÃ³n: Este trabajo presenta y analiza los resultados obtenidos al aplicar el proceso de minerÃa de datos en los boletines de ocurrencias de las carreteras federales brasileÃ±as generadas por la PolicÃa Federal de Carreteras (PRF) en 2012. El objetivo de este trabajo es analizar la viabilidad de la aplicaciÃ³n de la proceso de minerÃa de datos en los datos proporcionados por PRF con el fin de identificar asociaciones entre las variables relacionadas con los accidentes de trÃ¡nsito en las autopistas federales brasileÃ±as. MÃ©todo: Se utilizÃ³ algoritmos simbÃ³licos de aprendizaje supervisado, asÃ como un algoritmo de generaciÃ³n de reglas de asociaciÃ³n, implementados en la herramienta Weka. En cuanto a la base de datos, se ha usado los registros de 2012. En esta parte de la base de datos se llevÃ³ a cabo la etapa de preprocesamiento de datos, que fueron utilizados para la extracciÃ³n de modelos y patrones en la herramienta Weka y, por Ãºltimo, evaluado los modelos y patrones extraÃdos. Resultados: En el aprendizaje supervisado, los resultados obtenidos con los algoritmos de J48 y PARTE se han considerado prometedores debido al hecho de que para todas las clases de causas de accidentes, los valores de Ã¡rea bajo la curva ROC (AUC) fueron superiores a 0,5. AdemÃ¡s, utilizando el algoritmo Apriori se han generado 38 reglas de asociaciÃ³n con la confianza mayor que 0,8. Conclusiones: Se concluyÃ³ que es importante proponer un modelo para la distribuciÃ³n de los datos de esta base de datos, con el fin de utilizarlo para el proceso de minerÃa de datos, asÃ como otras tareas de extracciÃ³n de conocimiento y toma de decisiones. Se observÃ³ aÃºn, la necesidad de mejorar la calidad de los datos que se proporciona desde la etapa inicial de recopilaciÃ³n de datos, es decir, en los mismos sistemas utilizados para grabar los datos.

A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras

AtoZ

(Voltar ao Artigos da Revista: AtoZ)

A mineração de dados e a qualidade de conhecimentos extraídos dos boletins de ocorrência das rodovias federais brasileiras

Resumos Cadastrados

Resumo Português:

Resumo Inglês:

Resumo Espanhol: