Machine-learning methods for hydrological imputation data: analysis of the goodness of fit of the model in hydrographic systems of the Pacific - Ecuador

Revista Ambiente E Água

Endereço:
Estrada Mun. Dr. José Luiz Cembranelli, 5.000 - Bairro Itaim
Taubaté / SP
0
Site: http://www.agro.unitau.br/seer/index.php/ambi-agua/index
Telefone: (12) 3625-4212
ISSN: 1980993X
Editor Chefe: Nelson Wellausen Dias
Início Publicação: 31/07/2006
Periodicidade: Quadrimestral
Área de Estudo: Ciências Agrárias, Área de Estudo: Ciências Biológicas, Área de Estudo: Ciências Exatas, Área de Estudo: Engenharias, Área de Estudo: Multidisciplinar

Machine-learning methods for hydrological imputation data: analysis of the goodness of fit of the model in hydrographic systems of the Pacific - Ecuador

Ano: 2021 | Volume: 16 | Número: 3
Autores: Diego Heras ; Carlos Matovelle
Autor Correspondente: Carlos Matovelle | [email protected]

Palavras-chave: data imputation, hydrographic systems, machine learning

Resumos Cadastrados

Resumo Português:

Métodos computacionais baseados em aprendizado de máquina tiveram amplo desenvolvimento e aplicação em hidrologia, especialmente para modelagem de sistemas que não possuem dados suficientes. Dentro deste problema faltam séries de dados que não devem ser necessariamente descartadas. Isso é feito por meio da imputação das mesmas obtendo-se conjuntos completos. Por este motivo, esta pesquisa propõe uma comparação de técnicas de aprendizagem computacional para identificar aquelas mais adequadas aos sistemas hidrográficos do Pacífico do Equador pelo interesse representado pelo estudo destes sistemas por complementaridade hidrológica. Para a elaboração desta investigação foram utilizados os registros hidrometeorológicos das estações de monitoramento localizadas nas bacias dos rios Esmeraldas, Cañar e Jubones durante 22 anos, compreendidos entre 1990 e 2012. As variáveis imputadas foram precipitação e vazão. Foram utilizadas máquinas de aprendizagem automática do módulo Python Scikit_Learn; esses módulos integram uma ampla gama de algoritmos de aprendizagem automatizados, como Linear Regression e Random Forest. Finalmente, foram obtidos resultados que levaram a um erro quadrático médio útil mínimo para Random Forest como um método de imputação de aprendizado de máquina automático que melhor se ajusta aos sistemas e dados analisados.

Palavras-chave: aprendizado de máquina, imputação de dados, sistemas hidrográficos.



Resumo Inglês:

Computational methods based on machine learning have had extensive development and application in hydrology, especially for modelling systems that do not have enough data. Within this problem, there are data series that are missing, and that should not necessarily be discarded; this is achieved by means of the imputation of the same ones, obtaining complete sets. For this reason, this research proposes a comparison of computer-learning techniques to identify those best suited for hydrographic systems of the Pacific of Ecuador. For the elaboration of this investigation, the hydro-meteorological records of the monitoring stations located in the watersheds of the Esmeraldas, Cañar and Jubones Rivers were used for 22 years, between 1990 and 2012. The variables that were imputed were precipitation and flow. Automatic learning machines of the Python Scikit_Learn module were used; these modules integrate a wide range of automated learning algorithms, such as Linear Regression and Random Forest. Finally, results were obtained that led to a minimum useful mean square error for Random Forest as an automatic machine-learning imputation method that best fits the systems and data analyzed