Posição hidrológica multiordem para a Europa — um conjunto de recursos para aprendizado de máquina e análise em hidrologia

blog

LarLar / blog / Posição hidrológica multiordem para a Europa — um conjunto de recursos para aprendizado de máquina e análise em hidrologia

Jun 22, 2024

Posição hidrológica multiordem para a Europa — um conjunto de recursos para aprendizado de máquina e análise em hidrologia

Scientific Data volume 9, Artigo número: 662 (2022) Citar este artigo 1083 Acessos 5 detalhes de Altmetric Metrics O conjunto de dados apresentado EU-MOHP v013.1.1 fornece informações multiescala sobre o

Dados científicos volume 9, número do artigo: 662 (2022) Citar este artigo

1083 Acessos

5 Altmétrico

Detalhes das métricas

O conjunto de dados EU-MOHP v013.1.1 apresentado fornece informações multiescala sobre a posição hidrológica (MOHP) de um ponto geográfico dentro da sua respectiva rede fluvial e captação como mapas em grade. Mais precisamente, compreende as três medidas “divisão até a distância do riacho” (DSD) como soma das distâncias até o riacho mais próximo e divisão da bacia hidrográfica, “posição lateral” (LP) como medida relativa da posição entre o riacho mais próximo e a divisão e “distância do fluxo” (SD) como a distância até o fluxo mais próximo. Estas três medidas são calculadas para nove ordens hidrológicas para refletir diferentes escalas espaciais, do local ao continental. A sua extensão espacial abrange grandes partes do Espaço Económico Europeu (EEE39), que também coincide em grande parte com a Europa fisiográfica. Embora existam vários casos de uso potenciais, este conjunto de dados serve predominantemente como valioso descritor ambiental estático ou variável preditora para modelagem hidrogeológica e hidrológica, como tarefas de mapeamento ou previsão usando aprendizado de máquina. A geração deste conjunto de dados utiliza apenas software de código aberto gratuito e, portanto, pode ser transferido para outras regiões ou conjuntos de dados de entrada.

Medidas)

dividir para distância do riacho • posição lateral • distância do riacho

Tipo(s) de tecnologia

sensoriamento remoto

Característica da Amostra - Meio Ambiente

bacia de drenagem • bacia hidrográfica subterrânea • captação

Característica da Amostra - Localização

Europa

Nos últimos anos, ferramentas de ciência de dados, como o aprendizado de máquina, são cada vez mais aplicadas e desenvolvidas especificamente para desafios hidro(geo)lógicos e questões de pesquisa1,2. No campo da hidrogeologia, o aprendizado de máquina tem sido utilizado com sucesso para previsão do nível das águas subterrâneas e uma variedade de tarefas de mapeamento3,4,5,6,7,8,9,10,11,12,13. Como os modelos de aprendizado de máquina — com exceção dos modelos híbridos ou guiados pela física — são baseados puramente em dados, sem qualquer conhecimento de processos físicos, é importante fornecer recursos significativos (também chamados de variáveis ​​preditoras ou explicativas) que afetem a variável alvo, de modo que que o algoritmo de aprendizado de máquina pode modelar a função entre a entrada e o destino. Para processos superficiais e próximos à superfície, este critério pode ser mais ou menos cumprido pela disponibilidade de dados de sensoriamento remoto, enquanto que para a modelagem de processos subterrâneos, como na hidrogeologia, isso representa um sério desafio.

A principal motivação para este conjunto de dados é preencher parcialmente esta lacuna, fornecendo um conjunto de características que introduzem o contexto hidrológico aos modelos de aprendizagem de máquina em relação à posição horizontal de um ponto dentro da sua bacia hidrográfica. As três medidas – determinadas por esta posição horizontal – são calculadas para diversas ordens ditas hidrológicas. As ordens hidrológicas representam diferentes escalas espaciais, do local ao regional e ao continental. Portanto, as medidas servem como substitutos das características geofísicas dos sistemas hidrológicos em múltiplas escalas e complementam características comumente disponíveis e utilizadas, como uso e cobertura da terra, mapas geológicos ou de solo. Este conjunto de dados é fortemente inspirado em Belitz et al.14 e adapta as suas ideias e métodos à “Base de dados da rede EU-Hydro - River”15 mas — em contraste — utiliza software de código aberto gratuito e um forte foco na reprodutibilidade. Este conceito poderia ser estendido espacialmente aplicando os métodos apresentados à rede fluvial global ou conjuntos de dados de hidrogramas, como HYDRO1k16 ou MERIT Hydro-Vector17. Para informações mais detalhadas sobre o conceito e métodos, referimo-nos a Belitz et al.14.

Em seu estudo, Belitz et al.14 também fornecem resultados de estudos de caso para provar que a posição hidrológica multiordem é uma característica valiosa ao mapear diversas variáveis ​​alvo geofísicas usando aprendizado de máquina. Seu benefício para o desempenho de modelos de aprendizado de máquina também foi reconhecido por diversos outros estudos7,18,19.

 = i are used, whereas those with stream order _public_beta_v009.gpkg” and the second with “euhydro__v011.gpkg”. The coastline data is stored in a single Shapefile (.shp) file (see Fig. 4b). All files have a total size of approximately 14 GB when unzipped./p>___.tif”. The placeholders including “<” and “>” can be theoretically replaced by any combination of the values summarized in Table 2. But not all study area polygons have a river network for each hydrologic order. For example, the study area polygon for the island of Sardinia only has rivers up to a maximum streamorder of 6 and therefore only a maximum hydrologic order of 6. This means that there are no GeoTIFF files for Sardinia for hydrologic orders 7–9. Therefore, the total number of files is \({n}_{measures}\cdot {\sum }_{i=1}^{{n}_{hydrologicorders}}{n}_{studyareapolygons,i}=3\cdot {\sum }_{i=1}^{9}{n}_{studyareapolygons,i}=192\)./p> = dsd”). If required, a potential solution to this could be to fill these NA cells with values from the nearest non-NA grid cell as a simple approximation./p>, proxy = TRUE) before applying st_crop(). To simplify some of the previous steps, we developed the R package eumohpclipr (https://github.com/MxNl/eumohpclipr/)33. This package provides functionality to mosaic, crop or clip and plot the EU-MOHP dataset20. For a fast raster cell value extraction based on polygons, the R package exactextractr (https://github.com/isciences/exactextractr)34 is recommended./p> = lp”) must be divided by 100 to obtain percentages with two decimal digits or by 10,000 to obtain values in the range from 0 to 1. The cell values of all other files represent a distance in meters and can be used as is. All files are stored using the coordinate reference system (CRS) ETRS89-extended/LAEA Europe with the EPSG code 3035./p>