Preprocesamiento de Datos

Preprocesamiento y limpieza de Datos in situ.

Temperatura

Datos sin filtrar

La serie de tiempo para la temperatura in situ presenta datos erróneos desde el año 2013 en adelante como se observa en la Figura 1. Se encuentran máximos de aproximadamente 50°C y mínimos de -40°C, físicamente imposibles de darse en la locación escogida para la investigación. Además, entre 2014 y 2015 se presenta información de 0°C consecutivamente durante días e incluso meses.

Estos errores se pueden deber a errores de instrumentación e influyen bastante a la distribución estadística de la información que se gráfica mediante diagrama de caja e histograma en la Figura 2, donde $\sigma$ es la desviación estandar, $\mu$ la media y $n$ el número de datos.

img-name
Fig. 1. Serie de tiempo Temperatura in situ sin Filtrar

img-name
Fig. 2. Boxplot e Histograma de Temperatura in situ sin Filtrar

Para solucionar los outliers presentados en la serie de tiempo de temperatura se propone la metodología del diagrama de bloques de la Figura 3.

img-name
Fig. 3. Diagrama de Bloques de Preprocesamiento de Datos de Temperatura in situ.

Datos filtrados

Después del proceso de limpieza de datos para la temperatura in situ se observa en la Figura 4 como la información se agrupa dentro del rango 0 a 25°C. Los datos toman una distribución normal con una media de 11.4°C, lo cual se diagrama en el histograma de la Figura 5.

img-name
Fig. 4. Serie de tiempo Temperatura in situ Filtrada

img-name
Fig. 5. Boxplot e Histograma de Temperatura in situ Filtrada

Humedad Relativa

La serie de tiempo para la Humedad Relativa in situ presenta datos erróneos dispersos a lo largo de toda la serie y sobretodo en el periodo 2007 a 2009. Al igual que con la temperatura se presenta información de 0% consecutivamente durante días e incluso meses.

Estos errores se pueden deber a errores de instrumentación e influyen bastante a la distribución estadística de la información que se gráfica mediante diagrama de caja e histograma en la Figura 7, donde $\sigma$ es la desviación estandar, $\mu$ la media y $n$ el número de datos.

Datos sin filtrar

img-name
Fig. 6. Serie de tiempo Humedad Relativa in situ sin Filtrar

img-name
Fig. 7. Boxplot e Histograma de Humedad Relativa in situ sin Filtrar

Para solucionar los outliers presentados en la serie de tiempo de Humedad Relativa se propone la metodología del diagrama de bloques de la Figura 8.

img-name
Fig. 8. Diagrama de Bloques de Preprocesamiento de Datos de Humedad Relativa in situ.

Datos filtrados

Después del proceso de limpieza de datos para la Humedad Relativa in situ se observa en la Figura 9 como la información se agrupa dentro del rango 25 a 100%. Los datos toman una distribución normal de sesgo negativo con una media de 83%, lo cual se diagrama en el histograma de la Figura 10.

img-name
Fig. 9. Serie de tiempo Humedad Relativa in situ Filtrada

img-name
Fig. 10. Boxplot e Histograma de Humedad Relativa in situ Filtrada

Velocidad del Viento

Tanto en la Figura 11 como en la Figura 12 que representan la serie de tiempo de Velocidad del Viento, no se resaltan mediciones fuera del rango normal que produzcan problemas al modelo. Sin embargo ante probables outliers dados por errores de instrumentación se propone la metodología del diagrama de bloques de la Figura 13.

Datos sin filtrar

img-name
Fig. 11. Serie de tiempo Velocidad del Viento in situ sin Filtrar

img-name
Fig. 12. Boxplot e Histograma de Velocidad del Viento in situ sin Filtrar

img-name
Fig. 13. Diagrama de Bloques de Preprocesamiento de Datos de Velocidad del Viento in situ.

Datos filtrados

Tras del proceso de limpieza de datos para la Velocidad del Viento in situ se observa en la Figura 14 como la información se agrupa dentro del rango 0 a 10 m/s. Los datos toman una distribución normal de sesgo positivo con una media de 2.5 m/s, lo cual se diagrama en el histograma de la Figura 15.

img-name
Fig. 14. Serie de tiempo Velocidad del Viento in situ Filtrada

img-name
Fig. 15. Boxplot e Histograma de Velocidad del Viento in situ Filtrada

Radiación Solar

Tanto en la Figura 16 como en la Figura 17 que representan la serie de tiempo de Radiación Solar, no se resaltan mediciones fuera del rango normal que produzcan problemas al modelo. Sin embargo ante probables outliers dados por errores de instrumentación se propone la metodología del diagrama de bloques de la Figura 18.

Datos sin filtrar

img-name
Fig. 16. Serie de tiempo Radiación Solar in situ sin Filtrar

img-name
Fig. 17. Boxplot e Histograma de Radiación Solar in situ sin Filtrar

img-name
Fig. 18. Diagrama de Bloques de Preprocesamiento de Datos de Radiación Solar in situ.

Datos filtrados

Tras del proceso de limpieza de datos para la Velocidad del Viento in situ se observa en la Figura 19 como la información se agrupa dentro del rango 0 a 1000 wh/m$^2$. Los datos, con una media de 156 wh/m$^2$, no toman una distribución normal debido a la gran cantidad de mediciones de 0 wh/m$^2$ que se dan en la noche cuando el sol no esta presente en el cielo, lo cual se diagrama en el histograma de la Figura 20.

img-name
Fig. 19. Serie de tiempo Radiación Solar in situ Filtrada

img-name
Fig. 20. Boxplot e Histograma de Radiación Solar in situ Filtrada