El ruido de las capitales (vol. 1)

El ruido de las capitales (vol. 1)

Bueno, en este caso de la capital. ¿Cuál es la hora más insoportablemente ruidosa de la Ciudad de Buenos Aires? ¿En qué momento se hace intolerable? Pregunta que podría ser abstracta si no fuera porque se han liberado algunos datos al respecto.

Bajamos de "Buenos Aires Data" el dataset que se llama "Contaminación sonora". Como el único año con todos los meses era el 2012 ese es el año que usamos.

Primero generamos el dataset y vamos limpiando y generando los campos de fecha:

library(lubridate)
library(ggplot2)
setwd("E:/PEN2/Bases de datos varias/Contaminacion Sonora CABA/Datos")
t<-read.csv("TMI.csv")
colnames(t)<-c("tmi","barrio","dir")

data_t<-read.csv(dir()[2],sep=";")
data_t$fecha<-as.character(data_t$fecha)
data_t$fecha1<-strptime(data_t$fecha,format="%Y-%m-%d %H:%M:%S")
data_t$year<-NA
data_t$year<-data_t$fecha1$year+1900
data_t$month<-data_t$fecha1$mon+1
data_t$wday<-weekdays(data_t$fecha1)

Había algunas inconsistencias: códigos de torres de monitoreo de medición que no tenían barrios ni tampoco direcciones; mediciones sin datos. Hicimos limpieza brusca: solamente nos quedamos con los datos completos, sin imputar.

Entonces... ¿a qué hora hay más ruido? Lo que se ve en el gráfico siguiente (obviamente, generado con ggplot2) es la media de los decibeles todo el año 2012 para cada una de las horas del día:

sum<-tapply(data_t$promedio_energetico_hora,hour(data_t$fecha1),mean,na.rm=T)
sum<-as.data.frame(sum)
sum$hora<-0:23
library(ggplot2)
ggplot(data=sum, aes(x=hora, y=sum, group=1)) +
        geom_line(linetype="dashed",colour="red", size=1.2)+
        geom_point(size=3)

Vemos cómo entre las 0:00 y las 2:00 se ven los valores más bajos y a partir de las 3:00 empieza a subir el ruido en la ciudad. Llega a un primer máximo a las 8:00 y sube otro poco hasta las 13:00 que es el máximo del día. A patir de ahí empieza bajar suavemente hasta las 23:59. Hasta acá, nada llamativo.

Pero ahora un podría preguntarse... ¿cuáles son los barrios con más tranquilos? Entonces, vamos a realizar el mismo gráfico pero para cada uno de los barrios que tienen estaciones de medición. Para eso, generamos un data.frame con las columnas como la media de decibeles por hora del día y en las filas, cada una de las estaciones de medición.

sum<-t(tapply(data_t$promedio_energetico_hora,list(hour(data_t$fecha1),data_t$tmi),mean,na.rm=T))
sum<-as.data.frame(sum)
sum$tmi<-rownames(sum)

sum1<-reshape(sum, idvar="tmi", varying=list(0:24), direction = "long")
sum1$time<-sum1$time-1
colnames(sum1)<-c("tmi","time","dec")

sum1<-merge(sum1,t)
ggplot(data=sum1, aes(x=time, y=dec, group=barrio,colour=barrio)) +
        geom_line(linetype="dashed", size=1.2)+
        geom_point(size=3)

Todos los barrios tienen la misma tendencia (obviamente), pero claramente lo que se ve es que Nueva Pompeya y Parque Avellaneda son los menos ruidosos: el nivel de las curvas está muy debajo del resto. Los barrios restantes parecen un poco más homogéneos pero Recoleta y Palermo son los que presetan una media más alta en todo el día.

Quedan varias cosillas para mirar: qué pasa en los diferentes meses y días de la semana. Eso queda para el próximo disco... digo, post.

Comentarios

Federico ha dicho que…
Estaría bueno cruzar con datos de valor de inmuebles, precios de alquiler para diferentes tipo de inmuebles, controlar por varias variables (cercanía a una escuela, comisarías, parádas de ómnibus, etc) y ver los precios hedónicos de los inmuebles en los barrios menos ruidosos, y así aproximar al valor de la externalidad negativa. Muy bueno!

Entradas populares de este blog

Sobre la multicausalidad

Número efectivo de partidos en elecciones presidenciales 1983-2011

Trabajando con datos georreferenciados en R