Advertisements

Posts Tagged ‘stats’

Tipologías usuarios Madrid Río. Estadísticas y tendencias interesantes

2015/08/21

Después de 6 semanas en Madrid, no ha habido un solo día en que no tuviera que meterme en Madrid Rio o bien para ir a trabajar, para llevar a la niña a la guardería, volver a casa o simplemente para pasear… Madrid Río se ha convertido en la espina dorsal de mis comunicaciones por la ciudad. Una obra con la que originalmente estaba en profundo desacuerdo (por su planificación y ejecución) se ha convertido en, de alguna manera en el eje que articula mis movimientos.

2015-08-21 08.38.20

Para la multitud de personas a las que como a mí, les ha sorprendido esta infrastructura en frente de sus casas hay posibilidad de encontrarse en el mismo metro cuadrado a alguien corriendo, alguien andando, una pareja con un carrito de niños, unos amigos en patines, alguna persona en bici… unos más rápido y unos más lento, todos hemos de convivir en un trazado de unos 7,5km de largo y no más unos metros de ancho, con lo que unas mínimas normas de circulación se imponen.

Partiendo de la máxima de que el peatón tiene prioridad, no se debería pensar que este pueda hacer de su capa un sayo y moverse a su antojo por el recorrido. Otra máxima debe ser que las bicicletas respeten un límite máximo de velocidad (así como la gente en patines, patinetes, segways, etc).

Mi punto de partida ha sido medir desde un mismo punto la pasada de los usuarios y tipificarlos de acuerdo a su sexo, edad aproximada, tipo de deporte que practican y si estaban ubicados de manera correcta en el recorrido de manera que pudieran interactuar de manera normal con los otros usuarios, minimizando al posibilidad de encontronazos, golpes, caídas, etc. Entendiendo como ‘correcto’ si los usuarios circulan por su derecha.

51243949b

He tipificado a 100 usuarios en dos momentos diferentes del día y en el mismo lugar, para poder estableceer comparaciones. Ahí van los datos y posteriormente los resultados del análisis y algunas preguntas abiertas para cuando haya más tiempo o más interés.

  • #1 Avenida de Manzanares 204/ Madrid RIO 20 de Agosto 2015 entre las 16:28 y las 17:45. 35º centígrados

estadisticas-01
estadisticas-01B

sexo: 0= varón, 1=mujer
tipo: 0=andando, 1=corriendo, 2=bicicleta, 3=otro (segway, patín, patinete, etc.)
resultado: 0=correcto, 1=incorrecto

edad mediana= 28 años
moda sexo=hombre
moda tipo deporte=bicicleta
densidad usuarios=78 usuarios/hora

porcentaje posición correcta: 72%
CORRECTO

correlación sexo-corrección?= 0.28, débil
correlación edad-corrección?= -0.29, hay correlación negativa (débil)
correlación tipo deporte-corrección?= -0.33, hay correlación negativa (débil)
(ver post sobre correlación de variables)

(…)
r=1, correlation is PERFECT
0.75<r<1, correlation is STRONG
0.5<r<0.75, correlation is MODERATE
0.25<r<0.5, correlation is WEAK
<0.25, almost NO correlation, both variables are hardy related
(…)

Resumiendo, a esta hora de la tarde, las 4 y pico del mes de agosto con unos 35 grados celsius, la densidad es de 78 personas a la hora, de las cuales el 72% circula de manera correcta.

El perfil tipo de usuario a esta hora es el de VARON, CICLISTA, 28 AÑOS, POSICIÓN EN LA VÍA CORRECTA

Hay una correlación débil entre sexo y posición correcta, lo que quiere decir que las mujeres y hombres se ubican de manera incorrecta sin seguir ningún patrón definido o lo que es lo mismo, entre los mal colocados, casi el mismo número eran mujeres que hombres.

tampoco hay una relación clara de correlación de acuerdo a la edad o el tipo con respecto a la corrección o no de la ubicación.

  • #2 Avenida de Manzanares 204/ Madrid RIO 21 de Agosto 2015 entre las 09:20 y las 9:42. 28º centígrados

estadisticas-02
estadisticas-02b

sexo: 0= varón, 1=mujer
tipo: 0=andando, 1=corriendo, 2=bicicleta, 3=otro (segway, patín, patinete, etc.)
resultado: 0=correcto, 1=incorrecto

edad mediana= 35 años
moda sexo=hombre
moda tipo deporte=bicicleta
densidad usuarios=273 usuarios/hora

porcentaje posición correcta: 90% 

CORRECTO

correlación sexo-corrección?= 0.08, débil
correlación edad-corrección?= -0.07, hay correlación negativa (débil)
correlación tipo deporte-corrección?= -0.22, hay correlación negativa (débil)
(ver post sobre correlación de variables)

(…)
r=1, correlation is PERFECT
0.75<r<1, correlation is STRONG
0.5<r<0.75, correlation is MODERATE
0.25<r<0.5, correlation is WEAK
<0.25, almost NO correlation, both variables are hardy related
(…)

Resumiendo, a esta hora de la mañana, las 9 y pico del mes de agosto con unos 28 grados celsius, la densidad es de 273 personas a la hora, de las cuales el 90% circula de manera correcta.

El perfil tipo de usuario a esta hora es el de VARON, CICLISTA, 35 AÑOS, POSICIÓN EN LA VÍA CORRECTA

Hay una correlación casi inexistente entre sexo y posición correcta, entre los mal colocados, hay casi el mismo número eran mujeres que hombres, tampoco hay una correlación de acuerdo a la edad o el tipo con respecto a la corrección o no de la ubicación.

Ahora dejo algunas pregutas en el aire, es siempre el perfil tipo el de varón en bici de mediana edad o por el contrario hay picos horarios o ubicaciones donde este perfil es diferente. Podríamos encontrar alguna correlación mayor entre la posición correcta en el recorrido y alguno de los tipos estudiados?. Hay algún otro tipo (por ejemplo nivel de estudios o algún rango específico de edad) en el que veamos una relación clara con la correcta/incorrecta ubicación?.

El estudio específico de estas correlaciones podría permitir informar adecuadamente a los usuarios a através de paneles informativos y de esta manera reducir los potenciales golpes entre las personas que disfrutan de Madrid Río pero también ayudaría a integrar correctamente a los diferentes grupos de usuarios para que todos disfrutemos más adecuadamente de estas instalaciones.

Espero que te haya parecido interesante, si necesitas o quieres más información o aclaración, no dudes en ponerte en contacto conmigo por email.
Un saludo cordial!.

Alberto Concejal
albertoconcejal [at] gmail.com
MSc GIS

Advertisements

Pearson correlation and GIS

2014/11/28


pearson-01
Do these two variables have a correlation?. To answer this important question first of all we have to know that only if it’s a linear relationship and there are no outliers we can take advantage of Mr Pearson’s correlation statiscal tool.

If i love chocolate, does this mean i have tendency of being chuby? or on the other hand there’s no relationship at all. Let’s figure it out.

For this particular occasion, input data XY are two DTM heights, my guess is the following: if correlation is too big, i may deduce they’re not independent products and one might been created from the other, in other words, we might have tried to cheat and we are using a different source that the one we have stated… In GIS sometimes things are not exactly as expected and there’s need to be assertive and making a plan for discovering this minor issues.

 

 

 

Let’s start from the beginning, if source 1 is the same as source 2, the correlation would be perfect, is this correct?. The answer is yes. r (Person correlation) would be = 1. So yes, if this was asking about chocolate and fleshiness this would be 100% right but this hardly or never happens in real life (direct and no other explanation or variable interaction… why is always so0o complicated?).

pearson-formula

pearson-04

With real data, you would not expect to get values of r of exactly -1, 0, or 1. For example, the data for spousal ages (white couples) has an r of 0.97. Don’t ask me where i got this weird source (well, just in case: http://onlinestatbook.com/2/describing_bivariate_data/intro.html)

age_scatterplot

If i fill source 2 with a random number, the correlation would be almost none accordingly (in this case r=0.17)

pearson-06

Now if we see the diagram of the first two sources and we get the Pearson correlation coefficient (r=0.24) which means the correlation is very weak.

pearson-03

But that was only a very small part of the table (only 30 iterations), so if i do the same calculation out of the +13,000 iterations i really need, i get these figures (by the way, theres no need to use such a complicated formula above, you can use this one in EXCEL: =PEARSON(A1:An;B1:Bn))

pearson-07

So the correlation now its moderate, which makes me deduct at least the sources seem different and i’d need more clues to think my customer might have tried to actually cheat me using the same source for both datasets.

Summarizing:

r=1, correlation is PERFECT

0.75<r<1, correlation is STRONG

0.5<r<0.75, correlation is MODERATE

0.25<r<0.5, correlation is WEAK

<0.25, almost NO correlation, both variables are hardy related

I hope you guys have found this post interesting,
looking forward to hear where could you use it and/or your feedback,

Regards,

Alberto Concejal
MSc GIS