23 Jul

Miradas a Bilbao

click para ampliar

Me encantan los mapas y me encantan los estereotipos (a quién no!). Aunque se me han ocurrido pocos estereotipos de la visión de los barrios hacia Bilbao (el de Rekalde no sé si es muy fiel, me baso en unos poquitos conocidos…), pero estoy abierto a sugerencias. (bueno iba a poner “Bilbao como lo ven los de Uribarri” y un montón de tejados :D pero no me ha salido bien el dibujo…)

 

14 Jul

Recordando la estadística

¡Qué sabio era Simeón! Ya no sé si seguirá dando clase en informática de Deusto. Nos ponía a caldo a los informáticos, que frente a los de industriales, sólo sabíamos hacer “mariconeo de pantalla”. Su devoción por la Estadística solía ser tomada a risa, pero ¡qué razón tenía!

Me ha costado 7 años darme cuenta de la razón que tenía, porque efectivamente ¡¡he estado haciendo mariconeo de pantalla!! Pero en cuanto he empezado a hacer cositas con enjundia (data mining), mis carencias en estadística han resultado un auténtico obstáculo. Así que gracias al (o por culpa del) máster de inteligencia artificial estoy intentando recuperar  todo lo que debí aprender en su día, y que se quedó únicamente en cobertura de expediente.

Y para rememorar, y para servirme de referencia para mí mismo, y por si le sirve de algo a otros, pues aquí va un post sobre las maravillosas herramientas de la desviación típica y la varianza, que tanto usábamos sin saber ni siquiera qué demonios eran ni qué datos nos aportaban.

Resulta que cuando tenemos una muestra de datos sobre un dominio, uno de los indicadores que más usamos para entender esos datos es la media. Todo el mundo sabe usar la media, sumas todos los valores y divides entre el número de elementos de la muestra. Pero a veces la media esconde información:

El tamaño medio de estos calabacines es 22 cm.

El tamaño medio de estos otros calabacines es 22 centímetros!

En los dos casos, tenemos una muestra con media 22, pero en la primera muestra los tamaños son mucho más homogéneos que en la segunda. Así que la media es 22, SÍ-COMA-PERO.

Lo que nos dicen la desviación típica y la varianza es cómo de variados son los datos. La varianza se calcula con los cuadrados de las diferencias de cada elemento de la muestra menos la media, al final estamos usando distancias a la media. Los elevamos al cuadrado porque si no tendríamos elementos negativos y afectarían al resultado. En el caso 1:

varianza=((17-22)^2+(8-22)^2+(30-22)^2+(27-22)^2+(28-22)^2)/5=4,4

En el caso 2:

vairanza=((22-22)^2+(18-22)^2+(24-22)^2+(23-22)^2+(23-22)^2)/5=69,2

Con este valor, comparativamente ya podemos ver que los datos son mucho más variables en el segundo caso, ya que la varianza es mayor. Sin embargo la varianza es una medida que por haber usado cuadrados, a veces puede dar valores muy altos y ser más complicada de interpretar (aunque es un indicador que se usa en decenas de teoremas, fórmulas, etc)

Así que sacando la raíz cuadrada de la varianza se obtiene la desviación típica, que es un dato que nos permite saber qué elementos de la muestra están fuera de lo “normal”:

en el caso 1:

desviación estándar= √4,4 =2,09

En el caso 2:

desviación estándar = √69,0 =8,31

esta medida ya está en la unidad que estábamos utilizando (cm), por lo que nos permite establecer límites por arriba y por abajo de la media.

En el caso 1, la desviación típica es de 2,09 cm por arriba y por abajo de la media.

Así, en el caso 1, la desviación típica (área azul) respecto a la media (en rojo), nos dice que el segundo calabacín está fuera de la desviación estándar, y es bastante más pequeño que la media.

En el caso 2, la desviación típica es de 8,31 cm por arriba y por abajo de la media:

En el caso 2, los datos estaban más dispersos, así la desviación típica es hasta 4 veces la del ejemplo anterior, por lo que observamos que todos los calabacines siguen teniendo tamaños dentro de lo que sería considerado “normal” respecto a la media, excepto el pobre segundo calabacinito… hay que dejarlos crecer!

Es decir, aunque la media es 22, en la primera muestra, medir 18 cm estaría fuera de lo normal, mientras que en la segunda muestra, con la misma media, 17 cm estaría dentro de lo normal. Además, si un elemento está muy alejado, por ejemplo en el primer caso, si hubiera un calabacín de 12 cm, estaría a más de 2 desviaciones típicas de la media, por lo que sabríamos que no es un elemento muy representativo de la muestra.

Y esas son las maravillosas varianza y desviación típica.

Cuando tenga más claras otras cosas como el uso de ciertas distribuciones y estadísticos pues intentaré simplificarlos también a través de calabacines. :D