14 Jul

Recordando la estadística

¡Qué sabio era Simeón! Ya no sé si seguirá dando clase en informática de Deusto. Nos ponía a caldo a los informáticos, que frente a los de industriales, sólo sabíamos hacer «mariconeo de pantalla». Su devoción por la Estadística solía ser tomada a risa, pero ¡qué razón tenía!

Me ha costado 7 años darme cuenta de la razón que tenía, porque efectivamente ¡¡he estado haciendo mariconeo de pantalla!! Pero en cuanto he empezado a hacer cositas con enjundia (data mining), mis carencias en estadística han resultado un auténtico obstáculo. Así que gracias al (o por culpa del) máster de inteligencia artificial estoy intentando recuperar  todo lo que debí aprender en su día, y que se quedó únicamente en cobertura de expediente.

Y para rememorar, y para servirme de referencia para mí mismo, y por si le sirve de algo a otros, pues aquí va un post sobre las maravillosas herramientas de la desviación típica y la varianza, que tanto usábamos sin saber ni siquiera qué demonios eran ni qué datos nos aportaban.

Resulta que cuando tenemos una muestra de datos sobre un dominio, uno de los indicadores que más usamos para entender esos datos es la media. Todo el mundo sabe usar la media, sumas todos los valores y divides entre el número de elementos de la muestra. Pero a veces la media esconde información:

El tamaño medio de estos calabacines es 22 cm.

El tamaño medio de estos otros calabacines es 22 centímetros!

En los dos casos, tenemos una muestra con media 22, pero en la primera muestra los tamaños son mucho más homogéneos que en la segunda. Así que la media es 22, SÍ-COMA-PERO.

Lo que nos dicen la desviación típica y la varianza es cómo de variados son los datos. La varianza se calcula con los cuadrados de las diferencias de cada elemento de la muestra menos la media, al final estamos usando distancias a la media. Los elevamos al cuadrado porque si no tendríamos elementos negativos y afectarían al resultado. En el caso 1:

varianza=((17-22)^2+(8-22)^2+(30-22)^2+(27-22)^2+(28-22)^2)/5=4,4

En el caso 2:

vairanza=((22-22)^2+(18-22)^2+(24-22)^2+(23-22)^2+(23-22)^2)/5=69,2

Con este valor, comparativamente ya podemos ver que los datos son mucho más variables en el segundo caso, ya que la varianza es mayor. Sin embargo la varianza es una medida que por haber usado cuadrados, a veces puede dar valores muy altos y ser más complicada de interpretar (aunque es un indicador que se usa en decenas de teoremas, fórmulas, etc)

Así que sacando la raíz cuadrada de la varianza se obtiene la desviación típica, que es un dato que nos permite saber qué elementos de la muestra están fuera de lo «normal»:

en el caso 1:

desviación estándar= √4,4 =2,09

En el caso 2:

desviación estándar = √69,0 =8,31

esta medida ya está en la unidad que estábamos utilizando (cm), por lo que nos permite establecer límites por arriba y por abajo de la media.

En el caso 1, la desviación típica es de 2,09 cm por arriba y por abajo de la media.

Así, en el caso 1, la desviación típica (área azul) respecto a la media (en rojo), nos dice que el segundo calabacín está fuera de la desviación estándar, y es bastante más pequeño que la media.

En el caso 2, la desviación típica es de 8,31 cm por arriba y por abajo de la media:

En el caso 2, los datos estaban más dispersos, así la desviación típica es hasta 4 veces la del ejemplo anterior, por lo que observamos que todos los calabacines siguen teniendo tamaños dentro de lo que sería considerado «normal» respecto a la media, excepto el pobre segundo calabacinito… hay que dejarlos crecer!

Es decir, aunque la media es 22, en la primera muestra, medir 18 cm estaría fuera de lo normal, mientras que en la segunda muestra, con la misma media, 17 cm estaría dentro de lo normal. Además, si un elemento está muy alejado, por ejemplo en el primer caso, si hubiera un calabacín de 12 cm, estaría a más de 2 desviaciones típicas de la media, por lo que sabríamos que no es un elemento muy representativo de la muestra.

Y esas son las maravillosas varianza y desviación típica.

Cuando tenga más claras otras cosas como el uso de ciertas distribuciones y estadísticos pues intentaré simplificarlos también a través de calabacines. :D

4 thoughts on “Recordando la estadística

  1. «Mariconeo de pantalla». En mi época eran los proyectos. Decía que estábamos todo el día haciendo «proyectos», pero que eran una farsa bestial… Bueno, y era el mayor detractor de las academias de apoyo que ha pisado un aula universitaria :D.
    Lo cierto es que Simeón se jubiló hace 3 años o así. Y con casi todos los que se van retirando en la facultad va pasando eso de «Alguien vendrá que bueno te hará…»

    • hum, no sé si le habrán hecho bueno, pero mi conclusión es que en la uni yo pensaba que la estadística era una soplagaitez para lo que luego sería nuestro trabajo, pero con el tiempo me he dado cuenta de que no tanto :)

  2. Jamás olvidaré a un profesor de estadística que tuve. Nos hacía decir en voz alta «Poca dispersión. Media representativa!!» Nos reíamos porque nos parecía una tontería, peeeeero lo recordaré siempre.

    • Ahí está! :D bueno yo de este hombre sólo recuerdo «mariconeo de pantalla» «al que me mecanice la estadística le pongo un 10» y «silencio un poco, hombreee», pero porque tampoco tenía mucho interés en lo que explicaba :D
      Después de ver su utilidad le escucharía sin perder detalle :D

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *