Buen uso y abuso de la media
Un chiste dice que, si una persona come dos pollos y otra, ninguno, la estadística considerará que, de media, cada uno ha comido un pollo. Otra versión afirma que, si pusiéramos la mitad del cuerpo en un horno a 50 grados y la otra mitad, en un frigorífico a cero, estadísticamente hablando, tendríamos el cuerpo a una media de 25 grados. Dicho así, la estadística no parece una disciplina ni muy solidaria, ni muy sensata. En este breve artículo, queremos hacer ver a quien lo lea la falacia que estos chistes esconden y mostrarle de esta manera las cautelas con las que hay que tratar cualquier valor medio.
La media es un valor que resume un conjunto de datos. Por ejemplo, el Instituto Nacional de Estadística (INE) publicó los resultados definitivos de la encuesta de estructura salarial en España donde obtenía que el salario medio bruto anual por trabajador es de 22.790 euros. Para obtener este valor, se recopila información de los asalariados que trabajan a tiempo parcial y a tiempo completo, de los directivos y empleados, de mujeres y hombres, etc. En todos los casos, existe una notable diferencia de salarios según el colectivo escogido. Hay, por tanto, demasiada heterogeneidad en los salarios o, como se dice en estadística, variabilidad o dispersión. En consecuencia, el dato así presentado puede que dé la razón a la historieta de los pollos y muchos asalariados españoles no se sientan representados con la cifra del salario medio.
Por supuesto, la estadística dispone de métodos para establecer la validez de los resúmenes que proporciona. Así, a la hora de interpretar una media, se acompaña de una medida de la dispersión de los datos respecto a la media. Cuando la dispersión es alta, la media es poco representativa y, por tanto, no se debería utilizar como resumen de los datos. ¿Cómo se mide la dispersión? Técnicamente, hay varias formas de hacerlo; destaca una medida llamada desviación típica. No entraremos en ella; simplemente, veremos dos situaciones extremas. Por un lado, imaginemos que todos los asalariados ganan lo mismo, 22.790 euros brutos anuales. Entonces, no hay dispersión; la desviación típica es cero, por lo que el valor medio da un resumen perfecto. Al contrario, imaginemos que la mitad de asalariados trabaja gratis y percibe cero euros al año, mientras que la otra mitad recibe justo el doble de 22.790 euros. La media sigue siendo la misma, pero la variabilidad es muy alta. En otras palabras, y trasladándolo al chiste, la mitad se come dos pollos y la otra mitad, ninguno.
En los dos chistes, se utilizan datos muy dispersos para calcular el valor medio, por lo que este no es válido como resumen representativo de los datos. En el caso de los salarios, también hay mucha dispersión. Basten tres datos, el salario de más de un tercio de los asalariados se aleja más de 9.000 euros del salario medio; la mitad de los asalariados, más de 6.000 euros, y el 75%, más de 3.000 euros. Para que se hagan una idea en términos más familiares de los tres datos anteriores, imagínense que, tras consultar en todas las tiendas, obtenemos que el precio medio de un producto es de 100 euros, pero el 35% de las tiendas lo tienen 40 euros más caro o más barato; que, en la mitad, la diferencia es de más de 25 euros y en el 75%, de más de 13 euros. ¿A que no daría igual comprar en una tienda que en otra?
En conclusión, un valor medio debe ir acompañado de una medida de la dispersión de los datos para poder conocer su representatividad. Cuando la dispersión es alta, una buena alternativa a la media es la mediana, que proporciona el valor por debajo del cual se encuentra la mitad de los individuos. En el caso de los salarios, la mediana es de 19.017 euros brutos anuales; es decir, la mitad de los asalariados españoles gana menos de esa cantidad.
Esta entrada ha sido elaborada por José Antonio Moler Cuiral, profesor del Departamento de Estadística, Informática y Matemáticas de la UPNA e investigador en el Instituto de Smart Cities (ISC) de la institución académica