Inferencia estadística: del indicio a la evidencia
Seguro que el lector se habrá formulado alguna vez una pregunta de este tipo: “¿Cómo es posible que se afirme que el 27% están preocupados por determinado tema de actualidad o que las noticias de una cadena de televisión han sido las más vistas el mes pasado, cuando a mí no me han consultado, ni tampoco a mis familiares, ni amigos?
Es también seguro que el lector conoce que esos resultados se obtienen a través de muestras representativas de toda la población. Los datos que conocemos por los medios de comunicación son los resultados obtenidos en la muestra.
Para extender los resultados de la muestra a toda la población, se realiza un proceso, que en estadística se denomina inferencia, que da como resultado un intervalo de valores numéricos, dotado de un grado de confianza que representa la seguridad o fiabilidad que ese intervalo nos inspira. Su fundamento matemático está en el cálculo de probabilidades. Por ejemplo, si en la muestra hay un 27% de personas preocupadas por el tema en cuestión, podemos obtener que, en la población, el porcentaje estará comprendido entre un 25,5% y un 28,5% con un grado de confianza del 95%. El tamaño de la muestra es esencial para obtener intervalos de pequeña amplitud, es decir, muy informativos o concretos, y con un grado de confianza alto, muy fiables.
Un dato que puede resultar curioso es que el tamaño de la muestra que nos garantice determinadas buenas cualidades, en cuanto a grado de confianza y concreción, no es directamente proporcional al tamaño de la población. Por ejemplo, para dos poblaciones grandes, una de un millón y otra de veinte millones de habitantes, el tamaño de la muestra necesario para garantizar un grado de confianza del 95% y una amplitud del intervalo no superior al 3% (para estimación de porcentajes) es prácticamente el mismo: bastarían 4.300 personas en ambos casos.
Otra parte importante de la inferencia estadística es la enfocada a contrastar hipótesis. Una hipótesis es una afirmación de ámbito poblacional. Por ejemplo: “El porcentaje de trabajadores eventuales es el mismo en hombres y en mujeres”. Esta hipótesis puede ser rechazada (invalidada estadísticamente) si los resultados muestrales marcan suficientes diferencias entre los porcentajes de hombres y mujeres eventuales. Resultados muestrales distintos en hombres y mujeres pueden ser un indicio de que la hipótesis no es cierta y, una vez realizado el proceso de contraste, el indicio se ha podido convertir en una evidencia o quedarse en mero indicio. De nuevo, será el cálculo de probabilidades el que sea capaz de aportar un grado de verosimilitud a la hipótesis planteada.
Para hacernos una idea intuitiva de cómo el cálculo de probabilidades nos ayuda a tomar decisiones sobre hipótesis concretas, consideremos el siguiente ejemplo: nos dicen que, en una caja opaca, hay 19 bolas blancas y una negra. Nos permiten sacar una bola al azar y, después de verla, la devolvemos a la caja y hacemos una nueva extracción.
Supongamos que, en cinco extracciones consecutivas, nos hubiera salido siempre negra. Exclamaríamos: “¡No me creo que la caja tenga 19 blancas y una negra!”. Pese a que es posible, ya que la bola negra siempre está presente cuando realizo la extracción, es altamente improbable (una posibilidad entre 3.200.000) y, por eso, decido rechazar que la composición de la caja sea de 19 blancas y una negra. La decisión que se adopta en un contraste lleva implícita la probabilidad de cometer errores como rechazar la hipótesis siendo cierta o no rechazarla siendo falsa. No obstante, con un tamaño muestral suficiente, esas probabilidades son muy pequeñas.
Así pues, la inferencia estadística nos permite tener un conocimiento preciso de la población, sin necesidad de realizar un estudio exhaustivo caso por caso.
Esta entrada ha sido elaborada por Sagrario Gómez Elvira, profesora jubilada de Estadística e Investigación Operativa de la Universidad Pública de Navarra (UPNA)