La ley de Benford en el manejo de datos estadísticos

La Estadística necesita de datos para obtener la información necesaria que permita construir hipótesis e inferir resultados para los problemas que pretenda analizar. Los datos son un elemento esencial en cualquier concepción estadística.

Dentro de esta necesidad de estructurar los datos, aparece la ley de Benford, que describe la distribución de los dígitos 1, 2, 3, …, 9 dentro de las cifras significativas (aquellas de más importancia dentro de un número, excluyendo los ceros) de una colección de datos numéricos. Esta ley fue inicialmente observada por el astrónomo y matemático canadiense Simon Newcomb en 1881, quien, manejando manuales que contenían tablas de logaritmos, observó que las páginas que contenían los números con primeras cifras 1 y 2 estaban mucho más manoseadas y eran más oscuras por el uso que aquellas con las primeras cifras 8 y 9. Esto indicaba que los manuales de tablas de logaritmos eran más empleados para números con cifras significativas pequeñas (1, 2 y 3) que para cifras significativas grandes (8 y 9).

En particular, se dio cuenta de que la observación de un primer dígito igual a 1 aparecía un 30% de las veces, mientras que la de que fuera un 9 sólo aparecía un 4,6%. Esta ley fue formalmente establecida en 1938 por el físico Frank Benford, a quien debe su nombre, ya que estuvo recogiendo datos durante varios semestres, y publicó en ese año un artículo en «Proceedings of the American Philosophical Society», en el que, basándose en 20.229 observaciones de origen diverso (cuencas de ríos, estadísticas de la liga americana de béisbol, pesos atómicos de elementos…), mostró que esta ley se cumplía en una gran cantidad de conjuntos de datos.

En la Figura 1, se muestra una aplicación de la ley de Benford en la medición de la población de los países del mundo.

No sé conoce aún la razón precisa de por qué grandes cantidades de conjuntos de datos cumplen esta ley mientras otros no lo hacen. No obstante, se han observado algunas características que permiten delimitar la naturaleza de los conjuntos de datos que siguen la ley de Benford:

1. Datos provenientes de procesos de crecimiento exponencial. Estos datos suelen tener órdenes de magnitud muy diferentes (es decir, hay datos muy pequeños, junto con otros muy grandes: 0,005 y 10.000.000, por ejemplo), lo que suele ser un rasgo muy común de los conjuntos que siguen esta ley. Habitualmente, los conjuntos de datos que presentan valores acotados dentro de un rango (por ejemplo, poblaciones entre 1.000 y 5.000 habitantes) no suelen seguir la distribución de Benford.

2. Datos que presentan invariancia respecto a la escala. Esta situación se presenta cuando los conjuntos de datos incluyen tanto a los que se presentan en una unidad de medida como en otra. Es decir, da lo mismo expresar los datos en centímetros o en metros, por ejemplo, porque, en ambas situaciones, se cumple la ley de Benford.

De esta forma, una amplia variedad de conjuntos de datos siguen la ley de Benford: facturas de electricidad, direcciones de calles, precios de acciones en la bolsa, tamaños de poblaciones, ratios de defunciones, longitudes de ríos, constantes físicas y matemáticas, por nombrar algunos de ellos.

Por otra parte, la ley de Benford puede aplicarse en diferentes casos prácticos:

a. Detección de fraude contable. Dado que los datos contables siguen esta ley, cuando estos han sido manipulados, habitualmente se observa una mayor presencia de primeros dígitos con valores 8 y 9 que la proporción indicada por la distribución de Benford.

b. Análisis de resultados electorales. La ley de Benford sirvió como evidencia de fraude en las elecciones de Irán en 2009.

c. Control de datos macroeconómicos. Los datos macroeconómicos proporcionados por el Gobierno griego antes de ingresar en la Unión Europea en 1980 fueron considerados fraudulentos a causa de esta ley.

Finalmente, es importante señalar que la evidencia de que un conjunto de datos no siga la ley de Benford, cuando se esperaría que sí lo hiciera, debe hacerse siempre con la conveniente prudencia, fruto de la aplicación cuidadosa de la inferencia estadística, dado que los datos siempre muestran una realidad parcial de un fenómeno determinado.

Esta entrada ha sido elaborada por Javier Faulín Fajardo, catedrático del Departamento de Estadística, Informática y Matemáticas y secretario del Instituto de Smart Cities (ISC) de la Universidad Pública de Navarra (UPNA)