Dada una muestra aleatoria simple de tamaño n procedente de una población univariante,
Ante esta situación, el analista debe investigar la procedencia de ese dato, y como consecuencia de ello, eliminarlo de la muestra si se confirma que ha sido un error (quizás de medida o de transcripción manual del dato) o modificar sus hipótesis sobre la población en caso de verificarse su exactitud (¿quién nos asegura que un dato anómalo no es señal de la presencia de una veta de mineral en un análisis geológico de cierto terreno?).
En todo caso, no se eliminará un dato sospechosamente atípico hasta no tener la certeza absoluta de que su origen se debe a un error humano o de instrumentación.
La presencia de un valor anómalo puede alterar sensiblemente las conclusiones de un análisis estadístico. Aquellos métodos poco sensibles a estos datos extraños se denominan robustos, y la estadística robusta es un área de intensa investigación.
Como ayuda a la decisión sobre si un dato es o no atípico, se dispone de la prueba de Grubbs, la cual exige que la muestra proceda de una población normal.
El contraste se plantea en los siguientes términos:
H0: "no hay datos atípicos en la muestra"frente a la alternativa:
H1: "hay al menos un dato atípico".
Se hará uso del estadístico
,
la media y s la desviación
típica muestrales.
La región crítica de este contraste se puede obtener aproximadamente tomando como referencia la distribución tn-2 de Student con (n - 2) grados de libertad. Así, definiendo k tal que
,
= 0.05 nuestro nivel de significación,
se aceptará la hipótesis alternativa H1 de existencia de dato atípico si G excede de cierto valor crítico:

En un estudio sobre la posible influencia del tamaño del cerebro humano en la inteligencia, se ha estimado la dimensión del órgano como el número de píxeles que ocupa en sendas imágenes obtenidas por Resonancia Magnética. Los sujetos bajo estudio han sido 20 estudiantes masculinos de psicología de cierta Universidad norteamericana. Al representar los datos en un histograma, se ha observado que el primero aparece algo apartado de los demás, por lo que se sospecha que pueda ser atípico. Se supone que la población tiene distribución normal.
1201121 1038437 965353 904858 955466 1079549 924059 945088 889083 892420 905940 955003 935494 1062462 949589 997925 879987 949395 930016 935863 Se aplica el test de Grubbs para contrastar la hipótesis nula de que no es un registro anómalo.
Según la prueba de Grubbs, todo parece indicar que el dato 1201121 es atípico. Un fallo en la transcripción de la información muestral provocó la aparición de esta cantidad en lugar de la correcta, que era 1001121. Corrígase este primer valor de la muestra y ejecútese nuevamente el programa; el problema queda ahora resuelto.
(Fuente: Willerman, L., Schultz, R., Rutledge, J. N., and Bigler, E. (1991) In Vivo Brain Size and Intelligence. Intelligence, 15, 223-228)
© BioMates, 2003