La aplicación de un procedimiento de inferencia estadística requiere que los datos provengan de una población que cumpla determinadas características.
El análisis exploratorio de datos es el paso previo a la aplicación de cualquier método de análisis inferencial.
Una primera aproximación consiste en reducir toda la información muestral a un reducido grupo de valores numéricos, los parámetros estadísticos, cuyo conocimiento puede dar pie a la detección de algún patrón de comportamiento que nos aporte información sobre la distribución de probabilidad bajo la que se ha obtenido la muestra:
Es casi preceptivo en la fase exploratoria la confección de gráficos que permitan comprender mejor algunos comportamientos de los datos:
Buena parte de las técnicas estadísticas al uso requieren que la muestra provenga de una población con distribución normal o gaussiana. Para chequear este particular, existen tanto métodos gráficos como inferenciales:
Un apartado especial dentro del análisis exploratorio de datos es el estudio de la presencia en la muestra de valores atípicos o anómalos (outliers, en inglés), consistentes en registros extraños, que unas veces serán debidos a errores de medida o anotación, pero que en otras su presencia puede deberse a alguna causa imprevista que merezca un análisis más profundo de la población. A veces, estos datos anámalos se detectan en los gráficos, pero también existen contrastes al efecto:
© BioMates, 2003