Temas de Estadística Práctica
Antonio Roldán Martínez

Portada > Inicio temas Tema 6 - Distribuciones teóricas

 

Sesión 6                              

 

Distribuciones teóricas

Cuestión - Ejemplo

Este alumno, ¿está respondiendo al azar?

Un profesor suele plantear a sus alumnos cuestionarios de veinte preguntas, en las que hay que elegir la verdadera entre tres posibilidades. Quiere evaluar con justicia, pero piensa que algunos de sus alumnos y alumnas pueden superar el cuestionario respondiendo al azar. Desearía averiguar, por ejemplo, qué probabilidad se tendría de acertar 10 o más preguntas sin saber nada del tema.

En estos casos, la Estadística puede orientar mediante la comparación de los resultados empíricos con los que se esperarían según unos Modelos Estadísticos Teóricos, elaborados mediante técnicas derivadas de la probabilidad. Para conseguir esto, debemos tener muy claras las propiedades del estudio que estamos efectuando, para ver si coinciden con las propias de los modelos teóricos.

En el caso de la cuestión anterior se dan tres condiciones:

Resulta que estas tres condiciones caracterizan a un modelo teórico muy popular, que es la Distribución binomial. En este tema nos ocurrirá esto a menudo, que si se cumplen unas condiciones, podrá existir un modelo que nos resuelva algunos cálculos.

Distribución binomial

Efectivamente, el ejemplo citado es un caso típico de Distribución Binomial, pues el alumno que no sabe nada siempre tiene la probabilidad p=1/3 de acertar una pregunta por casualidad. Las preguntas son independientes (salvo algunas pautas inconscientes que pueden seguir) y se trata de estudiar los éxitos obtenidos en 20 intentos.

   Si repasas el  resumen teórico reconocerás en  este caso la ley Binomial, que será la que apliquemos.

 


Práctica 1


Ejemplo de Distribución teórica


Usaremos una hoja de cálculo que nos ayude en la cuestión propuesta al inicio de este tema. Abre el archivo tablabin.ods.

En sus primeras celdas verás una cabecera parecida a la siguiente:

Observa la tabla de abajo, que está preparada para 40 intentos.

La primera probabilidad binomial 0,0003007 se ha obtenido mediante su fórmula:

que traducida a OpenOffice se complica algo:

=SI(B12<=Intentos;COMBINAR(Intentos;B12)*p^B12*q^(Intentos-B12);" ")

La explicamos un poco:

En la columna de Acumulada se han ido acumulando las probabilidades. Su utilidad reside en que para evaluar una probabilidad entre dos números de éxitos bastará restar sus probabilidades acumuladas.

Tenemos, pues, un instrumento para evaluar probabilidades en el caso de la prueba de respuestas con elección múltiple. Por ejemplo, un alumno que responda al azar tiene una probabilidad del 90,8% de acertar 9 preguntas o menos. Mucho ¿no?

Una curiosidad: Si alguien responde al azar, lo más probable es que acierte 6 ó 7. Lo tienes muy claro en la tabla, porque estos sucesos poseen la máxima probabilidad: 0,1821

El profesor puede ahora imaginar una escala para evaluar. Supongamos que ha elegido esta:

Hasta 9 aciertos inclusive INS
10 a 13 SUF
13 a 16 BIEN
17 o 18 NOT
19 o 20 SOB

¿Cómo podríamos evaluar las probabilidades de sacar por lo menos un Bien, o un Notable o Sobresaliente si rellena el cuestionario al azar?

Pasa ahora a la zona de evaluación de la probabilidad entre dos sucesos:

Por ejemplo, para evaluar la probabilidad de obtener al menos un SUF, podemos rellenar los números de éxito con un 10 en la celda G15 y un 20 en la celda G16, y obtendremos 0,09.

Existe un 9% de probabilidad de aprobar respondiendo al azar

En el caso de 10 y 20 nos ha resultado 0,09189.

Comprueba esta escala de probabilidades, interpretada como sacar al menos...si se responde al azar:

INS 100% Al menos saca un INS
SUF 9,2% Acierta 10 o más
BIEN 3,7% Acierta 13 o más
NOT 0,00028% Insignificante
SOB Prácticamente cero Casi imposible obtenerlo

No te conformes con leerlo. Consigue que la hoja tablabin.ods te devuelva estos resultados.

Otros ejemplos

Si deseas dominar mejor este tema, te puedes proponer la resolución de estas otras dos cuestiones:

- Encontrar la probabilidad de que al tirar 6 monedas obtengamos entre 2 y 4 caras, ambas inclusive. Solución: 0,78

Número de intentos: 6    Probabilidad 1/2    (si deseas escribir 1/2, hazlo con el signo = delante, es decir =1/2)

- Tiramos tres dados sobre una mesa, ¿qué probabilidad tendríamos de no obtener ningún 6? Solución: 0,58

Número de intentos: 3    Probabilidad 1/6 


Práctica 2


Normalidad de una distribución de notas.

Uno de los modelos teóricos más usados en Estadística es el de la Distribución Normal, que, en cierto sentido, es una generalización de la Distribución Binomial. Su popularidad proviene de la cantidad de fenómenos que siguen de forma aproximada esta distribución, aunque no son tantos como a veces se cree.

   Repasa las características de la Distribución normal en el  resumen teórico

Nadie ha demostrado que las calificaciones de los profesores se acerquen a una distribución normal, pero supongamos que una profesora de Inglés se planteara esta cuestión: ¿Se pueden considerar mis notas como normales en el sentido estadístico?

En términos sencillos, lo que la profesora desea averiguar es si sus notas siguen, de forma aproximada, la campana de Gauss.

 

Imaginemos esta distribución obtenida en el segundo trimestre, con notas numéricas, en los tres cursos que imparte:

Calificación Frecuencia
0 a 2 6
2 a 4 24
4 a 6 34
6 a 8 12
8 a 10 6

¿Cómo podríamos comparar esas notas con la distribución normal?

Abre el modelo notas.ods, que ya contiene esas calificaciones, los puntos medios de los intervalos y la media y desviación típica. Aprovecha, si quieres, para estudiar las fórmulas y repasar los conocimientos que ya tienes..

En el modelo ya se han asignado los nombres de media a la media de las notas, que es 4,70, y desv a su desviación típica (2,0029).

Para ver si una distribución es normal hay que tipificarla. Recuerda la fórmula de la puntuación Z =(nota-media)/desviación. Emplea esa fórmula y rellena la columna Z tipificando los extremos superiores de los intervalos: 2,4,6,8 y 10. Usa la fórmula =(extremo superior del intervalo de su izquierda - media)/desv, es decir, =(2-media)/desv, =(4-media)/desv, etc. Te deberán dar los valores siguientes

-1,35164984
-0,35313374
0,64538236
1,64389846
2,64241456

El programa OpenOffice permite conocer la frecuencia acumulada que tendría un valor de Z en la distribución normal. Se obtiene con la función

=DISTR.NORM.ESTAND(Z)

Sitúa el cursor en la columna E y rellena esta función escribiendo la celda correspondiente en lugar de Z. Arrastra la fórmula y obtendrás estos valores.

0,088243739
0,361994149
0,740660349
0,949901426
0,995884098

Como son valores acumulados de frecuencias relativas deberemos multiplicarlos todos por el total de alumnos, que son 82, y nos resultarán frecuencias absolutas acumuladas. Serán estas:

7,2
29,7
60,7
77,9
81,7

Calcúlalas en la columna F. Como son acumuladas, deberemos transformarlas en frecuencias absolutas. En la siguiente columna (ya es la última) las construiremos: la primera es simple copia de la primera acumulada, 7,2, y las demás se calculan restando cada acumulada de la anterior. Deberá darte, por fin, este esquema total:

Calificación Frecuencia M. Típica Z Normal Acum. Frec. Acum. Normal Frec. Esperada
0 a 2 6 -1,35164984 0,088243739 7,2 7,2
2 a 4 24 -0,35313374 0,361994149 29,7 22,4
4 a 6 34 0,64538236 0,740660349 60,7 31,1
6 a 8 12 1,64389846 0,949901426 77,9 17,2
8 a 10 6 2,64241456 0,995884098 81,7 3,8

Aquí vemos que la semejanza entre lo real y lo esperado es bastante buena:

Calificación Frecuencia Frec. Esperada
0 a 2 6 7,2
2 a 4 24 22,4
4 a 6 34 31,1
6 a 8 12 17,2
8 a 10 6 3,8

¿Podemos concluir que las notas de esta profesora son normales? En una primera inspección, concluimos que sí. Para responder a esta pregunta con más precisión, lee el apartado de Bondad de Ajuste de la sección Para ampliar.

 


Práctica 3


Simulación de un proceso

Según la Ley de los grandes números, las frecuencias tienden a las probabilidades cuando el número de casos tiende a infinito. Intentaremos comprobar esto mediante una simulación:

Un alumno algo tramposo propone a sus compañeros este juego: Se tira un dado, y si se obtiene 1,2 o 3, la banca (que es él) da 30 céntimos al jugador, si sale un 4, ni se gana ni se pierde, y si se obtienen el 5 o el 6, el jugador paga 50 céntimos. ¿Es justo ese juego?

Cuando no se dominan las distribuciones estadísticas podemos entender mejor los procesos mediante una simulación de tiradas.

Pensemos en las probabilidades: El juego te da una probabilidad de 3/6=1/2 de ganar 30, de 1/6 de no ganar ni perder y de 2/6=1/3 de perder 50.

Para simularlo en OpenOffice usaremos la función ALEATORIO(), que produce un número al azar entre 0 y 1. Para entenderlo mejor, abre un libro nuevo de OpenOffice y en la celda B9 escribe =ALEATORIO() (recuerda escribir el signo =). Después pulsa F9 varias veces y observarás que el contenido de la celda cambia de valor de forma aleatoria, siempre entre 0 y 1.

Usaremos esta táctica:

Escribe en la celda C9 esta función:

=SI(B9<1/2;30;SI(B9<4/6;0;0-50))

Estúdiala bien: Si es menor que 1/2, gana 30, y, en caso contrario, si es menor que 4/6, ni gana ni pierde, pero, en caso contrario pierde 50.

Arrastra el contenido de esas dos celdas hacia abajo, por lo menos hasta 200 celdas en columnas. Obtendrás algo parecido a esto:

Aleatorio Ganancia
0,97344253 -50
0,3904288 30
0,61257098 0
0,27090599 30
0,77906845 -50
0,44256985 30
0,68982414 -50

Pulsa F9 y verás cambiar los resultados como si estuviéramos jugando realmente.

Por último, para ver las ganancias totales, situa el ratón debajo de la columna de ganancias y súmala toda con Autosuma o con =SUMAR(C9,C208) o algo similar. Transcribimos a continuación algunas ganancias o pérdidas totales obtenidas pulsando la tecla F9 cuarenta veces sobre unas columnas de 200 números, o sea, el equivalente a 80.000 juegos:

-470 -510 -1020 -1190
140 -730 230 830
50 -950 -1380 -50
-470 -490 110 -970
310 250 100 -600
-540 60 -670 -50
-480 -540 -40 380
-650 270 -210 -90
700 -670 -1440 -40
390 -230 -1360 -300

Se ve que sale más veces perdiendo que ganando en cada serie de 200 jugadas. Además, si le calculamos su total, nos sale que perdería 12.320 céntimos en las 8.000 jugadas, es decir, -1,54 céntimos por jugada. El juego es injusto.

El que sabe Estadística, podría haberse ahorrado toda la simulación. Bastaba recordar que la Esperanza Matemática de un juego es la suma de los productos de cada ganancia por su probabilidad, que en este caso sería:

1/2*30 - 1/3*50 = -1,66 céntimos, que se aproxima bastante a lo que hemos obtenido por simulación. Sólo ha habido un error de 1,66 - 1,54 = 0,12, que está de acuerdo con lo previsto en la Teoría de Muestras.

 


Ejercicio 1

Si se arrojan 8 dados en una mesa, ¿cuál es la probabilidad de obtener como máximo tres veces la cara 6?

Tendrás que calcular la probabilidad de obtener 0, 1, 2 o 3 veces el 6. Usa la hoja de cálculo que desees entre las ofrecidas en Herramientas (ver más abajo). Te debe resultar 0,9693, es decir, tendríamos casi la seguridad de obtener como máximo tres veces el 6.

 

Ejercicio 2

La distribución de Poisson es el límite de la Binomial cuando se cumplen ciertas condiciones: probabilidad pequeña, número de intentos grande, constancia de np, etc. Para que compruebes este fenómeno, vas a resolver esta cuestión con ambas distribuciones:

En una fabricación suele aparecer un artículo defectuoso por cada 20 terminados. ¿Qué probabilidad existe de obtener entre 5 y 15 defectuosos en un lote de 200 fabricados?

Por binomial: Abre la hoja tablabin.ods y rellena los datos pertinentes. Te deberá resultar una probabilidad de 0,9292.

Por Poisson: El parámetro np vale aquí 200*(1/20) = 10. Con este valor halla la probabilidad entre 5 y 15 y obtendrás 0,9220, resultado bastante proximado al anterior.

 

Ejercicio 3

Un profesor afirma que su alumnado suele obtener con él una media de 4,6 y una desviación típica de 1,2 en ejercicios puntuados entre 0 y 10. Si en este trimestre ha de realizar 560 pruebas ¿Cuántas calificaciones entre 6 y 8 puntos puede esperar?

Abre la herramienta tablanorm.ods. Escribe los datos adecuados y obtendrás un número esperado de 67 puntuaciones entre 6 y 8.

 


Uso en el aula


Herramientas


Simulaciones

Se incluyen en este apartado simulaciones de experimentos aleatorios, porque en Estadística Práctica a veces es la mejor forma de comprobar propiedades cuya demostración rigurosa se encuentre fuera del alcance de las personas interesadas.

Ley de los grandes números

grandes.ods

En este modelo se asigna una probabilidad a un suceso y se efectúa una simulación de 10, 20, 50, 100,...tiradas para comprobar mediante un gráfico y una tabla de errores la convergencia entre frecuencia y probabilidad.

Sucesos de tipo cualitativo

simucual.ods

Permite definir una distribución teórica de tipo nominal y efectúa una simulación sobre ella.

Lanzamiento de dos dados

dados.ods

Simulación de la tirada de dos dados. Se puede apostar por una suma y realizar recuentos que conducen la ley binomial. Ha sido experimentado con alumnado de Enseñanza media en cursos de profesores usando una versión anterior a la que se ofrece.

Tiradas de monedas

monedas.ods

Mediante un temporizador, se simulan series de tiradas de monedas, al final de las cuales aparecerá un diagrama de barras con un buen ajuste a la distribución binomial.

Distribución uniforme

uniforme.ods

Genera datos distribuidos uniformemente a lo largo de un intervalo. Se puede elegir el número de datos generados, sus límites y su carácter de número natural o real.

Distribución normal

normal.ods

Genera datos distribuidos de forma normal.Se puede elegir el número de datos generados y sus límites.

Distribución binomial

simulbinom.ods

Genera datos distribuidos según una distribución binomial. Se puede elegir el número de intentos en cada experimento y la probabilidad de éxito.

Experimento de Galton

galton.ods

Reproduce, de forma muy efectista, el experimento de Galton de caída de bolas por un aparato con canales en escala. Es una forma muy intuitiva de entender la acumulación de sucesos en la distribución binomial.

 

Ajustes

Bondad de ajuste mediante el test chi-cuadrado

chicuad.ods

Test de ajuste entre una distribución empírica y la correspondiente teórica. Esta última la ha de escribir el usuario según sus conocimientos.

Ajuste a una distribución normal

ajusnorm.ods

Ajusta una distribución de frecuencias al modelo normal, indicado si el ajuste es significativo o no.

 

Cálculos

Probabilidades binomiales

binomial.ods

Es un pequeño modelo que admite como entradas Número de intentos, Número de éxitos y Probabilidad P. El resto de celdas está protegido contra escritura. Es un comprobador simple y útil de los cálculos que puedan efectuar los alumnos.

Probabilidades de Poisson

poisson.ods

Con el valor de la media m (parámetro) construye una tabla de probabilidades, así como la existente entre dos valores.

Frecuencias normales

frecunorm.ods

Para un conjunto de datos del que se conocen el máximo y el mínimo, calcula las frecuencias que se podría esperar si el conjunto siguiera una distribución normal.

tablanorm.ods

Similar a la anterior. Se escribe la media, la desviación típica y el número total de unos datos, y la hoja devuelve la frecuencia esperada entre dos medidas concretas.


Documentos para usar

monedas.htm

Es un documento preparado para guiar a los alumnos en la confección de un simulador de tiradas de dados. Se puede usar en Bachillerato como repaso de conceptos, complemento o ejercicio práctico. Cuando se ha usado en las clases ha dado un resultado bastante satisfactorio. También se ha incluido en cursos para profesores.


Para ampliar


Bondad de ajuste

En el ejemplo de la profesora de Inglés dejamos en suspenso la evaluación numérica de la confianza que podemos tener en que sus calificaciones se aproximen a una distribución normal.

Recordemos que sus datos eran estos:

Calificación Frecuencia Frec. Esperada
0 a 2 6 7,2
2 a 4 24 22,4
4 a 6 34 31,1
6 a 8 12 17,2
8 a 10 6 3,8

Existe una distribución, llamada chi-cuadrado χ2, que nos ayuda a medir la aproximación. Su fórmula es la siguiente:

en la que O representa a las frecuencias observadas y T a las teóricas. El resultado es un número positivo, la chi-cuadrado, que en sí mismo, apenas nos informa: si es grande, la discrepancia entre ambos conjuntos también lo será, y si es muy pequeño, el ajuste será bueno.

Para medir mejor el ajuste disponemos de las técnicas de estimación que estudiaremos en las últimas sesiones. Adelantando un poco, veremos que se puede medir la probabilidad de la discrepancia que observamos. De esta forma, si nos da una probabilidad muy pequeña, es poco probable que nuestra distribución se ajuste a la teoría.

Se suele marcar como límite el 5%: Si la probabilidad de encontrar una distribución como la nuestra es menor que el 5%, debemos pensar que no existe un buen ajuste, y admitimos que existe en caso contrario, si la probabilidad es mayor que el 5%.

Para entender mejor esto, abre el modelo chicuad.ods. Copia en él, en la zona que se te indica, las frecuencias reales y teóricas que obtuvo la profesora. Consulta los resultados en la parte inferior de la hoja y comprobarás que el valor de la chi-cuadrado es de 3,43, que no nos dice nada. Sigue leyendo: como probabilidad de que los resultandos se aparten en este grado de la normal figura el valor 0,3299 (a esta probabilidad la llamaremos p-valor), un 33%, que al ser tan alta, nos permite aceptar que las calificaciones se pueden considerar normales, y las discrepancias fruto del azar.

Más abajo figuran los valores críticos: 7,84 si trabajamos al 5% y 11,34 al 1%, claramente superiores al obtenido de 3,43, que entra dentro de lo esperado y nos confirma la idea del buen ajuste existente entre los datos empíricos y los teóricos.

Resuelve tú esta otra cuestión:

¿Se puede considerar bien construido un dado que presenta estas frecuencias en 300 tiradas?

Cara del dado 1 2 3 4 5 6
Frecuencia 55 45 50 40 60 50

Las frecuencias teóricas de un dado te las da el sentido común.

Solución: Su p-valor es 0,28, superior al 5%, luego se ajusta a la teoría. No hay sospecha de que esté mal construido, a pesar de las diferencias que se observan.

Cambia las dos primeras frecuencias por 70 y 30 y verás la diferencia.