![]() |
|
Portada > Inicio temas > Tema 4 - Teoría |
Resumen teórico de los principales conceptos estadísticos
Distribuciones bidimensionales. Correlación.
Distribuciones bidimensionales |
Tipos de frecuencias |
Medidas. Correlación |
Otros coeficientes de correlación |
En algunos experimentos las medidas que se obtienen son dobles, pertenecientes a dos variables distintas, a las que llamaremos X e Y respectivamente.
Este tipo de estudios es muy frecuente. Daremos algunos ejemplos:
Comparación entre mortalidad y natalidad
Ídem entre extensión y población de diversos países.
Diferencias de renta entre la población en general y los titulados universitarios.
Pruebas pretest y postest.
Influencia de la latitud en la temperatura media.
Ídem de las horas de estudio en la calificación en una asignatura.
Etc.
Las dos variables que se comparan pueden ser de igual naturaleza, ambas nominales u ordinales o de intervalo, o de distinta, lo que da lugar a muchos casos posibles, que es imposible estudiarlos todos en este curso.
Incluimos algunos ejemplos:
Tablas simples de comparación de dos datos cuantitativos
|
Alumnos |
X: Examen de Geografía |
Y: Examen de Matemáticas |
|
Julia |
4 |
7 |
|
Pedro |
6 |
5 |
|
Miguel |
5 |
4 |
|
Marta |
2 |
3 |
|
..... |
..... |
..... |
En estos casos cada par de valores representa a un sujeto o medición. Se representan mediante gráficos de dispersión XY

|
X Valoración A |
Y Valoración B |
N: Frecuencia |
|
1 |
2 |
3 |
|
2 |
2 |
4 |
|
3 |
2 |
12 |
|
2 |
3 |
8 |
|
3 |
3 |
5 |
|
..... |
..... |
..... |
Su expresión gráfica se puede realizar mediante un gráfico de burbujas, en el que el diámetro de cada burbuja se corresponde con la frecuencia de cada par de datos

Tablas de doble entrada
En ellas la X y la Y pueden ser de naturaleza muy distinta, por lo que se disponen en tabla de doble entrada. Cuando existen frecuencias, es el mejor método, pues permite tratar una variable por columnas y otra por filas.
La siguiente tabla muestra la distribución de las llamadas telefónicas con origen o destino en los cuatro hijos de una pareja.
|
|
X Llamadas hechas |
Y Llamadas recibidas |
|
Ana |
4 |
6 |
|
Paco |
8 |
12 |
|
Luisa |
7 |
5 |
|
Borja |
2 |
3 |
Estas tablas de doble entrada con frecuencias admiten una
representación gráfica muy intuitiva mediante barras (columnas) ordenadas en
varios conjuntos mediante tres ejes.

Para aclarar
las definiciones de los tipos de frecuencias usaremos la siguiente tabla:
|
Meses |
Enero |
Febrero |
Marzo |
Abril |
Mayo |
|
A |
4 |
6 |
7 |
8 |
8 |
|
B |
3 |
3 |
6 |
5 |
9 |
|
C |
9 |
7 |
7 |
13 |
14 |
Frecuencias conjuntas
Se representan por nij, y son las frecuencias incluidas en la tabla
primitiva de entrada. Los subíndices i y j representan la fila y
columna en la que está situada la frecuencia.Así, en la tabla n13
= 7
y n34
= 13
Llamaremos N a la suma total
de estas frecuencias
Representaremos este hecho
mediante un sumatorio doble sin índices, para no
complicar las fórmulas:

Llamaremos frecuencia
marginal de un valor de X, a la
que le corresponde a ese valor si no tenemos en cuenta la existencia de Y. En
la práctica coincide con la suma de todas las frecuencias contenidas en la fila correspondiente a ese valor.
En la tabla del ejemplo, la
frecuencia marginal de B es 26, suma de las frecuencias de la segunda fila.
De la misma forma se define
la frecuencia marginal en la variable Y, como la que tendría si no se tuviera
en cuenta la X, o la suma de la columna correspondiente.
Frecuencias condicionadas
Son las frecuencias que posee
una variable si sólo consideramos un
valor (o varios) de la otra variable. En la práctica se traduce a
considerar sólo una fila o sólo una columna, según el valor elegido.
Las frecuencias condicionadas
se representan con este símbolo: nx/y,
que se puede leer como Frecuencia de x condicionada por y.
En la tabla del ejemplo, la
distribución de X condicionada a Marzo es la columna A=7,
B=6, C=7
Medidas en una distribución
bidimensional
Al existir dos variables X e
Y, las medidas también son dobles. Así, consideraremos las siguientes:
Media de X
Tiene la misma definición que en el caso unidimensional. Viene dada por la fórmula

si los datos están aislados y por esta otra

si están agrupados.
Media de la Y
Se define de forma similar:

y para agrupados

(Las siguientes definiciones
las desarrollaremos sólo para aislados, pues su traducción es fácil)
Varianzas y desviaciones típicas
También serán dobles:
La varianza de X será

y
su desviación típica sx será la raíz cuadrada de
esa expresión.
En
el caso de Y la definición es similar:

Covarianza
Esta
medida es muy interesante. Mide el paralelismo
existente entre ambas variables (en función sólo de los datos presentes en la tabla). Si la covarianza
es grande, manifestará la existencia de un cierto paralelismo o dependencia (en
sentido estadístico) entre X e Y. Si es pequeña, indicará que ambas variables
se comportan de manera más independiente.
Su
definición es:

y puede
ser positiva, cero o negativa.
El significado de la varianza es el siguiente:
Si en el numerador la mayoría de los productos son positivos, será porque las diferencias de X y de Y tienen el mismo signo. Eso significa que para X mayor que la media, la Y también lo es, y al contrario, a valores pequeños de X le corresponden pequeños en Y. Por tanto, los productos serán mayoritariamente positivos y la varianza crecerá.
Una varianza positiva y alejada del valor cero indica un cierto paralelismo entre X e Y, en el que a valores mayores de X le corresponden los mayores en Y.
Si los productos son mayoritariamente negativos, es que las diferencias tienen distintos signos, por lo que
Una varianza negativa y alejada del cero indica un paralelismo inverso, en el que a valores pequeños de X le corresponden valores grandes de Y, y a la inversa.
Por último, si están muy repartidos los productos positivos y negativos, es que apenas existe paralelismo, y la varianza se acercará a cero.
El problema de la varianza es que carece de un valor máximo, por lo que es difícil juzgar si la correspondencia entre las dos variables es la mejor posible.
Como
en el caso de una variable, la covarianza no es adecuada para establecer comparaciones
entre medidas muy diferentes, además del inconveniente de no tener un valor
máximo, lo que impide valorar el grado de paralelismo existente en los datos.
Para
normalizar la covarianza procederemos como en el
Coeficiente de Variación: dividiremos dicha covarianza
entre las dos desviaciones típicas (de X y de Y respectivamente). Al resultado
le daremos el nombre de Coeficiente de
correlación y lo representaremos por r.

El coeficiente r también recibe el nombre de Coeficiente de Pearson o también Coeficiente de correlación producto-momento.
También se puede demostrar que este coeficiente es en realidad la covarianza del conjunto si expresamos los datos en medidas típicas z (ver sesión 3).
El
valor de r oscila entre -1 y +1, y
mide el paralelismo o correlación entre X e Y. Si sus valores se acercan a 1 o a -1, diremos que existe
correlación fuerte, y está cerca del
cero, débil.
Podemos
desarrollar más estos comentarios mediante una tabla:
|
Valor de r |
Comentario |
|
+1 |
Dependencia funcional
positiva (función creciente entre ambas) |
|
Cercana al 1 |
Correlación fuerte positiva |
|
Cercana al 0 |
Correlación débil o
independencia |
|
Cercana al -1 |
Correlación fuerte negativa |
|
-1 |
Dependencia funcional
negativa (función decreciente) |
Se
deben evitar interpretaciones erróneas del coeficiente r. Seleccionamos las más frecuentes:
La
dependencia es sólo matemática: no supone relación causa-efecto. Las causas
nunca son tan simples y pueden existir, pero respecto a una tercera variable.
Se
deben evitar demasiados adjetivos como correlación
regular, media, ... pues el significado exacto de r depende de cada experimento en
concreto.
Si
la relación entre datos es de tipo curvilíneo, el coeficiente r pierde representatividad.
A
veces, si existe asimetría, r no
puede acercarse al 1.
El
coeficiente de correlación de Pearson exige que la escala de medida sea de
intervalo o razón. Cuando este supuesto no se cumple, deberemos usar otros
coeficientes, aunque muchos de ellos equivalen, en sus cálculos, al coeficiente
de Pearson.
Coeficiente de Spearman
o de rangos
Si
la variable es de tipo ordinal, podemos usar los rangos (número de orden de
cada dato) para evaluar la correlación.
Representaremos
por d a la diferencia entre rangos
que presenta un dato en dos ordenaciones distintas. Por ejemplo, supongamos que
diez individuos han sido ordenados de forma diferente por dos evaluadores A y
B:
|
Individuos |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
|
A |
2 |
3 |
4 |
1 |
5 |
9 |
10 |
8 |
7 |
6 |
|
B |
3 |
5 |
1 |
4 |
2 |
6 |
8 |
10 |
9 |
7 |
|
D |
+1 |
+2 |
-3 |
+3 |
-3 |
-3 |
-2 |
+2 |
+2 |
+1 |
La
suma de todas las diferencias será cero.
La
fórmula del coeficiente de Spearman es

Si
existen empates entre ordenaciones se resuelven asignando el rango promedio.
Equivale
al coeficiente de Pearson, aunque se calcule mediante otras técnicas. Un
coeficiente positivo significará que rangos altos en una de las variables se
corresponderán con rangos también altos en la otra, y negativo cuando a los
altos en una correspondan bajos en otra.
Coeficiente biserial
puntual
Se
utiliza cuando X es cuantitativa y la Y dicotómica (variable con sólo dos
valores). Por ejemplo, X puede ser la calificación en un examen de Ciencias
Sociales, y la Y el hecho de que los alumnos examinados tengan o no una
habitación para estudiar ellos solos, sin compartirla con los hermanos.
Los
valores de la variable Y se suelen representar por 1 y 0. Puede ser dicotómica
en su definición (tener o no tener, aprobar o suspender, ...),
o bien haber sido dicotomizada,
si, por ejemplo, asignamos un 1 a los individuos que superen un valor y 0 a los
que no lo superen.
La
fórmula de este coeficiente es:

donde las
medias del numerador corresponden a los valores correspondientes a Y=1 e Y=0 respectivamente, la
desviación típica del denominador a la de todas
las X, y los valores p y q a las proporciones de sujetos con Y=1 e Y=0 respectivamente.
En
la siguiente tabla presentamos un ejemplo de situación en la que es aplicable
este coeficiente:
X:
Notas en el examen de Ciencias Sociales.
Y:
Disposición de habitación de estudio individual, representada por 0 y 1.
|
X |
9 |
5 |
4 |
8 |
6 |
9 |
8 |
6 |
6 |
7 |
|
Y |
1 |
1 |
0 |
0 |
0 |
1 |
1 |
0 |
1 |
0 |
Coeficiente de contingencia
Se
utiliza para tablas de doble entrada que contengan frecuencias correspondientes
a dos variables de cualquier tipo de escala, desde nominal hasta cuantitativa
de razón.
Usa
la distribución chi-cuadrado χ2, que
se estudia en otra sesión del curso.
Su
fórmula es
