Página principal | Main page

Regresión
Regresión Lineal Múltiple

Se trata de predecir el valor de una variable respuesta (y) como función lineal de una familia de m variables explicativas (x1, x2, ..., xm), a partir de una muestra de tamaño n cuyas observaciones se ordenan matricialmente:

siendo yi la i-ésima variable respuesta y xi,j la j-ésima variable explicativa asociada a la observación i.

Así las cosas, se trata de ajustar los datos a un modelo de la forma

bajo las siguientes hipótesis:
  1. Los residuos ei son normales de media 0 y varianza común desconocida ; además, estos residuos son independientes.
  2. El número de variables explicativas (m) es menor que el de observaciones (n); esta hipótesis se conoce con el nombre de rango completo.
  3. No existen relaciones lineales exactas entre las variables explicativas.

El estimador del vector paramétrico es

siendo
habiéndose indicado la transposición matricial mediante el superíndice T.

El estimador insesgado de la varianza , conocido con el nombre de varianza residual, tiene por expresión

El coeficiente de determinación corregido, definido como

siendo
mide el ajuste del modelo, se interpreta como el porcentaje de variación de la variable respuesta explicada por el modelo; así, cuanto más se acerque R2 a 100, con más confianza se podrá considerar el modelo lineal como válido.

El contraste de regresión es imperativo a la hora de diagnosticar y validar el modelo que se está ajustando; consiste en decidir si realmente la variable respuesta y es función lineal de las explicativas x1, x2, ..., xm. Formalmente, el contraste se plantea en los siguientes términos:

H0: "no existe dependencia lineal: "
frente a la alternativa:
H1: "sí existe alguna dependencia lineal: ".

El estadístico de contraste es

que se distribuye como una Fm,n-m-1 de Snedecor. El contraste se realiza con un nivel de significación del 5%.


Caso

En una muestra de 25 hospitales, el analista ha recogido los siguientes datos sobre el costo anual en 1988 (variable respuesta), así como sobre el personal sanitario y el número de camas durante el msmo año.

Coste
hospitalario
Personal
sanitario
Número
de camas
1000 100 300
750 50 150
500 25 100
350 15 70
400 20 80
750 30 100
850 70 200
450 30 90
450 35 100
... ... ...

Se quiere ajustar un modelo lineal que devuelva el coste de mantenimiento hospitalario en función del personal sanitario y del número de camas.

En primer lugar observamos que el número de variables explicativas es 2, por lo que se necesitan estimar tres parámetros de regresión: 222.28 para el término independiente, 1.28 para la variable personal sanitario y 2.24 para el número de camas. La desviación típica residual y el coeficiente de determinación corregido toman los valores 107.80 y 76.49%, respectivamente. Finalmente, el contraste de regresión rechaza la hipótesis de independencia al nivel del 5%, dando a entender que no hay indicios de que el modelo lineal

y = 222.28 + 1.28 x1 + 2.24 x2
deba ser rechazado. Sin embargo, un análisis más detallado muestra que la inclusión de la variable personal sanitario no aporta información relevante, de modo que al eliminarla se obtiene el modelo
y = 232.34 + 2.55 x2,
con una desviación típica residual de 106.08 y un coeficiente de determinación de 77.23%, parámetros de diagnóstico ligeramente mejores que los anteriores. Para comprobar estos resultados, eliminar en el panel superior de entrada los datos centrales (100, 50, 25, 15, etc.) y volver a pulsar la barra central.

(Fuente: Colectivo Dr. Arruga (1999) Economía de la salud. Estadística para médicos. Clínica asistida por computadora.. CIE IE Dossat 2000, Madrid.)

Manual de las applets de BioMates
Hay problemas en la carga del applet.


© BioMates, 2000-2001