Se trata de predecir el valor de una variable respuesta (y) como función lineal de una familia de m variables explicativas (x1, x2, ..., xm), a partir de una muestra de tamaño n cuyas observaciones se ordenan matricialmente:

Así las cosas, se trata de ajustar los datos a un modelo de la forma

; además, estos residuos son independientes.
El estimador del vector paramétrico es


El estimador insesgado de la varianza
, conocido con el nombre
de varianza residual, tiene por expresión

El coeficiente de determinación corregido, definido como


El contraste de regresión es imperativo a la hora de diagnosticar y validar el modelo que se está ajustando; consiste en decidir si realmente la variable respuesta y es función lineal de las explicativas x1, x2, ..., xm. Formalmente, el contraste se plantea en los siguientes términos:
H0: "no existe dependencia lineal:frente a la alternativa:"
H1: "sí existe alguna dependencia lineal:".
El estadístico de contraste es

En una muestra de 25 hospitales, el analista ha recogido los siguientes datos sobre el costo anual en 1988 (variable respuesta), así como sobre el personal sanitario y el número de camas durante el msmo año.
Coste
hospitalarioPersonal
sanitarioNúmero
de camas1000 100 300 750 50 150 500 25 100 350 15 70 400 20 80 750 30 100 850 70 200 450 30 90 450 35 100 ... ... ... Se quiere ajustar un modelo lineal que devuelva el coste de mantenimiento hospitalario en función del personal sanitario y del número de camas.
En primer lugar observamos que el número de variables explicativas es 2, por lo que se necesitan estimar tres parámetros de regresión: 222.28 para el término independiente, 1.28 para la variable personal sanitario y 2.24 para el número de camas. La desviación típica residual y el coeficiente de determinación corregido toman los valores 107.80 y 76.49%, respectivamente. Finalmente, el contraste de regresión rechaza la hipótesis de independencia al nivel del 5%, dando a entender que no hay indicios de que el modelo lineal
y = 222.28 + 1.28 x1 + 2.24 x2 deba ser rechazado. Sin embargo, un análisis más detallado muestra que la inclusión de la variable personal sanitario no aporta información relevante, de modo que al eliminarla se obtiene el modeloy = 232.34 + 2.55 x2, con una desviación típica residual de 106.08 y un coeficiente de determinación de 77.23%, parámetros de diagnóstico ligeramente mejores que los anteriores. Para comprobar estos resultados, eliminar en el panel superior de entrada los datos centrales (100, 50, 25, 15, etc.) y volver a pulsar la barra central.(Fuente: Colectivo Dr. Arruga (1999) Economía de la salud. Estadística para médicos. Clínica asistida por computadora.. CIE IE Dossat 2000, Madrid.)
© BioMates, 2000-2001