Regresión Múltiple

Es cuando se relacionan 2 o más variables (x) con la variable dependiente (y). La idea es conocer que cambio de y esta asociado con cambios unitarios de las variables independientes. La ecuación general para contestar esta pregunta es:

rmult1.jpg (6996 bytes)

Los términos b1, b2, bk reciben el nombre de regresión parcial. La ecuación mejor ajustada de esta forma será aquella que haga mínima la suma de cuadrados de la desviaciones de las Y observados y de las Y estimadas.

Para encontrar los respectivos componentes de la ecuación se resuelve el siguiente sistema de ecuaciones:

rmult2.jpg (22507 bytes)

Los puntos suspensivos indican la posibilidad de ampliar estas ecuaciones para incluir a más de tres variables.

Los cálculos pueden reducirse considerablemente transformando cada valor en una desviación respecto a su media.

Así:

rmult3.jpg (7262 bytes)

Como la suma de las desviaciones de cualquier conjunto de valores respecto a su media es cero, desaparecen la primera ecuación y los términos que contienen a bo de las otras ecuaciones.

El planteamiento así modificado quedaría:

rmult4.jpg (8394 bytes)

Ejemplo numérico:

Y X1 X2 X1X2 X1Y X2Y X12 X22 y2
15 0 21 0 0 315 0 441 225
15 0 18 0 0 270 0 324 225
21 0 22 0 0 462 0 484 441
28 1 24 24 28 672 1 576 784
30 1 25 25 30 750 1 625 900
35 1 25 25 35 875 1 625 1225
40 1 26 26 40 1040 1 676 1600
35 2 34 68 70 1190 4 1156 1225
30 2 25 50 60 750 4 625 900
45 2 38 76 90 1710 4 1444 2025
50 3 44 132 150 2200 9 1936 2500
60 3 51 153 180 3060 9 2601 3600
45 4 39 156 180 1755 16 1521 2025
60 4 54 216 240 3240 16 2916 3600
50 5 55 275 250 2750 25 3025 2500
Suma: 559 29 501 1226 1353 21039 91 18975 23775
Prom: 37.27 1.93 33.4

rmult5.jpg (15978 bytes)

rmult6.jpg (16296 bytes)

rmult7.jpg (7338 bytes)

Y sustituyendo estos valores en las ecuaciones respectivas se tiene:

34.93 b1 + 257.4 b2 = 272.27 

257.4 b1 + 2241.6 b2 = 2368.4 

Multiplicando el coeficiente del primer término de la segunda ecuación por la primera ecuación y el coeficiente del primer término de la primera ecuación por la segunda ecuación y obteniendo la diferencia se tiene.

8990b1   +  78299.09b2  =  82728.21

8990b1   +       66254b2   =  70082.30
                                                                       

                    12045.09b2 = 12645.91

Y por lo tanto b2 = 12645.91/12045.09 = 1.05

Reemplazando este valor en cualquiera de las ecuaciones se tiene:

34.93b1 + 257.4(1.05) = 272.27
34.93b1 = 272.27 - 270.24
b1 = 2.03/34.93
b1 = 0.06

b0 = Y - b1X1 - b2X2
b0 = 37.27-(.06)(1.93)-(1.05)(33.4)
b0 = 2.08

Y entonces la ecuacion de regresion multiple para el ejemplo

es :

Y = 2.08 + 0.06X1 + 1.05X2

El coeficiente de determinacion R2 se obtiene a partir de la fórmula :

         R2Suma de cuadrados de la Regresión
                     Suma de cuadrados total

rmult8.jpg (14723 bytes)

SC Reg = (0.06)(272.27) + (1.05)(2368.4) = 2503.16

SC Tot. = 23775 - (559)2/15 = 2942.93

R2 = 2503.16/2942.93 = 0.85

Con la información obtenida hasta el momento es fácil construir la tabla de análisis de varianza y determinar si la regresión en conjunto es significativa.

Anova para la regresión múltiple:

Fuente de variación SC Gl CM F
Total SC Tot n-1 SC Tot/n-1
Regresión SCReg k SC Reg/k CMReg/CMRes
Residual SCRes n-k-1 SCres/(n-k-1)

La suma de cuadrados se obtiene por diferencia residual.

Que para el ejemplo seria :

Anova regresión Múltiple

Fuente de variación SC Gl CM F
Total 2942.93 14 210.21
Regresión 2503.16 2 1251.58 34.15
Residual 439.77 12 36.65

Y consultando la tabla de F con 2 grados de libertad en el numerador y 12 en el denominador se ve que es significativa a 0.001. Por lo tanto se concluye que la regresión explica una proporción significativa de la variación en Y.