Regresión Múltiple
Es cuando se relacionan 2 o más variables (x) con la variable dependiente (y). La idea es
conocer que cambio de y esta asociado con cambios unitarios de las variables
independientes. La ecuación general para contestar esta pregunta es:

Los términos b1, b2, bk reciben el nombre de
regresión parcial. La ecuación mejor ajustada de esta forma será aquella que haga
mínima la suma de cuadrados de la desviaciones de las Y observados y de las Y estimadas.
Para encontrar los respectivos componentes de la ecuación se resuelve el siguiente
sistema de ecuaciones:

Los puntos suspensivos indican la posibilidad de ampliar estas ecuaciones para incluir
a más de tres variables.
Los cálculos pueden reducirse considerablemente transformando cada valor en una
desviación respecto a su media.
Así:

Como la suma de las desviaciones de cualquier conjunto de valores respecto a su media
es cero, desaparecen la primera ecuación y los términos que contienen a bo de
las otras ecuaciones.
El planteamiento así modificado quedaría:

Ejemplo numérico:
| Y |
X1 |
X2 |
X1X2 |
X1Y |
X2Y |
X12 |
X22 |
y2 |
| 15 |
0 |
21 |
0 |
0 |
315 |
0 |
441 |
225 |
| 15 |
0 |
18 |
0 |
0 |
270 |
0 |
324 |
225 |
| 21 |
0 |
22 |
0 |
0 |
462 |
0 |
484 |
441 |
| 28 |
1 |
24 |
24 |
28 |
672 |
1 |
576 |
784 |
| 30 |
1 |
25 |
25 |
30 |
750 |
1 |
625 |
900 |
| 35 |
1 |
25 |
25 |
35 |
875 |
1 |
625 |
1225 |
| 40 |
1 |
26 |
26 |
40 |
1040 |
1 |
676 |
1600 |
| 35 |
2 |
34 |
68 |
70 |
1190 |
4 |
1156 |
1225 |
| 30 |
2 |
25 |
50 |
60 |
750 |
4 |
625 |
900 |
| 45 |
2 |
38 |
76 |
90 |
1710 |
4 |
1444 |
2025 |
| 50 |
3 |
44 |
132 |
150 |
2200 |
9 |
1936 |
2500 |
| 60 |
3 |
51 |
153 |
180 |
3060 |
9 |
2601 |
3600 |
| 45 |
4 |
39 |
156 |
180 |
1755 |
16 |
1521 |
2025 |
| 60 |
4 |
54 |
216 |
240 |
3240 |
16 |
2916 |
3600 |
| 50 |
5 |
55 |
275 |
250 |
2750 |
25 |
3025 |
2500 |
| Suma: 559 |
29 |
501 |
1226 |
1353 |
21039 |
91 |
18975 |
23775 |
| Prom: 37.27 |
1.93 |
33.4 |



Y sustituyendo estos valores en las ecuaciones respectivas se tiene:
34.93 b1 + 257.4 b2 = 272.27
257.4 b1 + 2241.6 b2 = 2368.4
Multiplicando el coeficiente del primer término de la segunda ecuación por la primera
ecuación y el coeficiente del primer término de la primera ecuación por la segunda
ecuación y obteniendo la diferencia se tiene.
8990b1 + 78299.09b2 = 82728.21
8990b1 + 66254b2
= 70082.30
12045.09b2
= 12645.91
Y por lo tanto b2 = 12645.91/12045.09 = 1.05
Reemplazando este valor en cualquiera de las ecuaciones se tiene:
34.93b1 + 257.4(1.05) = 272.27
34.93b1 = 272.27 - 270.24
b1 = 2.03/34.93
b1 = 0.06
b0 = Y - b1X1 - b2X2
b0 = 37.27-(.06)(1.93)-(1.05)(33.4)
b0 = 2.08
Y entonces la ecuacion de regresion multiple para el ejemplo
es :
Y = 2.08 + 0.06X1 + 1.05X2
El coeficiente de determinacion R2 se obtiene a partir de la fórmula :
R2= Suma de
cuadrados de la Regresión
Suma
de cuadrados total

SC Reg = (0.06)(272.27) + (1.05)(2368.4) = 2503.16
SC Tot. = 23775 - (559)2/15 = 2942.93
R2 = 2503.16/2942.93 = 0.85
Con la información obtenida hasta el momento es fácil construir la tabla de análisis
de varianza y determinar si la regresión en conjunto es significativa.
Anova para la regresión múltiple:
| Fuente de variación |
SC |
Gl |
CM |
F |
| Total |
SC Tot |
n-1 |
SC Tot/n-1 |
| Regresión |
SCReg |
k |
SC Reg/k |
CMReg/CMRes |
| Residual |
SCRes |
n-k-1 |
SCres/(n-k-1) |
La suma de cuadrados se obtiene por diferencia residual.
Que para el ejemplo seria :
Anova regresión Múltiple
| Fuente de variación |
SC |
Gl |
CM |
F |
| Total |
2942.93 |
14 |
210.21 |
| Regresión |
2503.16 |
2 |
1251.58 |
34.15 |
| Residual |
439.77 |
12 |
36.65 |
Y consultando la tabla de F con 2 grados de libertad en el numerador y 12 en el
denominador se ve que es significativa a 0.001. Por lo tanto se concluye que la regresión
explica una proporción significativa de la variación en Y.
|