jueves, 27 de diciembre de 2012

R - Regresión lineal (1)

Los ejemplos están realizados con un conjunto de datos que incluye el propio programa. Solo hay que cargarlos previamente ( > longley ).

1 - Crear un scatter plot o nube de puntos con 2 variables:

Haremos un análisis de la regresión lineal entre el número de empleados y el año. 

> plot(Employed ~ Year, data=longley)

  2 - Análisis de regresión linear:


> Regresion = lm (Employed ~ Year, data = longley)
> Regresion


Call:
lm(formula = Employed ~ Year, data = longley)

Coefficients:
(Intercept)         Year 
 -1335.1052       0.7165



La regresion que se ha realizado representa el número de personas empleadas en función del año. En esta primera tabla se obtienen los valores típicos de una función y= a + bx:
  • a = -1335.1052 ; valor de la ordenada intersección de la recta con el eje Y).
  • b = 0.7165 ; valor de la pendiente.

Podemos realizar un test de contraste de hipótesis para ver el valor de la regresión:
  • H0: no hay relación linear entre el número de empleados y el año.
  • H1: hay relación linear.


> summary (Regresion)

Call:
lm(formula = Employed ~ Year, data = longley)

Residuals:
    Min            1Q       Median        3Q           Max
-1.3118    -0.7089     0.2099     0.4244     1.4652

Coefficients:
                           Estimate         Std. Error          t value        Pr(>|t|)   
(Intercept)      -1.335e+03       9.161e+01        -14.57         7.44e-10 ***
Year                    7.165e-01          4.687e-02         15.29         3.96e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.8642 on 14 degrees of freedom
Multiple R-squared: 0.9435,    Adjusted R-squared: 0.9394
F-statistic: 233.7 on 1 and 14 DF,  p-value: 3.958e-10

-->
Pr (>|t|) es el valor estadístico que vamos a utilizar para rechazar o no la hipótesis nula H0. En este caso, Pr = 3.96^-10 es tan pequeño que podemos rechazar la H0 (los 3 asteríscos que aparecen a la derecha del valor hacen referencia a los "Signif. codes" que aparecen en la siguiente linea de la consola, y significan simplemente que el valor del Pr es inferior al nivel de significación 0.001). El valor de los "Multiple R-squared" y "Adjusted R-squared" están por encima del 0.9, indicando que los puntos están bien ajustados a una línea recta.
Es importante llegados a este punto no caer en la tentación de explicar una variable en función de la otra cada vez que vemos una buena regresión lineal. La correlación no implica que haya causalidad. Así bien, en este caso, la causa de que aumente el número de empleados cada año tendrá su relación causal con el aumento de población, con el aumento del PIB, etc.

1 comentario:

faigingacke dijo...

Harrah's Ak-Chin Casino Resort, Hinckley, MN
Hotel deals 부산광역 출장샵 on Harrah's Ak-Chin Casino Resort in Hinckley, 문경 출장샵 MN from JT Hub. Browse deals, 청주 출장마사지 coupons and more 오산 출장마사지 for AAA/AARP members. 안양 출장샵