Contenido
- La regresión lineal se limita a las relaciones lineales
- La regresión lineal solo mira la media de la variable dependiente
- La regresión lineal es sensible a los valores atípicos
- Los datos deben ser independientes
La regresión lineal es un método estadístico para examinar la relación entre una variable dependiente, denotada como y y una o más variables independientes, denotadas como X. La variable dependiente debe ser continua, ya que puede tomar cualquier valor, o al menos cerca de continua. Las variables independientes pueden ser de cualquier tipo. Aunque la regresión lineal no puede mostrar la causalidad por sí misma, la variable dependiente generalmente se ve afectada por las variables independientes.
La regresión lineal se limita a las relaciones lineales
Por su naturaleza, la regresión lineal solo analiza las relaciones lineales entre variables dependientes e independientes. Es decir, se supone que existe una relación lineal entre ellos. A veces esto es incorrecto. Por ejemplo, la relación entre ingresos y edad es curva, es decir, los ingresos tienden a aumentar en las primeras etapas de la edad adulta, se aplanan en la edad adulta y disminuyen después de que las personas se jubilan. Puede saber si esto es un problema mirando las representaciones gráficas de las relaciones.
La regresión lineal solo mira la media de la variable dependiente
La regresión lineal analiza una relación entre la media de la variable dependiente y las variables independientes. Por ejemplo, si observa la relación entre el peso al nacer de los bebés y las características maternas como la edad, la regresión lineal analizará el peso promedio de los bebés nacidos de madres de diferentes edades. Sin embargo, a veces es necesario observar los extremos de la variable dependiente, por ejemplo, los bebés están en riesgo cuando su peso es bajo, por lo que en este ejemplo querrá ver los extremos.
Así como la media no es una descripción completa de una sola variable, la regresión lineal no es una descripción completa de las relaciones entre variables. Puede lidiar con este problema utilizando la regresión cuantil.
La regresión lineal es sensible a los valores atípicos
Los valores atípicos son datos que son sorprendentes. Los valores atípicos pueden ser univariados (basados en una variable) o multivariados. Si observa la edad y los ingresos, los valores atípicos univariantes serían cosas como una persona que tiene 118 años o una que ganó $ 12 millones el año pasado. Un valor atípico multivariante sería un joven de 18 años que ganó $ 200,000. En este caso, ni la edad ni el ingreso son muy extremos, pero muy pocas personas de 18 años ganan tanto dinero.
Los valores atípicos pueden tener enormes efectos en la regresión. Puede resolver este problema solicitando estadísticas de influencia de su software estadístico.
Los datos deben ser independientes
La regresión lineal supone que los datos son independientes. Eso significa que los puntajes de un sujeto (como una persona) no tienen nada que ver con los de otro. Esto es a menudo, pero no siempre, sensato. Dos casos comunes en los que no tiene sentido se agrupan en el espacio y el tiempo.
Un ejemplo clásico de agrupamiento en el espacio son los puntajes de las pruebas de los estudiantes, cuando tienes estudiantes de varias clases, grados, escuelas y distritos escolares. Los estudiantes en la misma clase tienden a ser similares en muchos aspectos, es decir, a menudo provienen de los mismos vecindarios, tienen los mismos maestros, etc. Por lo tanto, no son independientes.
Ejemplos de agrupamiento en el tiempo son los estudios en los que se miden los mismos temas varias veces. Por ejemplo, en un estudio de dieta y peso, puede medir a cada persona varias veces. Estos datos no son independientes porque lo que pesa una persona en una ocasión está relacionado con lo que pesa en otras ocasiones. Una forma de lidiar con esto es con modelos multinivel.