Diferencia entre regresión lineal y regresión logística

los diferencia principal entre regresión lineal y regresión logística es que la la regresión lineal se usa para predecir un valor continuo mientras que la regresión logística se usa para predecir un valor discreto.

Los sistemas de aprendizaje automático pueden predecir resultados futuros basados ​​en la capacitación de insumos pasados. Hay dos tipos principales de aprendizaje automático llamado aprendizaje supervisado y aprendizaje no supervisado. La regresión y la clasificación caen bajo el aprendizaje supervisado, mientras que la agrupación cae bajo el aprendizaje no supervisado. Los algoritmos de aprendizaje supervisado utilizan datos etiquetados para entrenar el conjunto de datos. La regresión lineal y la regresión logística son dos tipos de algoritmos de aprendizaje supervisado. La regresión lineal se utiliza cuando la variable dependiente es continua y el modelo es lineal. La regresión logística se usa cuando la variable dependiente es discreta y el modelo no es lineal.

Áreas clave cubiertas

1. ¿Qué es la regresión lineal?
     - Definición, Funcionalidad
2. ¿Qué es la regresión logística?
     - Definición, Funcionalidad
3. Diferencia entre regresión lineal y regresión logística
     - Comparación de diferencias clave

Términos clave

Regresión lineal, regresión logística, aprendizaje automático

¿Qué es la regresión lineal?

La regresión lineal encuentra la relación entre variables independientes y dependientes. Ambos son contiguos. La variable independiente es la variable que no se cambia por las otras variables. Se denota por x. También puede haber múltiples variables independientes, como x1, x2, x3, etc. La variable dependiente cambia según la variable independiente, y se denota con y.

Cuando hay una variable independiente, la ecuación de regresión es la siguiente.

y = b0 + b1x

Por ejemplo, suponga que x representa la lluvia y y representa el rendimiento del cultivo.

Figura 1: Regresión lineal

El conjunto de datos se verá como arriba. Luego, se selecciona una línea que cubre la mayoría de los puntos de datos. Esta línea representa los valores predichos..

Figura 2: Distancia entre los puntos de datos reales y los valores predichos

Luego, la distancia desde cada punto de datos a la línea se encuentra como se muestra en el gráfico anterior. Esta es la distancia entre el valor real y el valor predicho. Esta distancia también se conoce como error o residuos. La mejor línea de ajuste debe tener la menor suma de cuadrados de errores. Cuando se da un nuevo valor de precipitación (x), es posible encontrar el rendimiento de cultivo correspondiente (y) usando esta línea.  

En el mundo real, puede haber múltiples variables independientes (x1, x2, x3 ...). Esto se llama regresión lineal múltiple. La ecuación de regresión lineal múltiple es la siguiente.

¿Qué es la regresión logística?

La regresión logística se puede utilizar para clasificar dos clases. También es conocido como clasificación binaria.  Verificar si un correo electrónico es spam o no predecir si un cliente comprará un producto o no, predecir si es posible obtener una promoción o no son otros ejemplos de regresión logística.

Figura 3: Regresión logística

Supongamos que la cantidad de horas que un estudiante estudió por día es la variable independiente. Dependiendo de eso, se calcula la probabilidad de aprobar un examen. El valor 0.5 considerado como el umbral. Cuando se da el nuevo número de horas, es posible encontrar la probabilidad correspondiente de aprobar el examen utilizando este gráfico. Si la probabilidad es superior a 0.5, se considera como 1 o pase. Si la probabilidad es inferior a 0,5, se considera 0 o falla.

La aplicación de la ecuación de regresión lineal a la función sigmoide dará la ecuación de regresión logística.

La función sigmoide es    

Otro punto importante a tener en cuenta es que la regresión logística solo es aplicable para clasificar 2 clases. No se utiliza para la clasificación multiclase..

Diferencia entre regresión lineal y regresión logística

Definición

La regresión lineal es un enfoque lineal que modela la relación entre una variable dependiente y una o más variables independientes. En contraste, la regresión logística es un modelo estadístico que predice la probabilidad de un resultado que solo puede tener dos valores.

Uso

Mientras que la regresión lineal se usa para resolver problemas de regresión, la regresión logística se usa para resolver problemas de clasificación (clasificación binaria).

Metodología

La regresión lineal estima la variable dependiente cuando hay un cambio en la variable independiente. La regresión logística calcula la posibilidad de que ocurra un evento. Esta es una diferencia importante entre la regresión lineal y la regresión logística..

Valor de salida

Además, en regresión lineal, el valor de salida es continuo. En regresión logística, el valor de salida es discreto..

Modelo

Aunque la regresión lineal usa una línea recta, la regresión logística usa una curva S o una función sigmoidea. Esta es otra diferencia importante entre la regresión lineal y la regresión logística.

Ejemplos

Predecir el PIB de un país, predecir el precio del producto, predecir el precio de venta de la vivienda, la predicción del puntaje son algunos ejemplos de regresión lineal. Predecir si un correo electrónico es spam o no, predecir si la transacción con tarjeta de crédito es un fraude o no, predecir si un cliente tomará un préstamo o no son algunos ejemplos de regresión logística.

Conclusión

La diferencia entre la regresión lineal y la regresión logística es que la regresión lineal se usa para predecir un valor continuo, mientras que la regresión logística se usa para predecir un valor discreto. En resumen, la regresión lineal se utiliza para la regresión, mientras que la regresión logística se utiliza para la clasificación.

Referencia:

1. Análisis de regresión lineal | Regresión lineal en Python | Algoritmos de aprendizaje automático | Simplilearn, 26 de marzo de 2018, disponible aquí.
2. Regresión logística | Regresión logística en Python | Algoritmos de aprendizaje automático | Simplilearn, 22 de marzo de 2018, disponible aquí.

Imagen de cortesía:

1. “Regresión lineal” Por Sewaqu - Trabajo propio, dominio público) a través de Commons Wikimedia
2. "Residuos para el ajuste de regresión lineal" Por Thomas.haslwanter - Trabajo propio (CC BY-SA 3.0) a través de Commons Wikimedia
3. “Curva logística” Por Qef (conversación): creado desde cero con gnuplot (dominio público) a través de Commons Wikimedia