Différence entre régression linéaire et régression logistique

le différence principale entre régression linéaire et régression logistique est que le la régression linéaire est utilisée pour prédire une valeur continue tandis que la régression logistique est utilisée pour prédire une valeur discrète.

Les systèmes d'apprentissage automatique peuvent prévoir les résultats futurs en fonction de la formation des intrants antérieurs. Il existe deux principaux types d’apprentissage automatique: l’apprentissage supervisé et l’apprentissage non supervisé. La régression et la classification relèvent de l'apprentissage supervisé, tandis que la mise en grappes relève de l'apprentissage non supervisé. Les algorithmes d'apprentissage supervisé utilisent des données étiquetées pour former le jeu de données. La régression linéaire et la régression logistique sont deux types d'algorithmes d'apprentissage supervisé. La régression linéaire est utilisée lorsque la variable dépendante est continue et que le modèle est linéaire. La régression logistique est utilisée lorsque la variable dépendante est discrète et que le modèle est non linéaire..

Zones clés couvertes

1. Qu'est-ce que la régression linéaire?
     - Définition, fonctionnalité
2. Qu'est-ce que la régression logistique?
     - Définition, fonctionnalité
3. Différence entre régression linéaire et régression logistique
     - Comparaison des différences clés

Mots clés

Régression linéaire, régression logistique, apprentissage automatique

Qu'est-ce que la régression linéaire?

La régression linéaire trouve la relation entre les variables indépendantes et dépendantes. Les deux sont contigus. La variable indépendante est la variable qui n'est pas modifiée par les autres variables. Il est noté x. Il peut également y avoir plusieurs variables indépendantes telles que x1, x2, x3, etc. La variable dépendante change en fonction de la variable indépendante et est indiquée par y..

Lorsqu'il y a une variable indépendante, l'équation de régression est la suivante.

y = b0 + b1x

Par exemple, supposons que x représente les précipitations et y représente le rendement de la culture.

Figure 1: Régression linéaire

L'ensemble de données ressemblera à celui ci-dessus. Ensuite, une ligne couvrant la plupart des points de données est sélectionnée. Cette ligne représente les valeurs prédites.

Figure 2: Distance entre les points de données réels et les valeurs prédites

Ensuite, la distance entre chaque point de données et la ligne est trouvée comme indiqué dans le graphique ci-dessus. C'est la distance entre la valeur réelle et la valeur prédite. Cette distance est également appelée erreur ou résidu. La ligne de meilleur ajustement devrait avoir le moins de carrés d'erreur possible. Lorsque la nouvelle valeur de pluie est donnée (x), il est possible de trouver le rendement de culture correspondant (y) en utilisant cette ligne.  

Dans le monde réel, il peut y avoir plusieurs variables indépendantes (x1, x2, x3…). C'est ce qu'on appelle la régression linéaire multiple. L'équation de régression linéaire multiple est la suivante.

Qu'est-ce que la régression logistique?

La régression logistique peut être utilisée pour classer deux classes. Il est également connu comme classification binaire.  Vérifier si un email est un spam ou ne pas prédire si un client achètera un produit ou non, prédire s'il est possible d'obtenir une promotion ou non sont quelques autres exemples de régression logistique.

Figure 3: Régression logistique

Supposons que le nombre d'heures qu'un élève étudie par jour soit la variable indépendante. En fonction de cela, la probabilité de réussir un examen est calculée. La valeur 0,5 considérée comme le seuil. Lorsque le nouveau nombre d'heures est donné, il est possible de trouver la probabilité correspondante de réussir l'examen à l'aide de ce graphique. Si la probabilité est supérieure à 0,5, elle est considérée comme 1 ou réussie. Si la probabilité est inférieure à 0,5, elle est considérée comme 0 ou échoue..

L’application de l’équation de régression linéaire à la fonction sigmoïde donnera l’équation de régression logistique.

La fonction sigmoïde est    

Un autre point important à noter est que la régression logistique ne s'applique qu'à la classification de 2 classes. Il n'est pas utilisé pour la classification multiclass.

Différence entre régression linéaire et régression logistique

Définition

La régression linéaire est une approche linéaire qui modélise la relation entre une variable dépendante et une ou plusieurs variables indépendantes. En revanche, la régression logistique est un modèle statistique qui prédit la probabilité d’un résultat qui ne peut avoir que deux valeurs..

Usage

Alors que la régression linéaire est utilisée pour résoudre les problèmes de régression, la régression logistique est utilisée pour résoudre les problèmes de classification (classification binaire).

Méthodologie

La régression linéaire estime la variable dépendante en cas de modification de la variable indépendante. La régression logistique calcule la possibilité qu'un événement se produise. C'est une différence importante entre la régression linéaire et la régression logistique.

Valeur de sortie

De plus, en régression linéaire, la valeur de sortie est continue. En régression logistique, la valeur de sortie est discrète.

Modèle

Bien que la régression linéaire utilise une ligne droite, la régression logistique utilise une courbe en S ou une fonction sigmoïde. C'est une autre différence importante entre la régression linéaire et la régression logistique..

Exemples

Prédire le PIB d'un pays, prédire le prix d'un produit, prédire le prix de vente d'une maison, prédire le score sont quelques exemples de régression linéaire. Prédire si un e-mail est un spam ou non, prédire si la transaction par carte de crédit est frauduleuse ou non, prédire si un client prendra un prêt ou non sont quelques exemples de régression logistique.

Conclusion

La différence entre régression linéaire et régression logistique réside dans le fait que la régression linéaire est utilisée pour prédire une valeur continue, tandis que la régression logistique est utilisée pour prédire une valeur discrète. En bref, la régression linéaire est utilisée pour la régression alors que la régression logistique est utilisée pour la classification.

Référence:

1. Analyse de régression linéaire | Régression linéaire en Python | Algorithmes d'apprentissage automatique | Simplilearn, 26 mars 2018, disponible ici.
2. Régression logistique | Régression logistique en Python | Algorithmes d'apprentissage automatique | Simplilearn, 22 mars 2018, disponible ici.

Courtoisie d'image:

1. “Régression linéaire” par Sewaqu - Son propre travail, domaine public) via Commons Wikimedia
2. “Résidus pour ajustement de régression linéaire” Par Thomas.haslwanter - Propre travail (CC BY-SA 3.0) via Commons Wikimedia
3. «Logistic-curve» par Qef (discussion) - Créé à partir de zéro avec gnuplot (domaine public) via Commons Wikimedia