Diferença entre Regressão Linear e Regressão Logística - Diferença Entre

Diferença entre Regressão Linear e Regressão Logística

o principal diferença entre regressão linear e regressão logística é que o A regressão linear é usada para prever um valor contínuo, enquanto a regressão logística é usada para prever um valor discreto.

Sistemas de aprendizado de máquina podem prever resultados futuros com base no treinamento de insumos anteriores. Existem dois tipos principais de aprendizado de máquina chamados aprendizado supervisionado e aprendizado não supervisionado. Regressão e classificação se enquadram na aprendizagem supervisionada, enquanto o agrupamento se enquadra na aprendizagem não supervisionada. Algoritmos de aprendizado supervisionado usam dados rotulados para treinar o conjunto de dados. Regressão linear e regressão logística são dois tipos de algoritmos de aprendizado supervisionados. A regressão linear é usada quando a variável dependente é contínua e o modelo é linear. A regressão logística é usada quando a variável dependente é discreta e o modelo não é linear.

Principais áreas cobertas

1. O que é Regressão Linear?
- Definição, Funcionalidade
2. O que é Regressão Logística?
- Definição, Funcionalidade
3. Diferença entre Regressão Linear e Regressão Logística
- Comparação de diferenças-chave

Termos chave

Regressão Linear, Regressão Logística, Aprendizado de Máquina


O que é Regressão Linear?

A regressão linear localiza a relação entre variáveis ​​independentes e dependentes. Ambos são contíguos. A variável independente é a variável que não é alterada pelas outras variáveis. É denotado por x. Também pode haver várias variáveis ​​independentes, como x1, x2, x3, etc. A variável dependente muda de acordo com a variável independente e é denotada por y.

Quando existe uma variável independente, a equação de regressão é a seguinte.

y = b0 + b1x

Por exemplo, suponha que x represente chuva e que y represente o rendimento da safra.


Figura 1: Regressão Linear

O conjunto de dados será semelhante ao acima. Em seguida, uma linha que cobre a maioria dos pontos de dados é selecionada. Esta linha representa os valores previstos.


Figura 2: Distância entre os pontos de dados reais e os valores previstos

Então, a distância de cada ponto de dados até a linha é encontrada como mostrado no gráfico acima. Essa é a distância entre o valor real e o valor previsto. Essa distância também é conhecida como erro ou residual. A linha de melhor ajuste deve ter a menor soma de quadrados de erros. Quando um novo valor de precipitação é dado (x), é possível encontrar o rendimento de cultura correspondente (y) usando esta linha.

No mundo real, pode haver várias variáveis ​​independentes (x1, x2, x3…). Isso é chamado de regressão linear múltipla. A equação de regressão linear múltipla é a seguinte.

O que é regressão logística?

A regressão logística pode ser usada para classificar duas classes. Também é conhecido como classificação binária. Verificar se um email é spam ou não prever se um cliente comprará um produto ou não, prevendo se é possível obter uma promoção ou não, são outros exemplos de regressão logística.


Figura 3: Regressão Logística

Suponha que o número de horas que um estudante estudou por dia seja a variável independente. Dependendo disso, a probabilidade de passar em um exame é calculada. O valor 0,5 considerado como o limite. Quando o novo número de horas é dado, é possível encontrar a probabilidade correspondente de passar no exame usando este gráfico. Se a probabilidade for acima de 0,5, é considerada como 1 ou passar. Se a probabilidade for inferior a 0,5, então é considerada como 0 ou falha.

A aplicação da equação de regressão linear à função sigmóide dará a equação de regressão logística.

A função sigmóide é


Outro ponto importante a ser observado é que a regressão logística é aplicável apenas para classificar duas classes. Não é usado para classificação multiclasse.

Diferença entre Regressão Linear e Regressão Logística

Definição

A regressão linear é uma abordagem linear que modela a relação entre uma variável dependente e uma ou mais variáveis ​​independentes. Em contraste, a regressão logística é um modelo estatístico que prevê a probabilidade de um resultado que pode ter apenas dois valores.

Uso

Enquanto a regressão linear é usada para resolver problemas de regressão, a regressão logística é usada para resolver problemas de classificação (classificação binária).

Metodologia

A regressão linear estima a variável dependente quando há uma mudança na variável independente. A regressão logística calcula a possibilidade de um evento ocorrer. Essa é uma diferença importante entre a regressão linear e a regressão logística.

Valor de saída

Além disso, na regressão linear, o valor de saída é contínuo. Na regressão logística, o valor de saída é discreto.

Modelo

Embora a regressão linear use uma linha reta, a regressão logística usa uma curva S ou função sigmóide. Essa é outra diferença importante entre a regressão linear e a regressão logística.

Exemplos

Prever o PIB de um país, prever o preço do produto, prever o preço de venda da casa, prever a pontuação são alguns exemplos de regressão linear. Prever se um email é spam ou não, prever se a transação com cartão de crédito é fraudulenta ou não, prever se um cliente fará ou não um empréstimo são alguns exemplos de regressão logística.

Conclusão

A diferença entre a regressão linear e a regressão logística é que a regressão linear é usada para prever um valor contínuo, enquanto a regressão logística é usada para prever um valor discreto. Em resumo, a regressão linear é usada para a regressão, enquanto a regressão logística é usada para classificação.

Referência:

1. Análise de Regressão Linear | Regressão Linear em Python | Algoritmos de Aprendizado de Máquina | Simplilearn, 26 de março de 2018,