ベストアンサー1
確率としての線形回帰出力
線形回帰の出力を確率として使用したくなりますが、出力は負の値や 1 より大きい値になる可能性があるのに対し、確率はそうではないため、これは間違いです。回帰では実際には 0 未満、または 1 より大きい確率が生成される可能性があるため、ロジスティック回帰が導入されました。
出典: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
結果
線形回帰では、結果 (従属変数) は連続的です。無限の数の可能な値のいずれかを取ることができます。
ロジスティック回帰では、結果 (従属変数) には限られた数の可能な値しかありません。
従属変数
ロジスティック回帰は、応答変数が本質的にカテゴリである場合に使用されます。たとえば、はい/いいえ、真/偽、赤/緑/青、1 番目/2 番目/3 番目/4 番目などです。
線形回帰は、応答変数が連続している場合に使用されます。たとえば、体重、身長、時間数などです。
方程式
線形回帰では、Y = mX + C という形式の方程式が生成されます。これは、次数 1 の方程式を意味します。
しかし、ロジスティック回帰では、Y = e X + e -Xという形式の方程式が得られます。
係数の解釈
線形回帰では、独立変数の係数の解釈は非常に簡単です (つまり、他のすべての変数を一定に保ち、この変数が単位増加すると、従属変数は xxx 増加/減少すると予想されます)。
ただし、ロジスティック回帰では、使用するファミリ(二項分布、ポアソン分布など)とリンク(対数分布、ロジット分布、逆対数分布など)に応じて、解釈が異なります。
エラー最小化技術
線形回帰では、通常の最小二乗法を使用して誤差を最小限に抑え、可能な限り最適な適合に到達しますが、ロジスティック回帰では、最大尤度法を使用して解決策に到達します。
線形回帰は通常、モデルとデータの最小二乗誤差を最小化することによって解決されるため、大きな誤差には二次的にペナルティが課せられます。
ロジスティック回帰は正反対です。ロジスティック損失関数を使用すると、大きな誤差が漸近的に一定になるようにペナルティが課せられます。
これがなぜ問題なのかを理解するために、カテゴリ {0, 1} の結果に対する線形回帰を検討してください。モデルが結果が 38 であると予測したのに、実際は 1 だった場合、何も失うことはありません。線形回帰では 38 を減らそうとしますが、ロジスティックでは (それほど) 2減らそうとしません。