
Regresja logistyczna to jedno z najczęściej stosowanych narzędzi w analizie danych, gdy celem jest przewidywanie zmiennej zależnej o charakterze zero-jedynkowym. W przeciwieństwie do regresji liniowej, nie prognozuje konkretnych wartości liczbowych, lecz pozwala oszacować prawdopodobieństwo wystąpienia określonego wyniku. Stosowana powszechnie w medycynie, finansach, marketingu czy naukach społecznych, umożliwia klasyfikowanie obserwacji i podejmowanie decyzji na podstawie zestawu zmiennych wejściowych.
Regresja logistyczna a regresja liniowa – różnice podstawowe
Najważniejsza różnica między regresją liniową a logistyczną dotyczy charakteru zmiennej objaśnianej. W regresji liniowej zakładamy, że wynik może przyjmować dowolną wartość rzeczywistą – natomiast w regresji logistycznej interesuje nas wyłącznie wynik binarny, np. „tak” lub „nie”, „choruje” lub „zdrowy”, „kupuje” lub „nie kupuje”.
W związku z tym regresja logistyczna nie operuje bezpośrednio na osi liczbowej, ale przekształca wynik w prawdopodobieństwo, które zawsze mieści się w przedziale od 0 do 1. To prawdopodobieństwo następnie może zostać zaklasyfikowane – jeśli przekracza określony próg (najczęściej 0,5), przypisujemy etykietę jednej klasy, w przeciwnym wypadku – drugiej.
Funkcja logistyczna – fundament modelu
Podstawą działania regresji logistycznej jest funkcja sigmoidalna, znana też jako funkcja logistyczna. To właśnie dzięki niej wartości wyjściowe ograniczają się do przedziału (0,1), co pozwala traktować je jako prawdopodobieństwo.
Matematycznie zapisuje się ją jako:
p(x) = 1 / (1 + e^(-z)),
gdzie z = b₀ + b₁x₁ + b₂x₂ + … + bₙxₙ, czyli suma iloczynów zmiennych wejściowych i odpowiadających im wag. Im wyższa wartość z, tym większe prawdopodobieństwo przynależności do klasy pozytywnej.
To właśnie ta funkcja pozwala „wygiąć” prostą regresji liniowej w sposób, który pasuje do klasyfikacji zero-jedynkowej.
Szacowanie parametrów – jak model „uczy się” danych?
Aby model regresji logistycznej mógł skutecznie przewidywać, musi najpierw „nauczyć się”, jakie wartości wag (parametrów) najlepiej dopasowują się do danych. W tym celu stosuje się metodę maksymalizacji funkcji wiarygodności – proces ten polega na znalezieniu takich współczynników, które maksymalizują szansę poprawnego przypisania obserwacji do odpowiednich klas.
Nie używa się tu klasycznego błędu kwadratowego, jak w regresji liniowej, lecz funkcji kosztu nazywanej log-loss, która karze model za błędne przypisania – szczególnie za te, którym przypisał wysokie prawdopodobieństwo.
Uczenie modelu polega na iteracyjnym poprawianiu wag aż do osiągnięcia najlepszego możliwego dopasowania.
Klasyfikacja i próg decyzyjny – jak interpretować wyniki?
Po przetworzeniu danych wejściowych przez funkcję logistyczną otrzymujemy wartość z przedziału (0,1) – czyli oszacowane prawdopodobieństwo. Na podstawie tej wartości decydujemy, czy dana obserwacja należy do klasy „1” czy „0”. Najczęściej stosuje się próg równy 0,5, ale nic nie stoi na przeszkodzie, by zmienić go w zależności od potrzeb konkretnej analizy.
Przesunięcie progu pozwala dostosować model do sytuacji, w której ważniejsze jest unikanie fałszywych alarmów (false positives) lub przeciwnie – nieprzeoczenie rzeczywistych przypadków (false negatives).
To szczególnie istotne w zastosowaniach takich jak diagnozowanie chorób czy wykrywanie oszustw finansowych, gdzie cena błędnej klasyfikacji może być bardzo wysoka.
Zalety i ograniczenia – kiedy stosować regresję logistyczną?
Regresja logistyczna jest modelem stosunkowo prostym, przejrzystym i łatwym do interpretacji. Działa dobrze w sytuacjach, gdy zależność między zmiennymi wejściowymi a zmienną wyjściową jest monotoniczna i ma sens probabilistyczny. Dzięki temu można nie tylko przewidywać klasy, ale także zrozumieć, jak poszczególne zmienne wpływają na wynik końcowy.
Jednocześnie model ma swoje ograniczenia – szczególnie wtedy, gdy zależność między zmiennymi jest nieliniowa lub dane zawierają silne współliniowości. W takich przypadkach lepsze efekty może dać użycie bardziej zaawansowanych metod, takich jak drzewa decyzyjne, lasy losowe czy sieci neuronowe.
Regresja logistyczna pozostaje jednak niezastąpionym narzędziem wszędzie tam, gdzie liczy się interpretowalność, prostota i przejrzystość. Właśnie dlatego wciąż pozostaje jednym z fundamentów analizy danych – niezależnie od zmieniających się trendów w uczeniu maszynowym.