선형회귀와 로지스틱 회귀 – 가장 기초적인 예측 모델들

정보 정제 사진


머신러닝을 처음 배우던 시절, 다양한 알고리즘들이 복잡하게 느껴졌지만, 그중에서도 선형회귀와 로지스틱 회귀는 이해의 출발점이 되어주었습니다. 특히 데이터를 시각화하고 직선 하나를 그어 예측을 하는 과정은 매우 직관적이었고, 로지스틱 회귀를 통해 분류 문제도 수치적으로 접근할 수 있다는 사실은 신선하게 다가왔습니다. 모델의 복잡함보다는, 그 근간이 되는 수학적 직선과 확률 개념을 얼마나 정확히 이해하느냐가 중요하다는 것을 점차 느끼게 되었습니다.

선형회귀 – 연속적인 수치를 예측하는 가장 단순한 모델

선형회귀(Linear Regression)는 독립 변수와 종속 변수 간의 선형 관계를 기반으로, 입력값에 따라 연속적인 수치 값을 예측하는 회귀 알고리즘입니다. 예를 들어 면적에 따른 집값 예측, 공부 시간에 따른 시험 점수 예측처럼, 결과가 숫자로 나타나는 문제에서 활용됩니다.

선형회귀의 수식은 다음과 같습니다.
y = w1x1 + w2x2 + ... + wnxn + b
여기서 y는 예측값, x는 입력 변수, w는 가중치(회귀계수), b는 절편을 의미합니다.

이 모델은 데이터 포인트를 가장 잘 설명하는 직선을 찾는 것이 핵심이며, 손실 함수로는 보통 평균제곱오차(Mean Squared Error, MSE)를 사용합니다. 즉, 실제 값과 예측 값의 차이를 제곱해 평균을 구하고, 이 값을 최소화하는 방향으로 가중치를 조정합니다.

선형회귀의 장점은 해석이 매우 명확하다는 점입니다. 각 변수의 계수가 결과에 어떤 영향을 미치는지 직관적으로 이해할 수 있기 때문에, 통계 분석과 실무 보고서에서도 자주 사용됩니다. 하지만 변수 간 선형성이 없거나, 이상치에 민감한 경우에는 성능이 급격히 떨어질 수 있으므로 주의가 필요합니다.

로지스틱 회귀 – 분류 문제를 위한 회귀 알고리즘

로지스틱 회귀(Logistic Regression)는 선형회귀와 유사한 구조를 가지지만, 결과값이 연속적인 수치가 아닌 범주(클래스)라는 점에서 차이가 있습니다. 대표적으로 이진 분류(binary classification) 문제에 활용되며, 예를 들어 이메일이 스팸인지 아닌지, 고객이 이탈할지 아닐지 등을 예측할 때 사용됩니다.

로지스틱 회귀의 핵심은 선형회귀 결과를 확률로 변환한다는 점입니다. 즉, 선형 조합 결과를 로지스틱 함수(시그모이드 함수)에 통과시켜, 예측 결과를 0과 1 사이의 값으로 바꿉니다. 이 확률 값이 특정 기준(보통 0.5)을 넘으면 양성 클래스(1), 그렇지 않으면 음성 클래스(0)로 분류됩니다.

수식으로는 다음과 같습니다.
P(y=1|x) = 1 / (1 + e^-(w·x + b))

여기서 e는 자연상수이며, 이 수식은 입력값에 따라 부드럽게 0과 1 사이를 오가는 S자 형태의 확률 분포를 형성합니다. 학습은 로그 손실(Log Loss) 또는 크로스 엔트로피 손실을 최소화하는 방향으로 진행됩니다.

로지스틱 회귀는 단순하지만, 분류 문제에 대해 놀라울 정도로 강력한 성능을 보일 수 있습니다. 특히 설명 가능성이 높고, 확률 기반의 결과 해석이 가능하여 의료, 금융, 마케팅 등 다양한 산업 분야에서 폭넓게 사용됩니다.

선형과 로지스틱 회귀의 비교와 선택 기준

선형회귀와 로지스틱 회귀는 기본적인 수학 구조가 비슷하지만, 적용되는 문제의 성격이 완전히 다릅니다. 선형회귀는 결과가 숫자인 ‘예측’ 문제에 적합하고, 로지스틱 회귀는 결과가 클래스인 ‘분류’ 문제에 사용됩니다.

선형회귀는 예측 결과의 범위가 무한하므로, 예측 대상이 연속형 변수일 때만 의미가 있습니다. 반면 로지스틱 회귀는 확률 값을 출력하기 때문에, 범주형 결과를 판단할 수 있는 장점이 있습니다. 또한 로지스틱 회귀는 비용 함수로 로그 손실을 사용하며, 이진 분류 외에도 멀티클래스 확장(multi-class logistic regression)도 가능합니다.

두 모델 모두 학습 속도가 빠르고 해석이 쉬우며, 과적합의 위험이 비교적 낮다는 공통점이 있습니다. 하지만 데이터가 선형적으로 분리되지 않거나, 고차원 특성이 많을 경우에는 다른 비선형 모델(예: SVM, 의사결정트리, 신경망 등)이 더 적합할 수 있습니다.

실제로 저도 초기에 모든 문제에 선형회귀를 적용하려 했지만, 분류 문제에서는 예측값이 이상하게 튀거나 성능이 낮은 경우가 많았습니다. 문제의 특성에 따라 모델을 바꿔야 한다는 점, 그리고 단순해 보여도 로지스틱 회귀는 분류 문제에서 매우 유용하다는 점을 경험적으로 알게 되었습니다.

결론 – 기초지만 가장 중요한 두 회귀 모델

선형회귀와 로지스틱 회귀는 머신러닝의 가장 기본적인 모델이지만, 그 원리를 이해하는 것은 고급 모델로 넘어가기 위한 기초 체력을 다지는 일과 같습니다. 복잡한 딥러닝 구조도 결국 수많은 선형 조합 위에 구축되어 있으며, 확률적 해석은 로지스틱 회귀에서 비롯된 논리 구조와 연결됩니다.

이 두 알고리즘은 단순하지만 실용적이며, 해석 가능성이 높다는 점에서 여전히 산업 현장에서 널리 활용되고 있습니다. 데이터 과학을 처음 시작하거나 머신러닝 모델링을 처음 접하는 사람이라면, 선형회귀와 로지스틱 회귀를 단순한 공식을 넘어서 ‘왜 이렇게 작동하는가’에 대해 충분히 고민해보는 것이 중요하다고 생각합니다.

댓글

이 블로그의 인기 게시물

지도학습 vs 비지도학습 – 머신러닝의 대표 학습 방식 비교

모델 평가 지표 정리 – 정확도, 정밀도, F1 Score까지