손실 함수의 이해 – MSE부터 Cross Entropy까지

수요일, 12월 03, 2025

딥러닝 프로젝트를 처음 수행할 때, 모델 구조와 하이퍼파라미터는 신경 쓰면서도 정작 손실 함수는 크게 고민하지 않고 기본 설정 그대로 두는 실수를 저질렀던 기억이 있습니다. 하지만 모델 성능이 기대에 못 미치고, 학습이 제대로 진행되지 않는 원인을 분석하면서 손실 함수가 얼마나 중요한 역할을 하는지를 비로소 이해하게 되었습니다. 이번 글에서는 머신러닝과 딥러닝에서 가장 많이 사용되는 손실 함수인 평균 제곱 오차(MSE)와 교차 엔트로피(Cross Entropy)를 중심으로, 그 정의와 활용 맥락을 자세히 살펴보겠습니다.

평균 제곱 오차(MSE) – 회귀 문제의 대표적인 손실 함수

평균 제곱 오차(Mean Squared Error, MSE)는 회귀 문제에서 가장 널리 사용되는 손실 함수입니다. 모델이 예측한 값과 실제 정답 값 사이의 차이를 제곱한 후, 이를 평균내어 전체 데이터셋에서의 오차를 측정합니다. 수식으로는 다음과 같이 표현됩니다.

MSE = (1/n) ∑(y - ŷ)²

여기서 y는 실제 값, ŷ는 모델의 예측 값, n은 데이터의 개수입니다. 오차를 제곱하기 때문에 음수와 양수의 차이를 구분하지 않고 절대적인 크기에 민감하게 반응하며, 큰 오차일수록 손실 값이 기하급수적으로 증가합니다. 이는 모델이 큰 오차를 더 심각하게 인식하게 만들어 정밀한 예측을 유도하는 데 효과적입니다.

하지만 MSE는 이상치에 민감하다는 단점이 있습니다. 예측 값이 일부 데이터에서 크게 벗어나는 경우, 손실 함수의 값이 급격히 커지면서 모델 학습이 왜곡될 수 있습니다. 이런 상황에서는 평균 절대 오차(MAE)나 허버 손실(Huber Loss)과 같은 대체 손실 함수를 고려하기도 합니다. 그럼에도 불구하고 MSE는 계산이 간단하고 미분이 가능하다는 장점 덕분에 여전히 회귀 문제에서 기본 선택지로 자주 사용됩니다.

교차 엔트로피(Cross Entropy) – 분류 문제의 핵심 손실 함수

교차 엔트로피(Cross Entropy)는 분류 문제, 특히 이진 분류나 다중 클래스 분류에서 널리 사용되는 손실 함수입니다. 이 함수는 실제 정답(label)과 모델이 출력한 확률 분포 간의 차이를 수치화합니다. 확률 기반 출력이기 때문에 예측이 정답에 가까울수록 손실 값이 작아지고, 정답에서 멀어질수록 손실이 커집니다.

이진 분류의 경우, 교차 엔트로피는 다음과 같은 수식으로 표현됩니다. Loss = -[y log(p) + (1 - y) log(1 - p)]

여기서 y는 실제 정답(0 또는 1), p는 예측 확률입니다. 정답이 1인 경우에는 log(p), 정답이 0인 경우에는 log(1 - p) 항이 작동하여 예측이 정답 확률에 가까울수록 손실이 작아집니다. 다중 클래스 분류에서는 소프트맥스(Softmax) 함수를 출력층에 사용하고, 교차 엔트로피 손실을 적용하여 확률 분포 간의 차이를 측정합니다.

교차 엔트로피는 확률 기반 모델에서 특히 유용하며, 출력값이 0에 가까운 경우 손실이 급격히 증가하기 때문에 모델이 잘못된 예측에 대해 민감하게 반응하도록 유도합니다. 이는 학습 초기 빠른 수렴을 도우며, 확률 기반 의사결정이 필요한 문제에 적합한 특성을 가지고 있습니다.

손실 함수 선택 시 고려할 점과 응용

손실 함수는 단순한 오차 측정 이상의 의미를 가집니다. 모델이 어떤 방식으로 학습할지를 결정짓는 기준이 되며, 문제의 성격에 맞는 손실 함수를 선택하는 것이 매우 중요합니다. 회귀 문제에서는 출력이 연속적인 수치이기 때문에 평균 제곱 오차, 평균 절대 오차 등이 적합하며, 분류 문제에서는 출력이 확률 분포에 가까워야 하므로 교차 엔트로피가 더 효과적입니다.

예를 들어 고객 이탈 예측처럼 이진 분류 문제에서는 Sigmoid 활성화 함수와 함께 Binary Cross Entropy를 사용하는 것이 일반적이며, 다중 클래스 분류에서는 Softmax와 Categorical Cross Entropy의 조합이 표준적인 구성입니다. 또한 이상치가 많거나 라벨 노이즈가 존재하는 상황에서는 기존 손실 함수보다 견고한 형태의 손실 함수(Huber, Focal Loss 등)를 사용하는 것도 고려해야 합니다.

모델 성능이 기대에 못 미칠 때 단순히 구조나 데이터만 수정할 것이 아니라, 손실 함수가 문제 특성에 맞는지를 다시 점검해보는 것도 매우 중요한 접근입니다. 손실 함수는 모델이 '무엇을 더 중요하게 학습해야 하는지'를 알려주는 방향키 역할을 하기 때문입니다.

결론 – 손실 함수는 학습의 방향을 결정하는 나침반

딥러닝 모델에서 손실 함수는 단순한 오차 측정을 넘어서, 모델이 어떤 패턴을 우선적으로 학습하고 어떤 방향으로 가중치를 조정해야 할지를 결정하는 핵심 요소입니다. 평균 제곱 오차는 회귀 문제에서 간결하고 효과적인 기준을 제공하며, 교차 엔트로피는 분류 문제에서 정답 확률과의 차이를 효과적으로 반영하여 학습을 유도합니다.

제가 실제로 경험했던 프로젝트에서도 손실 함수를 적절히 변경함으로써 모델의 성능이 현저히 개선된 사례가 있었습니다. 처음에는 단순히 정확도를 올리기 위해 학습률이나 층 수만 조정했지만, 문제의 특성에 맞는 손실 함수를 적용한 것이 결정적인 성능 향상의 열쇠가 되었습니다.

앞으로 머신러닝과 딥러닝 모델을 설계할 때, 손실 함수를 단순한 옵션이 아니라 학습의 중심이 되는 구성 요소로 인식하고, 보다 전략적으로 선택하는 습관을 갖는 것이 중요합니다. 그것이 진정한 모델 최적화의 시작점입니다.

컴퓨터 IT 알리미