4. 손실 함수

손실 함수 (Loss Function)

개념

지도학습(Supervised Learning) 시 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수.
최적화를 위해 최소화하는 것이 목적인 함수.
- $≃$ 목적 함수 (Objective Function)
- $≃$ 비용 함수 (Cost Function)
- $≃$ 에너지 함수 (Energy Function)
학습 중에 학습이 얼마나 잘 되고 있는지 평가하기 위한 지표 (에러율 등).

수학적 의미

$\tilde{θ} = a r g θ min L (x, y; θ)$

$L$ : 손실함수
$a r g min$ : 목적 함수를 최소화하는 입력값을 찾음 ( 목적함수: $L$ , 입력값: $θ$ )
$x$ : 학습데이터 입력값, $x$ 로 얻어낸 예측값( $\overset{y}{^}$ )은 정답( $y$ )과 비교
$y$ : 학습데이터의 정답
$θ$ : 학습 시 사용되는 모든 파라미터 벡터 ( $W, b$ )
$\tilde{θ}$ : 업데이트된 최적의 파라미터 벡터

손실함수의 종류

평균 절대 오차 (Mean Absolute Error, MAE, L1 Loss)

M A E = \frac{1}{n} i = 1 \sum n ∣ y_{i} - \overset{y}{^}_{i} ∣

$y$ : 학습데이터 정답
$\overset{y}{^}$ : 학습데이터 예측값
예측 값과 실제 값 사이의 차이의 절대값을 평균낸 값
오차와 비례하여 일정하게 증가하는 특징 = Outlier에 강건함
이동거리가 일정하므로 최적값에 수렴하기 비교적 어려움
회귀(Regression) 문제에 자주 활용

평균 제곱 오차 (Mean Squared Error, MSE, , L2 Loss)

MSE = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

예측 값과 실제 값 사이의 차이을 제곱하여 평균낸 값
오차가 커질수록 손실 함수 값이 빠르게 증가하는 특징 = 오차가 커질수록 미분값 역시 커짐 = Outlier에 민감함
최적값에 가까워질수록 이동거리가 짧아지므로 수렴하기 용이
회귀(Regression) 문제에 자주 활용

평균 제곱근 오차 (Root Mean Squared Error, RMSE)

RMSE = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}

MSE에 루트를 씌운 지표
값을 제곱해서 생기는 왜곡이 줄어듬
오류 값이 실제 값과 유사한 단위로 변환되므로 오차가 보다 직관적임
회귀(Regression) 문제에 자주 활용

교차 엔트로피 오차 (Cross-Entropy Error, CEE)

CEE = - x \sum P (x) lo g Q (x)

모델이 예측한 확률 분포와 실제 정답(label)의 분포 간의 차이를 수치적으로 측정
로그 함수를 이용해 잘못된 예측에 더 큰 패널티를 부여함
$Q (x)$ = 데이터 x에 대한 추정된 확률 분포
$P (x)$ = 데이터 x에 대한 정답 확률 분포
$lo g$ = 자연로그

P(x) = [1, 0, 0]

Q값: 0, 1, 1
CE = -(log0 * 1 + log1 * 0 + log1 * 0)= Infinity

Q값: 0.8, 0.1, 0.1
CE = -(log0.8 * 1 + log0.1 * 0 + log0.1 * 0) = 0.22

Q값: 1, 0, 0
CE = -(log1 * 1 + log0 * 0 + log0 * 0) = 0

분류(classification)문제에서, 멀티 클래스의 경우 Softmax 함수와 함께 주로 사용)
분류 문제에서는 MSE보다 더 빨리 수렴함

이진 교차 엔트로피 오차 (Binary Cross-Entropy, BCE)

BCE = - [y lo g (p) + (1 - y) lo g (1 - p)]

정답 레이블이 0또는 1인 바이너리 분류(Binary Classification) 문제에서 사용되는 cross-entropy loss 방법.
멀티 클래스 → Softmax + 일반 크로스 엔트로피(CE)
멀티 레이블 → Sigmoid + 바이너리 크로스 엔트로피(BCE)

정리

손실함수는 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수
0에 가까울수록 모델의 정확도가 높고, 반대로 0에서 멀어질수록 모델의 정확도가 낮다
데이터가 연속된 값을 가지는 회귀(regression) 문제에서는 주로 MSE, MAE 등 사용
데이터가 이산적인 값을 가지는 분류(classification) 문제에서는 주로 CE 등 사용

loss function 과 cost function

손실함수는 샘플 하나에 대한 손실을 정의하고, 비용함수는 훈련 세트에 있는 모든 샘플에 대한 손실함수의 합을 의미하기도 한다.

loss function

loss function 은 하나의 데이터에 대한 실제값과 예측값에 대한 오차

cost function

모든 데이터셋에 대한 loss function 오차 평균

참고

Prev: 3. 활성화 함수(Activaion Function)

Next: 6. 최적화와 경사하강법(Optimization)

DeepLearning 손실함수

의문점

Question

입력의 sample 데이터가 100개라 하고, loss function이 MSE 라면 $MSE = \frac{1}{n} i = 1 \sum n (y_{i} - \overset{y}{^}_{i})^{2}$

1-1. MSE 수식에서 n은 총 데이터 수(100개)인가?

1-2. 혹은 sample 데이터의 정답이 [50, 30] 예측값이 [40, 10] 일 때,

MSE는 $\frac{1}{2} ((50 - 40)^{2} + (30 - 10)^{2})$ 로 계산한다면 n=2, 즉 아웃풋 레이어의 노드 수가 될 것인가?

Answer

1-1의 해석이 맞는 듯 하다. 기본적으로 딥러닝 학습과정에서 sample 데이터들은 한꺼번에 병렬처리 된다(Batch 연산)

행렬곱으로 보는 순전파

원본 링크

결국 Y(예측) 행렬에 대한 오류를 대상으로 오차를 구한다.

보통 이럴 때, 굳이 손실함수(loss)와 비용함수(cost)를 나누자면, 손실함수로 SE(제곱 오차), AE(절대 오차) 비용함수로 MSE, MAE 를 사용함

따라서 전체 데이터(Full-batch) 또는 **부분 데이터(mini-batch)**를 한 번의 학습(1 epoch)에 사용한다.

참고

비용함수 & 손실함수 & 목적함수

💻️ MMMSK

탐색기

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출

(컴퓨터조립) AMD Ryzen 5 9600

(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정

4. 손실 함수

손실 함수 (Loss Function)

개념

수학적 의미

손실함수의 종류

평균 절대 오차 (Mean Absolute Error, MAE, L1 Loss)

평균 제곱 오차 (Mean Squared Error, MSE, , L2 Loss)

평균 제곱근 오차 (Root Mean Squared Error, RMSE)

교차 엔트로피 오차 (Cross-Entropy Error, CEE)

이진 교차 엔트로피 오차 (Binary Cross-Entropy, BCE)

정리

loss function 과 cost function

loss function

cost function

참고

의문점

행렬곱으로 보는 순전파

참고

그래프 뷰

목차

백링크

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출

(컴퓨터조립) AMD Ryzen 5 9600

(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정