5. 역전파

역전파 개념(Back-Propagation)

순전파(Forward-Propagation)를 통해 예측값과 실제값의 오차를 최소화하기 위해 파라미터( $W, b$ ) 를 업데이트하는 과정

+center

파라미터 업데이트(학습) 과정

순전파(Forward Propagation)

+center

활성화 함수(h, o): Sigmoid 함수

가중치합 1

z_{1} = w_{1} x_{1} + w_{2} x_{2} = 0.3 \times 0.1 + 0.25 \times 0.2 = 0.08

z_{2} = w_{3} x_{1} + w_{4} x_{2} = 0.4 \times 0.1 + 0.35 \times 0.2 = 0.11

활성화 함수 1

h_{1} = s i g m o i d (z_{1}) = 0.51998934

h_{2} = s i g m o i d (z_{2}) = 0.68047592

가중치합 2

z_{3} = w_{5} h 1 + w_{6} h 2 = 0.45 \times h 1 + 0.4 \times h 2 = 0.44498412

z_{4} = w_{7} h 1 + w_{8} h 2 = 0.7 \times h 1 + 0.6 \times h 2 = 0.68047592

활성화 함수 2

o_{1} = s i g m o i d (z_{3}) = 0.60944600

o_{2} = s i g m o i d (z_{4}) = 0.66384491

역전파(Back Propagation)

Loss Function: MSE

E = \frac{1}{2} ((t_{1} - o_{1})^{2} + (t_{2} - o_{2})^{2})

E = \frac{1}{2} ((0.4 - o_{1})^{2} + (0.6 - o_{2})^{2}) = 0.02397

편미분과 Chain rule

편미분

$z = f (x, y, ...)$ 에 대하여, $z$ 를 $x$ 에 대해서 편미분 하는 것을 $\frac{\partial z}{\partial x}$ 라 표현함
$f (x, y) = x^{2} + x y + y^{2}$
- 위 함수에 대한 $x$ 의 편미분을 구하면 ( $y$ 는 상수 취급),

\frac{\partial f}{\partial x} (x, y) = 2 x + y

Chain rule

합성함수의 미분을 구하기 위해 chain rule 성질을 이용함

역전파 1단계

+center

$w_{5}, w_{6}, w_{7}, w_{8}$ 에 대한 업데이트
우선, $w_{5}$ 업데이트하기 위해서 $\frac{\partial E _{t o t a l}}{\partial w _{5}}$ 를 계산함
$E$ 함수를 $w_{5}$ 에 대해 미분하기 위해서는 합성함수의 미분 즉, Chain rule 성질을 이용해 미분해야함(함수 $E$ 에 다이렉트로 $w$ 가 포함되어 있지 않으므로)
Chain rule에 따라, 아래와 같이 표현함

\frac{\partial E}{\partial w _{5}} = \frac{\partial E}{\partial o _{1}} \times \frac{\partial o _{1}}{\partial z _{3}} \times \frac{\partial z _{3}}{\partial w _{5}},

먼저, 첫번 째 항인 $\frac{\partial E}{\partial o _{1}}$ 을 구해보면 $E$ 를 $o_{1}$ 에 대해 편미분하므로, 아래와 같이 정리됨

E = \frac{1}{2} t_{1}^{2} - t_{1} o_{1} + \frac{1}{2} o_{1}^{2} + \frac{1}{2} t_{2}^{2} - t_{2} o_{2} + \frac{1}{2} o_{2}^{2}

\frac{\partial E}{\partial o _{1}} = (o_{1} - t_{1}) = 0.209446

다음, 두번 째 항인 $\frac{\partial o _{1}}{\partial z _{3}}$ 을 정리하는데, $o_{1}$ 은 시그모이드 함수를 통해 나온 값을 정의하며, 시그모이드 함수의 미분은 $f (x) \times (1 - f (x))$ 로 정의됨

\partial o_{1} = s i g m o i d (z_{3}) \times (1 - s i g m o i d (z_{3})) = o_{1} \times (1 - o_{1})

\frac{\partial o _{1}}{\partial z _{3}} = o_{1} \times (1 - o_{1}) = 0.609446 (1 - 0.609446) = 0.23802157

마지막으로 $\frac{\partial z _{3}}{\partial w _{5}}$ 을 구해보면

z_{3} = h_{1} w_{5} + h_{2} w_{6}

\frac{\partial z _{3}}{\partial w _{5}} = h_{1} = 0.51998934

따라서 구한 값들을 모두 대입해 최종값을 구할 수 있다

so, \frac{\partial E}{\partial w _{5}} = 0.290446 \times 0.23802157 \times 0.51998934 = 0.02592286

최적화

업데이트가 완료된 가중치는 최적화 방법에 따라 가중치 업데이트를 한다
최적화 방법: 경사 하강법
학습률( $α$ , Learning rate, 하이퍼 파라미터): 0.5
같은 층의 나머지 가중치들도 위 방법과 동일하게 기울기를 구하고, 가중치 업데이트를 진행함

w_{5}^{+} = w_{5} - α \frac{\partial _{E}}{\partial w _{5}} = 0.45 - 0.5 \times 0.02592286 = 0.43703857

\frac{\partial E}{\partial w _{6}} = \frac{\partial E}{\partial o _{1}} \times \frac{\partial o _{1}}{\partial z _{3}} \times \frac{\partial z _{3}}{\partial w _{6}} \to w_{6}^{+} = 0.38685205

\frac{\partial E}{\partial w _{7}} = \frac{\partial E}{\partial o _{2}} \times \frac{\partial o _{2}}{\partial z _{4}} \times \frac{\partial z _{4}}{\partial w _{7}} \to w_{7}^{+} = 0.69629578

\frac{\partial E}{\partial w _{8}} = \frac{\partial E}{\partial o _{2}} \times \frac{\partial o _{2}}{\partial z _{4}} \times \frac{\partial z _{4}}{\partial w _{8}} \to w_{8}^{+} = 0.59624247

역전파 2단계

$w_{1}, w_{2}, w_{3}, w_{4}$ 에 대한 업데이트
$w_{1}$ 업데이트하기 위해서 $\frac{\partial E _{t o t a l}}{\partial w _{1}}$ 를 계산함
chain rule에 따라, 다음과 같이 나타낼 수 있다

\frac{\partial E}{\partial w _{1}} = \frac{\partial E}{\partial h _{1}} \times \frac{\partial h _{1}}{\partial z _{1}} \times \frac{\partial z _{1}}{\partial w _{1}}

이때, 출력층의 각 에러 $E_{o 1}, E_{o 2}$ 를 아래와 같이 정의하고,

E_{o 1} = \frac{1}{2} (t_{1} - o_{1})^{2}, E_{o 2} = \frac{1}{2} (t_{2} - o_{2})^{2}

미분법칙에 따라 $\frac{\partial E}{\partial h _{1}}$ 을 풀어 쓰면 다음과 같다

\frac{\partial E}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial h _{1}} + \frac{\partial E _{o 2}}{\partial h _{1}}

위 식의 우변의 두항을 각각 구해보면, $\frac{\partial E _{o 1}}{\partial h _{1}}$ 은 다음과 같다

\frac{\partial E _{o 1}}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial z _{3}} \times \frac{\partial z _{3}}{\partial h _{1}} = \frac{\partial E _{o 1}}{\partial o _{1}} \times \frac{\partial o _{1}}{\partial z _{3}} \times \frac{\partial z _{3}}{\partial h _{1}}

= (o_{1} - t_{1}) \times o_{1} \times (1 - o_{1}) \times w_{5} = 0.0224337

$\frac{\partial E _{o 2}}{\partial h _{1}}$ 는 다음과 같다

\frac{\partial E _{o 2}}{\partial h _{1}} = \frac{\partial E _{o 2}}{\partial z _{4}} \times \frac{\partial z _{4}}{\partial h _{1}} = \frac{\partial E _{o 2}}{\partial o _{2}} \times \frac{\partial o _{2}}{\partial z _{4}} \times \frac{\partial z _{4}}{\partial h _{1}}

= (o_{2} - t_{2}) \times o_{2} \times (1 - o_{2}) \times w_{7} = 0.00997311

따라서 위에서 구한 $\frac{\partial E}{\partial h _{1}}$ 을 대입하여 계산해보면 $E$ 에 대한 $w_{1}$ 의 기울기는 아래와 같다

\frac{\partial E}{\partial h _{1}} = (0.0224337 + 0.00997311) = 0.03240681

\frac{\partial h _{1}}{\partial z _{1}} = h 1 \times (1 - h 1) = 0.24960043

\frac{\partial z _{1}}{\partial w _{1}} = x_{1} = 0.1

\frac{\partial E}{\partial w _{1}} = \frac{\partial E}{\partial h _{1}} \times \frac{\partial h _{1}}{\partial z _{1}} \times \frac{\partial z _{1}}{\partial w _{1}} = 0.03240681 \times 0.24960043 \times 0.1

= 0.0008088

파라미터 업데이트

$w_{1}$ 의 가중치를 업데이트하고, 같은 레이어의 나머지 가중치들도 동일한 방식으로 업데이트함

w_{1}^{+} = w_{1} - α \frac{\partial _{E}}{\partial w _{1}} = 0.3 - 0.5 \times 0.0008088 = 0.2995956

\frac{\partial E}{\partial w _{2}} = \frac{\partial E}{\partial h _{1}} \times \frac{\partial h _{1}}{\partial z _{1}} \times \frac{\partial z _{1}}{\partial w _{2}} \to w_{2}^{+} = 0.24919112

\frac{\partial E}{\partial w _{3}} = \frac{\partial E}{\partial h _{2}} \times \frac{\partial h _{2}}{\partial z _{2}} \times \frac{\partial z _{2}}{\partial w _{3}} \to w_{3}^{+} = 0.39964496

\frac{\partial E}{\partial w _{4}} = \frac{\partial E}{\partial h _{2}} \times \frac{\partial h _{2}}{\partial z _{2}} \times \frac{\partial z _{2}}{\partial w _{4}} \to w_{4}^{+} = 0.34928991

결과 확인

업데이트 된 가중치에 대해서 다시 순전파를 진행하여 오차가 감소하였는지 확인함

기존 오차

$E_{t - 1} = 0.02397$

파라미터 업데이트 후 오차

$E_{t} = 0.02323$

참고

Prev: 4. 손실 함수(Loss Function)

Next: 6. 최적화와 경사하강법(Optimization)

DeepLearning

💻️ MMMSK

탐색기

최근 게시글

(Hailo) Hailo 컴파일과 메모리 할당

(Hailo) Hailo Model Zoo 데이터 전처리

3D Object Detection on Ground Plane

5. 역전파

역전파 개념(Back-Propagation)

파라미터 업데이트(학습) 과정

순전파(Forward Propagation)

역전파(Back Propagation)

편미분과 Chain rule

편미분

Chain rule

역전파 1단계

최적화

역전파 2단계

파라미터 업데이트

결과 확인

참고

그래프 뷰

목차

백링크

최근 게시글

(Hailo) Hailo 컴파일과 메모리 할당

(Hailo) Hailo Model Zoo 데이터 전처리

3D Object Detection on Ground Plane