💻️ MMMSK

최근 게시글

Nvidia Cosmos 개발 환경 및 테스트
2025년 2월 26일
(SSM) SSM 개념 정리
2025년 2월 18일
(BEV) Auto Surround View
2025년 1월 09일

144건 더보기 →

❯

❯

❯

딥러닝 기본

❯

9. CNN-2

2024년 8월 22일5 min read

DeepLearning
CNN

CNN(Convolutional Neural Network) 역전파에 대한 정리

CNN 역전파 (Backpropagation for CNN)

Convolution layer 연산

+full

보통 CNN 구조는 Convolutional Layer, Activation Function, Pooling 순으로 진행됨.

Backpropagation 연산

+full

출력층을 덧붙여서 위와 같이 표현할 때, 출력값을 $o_{1}$ , 실제값을 $y_{1}$ , 손실함수를 $L$ 이라고 함.
계산상 편의를 위해 손실함수를 특정하지 않고, 활성화 함수(f, g)는 모두 ReLU로 함.
ReLU 함수

학습 대상 가중치

위 모델에서 학습대상 가중치들은 컨볼루션 필터의 4개( $w_{00}^{l + 1}$ , $\dots$ , $w_{11}^{l + 1}$ )와 maxpooling 이후 출력층 연결 가중치 1개( $w_{0}^{l + 2}$ )가 된다.

출력층 레이어 Gradient 계산

손실함수를 $L$ 이라 하고, $L$ 에 대한 출력층 가중치 $w_{0}^{l + 2}$ 의 편미분은 다음과 같다.

\frac{\partial L}{\partial w _{0}^{l + 2}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial w _{0}^{l + 2}} = \frac{\partial L}{\partial o _{1}} x_{00}^{l + 1}

이 때, $\frac{\partial o _{1}}{\partial w _{0}^{l + 2}}$ 를 풀어보면,

o_{1} = g (x_{00}^{l + 1}) = ReLU (a),

a = x_{00}^{l + 1} \times w_{0}^{l + 2},

\frac{\partial o _{1}}{\partial w _{0}^{l + 2}} = \frac{\partial o _{1}}{\partial a} \frac{\partial a}{\partial w _{0}^{l + 2}},

\frac{\partial o _{1}}{\partial a} = 1 (if a > 0), \frac{\partial a}{\partial w _{0}^{l + 2}} = x_{00}^{l + 1}

∴ \frac{\partial o _{1}}{\partial w _{0}^{l + 2}} = \frac{\partial o _{1}}{\partial a} \frac{\partial a}{\partial w _{0}^{l + 2}} = 1 \times x_{00}^{l + 1} = x_{00}^{l + 1}

maxpooling 연산 가중치

max-pooling의 경우 $a_{00}^{l + 1}, \dots, a_{11}^{l + 1}$ 중 가장 큰 값에 대해서 항등함수(identity)의 결과를 출력함
즉 4개의 가중치 중 단 1개가 기울기 1로 존재하며, 나머지에 대해선 기울기가 0이됨
$(a^{'}, b^{'})$ 을 활성화 값의 최대값 위치라고 할 때,

\frac{\partial L}{\partial p oo l _{a^{'}, b^{'}}} = \frac{\partial L}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial p oo l _{a^{'}, b^{'}}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial p oo l _{a^{'}, b^{'}}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \times 1

이 때, $\frac{\partial o _{1}}{\partial x _{00}^{l + 1}}$ 를 풀어보면 위에서 $\frac{\partial o _{1}}{\partial w _{0}^{l + 2}}$ 을 전개한 것과 같은 방식으로 아래와 같은 해가 나옴

\frac{\partial o _{1}}{\partial x _{00}^{l + 1}} = w_{0}^{l + 2}

따라서,

∴ \frac{\partial L}{\partial p oo l _{a^{'}, b^{'}}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial p oo l _{a^{'}, b^{'}}} = \frac{\partial L}{\partial o _{1}} w_{0}^{l + 2}

filter 가중치

컨볼루션 filter 가중치( $w_{00}^{l + 1}$ , $\dots$ , $w_{11}^{l + 1}$ ) 중 $w_{00}^{l + 1}$ 의 기울기부터 살펴본다
$w_{00}^{l + 1}$ 는 이전 픽셀 값 $x_{00}^{l}, x_{01}^{l}, x_{10}^{l}, x_{11}^{l}$ 에 대하여 영향을 준다
이에 따라 $w_{00}^{l + 1}$ 의 기울기는 아래와 같이 전개함\
컨볼루션 filter의 크기는 $a^{l + 1} \times b^{l + 1}$

\frac{\partial L}{\partial w _{00}^{l + 1}} = a = 0 \sum a^{l + 1} - 1 b = 0 \sum b^{l + 1} - 1 \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial a _{ab}^{l + 1}} \frac{\partial a _{ab}^{l + 1}}{\partial w _{00}^{l + 1}}

나머지 3개의 가중치들도 같은 식에 대입하면 아래와 같이 일반화 할 수 있다

\frac{\partial L}{\partial w _{ij}^{l + 1}} = a = 0 \sum a^{l + 1} - 1 b = 0 \sum b^{l + 1} - 1 \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial a _{ab}^{l + 1}} \frac{\partial a _{ab}^{l + 1}}{\partial w _{ij}^{l + 1}}

다시 위에서 다룬 pooling에 대한 가중치에 chain rule을 적용하고 나면 최댓값 위치인 ( $a^{'}, b^{'}$ )을 제외하고 나머지는 기울기가 0이 된다

a = 0 \sum a^{l + 1} - 1 b = 0 \sum b^{l + 1} - 1 \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial a _{ab}^{l + 1}} \frac{\partial a _{ab}^{l + 1}}{\partial w _{00}^{l + 1}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial a _{a^{'} b^{'}}^{l + 1}} \frac{\partial a _{ab}^{l + 1}}{\partial w _{ij}^{l + 1}}

따라서 최종 가중치식은 다음과 같다

\frac{\partial L}{\partial w _{ij}^{l + 1}} = \frac{\partial L}{\partial o _{1}} \frac{\partial o _{1}}{\partial x _{00}^{l + 1}} \frac{\partial x _{00}^{l + 1}}{\partial a _{a^{'} b^{'}}^{l + 1}} \frac{\partial a _{a^{'} b^{'}}^{l + 1}}{\partial w _{ij}^{l + 1}}

모든 가중치의 기울기를 구하고 나면 Gradient Descent 알고리즘으로 각 가중치를 업데이트 할 수 있다

w^{(t + 1)} \leftarrow w^{(t)} - η \frac{\partial L}{\partial w ^{(t)}}

참고

CNN 역전파 (Backpropagation for CNN)
[CNN] Backpropagation(역전파), chain rule :: 나가디’s 지식정보방
CNN의 역전파(backpropagation) · ratsgo’s blog
CNN 역전파를 이해하는 가장 쉬운 방법

그래프 뷰

CNN 역전파 (Backpropagation for CNN)
Convolution layer 연산
Backpropagation 연산
참고

백링크

딥러닝 기본
📘딥러닝기본-전체

최근 게시글

Nvidia Cosmos 개발 환경 및 테스트
2025년 2월 26일
(SSM) SSM 개념 정리
2025년 2월 18일
(BEV) Auto Surround View
2025년 1월 09일

144건 더보기 →

Created with Quartz v4.4.0 © 2025

About MSK