(SSM) SSM 개념 정리

순차적 데이터 분석을 위한 상태 공간 모델(SSM: State-Space Model) 기반 딥러닝 방법에 대한 개념 정리

1. 시퀀스 모델링 (Sequence Modeling)

개념 및 필요성

Sequence Modeling은 시간에 따른 데이터(Sequence Data) 의 패턴을 분석하고 예측하는 데 필수적인 기술이며 자연어처리, 음성 인식, 금융 시계열 분석, 바이오 신호 분석 등 다양한 분야에서 활용된다.
특히, 긴 시퀀스(long sequences)를 다루는 모델은 이러한 데이터를 효과적으로 처리하고 중요한 정보를 추출하는 데 중점을 둔다.

주요 목표

데이터의 시간적 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있는 모델이 필요함.
학습 과정에서 발생하는 Vanishing Gradient 문제를 해결해야함 (시간에 따라 신호가 점차 약해짐).

대표 모델 및 장단점

+full

RNN은 시퀀스 데이터에 대한 상태 저장 성질을 갖고 있으나, 매 스텝마다 저장과 계산이 필요하므로 매우 비효율적. 시간에 따라 데이터의 영향이 점점 약해져 Vanishing Gradient가 대표적이다.
Convolution(CNN) 은 병렬처리와 빠른 훈련이 가능하나, 긴 시퀀스를 처리하는 데 한계가 있다. 즉, 로컬 정보에 국한되어 있으며 긴 문맥(long-term dependency)를 학습하는 능력이 부족하다.
Neural ODEs는 연속적 시간 모델을 사용하여 수학적으로 시퀀스를 처리하지만 계산 비용이 많이 들고, 특히 긴 시퀀스를 처리할 때 매우 비효율적이다.
트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나지만, 모든 단어가 다른 모든 단어와 연관성(Attention)을 계산해야 하기 때문에, 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함. (ex. 시퀀스의 길이가 $N$ 일때 연산량과 메모리 사용량은 $N^{2}$ )

2. 상태 공간 모델 (State-Space Model, SSM)

개념

상태 공간 모델(State Space Models, SSM)은 트랜스포머와 RNN과 마찬가지로 정보의 시퀀스(시계열 데이터)를 처리한다.
SSM을 기반으로한 딥러닝 모델은 자연어 처리(NLP)와 시계열 데이터 처리에서 Transformer의 대안으로 주목받고 있다.
제어이론에서 사용되고 있는 상태 공간 방정식을 기반으로 하며, 시스템의 상태(state)와 출력을 수학적으로 정의한 것.
입력 데이터( $x$ )를 받아 상태( $h$ )를 계산한 후 이를 출력( $y$ )으로 변환하는 두 가지 주요 방정식으로 표현된다.
시간 $t$ 에 대한 상태방정식: $h^{'} (t)$ , 출력방정식: $y (t)$

이산화 (Discretization)

SSM을 딥러닝에 적용하기 위해서는 연속형 변수를 이산형으로 변환하는 작업이 필요함.
SSM의 변수들은 기본적으로 연속 시간에서의 무한한 실수 데이터를 가정하였지만, 딥러닝에서는 이산적인(discrete) 데이터(예: 시퀀스, 토큰, 이미지 픽셀 등) 를 다루기 때문에 일정한 시간 간격으로 샘플링하여 시스템의 동작을 계산하도록 모델링 하는 과정 = 딥러닝에서 학습 가능한 형태로 이산화하는 것
특히 S4, Mamba 같은 최신 모델들은 특별한 이산화 기법을 사용하여 성능을 극대화함 = SSM의 성능과 효율성은 이산화 단계가 큰 영향을 미침.

SSM은 기본적으로 연속 표현(Continous), 이산화를 통한 순차적 표현(Recurrent)과 합성곱 표현(Convolution)으로 표현될 수 있다.
프로세스의 단계(학습 또는 추론)와 데이터 유형에 따라 어느 우선시할 관점을 적절히 사용할 수 있다.

3. SSM을 이용한 주요 딥러닝 모델들 (Deep SSM)

이산화를 통한 SSM의 변형 중 합성곱 표현(Convolution) 방식의 장점은 각 시간 단계별로 상태를 업데이트하는 순차적 표현(Recurrent)과 다르게 병렬화가 가능하여 특히 긴 시퀀스를 처리할 때 계산 및 메모리 효율성을 가진다.
또한, 컨볼루션 커널 사이즈를 조절하여 시퀀스의 장기 종속성을 더 잘 반영하도록 할 수 있다.
이런 SSM의 합성곱 표현을 효율적으로 계산하고 처리할 수 있는 연구들이 아래와 같이 진행되어 왔다.

HiPPO (2020)

HiPPO: Recurrent Memory with Optimal Polynomial Projections (NeurIPS, 2020)
긴 시퀀스에 대한 메모리 문제를 해결하고, 메모리를 효율적으로 유지하면서 입력 정보를 계속 업데이트하는 방법을 제안함.
메모리 효율성과 정보 유지 간의 균형을 찾는 데 초점을 둠.

LSSL (2021)

LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (NeurIPS, 2021)
연속 시간 모델과 선형 상태 공간 레이어(LSSL)를 결합하여, 시간에 따른 연속적인 변화와 비연속적인 변화를 동시에 처리할 수 있는 방법을 제안함.
LSSL은 모델의 유연성을 높여서, 시계열 데이터뿐 아니라 다양한 종류의 연속적 데이터를 처리할 수 있도록 돕는다.

S4 (2022)

S4: Efficiently Modeling Long Sequences with Structured State Spaces (ICLR, 2022)
S4(Structured State Space Model)는 Convolution Representation의 효율성을 극대화하면서도, 장기적인 종속성을 더 잘 처리할 수 있게 최적화 되었다. = 긴 시퀀스에서도 우수한 성능을 보임.
일반적인 SSM의 시간복잡도 O(N)을 O(N log N)으로 줄임.

Mamba (2024)

Mamba: Linear-Time Sequence Modeling with Selective State Spaces
Mamba는 S4의 후속 모델로, S4 모델이 가진 강력한 성능을 유지하면서도 더 효율적인 학습과 연산을 가능하게 만든 모델.
선택적 상태 공간 모델(Selective State Space Model) 을 제안함으로써 서로 관련이 깊은 데이터에만 집중할 수 있게 하여 연산과 메모리 효율성을 높였다.
트랜스포머 대비 5배 빠른 추론속도를 보임.
객체인식 및 영상분할 분야에서는 ViT(Vision Transformer)와 CNN 아키텍처가 여전히 단순 Mamba 기반 모델을 능가 → Transformer와 Mamba를 함께 사용하여 성능을 높이는 방법도 연구되는 중.

정리

순차적 데이터를 처리하기 위한 시퀀스 모델은 긴 시퀀스(long-sequences)에서도 시간 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있도록 발전되어 왔다.
트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나 자연어 처리(NLP)와 시계열 데이터 처리의 주요 방법으로 널리 사용되지만 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함.
제어이론에서 순차적 데이터를 처리하는데에 사용되는 상태 공간 모델(SSM: State Space Model) 은 기본적으로 선형 구조를 기반으로 하므로 SSM을 이용하면 트랜스포머에 비해 파라미터 수와 시간 복잡도 측면에서 더 효율적인 모델을 만들 수 있다.
병렬화와 계산 효율성을 위해 SSM을 합성곱(Convolution)으로 표현(이산화)하는 방법을 기반으로 더욱 효율적인 모델을 제안하는 것이 최신 Deep SSM의 트렌드.
트랜스포머 방법의 대안이라 불리는 최신의 Deep SSM 기반 방법인 Mamba는 자연어처리, 객체인식 및 탐지, 비디오 처리 등 딥러닝이 사용되는 생태계의 다양한 분야에서 백본(Backbone) 모델로서 강력한 후보로 거론되며 활발히 연구되고 있다.

분야별 주요 SSM 모델

+full

💻️ MMMSK

탐색기

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출

(컴퓨터조립) AMD Ryzen 5 9600

(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정

(SSM) SSM 개념 정리

1. 시퀀스 모델링 (Sequence Modeling)

개념 및 필요성

주요 목표

대표 모델 및 장단점

2. 상태 공간 모델 (State-Space Model, SSM)

개념

이산화 (Discretization)

3. SSM을 이용한 주요 딥러닝 모델들 (Deep SSM)

HiPPO (2020)

LSSL (2021)

S4 (2022)

Mamba (2024)

정리

분야별 주요 SSM 모델

참고

그래프 뷰

목차

백링크

최근 게시글

연속 프레임 분석을 통한 카메라 렌즈 오염 검출

(컴퓨터조립) AMD Ryzen 5 9600

(IMU Fusion) IMU 센서를 이용한 Ground Plane 보정