순차적 데이터 분석을 위한 상태 공간 모델(SSM: State-Space Model) 기반 딥러닝 방법에 대한 개념 정리
1. 시퀀스 모델링 (Sequence Modeling)
개념 및 필요성
- Sequence Modeling은 시간에 따른 데이터(Sequence Data) 의 패턴을 분석하고 예측하는 데 필수적인 기술이며 자연어처리, 음성 인식, 금융 시계열 분석, 바이오 신호 분석 등 다양한 분야에서 활용된다.
- 특히, 긴 시퀀스(long sequences)를 다루는 모델은 이러한 데이터를 효과적으로 처리하고 중요한 정보를 추출하는 데 중점을 둔다.
주요 목표
- 데이터의 시간적 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있는 모델이 필요함.
- 학습 과정에서 발생하는 Vanishing Gradient 문제를 해결해야함 (시간에 따라 신호가 점차 약해짐).
대표 모델 및 장단점
- RNN은 시퀀스 데이터에 대한 상태 저장 성질을 갖고 있으나, 매 스텝마다 저장과 계산이 필요하므로 매우 비효율적. 시간에 따라 데이터의 영향이 점점 약해져 Vanishing Gradient가 대표적이다.
- Convolution(CNN) 은 병렬처리와 빠른 훈련이 가능하나, 긴 시퀀스를 처리하는 데 한계가 있다. 즉, 로컬 정보에 국한되어 있으며 긴 문맥(long-term dependency)를 학습하는 능력이 부족하다.
- Neural ODEs는 연속적 시간 모델을 사용하여 수학적으로 시퀀스를 처리하지만 계산 비용이 많이 들고, 특히 긴 시퀀스를 처리할 때 매우 비효율적이다.
- 트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나지만, 모든 단어가 다른 모든 단어와 연관성(Attention)을 계산해야 하기 때문에, 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함. (ex. 시퀀스의 길이가 일때 연산량과 메모리 사용량은 )
2. 상태 공간 모델 (State-Space Model, SSM)
개념
- 상태 공간 모델(State Space Models, SSM)은 트랜스포머와 RNN과 마찬가지로 정보의 시퀀스(시계열 데이터)를 처리한다.
- SSM을 기반으로한 딥러닝 모델은 자연어 처리(NLP)와 시계열 데이터 처리에서 Transformer의 대안으로 주목받고 있다.
- 제어이론에서 사용되고 있는 상태 공간 방정식을 기반으로 하며, 시스템의 상태(state)와 출력을 수학적으로 정의한 것.
- 입력 데이터()를 받아 상태()를 계산한 후 이를 출력()으로 변환하는 두 가지 주요 방정식으로 표현된다.
- 시간 에 대한 상태방정식: , 출력방정식:
이산화 (Discretization)
- SSM을 딥러닝에 적용하기 위해서는 연속형 변수를 이산형으로 변환하는 작업이 필요함.
- SSM의 변수들은 기본적으로 연속 시간에서의 무한한 실수 데이터를 가정하였지만, 딥러닝에서는 이산적인(discrete) 데이터(예: 시퀀스, 토큰, 이미지 픽셀 등) 를 다루기 때문에 일정한 시간 간격으로 샘플링하여 시스템의 동작을 계산하도록 모델링 하는 과정 = 딥러닝에서 학습 가능한 형태로 이산화하는 것
- 특히 S4, Mamba 같은 최신 모델들은 특별한 이산화 기법을 사용하여 성능을 극대화함 = SSM의 성능과 효율성은 이산화 단계가 큰 영향을 미침.
- SSM은 기본적으로
연속 표현(Continous)
, 이산화를 통한순차적 표현(Recurrent)
과합성곱 표현(Convolution)
으로 표현될 수 있다. - 프로세스의 단계(학습 또는 추론)와 데이터 유형에 따라 어느 우선시할 관점을 적절히 사용할 수 있다.
3. SSM을 이용한 주요 딥러닝 모델들 (Deep SSM)
- 이산화를 통한 SSM의 변형 중 합성곱 표현(Convolution) 방식의 장점은 각 시간 단계별로 상태를 업데이트하는 순차적 표현(Recurrent)과 다르게 병렬화가 가능하여 특히 긴 시퀀스를 처리할 때 계산 및 메모리 효율성을 가진다.
- 또한, 컨볼루션 커널 사이즈를 조절하여 시퀀스의 장기 종속성을 더 잘 반영하도록 할 수 있다.
- 이런 SSM의 합성곱 표현을 효율적으로 계산하고 처리할 수 있는 연구들이 아래와 같이 진행되어 왔다.
HiPPO (2020)
- HiPPO: Recurrent Memory with Optimal Polynomial Projections (NeurIPS, 2020)
- 긴 시퀀스에 대한 메모리 문제를 해결하고, 메모리를 효율적으로 유지하면서 입력 정보를 계속 업데이트하는 방법을 제안함.
- 메모리 효율성과 정보 유지 간의 균형을 찾는 데 초점을 둠.
LSSL (2021)
- LSSL: Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers (NeurIPS, 2021)
- 연속 시간 모델과 선형 상태 공간 레이어(LSSL)를 결합하여, 시간에 따른 연속적인 변화와 비연속적인 변화를 동시에 처리할 수 있는 방법을 제안함.
- LSSL은 모델의 유연성을 높여서, 시계열 데이터뿐 아니라 다양한 종류의 연속적 데이터를 처리할 수 있도록 돕는다.
S4 (2022)
- S4: Efficiently Modeling Long Sequences with Structured State Spaces (ICLR, 2022)
- S4(Structured State Space Model)는 Convolution Representation의 효율성을 극대화하면서도, 장기적인 종속성을 더 잘 처리할 수 있게 최적화 되었다. = 긴 시퀀스에서도 우수한 성능을 보임.
- 일반적인 SSM의 시간복잡도 O(N)을 O(N log N)으로 줄임.
Mamba (2024)
- Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- Mamba는 S4의 후속 모델로, S4 모델이 가진 강력한 성능을 유지하면서도 더 효율적인 학습과 연산을 가능하게 만든 모델.
- 선택적 상태 공간 모델(Selective State Space Model) 을 제안함으로써 서로 관련이 깊은 데이터에만 집중할 수 있게 하여 연산과 메모리 효율성을 높였다.
- 트랜스포머 대비 5배 빠른 추론속도를 보임.
- 객체인식 및 영상분할 분야에서는 ViT(Vision Transformer)와 CNN 아키텍처가 여전히 단순 Mamba 기반 모델을 능가 → Transformer와 Mamba를 함께 사용하여 성능을 높이는 방법도 연구되는 중.
정리
- 순차적 데이터를 처리하기 위한 시퀀스 모델은 긴 시퀀스(long-sequences)에서도 시간 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있도록 발전되어 왔다.
- 트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나 자연어 처리(NLP)와 시계열 데이터 처리의 주요 방법으로 널리 사용되지만 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함.
- 제어이론에서 순차적 데이터를 처리하는데에 사용되는 상태 공간 모델(SSM: State Space Model) 은 기본적으로 선형 구조를 기반으로 하므로 SSM을 이용하면 트랜스포머에 비해 파라미터 수와 시간 복잡도 측면에서 더 효율적인 모델을 만들 수 있다.
- 병렬화와 계산 효율성을 위해 SSM을 합성곱(Convolution)으로 표현(이산화)하는 방법을 기반으로 더욱 효율적인 모델을 제안하는 것이 최신 Deep SSM의 트렌드.
- 트랜스포머 방법의 대안이라 불리는 최신의 Deep SSM 기반 방법인 Mamba는 자연어처리, 객체인식 및 탐지, 비디오 처리 등 딥러닝이 사용되는 생태계의 다양한 분야에서 백본(Backbone) 모델로서 강력한 후보로 거론되며 활발히 연구되고 있다.
분야별 주요 SSM 모델
참고
- [논문리뷰] - ⭐️Mamba: Linear-Time Sequence Modeling with Selective State Spaces⭐️ - 맘바 ! Transformer의 대체자 ?
- [Paper Review] Mamba: Linear-Time Sequence Modeling with Selective State Spaces
- [논문리뷰] - SSM과 S4 모델들을 알아보자 ! ( + Transformer , Mamba ) - State Space Model for New-Generation Network Alternative to Transformers: A Survey
- GitHub - yyyujintang/Awesome-Mamba-Papers: Awesome Papers related to Mamba.
- Introduction to State Space Models (SSM)
- [Paper Review] Structured State Space Models for Deep Sequence Modeling
- Sequence Modeling with State Space Models | by Taewan Cho | Medium
- Mamba: Liner-Time Sequence Modeling With Selective State Space | by Taewan Cho | Medium
- [논문리뷰] - ⭐️Mamba: Linear-Time Sequence Modeling with Selective State Spaces⭐️ - 맘바 ! Transformer의 대체자 ?
- [논문 정리] MambaVision: A Hybrid Mamba Transformer Vision Backbone