순차적 데이터 분석을 위한 상태 공간 모델(SSM: State-Space Model) 기반 딥러닝 방법에 대한 개념 정리

1. 시퀀스 모델링 (Sequence Modeling)

개념 및 필요성

  • Sequence Modeling시간에 따른 데이터(Sequence Data) 의 패턴을 분석하고 예측하는 데 필수적인 기술이며 자연어처리, 음성 인식, 금융 시계열 분석, 바이오 신호 분석 등 다양한 분야에서 활용된다.
  • 특히, 긴 시퀀스(long sequences)를 다루는 모델은 이러한 데이터를 효과적으로 처리하고 중요한 정보를 추출하는 데 중점을 둔다.

주요 목표

  • 데이터의 시간적 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있는 모델이 필요함.
  • 학습 과정에서 발생하는 Vanishing Gradient 문제를 해결해야함 (시간에 따라 신호가 점차 약해짐).

대표 모델 및 장단점

+full

  • RNN은 시퀀스 데이터에 대한 상태 저장 성질을 갖고 있으나, 매 스텝마다 저장과 계산이 필요하므로 매우 비효율적. 시간에 따라 데이터의 영향이 점점 약해져 Vanishing Gradient가 대표적이다.
  • Convolution(CNN) 은 병렬처리와 빠른 훈련이 가능하나, 긴 시퀀스를 처리하는 데 한계가 있다. 즉, 로컬 정보에 국한되어 있으며 긴 문맥(long-term dependency)를 학습하는 능력이 부족하다.
  • Neural ODEs는 연속적 시간 모델을 사용하여 수학적으로 시퀀스를 처리하지만 계산 비용이 많이 들고, 특히 긴 시퀀스를 처리할 때 매우 비효율적이다.
  • 트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나지만, 모든 단어가 다른 모든 단어와 연관성(Attention)을 계산해야 하기 때문에, 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함. (ex. 시퀀스의 길이가 일때 연산량과 메모리 사용량은 )

2. 상태 공간 모델 (State-Space Model, SSM)

개념

  • 상태 공간 모델(State Space Models, SSM)은 트랜스포머와 RNN과 마찬가지로 정보의 시퀀스(시계열 데이터)를 처리한다.
  • SSM을 기반으로한 딥러닝 모델은 자연어 처리(NLP)와 시계열 데이터 처리에서 Transformer의 대안으로 주목받고 있다.
  • 제어이론에서 사용되고 있는 상태 공간 방정식을 기반으로 하며, 시스템의 상태(state)와 출력을 수학적으로 정의한 것.
  • 입력 데이터()를 받아 상태()를 계산한 후 이를 출력()으로 변환하는 두 가지 주요 방정식으로 표현된다.
  • 시간 에 대한 상태방정식: , 출력방정식:

이산화 (Discretization)

  • SSM을 딥러닝에 적용하기 위해서는 연속형 변수를 이산형으로 변환하는 작업이 필요함.
  • SSM의 변수들은 기본적으로 연속 시간에서의 무한한 실수 데이터를 가정하였지만, 딥러닝에서는 이산적인(discrete) 데이터(예: 시퀀스, 토큰, 이미지 픽셀 등) 를 다루기 때문에 일정한 시간 간격으로 샘플링하여 시스템의 동작을 계산하도록 모델링 하는 과정 = 딥러닝에서 학습 가능한 형태로 이산화하는 것
  • 특히 S4, Mamba 같은 최신 모델들은 특별한 이산화 기법을 사용하여 성능을 극대화함 = SSM의 성능과 효율성은 이산화 단계가 큰 영향을 미침.

  • SSM은 기본적으로 연속 표현(Continous), 이산화를 통한 순차적 표현(Recurrent)합성곱 표현(Convolution)으로 표현될 수 있다.
  • 프로세스의 단계(학습 또는 추론)와 데이터 유형에 따라 어느 우선시할 관점을 적절히 사용할 수 있다.

3. SSM을 이용한 주요 딥러닝 모델들 (Deep SSM)

  • 이산화를 통한 SSM의 변형 중 합성곱 표현(Convolution) 방식의 장점은 각 시간 단계별로 상태를 업데이트하는 순차적 표현(Recurrent)과 다르게 병렬화가 가능하여 특히 긴 시퀀스를 처리할 때 계산 및 메모리 효율성을 가진다.
  • 또한, 컨볼루션 커널 사이즈를 조절하여 시퀀스의 장기 종속성을 더 잘 반영하도록 할 수 있다.
  • 이런 SSM의 합성곱 표현을 효율적으로 계산하고 처리할 수 있는 연구들이 아래와 같이 진행되어 왔다.

HiPPO (2020)

LSSL (2021)

S4 (2022)

Mamba (2024)

  • Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • MambaS4의 후속 모델로, S4 모델이 가진 강력한 성능을 유지하면서도 더 효율적인 학습과 연산을 가능하게 만든 모델.
  • 선택적 상태 공간 모델(Selective State Space Model) 을 제안함으로써 서로 관련이 깊은 데이터에만 집중할 수 있게 하여 연산과 메모리 효율성을 높였다.
  • 트랜스포머 대비 5배 빠른 추론속도를 보임.
  • 객체인식 및 영상분할 분야에서는 ViT(Vision Transformer)와 CNN 아키텍처가 여전히 단순 Mamba 기반 모델을 능가 Transformer와 Mamba를 함께 사용하여 성능을 높이는 방법도 연구되는 중.

정리

  • 순차적 데이터를 처리하기 위한 시퀀스 모델은 긴 시퀀스(long-sequences)에서도 시간 연속성(time continuity)을 유지하면서도 이를 효과적으로 처리할 수 있도록 발전되어 왔다.
  • 트랜스포머의 Self-Attention 방법은 긴 시퀀스를 처리하는 데 매우 뛰어나 자연어 처리(NLP)와 시계열 데이터 처리의 주요 방법으로 널리 사용되지만 입력 시퀀스가 길어질수록 연산량과 메모리 사용량이 기하급수적으로 증가함.
  • 제어이론에서 순차적 데이터를 처리하는데에 사용되는 상태 공간 모델(SSM: State Space Model) 은 기본적으로 선형 구조를 기반으로 하므로 SSM을 이용하면 트랜스포머에 비해 파라미터 수와 시간 복잡도 측면에서 더 효율적인 모델을 만들 수 있다.
  • 병렬화와 계산 효율성을 위해 SSM을 합성곱(Convolution)으로 표현(이산화)하는 방법을 기반으로 더욱 효율적인 모델을 제안하는 것이 최신 Deep SSM의 트렌드.
  • 트랜스포머 방법의 대안이라 불리는 최신의 Deep SSM 기반 방법인 Mamba는 자연어처리, 객체인식 및 탐지, 비디오 처리 등 딥러닝이 사용되는 생태계의 다양한 분야에서 백본(Backbone) 모델로서 강력한 후보로 거론되며 활발히 연구되고 있다.

분야별 주요 SSM 모델

+full


참고