SSM 기반 모델 관련 활용분야 및 논문 조사

최적화

Bi-Mamba: Towards Accurate 1-Bit State Space Models

개요

  • Mamba는 Transformer의 상당한 추론 시간 및 메모리 요구 사항과 같은 한계를 해결하지만, 여전히 큰 Mamba 모델은 훈련과 배포가 어렵다.
  • 더 효율적인 대형 언어 모델(LLM)을 위해 1-bit 표현을 이용한 메모리 사용량과 에너지 소비를 줄인 Bi-Mamba 모델을 제시함.
  • FP16/BF16 같은 기존 모델 수준의 성능을 유지하면서도, 메모리 절감 효과가 뛰어남.
  • 미래에는 1비트 Mamba 모델을 위한 특수 하드웨어 개발도 가능할 것으로 기대함.

MaIL: Improving Imitation Learning with Mamba

개요

  • MaIL(Mamba Imitation Learning)은 Mamba를 활용하여 데이터의 핵심 특징에 집중하는 방식으로 동작함.
  • Transformer는 데이터가 풍부한 환경에서는 강력하지만, 데이터가 적을 경우 과적합 및 낮은 품질의 표현이 학습된다. 반면, MaIL은 핵심 특징을 강조하고 모델의 복잡성을 줄여서 표현 학습 효율성을 향상시킴으로써 과적합을 줄이고, 제한된 데이터 환경에서도 일반화 성능을 높인다.
  • 데이터가 제한된 상황에서는 Transformer보다 우수한 성능을 보였으며, 전체 데이터를 사용할 경우 Transformer와 비슷한 성능을 기록함.

로보틱스

RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation

개요

  • 로봇의 시각-언어-행동(Vision-Language-Action, VLA) 모델로, 로봇이 시각적 정보를 이해하고 합리적 추론을 통해 조작 작업을 수행할 수 있도록 설계된 모델.
  • VLA 모델이란 시각-언어-행동 모델로, 카메라로 주변 환경을 보고(Vision), 언어적으로 이해하며(Language), 이동형 로봇을 제어(Action) 한다.
  • 로봇이 시각적 정보를 이해하고, 자연어를 통해 추론한 후, 실제 조작을 수행할 수 있도록함.
  • SSM 기반의 Mamba를 활용해 기존 VLA 모델이 복잡한 문제 해결 능력이 부족하고 높은 계산 비용을 요구하는 문제를 해결함. (기존 VLA 모델보다 3배 빠른 추론 속도를 달성함)
  • 효율적인 SE(3) 자세 추정을 위해 로봇조작을 위한 간단한 정책을 추가함으로써 최소한의 파인튜닝만으로도 높은 성능 달성.
  • SE(3) 자세란 Special Euclidean Group in 3D Space의 약어로, 3차원 공간에서 물체(또는 로봇)가 차지하는 위치(Position)와 방향(Orientation)을 함께 표현하는 방법.
  • 로봇이 물체를 조작할 때 손을 어디에 놓고, 어떤 방향으로 움직여야 하는지 결정하는 데 사용됨.
  • 입력으로 이미지와 자연어 명령을 받으면, CLIP 기반의 모델을 통해 이미지의 특징을 분석하고, 분석된 이미지 특징 정보를 바탕으로 Mamba 기반 모델을 통해 SE(3)와 같은 로봇이 수행할 동작에 대한 정보를 출력하도록 구성.

RoboMamba 입출력 예시


Context-aware Mamba-based Reinforcement Learning for social robot navigation

개요

  • 소셜 로봇(자율 휠체어, 배달 로봇 등)이 보행자가 많은 환경에서 사회적으로 허용되는 방식으로 주행할 수 있도록 경로 생성 등의 로봇 내비게이션 연구에 Mamba를 활용함.
  • 최근 소셜 로봇 내비게이션 연구에 심층 강화 학습이 많이 사용되고 있으며, 본 연구에서는 Mamba를 사용하여 로봇의 다음 동작을 결정하여 신경망이 예측한 다음 상태의 값을 최대화하여 로봇이 할당된 보상에 따라 효과적으로 탐색할 수 있도록 하는 CAMRL(Context-Aware Mamba-based Reinforcement Learning)을 제안함.
  • 충돌을 최소화하며 보행자와의 안전한 거리를 유지하는 결과를 보여주며 로봇 내비게이션을 위한 Deep SSM의 잠재력을 보여줌.


Robot path planning using deep reinforcement learning

개요

  • 강화 학습 방법을 이용한 맵 없이 로봇의 경로 탐색 및 주행 작업에 대한 연구가 활발히 이루어지고 있다. 주로 Google Deep Mind에서 발표한 DQN, DDQN, D3QN 등의 강화 학습 방법이 주로 사용됨.
  • 본 연구에서는 D3QN 방법과 rainbow 알고리즘(DQN의 파생 방법들의 혼합)을 이용하여 로봇 경로 탐색을 위한 강화 학습 에이전트를 구현한다.

+full


Towards monocular vision based obstacle avoidance through deep reinforcement learning

개요

  • 자율 로봇이 3D 정보가 없는 단안 영상만으로 충돌을 회피하는 것은 매우 어렵다. 본 연구에서는 단안 RGB 영상만을 사용하여 장애물 회피를 위한 D3QN 아키텍처를 제안함.
  • RGB 이미지에서 깊이 정보 추정을 먼저 하는데, 예측된 깊이 정보에 노이즈가 매우 많이 있어도 시뮬레이터에서 장애물을 피하는 방법을 효율적으로 학습할 수 있다.
  • 가상 세계(시뮬레이터)에서 학습된 모델을 다이나믹 객체가 많은 실제 환경에 적용하여도 일반화 성능이 좋은 결과를 보였다.

+full


A Recurrent Vision-and-Language BERT for Navigation

개요

  • 언어모델이 발전함에따라 시각-언어(V&L) 과제는 상당한 이점을 얻었지만, 시각-언어 내비게이션 (Vision-and-Language Navigation, VLN) 문제는 여전히 제한적이다.
  • 기존 VLN 연구들은 시간 의존적인 정보가 아닌 명령어의 특정 부분과 시점에 해당하는 정보만 사용하여 성능이 낮다 → 히스토리 정보가 중요함
  • 본 연구에서는 기존 BERT 아키텍처에 순환(Recurrent) 기능을 추가하여 이전 상태의 정보를 가지고 있으면서 새로운 상태에 반영하는 구조를 제안함.
  • 기존 LSTM과 Transformer 기반의 복잡한 인코더-디코더 모델보다 더 나은 성능을 보여 주었고, 로봇 내비게이션 과제의 기반 기술로 사용될 수 있다.

+full


PlainMamba: Improving non-hierarchical Mamba in visual recognition

개요

  • Mamba 모델을 시각적 인식(Visual Recognition)에 적용하여 비전 모델에서 효율적인 특징 추출 가능.
  • 로봇이 물체를 인식하고 조작할 때 더 나은 성능을 발휘할 수 있도록 개선된 구조 제안.
  • RoboMamba와 같은 Vision-Language-Action(VLA) 모델의 성능 개선 가능.
  • 로봇이 시각적 단서를 더 정확히 이해하고 조작을 수행할 수 있도록 도움.

기타

Deep Reinforcement Learning in Mobile Robot Navigation Tutorial

DRL 기반 로봇 네비게이션 시뮬레이션 튜토리얼 가이드

+full


Deep Learning for Embodied Vision Navigation: A Survey

딥러닝 기반 비전 내비게이션 연구 조사 논문

A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles

자율 주행차의 모션 계획 및 제어에 강화 학습(RL)을 적용하는 연구 조사 논문


참고