Gaussian Mixture Model

개요

  • 가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 확률적 모델 중 하나로, 복잡한 데이터가 여러 개의 가우시안 분포 들의 조합으로부터 생성되었다고 가정하여 데이터의 분포를 다수의 가우시안 분포로 근사 할 수 있다.
  • 이러한 서로 다른 가우시안 분포에 기반해 비지도 군집화를 수행하는 것이 GMM 군집화 방식이며, 각각의 개별 데이터가 어떤 가우시안 분포에 속하는지 결정하는 방식이다.

수학적 표현

  • GMM에서 주어진 데이터 가 발생할 확률은 아래의 식과 같이 개의 가우시안 확률밀도함수의 혼합으로 정의된다.
  • : 혼합된 가우시안의 개수
  • : 번째 가우시안의 혼합 계수 (가중치)
    • 혼합 분포에 대한 확률밀도함수에서 번째 가우시안이 선택될 확률
  • : 번째 가우시안의 평균 벡터
  • : 번째 가우시안의 공분산 행렬
  • : 평균이 , 공분산이 인 다변량 가우시안 분포

다변량 정규분포와 혼합 모델


EM 알고리즘과 GMM 학습

  • 일반적으로 GMM의 모델 매개변수는 기댓값 최대화(expectation-maximization, EM) 방법을 이용하여 최적화한다.
  • GMM을 학습은 주어진 데이터셋에 대하여 데이터의 확률 를 최대화하는 파라미터 집합 를 추정하는 것.

  • EM 알고리즘은 Expectation step과 Maximization step이라는 두 단계를 반복하여 가능도의 기댓값을 최대화하는 매개변수를 찾는다. EM 알고리즘의 각 단계는 아래와 같은 작업을 수행한다.
    • Expectation step (E-step): 가능도의 기댓값을 계산하기 위해 필요한 인자들을 추정한다.
    • Maximization step (M-step): 추정된 가능도의 기댒값에 대해 이를 최대화하는 매개변수를 찾는다.

참고