GMM (Gaussian Mixture Model)

Gaussian Mixture Model

가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 확률적 모델 중 하나로, 복잡한 데이터가 여러 개의 가우시안 분포 들의 조합으로부터 생성되었다고 가정하여 데이터의 분포를 다수의 가우시안 분포로 근사 할 수 있다.
이러한 서로 다른 가우시안 분포에 기반해 비지도 군집화를 수행하는 것이 GMM 군집화 방식이며, 각각의 개별 데이터가 어떤 가우시안 분포에 속하는지 결정하는 방식이다.

p (x) = k = 1 \sum K π_{k} N (x ∣ μ_{k}, Σ_{k})

$K$ : 혼합된 가우시안의 개수
$π_{k}$ : $k$ 번째 가우시안의 혼합 계수 (가중치)
- 혼합 분포에 대한 확률밀도함수에서 $k$ 번째 가우시안이 선택될 확률
- $0 \leq π_{x} \leq_{1} and \sum_{k = 1}^{K} π_{k} = 1$
$μ_{k}$ : $k$ 번째 가우시안의 평균 벡터
$Σ_{k}$ : $k$ 번째 가우시안의 공분산 행렬
$N (x ∣ μ_{k}, Σ_{k})$ : 평균이 $μ_{k}$ , 공분산이 $Σ_{k}$ 인 다변량 가우시안 분포

EM 알고리즘은 Expectation step과 Maximization step이라는 두 단계를 반복하여 가능도의 기댓값을 최대화하는 매개변수를 찾는다. EM 알고리즘의 각 단계는 아래와 같은 작업을 수행한다.
- Expectation step (E-step): 가능도의 기댓값을 계산하기 위해 필요한 인자들을 추정한다.
- Maximization step (M-step): 추정된 가능도의 기댒값에 대해 이를 최대화하는 매개변수를 찾는다.