Gaussian Mixture Model
개요
- 가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 확률적 모델 중 하나로, 복잡한 데이터가 여러 개의 가우시안 분포 들의 조합으로부터 생성되었다고 가정하여 데이터의 분포를 다수의 가우시안 분포로 근사 할 수 있다.
- 이러한 서로 다른 가우시안 분포에 기반해 비지도 군집화를 수행하는 것이 GMM 군집화 방식이며, 각각의 개별 데이터가 어떤 가우시안 분포에 속하는지 결정하는 방식이다.
_image_1.png)
수학적 표현
_image_2.png)
- GMM에서 주어진 데이터 x가 발생할 확률은 아래의 식과 같이 K개의 가우시안 확률밀도함수의 혼합으로 정의된다.
p(x)=k=1∑KπkN(x∣μk,Σk)
- K : 혼합된 가우시안의 개수
- πk : k 번째 가우시안의 혼합 계수 (가중치)
- 혼합 분포에 대한 확률밀도함수에서 k번째 가우시안이 선택될 확률
- 0≤πx≤1and∑k=1Kπk=1
- μk : k 번째 가우시안의 평균 벡터
- Σk : k 번째 가우시안의 공분산 행렬
- N(x∣μk,Σk) : 평균이 μk , 공분산이 Σk인 다변량 가우시안 분포
다변량 정규분포와 혼합 모델
EM 알고리즘과 GMM 학습
- 일반적으로 GMM의 모델 매개변수는 기댓값 최대화(expectation-maximization, EM) 방법을 이용하여 최적화한다.
- GMM을 학습은 주어진 데이터셋에 대하여 데이터의 확률 p(x)를 최대화하는 파라미터 집합 π,μ,Σ 를 추정하는 것.
_image_3.png)
- EM 알고리즘은 Expectation step과 Maximization step이라는 두 단계를 반복하여 가능도의 기댓값을 최대화하는 매개변수를 찾는다. EM 알고리즘의 각 단계는 아래와 같은 작업을 수행한다.
- Expectation step (E-step): 가능도의 기댓값을 계산하기 위해 필요한 인자들을 추정한다.
- Maximization step (M-step): 추정된 가능도의 기댒값에 대해 이를 최대화하는 매개변수를 찾는다.
참고