상세 컨텐츠

본문 제목

[Pattern Recognition and Machine Learning] Chapter 2.3. The Gaussian Distribution

카테고리 없음

by SONG, Ph.D 2021. 10. 11. 17:30

본문

PRML(Pattern Recognition and Machine Learning, Bishop) 정리 문서입니다. 

다음 웹 사이트에서 관련 최신 자료를 확인할 수 있습니다.

https://www.microsoft.com/en-us/research/people/cmbishop/


Chapter 2.3. The Gaussian Distribution

정규 분포 라고도 알려져 있는 가우시안 분포는 연속 변수를 모델링하는 분포로 매우 널리 활용되고 있다.

 

단일 변수 $x$에 대해 가우시안 분포는 다음 형태로 나타낼 수 있다.

$D$ 차원 벡터 $x$ 에 대한 다변량 가우시안 분포는 다음과 같이 확장 가능하다.

 $\sum _{\ }^{\ }$의 절대값은 행렬식(determinant)을 의미한다.

 

가우시안 분포는 여러 다양한 상황에서 여러가지 다른 용도로 활용될 수 있다.

 - 엔트로피 극대화

 - 생성 모델 (generative model)

 - 여러 확률 변수의 합에 대해 고려하는 경우

 

여기서, 여러 개의 확률 변수들의 합에 해당하는 확률 변수는 몇몇 조건하에서 합해지는 확률 변수의 숫자가 증가함에 따라서 점점 가우시안 분포가 되어간다는 중심 극한 정리(central limit theorem)는 굉장히 중요한 개념이다. 이는 그림에서 볼 수 있듯, 다음의 성질을 지닌다.

  • 동일한 확률 분포를 따르는 $N$ 개의 독립 확률 변수의 평균 값은 $N$ 이 충분이 크다면 가우시안 분포를 따름.
  • $N$개의 확률 변수가 어떤 확률 분포를 따르든지 상관없이 $N$ 이 충분이 크다면 그 합은 가우시안 분포를 따름.

Figure 2.6 Histogram plots of the mean of N uniformly distributed numbers for various values of N. We observe that as N increases, the distribution tends towards a Gaussian.


가우시안 분포의 기하학적 형태는 다음과 같다.

가우시안 분포의 함수적 종속성은 지수상($exp$)에서 나타나며, 이차식(quadratic)의 형태를 띈다(이 수식은 이후에도 자주 등장한다).

 

$\triangle $는 $\mu $로부터 $x$ 까지의 마할라노비스 거리(Mahalanobis distance)라고 한다.

 

만약 공분산 행렬 $\sum _{\ }^{\ }$이 항등 행렬(identity matrix)일 경우, 유클리디안 거리가 된다. 

 

직관적으로 이 값은, 평균과의 거리를 측정할 때, 분산도를 고려한다는 의미이다. 

 

공분산 행렬 $\sum _{\ }^{\ }$은 또한 실수 대칭 행렬(symmetric matrix)이다. 

- 이러한 성질로 인해 고윳값(eigenvalue)이 실수이고, 지수 연산에서 비대칭적인 요소가 사라지기 때문에 bell shape을 보인다(이는 일반성을 잃지 않는다).

정규직교 집합을 이루도록 고유 벡터들을 선택한다고 하면,

다음과 같고, 여기서 $I_{i,j}$ 는 다음과 같다.

공분산 행렬은 또한, 고유 벡터(eigen vector)의 선형 결합 형태로 표현 가능하다.

이에 대한 역행렬도 쉽게 구할 수 있다.

이렇게 구해진 역행렬을 가우시안 분포의 기하학적 형태에 대입하면 다음과 같은 식이 된다.

이를 벡터 식으로 확대하면 다음과 같다.

이러한 전개를 요약하면 다음과 같다.

 - $x$를 새로운 좌표로 변환한 것은 $y$이다. 

 - 고윳값 $\lambda_i$들이 양의 값을 가진다면 이 표면은 타원형 모양이다.

 - 즉, 가우시안 함수의 원점을 $\mu$로 옮기고 고유 벡터를 축으로 회전 변환되는 식이다.

가우시안 분포를 더 잘 정의하기 위해서는 다음과 같은 내용이 필요하다.

 - 공분산 행렬의 모든 고윳값들이 순양숫값을 가질 필요가 있다(이를 양의 정부호positive definite matrix) 행렬이라고 한다).

 - 만약 하나 또는 그 이상의 고윳값이 0인 가우시안 분포일 경우, 가우시안은 특이 분포가 되며 낮은 차원의 부분 공간에 제한된다(이를 양의 준정보후(positive semidefinite)의 성질을 가졌다고 한다). 

 - 이에 대해 더 깊은 내용은 선형대수를 살펴보자.

 

$x$를 새로운 좌표 $y$로 변환하는 것은 야코비안(Jacobian) 행렬을 이용한다. 

이는 공간의 선형 변환시 발생되는 부피의 변화율을 반영한다고 이해하면 직관적이다.

앞서, $U$가 직교 행렬이므로, 위와 같은 수식을 얻을 수 있다. 

 $\sum _{\ }^{\ }$의 절대값인 행렬식(determinant)은 다음과 같이 구해진다.

지금까지 구한 식들을 통해 $x$축에서 $y$ 축으로 전환하면, 다음과 같이 표현할 수 있다.

식을 통해 서로 독립적인 $D$ 개의 정규 분포의 확률 값이 단순 곱으로 이루어져 있다는 것을 알 수 있다.

고유 벡터를 통해 축을 변환시켜 얻은 식은, 결국 차원간 서로 독립적인 정규 분포를 만드는 것이다.

$p(y)$는 확률값이므로 각각의 차원에 대해 적분하면 크기가 1이다.


그럼, 이제 적률(moment)값을 통해 이를 살펴보자.

 

$z = x - \mu$ 변환을 통해 식을 전개하면 다음과 같다.

이는 중심이 $\mu$이고 좌우 대칭(bell shape)인 정규 함수로 볼 수 있다. 

적분식을 통해 $z$ 항이 사라지게 되고, 평균은 다음과 같이 정리된다.

이제 가우시안 분포의 2차 적률을 살펴보자.

대칭성에 의해 사라지게 되는 항과 상수항을 제외하고, $z {z}^T$에 대해 집중하자. 

$z$는 다음과 같이 고유 벡터로 표현 가능하다.

여기서 $y_i=u_j^T z$이다. 

이를 바탕으로 다음을 유도할 수 있다.

결과적으로 2차 적률은 다음과 같이 표현된다.

2차 적률에 1차 적률을 빼면, $\sum _{\ }^{\ }$이 구해진다. 

-> 매개변수 행렬인 $\sum _{\ }^{\ }$에 의해서 가우시안 분산에서의 $x$ 공분산이 결정된다. 그렇기 때문에 $\sum _{\ }^{\ }$를 공분산 행렬이라고 부르는 것이다.


가우시안 모델은 정말 널리 사용되는 모델이지만 몇 가지 제약들을 가지고 있다.

  • 모수(parameter)의 개수

    - $D$개의 차원을 가진 데이터에서 총 $D(D+3)/2$개의 독립적인 파라미터를 가지게 된다.

    - $\mu$ 파라미터 $D$개, 공분산은 $D(D+1)/2$개를 가지게 된다(공분산은 대칭 행렬).

    - 따라 $D$가 증가하게 되면 차수에 대해 제곱에 비례하여 모수의 개수가 증가하게 된다.

    - 계산이 복잡해지고 공분산의 역행렬 등을 구하기가 어려워 진다.

 

 -> 이를 해결하기 위해, 위 그림과 같은 대안점이 존재한다.

 -> (a)는 일반적인 2차원 가우시안 분포, (b)는 공분산이 대각 행렬인 2차원 가우시안 분포, 그리고 (c)는 공분산이 등방성 공분산인 2 차원 가우시안 분포를 나타낸다.

 

 ->(b)와 같이 공분산을 대각행렬(diagonal matrix)로만 제한하는 경우, $2D$개의 독립적인 파라미터를 가지게 되고, 평행한 타원으로만 모양이 형성된다. 

 

 ->(c)와 같이 공분산을 단위행렬에 비례하도록 제한하는 경우, $D+1$개의 독립적인 파라미터를 가지게 되고, 밀도가 구(concentric circle)의 모양이 된다.

 

모수 개수의 자유도를 제한하는 접근 형태는 공분산을 빠르게 계산할 수 있기 때문에 좋은 성능을 가지지만, 확률 밀도의 형태를 제한하기 때문에 데이터 사이의 연관 관계를 파악할 수 있는 능력을 제한하게 된다.

 

  • 단봉(unimodal)의 분포 모양

    - 다봉(multimodal) 형태를 취하는 확률 분포를 근사할 수 없는 문제가 존재한다.

    

 -> 이를 해결하기 위해, Latent, Hidden, Un-observed 변수들을 사용한다(이는 이후에 다룬다).

 -> 또한, 가우시안 분포를 혼합(mixture)하여 이러한 문제를 해결할 수도 있다.


2.3.1 Conditional Gaussian distributions

만약 두 변수 집합이 결합적으로 가우시안 분포를 보인다면,

1) 하나의 변수 집합에 대한 다른 변수 집합의 조건부 분포 역시 가우시안 분포를 보인다는 성질이 있다.

또한, 2) 각 변수 집합의 주변 분포 역시 가우시안 분포를 보인다.

 

1)의 경우를 먼저 살펴보자.

$D$ 차원의 벡터 $x$가 $N(x | \mu, \sigma)$ 분포를 따른다고 할 때, $x$를 두 개의 집합으로 나누면 다음과 같다.

이에 대한 평균과 공분산은 다음과 같다.

많은 경우 공분산을 그대로 사용하기 보다 공분산의 역행렬을 사용한다. 

이를 정밀도 행렬(precision matrix)라고 정의한다.

조건부 분포 $p(x_a | x_b)$의 표현식을 찾는 데서부터 시작해 보자.

확률의 곱 법칙에 따라, 조건부 분포를 결합 분포 $p(x)=p(x_a, x_b)$로부터 계산할 수 있다.

$x_b$를 관측된 값으로 고정하고, 그 결과에 해당하는 표현식을 정규화해서 $x_a$에 해당하는 올바른 확률 분포를 구할 수 있다. 

 

좀 더 효율적으로 계산 결과를 얻어내기 위해, 가우시안 분포에서 지수의 이차식(quadratic) 부분을 다시 살펴보자.

위 식은 $x_a$에 대한 이차식을 띈다는 것을 알 수 있다($x_b$가 관측된 값으로 고정되므로).

- 따라서, 이는 가우시안 분포를 따르게 될 것임을 짐작할 수 있다. 

 

이 식을 이용하여 $p(x_a | x_b)$의 평균과 공분산을 찾아보자.

일반적으로, 가우시안 분포의 지수식 부분을 아래 식과 같이 나타낼 수 있다.

이 과정을 '제곱식의 완성(completing the square)'라고 일컫기도 한다. 

이 과정을 이용하여, 가우시안 분포의 exp() 내 이차식을 이용해 평균과 공분산을 구할수 있다.

- const는 $x$에 대해 독립, $\sum _{\ }^{\ }$는 대칭이라는 성질을 이용

 

일반 형태의 이차식을 위 식의 오른쪽 변의 형태로 표현하면, $x$의 이차항에 해당하는 계수들의 행렬과 공분산 행렬의 역행렬이 같고, $x$의 일차항의 계수들과 $\Sigma^{-1} \mu$와 같다는 것을 알 수 있다.

 

$p(x_a | x_b)$의 평균은 $\mu_{a|b}$, 공분산은 $\Sigma_{a|b}$ 라 하자.

$x_a$의 이차식에 해당하는 항만 골라내면 다음과 같다.

이를 바탕으로 $p(x_a | x_b)$의 공분산은 다음과 같음을 바로 알 수 있다.

이번에는 $x_a$의 일차식에 해당하는 항만 추려내보자.

따라서, 평균은 $\mu_{a|b}$는 다음과 같다.

여기서 주의해야 할 점은, 현재 평균과 공분산이 정확도(precision) 행렬로 표현이 되었다는 것이다.

해당 결괏값은 분할 공분산 행렬의 식으로도 표현이 가능하다.

이를 위해 다음 성질을 활용하자.

$M^{-1}$은 $D$에 대한 슈어 보수행렬(Schur completment)로 정의된다.

이 식을 아래 행렬에 대입하면,

다음과 같은 식을 얻을 수 있다.

이 식들을 바탕으로 조건부 분포 $p(x_a | x_b)$의 평균과 공분산에 대한 식을 정리하면 다음과 같다.

위의 식을 살펴보면, 분할 정밀 행렬을 사용하는 것이 분할 공분산 행렬을 사용할 때보다 더 단순한 형태를 띤다는 것을 알 수 있다.

조건부 분포 $p(x_a | x_b)$의 평균은 $x_b$에 대한 일차식이며, 공분산은 $x_b$에 대해 독립적임을 확인할 수 있다.

 

이것이 바로 선형 가우시안(linear Gaussian) 모델의 예시다.


2.3.2 Marginal Gaussian distributions

결합 분포 $p(x_a, x_b)$가 가우시안 분포이면, 조건부 분포 $p(x_a | x_b)$도 가우시안 분포임을 확인하였다.

이제, 다음 식으로 주어지는 주변 분포에 대해 살펴보자.

주변 분포는 단순히 결합 분포에서 한 쪽의 변수가 사라지거나 무시되는 것을 의미한다.

 

주변 분포 역시 가우시안 분포다.

결합 분포 지수상 이차식에 초점을 맞춰 주변 분포 $p(x_a)$의 평균과 공분산을 구하는 전략을 사용할 것이다.

 

결합 분포의 이차식은 분할 정밀 행렬을 사용하여 다음과 같이 표현할 수 있다.

$x_b$를 적분시켜서 없애는 것이 여기서 우리의 목표다. 

이를 위해 $x_b$에 연관된 항들을 일단 먼저 고려하여 제곱식의 완성 과정을 적용해야 한다.

연관된 항들을 따로 뽑아내면 다음과 같다.

이 식도 completing the square를 사용한 것이며, 여기서 다음을 정의하였다.

(완전 제곱식이란, 이차식에 같은 값을 더하고 빼는 과정을 통해 제곱의 형태로 만들어낸 것)

$x_b$에 종속적인 항들을 가우시안 분포의 표준 이차식 형태로 만든 것이 위 식의 오른쪽 변의 첫번째 항이다. 

나머지 $x_b$에 종속되지 않은 항들이 다른 항들에 포함되어 있다.

따라서, 이 이차식에 지수 함수를 취하면, $x_b$에 대한 적분이 다음의 형태를 취하는 것을 확인할 수 있다.

(적분을 취하면 상수항이 없어진다)

위 적분식은 정규화되지 않은 가우시안 분포에 대한 적분이다. 

따라서, 결괏값은 정규화 계수의 역수에 해달할 것이다(가우시안 분포의 경우 적분의 합이 1이 되어야 하므로). 

 

정규화 계수는 평균으로부터 독립적이며, 공분산 행렬의 행렬식에 대해서만 종속적이라는 것을 알 수 있다. 

따라서 $x_b$에 대해서 제곱식의 완성을 적용하면 $x_b$를 적분시켜서 없앨 수 있다. 

이후, 남는 항은 다음과 같다.

$m$이 주어졌기 때문에, 이 항을 $x_a$에 종속적인 식에서 나머지 항들과 합치면 다음을 구할 수 있다.

여기서 const는 $x_a$에 대해 독립적인 값들을 함께 묶은 것이다.

이를 가우시안 분포의 지수식 부분과 비교하면, 주변 분포 $p(x_a)$의 공분산과 평균이 다음과 같다는 것을 알 수 있다.

마찬가지로 분할 정밀 행렬보다는 분할 공분산 행렬로 표기하는 것이 더 편할 수 있다.

따라서, 주변 분포 $p(x_a)$의 평균값과 공분산은 다음과 같다.

조건부 분포에 대해서는 분할 정밀 행렬을 사용할 때 평균과 공분산이 단순하게 표현되었던 반면, 

주변 분포의 경우에는 분할 공분산 행렬을 활용할 때 평균과 공분산이 가장 단순하게 표현되는 것을 확인할 수 있다.

 

두 개의 변수에 대한 다변량 가우시안 분포의 조건부 분포와 주변 분포의 예시는 아래 그림과 같다.

The plot on the left shows the contours of a Gaussian distribution p(xa, xb) over two variables, and the plot on the right shows the marginal distribution p(xa) (blue curve) and the conditional distribution p(xaxb) for xb = 0.7 (red curve).


2.3.3 Bayes’ theorem for Gaussian variables

앞서 조건부 분포 $p(x_a | x_b)$의 평균이 $x_b$에 대해서 선형임을 확인하였다.

가우시안 주변 분포 $p(x)$와 가우시안 조건부 분포 $p(y | x)$가 있을 때 $p(y | x)$의 평균이 $x$에 대한 선형 함수이며, 공분산 $x$에 대해 독립적이라고 하자. 

이것이 바로 선형 가우시안 모델(linear Gaussian model)의 예시이다.

 

이 가정하에서 주변 분포 $p(y)$와 조건부 분포 $p(x | y)$를 구하고 싶다면 어떻게 해야할까?

그 일반적인 형태에 대해 여기서 살펴보도록 하자.

주변 분포와 조건부 분포를 다음과 같이 정의하자.

여기서 $\mu,\ A,\ b$는 평균을 조절하는 매개변수이며, $\Lambda,\ L$은 정밀도 행렬이다. 

이후 과정은 증명 과정이다.

 

우선 $x$와 $y$의 결합 확률을 $z$로 정의하자.

결합 분포의 로그값을 고려해 보자.

앞에서와 같이 이 결과물은 $z$의 성분에 대해 이차식의 형태를 띤다.

따라서 $p(z)$는 가우시안 분포다.

이 분포의 정밀도를 찾기 위해서는 위 식의 이차항을 고려해야 하며, 다음과 같이 적을 수 있다.

따라서 $z$에 대한 가우시안 분포는 다음과 같은 형태의 정밀 행렬을 가지게 된다.

위 식에 역행렬을 취하면, 공분산 행렬을 구할 수 있다.

이제 일차항을 묶어 얻어진 계수와, 앞서 구한 공분산을 이용하여 평균을 구할 수 있다.

따라서 $z$의 평균을 다음과 같이 구할 수 있다.

각 요소의 평균이 결국 $z$의 평균이 된다.

 

다음으로는 주변 분포 $p(y)$에 대한 표현식을 찾아보자.

앞에서 살펴본 것처럼 가우시안 랜덤 벡터 성분들의 부분 집합에 대한 주변 분포는 분할 공분산 행렬을 이용하여 표현할 때 더 단순한 형태를 띈다.

따라서 주변 분포 $p(y)$의 평균과 공분산이 다음과 같음을 구할 수 있다.

특히, $A = I$인 경우, 이 결괏값은 두 가우시안 분포의 콘볼루션(convolution)에 해당한다. 

이때 콘볼루션의 평균은 두 가우시안의 평균 합에 해당하며, 콘볼루션의 공분산은 두 가우시안의 공분산의 합이다.

(여기서 convolution 은 두 개의 가우시안 함수가 서로 오버랩되는 영역을 나타내는 식)

 

마지막으로, 조건부 분포 $p(x | y)$에 대한 표현식을 구해보자.

조건부 분포의 결괏값은 분할 정밀 행렬을 사용할 때 더 단순하게 표현할 수 있으며, 다음과 같이 구할 수 있다.

이를 정리하면 다음과 같다.

다음과 같은 가우시안 확률 분포가 주어졌을 때,

주변 확률 분포와 조건부 확률 분포는 다음과 같다.

이때,  $\sum _{\ }^{\ }$는 다음과 같다.

 

 


2.3.4 Maximum likelihood for the Gaussian

데이터 집합 $X={(x_1,\ldots,x_n)}^T$이 주어졌으며, 관측값 ${x_n}$들이 다변량 가우시안 분포로부터 독립적으로 추출되었다고 가정해보자. (i.i.d)

이때 원 분산의 매개변수들을 최대 가능도 방법을 이용하여 추정할 수 있다.

로그 가능도 함수는 다음과 같다.

위 식을 재배열해 보면, 가능도 함수는 다음 두 값을 통해서만 데이터 집합에 종속되어 있음을 알 수 있다.

위 두 값을 가우시안 분포의 충분 통계량(sufficient distribution)이라 한다.

로그 가능도의 $\mu$에 대한 미분값을 통해 다음과 같이 구할 수 있다.

미분값을 0으로 놓으면 평균에 대한 최대 가능도 추정값의 해를 다음과 같이 구할 수 있다.

공분산은$ \Lambda=\Sigma^{-1}$를 이용하면 쉽게 구할 수 있다.

결괏값에 $\mu_{ML}$이 포함되어 있다.

따라서, $\mu_{ML}$을 먼저 계산한 후에 그 값을 이용하여 $\Sigma_{ML}$을 계산할 수 있다

실제 분포하에서 최대 가능도 해의 기대값을 구하면 다음과 같다.

평균의 최대 가능도 추정치의 기댓값이 실제 평균과 동일함을 확인할 수 있다.

하지만, 공분산의 최대 가능도 추정치의 기댓값은 실제 공분산값보다 작게 편향되어 있다.

이 편향성을 다음과 같이 주어지는 $\widetilde{\Sigma}$을 정의함으로써 수정할 수 있다.

이 내용은 자유도(degree of freedom)와 관련이 깊은 내용이다.


2.3.9 Mixtures of Gaussians

가우시안 분포는 데이터를 분석하는 데 있어서 중요한 여러 성질을 가지고 있지만,

실제 데이터 집합을 모델링하는 데 있어서는 심각한 한계점을 가지고 있다.

현실적으로 가우시안을 적용하기 어려운 경우가 존재한다. 

아래 그림의 사례를 살펴보자.

Plots of the ‘old faithful’ data in which the blue curves show contours of constant probability density. On the left is a single Gaussian distribution which has been fitted to the data using maximum likelihood. Note that this distribution fails to capture the two clumps in the data and indeed places much of its probability mass in the central region between the clumps where the data are relatively sparse. On the right the distribution is given by a linear combination of two Gaussians which has been fitted to the data by maximum likelihood using techniques discussed Chapter 9, and which gives a better representation of the data.

이 데이터들은 두 개의 주된 무리로 나누어져 있으며, 하나의 가우시안 분포로는 이 구조를 잡아낼 수가 없다.

하지만 두 가우시안 분포를 선형 중첩해놓으면 이 데이터 집합을 더 잘 표현할 수 있다.

 

가우시안 분포 등의 기본적인 분포들을 선형 결합하여 만들어지는 이런 확률 모델들을 혼합 분포(mixture distribution)라 하며, 이는 아래 그림과 같다.

Example of a Gaussian mixture distribution in one dimension showing three Gaussians (each scaled by a coefficient) in blue and their sum in red.

 

충분히 많은 숫자의 가우시안 분포를 사용하고 각 분포들의 평균과 공분산, 선형 결합의 계수들을 조절하면 거의 모든 연속 밀도를 임의의 정확도로 근사하는 것이 가능하다. 

$K$개의 가우시안 밀도의 중첩의 형태는 다음과 같다.

이를 가우시안 혼합 분포(mixture of Gaussian)라고 부른다. 각각의 가우시안 밀도는 혼합의 성분(component)이며, 각 성분은 평균 $\mu_k$와 공분산 $\Sigma_{k}$를 가지고 있다.

세 개의 성분을 가진 가우시안 분포의 혼합에 대한 경로와 표면의 도표가 아래 그림에 표현된다.

Illustration of a mixture of 3 Gaussians in a two-dimensional space. (a) Contours of constant density for each of the mixture components, in which the 3 components are denoted red, blue and green, and the values of the mixing coefficients are shown below each component. (b) Contours of the marginal probability density p(x) of the mixture distribution. (c) A surface plot of the distribution p(x).

 

이 절에서는 가우시안 성분을 바탕으로 혼합 모델에 대해 설명할 것이다.

위 식의 매개변수 $\pi_k$는 혼합계수(mixing coefficient)다.

식의 양 변을 $x$에 대해 적분하고 $p(x)$와 개별 가우시안 성분들이 정규화되어 있다는 점을 고려하면 다음을 구할 수 있다.

$N(x|\mu_k,\mathrm{\Sigma_k})\geq0$라는 전제 조건하에 모든 $k$에 대해 $\pi_k\geq0$라는 것이 $p(x)\geq0$이라는 조건을 만족시키기 위한 충분 조건임을 알 수 있다.

이런 조건들을 조합하면 다음을 얻을 수 있다.

이로부터 혼합 계수들이 확률의 조건을 만족시킨다는 것을 알 수 있다.

확률의 합과 곱의 법칙으로부터 주변 밀도가 다음과 같음을 알 수 있다.

이 식은 앞서 언급한 $p(x)$와 같아야 한다.

$\pi_k=p(k)$는 $k$번째 성분을 뽑을 사전 확률로 볼 수 있고, 밀도 $N(x|\mu_k,\mathrm{\Sigma_k})=p(x|k)$는 $k$가 주어졌을 때의 $x$의 확률로 볼 수 있다.

결과적으로 동일한 식임을 알 수 있다. 

여기서 사후 확률 $p(k|x)$를 책임값(responsibilities)이라고 한다(이는 책의 후반부에 다시 언급된다). 

 

베이지안 정리에 따라 사후 확률은 다음과 같이 주어진다.

이에 대한 내용은 챕터 9장에서 자세히 살펴 볼 것이다(EM 알고리즘).

 

가우시안 혼합 분포의 매개변수는 $\pi,\ \mu,\ \Sigma$로 결정된다.

이 값을 찾는 방법 중 하나는 최대 가능도 방법이다.

이러한 가능도 함수의 최댓값을 구하는 한 가지 방법은 바로 반복적인 수치적 최적화 테크닉이다.

이에 대해서는 9장에서 살펴보도록 하자.

 

EOD

댓글 영역