📊

Chapter 2. Probability Distributions

Created

2020/12/21 12:10

이번 장에서는 여러 가지 확률 분포 모형과 그 성질을 다룬다. 이러한 확률 분포 모형은 추정하고자 하는 모수의 확률 분포를 추정하는 데 핵심적인 역할을 하기 때문에 PRML에 있어서 중요한 주제이다. 크게 parametric, non-parametric distribution으로 나눌 수 있다. 주로 parametric distribution에 대해 다룬다.

2.1. Binary Variables

모 아니면 도의 상황만이 존재할 수 있는 확률 변수를 binary variable이라 한다. 예컨대 동전을 던졌을 때 앞면, 혹은 뒷면만이 나올 수 있는 경우인 것이다. 이는 어떤 사건(e.g. 앞면)이 일어났는지(

x = 1

) 일어나지 않았는지(

x = 0

)의 문제로 볼 수 있는데, 이로부터 다음과 같은 Bernoulli 분포가 자연스럽게 도출된다.

Bern(x | \mu) = \mu^x (1 - \mu)^{1 - x}

이러한 Bernoulli 분포의 평균과 분산은 다음과 같으며,

E[x] = \mu \\ \ \\ var[x] = \mu (1 - \mu)

likelihood function은 다음과 같다. 여기에 negative log를 씌우면 바로 binary cross entropy loss가 된다. 이와 같은 likelihood function을 극대화하는

\mu_{ML}

은 다름아닌 표본 평균이다.

p(D | \mu) = \Pi_{n = 1}^N{ p(x_n | \mu) } = \Pi_{n = 1}^N{ \mu^{x_n} (1 - \mu)^{1 - x_n} }

하지만 예를 들어 동전을 세 번 던졌는데 우연찮게 모두 앞면이 떴다고 하면, frequentist view에서는

\mu_{ML} = 1

이 되어 버린다. 이는 계속해서 언급했던 maximum-likelihood estimation의 overfitting 문제인데, 이를 해소하기 위해 prior distribution을 도입하는 방법을 잠시 후에 다룬다.

또 역시 이러한 binary variable에 대해서,

N

번의 시행 중

x = 1

인 시행의 수

m

에 대한 확률 분포를 생각해볼 수 있다. 이를 binomial distribution이라 한다.

m

의 평균 및 분산은 Bernoulli 분포에서의 평균 및 분산에

N

을 곱함으로써 얻을 수 있는데, 독립 사건들의 합의 평균은 평균의 합이고, 합의 분산은 분산의 합이기 때문이다.

Bin(m | N, \mu) = {N \choose m} \mu^m (1 - \mu)^{N - m}

2.1.1. The beta distribution

이제 위에서 언급한 베르누이 분포와 이항 분포의 mean의 overfitting 문제를 해소하기 위한 Bayesian approach를 다룬다. 당연히 prior distribution

p(\mu)

를 도입하는 것인데, 여기서 해석의 용이함 혹은 직관적 합리성을 위한 conjugacy라는 개념이 나온다. 바로 prior distribution와 posterior distribution의 functional form이 같아지는 성질을 바로 conjugacy라고 한다.

상술했듯 Bernoulli distribution에서의 likelihood function은

\mu^x (1 - \mu)^{1 - x}

인데, prior distribution으로

\mu

와

(1 - \mu)

의 (각각의) power에 비례하는 분포를 택하면, 그 사후 분포 역시 동일한 성질을 가지게 되는 것을 알 수 있다. 이를 일반화한 functional form이 바로 beta distribution이다.

Beta(\mu | a, b) = \frac{\Gamma{(a + b)}}{\Gamma{(a)}\Gamma{(b)}} \mu^{a - 1} (1 - \mu)^{b - 1}

단,

\Gamma{(x)} = \int_0^{\infty}{ \mu^{x - 1} e^{-\mu} d\mu}

이며, normalization term이라고 볼 수 있겠다.

이러한 beta distribution의 평균과 분산은 다음과 같이 주어진다.

E[\mu] = \frac{a}{a + b} \\ var[\mu] = \frac{ab}{(a + b)^2(a + b + 1)}

이제 likelihood function과 beta distribution으로서의 prior distribution을 곱한 posterior distribution은 다음의 성질을 만족하게 되는데, beta distribution과 functional form이 동일하므로 normalization term은 beta distribution으로부터 추론해낼 수 있다. (평균과 분산 또한 마찬가지이다.) 이러한 성질은 꽤나 직관적인 해석이 가능한데, 바로 beta distribution의 parameter들을 각각 시행에 대한 관측 횟수만큼 증가시킨 것이다.

p(\mu | m, l, a, b) \propto \mu^{m + a - 1} (1 - \mu)^{l + b - 1}

이를 sequential approach로 볼 수도 있는데, 데이터 하나 하나에 대해 posterior distribution을 구하고, 그 posterior를 다시 prior로 간주하여 posterior로 구하고, ... 하는 과정을 반복해도 동일한 결과를 얻게 되는 것이다. 이러한 online-learning은 컴퓨터의 memory를 효율적으로 사용할 수 있다는 강점을 가진다.

마지막으로 책에서 눈여겨볼 만한 특징들을 몇 가지 언급하는데, 바로 1) 시행의 횟수가 무한대로 발산하면 maximum likelihood estimation과 Bayesian estimation이 수렴한다는 것과 2) Bayesian learning에서는 데이터가 증가함에 따라 "평균적으로" uncertainty(variance)가 단조 감소한다는 것이다.

2.2. Multinomial Variables

이번 절에서는 바로 위에서 다룬 내용을 multinomial space로 확장한다. 즉 확률 변수

x

가

K

중 하나의 state를 취할 수 있는 상황에서의 확률 분포를 다루며, 이러한 확률 변수의 state는 흔히 1-of-K scheme, 혹은 one-hot-vector의 형식으로 나타낸다.

그러면 이제

x

의 확률 분포는 다음과 같다.

p(x | \mu) = \Pi_{k = 1}^K{ \mu_k^{x_k} }

또 likelihood function은 다음과 같다.

p(D | \mu) = \Pi_{n = 1}^N \Pi_{k = 1}^K \mu_k^{x_{nk}} = \Pi_{k = 1}^K{ \mu_k^{m_k} }

Maximum likelihood solution을 찾기 위해서는

\sum{\mu_k} = 1

의 제약 하에서 likelihood function을 극대화하여야 하는데, 이는 Lagrange multiplier를 사용하여 쉽게 풀 수 있다. 예상했던 대로

\mu_{ML_k}

는 전체 표본 중

x_k = 1

인 표본들의 비율이다.

위에서 Bernoulli distribution을 확장했으니, 이제 자연스럽게 binomial distribution을 확장한다. 다음과 같이 상당히 직관적이고 또 다를 게 없다. 바로 multinomial distribution이다.

Mult( m_1, m_2, ..., m_K | \mu, N ) = {N \choose m_1, m_2, ..., m_K} \Pi_{k = 1}^K \mu_k^{m_k}

2.2.1. The Dirichlet distribution

마찬가지로 beta distribution의 multinorm 버전이라고 볼 수 있다. Likelihood function이 각각의

\mu_k

의 power에 비례함에 따라, 다음과 같은 functional form을 prior로 삼으면 conjugacy를 얻게 된다. 이와 같은 distribution을 바로 Dirichlet distribution이라 한다.

Dir(\mu | \alpha) = \frac{\Gamma{(\alpha_0)}}{\Gamma{(\alpha_1)} ... \Gamma{(\alpha_K)}} \Pi_{k = 1}^K \mu_k^{a_k - 1}

즉 위와 같은 prior 하에서 posterior은 다음과 같이 계산된다.

p(\mu | D, \alpha) = Dir( \mu | \alpha + m)

당연한 이야기이지만 binomial distribution은

K = 2

일 때의 multinomial distribution과 동일하다.

2.3. The Gaussian Distribution

대망의 Gaussian distribution이다. 일단 univariate Gaussian distribution은 mean

\mu

, variance

\sigma^2

와 함께 다음과 같은 형태로 정의된다.

N(x | \mu, \sigma^2) = \frac{1}{( 2\pi\sigma^2 )^{1/2}} \exp{\{ -\frac{1}{2\sigma^2}( x - \mu )^2 \}}

Multivariate Gaussian distribution은 비슷하게 mean vector

\mu

, covariance matrix

\Sigma

와 함께 다음과 같이 정의된다.

N(x | \mu, \Sigma) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp{\{ -\frac{1}{2} (x - \mu)^T\Sigma^{-1}(x - \mu) \}}

이러한 Gaussian distribution은 연속 변수에 대해 entropy를 최대화하는 분포이기도 하고, 어떠한 조건 하에서 random variable의 합(혹은 평균)은 합해진 term의 수가 증가함에 따라 Gaussian distribution에 근사한다는 Central Limit Theorem이라는 아주 유명하고 유용한 성질을 가진다. (실제로 이러한 근사는 굉장히 빠른 속도로 이루어진다고 한다.) 그런 측면에서 binomial distribution은 관측량이 늘어남에 따라 Gaussian에 근사한다.

먼저 Gaussian distribution의 geometrical form을 살펴본다.

Gaussian distribution은 다음과 같은 quadratic form을 통해

x

의 값에 의존한다. 이를

\mu

로부터

x

까지의 Mahalanobis distance라 부르며, 당연히

\Sigma = I

라면 Euclidean distance와 동일하다.

\Delta^2 = (x - \mu)^T \Sigma^{-1} (x - \mu)

먼저 covariance matrix

\Sigma

는

D \times D

의 대칭행렬임을 알아두자. 그리고 covariance matrix의 다음과 같은 eigenvector equation을 살펴보자.

\Sigma u_i = \lambda_i u_i

\Sigma

는 real, symmetric matrix이기 때문에 그 eigenvalue도 당연히 실수값일 것이고, 따라서(?) 다음과 같이 orthonormal set을 형성하는 eigenvector set이 존재한다.

u_i^T u_j = I_{ij}

이제 단순한 대수를 통해 covariance matrix

\Sigma

는 다음과 같이 표현될 수 있다.

\Sigma = \sum_{i = 1}^D{ \lambda_i u_i u_i^T }

그 역행렬 역시 마찬가지로 다음과 같이 표현할 수 있다.

\Sigma^{-1} = \sum_{i = 1}^D{\frac{1}{\lambda_i} u_i u_i^T }

이를 위의 Mahalanobis distance에 대입하면

y_i = u_i^T (x - \mu)

와 함께 다음의 결과를 얻는다.

\Delta^2 = \sum_{i = 1}^D{ \frac{y_i^2}{\lambda_i} }

여기서

\{ y_i = u_i^T (x - \mu) \}

를 orthonormal vector

u_i

에 의해 정의된 coordinate system에 대해

x_i

에 대응하는 coordinate(?)으로 해석할 수 있다.

이를 다시

y = U (x - \mu)

로 쓰자.

y = (y_1, ..., y_D)^T

이고,

U

는

u_i^T

를

i

번째 row로 가지는 orthogonal matrix이다.

이러한 Gaussian distribution이 잘 정의되기 위해서는

\Sigma

가 positive definite(모든 eigenvalue가 양수)이어야 한다. 다만 챕터 12에서 positive semidefinite(모든 eigenvalue가 0 혹은 양수) covariance matrix를 가지는 Gaussian distribution에 대해 다룬다.

이제

y

에 의해 정의된 coordinate system에서의 Gaussian distribution의 형태를 살펴보자.

x

에서

y

좌표계로 변형되는데 나타나는 Jacobian matrix

J

는 다음과 같다.

J_{ij} = \frac{\partial{( x_i )}}{\partial{( y_j )}} = U_{ji}

그러면

U

가 orthonormal matrix라는 점을 이용하여 다음과 같은 사실을 알 수 있다.

|J|^2 = |U^T|^2 = |U^T| |U| = |U^T U| = |I| = 1

또한

|\Sigma|^{1/2} = \Pi_{j = 1}^D \lambda_j^{1/2}

따라서

y

에 대하여 Gaussian distribution은 다음과 같이 쓸 수 있다. 독립적인

D

개의 univariate Gaussian distribution의 곱(factorization)임을 알 수 있는데, 여기서 eigenvector는 joint probability distribution이 각각의 독립적인

D

개의 분포로 분해되는데 대응되는 새로운 coordinate system을 정의하는 역할을 한다.

p(y) = p(x) |J| = \Pi_{j = 1}^D \frac{1}{(2\pi\lambda_j)^{1/2}} \exp{\{ -\frac{y_j^2}{2\lambda_j} \}}

또 Gaussian distribution의 moments를 살펴봄으로써

E[x] = \mu

cov[x] = \Sigma

임을 알 수 있다.

마지막 논의 주제는

\Sigma

의 자유도와 unimodal distribution으로서의 한계에 대한 것인데, 이 주제들은 후에 더 자세하게 다루기로 한다.

2.3.1. Conditional Gaussian distributions

Gaussian distribution의 중요한 성질 중 하나는 바로 두 변수들의 집합이 jointly Gaussian이면, 한 변수에 대한 다른 한 변수의 conditional distribution 역시 Gaussian이라는 것과, marginal distribution 역시 Gaussian 이라는 것이다.

먼저

x

가

D

-dimensional vector이라고 가정한 후

N(x | \mu, \Sigma)

를 생각해보자. 위의 성질을 보이기 위해

x

를

x_a, x_b

두 set으로 다음과 같이 나눌 것이다.

x = {x_a \choose x_b}

Covariance matrix는 다음과 같이 나눌 수 있는데,

\Sigma

가 대칭 행렬인 것을 이용하여

\Sigma_{aa}, \Sigma_{bb}

가 각각 대칭이고

\Sigma_{ab} = \Sigma_{ba}^T

임을 알 수 있다.

\Sigma = \begin{pmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{pmatrix}

한편 앞으로 펼쳐질 논의에서 covariance matrix보다 precision matrix

\Lambda = \Sigma^{-1}

로 표현하는 것이 더 용이한 경우가 많다는 점을 알아두자. 대칭행렬의 역행렬은 역시 대칭이기 때문에, 나누어진 행렬들의 바로 위와 같은 관계가 역시 성립한다. 하지만

\Lambda_{aa} = \Sigma_{aa}^{-1}

일 것이라는 순진한 생각은 하면 안 된다.

이제 conditional distribution

p(x_a | x_b)

의 표현식을 찾아보자. 이는

p(x) = p(x_a, x_b)

로부터

x_b

를 고정하고,

x_a

에 관하여 marginalization함으로써 얻어낼 수 있다. 다만 normalization은 Gaussian distribution의 functional form을 이용하여 더욱 효율적으로 찾아낼 수 있다. 이를 위해서는 분포의 exponent의 quadratic form만 조사하면 된다.

p(x_a, x_b) = -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) = \\ -\frac{1}{2} (x_a - \mu_a)^T \Lambda_{aa} (x_a - \mu_a) -\frac{1}{2} (x_a - \mu_a)^T \Lambda_{ab} (x_b - \mu_b) \\ -\frac{1}{2} (x_b - \mu_b)^T \Lambda_{ba} (x_a - \mu_a) -\frac{1}{2} (x_b - \mu_b)^T \Lambda_{bb} (x_b - \mu_b)

x_a

에 대한 function으로써 역시 quadratic form이기 때문에 conditional distribution 역시 Gaussian임을 쉽게 알아낼 수 있다. 이제 여기서 mean과 covariance를 알아냄으로써 조건부 분포의 온전한 형태를 알아낼 수 있다. 이렇게 exponent term의 quadratic form을 통해 mean, covariance를 알아내어 Gaussian distribution의 형태를 구하는 과정을 "completing the square"라 부른다.

먼저 일반적인 Gaussian의 exponent term이 다음과 같이 주어짐에 주목하자. Quadratic form을 다음의 형태로 표현하고 나면 Gaussian을 정의하기 위한 parameter를 찾아낼 수 있다.

-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) = -\frac{1}{2} x^T \Sigma^{-1} x + x^T \Sigma^{-1} \mu + \text{const}

이를 위에서 구한 조건부 분포의 quadratic form에 적용해보자. 먼저

x_b

를 상수로 간주하여

x_a

에 대한 second order term을 찾으면, 다음과 같다.

-\frac{1}{2}x_a^T \Lambda_{aa} x_a

이를 위에서 구한 조건부 분포의 quadratic form에 적용해보자. 먼저

x_b

를 상수로 간주하여

x_a

에 대한 second order term을 찾으면, 다음과 같다.

-\frac{1}{2}x_a^T \Lambda_{aa} x_a

따라서

p(x_a | x_b)

의 covariance

\Sigma_{a|b}

는

\Lambda_{aa}^{-1}

임을 알 수 있다.

또 first order term을 찾으면 다음과 같은데,

x_a^T \{ \Lambda_{aa} \mu_a - \Lambda_{ab} (x_b - \mu_b) \}

이로부터

\mu_{a|b}

를 다음과 같이 알아낼 수 있다.

\mu_{a|b} = \Sigma_{a|b} \{ \Lambda_{aa} \mu_a - \Lambda_{ab} (x_b - \mu_b) \} \\ = \mu_a - \Lambda_{aa}^{-1} \Lambda_{ab} (x_b - \mu_b)

여기서 조건부 분포의 mean은

x_b

에 대한 function이고, covariance는

x_a

과 독립적이라는 점에 유의할 필요가 있다. 이게 linear-Gaussian model의 예시라고 한다.

2.3.2. Marginal Gaussian distributions

이제 joint Gaussian distribution의 다음과 같은 marginal distribution이 역시 Gaussian이라는 성질을 살펴보자. 역시 quadratic form을 분석함으로써 쉽게 목적을 달성할 수 있다.

p(x_a) = \int{ p(x_a, x_b) dx_b }

위의 integration은,

p(x_a, x_b)

의 표현식에서

x_b

에 대한 term을 찾아 completing the square함으로써 쉽게 이루어질 수 있다고 한다. 먼저

x_b

에 관련된 term을 뽑으면 다음과 같다.

-\frac{1}{2} x_b^T \Lambda_{bb} x_b + x_b^T m = \\ -\frac{1}{2} (x_b - \Lambda_{bb}^{-1}m)^T \Lambda_{bb} (x_b - \Lambda_{bb}^{-1}m) + \frac{1}{2} m^T \Lambda_{bb}^{-1} m

이 때

m = \Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)

여기서

x_b

에 대한 의존성은 첫 번째 term의 Gaussian standard quadratic form과

x_b

와는 무관한 두 번째 term의 합으로 이루어짐을 확인할 수 있다. 따라서

x_b

에 대한 위 식의 integration은 다음과 같은 형태를 가지게 될 것임을 알 수 있다.

\int{ \exp{\{ -\frac{1}{2} (x_b - \Lambda_{bb}^{-1}m)^T \Lambda_{bb} (x_b - \Lambda_{bb}^{-1}m) \}} dx_b }

그런데 위의 integration은 unnormalized Gaussian의 integration이고, 따라서 그 값이 normalization coefficient의 역수일 것임은 쉽게 알 수 있다. 이제 위

\int{ p(x_a, x_b) dx_b }

에서

x_b

와 관련된 부분은 모두 해결되었다. 그러면

x_b

에 의존하는

x_b

와는 무관한 term과,

x_b

에 의존하지 않는

p(x_a, x_b)

의 term들을 다음과 같이 정리할 수 있다.

\frac{1}{2} [\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)]^T \Lambda_{bb}^{-1} [\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)] \\ -\frac{1}{2} x_a^T \Lambda_{aa} x_a + x_a^T (\Lambda_{aa}\mu_a + \Lambda_{ab}\mu_b) + \text{const} \\ = -\frac{1}{2} x_a^T (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba}) x_a \\ - x_a^T (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1} \mu_a + \text{const}

여기서 다음과 같은 사실을 알 수 있다.

\Sigma_a = (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1} \\ \Sigma_a (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba}) \mu_a = \mu_a

그런데

\Lambda^{-1} = \Sigma

임을 이용하여

\Sigma_a = \Sigma_{aa}

임을 알아낼 수 있다. 이로써 다음과 같은 직관적인 결과를 얻는다.

E[x_a] = \mu_a \\ cov[x_a] = \Sigma_{aa}

2.3.3. Bayes' theorem for Gaussian variables

이번 섹션에서는

x

에 대한 marginal distribution

p(x)

와

y

에 대한

x

의 conditional distribution

p(y | x)

가 주어졌을 때,

y

에 대한 marginal distribution

p(y)

와

x

에 대한

y

의 conditional distribution

p(x | y)

를 찾는 과정을 다룬다. 여기서

p(x)

는 일종의 prior,

p(x | y)

는 posterior로 볼 수 있다.

우선 다음과 같은 정보가 주어졌다고 가정하자.

p(x) = N(x | \mu, \Lambda^{-1}) \\ p(y | x) = N(y | A x + b, L^{-1})

먼저

x

와

y

의 joint distribution을 찾아보자. 이를 위해 다음과 같이 정의하면,

z = {x \choose y}

다음이 성립한다.

\ln{p(z)} = \ln{p(x)} + \ln{p(y | x)} \\ = -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \\ -\frac{1}{2} (y - A x - b)^T L (y - A x - b) + \text{const}

이는 역시

z

에 대한 quadratic function이고, 따라서

p(z)

는 Gaussian이다. 앞에서 계속 했던 것처럼 second order term을 통해 precision을 찾고, linear term을 통해 mean을 찾으면 된다.

cov[z] = \begin{pmatrix} \Lambda^{-1} & \Lambda^{-1} A^T \\ A \Lambda^{-1} & L^{-1} + A \Lambda^{-1} A^T \end{pmatrix} \\ E[z] = {\mu \choose A \mu + b}

이제

y

에 대한 marginal distribution을 찾아보자. 위에서 구한

p(z)

를 marginalize하면 된다. 2.3.2에서 배운 내용을 적용하면 금방 구할 수 있다.

E[y] = A \mu + b \\ cov[y] = L^{-1} + A \Lambda^{-1} A^T

마지막으로

p(x | y)

를 구한다. 이 역시 2.3.2에서 배운 내용을 적용하면 금방 구할 수 있다.

E[x | y] = (\Lambda + A^T L A)^{-1} \{ A^T L (y - b) + \Lambda \mu \} \\ cov[x | y] = (\Lambda + A^T L A)^{-1}

2.3.4. Maximum likelihood for the Gaussian

Gaussian distribution의 log likelihood는 다음과 같이 주어진다.

\ln{p(X | \mu, \Sigma)} = -\frac{ND}{2} \ln{(2\pi)} -\frac{N}{2} \ln{|\Sigma|} -\frac{1}{2} \sum_{n = 1}^N{ (x_n - \mu)^T \Sigma^{-1} (x_n - \mu) }

따라서 log likelihood는 데이터

x

에 대해 다음의 term을 통해서만 의존하는데,

\sum_{n = 1}^N{x_n} \\ \sum_{n = 1}^N{x_n x_n^T}

(부록을 참고하면)

\mu

에 대한 도함수는 다음과 같이 주어지며,

\frac{\partial}{\partial \mu} \ln{p(X | \mu, \Sigma)} = \sum_{n = 1}^N{ \Sigma^{-1}(x_n - \mu) }

이를 0으로 만드는

\mu

의 값은 역시나 sample mean이다.

\mu_{ML} = \frac{1}{N} \sum_{n = 1}^N x_n

또한 optimal

\Sigma

역시 sample covariance이다.

\Sigma_{ML} = \frac{1}{N} \sum_{n = 1}^N (x_n - \mu_{ML})(x_n - \mu_{ML})^T

이전에 살펴봤듯 위와 같은 covariance는 불편 추정량이 아니기 때문에 보통은 편향을 없애기 위해

N

대신에

N - 1

로 나눈다.

2.3.5. Sequential estimation

Sequential estimation은 이전에도 잠깐 언급했던, online learning으로 더 익숙한 그것이다.

먼저 위에서 구한

\mu_{ML}

을 다음과 같이 다시 쓸 수 있다.

\mu_{ML}^{(N)} = \frac{1}{N} \sum_n{x_n} \\ = \mu_{ML}^{(N - 1)} + \frac{1}{N} (x_N - \mu_{ML}^{(N - 1)})

이는

N - 1

개의 데이터를 관측한 후의 ML estimator에서,

N

번째 데이터를 관측한 순간 관측 데이터 수에 반비례하여 estimation error만큼 그 estimation을 수정한다고 볼 수 있겠다.

하지만 항상 이러한 상황을 적용할 수 없기 때문에, 보다 보편적인 sequential learning 알고리즘인 Robbins-Monro 알고리즘을 소개한다. 어쨌거나 이 알고리즘을 이용하면 역시 마찬가지로 online learning이 가능하다. 근데 알고리즘 자체는 쓸모가 있는지 잘 모르겠어서 일단은 생략한다.

2.3.6. Bayesian inference for the Gaussian

Point estimation에 국한된 maximum likelihood 프레임워크를 넘어서, 이번에는 Bayesian 프레임워크를 다룬다.

일단은

\sigma^2

가 주어졌다고 가정하고,

N

개의 데이터로부터

\mu

를 추론하는 문제를 생각해보자. 우선 likelihood는 다음과 같다.

p(X | \mu) = \Pi_{n = 1}^N{ p(x_n | \mu) } = \frac{1}{(2\pi\sigma^2)^{N/2}} \exp{\{ -\frac{1}{2\sigma^2} \sum_{n = 1}^N{(x_n - \mu)^2} \}}

이 때 likelihood가 quadratic form의 exponential 형식을 갖추었기 때문에 prior

p(\mu)

를 Gaussian으로 선택하면 posterior 역시 Gaussian이 된다. 따라서 다음과 같은 prior를 상정한다.

p(\mu) = N(\mu | \mu_0, \sigma_0^2)

Completing square를 포함한 이런 저런 조작들을 통해 다음과 같은 posterior를 얻을 수 있다고 한다.

p(\mu | X) = N(\mu | \mu_N, \sigma_N^2) \\ \mu_N = \frac{\sigma^2}{N\sigma_0^2 + \sigma^2} \mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2 + \sigma^2} \mu_{ML} \\ \frac{1}{\sigma_N^2} = \frac{1}{\sigma_0^2} + \frac{N}{\sigma^2}

이러한 posterior distribution을 잠시 분석해보자. 가장 먼저 mean estimation은

\mu_0

과

\mu_{ML}

사이의 타협점임을 알 수 있다.

N = 0

이면

\mu_0

에 가까워지고,

N \rightarrow \infty

이면

\mu_{ML}

에 가까워진다. 또한

N

이 커질수록 precision은 점차 증가한다. 이러한 Bayesian treatment에 대한 sequential view는 이전에 살펴보았듯 아주 자연스럽게 도출된다.

이제 mean이 주어졌다고 생각하고, variance를 구하는 문제를 생각해보자. 먼저 variance보다 precision을 구하는 것이 더 용이하기 때문에

\lambda = 1/\sigma^2

를 정의한다. 그러면 likelihood는 다음과 같다.

p(X | \lambda) = \Pi_{n = 1}^N N(x_n | \mu, \lambda^{-1}) \propto \lambda^{N/2} \exp{\{ -\frac{\lambda}{2} \sum_{n = 1}^N{( x_n - \mu )^2} \}}

따라서 conjugate prior는

\lambda

의 power와

\lambda

에 대한 linear function의 exponential의 곱과 비례해야 하겠다. 이에 따라 다음과 같이 정의된 gamma distribution을 이용한다.

Gam(\lambda | a, b) = \frac{1}{\Gamma{(a)}} b^a \lambda^{a - 1} \exp{( -b \lambda )}

Gamma distribution의 mean, variance는 각각 다음과 같다.

E[\lambda] = \frac{a}{b} var[\lambda] = \frac{a}{b^2}

이제 prior

Gam(\lambda | a_0, b_0)

를 상정하면, posterior는 다음과 같다.

p(\lambda | X) \propto \lambda^{a_0 - 1} \lambda^{N/2} \exp{\{ -b_0 \lambda - \frac{\lambda}{2} \sum_{n = 1}^N{(x_n - \mu)^2} \}}

즉 posterior distribution은

Gam(\lambda | a_N, b_N)

로 주어지며,

a_N = a_0 + \frac{N}{2} \\ b_N = b_0 + \frac{1}{2} \sum_{n = 1}^N{(x_n - \mu)^2} = b_0 + \frac{N}{2} \sigma_{ML}^2

이 때

N

개의 데이터를 관측하는 것은

a

를

N/2

만큼 증가시키는 효과를 가지는데, 이로써

a_0

는 effective prior observations의 수로 해석할 수 있겠다. 또한

b_0

는 prior observation의 variance 정도로 해석이 가능하겠다.

이제 mean과 variance가 둘 다 알려지지 않았다고 가정하자. 먼저 likelihood는 다음과 같은데,

p(X | \mu, \lambda) = \Pi_{n = 1}^N (\frac{\lambda}{2\pi})^{1/2} \exp{\{ -\frac{\lambda}{2} (x_n - \mu)^2 \}} \\ \propto [\lambda^{1/2} \exp{( -\frac{\lambda \mu^2}{2} )}]^N \exp{\{ \lambda\mu\sum_{n=1}^Nx_n - \frac{N}{2}\sum_{n=1}^Nx_n^2 \}}

이를 위한 conjugate prior는 다음의 형태를 가져야 하겠다.

p(\mu, \lambda) \propto [\lambda^{1/2} \exp{(-\frac{\lambda\mu^2}{2})}]^{\beta} \exp{\{ c\lambda\mu - d\lambda \}} \\ = \exp{\{ -\frac{\beta \lambda}{2} (\mu - c/\beta)^2 \}} \lambda^{\beta / 2} \exp{\{ -(d - \frac{c^2}{2\beta}) \lambda \}}

이 때

p(\mu, \lambda) = p(\mu | \lambda) p(\lambda)

에서

p(\mu | \lambda)

와

p(\lambda)

를 찾아낼 수 있다. 특히

p(\mu | \lambda)

는 Gaussian이며,

p(\lambda)

는 gamma distribution이다. (이 때

\mu_0 = c/\beta

a = 1 + \beta/2

b = d - c^2/2\beta

p(\mu, \lambda) = N(\mu | \mu_0, (\beta \lambda)^{-1}) Gam(\lambda | a, b)

이를 normal-gamma 혹은 Gaussian-gamma distribution이라 한다. Multivariate으로의 확장은 trivial하다.

2.3.7. Student's t-distribution

앞서 Gaussian precision에 대한 conjugate이 gamma distribution으로 주어진다는 것을 보았다. 여기서 univariate Gaussian과 gamma distribution의 곱으로 나타나는 posterior를 precision에 대해 integrate하면 다음과 같은 형태의 분포를 얻는다.

p(x | \mu, a, b) = \int_0^{\infty}{ N(x | \mu, \gamma^{-1}) Gam(\gamma | a, b) d\gamma } \\ = \frac{b^a}{\Gamma(a)} (\frac{1}{2\pi})^{1/2} [b + \frac{(x - \mu)^2}{2}]^{-a -1/2}

이를 좀 더 generalize하면 다음과 같은 Student's t-distribution을 얻는다.

St(x | \mu, \lambda, \nu) = \frac{\Gamma(\nu/2 + 1/2)}{\Gamma(\nu/2)} (\frac{\lambda}{\pi\nu})^{1/2} [1 + \frac{\lambda(x - \mu)^2}{\nu}]^{-\nu/2 -1/2}

여기서

\lambda

는 종종 precision으로,

\nu

는 degrees of freedom으로 불린다.

\nu = 1

인 경우 Cauchy distribution과,

\nu = \infty

일 경우 Gaussian과 동일하다.

또한 도출식으로부터, Student's t-distribution은 동일한 mean과 각각 다른 precision을 가진 무수히 많은 Gaussian을 더한 것으로 해석할 수 있다. 이로써 Gaussian에 비해 더 꼬리가 두꺼운 분포를 얻는데, 이로 인해 outlier에 보다 robust한 분포라는 속성을 얻는다.

2.3.8. Periodic variables

생략

2.3.9. Mixtures of Gaussians

생략

2.4. The Exponential Family

이번 장에서 배운 확률 분포들은 exponential family라고 불리는 확률 분포족의 세부적인 케이스들이다. 이번 절에서는 이러한 exponential family에 대한 general property를 몇 가지 다룬다.

먼저 확률 변수

x

에 대한 exponential family의 distribution은 다음과 같은 형태를 가지는 것으로 정의된다. 여기서

\eta

는 natural parameters라 불리며,

u(x)

는

x

에 관한 함수이고,

g(\eta)

는 normalization coefficient라고 볼 수 있다.

p(x | \eta) = h(x) g(\eta) \exp{\{ \eta^T u(x) \}}

이제 exponential family의 한 멤버인 Bernoulli distribution을 exponential family의 관점에서 살펴보자. 먼저 Bernoulli distribution은 다음과 같은 형태를 가지는데,

p(x | \mu) = Bern(x | \mu) = \mu^x (1 - \mu)^{1 - x} \\ = \exp{\{ x \ln{\mu} + (1 - x) \ln{(1 - \mu)} \}} \\ = (1 - \mu) \exp{\{ \ln{(\frac{\mu}{1 - \mu})x} \}}

여기서

\eta = \ln{(\frac{\mu}{1 - \mu})}

이고, 이를

\mu

에 대해 풀면 다음과 같은 sigmoid function이 도출되는 것을 볼 수 있다.

\mu = \sigma{(\eta)} = \frac{1}{1 + \exp{(-\eta)}}

따라서 Bernoulli distribution을 exponential family의 형태로 표현하면 다음과 같다. 즉

u(x) = x

h(x) = 1

g(\eta) = \sigma{(-\eta)}

이다.

p(x | \eta) = \sigma{(-\eta)} \exp{(\eta x)}

이제 multinomial distribution을 살펴보자. 먼저

\eta_k = \ln{ \mu_k }

일 때 다음과 같다.

p(x | \mu) = \Pi_{k = 1}^M{ \mu_k^{x_k} } = \exp{\{ \sum_{k = 1}^M{ x_k \ln{ \mu_k } } \}} \\ = \exp{( \eta^T x )}

그러면 exponential family의 입장에서 다음과 같다.

u(x) = x \\ h(x) = 1 \\ g(\eta) = 1

이 때

\sum_k{\mu_k} = 1

라는 constraint로 인해

\eta_k

는 independent 하지 않다. 즉

M - 1

개의 parameter가 정해져있으면 나머지 하나의 parameter도 정해지게 되는데, 이런 경우에는

M - 1

개의 parameter 만으로 표현하는 것이 용이한 경우가 있다. 다음과 같이 다시 쓸 수 있다.

\exp{\{ \sum_{k = 1}^M{ x_k \ln{ \mu_k } } \}} \\ = \exp{\{ \sum_{k = 1}^{M - 1}{ x_k \ln{ \mu_k } } + (1 - \sum_{k = 1}^{M - 1}{ x_k }) \ln{( 1 - \sum_{k = 1}^{M - 1}{ \mu_k } )} \}} \\ = \exp{\{ \sum_{k = 1}^{M - 1}{ x_k } \ln{( \frac{\mu_k}{1 - \sum_{j = 1}^{M - 1}{ \mu_j }} )} + \ln{( 1 - \sum_{k = 1}^{M - 1}{ \mu_k } )} \}}

여기서

\ln{(\frac{\mu_k}{1 - \sum_j{ \mu_j }})} = \eta_k

임을 알 수 있는데, 이를

\mu_k

에 대해 풀면 다음과 같이 softmax function이 나온다.

\mu_k = \frac{ \exp{( \eta_k )} }{ 1 + \sum_j{ \exp{( \eta_j )} } }

이러한 측면에서 multinomial distribution은 다음과 같이 표현될 수 있다. 여기서

u(x) = x

h(x) = 1

g(\eta) = (1 + \sum_{k = 1}^{M - 1}{ \exp{( \eta_k )} })^{-1}

이다.

p(x | \eta) = (1 + \sum_{k = 1}^{M - 1}{ \exp{( \eta_k )} })^{-1} \exp{( \eta^T x )}

마지막으로 Gaussian distribution에 대해 살펴보자.

p(x | \mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}} \exp{\{ -\frac{1}{2\sigma^2} (x - \mu)^2 \}} \\ = \frac{1}{(2\pi\sigma^2)^{1/2}} \exp{\{ -\frac{1}{2\sigma^2}x^2 +\frac{\mu}{\sigma^2}x -\frac{1}{2\sigma^2}\mu^2 \}}

다음과 같은 사실을 알 수 있다.

\eta = {\mu / \sigma^2 \choose -1 / 2\sigma^2} \\ u(x) = {x \choose x^2} \\ h(x) = (2\pi)^{-1/2} \\ g(\eta) = (-2\eta_2)^{1/2} \exp{( \frac{\eta_1^2}{4\eta_2} )}

2.4.1. Maximum likelihood and sufficient statistics

이제 exponential family의 parameter vector

\eta

를 maximum likelihood method를 통해 추론해내는 방법을 다루자. Exponential family의 integration(=1)을

\eta

에 대해 미분하면 다음과 같은 식을 얻을 수 있다.

\nabla g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} dx } - g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} u(x) dx } = 0

이를 정리하면 다음과 같은 식을 얻는다.

-\frac{1}{g(\eta)} \nabla g(\eta) = g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} u(x) dx } = E[u(x)] \\ -\nabla \ln{g(\eta)} = E[u(x)]

이제 i.i.d. dataset

X

에 관한 likelihood는 다음과 같다.

p(X | \eta) = (\Pi_{n = 1}^N h(x_n)) g(\eta)^N \exp{\{ \eta^T \sum_{n = 1}^N{ u(x_n) } \}}

\ln{ p(X | \eta) }

의

\eta

에 대한 gradient를 0으로 만듦으로써 얻는

\eta_{ML}

은 다음과 같다.

-\nabla \ln{g(\eta_{ML})} = \frac{1}{N} \sum_{n = 1}^N{ u(x_n) }

여기서 maximum likelihood estimator는 데이터에 대해 오로지

\sum_n{u(x_n)}

에만 의존한다는 점을 발견할 수 있는데, 이를 sufficient statistic이라 부른다. 보통 어떠한 estimator를 도출할 때 오로지 어떠한 형태의 데이터만 필요하다면 이를 sufficient statistic이라 칭한다.

2.4.2. Conjugate priors

$일반적으로 어떠한 확률 분포

p(x | \eta)

에 대해, likelihood function에 conjugate한 형태의 prior

p(\eta)

를 택하여 posterior가 prior과 동일한 형태를 가지도록 할 수 있다. 어떠한 exponential family의 멤버에 대해, 다음과 같은 형태의 conjugate prior를 생각할 수 있다.

f(\chi, \nu)

는 normalization coefficient이고,

g(\eta)

는 원래 알던 그것이다.

p(\eta | \chi, \nu) = f(\chi, \nu) g(\eta)^{\nu} \exp{\{ \nu \eta^T \chi \}}

이를 위에서 구한 likelihood에 곱하여 구한 posterior은 다음과 같다.

p(\eta | X, \chi, \nu) \propto g(\eta)^{\nu + N} \exp{\{ \eta^T (\sum_{n = 1}^N{u(x_n)} + \nu \chi) \}}

이러한 posterior은 다시 prior과 동일한 형태를 갖게 된다.

2.4.3. Noninformative priors

여기서는 parameter에 대해 가능한 한 최소한의 영향력(정보)을 가지는 prior인, noninformative prior에 대해 다룬다.

확률 분포가 parameter

\lambda

에 의해

p(x | \lambda)

와 같이 정해진다면, noninformative prior로써

p(\lambda) = const

로 정하는 것이 적절할 수 있다. 만약

\lambda

가 discrete variable이라면 단순히

p(\lambda) = 1/K

와 같이 정하면 될 것이다. 하지만 continuous variable에 대해서는 골치가 아파진다. 대표적으로

\lambda

가 unbounded variable일 경우 확률 분포가 올바르게 정규화되지 못하는 문제(improper distribution)가 발생할 수 있고, 앞서 1장에서 언급했듯 variable의 nonlinear change에 대한 probability density의 변형에 관한 문제(예컨대 variable에 대한 nonlinear transformation을 가하면 그 probability density는 더 이상 constant가 아니다)가 발생할 수 있다. Maximum likelihood의 경우에는 후자가 문제가 되지 않지만, Bayesian approach를 택할 때에는 주의해야 한다.

이제 두 가지 간단한 형태의 non-informative prior의 예시를 살펴보자. 먼저 다음과 같은 형태를 가진 밀도함수에서,

p(x | \mu) = f(x - \mu)

\mu

는 location parameter라 불린다. 이러한 형태를 가진 밀도함수는 translation variance라는 특성을 가지는데, 바로

\hat{x} = x + c

처럼 변수를 평행이동하여도

\hat{\mu} = \mu + c

에 의해 같은 형태로 표현이 가능하다는 것이다. 즉 밀도 함수가 origin의 선택에 영향을 받지 않는다.

이제 이러한 translation invariance를 가지는 prior distribution을 택하고자 한다면, 다음과 같은 성질을 만족한다.

\int_{A}^{B}{ p(\mu) d\mu } = \int_{A - c}^{B - c}{ p(\mu) d\mu } = \int_{A}^{B}{ p(\mu - c) d\mu }

위와 같은 식이

A, B

의 선택과는 무관하게 만족하므로,

p(\mu - c) = p(\mu)

이다. 이는

p(\mu) = const

를 암시한다. 이러한 location parameter의 대표적인 예시는 바로 Gaussian distribution의 mean인데, constant mean과 함께 prior variance를 무한대로 보내버리면 mean에 대한 non-informative prior를 얻을 수 있다.

두 번째 예시로, 다음과 같은 형태의 밀도함수를 살펴보자.

p(x | \sigma) = \frac{1}{\sigma} f( \frac{x}{\sigma} )

이 때

\sigma

를 scale parameter라 부르며, 이러한 형태의 밀도함수는 scale invariance를 갖는다. 예컨대

\hat{x} = cx

처럼 변수를 변형하여도

\hat{\sigma} = c\sigma

에 의해 동일한 밀도로 표현된다.

이제 이러한 scale invariance를 갖는 prior를 얻고자 한다면, interval

A \leq \sigma \leq B

와 interval

A/c \leq \sigma \leq B/c

에 동일한 밀도를 할당하여야 한다. 즉,

\int_{A}^{B}{ p(\sigma) d\sigma } = \int_{A/c}^{B/c}{ p(\sigma) d\sigma } \int_{A}^{B}{ p(\frac{1}{c}\sigma) \frac{1}{c}d\sigma }

위와 같은 식이

A, B

에 무관하게 성립하므로,

p(\sigma) = p(\frac{1}{c} \sigma) \frac{1}{c}

이다. 이러한 밀도는

0 \leq \sigma \leq \infty

에 대한 integration 발산하기 때문에 improper하다는 것에 주의하자.

종종 log scale에 대한 invariance를 가진 prior distribution을 고려하는 것이 용이하다. 이같은 distribution은

p(\ln \sigma) = const

와 같은 성질을 가지는데, 이에 따라 예컨대

[1, 10]

구간과

[10, 100]

구간,

[100, 1000]

구간에서 동일한 밀도(질량)를 갖게 된다.

이러한 scale parameter의 대표적인 예시는 또 다시 Gaussian distribution의 standard deviation이다.

2.5. Nonparametric Methods

이 장의 마지막 섹션에서는 density estimation을 위한 histogram method, nearest neighbor method 두 가지 non-parametric method를 가볍게 둘러본다.

Standard histogram method는 단순히

x

를

\Delta_i

너비의 bin들로 나눈 다음, 각각의 bin 내에 있는 데이터들의 수

n_i

를 측정한다. 이를 정규화하기 위해 전체 데이터의 수인

N

과 해당 bin의 너비

\Delta_i

로 나누면 다음과 같이 probability density가 도출된다.

p_i = \frac{n_i}{N \Delta_i}

여기서 bin의 너비는 smoothing parameter이며, 작은 값을 택할수록 굉장히 울퉁불퉁하고 sparse한 density가 도출되는 한편 큰 값을 택할수록 매끄럽지만 표현력이 약한 density가 도출된다. 이러한 histogram method는 빠른 시각화 등의 목적으로 자주 사용되지만, dimensionality에 큰 영향을 받는다는 한계를 가진다.

이러한 histogram method로부터 두 가지 인사이트를 도출해낼 수 있다. 첫째는 바로 어떠한 점의 density를 구하기 위해서는 그 주변 공간(neighborhood)의 데이터들을 살펴봐야 한다는 것이며, 둘째는 적절한 smoothing parameter의 선택이 필요하다는 것이다.

2.5.1. Kernel density estimators

이제 임의의

D

-dimensional space에서의 probability density

p(x)

를 구한다고 생각해보자. 바로 위에서 도출한 인사이트에 의해,

x

를 포함한 small region

R

을 상정한다. 그러면 probability mass는 다음과 같이 생각할 수 있다.

P = \int_R p(x) dx

이제

p(x)

로부터

N

개의 데이터 포인트를 구했다고 하자. 그러면 공간

R

에 각 데이터가 떨어질 확률이

P

로 주어지고,

K

개의 데이터가

R

에 떨어질 확률 분포는 binomial distribution의 형태를 가진다.

Bin(K | N, P) = \frac{N!}{K! (N - K)!} P^K (1 - P)^{1 - K}

Binomial distribution의 성질로부터

E[K/N] = P

를 알아낼 수 있는데, 충분히 큰

N

에 대하여 다음과 같다.

K \simeq NP

또한 region

R

이 충분히 작아 그 안에서의 확률 밀도가 일정하다고 하면, 다음과 같다.

P \simeq p(x)V

이제 위 두 식으로부터 다음을 도출해낼 수 있다.

p(x) = \frac{K}{NV}

단, 이러한 식은 두 가지 상반된 가정, 즉 region

R

이 1) 충분히 작아서 그 안의 확률 밀도가 일정한 동시에 2) 충분히 커서 binomial distribution이 날카롭게 수렴할 수 있어야 한다는 가정에 의존한다는 데 주의해야 한다.

이제 위 식에서,

K

를 고정하여

V

을 데이터로부터 도출하거나,

V

를 고정하여

K

를 데이터로부터 도출할 수 있다. 전자의 경우가 바로

K

-nearest neighbor technique이고, 후자의 경우가 바로 kernel approach이다.

E.O.D.