/////
📊

Chapter 2. Probability Distributions

Created
2020/12/21 12:10
이번 장에서는 여러 가지 확률 분포 모형과 그 성질을 다룬다. 이러한 확률 분포 모형은 추정하고자 하는 모수의 확률 분포를 추정하는 데 핵심적인 역할을 하기 때문에 PRML에 있어서 중요한 주제이다. 크게 parametric, non-parametric distribution으로 나눌 수 있다. 주로 parametric distribution에 대해 다룬다.

2.1. Binary Variables

모 아니면 도의 상황만이 존재할 수 있는 확률 변수를 binary variable이라 한다. 예컨대 동전을 던졌을 때 앞면, 혹은 뒷면만이 나올 수 있는 경우인 것이다. 이는 어떤 사건(e.g. 앞면)이 일어났는지(x=1x = 1) 일어나지 않았는지(x=0x = 0)의 문제로 볼 수 있는데, 이로부터 다음과 같은 Bernoulli 분포가 자연스럽게 도출된다.
Bern(xμ)=μx(1μ)1xBern(x | \mu) = \mu^x (1 - \mu)^{1 - x}
이러한 Bernoulli 분포의 평균과 분산은 다음과 같으며,
E[x]=μ var[x]=μ(1μ)E[x] = \mu \\ \ \\ var[x] = \mu (1 - \mu)
likelihood function은 다음과 같다. 여기에 negative log를 씌우면 바로 binary cross entropy loss가 된다. 이와 같은 likelihood function을 극대화하는 μML\mu_{ML}은 다름아닌 표본 평균이다.
p(Dμ)=Πn=1Np(xnμ)=Πn=1Nμxn(1μ)1xnp(D | \mu) = \Pi_{n = 1}^N{ p(x_n | \mu) } = \Pi_{n = 1}^N{ \mu^{x_n} (1 - \mu)^{1 - x_n} }
하지만 예를 들어 동전을 세 번 던졌는데 우연찮게 모두 앞면이 떴다고 하면, frequentist view에서는 μML=1\mu_{ML} = 1이 되어 버린다. 이는 계속해서 언급했던 maximum-likelihood estimation의 overfitting 문제인데, 이를 해소하기 위해 prior distribution을 도입하는 방법을 잠시 후에 다룬다.
또 역시 이러한 binary variable에 대해서, NN 번의 시행 중 x=1x = 1인 시행의 수 mm에 대한 확률 분포를 생각해볼 수 있다. 이를 binomial distribution이라 한다. mm의 평균 및 분산은 Bernoulli 분포에서의 평균 및 분산에 NN을 곱함으로써 얻을 수 있는데, 독립 사건들의 합의 평균은 평균의 합이고, 합의 분산은 분산의 합이기 때문이다.
Bin(mN,μ)=(Nm)μm(1μ)NmBin(m | N, \mu) = {N \choose m} \mu^m (1 - \mu)^{N - m}

2.1.1. The beta distribution

이제 위에서 언급한 베르누이 분포와 이항 분포의 mean의 overfitting 문제를 해소하기 위한 Bayesian approach를 다룬다. 당연히 prior distribution p(μ)p(\mu)를 도입하는 것인데, 여기서 해석의 용이함 혹은 직관적 합리성을 위한 conjugacy라는 개념이 나온다. 바로 prior distribution와 posterior distribution의 functional form이 같아지는 성질을 바로 conjugacy라고 한다.
상술했듯 Bernoulli distribution에서의 likelihood function은 μx(1μ)1x\mu^x (1 - \mu)^{1 - x}인데, prior distribution으로 μ\mu(1μ)(1 - \mu)의 (각각의) power에 비례하는 분포를 택하면, 그 사후 분포 역시 동일한 성질을 가지게 되는 것을 알 수 있다. 이를 일반화한 functional form이 바로 beta distribution이다.
Beta(μa,b)=Γ(a+b)Γ(a)Γ(b)μa1(1μ)b1Beta(\mu | a, b) = \frac{\Gamma{(a + b)}}{\Gamma{(a)}\Gamma{(b)}} \mu^{a - 1} (1 - \mu)^{b - 1}
단, Γ(x)=0μx1eμdμ\Gamma{(x)} = \int_0^{\infty}{ \mu^{x - 1} e^{-\mu} d\mu}이며, normalization term이라고 볼 수 있겠다.
이러한 beta distribution의 평균과 분산은 다음과 같이 주어진다.
E[μ]=aa+bvar[μ]=ab(a+b)2(a+b+1)E[\mu] = \frac{a}{a + b} \\ var[\mu] = \frac{ab}{(a + b)^2(a + b + 1)}
이제 likelihood function과 beta distribution으로서의 prior distribution을 곱한 posterior distribution은 다음의 성질을 만족하게 되는데, beta distribution과 functional form이 동일하므로 normalization term은 beta distribution으로부터 추론해낼 수 있다. (평균과 분산 또한 마찬가지이다.) 이러한 성질은 꽤나 직관적인 해석이 가능한데, 바로 beta distribution의 parameter들을 각각 시행에 대한 관측 횟수만큼 증가시킨 것이다.
p(μm,l,a,b)μm+a1(1μ)l+b1p(\mu | m, l, a, b) \propto \mu^{m + a - 1} (1 - \mu)^{l + b - 1}
이를 sequential approach로 볼 수도 있는데, 데이터 하나 하나에 대해 posterior distribution을 구하고, 그 posterior를 다시 prior로 간주하여 posterior로 구하고, ... 하는 과정을 반복해도 동일한 결과를 얻게 되는 것이다. 이러한 online-learning은 컴퓨터의 memory를 효율적으로 사용할 수 있다는 강점을 가진다.
마지막으로 책에서 눈여겨볼 만한 특징들을 몇 가지 언급하는데, 바로 1) 시행의 횟수가 무한대로 발산하면 maximum likelihood estimation과 Bayesian estimation이 수렴한다는 것과 2) Bayesian learning에서는 데이터가 증가함에 따라 "평균적으로" uncertainty(variance)가 단조 감소한다는 것이다.

2.2. Multinomial Variables

이번 절에서는 바로 위에서 다룬 내용을 multinomial space로 확장한다. 즉 확률 변수 xxKK 중 하나의 state를 취할 수 있는 상황에서의 확률 분포를 다루며, 이러한 확률 변수의 state는 흔히 1-of-K scheme, 혹은 one-hot-vector의 형식으로 나타낸다.
그러면 이제 xx의 확률 분포는 다음과 같다.
p(xμ)=Πk=1Kμkxkp(x | \mu) = \Pi_{k = 1}^K{ \mu_k^{x_k} }
또 likelihood function은 다음과 같다.
p(Dμ)=Πn=1NΠk=1Kμkxnk=Πk=1Kμkmkp(D | \mu) = \Pi_{n = 1}^N \Pi_{k = 1}^K \mu_k^{x_{nk}} = \Pi_{k = 1}^K{ \mu_k^{m_k} }
Maximum likelihood solution을 찾기 위해서는 μk=1\sum{\mu_k} = 1의 제약 하에서 likelihood function을 극대화하여야 하는데, 이는 Lagrange multiplier를 사용하여 쉽게 풀 수 있다. 예상했던 대로 μMLk\mu_{ML_k}는 전체 표본 중 xk=1x_k = 1인 표본들의 비율이다.
위에서 Bernoulli distribution을 확장했으니, 이제 자연스럽게 binomial distribution을 확장한다. 다음과 같이 상당히 직관적이고 또 다를 게 없다. 바로 multinomial distribution이다.
Mult(m1,m2,...,mKμ,N)=(Nm1,m2,...,mK)Πk=1KμkmkMult( m_1, m_2, ..., m_K | \mu, N ) = {N \choose m_1, m_2, ..., m_K} \Pi_{k = 1}^K \mu_k^{m_k}

2.2.1. The Dirichlet distribution

마찬가지로 beta distribution의 multinorm 버전이라고 볼 수 있다. Likelihood function이 각각의 μk\mu_k의 power에 비례함에 따라, 다음과 같은 functional form을 prior로 삼으면 conjugacy를 얻게 된다. 이와 같은 distribution을 바로 Dirichlet distribution이라 한다.
Dir(μα)=Γ(α0)Γ(α1)...Γ(αK)Πk=1Kμkak1Dir(\mu | \alpha) = \frac{\Gamma{(\alpha_0)}}{\Gamma{(\alpha_1)} ... \Gamma{(\alpha_K)}} \Pi_{k = 1}^K \mu_k^{a_k - 1}
즉 위와 같은 prior 하에서 posterior은 다음과 같이 계산된다.
p(μD,α)=Dir(μα+m)p(\mu | D, \alpha) = Dir( \mu | \alpha + m)
당연한 이야기이지만 binomial distribution은 K=2K = 2일 때의 multinomial distribution과 동일하다.

2.3. The Gaussian Distribution

대망의 Gaussian distribution이다. 일단 univariate Gaussian distribution은 mean μ\mu, variance σ2\sigma^2와 함께 다음과 같은 형태로 정의된다.
N(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}N(x | \mu, \sigma^2) = \frac{1}{( 2\pi\sigma^2 )^{1/2}} \exp{\{ -\frac{1}{2\sigma^2}( x - \mu )^2 \}}
Multivariate Gaussian distribution은 비슷하게 mean vector μ\mu, covariance matrix Σ\Sigma와 함께 다음과 같이 정의된다.
N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}N(x | \mu, \Sigma) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\Sigma|^{1/2}} \exp{\{ -\frac{1}{2} (x - \mu)^T\Sigma^{-1}(x - \mu) \}}
이러한 Gaussian distribution은 연속 변수에 대해 entropy를 최대화하는 분포이기도 하고, 어떠한 조건 하에서 random variable의 합(혹은 평균)은 합해진 term의 수가 증가함에 따라 Gaussian distribution에 근사한다는 Central Limit Theorem이라는 아주 유명하고 유용한 성질을 가진다. (실제로 이러한 근사는 굉장히 빠른 속도로 이루어진다고 한다.) 그런 측면에서 binomial distribution은 관측량이 늘어남에 따라 Gaussian에 근사한다.
먼저 Gaussian distribution의 geometrical form을 살펴본다.
Gaussian distribution은 다음과 같은 quadratic form을 통해 xx의 값에 의존한다. 이를 μ\mu로부터 xx까지의 Mahalanobis distance라 부르며, 당연히 Σ=I\Sigma = I라면 Euclidean distance와 동일하다.
Δ2=(xμ)TΣ1(xμ)\Delta^2 = (x - \mu)^T \Sigma^{-1} (x - \mu)
먼저 covariance matrix Σ\SigmaD×DD \times D의 대칭행렬임을 알아두자. 그리고 covariance matrix의 다음과 같은 eigenvector equation을 살펴보자.
Σui=λiui\Sigma u_i = \lambda_i u_i
Σ\Sigma는 real, symmetric matrix이기 때문에 그 eigenvalue도 당연히 실수값일 것이고, 따라서(?) 다음과 같이 orthonormal set을 형성하는 eigenvector set이 존재한다.
uiTuj=Iiju_i^T u_j = I_{ij}
이제 단순한 대수를 통해 covariance matrix Σ\Sigma는 다음과 같이 표현될 수 있다.
Σ=i=1DλiuiuiT\Sigma = \sum_{i = 1}^D{ \lambda_i u_i u_i^T }
그 역행렬 역시 마찬가지로 다음과 같이 표현할 수 있다.
Σ1=i=1D1λiuiuiT\Sigma^{-1} = \sum_{i = 1}^D{\frac{1}{\lambda_i} u_i u_i^T }
이를 위의 Mahalanobis distance에 대입하면 yi=uiT(xμ)y_i = u_i^T (x - \mu)와 함께 다음의 결과를 얻는다.
Δ2=i=1Dyi2λi\Delta^2 = \sum_{i = 1}^D{ \frac{y_i^2}{\lambda_i} }
여기서 {yi=uiT(xμ)}\{ y_i = u_i^T (x - \mu) \}를 orthonormal vector uiu_i에 의해 정의된 coordinate system에 대해 xix_i에 대응하는 coordinate(?)으로 해석할 수 있다.
이를 다시 y=U(xμ)y = U (x - \mu)로 쓰자. y=(y1,...,yD)Ty = (y_1, ..., y_D)^T이고, UUuiTu_i^Tii번째 row로 가지는 orthogonal matrix이다.
이러한 Gaussian distribution이 잘 정의되기 위해서는 Σ\Sigma가 positive definite(모든 eigenvalue가 양수)이어야 한다. 다만 챕터 12에서 positive semidefinite(모든 eigenvalue가 0 혹은 양수) covariance matrix를 가지는 Gaussian distribution에 대해 다룬다.
이제 yy에 의해 정의된 coordinate system에서의 Gaussian distribution의 형태를 살펴보자. xx에서 yy 좌표계로 변형되는데 나타나는 Jacobian matrix JJ는 다음과 같다.
Jij=(xi)(yj)=UjiJ_{ij} = \frac{\partial{( x_i )}}{\partial{( y_j )}} = U_{ji}
그러면 UU가 orthonormal matrix라는 점을 이용하여 다음과 같은 사실을 알 수 있다.
J2=UT2=UTU=UTU=I=1|J|^2 = |U^T|^2 = |U^T| |U| = |U^T U| = |I| = 1
또한
Σ1/2=Πj=1Dλj1/2|\Sigma|^{1/2} = \Pi_{j = 1}^D \lambda_j^{1/2}
따라서 yy에 대하여 Gaussian distribution은 다음과 같이 쓸 수 있다. 독립적인 DD 개의 univariate Gaussian distribution의 곱(factorization)임을 알 수 있는데, 여기서 eigenvector는 joint probability distribution이 각각의 독립적인 DD 개의 분포로 분해되는데 대응되는 새로운 coordinate system을 정의하는 역할을 한다.
p(y)=p(x)J=Πj=1D1(2πλj)1/2exp{yj22λj}p(y) = p(x) |J| = \Pi_{j = 1}^D \frac{1}{(2\pi\lambda_j)^{1/2}} \exp{\{ -\frac{y_j^2}{2\lambda_j} \}}
또 Gaussian distribution의 moments를 살펴봄으로써 E[x]=μE[x] = \mu, cov[x]=Σcov[x] = \Sigma임을 알 수 있다.
마지막 논의 주제는 Σ\Sigma의 자유도와 unimodal distribution으로서의 한계에 대한 것인데, 이 주제들은 후에 더 자세하게 다루기로 한다.

2.3.1. Conditional Gaussian distributions

Gaussian distribution의 중요한 성질 중 하나는 바로 두 변수들의 집합이 jointly Gaussian이면, 한 변수에 대한 다른 한 변수의 conditional distribution 역시 Gaussian이라는 것과, marginal distribution 역시 Gaussian 이라는 것이다.
먼저 xxDD-dimensional vector이라고 가정한 후 N(xμ,Σ)N(x | \mu, \Sigma)를 생각해보자. 위의 성질을 보이기 위해 xxxa,xbx_a, x_b두 set으로 다음과 같이 나눌 것이다.
x=(xaxb)x = {x_a \choose x_b}
Covariance matrix는 다음과 같이 나눌 수 있는데, Σ\Sigma가 대칭 행렬인 것을 이용하여 Σaa,Σbb\Sigma_{aa}, \Sigma_{bb}가 각각 대칭이고 Σab=ΣbaT\Sigma_{ab} = \Sigma_{ba}^T임을 알 수 있다.
Σ=(ΣaaΣabΣbaΣbb)\Sigma = \begin{pmatrix} \Sigma_{aa} & \Sigma_{ab} \\ \Sigma_{ba} & \Sigma_{bb} \end{pmatrix}
한편 앞으로 펼쳐질 논의에서 covariance matrix보다 precision matrix Λ=Σ1\Lambda = \Sigma^{-1}로 표현하는 것이 더 용이한 경우가 많다는 점을 알아두자. 대칭행렬의 역행렬은 역시 대칭이기 때문에, 나누어진 행렬들의 바로 위와 같은 관계가 역시 성립한다. 하지만 Λaa=Σaa1\Lambda_{aa} = \Sigma_{aa}^{-1}일 것이라는 순진한 생각은 하면 안 된다.
이제 conditional distribution p(xaxb)p(x_a | x_b)의 표현식을 찾아보자. 이는 p(x)=p(xa,xb)p(x) = p(x_a, x_b)로부터 xbx_b를 고정하고, xax_a에 관하여 marginalization함으로써 얻어낼 수 있다. 다만 normalization은 Gaussian distribution의 functional form을 이용하여 더욱 효율적으로 찾아낼 수 있다. 이를 위해서는 분포의 exponent의 quadratic form만 조사하면 된다.
p(xa,xb)=12(xμ)TΣ1(xμ)=12(xaμa)TΛaa(xaμa)12(xaμa)TΛab(xbμb)12(xbμb)TΛba(xaμa)12(xbμb)TΛbb(xbμb)p(x_a, x_b) = -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) = \\ -\frac{1}{2} (x_a - \mu_a)^T \Lambda_{aa} (x_a - \mu_a) -\frac{1}{2} (x_a - \mu_a)^T \Lambda_{ab} (x_b - \mu_b) \\ -\frac{1}{2} (x_b - \mu_b)^T \Lambda_{ba} (x_a - \mu_a) -\frac{1}{2} (x_b - \mu_b)^T \Lambda_{bb} (x_b - \mu_b)
xax_a에 대한 function으로써 역시 quadratic form이기 때문에 conditional distribution 역시 Gaussian임을 쉽게 알아낼 수 있다. 이제 여기서 mean과 covariance를 알아냄으로써 조건부 분포의 온전한 형태를 알아낼 수 있다. 이렇게 exponent term의 quadratic form을 통해 mean, covariance를 알아내어 Gaussian distribution의 형태를 구하는 과정을 "completing the square"라 부른다.
먼저 일반적인 Gaussian의 exponent term이 다음과 같이 주어짐에 주목하자. Quadratic form을 다음의 형태로 표현하고 나면 Gaussian을 정의하기 위한 parameter를 찾아낼 수 있다.
12(xμ)TΣ1(xμ)=12xTΣ1x+xTΣ1μ+const-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) = -\frac{1}{2} x^T \Sigma^{-1} x + x^T \Sigma^{-1} \mu + \text{const}
이를 위에서 구한 조건부 분포의 quadratic form에 적용해보자. 먼저 xbx_b를 상수로 간주하여 xax_a에 대한 second order term을 찾으면, 다음과 같다.
12xaTΛaaxa-\frac{1}{2}x_a^T \Lambda_{aa} x_a
이를 위에서 구한 조건부 분포의 quadratic form에 적용해보자. 먼저 xbx_b를 상수로 간주하여 xax_a에 대한 second order term을 찾으면, 다음과 같다.
12xaTΛaaxa-\frac{1}{2}x_a^T \Lambda_{aa} x_a
따라서 p(xaxb)p(x_a | x_b)의 covariance Σab\Sigma_{a|b}Λaa1\Lambda_{aa}^{-1}임을 알 수 있다.
또 first order term을 찾으면 다음과 같은데,
xaT{ΛaaμaΛab(xbμb)}x_a^T \{ \Lambda_{aa} \mu_a - \Lambda_{ab} (x_b - \mu_b) \}
이로부터 μab\mu_{a|b}를 다음과 같이 알아낼 수 있다.
μab=Σab{ΛaaμaΛab(xbμb)}=μaΛaa1Λab(xbμb)\mu_{a|b} = \Sigma_{a|b} \{ \Lambda_{aa} \mu_a - \Lambda_{ab} (x_b - \mu_b) \} \\ = \mu_a - \Lambda_{aa}^{-1} \Lambda_{ab} (x_b - \mu_b)
여기서 조건부 분포의 mean은 xbx_b에 대한 function이고, covariance는 xax_a과 독립적이라는 점에 유의할 필요가 있다. 이게 linear-Gaussian model의 예시라고 한다.

2.3.2. Marginal Gaussian distributions

이제 joint Gaussian distribution의 다음과 같은 marginal distribution이 역시 Gaussian이라는 성질을 살펴보자. 역시 quadratic form을 분석함으로써 쉽게 목적을 달성할 수 있다.
p(xa)=p(xa,xb)dxbp(x_a) = \int{ p(x_a, x_b) dx_b }
위의 integration은, p(xa,xb)p(x_a, x_b)의 표현식에서 xbx_b에 대한 term을 찾아 completing the square함으로써 쉽게 이루어질 수 있다고 한다. 먼저 xbx_b에 관련된 term을 뽑으면 다음과 같다.
12xbTΛbbxb+xbTm=12(xbΛbb1m)TΛbb(xbΛbb1m)+12mTΛbb1m-\frac{1}{2} x_b^T \Lambda_{bb} x_b + x_b^T m = \\ -\frac{1}{2} (x_b - \Lambda_{bb}^{-1}m)^T \Lambda_{bb} (x_b - \Lambda_{bb}^{-1}m) + \frac{1}{2} m^T \Lambda_{bb}^{-1} m
이 때
m=ΛbbμbΛba(xaμa)m = \Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)
여기서 xbx_b에 대한 의존성은 첫 번째 term의 Gaussian standard quadratic form과 xbx_b와는 무관한 두 번째 term의 합으로 이루어짐을 확인할 수 있다. 따라서 xbx_b에 대한 위 식의 integration은 다음과 같은 형태를 가지게 될 것임을 알 수 있다.
exp{12(xbΛbb1m)TΛbb(xbΛbb1m)}dxb\int{ \exp{\{ -\frac{1}{2} (x_b - \Lambda_{bb}^{-1}m)^T \Lambda_{bb} (x_b - \Lambda_{bb}^{-1}m) \}} dx_b }
그런데 위의 integration은 unnormalized Gaussian의 integration이고, 따라서 그 값이 normalization coefficient의 역수일 것임은 쉽게 알 수 있다. 이제 위 p(xa,xb)dxb\int{ p(x_a, x_b) dx_b }에서 xbx_b와 관련된 부분은 모두 해결되었다. 그러면 xbx_b에 의존하는 xbx_b와는 무관한 term과, xbx_b에 의존하지 않는 p(xa,xb)p(x_a, x_b)의 term들을 다음과 같이 정리할 수 있다.
12[ΛbbμbΛba(xaμa)]TΛbb1[ΛbbμbΛba(xaμa)]12xaTΛaaxa+xaT(Λaaμa+Λabμb)+const=12xaT(ΛaaΛabΛbb1Λba)xaxaT(ΛaaΛabΛbb1Λba)1μa+const\frac{1}{2} [\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)]^T \Lambda_{bb}^{-1} [\Lambda_{bb}\mu_b - \Lambda_{ba}(x_a - \mu_a)] \\ -\frac{1}{2} x_a^T \Lambda_{aa} x_a + x_a^T (\Lambda_{aa}\mu_a + \Lambda_{ab}\mu_b) + \text{const} \\ = -\frac{1}{2} x_a^T (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba}) x_a \\ - x_a^T (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1} \mu_a + \text{const}
여기서 다음과 같은 사실을 알 수 있다.
Σa=(ΛaaΛabΛbb1Λba)1Σa(ΛaaΛabΛbb1Λba)μa=μa\Sigma_a = (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1} \\ \Sigma_a (\Lambda_{aa} - \Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba}) \mu_a = \mu_a
그런데 Λ1=Σ\Lambda^{-1} = \Sigma임을 이용하여 Σa=Σaa\Sigma_a = \Sigma_{aa}임을 알아낼 수 있다. 이로써 다음과 같은 직관적인 결과를 얻는다.
E[xa]=μacov[xa]=ΣaaE[x_a] = \mu_a \\ cov[x_a] = \Sigma_{aa}

2.3.3. Bayes' theorem for Gaussian variables

이번 섹션에서는 xx에 대한 marginal distribution p(x)p(x)yy에 대한 xx의 conditional distribution p(yx)p(y | x)가 주어졌을 때, yy에 대한 marginal distribution p(y)p(y)xx에 대한 yy의 conditional distribution p(xy)p(x | y)를 찾는 과정을 다룬다. 여기서 p(x)p(x)는 일종의 prior, p(xy)p(x | y)는 posterior로 볼 수 있다.
우선 다음과 같은 정보가 주어졌다고 가정하자.
p(x)=N(xμ,Λ1)p(yx)=N(yAx+b,L1)p(x) = N(x | \mu, \Lambda^{-1}) \\ p(y | x) = N(y | A x + b, L^{-1})
먼저 xxyy의 joint distribution을 찾아보자. 이를 위해 다음과 같이 정의하면,
z=(xy)z = {x \choose y}
다음이 성립한다.
lnp(z)=lnp(x)+lnp(yx)=12(xμ)TΛ(xμ)12(yAxb)TL(yAxb)+const\ln{p(z)} = \ln{p(x)} + \ln{p(y | x)} \\ = -\frac{1}{2} (x - \mu)^T \Lambda (x - \mu) \\ -\frac{1}{2} (y - A x - b)^T L (y - A x - b) + \text{const}
이는 역시 zz에 대한 quadratic function이고, 따라서 p(z)p(z)는 Gaussian이다. 앞에서 계속 했던 것처럼 second order term을 통해 precision을 찾고, linear term을 통해 mean을 찾으면 된다.
cov[z]=(Λ1Λ1ATAΛ1L1+AΛ1AT)E[z]=(μAμ+b)cov[z] = \begin{pmatrix} \Lambda^{-1} & \Lambda^{-1} A^T \\ A \Lambda^{-1} & L^{-1} + A \Lambda^{-1} A^T \end{pmatrix} \\ E[z] = {\mu \choose A \mu + b}
이제 yy에 대한 marginal distribution을 찾아보자. 위에서 구한 p(z)p(z)를 marginalize하면 된다. 2.3.2에서 배운 내용을 적용하면 금방 구할 수 있다.
E[y]=Aμ+bcov[y]=L1+AΛ1ATE[y] = A \mu + b \\ cov[y] = L^{-1} + A \Lambda^{-1} A^T
마지막으로 p(xy)p(x | y)를 구한다. 이 역시 2.3.2에서 배운 내용을 적용하면 금방 구할 수 있다.
E[xy]=(Λ+ATLA)1{ATL(yb)+Λμ}cov[xy]=(Λ+ATLA)1E[x | y] = (\Lambda + A^T L A)^{-1} \{ A^T L (y - b) + \Lambda \mu \} \\ cov[x | y] = (\Lambda + A^T L A)^{-1}

2.3.4. Maximum likelihood for the Gaussian

Gaussian distribution의 log likelihood는 다음과 같이 주어진다.
lnp(Xμ,Σ)=ND2ln(2π)N2lnΣ12n=1N(xnμ)TΣ1(xnμ)\ln{p(X | \mu, \Sigma)} = -\frac{ND}{2} \ln{(2\pi)} -\frac{N}{2} \ln{|\Sigma|} -\frac{1}{2} \sum_{n = 1}^N{ (x_n - \mu)^T \Sigma^{-1} (x_n - \mu) }
따라서 log likelihood는 데이터 xx에 대해 다음의 term을 통해서만 의존하는데,
n=1Nxnn=1NxnxnT\sum_{n = 1}^N{x_n} \\ \sum_{n = 1}^N{x_n x_n^T}
(부록을 참고하면) μ\mu에 대한 도함수는 다음과 같이 주어지며,
μlnp(Xμ,Σ)=n=1NΣ1(xnμ)\frac{\partial}{\partial \mu} \ln{p(X | \mu, \Sigma)} = \sum_{n = 1}^N{ \Sigma^{-1}(x_n - \mu) }
이를 0으로 만드는 μ\mu의 값은 역시나 sample mean이다.
μML=1Nn=1Nxn\mu_{ML} = \frac{1}{N} \sum_{n = 1}^N x_n
또한 optimal Σ\Sigma 역시 sample covariance이다.
ΣML=1Nn=1N(xnμML)(xnμML)T\Sigma_{ML} = \frac{1}{N} \sum_{n = 1}^N (x_n - \mu_{ML})(x_n - \mu_{ML})^T
이전에 살펴봤듯 위와 같은 covariance는 불편 추정량이 아니기 때문에 보통은 편향을 없애기 위해 NN 대신에 N1N - 1로 나눈다.

2.3.5. Sequential estimation

Sequential estimation은 이전에도 잠깐 언급했던, online learning으로 더 익숙한 그것이다.
먼저 위에서 구한 μML\mu_{ML}을 다음과 같이 다시 쓸 수 있다.
μML(N)=1Nnxn=μML(N1)+1N(xNμML(N1))\mu_{ML}^{(N)} = \frac{1}{N} \sum_n{x_n} \\ = \mu_{ML}^{(N - 1)} + \frac{1}{N} (x_N - \mu_{ML}^{(N - 1)})
이는 N1N - 1개의 데이터를 관측한 후의 ML estimator에서, NN 번째 데이터를 관측한 순간 관측 데이터 수에 반비례하여 estimation error만큼 그 estimation을 수정한다고 볼 수 있겠다.
하지만 항상 이러한 상황을 적용할 수 없기 때문에, 보다 보편적인 sequential learning 알고리즘인 Robbins-Monro 알고리즘을 소개한다. 어쨌거나 이 알고리즘을 이용하면 역시 마찬가지로 online learning이 가능하다. 근데 알고리즘 자체는 쓸모가 있는지 잘 모르겠어서 일단은 생략한다.

2.3.6. Bayesian inference for the Gaussian

Point estimation에 국한된 maximum likelihood 프레임워크를 넘어서, 이번에는 Bayesian 프레임워크를 다룬다.
일단은 σ2\sigma^2가 주어졌다고 가정하고, NN개의 데이터로부터 μ\mu를 추론하는 문제를 생각해보자. 우선 likelihood는 다음과 같다.
p(Xμ)=Πn=1Np(xnμ)=1(2πσ2)N/2exp{12σ2n=1N(xnμ)2}p(X | \mu) = \Pi_{n = 1}^N{ p(x_n | \mu) } = \frac{1}{(2\pi\sigma^2)^{N/2}} \exp{\{ -\frac{1}{2\sigma^2} \sum_{n = 1}^N{(x_n - \mu)^2} \}}
이 때 likelihood가 quadratic form의 exponential 형식을 갖추었기 때문에 prior p(μ)p(\mu)를 Gaussian으로 선택하면 posterior 역시 Gaussian이 된다. 따라서 다음과 같은 prior를 상정한다.
p(μ)=N(μμ0,σ02)p(\mu) = N(\mu | \mu_0, \sigma_0^2)
Completing square를 포함한 이런 저런 조작들을 통해 다음과 같은 posterior를 얻을 수 있다고 한다.
p(μX)=N(μμN,σN2)μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML1σN2=1σ02+Nσ2p(\mu | X) = N(\mu | \mu_N, \sigma_N^2) \\ \mu_N = \frac{\sigma^2}{N\sigma_0^2 + \sigma^2} \mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2 + \sigma^2} \mu_{ML} \\ \frac{1}{\sigma_N^2} = \frac{1}{\sigma_0^2} + \frac{N}{\sigma^2}
이러한 posterior distribution을 잠시 분석해보자. 가장 먼저 mean estimation은 μ0\mu_0μML\mu_{ML} 사이의 타협점임을 알 수 있다. N=0N = 0이면 μ0\mu_0에 가까워지고, NN \rightarrow \infty이면 μML\mu_{ML}에 가까워진다. 또한 NN이 커질수록 precision은 점차 증가한다. 이러한 Bayesian treatment에 대한 sequential view는 이전에 살펴보았듯 아주 자연스럽게 도출된다.
이제 mean이 주어졌다고 생각하고, variance를 구하는 문제를 생각해보자. 먼저 variance보다 precision을 구하는 것이 더 용이하기 때문에 λ=1/σ2\lambda = 1/\sigma^2를 정의한다. 그러면 likelihood는 다음과 같다.
p(Xλ)=Πn=1NN(xnμ,λ1)λN/2exp{λ2n=1N(xnμ)2}p(X | \lambda) = \Pi_{n = 1}^N N(x_n | \mu, \lambda^{-1}) \propto \lambda^{N/2} \exp{\{ -\frac{\lambda}{2} \sum_{n = 1}^N{( x_n - \mu )^2} \}}
따라서 conjugate prior는 λ\lambda의 power와 λ\lambda에 대한 linear function의 exponential의 곱과 비례해야 하겠다. 이에 따라 다음과 같이 정의된 gamma distribution을 이용한다.
Gam(λa,b)=1Γ(a)baλa1exp(bλ)Gam(\lambda | a, b) = \frac{1}{\Gamma{(a)}} b^a \lambda^{a - 1} \exp{( -b \lambda )}
Gamma distribution의 mean, variance는 각각 다음과 같다.
E[λ]=abvar[λ]=ab2E[\lambda] = \frac{a}{b} var[\lambda] = \frac{a}{b^2}
이제 prior Gam(λa0,b0)Gam(\lambda | a_0, b_0)를 상정하면, posterior는 다음과 같다.
p(λX)λa01λN/2exp{b0λλ2n=1N(xnμ)2}p(\lambda | X) \propto \lambda^{a_0 - 1} \lambda^{N/2} \exp{\{ -b_0 \lambda - \frac{\lambda}{2} \sum_{n = 1}^N{(x_n - \mu)^2} \}}
즉 posterior distribution은 Gam(λaN,bN)Gam(\lambda | a_N, b_N)로 주어지며,
aN=a0+N2bN=b0+12n=1N(xnμ)2=b0+N2σML2a_N = a_0 + \frac{N}{2} \\ b_N = b_0 + \frac{1}{2} \sum_{n = 1}^N{(x_n - \mu)^2} = b_0 + \frac{N}{2} \sigma_{ML}^2
이 때 NN개의 데이터를 관측하는 것은 aaN/2N/2 만큼 증가시키는 효과를 가지는데, 이로써 a0a_0는 effective prior observations의 수로 해석할 수 있겠다. 또한 b0b_0는 prior observation의 variance 정도로 해석이 가능하겠다.
이제 mean과 variance가 둘 다 알려지지 않았다고 가정하자. 먼저 likelihood는 다음과 같은데,
p(Xμ,λ)=Πn=1N(λ2π)1/2exp{λ2(xnμ)2}[λ1/2exp(λμ22)]Nexp{λμn=1NxnN2n=1Nxn2}p(X | \mu, \lambda) = \Pi_{n = 1}^N (\frac{\lambda}{2\pi})^{1/2} \exp{\{ -\frac{\lambda}{2} (x_n - \mu)^2 \}} \\ \propto [\lambda^{1/2} \exp{( -\frac{\lambda \mu^2}{2} )}]^N \exp{\{ \lambda\mu\sum_{n=1}^Nx_n - \frac{N}{2}\sum_{n=1}^Nx_n^2 \}}
이를 위한 conjugate prior는 다음의 형태를 가져야 하겠다.
p(μ,λ)[λ1/2exp(λμ22)]βexp{cλμdλ}=exp{βλ2(μc/β)2}λβ/2exp{(dc22β)λ}p(\mu, \lambda) \propto [\lambda^{1/2} \exp{(-\frac{\lambda\mu^2}{2})}]^{\beta} \exp{\{ c\lambda\mu - d\lambda \}} \\ = \exp{\{ -\frac{\beta \lambda}{2} (\mu - c/\beta)^2 \}} \lambda^{\beta / 2} \exp{\{ -(d - \frac{c^2}{2\beta}) \lambda \}}
이 때 p(μ,λ)=p(μλ)p(λ)p(\mu, \lambda) = p(\mu | \lambda) p(\lambda)에서 p(μλ)p(\mu | \lambda)p(λ)p(\lambda)를 찾아낼 수 있다. 특히 p(μλ)p(\mu | \lambda)는 Gaussian이며, p(λ)p(\lambda)는 gamma distribution이다. (이 때 μ0=c/β\mu_0 = c/\beta, a=1+β/2a = 1 + \beta/2, b=dc2/2βb = d - c^2/2\beta.)
p(μ,λ)=N(μμ0,(βλ)1)Gam(λa,b)p(\mu, \lambda) = N(\mu | \mu_0, (\beta \lambda)^{-1}) Gam(\lambda | a, b)
이를 normal-gamma 혹은 Gaussian-gamma distribution이라 한다. Multivariate으로의 확장은 trivial하다.

2.3.7. Student's t-distribution

앞서 Gaussian precision에 대한 conjugate이 gamma distribution으로 주어진다는 것을 보았다. 여기서 univariate Gaussian과 gamma distribution의 곱으로 나타나는 posterior를 precision에 대해 integrate하면 다음과 같은 형태의 분포를 얻는다.
p(xμ,a,b)=0N(xμ,γ1)Gam(γa,b)dγ=baΓ(a)(12π)1/2[b+(xμ)22]a1/2p(x | \mu, a, b) = \int_0^{\infty}{ N(x | \mu, \gamma^{-1}) Gam(\gamma | a, b) d\gamma } \\ = \frac{b^a}{\Gamma(a)} (\frac{1}{2\pi})^{1/2} [b + \frac{(x - \mu)^2}{2}]^{-a -1/2}
이를 좀 더 generalize하면 다음과 같은 Student's t-distribution을 얻는다.
St(xμ,λ,ν)=Γ(ν/2+1/2)Γ(ν/2)(λπν)1/2[1+λ(xμ)2ν]ν/21/2St(x | \mu, \lambda, \nu) = \frac{\Gamma(\nu/2 + 1/2)}{\Gamma(\nu/2)} (\frac{\lambda}{\pi\nu})^{1/2} [1 + \frac{\lambda(x - \mu)^2}{\nu}]^{-\nu/2 -1/2}
여기서 λ\lambda는 종종 precision으로, ν\nu는 degrees of freedom으로 불린다. ν=1\nu = 1인 경우 Cauchy distribution과, ν=\nu = \infty일 경우 Gaussian과 동일하다.
또한 도출식으로부터, Student's t-distribution은 동일한 mean과 각각 다른 precision을 가진 무수히 많은 Gaussian을 더한 것으로 해석할 수 있다. 이로써 Gaussian에 비해 더 꼬리가 두꺼운 분포를 얻는데, 이로 인해 outlier에 보다 robust한 분포라는 속성을 얻는다.

2.3.8. Periodic variables

생략

2.3.9. Mixtures of Gaussians

생략

2.4. The Exponential Family

이번 장에서 배운 확률 분포들은 exponential family라고 불리는 확률 분포족의 세부적인 케이스들이다. 이번 절에서는 이러한 exponential family에 대한 general property를 몇 가지 다룬다.
먼저 확률 변수 xx에 대한 exponential family의 distribution은 다음과 같은 형태를 가지는 것으로 정의된다. 여기서 η\eta는 natural parameters라 불리며, u(x)u(x)xx에 관한 함수이고, g(η)g(\eta)는 normalization coefficient라고 볼 수 있다.
p(xη)=h(x)g(η)exp{ηTu(x)}p(x | \eta) = h(x) g(\eta) \exp{\{ \eta^T u(x) \}}
이제 exponential family의 한 멤버인 Bernoulli distribution을 exponential family의 관점에서 살펴보자. 먼저 Bernoulli distribution은 다음과 같은 형태를 가지는데,
p(xμ)=Bern(xμ)=μx(1μ)1x=exp{xlnμ+(1x)ln(1μ)}=(1μ)exp{ln(μ1μ)x}p(x | \mu) = Bern(x | \mu) = \mu^x (1 - \mu)^{1 - x} \\ = \exp{\{ x \ln{\mu} + (1 - x) \ln{(1 - \mu)} \}} \\ = (1 - \mu) \exp{\{ \ln{(\frac{\mu}{1 - \mu})x} \}}
여기서 η=ln(μ1μ)\eta = \ln{(\frac{\mu}{1 - \mu})} 이고, 이를 μ\mu에 대해 풀면 다음과 같은 sigmoid function이 도출되는 것을 볼 수 있다.
μ=σ(η)=11+exp(η)\mu = \sigma{(\eta)} = \frac{1}{1 + \exp{(-\eta)}}
따라서 Bernoulli distribution을 exponential family의 형태로 표현하면 다음과 같다. 즉 u(x)=xu(x) = x, h(x)=1h(x) = 1, g(η)=σ(η)g(\eta) = \sigma{(-\eta)}이다.
p(xη)=σ(η)exp(ηx)p(x | \eta) = \sigma{(-\eta)} \exp{(\eta x)}
이제 multinomial distribution을 살펴보자. 먼저 ηk=lnμk\eta_k = \ln{ \mu_k }일 때 다음과 같다.
p(xμ)=Πk=1Mμkxk=exp{k=1Mxklnμk}=exp(ηTx)p(x | \mu) = \Pi_{k = 1}^M{ \mu_k^{x_k} } = \exp{\{ \sum_{k = 1}^M{ x_k \ln{ \mu_k } } \}} \\ = \exp{( \eta^T x )}
그러면 exponential family의 입장에서 다음과 같다.
u(x)=xh(x)=1g(η)=1u(x) = x \\ h(x) = 1 \\ g(\eta) = 1
이 때 kμk=1\sum_k{\mu_k} = 1 라는 constraint로 인해 ηk\eta_k는 independent 하지 않다. 즉 M1M - 1 개의 parameter가 정해져있으면 나머지 하나의 parameter도 정해지게 되는데, 이런 경우에는 M1M - 1 개의 parameter 만으로 표현하는 것이 용이한 경우가 있다. 다음과 같이 다시 쓸 수 있다.
exp{k=1Mxklnμk}=exp{k=1M1xklnμk+(1k=1M1xk)ln(1k=1M1μk)}=exp{k=1M1xkln(μk1j=1M1μj)+ln(1k=1M1μk)} \exp{\{ \sum_{k = 1}^M{ x_k \ln{ \mu_k } } \}} \\ = \exp{\{ \sum_{k = 1}^{M - 1}{ x_k \ln{ \mu_k } } + (1 - \sum_{k = 1}^{M - 1}{ x_k }) \ln{( 1 - \sum_{k = 1}^{M - 1}{ \mu_k } )} \}} \\ = \exp{\{ \sum_{k = 1}^{M - 1}{ x_k } \ln{( \frac{\mu_k}{1 - \sum_{j = 1}^{M - 1}{ \mu_j }} )} + \ln{( 1 - \sum_{k = 1}^{M - 1}{ \mu_k } )} \}} 
여기서 ln(μk1jμj)=ηk\ln{(\frac{\mu_k}{1 - \sum_j{ \mu_j }})} = \eta_k 임을 알 수 있는데, 이를 μk\mu_k에 대해 풀면 다음과 같이 softmax function이 나온다.
μk=exp(ηk)1+jexp(ηj)\mu_k = \frac{ \exp{( \eta_k )} }{ 1 + \sum_j{ \exp{( \eta_j )} } }
이러한 측면에서 multinomial distribution은 다음과 같이 표현될 수 있다. 여기서 u(x)=xu(x) = x, h(x)=1h(x) = 1, g(η)=(1+k=1M1exp(ηk))1g(\eta) = (1 + \sum_{k = 1}^{M - 1}{ \exp{( \eta_k )} })^{-1}이다.
p(xη)=(1+k=1M1exp(ηk))1exp(ηTx)p(x | \eta) = (1 + \sum_{k = 1}^{M - 1}{ \exp{( \eta_k )} })^{-1} \exp{( \eta^T x )}
마지막으로 Gaussian distribution에 대해 살펴보자.
p(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}=1(2πσ2)1/2exp{12σ2x2+μσ2x12σ2μ2}p(x | \mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}} \exp{\{ -\frac{1}{2\sigma^2} (x - \mu)^2 \}} \\ = \frac{1}{(2\pi\sigma^2)^{1/2}} \exp{\{ -\frac{1}{2\sigma^2}x^2 +\frac{\mu}{\sigma^2}x -\frac{1}{2\sigma^2}\mu^2 \}}
다음과 같은 사실을 알 수 있다.
η=(μ/σ21/2σ2)u(x)=(xx2)h(x)=(2π)1/2g(η)=(2η2)1/2exp(η124η2)\eta = {\mu / \sigma^2 \choose -1 / 2\sigma^2} \\ u(x) = {x \choose x^2} \\ h(x) = (2\pi)^{-1/2} \\ g(\eta) = (-2\eta_2)^{1/2} \exp{( \frac{\eta_1^2}{4\eta_2} )}

2.4.1. Maximum likelihood and sufficient statistics

이제 exponential family의 parameter vector η\eta를 maximum likelihood method를 통해 추론해내는 방법을 다루자. Exponential family의 integration(=1)을 η\eta에 대해 미분하면 다음과 같은 식을 얻을 수 있다.
g(η)h(x)exp{ηTu(x)}dxg(η)h(x)exp{ηTu(x)}u(x)dx=0\nabla g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} dx } - g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} u(x) dx } = 0
이를 정리하면 다음과 같은 식을 얻는다.
1g(η)g(η)=g(η)h(x)exp{ηTu(x)}u(x)dx=E[u(x)]lng(η)=E[u(x)]-\frac{1}{g(\eta)} \nabla g(\eta) = g(\eta) \int{ h(x) \exp{\{ \eta^T u(x) \}} u(x) dx } = E[u(x)] \\ -\nabla \ln{g(\eta)} = E[u(x)]
이제 i.i.d. dataset XX에 관한 likelihood는 다음과 같다.
p(Xη)=(Πn=1Nh(xn))g(η)Nexp{ηTn=1Nu(xn)}p(X | \eta) = (\Pi_{n = 1}^N h(x_n)) g(\eta)^N \exp{\{ \eta^T \sum_{n = 1}^N{ u(x_n) } \}}
lnp(Xη)\ln{ p(X | \eta) }η\eta에 대한 gradient를 0으로 만듦으로써 얻는 ηML\eta_{ML}은 다음과 같다.
lng(ηML)=1Nn=1Nu(xn)-\nabla \ln{g(\eta_{ML})} = \frac{1}{N} \sum_{n = 1}^N{ u(x_n) }
여기서 maximum likelihood estimator는 데이터에 대해 오로지 nu(xn)\sum_n{u(x_n)}에만 의존한다는 점을 발견할 수 있는데, 이를 sufficient statistic이라 부른다. 보통 어떠한 estimator를 도출할 때 오로지 어떠한 형태의 데이터만 필요하다면 이를 sufficient statistic이라 칭한다.

2.4.2. Conjugate priors

$일반적으로 어떠한 확률 분포 p(xη)p(x | \eta)에 대해, likelihood function에 conjugate한 형태의 prior p(η)p(\eta)를 택하여 posterior가 prior과 동일한 형태를 가지도록 할 수 있다. 어떠한 exponential family의 멤버에 대해, 다음과 같은 형태의 conjugate prior를 생각할 수 있다. f(χ,ν)f(\chi, \nu)는 normalization coefficient이고, g(η)g(\eta)는 원래 알던 그것이다.
p(ηχ,ν)=f(χ,ν)g(η)νexp{νηTχ}p(\eta | \chi, \nu) = f(\chi, \nu) g(\eta)^{\nu} \exp{\{ \nu \eta^T \chi \}}
이를 위에서 구한 likelihood에 곱하여 구한 posterior은 다음과 같다.
p(ηX,χ,ν)g(η)ν+Nexp{ηT(n=1Nu(xn)+νχ)}p(\eta | X, \chi, \nu) \propto g(\eta)^{\nu + N} \exp{\{ \eta^T (\sum_{n = 1}^N{u(x_n)} + \nu \chi) \}}
이러한 posterior은 다시 prior과 동일한 형태를 갖게 된다.

2.4.3. Noninformative priors

여기서는 parameter에 대해 가능한 한 최소한의 영향력(정보)을 가지는 prior인, noninformative prior에 대해 다룬다.
확률 분포가 parameter λ\lambda에 의해 p(xλ)p(x | \lambda)와 같이 정해진다면, noninformative prior로써 p(λ)=constp(\lambda) = const로 정하는 것이 적절할 수 있다. 만약 λ\lambda가 discrete variable이라면 단순히 p(λ)=1/Kp(\lambda) = 1/K와 같이 정하면 될 것이다. 하지만 continuous variable에 대해서는 골치가 아파진다. 대표적으로 λ\lambda가 unbounded variable일 경우 확률 분포가 올바르게 정규화되지 못하는 문제(improper distribution)가 발생할 수 있고, 앞서 1장에서 언급했듯 variable의 nonlinear change에 대한 probability density의 변형에 관한 문제(예컨대 variable에 대한 nonlinear transformation을 가하면 그 probability density는 더 이상 constant가 아니다)가 발생할 수 있다. Maximum likelihood의 경우에는 후자가 문제가 되지 않지만, Bayesian approach를 택할 때에는 주의해야 한다.
이제 두 가지 간단한 형태의 non-informative prior의 예시를 살펴보자. 먼저 다음과 같은 형태를 가진 밀도함수에서,
p(xμ)=f(xμ)p(x | \mu) = f(x - \mu)
μ\mu는 location parameter라 불린다. 이러한 형태를 가진 밀도함수는 translation variance라는 특성을 가지는데, 바로 x^=x+c\hat{x} = x + c 처럼 변수를 평행이동하여도 μ^=μ+c\hat{\mu} = \mu + c 에 의해 같은 형태로 표현이 가능하다는 것이다. 즉 밀도 함수가 origin의 선택에 영향을 받지 않는다.
이제 이러한 translation invariance를 가지는 prior distribution을 택하고자 한다면, 다음과 같은 성질을 만족한다.
ABp(μ)dμ=AcBcp(μ)dμ=ABp(μc)dμ\int_{A}^{B}{ p(\mu) d\mu } = \int_{A - c}^{B - c}{ p(\mu) d\mu } = \int_{A}^{B}{ p(\mu - c) d\mu }
위와 같은 식이 A,BA, B의 선택과는 무관하게 만족하므로, p(μc)=p(μ)p(\mu - c) = p(\mu)이다. 이는 p(μ)=constp(\mu) = const를 암시한다. 이러한 location parameter의 대표적인 예시는 바로 Gaussian distribution의 mean인데, constant mean과 함께 prior variance를 무한대로 보내버리면 mean에 대한 non-informative prior를 얻을 수 있다.
두 번째 예시로, 다음과 같은 형태의 밀도함수를 살펴보자.
p(xσ)=1σf(xσ)p(x | \sigma) = \frac{1}{\sigma} f( \frac{x}{\sigma} )
이 때 σ\sigma를 scale parameter라 부르며, 이러한 형태의 밀도함수는 scale invariance를 갖는다. 예컨대 x^=cx\hat{x} = cx 처럼 변수를 변형하여도 σ^=cσ\hat{\sigma} = c\sigma에 의해 동일한 밀도로 표현된다.
이제 이러한 scale invariance를 갖는 prior를 얻고자 한다면, interval AσBA \leq \sigma \leq B와 interval A/cσB/cA/c \leq \sigma \leq B/c에 동일한 밀도를 할당하여야 한다. 즉,
ABp(σ)dσ=A/cB/cp(σ)dσABp(1cσ)1cdσ\int_{A}^{B}{ p(\sigma) d\sigma } = \int_{A/c}^{B/c}{ p(\sigma) d\sigma } \int_{A}^{B}{ p(\frac{1}{c}\sigma) \frac{1}{c}d\sigma }
위와 같은 식이 A,BA, B에 무관하게 성립하므로, p(σ)=p(1cσ)1cp(\sigma) = p(\frac{1}{c} \sigma) \frac{1}{c}이다. 이러한 밀도는 0σ0 \leq \sigma \leq \infty에 대한 integration 발산하기 때문에 improper하다는 것에 주의하자.
종종 log scale에 대한 invariance를 가진 prior distribution을 고려하는 것이 용이하다. 이같은 distribution은 p(lnσ)=constp(\ln \sigma) = const와 같은 성질을 가지는데, 이에 따라 예컨대 [1,10][1, 10] 구간과 [10,100][10, 100] 구간, [100,1000][100, 1000] 구간에서 동일한 밀도(질량)를 갖게 된다.
이러한 scale parameter의 대표적인 예시는 또 다시 Gaussian distribution의 standard deviation이다.

2.5. Nonparametric Methods

이 장의 마지막 섹션에서는 density estimation을 위한 histogram method, nearest neighbor method 두 가지 non-parametric method를 가볍게 둘러본다.
Standard histogram method는 단순히 xxΔi\Delta_i 너비의 bin들로 나눈 다음, 각각의 bin 내에 있는 데이터들의 수 nin_i를 측정한다. 이를 정규화하기 위해 전체 데이터의 수인 NN과 해당 bin의 너비 Δi\Delta_i로 나누면 다음과 같이 probability density가 도출된다.
pi=niNΔip_i = \frac{n_i}{N \Delta_i}
여기서 bin의 너비는 smoothing parameter이며, 작은 값을 택할수록 굉장히 울퉁불퉁하고 sparse한 density가 도출되는 한편 큰 값을 택할수록 매끄럽지만 표현력이 약한 density가 도출된다. 이러한 histogram method는 빠른 시각화 등의 목적으로 자주 사용되지만, dimensionality에 큰 영향을 받는다는 한계를 가진다.
이러한 histogram method로부터 두 가지 인사이트를 도출해낼 수 있다. 첫째는 바로 어떠한 점의 density를 구하기 위해서는 그 주변 공간(neighborhood)의 데이터들을 살펴봐야 한다는 것이며, 둘째는 적절한 smoothing parameter의 선택이 필요하다는 것이다.

2.5.1. Kernel density estimators

이제 임의의 DD-dimensional space에서의 probability density p(x)p(x)를 구한다고 생각해보자. 바로 위에서 도출한 인사이트에 의해, xx를 포함한 small region RR을 상정한다. 그러면 probability mass는 다음과 같이 생각할 수 있다.
P=Rp(x)dxP = \int_R p(x) dx
이제 p(x)p(x)로부터 NN개의 데이터 포인트를 구했다고 하자. 그러면 공간 RR에 각 데이터가 떨어질 확률이 PP로 주어지고, KK개의 데이터가 RR에 떨어질 확률 분포는 binomial distribution의 형태를 가진다.
Bin(KN,P)=N!K!(NK)!PK(1P)1KBin(K | N, P) = \frac{N!}{K! (N - K)!} P^K (1 - P)^{1 - K}
Binomial distribution의 성질로부터 E[K/N]=PE[K/N] = P를 알아낼 수 있는데, 충분히 큰 NN에 대하여 다음과 같다.
KNPK \simeq NP
또한 region RR이 충분히 작아 그 안에서의 확률 밀도가 일정하다고 하면, 다음과 같다.
Pp(x)VP \simeq p(x)V
이제 위 두 식으로부터 다음을 도출해낼 수 있다.
p(x)=KNVp(x) = \frac{K}{NV}
단, 이러한 식은 두 가지 상반된 가정, 즉 region RR이 1) 충분히 작아서 그 안의 확률 밀도가 일정한 동시에 2) 충분히 커서 binomial distribution이 날카롭게 수렴할 수 있어야 한다는 가정에 의존한다는 데 주의해야 한다.
이제 위 식에서, KK를 고정하여 VV을 데이터로부터 도출하거나, VV를 고정하여 KK를 데이터로부터 도출할 수 있다. 전자의 경우가 바로 KK-nearest neighbor technique이고, 후자의 경우가 바로 kernel approach이다.
E.O.D.