Show 2020-2학기 이화여대 김정태 교수님 강의 내용을 바탕으로 본 글을 작성하였습니다. PRML 교재를 본격적으로 들어가기전에 기존 머신러닝 및 딥러닝에 베이지안 관점이 필요한 이유를 설명하고, 간단한 예제를 통해 관점을 파악해보자. Overview
Machine Learning 머신러닝 어플리케이션의 대부분은 "data driven"(데이터 기반)으로 인해 성공한 사례로 예를 들면 아래와 같은 것들이 존재한다.
크게 ML을 카테고리 별로 분류하면 다음과 같다.
Limitations of standard deep learning
Why Bayesian learning?
Standard vs Bayesian learning 두 기법들에 대해 비교하면 위와 같이 정리할 수 있다. 다음은 Standard(ML) 기법과 Bayesian 기법을 비교한 예제로 차이점을 확인해보자. Coin flipping example - ML approach 동전을 반복해서 던지고 앞면(head)이 나올 확률을 추정해보자. n번 시행 한 후 head를 k번 관찰했다고 가정한다. 그러면 앞면 확률이 $\theta$ 일 때 사건 $D$의 확률은 다음과 같이 Bernouill의 법칙으로 계산할 수 있습니다. $$p(D|\theta) = \theta^k (1-\theta)^{n-k}$$ Q & A : 위 식을 probability function 과 likelihood function으로도 불리는데, 차이점은 무엇인가요? case 1) $\theta$ 를 고정시킨 경우 아래 식을 probability function이라고 부름 case 2) $D$를 고정시킨 경우 위 식을 likelihood function 이라고 부름 $$p(D|\theta) = \theta^k (1-\theta)^{n-k} \leftarrow likelihood \ function$$ 우도 함수(likelihood function)를 최대화하는 값으로 $\theta$를 추정하는 것은 자연스러운 일이며, 이는 최대 우도 추정기(MLE, maximum likelihood estimator)로 이어집니다. MLE는 종종 로그 가능도(log-likelihood)라고하는 가능도 함수의 로그를 최대화하여 결정할 수 있습니다. (로그를 사용한 뒤 미분한 결과와 원 문제를 미분한 것과 동일하기 때문에 계산이 편리한 로그를 사용) $$ \log L(\theta) = k log \theta + (n-k) \log (1-\theta)$$ 위 식을 $\theta$로 미분하여 0을 만족하는 MLE는 다음과 같다. $$\hat{\theta}_{M L}=\frac{k}{n}$$ 위 MLE 를 해석해보면, 총 시도 횟수에 대한 앞면(head) 발생 횟수의 비율로 head 확률을 추정하는 것은 당연하다고 볼 수 있습니다. Q & A ) 그러나 2 회 시행 중 haed 발생을 2 회 관찰했다면 어떨까요? $p(\theta)$ 의 확률이 1이라고 믿는 것이 합리적인가요? 일반적인 동전의 head가 나올 확률은 $\frac{1}{2}$ 이므로 합리적이지 않음! Coin flipping example - MAP approach 알려지지 않은 변수에 대한 prior information를 도입하여 MLE의 문제를 완화 할 수 있습니다. beta distrubution는 확률에 대한 prior belief를 통합하는 좋은 방법이 될 수 있습니다. Conjugate prior는 posterior distribution가 prior distributation와 동일한 모양을 갖도록 만드는 것입니다. $$\begin{array}{l} Beta distributation Mean and variance of Beta distribution $$\begin{aligned} Note that the mode and the mean of the Beta distribution is different as the mode is defined by $$\frac{\alpha - 1}{\alpha + \beta - 2}$$ Coin flipping example-MAP approach Fort coin tossing example, (bayes theory 이용하여 전개 후 로그 취함) $$\log p(\theta \mid D) \propto(k+\alpha-1) \log \theta+(n+\beta-1-k) \log (1-\theta)$$ The MAP estimator is determined as follows: $$\hat{\theta}_{M A P}=\frac{k+\alpha-1}{n+\alpha+\beta-2}$$
prior distribution and likelihood posterior distribution Bayesian learning Reference
|