ICML'15
딥러닝 모델 학습 시에 각 layer의 input distribution이 계속해서 변동하는 internal covariate shift 현상이 발생하고, 이 영향은 딥러닝 모델이 깊어질수록 나비효과처럼 커져 모델의 학습을 느리게 만들거나 gradient exploding/vanishing과 같이 모델의 학습을 어렵게 만드는 현상으로 나타난다. 이러한 internal covariate shift를 해결하기 위해 각 layer의 input distribution을 mini batch에 기반하여 normalization하는 Batch Normalization 기법을 제안한다. (상세 페이지 참고)
https://arxiv.org/abs/1502.03167NIPS'14
Generative Adversarial Networks
그 유명한 GAN이다. 가짜 데이터를 생성해내는 모델 generator와 주어진 데이터가 가짜인지 진짜인지 판별해내는 모델 discriminator를 경쟁하듯 학습시킴으로써 두 모델의 성능을 동시에 끌어올리고, 이렇게 학습된 generator를 통해 실제 데이터와 유사한 데이터를 생성해내고자 한다. (상세 페이지 참고)
https://arxiv.org/abs/1406.2661ICML'20
많은 모델이 잘 모르는 데이터에도 (혹은 잘못된 추론에도) 아주 높은 classification confidence를 보이는 overconfidence 문제를 갖는다. 이 페이퍼는 이를 해결하기 위해 model parameter의 분포를 Gaussian으로 가정하여 (activation function이 sigmoid 혹은 softmax일 경우) Gaussian-probit approximation으로 모델의 predictive distribution을 근사하고, 이러한 predictive distribution의 out-of-distribution data에 대한 confidence가 distribution parameter(mean, variance)에 의한 upper bound를 가짐을 보인다. 더욱이 DNN model의 모든 parameter가 아니라 맨 마지막 layer의 parameter에 대해서만 위와 같은 approximation을 진행해도 동일한 결과가 도출됨을 보인다. 즉 따로 학습할 필요 없이 적은 연산으로 model uncertainty를 도출해낼 수 있다.
https://arxiv.org/abs/2002.10118
보통 사람은 쉬운 문제를 배우고 나면, “조금 더 오래 생각함으로써” 같은 종류의 더 어려운 문제를 풀어낼 수 있다. 하지만 딥러닝 모델은 보통 그러지 못하는데, 네트워크의 구조가 사전에 미리 정해져있기 때문이다. 이로 인해 기존의 딥러닝 모델들은 “조금 더 오래 생각함으로써 학습한 것보다 더 어려운 문제를 풀어내는 일”이 불가능하다고 평가되어왔다. 이러한 상황에서 이번 페이퍼는 recurrent model을 통해, recurrent module의 iteration을 늘림으로써, 모델이 “더 오래 생각하게” 할 수 있다고 주장하며, 이를 입장하기 위한 실험을 진행한다.
https://arxiv.org/abs/2106.04537ICCV'21
기존의 CAM은 잘 작동하는 것 같기는 하지만, 그 의미를 해석하기 어렵다는 문제가 있다. 이를 해결하는 것이 논문의 주요 문제의식이며, 이 해결을 위해 페이퍼에서는 이미지의 위치 정보를 latent variable Z로 도입하여 p(y, z|x)라는 확률적으로 해석 가능한 activation map을 뽑아낼 것을 제안한다. 이 때 이러한 확률적 해석이 가능하도록 유도하기 위해 Z에 대한 feature를 EM 알고리즘을 활용하여 학습한다.
https://arxiv.org/abs/2106.07861ICLR'21
모델의 generalization과 정확도 성능 향상이라는 측면에서 2015년에 발표된 Batch Normalization은 이제 딥러닝 모델 설계의 표준적인 component가 되었다. 최근의 SOTA 모델들은 그 분야에 상관 없이 대부분이 BN layer를 포함한다. 하지만 이러한 유행(?)에도 불구하고, Batch Normalization이 대체 왜 좋은지, 어떻게 이러한 영향을 주게 되는지에 대한 mechanism에 대한 이해는 부족한 상태이다. 특히 Batch Normalization은 1) covariate shift 현상을 해소하고, 2) 더 높은 learning rate을 사용할 수 있도록 하며, 3) model initialization을 개선하고, 4) conditioning(?)을 개선하는 등 여러 가지 효과를 가지고 있는 것으로 알려져 있는데, 이렇게 여러 효과들이 서로 섞여 오히려 정확한 mechanism을 파악하는 것을 어렵게 만들고는 한다. 이에 따라 이 페이퍼에서는 Batch Normalization의 효과를 여러 개의 단순한 component로 분해(deconstruct)하여 각각의 영향력들을 조사하고, 이로써 Batch Normalization의 mechanism을 더욱 자세히 이해하고자 한다.
https://openreview.net/forum?id=d-XzF81Wg1ICRL'18
통상적으로 딥러닝 모델을 학습할 때, true distribution과 predictive distribution 사이의 average loss를 최소화하는 risk minimization 문제를 풀고자 한다. 하지만 우리에게는 true distribution이 주어져있지 않으므로, 주어진 데이터셋에 대한 average loss인 empirical risk로 true risk를 approximation한다. 이렇게 데이터셋에 대한 average loss를 최소화하여 모델을 학습하는 프레임워크를 ERM(Empirical Risk Minimization)이라고 한다. 한편 모델의 memorization을 방지하기 위해 데이터셋을 augmentation하여 문제를 푸는 것을 VRM(Vicinal Risk Minimization)이라고 한다. 이 페이퍼는 이러한 VRM의 한 방법으로 mixup을 제안하는데, 두 raw input x_i, x_j와 이에 해당하는 one-hot-encoded label y_i, y_j를 Beta distribution에서 표집된 labmda를 이용하여 x' = lambda*x_i + (1 - labmda)*x_j, y' = lambda*y_i + (1 - lambda)*y_j 라는 augmented data를 생성하는 것이다! (처음에는 의아했는데 정말로 이미지를 linear combination하는 것이 맞다.) 이로써 모델의 memorization을 방지하고, generalization 성능을 높이는 데 도움을 줄 수 있음을 보인다.
https://arxiv.org/abs/1710.09412CVPR'20
Labeled target dataset이 주어진 상황에서, unlabeled dataset을 활용해 target dataset(페이퍼에서는 ImageNet)에 대한 모델의 성능을 높이는 self-training framework를 제안한다. 우선 labeled target dataset에 대해 (teacher) 모델을 학습하고, 학습된 모델을 이용해 unlabeled dataset에 pseudo-labeling을 진행하고, 이렇게 pseudo-labeling된 unlabeled dataset과 labeled target dataset을 통해 joint training을 수행하여 새로운 (student) 모델을 학습하고, 이 모델을 통해 다시 pseudo-labeling을 진행하기를 반복하여 모델의 성능을 개선한다. 이 때 기존의 self-training과 다른 점은 1) teacher model에 비해 student model이 작지 않은 점, 2) student model이 unlabeled dataset을 학습할 때 noise(regularization & augmentation)을 가한다는 것이다. 이러한 noisy student self-training을 이용해 뛰어나면서도 robust한 모델을 만들어낼 수 있음을 보인다.
https://arxiv.org/abs/1911.04252NeurIPS'20
대부분의 경우 딥러닝 모델을 학습할 때 의심 없이 ImageNet pre-training weight을 initialization point로 사용한다. 구글 브레인의 이 페이퍼는 이러한 관습에 의문을 보내며, 일련의 실험을 통해 image augmentation의 강도가 세지고, labeled dataset의 규모가 커질수록 pre-training의 효용이 떨어지며, 심지어는 pre-training이 모델의 최종적인 성능에 부정적인 영향을 줄 수 있음을 보인다. 풀고자 하는 task에 따라 ImageNet classification task로부터의 adaptation이 어려울 수 있다는 것이다. 또한 이에 따라 task-specific하지 않은 보다 general한 self-training이 pre-training이 모델의 전체적인 성능을 해치는 상황(intense augmentation, large labeled dataset)에서도 모델의 성능을 안정적으로 향상시킬 수 있음을 밝힌다.
https://arxiv.org/abs/2006.06882
구글 브레인에서 발표한 이 페이퍼는 최근 ImageNet에 대한 모델들의 성능이 상당히 포화되고 있는 시점에서, ImageNet이 과연 신경망 모델의 성능을 잘 반영하고 있는지에 대한 물음을 보낸다. 즉 최근 모델이 ImageNet에서 더 높은 성능을 보이는 것이 과연 진짜로 학습 및 일반화 역량이 더 큰 모델을 의미하는 것이 맞느냐는 것이다. (상세 페이지 참고)
https://arxiv.org/abs/2006.07159