통상적으로 딥러닝 모델을 학습할 때, true distribution과 predictive distribution 사이의 average loss를 최소화하는 risk minimization 문제를 풀고자 한다. 하지만 우리에게는 true distribution이 주어져있지 않으므로, 주어진 데이터셋에 대한 average loss인 empirical risk로 true risk를 approximation한다. 이렇게 데이터셋에 대한 average loss를 최소화하여 모델을 학습하는 프레임워크를 ERM(Empirical Risk Minimization)이라고 한다. 한편 모델의 memorization을 방지하기 위해 데이터셋을 augmentation하여 문제를 푸는 것을 VRM(Vicinal Risk Minimization)이라고 한다. 이 페이퍼는 이러한 VRM의 한 방법으로 mixup을 제안하는데, 두 raw input x_i, x_j와 이에 해당하는 one-hot-encoded label y_i, y_j를 Beta distribution에서 표집된 labmda를 이용하여 x' = lambda*x_i + (1 - labmda)*x_j, y' = lambda*y_i + (1 - lambda)*y_j 라는 augmented data를 생성하는 것이다! (처음에는 의아했는데 정말로 이미지를 linear combination하는 것이 맞다.) 이로써 모델의 memorization을 방지하고, generalization 성능을 높이는 데 도움을 줄 수 있음을 보인다.