구글 브레인에서 발표한 이 페이퍼는 최근 ImageNet에 대한 모델들의 성능이 상당히 포화되고 있는 시점에서, ImageNet이 과연 신경망 모델의 성능을 잘 반영하고 있는지에 대한 물음을 보낸다. 즉 최근 모델이 ImageNet에서 더 높은 성능을 보이는 것이 과연 진짜로 학습 및 일반화 역량이 더 큰 모델을 의미하는 것이 맞느냐는 것이다.
여기서 페이퍼는 ImageNet이 가지고 있는 여러 가지 labeling error에 주목한다. 페이퍼에서 지적하는 ImageNet의 labeling error는 1) 이미지 내에 여러 개의 물체들이 포함되어있음에도 그 중 하나의 이미지에 대한 레이블링만 이루어진다는 점, 2) labeling이 overly restrictive하다는 점 (대충 어떤 노란 버스를 '차량'이라고 레이블링한다면 맞다고 할 수 있지만, '스쿨 버스'라는 레이블이 있는 상황에서는 틀린 게 된다는 뉘앙스인 듯), 3) 그리고 중복되는 여러 labeling이 존재한다는 점(e.g. sunglasses, sunglass)이다. 이러한 오류들로 인해 모델 성능에 대한 왜곡이 일어날 수 있다.
그래서 페이퍼에서는 이러한 점을 고려하여 ImageNet을 새롭게 레이블링한 데이터셋 ReaL (Reassessed Labels)을 제안한다. 이런 저런 복잡한 방법을 사용했지만, 요약하자면 이미 학습된 여러 모델들과 사람의 힘을 빌려, 틀린 이미지들을 제외하고 하나의 이미지가 복수의 label을 가질 수 있도록 설계한 데이터셋이다.
그리고 이러한 ReaL 데이터셋에 기존의 SOTA 모델들을 새로이 평가 및 비교하는데, 여기서부터 페이퍼의 내용들이 아주 흥미롭다. ImageNet에 대한 정확도가 다소 낮은 모델들은, ImageNet에서의 성능과 ReaL에서의 성능이 아주 강한 양의 상관 관계를 보여 준다. 하지만 ImageNet에 대한 정확도가 높아질수록 이러한 상관 관계가 약해지는 모습을 확인할 수 있다. 더욱이 이러한 모델들은 ImageNet의 ground truth label을 ReaL에 대해 평가한 것보다 더 높은 정확도를 보여주기도 한다. 이는 최근의 모델의 성능들이 ImageNet의 이런 저런 오류들에 over-fitting 되어 있으며, ImageNet이 더 이상 모델의 성능을 투명하게 보여주지 못함을 암시한다.
또한 ImageNet이 단 하나의 label만 가질 수 있다는 사실로 인한 모델의 행동을 파악하기 위해 추가적인 실험을 진행한다. 모델의 first prediction과 secondary prediction의 성능을 ReaL에 대해 평가 및 비교한 것이다. Single label을 따르는 ImageNet으로 학습되었기 때문에 당연히 secondary prediction의 성능이 first prediction에 비해 크게 낮지만, 이 두 성능이 아주 강한 상관 관계를 가짐을 확인할 수 있다. 이는 ReaL의 first prediction accuracy가 모델의 성능을 (아직까지는) 투명하게 반영할 수 있음을 말한다.
한편 여러 개의 중복되는 label이 존재하는 상황에서 기존의 모델들이 특정한 bias를 가지게 됨을 보인다. Bias가 없는 모델의 경우 중복된 label이 총 세 개가 있다면 각각의 label에 대한 accuracy가 최대 33%가 되어야 하는데, 실제로 찍어 보니 어느 특정 label에 대한 accuracy가 80~90%가 나오더라는 것이다. 이에 기존의 모델들의 ImageNet에 대한 성능 향상들은 이러한 bias에 fitting함으로써 이루어졌을 수도 있다고 경고한다.
마지막으로 이러한 ImageNet의 오류들에 robust한 모델 학습 방법을 실험 및 제안하면서 페이퍼를 마무리한다. 첫째는 softmax 같이 exclusive한 prediction 말고 sigmoid 같이 non-exclusive한 prediction task를 학습하라는 것이고, 둘째는 모델을 cross-validation하듯이 학습하여 noisy label을 거른 후 학습하라는 것이다. 이에 실험을 통해 첫째 방법, 둘째 방법 모두 모델의 성능을 높이는 데 도움이 되었으며, 두 방법을 모두 합함으로써 더욱 더 성능을 높일 수 있음을 보인다.
마지막으로 label이 noisy한 상황에서는 오랜 학습이 오히려 성능을 해친다는 페이퍼의 제언을 따라 첫째 방법을 통해 필터링된 데이터셋에 대한 학습이 오랜 학습에서 더 뛰어난 성능을 보인다는 것을 보인다.
가볍게 읽을 수 있으면서도 굉장히 흥미로운 페이퍼였다.
E.O.D.