Label이 있는 source domain으로부터 label이 없는 target domain으로 person re-identification 모델을 전이학습하기 위한 unsupervised learning 전략이다. 뭔가 전략이 재밌어서 간단히 요약한다.
먼저 source domain에 모델을 Softmax loss와 Triplet loss를 이용하여 학습한다. 목표는 학습된 모델을 target domain에 맞게 fine-tuning하는 것이다.
이제 학습된 모델을 통해 target domain의 이미지들의 feature를 뽑아낸다. 이를 full part(전체 feature), upper part(상단 절반), lower part(하단 절반) 세 부분으로 나눈다.
그 다음 각 part에 대한 feature gallery를 어떤 알고리즘을 이용하여 서로 비슷한 여러 개의 그룹으로 clustering한다. 이제 각각 분류된 cluster를 pseudo-label로 간주하여 Triplet loss를 통해 모델을 학습하는데, 모종의 이유로 full part embedding을 FC layer를 통해 변환된 feature embedding을 대상으로도 loss를 계산한다. 즉, 최종 loss는 full part의 Triplet loss 2개와 upper part, lower part 각각 하나씩 총 4개의 loss를 더하여 구하게 된다.
매 iteration(epoch?) 마다 clustering을 하고, 이를 통한 pseudo-label을 학습하는 과정을 반복하는 것이 모델의 학습 전략이다.
이러한 unsupervised training 전략을 통해 direct transfer보다 우월한 성능을 얻어낼 수 있다. 하지만, 아직 fully supervised training과는 큰 성능 차이를 보이는데, 논문에서는 이러한 차이를 다음과 같은 새로운 semi supervision 전략으로 좁히고자 한다.
우선 어떤 알고리즘으로 target domain의 이미지들을 개의 그룹으로 clustering한다. 그 후 각각의 그룹에서 이미지를 하나씩 뽑아 각각의 label을 할당한다. 이렇게 뽑혀서 형성된 개의 이미지 그룹을 라 한다. 이제 target domain의 임의의 이미지 가 주어졌을 때, 에서 가장 feature가 비슷한 이미지의 label을 할당한다. Clustering을 통해 다른 그룹으로 분류된 이미지라면, 아마 둘의 identity가 동일할 확률은 적을 것이다. 이러한 label 정보를 이용하여 역시나 Triplet loss를 통해 semi-supervised learning을 진행한다.
Semi-supervision 부분이 특히 직관적이면서도 흥미롭다.
E.O.D.