이번 페이퍼에서는 Re-ID 모델의 generalizability를 강화해 주는 모듈을 제안한다. 보통 person re-identification의 domain gap을 메꾸려는 시도는 pseudo-labeling 등의 방식으로 unlabeled target domain의 데이터셋을 이용하는 등의 unsupervision 위주로 이루어졌는데, 이 페이퍼는 다른 데이터셋에 direct transfer해도 괜찮은 성능을 내는 것을 목표로 하는 신선한 방법을 제안한다. 더욱이 module 형식으로, 어떤 CNN 모델에도 적용할 수 있다.
역시나 cross-domain re-ID의 가장 큰 문제는 데이터셋 간의 style-variation이다. 논문에서는 이를 해결하기 위해 이미지의 style을 normalization하는 방식의 접근인 IN(Instance Normalization)에 주목한다. IN은 말 그대로 instance(i.e. 이미지)의 style-variation을 제거하는 역할을 한다. 하지만 문제는 이러한 normalization 과정에서 identity-discriminative한 정보가 제거될 수 있다는 것인데, 페이퍼에서는 IN의 이러한 문제를 보완하기 위해 normalization으로부터 제거된 정보(residual information)를 identity-discriminative한 정보와 그렇지 않은 정보로 구별하도록 하는 프레임워크(SNR - Style Normalization and Restitution)를 제안한다.
Style Normalization Phase
Style normalization은, feature map을 입력받아 normalize된 (동일한 dimension의)feature map을 출력함으로써 작동한다. 수식으로 다음과 같이 쓸 수 있다.
여기서 와 는 하나의 이미지(instance) 내에서, 각각의 channel 마다 spatial dimension의 평균과 표준편차를 각각 구한 것이며, 와 는 back propagation으로 학습되는 parameter이다. 이러한 IN은 말 그대로 이미지의 style을 normalize하는 효과를 갖는다고 한다.
Style Restitution Phase
먼저 normalization으로 제거된 정보인 residual feature $R$ 을 다음과 같이 정의한다.
SNR에서는 channel attention vector인 를 이용하여 다음과 같이 residual feature를 discriminative information을 포함한 과 그렇지 않은 로 구분한다.
이 때 channel attention vector는 다음과 같은 통상적인 channel attention layer를 거쳐 계산된다.
Dual Causality Loss Constraint
위와 같은 restitution 단계에서, 와 의 구별을 원활하게 하기 위해 다음과 같은 constraint loss를 제안한다. 직관적으로 설명하자면, 가 discriminability를 강화하고, 가 discriminability를 약화하는 방향으로 SNR module을 학습시키는 것이다. 우선 enhanced feature과 contaminated feature를 다음과 같이 정의한다.
그러면 우선 enhanced feature의 경우 그냥 normalize된 feature에 비해 discriminability가 강할 것을 기대할 수 있다. 이를 다음과 같은 제약으로 표현한다. 즉 feature enhancing이 positive pair의 경우에는 거리를 더 가깝게 만들고, negative pair의 경우에는 거리를 더 크게 만들 것이다. ()
반대로 contaminated feature의 경우 discriminability가 더 약할 것을 기대할 수 있다. 즉 positive pair의 경우에는 거리를 더 멀게 만들고, negative pair의 경우에는 거리를 더 가깝게 만드는 것이다.
이제 최종적인 loss를 다음과 같이 구성하여 모델을 학습한다. 는 re-ID 모델에서 통상적으로 사용하는 loss의 조합(e.g. Softmax + Hard Triplet loss)을 의미하며, 는 삽입된 모듈의 개수이다.
이외의 실험 결과는 자세히 보지는 않았다. 나중에 기회가 된다면 조금 더 자세히 보고 추가하도록 할 예정이다. 인상적인 부분은, SNR 프레임워크에 기존의 SOTA UDA 알고리즘 중 하나인 MAR을 적용하여 성능을 크게 개선했다는 점이다.
E.O.D.