🗡️

Style Normalization and Restitution for Generalizable Person Re-identification

Tags

Re-identification

Model Architecture

Created

2021/01/31 08:06

Publication

CVPR'20

Rate

Source

https://arxiv.org/abs/2005.11037

Summary

(상세 페이지 참고)

이번 페이퍼에서는 Re-ID 모델의 generalizability를 강화해 주는 모듈을 제안한다. 보통 person re-identification의 domain gap을 메꾸려는 시도는 pseudo-labeling 등의 방식으로 unlabeled target domain의 데이터셋을 이용하는 등의 unsupervision 위주로 이루어졌는데, 이 페이퍼는 다른 데이터셋에 direct transfer해도 괜찮은 성능을 내는 것을 목표로 하는 신선한 방법을 제안한다. 더욱이 module 형식으로, 어떤 CNN 모델에도 적용할 수 있다.

역시나 cross-domain re-ID의 가장 큰 문제는 데이터셋 간의 style-variation이다. 논문에서는 이를 해결하기 위해 이미지의 style을 normalization하는 방식의 접근인 IN(Instance Normalization)에 주목한다. IN은 말 그대로 instance(i.e. 이미지)의 style-variation을 제거하는 역할을 한다. 하지만 문제는 이러한 normalization 과정에서 identity-discriminative한 정보가 제거될 수 있다는 것인데, 페이퍼에서는 IN의 이러한 문제를 보완하기 위해 normalization으로부터 제거된 정보(residual information)를 identity-discriminative한 정보와 그렇지 않은 정보로 구별하도록 하는 프레임워크(SNR - Style Normalization and Restitution)를 제안한다.

Style Normalization Phase

Style normalization은, feature map을 입력받아 normalize된 (동일한 dimension의)feature map을 출력함으로써 작동한다. 수식으로 다음과 같이 쓸 수 있다.

\tilde{F} = IN(F) = \gamma (\frac{ F - \mu{(F)} }{ \sigma{(F)} }) + \beta

여기서

\mu{()}

와

\sigma{()}

는 하나의 이미지(instance) 내에서, 각각의 channel 마다 spatial dimension의 평균과 표준편차를 각각 구한 것이며,

\gamma

와

\beta

는 back propagation으로 학습되는 parameter이다. 이러한 IN은 말 그대로 이미지의 style을 normalize하는 효과를 갖는다고 한다.

Style Restitution Phase

먼저 normalization으로 제거된 정보인 residual feature $R$ 을 다음과 같이 정의한다.

R = F - \tilde{F}

SNR에서는 channel attention vector인

a=[a_1, a_2, ..., a_c]

를 이용하여 다음과 같이 residual feature를 discriminative information을 포함한

R^+

과 그렇지 않은

R^-

로 구분한다.

R^+{(:, :, k)} = a_k R(:, :, k) \\ R^-{(:, :, k)} = (1 - a_k) R(:, :, k)

이 때 channel attention vector는 다음과 같은 통상적인 channel attention layer를 거쳐 계산된다.

a = \text{Sigmoid}{( W_2 \text{ReLU}{( W_1 \text{Pool}_{avg}{(R)} )} )}

Dual Causality Loss Constraint

위와 같은 restitution 단계에서,

R^+

와

R^-

의 구별을 원활하게 하기 위해 다음과 같은 constraint loss를 제안한다. 직관적으로 설명하자면,

R^+

가 discriminability를 강화하고,

R^-

가 discriminability를 약화하는 방향으로 SNR module을 학습시키는 것이다. 우선 enhanced feature과 contaminated feature를 다음과 같이 정의한다.

\tilde{F}^+ = \tilde{F} + R^+ \\ \tilde{F}^- = \tilde{F} + R^-

그러면 우선 enhanced feature의 경우 그냥 normalize된 feature에 비해 discriminability가 강할 것을 기대할 수 있다. 이를 다음과 같은 제약으로 표현한다. 즉 feature enhancing이 positive pair의 경우에는 거리를 더 가깝게 만들고, negative pair의 경우에는 거리를 더 크게 만들 것이다. (

\tilde{f} = \text{Pool}_{avg}(\tilde{F})

)

L_{SNR}^+ = \text{Softplus}{( d(\tilde{f}_a^+, \tilde{f}_p^+) - d(\tilde{f}_a, \tilde{f}_p) )} + \text{Softplus}{( d(\tilde{f}_a, \tilde{f}_n) - d(\tilde{f}_a^+, \tilde{f}_n^+) )}

반대로 contaminated feature의 경우 discriminability가 더 약할 것을 기대할 수 있다. 즉 positive pair의 경우에는 거리를 더 멀게 만들고, negative pair의 경우에는 거리를 더 가깝게 만드는 것이다.

L_{SNR}^- = \text{Softplus}{( d(\tilde{f}_a, \tilde{f}_p) - d(\tilde{f}_a^-, \tilde{f}_p^-) )} + \text{Softplus}{( d(\tilde{f}_a^-, \tilde{f}_n^-) - d(\tilde{f}_a, \tilde{f}_n) )}

이제 최종적인 loss를 다음과 같이 구성하여 모델을 학습한다.

L_{ReID}

는 re-ID 모델에서 통상적으로 사용하는 loss의 조합(e.g. Softmax + Hard Triplet loss)을 의미하며,

b

는 삽입된 모듈의 개수이다.

이외의 실험 결과는 자세히 보지는 않았다. 나중에 기회가 된다면 조금 더 자세히 보고 추가하도록 할 예정이다. 인상적인 부분은, SNR 프레임워크에 기존의 SOTA UDA 알고리즘 중 하나인 MAR을 적용하여 성능을 크게 개선했다는 점이다.

E.O.D.