🌃

RegularFace: Deep Face Recognition via Exclusive Regularization

Tags

Re-identification

Created

2021/01/31 08:25

Publication

CVPR'19

Rate

Source

https://openaccess.thecvf.com/content_CVPR_2019/papers/Zhao_RegularFace_Deep_Face_Recognition_via_Exclusive_Regularization_CVPR_2019_paper.pdf

Summary

(상세 페이지 참고)

Face recognition은 사람의 얼굴을 알아보는, 즉 이 사람이 누구이고 저 사람이 누구인지를 알아내는 태스크이다. 흔한 전략은 얼굴 이미지로부터 CNN을 통해 추출해낸 feature 간의 거리를 가지고 사람의 얼굴을 알아보자는 것인데, 예컨대 feature distance가 특정 treshold 값 이하이면 같은 사람이라고 예측한 것으로 보는 식이다.

이러한 상황에서 feature가 가져야 할 핵심 특성 두 가지가 바로 1) intra-class compactness(동일 인물의 feature들이 최대한 서로 가깝게 위치함)와 2) inter-class separability(서로 다른 인물의 feature들이 서로 멀리 떨어져 있음)이다. 페이퍼가 주장하기로는 최근 face recognition의 많은 연구들이 intra-class compactness를 확보하고자 했지만, 그 동안 inter-class separability에 대한 연구는 활발히 이루어지지 않았다. 따라서 페이퍼에서는 inter-class separability를 확보하기 위한 exclusive regularization method를 제안한다.

막 엄청 관심이 많은 페이퍼는 아니니 새로운 부분인 loss를 위주로 정리한다.

Intra-class Compactness

먼저 intra-class compactness에 대한 최근의 연구 동향에 대해 알아본다. 대표적으로 center loss와 SphereFace 모델에서 제안한 angular softmax loss가 있다.

먼저 center loss는 아주 간단한데, 어떠한 identity를 가진 이미지들의 feature embedding이 그 identity의 center embedding과 가깝도록 L2 loss를 통해 유도한다. 이 때

y_i

는 sample

i

의 identity label을 의미하고,

x_i

는 이미지

i

의 feature embedding,

c_{y_i}

는 해당 identity의 center embedding을 의미한다.

L_{center} = \frac{1}{2} \sum_{i = 1}^N{ || x_i - c_{y_i} ||^2_2 }

또 angular softmax loss는 말그대로 softmax loss인데, input 값으로 angle을 사용한다고 볼 수 있다. 즉 통상적인 softmax loss는 아래와 같은데, (여기서

W

는

K

dimension의 feature embedding을

C

class의 사후확률로 mapping하는 행렬이다.)

p_c(x_i) = \frac{ \exp{( W_c^T x_i + b_c )} }{\sum_{j = 1}^C{ \exp{( W_j^T x_i + b_j )} }}

Angular softmax loss는

W_j

와

x_i

의 각도를 나타내는

\phi_{i, j}

를 이용하여 다음과 같이 구한다.

p_c(x_i) = \frac{ \exp{( || x_i || \cos{( \phi_{i, c} )} )} }{\sum_{j = 1}^C{ \exp{( || x_j || \cos{( \phi_{i, j} )} )} }}

한편 SphereFace에서는 decision boundary의 margin을 확보하기 위해 다음과 같이 확장판 angular softmax loss를 사용한다!

p_c(x_i) = \frac{ \exp{( || x_i || \cos{( m \phi_{i, c} )} )} } {\exp{( || x_i || \cos{( m \phi_{i, c} )} )} + \sum_{j ≠ y_i}^C{ \exp{( || x_j || \cos{( \phi_{i, j} )} )} }}

위와 같은 확장판의 의미를 직관적으로 이해하는 것이 나에게는 꽤 어려운 일이었다. Posterior probability 값에 따른 loss 값의 변화를 생각해보면 이해가 쉬운데, simplicity를 위해 위 식의

\sum{(...)}

부분을 B로, 나머지 부분을 A로 간주하고, cosine 함수는 일단 무시하자. 그러면 loss값의 변화를 나타내는 factor

k

를 이용해 standard softmax loss와 확장된 softmax loss의 관계를 다음과 같이 표현할 수 있다.

k \frac{A}{A + B} = \frac{mA}{mA + B} \\{}\\ k = \frac{mA + mB}{mA + B}

따라서

m = 1

일 때

k = 1

이어서 확장판이 standard 버전과 같고,

m > 1

이라면 B가 커질수록

k

값이 커짐을 관찰할 수 있다. 이를 softmax와 접목해 생각해보면, 사후 확률(posterior probability)

A

가 작을수록 (즉

B

가 커질수록)

k

값이 커져 그 probability가 과대평가되고, 사후 확률이 클수록 (즉

A

가 클수록,

B

가 작을수록) 사후 확률이 과소평가됨으로써 posterior probability가 평준화됨을 알 수 있다. 즉, softmax 값이 고만고만해진다는 소리이다. 따라서 이러한 확장판은 margin을 확보하는 데 도움이 된다. (참고로 사후 확률이라는 용어는 적합하지 않다. Normalization 되지 않은 사후 확률 정도로 생각해 두자.)

Intra-class Separability

거두절미하고, 페이퍼에서는 특정 class $i$의 intra-class separability를 다음과 같이 평가할 수 있다고 주장한다.

\text{Sep}_i = \text{maxcos}_{i ≠ j}{(\varphi_{i, j})} \\{}\\ = \text{max}_{i ≠ j}{\frac{ W_i W_j }{ ||W_i|| ||W_j|| }}

말로 설명하자면, class

i

와 가장 유사한 (각도를 가진) class

j

와의 유사도이다. 따라서 전체적인 intra-class separability를 고려하면, 이러한 sep의 mean과 variance가 둘 다 낮은 것이 이상적이다. 어쨌거나 위를 이용하여 바로 intra-class separability를 위한 loss를 다음과 같이 계산한다.

L_r{(W)} = \frac{1}{C} \sum_i{ \text{max}_{i ≠ j}{\frac{ W_i W_j }{ ||W_i|| || W_j || }} }

최종적인 loss는 위와 같은 intra-class separability loss와 위에서 소개한 inter-class compactness loss 중의 하나를 사용하면 된다. 물론 balance parameter

\lambda

를 이용하여 두 값을 중재한다. 더 자세한 사항들은 페이퍼를 참고하자!

개인적으로 survey 같은 느낌이 나서 나름대로 흥미롭게 읽은 페이퍼이다.

E.O.D.