๐ŸŽก

Label Distribution Learning

Tags
Model Training
Survey
Created
2021/01/31 08:49
Publication
Rate
3
Source
Summary
(์ƒ์„ธ ํŽ˜์ด์ง€ ์ฐธ๊ณ )

Reference

๋‚˜์ด ํ˜น์€ ์ž์„ธ, ์–ผ๊ตด ํ‘œ์ •๊ณผ ๊ฐ™์ด ground truth label์„ ์ฐ๊ธฐ๋„ ์• ๋งคํ•œ ๋ฌธ์ œ๋ฅผ ๋”ฅ๋Ÿฌ๋‹์œผ๋กœ ํ’€๊ณ ์ž ํ•  ๋•Œ ๋งŽ์€ ์• ๋งคํ•จ์ด ๋ฐœ์ƒํ•œ๋‹ค. ์กฐ๊ธˆ๋งŒ ์ƒ์ƒํ•ด๋ด๋„ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๊ณ  ์‚ฌ๋žŒ์˜ ํ‘œ์ •์ด ์ •ํ™•ํžˆ ์–ด๋– ํ•œ์ง€, ๋‚˜์ด๋Š” ์ •ํ™•ํžˆ ๋ช‡์ธ์ง€, ์–ด๋– ํ•œ ์ž์„ธ๋ฅผ ํ•˜๊ณ  ์žˆ๋Š”์ง€ ๋งž์ถ”์–ด๋‚ด๊ธฐ๋ž€ ์‰ฝ์ง€ ์•Š์€ ์ผ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๋ถ€์ •ํ™•ํ•œ ๋ ˆ์ด๋ธ”์„ ๊ฐ€์ง€๊ณ  ํ•˜๋Š” supervised learning์ด ๋‹น์—ฐํžˆ ์ž˜ ๋  ๋ฆฌ๊ฐ€ ์—†๋‹ค.
์ด๋Ÿฌํ•œ ์ƒํ™ฉ์— ์ ์šฉํ•ด๋ณผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉ๋ฒ•์ด ๋ฐ”๋กœ label distribution learning์ด๋‹ค. LDL์ด ๋ฌด์—‡์ธ๊ฐ€ ํ•˜๋ฉด, ๋ฐ”๋กœ ๋‚˜์ด, ํ‘œ์ •, ์ž์„ธ ๋“ฑ์˜ label ๊ทธ ์ž์ฒด๋ฅผ ํ•™์Šตํ•˜๊ธฐ๋ณด๋‹ค๋Š”, label์˜ ํ™•๋ฅ ์  ๋ถ„ํฌ(distribution)๋ฅผ ํ•™์Šตํ•จ์œผ๋กœ์จ label์— ๋‚ด์žฌํ•˜๋Š” ambiguity๋ฅผ ํ•™์Šต ์‹œ์— ๊ณ ๋ คํ•˜๊ณ ์ž ํ•˜๋Š” ๋ฐฉ๋ฒ•๋ก ์ด๋‹ค.

Label Distribution Learning

๊ธฐ์กด์˜ SLL(Single Label Learning)์ด๋‚˜ MLL(Multi Label Learning)์€ ์–ด๋– ํ•œ instance๋Š” ์˜ค์ง ํ•˜๋‚˜์˜ ground truth(ํ˜น์€ ground truth set)๋ฅผ ๊ฐ€์ง„๋‹ค๊ณ  ์ƒ์ •ํ•œ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์–ด๋–ค ์‚ฌ๋žŒ์˜ ๋‚˜์ด๋Š” ์ •ํ™•ํžˆ 36์ด๊ฑฐ๋‚˜ 35์ด๊ณ , ๋˜ ์–ด๋–ค ์–ผ๊ตด์˜ ํ‘œ์ •์€ ์ •ํ™•ํžˆ ์Šฌํ””์ด๊ฑฐ๋‚˜ ๊ทธ๋ ‡์ง€ ์•Š๊ณ , ๋˜ ์ •ํ™•ํžˆ ํ–‰๋ณต์ด๊ฑฐ๋‚˜ ๊ทธ๋ ‡์ง€ ์•Š์€ ๊ฒƒ์ด๋‹ค. ํ•˜์ง€๋งŒ LDL์—์„œ๋Š” ๋ชจ๋“  possible label๋“ค์ด ๊ฐ๊ฐ ์–ด๋Š ์ •๋„ ๊ทธ instance๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋‹ค๊ณ  ๋ณธ๋‹ค. ์˜ˆ์ปจ๋Œ€ ์–ด๋–ค ์‚ฌ๋žŒ์˜ ๋‚˜์ด๊ฐ€ 35์„ธ ์ฆˆ์Œ์ด๋ผ๋ฉด, 35, 34, 36 ๋“ฑ์˜ ๋‚˜์ด๋Š” ๊ทธ ์‚ฌ๋žŒ(instance)์˜ ๋‚˜์ด๋ฅผ ๊ฝค ์ž˜ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ํ•œํŽธ 12, 82 ๋“ฑ์˜ ๋‚˜์ด๋Š” ๊ทธ ์‚ฌ๋žŒ์˜ ๋‚˜์ด๋ฅผ ๊ทธ๋‹ค์ง€ ๋†’์ง€ ์•Š์€ ์ •๋„๋กœ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ ‡๊ฒŒ ๊ฐ๊ฐ์˜ label์ด instance๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ์ •๋„๋ฅผ ๋ถ„ํฌ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ์ด label distribution์ด๋ฉฐ, ์ด๋Ÿฌํ•œ label distribution์„ ํ•™์Šตํ•˜๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด LDL์ด๋‹ค.
์ด๋ ‡๊ฒŒ label distribution์„ ํ•™์Šตํ•จ์œผ๋กœ์จ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด์ ์€ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋Š”๋ฐ, ๋ฐ”๋กœ 1) label ambiguity๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ ์ด๋Ÿฌํ•œ ambiguity๋ฅผ ๊ณ ๋ คํ•จ์œผ๋กœ์จ ๋ณด๋‹ค ๊ฐ•๊ฑดํ•œ ๋ชจ๋ธ์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๊ณ , ๋˜ 2) ๋‹จ ํ•˜๋‚˜์˜ label์ด ์•„๋‹ˆ๋ผ ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ label์ด ํ•ด๋‹น instance๋ฅผ ์„ค๋ช…ํ•˜๋Š” ์ •๋„๋ฅผ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— label๊ฐ„ correlation์ด ์žˆ๋Š” ๊ฒฝ์šฐ ์ด๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค. ์˜ˆ์ปจ๋Œ€ age estimation ๋ฌธ์ œ๋ฅผ classification ๋ฌธ์ œ๋กœ ํ’€๊ณ ์ž ํ•œ๋‹ค๋ฉด, 34์„ธ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” label์€ 35์„ธ์˜ instance์—๊ฒŒ ์•„๋ฌด๋Ÿฐ ์˜ํ–ฅ๋„ ์ฃผ์ง€ ๋ชปํ•œ๋‹ค. ํ•˜์ง€๋งŒ LDL์—์„œ๋Š” 34์„ธ๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” label์ด 35์„ธ์˜ instance๋ฅผ ๊ฝค ์ž˜ ์„ค๋ช…ํ•œ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ๊ณ , ์ด์— ๋”ฐ๋ผ ๊ทธ ์ฃผ๋ณ€(ํ˜น์€ correlation์ด ์žˆ๋Š”) label์ด ํ•™์Šต์— ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๊ฒŒ ๋˜๋Š” ๊ฒƒ์ด๋‹ค. (ํ•˜์ง€๋งŒ regression์˜ ๊ฒฝ์šฐ๋ผ๋ฉด ์–ด๋– ํ•œ๊ฐ€? ๋˜ ๊ทธ ์˜ํ–ฅ๋ ฅ์ด๋ผ๋Š” ๊ฒƒ์€ ์ •ํ™•ํžˆ ์–ด๋–ค ๊ฒƒ์ธ๊ฐ€? ๋ช…ํ™•ํ•˜์ง€ ์•Š๋‹ค.)
ํ•œํŽธ label distribution์€ ํ™•๋ฅ ์„ ๋‚˜ํƒ€๋‚ด์ง€๋Š” ์•Š๋Š”๋‹ค. ์ฆ‰ p(y=35โˆฃx)=0.4p(y = 35 | x) = 0.4๋ผ๊ณ  ํ•ด์„œ ๊ทธ ์‚ฌ๋žŒ์ด 35์„ธ์ผ ํ™•๋ฅ ์ด 0.4์ž„์„ ๋œปํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. ๊ฐ„๋‹จํžˆ ๋งํ•˜์ž๋ฉด, ๊ฐ๊ฐ์˜ label์ด ํ•ด๋‹น instance๋ฅผ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒ๋Œ€์  ๊ฐ•๋„๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๊ฒ ๋‹ค. ํ•˜์ง€๋งŒ distribution์˜ ํŠน์„ฑ์ƒ โˆ‘kp(ykโˆฃx)=1,p(ykโˆฃx)โ‰ฅ0\sum_k{p(y_k | x)} = 1, p(y_k | x) \geq 0์ž„์„ ์ƒ์ •ํ•˜๋Š” ๊ฒƒ์€ ์ž์—ฐ์Šค๋Ÿฝ๊ณ , ๋”ฐ๋ผ์„œ ํ™•๋ฅ ๊ณผ ๊ด€๋ จ๋œ ์—ฐ์‚ฐ์„ ๊ฐ€ํ•˜๋Š” ๊ฒƒ ์—ญ์‹œ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฐ›์•„๋“ค์ผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•œ๋‹ค.
์ด์ œ โˆ‘kp(ykโˆฃx)=1\sum_k{p(y_k | x)} = 1์ด๋ผ๋Š” ์ œํ•œ์กฐ๊ฑด์„ ์ง€ํ‚ค๊ธฐ ์œ„ํ•ด softmax๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ distribution์„ ์ถ”๋ก ํ•˜๊ณ , ํ•™์Šต์„ ์œ„ํ•ด ์ถ”๋ก ๋œ distribution๊ณผ ์›๋ž˜ distribution์˜ KL divergence๋ฅผ loss๋กœ ์‚ผ์œผ๋ฉด ๋˜๊ฒ ๋‹ค. ํŽ˜์ดํผ์—์„œ๋Š” 1) SLL ํ˜น์€ MLL ๋ฌธ์ œ๋ฅผ ๋ณ€ํ˜•ํ•˜์—ฌ LDL ๋ฌธ์ œ๋กœ ํ’€์–ด๋‚ด๋Š” ๋ฐฉ๋ฒ•, 2) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋ณ€ํ˜•ํ•˜์—ฌ LDL ๋ฌธ์ œ๋กœ ํ’€์–ด๋‚ด๋Š” ๋ฒ•, 3) KL divergence๋ฅผ ์ง์ ‘์ ์œผ๋กœ ์ตœ์ ํ™”ํ•˜๋Š” specialized ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์„ธ ๊ฐ€์ง€๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ํ•˜์ง€๋งŒ ๋”ฅ๋Ÿฌ๋‹์˜ ์‹œ๋Œ€์ด๋‹ˆ ๋”ฅ๋Ÿฌ๋‹์„ ์“ฐ์ง€ ์•Š์„ ์ด์œ ๊ฐ€ ๋ฌด์—‡์ด ์žˆ๊ฒ ๋Š”๊ฐ€?

Deep Label Distribution Learning for Apparent Age Estimation

ChaLearn Age Estimation competition์„ ์œ„ํ•œ ๋ชจ๋ธ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ณด๋‹ˆ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚จ ์ด 4๊ฐœ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•œ ๋ชจ๋ธ๊ณผ ์ด 6๊ฐœ์˜ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•œ ๋ชจ๋ธ์„ ์•™์ƒ๋ธ”ํ•˜์—ฌ ์ตœ์ข…์ ์ธ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•ด๋‚ธ๋‹ค. ์‹ค๋ฌด์—์„œ๋Š” ๋ฆฌ์†Œ์Šค์˜ ์ œํ•œ์œผ๋กœ ์ธํ•ด ๋„์ €ํžˆ ์ด๋ ‡๊ฒŒ๊นŒ์ง€๋Š” ๋ชปํ•˜๊ฒ ์ง€๋งŒ, ์ด ํŽ˜์ดํผ์—์„œ( ์ฃผ์žฅํ•˜๊ธฐ๋กœ)๋Š” ์ตœ์ดˆ๋กœ ๋”ฅ๋Ÿฌ๋‹์„ ํ†ตํ•ด label์ด ์•„๋‹Œ label distribution์„ target์œผ๋กœ ํ•™์Šต์„ ์‹œ๋„ํ•œ๋‹ค๋Š” ๋ฐ ์˜์˜๊ฐ€ ์žˆ๋‹ค. ๋ชจ๋ธ์€ ํฌ๊ฒŒ ๋‘ ๊ฐœ์˜ stream์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.

Stream 1

Stream 1์—์„œ๋Š” backbone network๋กœ VGG-16์„ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Ÿฌํ•œ VGG-16 ๋ชจ๋ธ์„ MORPH ๋ฐ์ดํ„ฐ์…‹์— ํŒŒ์ธํŠœ๋‹ํ•œ ํ›„ ๊ฐ๊ฐ 1) KL divergence loss์™€ Softmax loss, 2) ์„œ๋กœ ๋‹ค๋ฅธ ๋‘ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ํ•™์Šต์‹œ์ผœ ๊ฐ๊ฐ 4๊ฐœ์˜ ๋ชจ๋ธ์„ ์–ป์–ด๋‚ธ๋‹ค. ์ด ๋•Œ age label distribution์€ competition์—์„œ ์ œ๊ณตํ•œ mean๊ณผ variance๋ฅผ ์ด์šฉํ•ด Gaussian ๋ถ„ํฌ๋กœ ์ƒ์„ฑํ•œ๋‹ค.
๊ฐ๊ฐ์˜ ๋ชจ๋ธ์—์„œ๋Š” 85๊ฐœ์˜ feature vector๋ฅผ ๋ฑ‰์–ด๋‚ด๊ณ , 4๊ฐœ์˜ ๋ชจ๋ธ์ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ์ด๋ฅผ concatenateํ•˜๋ฉด ์ด ํฌ๊ธฐ 340์˜ feature vector๋ฅผ ์–ป์–ด๋‚ผ ์ˆ˜ ์žˆ๋‹ค. ์ด๋ฅผ distance-based voting ensemble method๋ฅผ ํ†ตํ•ด ์•™์ƒ๋ธ”ํ•œ๋‹ค๊ณ  ํ•œ๋‹ค. ์ฆ‰ training set์˜ $n$๋ฒˆ์งธ ๋ฐ์ดํ„ฐ๋ฅผ (xn,tn)(x_n, t_n)๊ณผ ๊ฐ™์ด ๋‚˜ํƒ€๋‚ธ๋‹ค๋ฉด, ์ƒˆ๋กœ์šด ๋ฐ์ดํ„ฐ xโˆ—x^*๋ฅผ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์ถ”์ •ํ•  ์ˆ˜ ์žˆ๋‹ค.
tโˆ—=โˆ‘n=1tnK(xโˆ—,xn),whereย K(xโˆ—,xn)=exp(โˆ’ฮฑโˆฃโˆฃxโˆ—โˆ’xnโˆฃโˆฃ22)t^* = \sum_{n = 1}{ t_n K(x^*, x_n) }, \\ \text{where } K(x^*, x_n) = exp( -\alpha{|| x^* - x_n ||^2_2} )

Stream 2

Stream 2์—์„œ๋Š” ํŽ˜์ดํผ์—์„œ ์ œ์•ˆํ•œ CNN์— ๋Œ€ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๋ฐฉ์‹์œผ๋กœ ์ „์ฒ˜๋ฆฌ๋ฅผ ๊ฐ€ํ•œ ์ด๋ฏธ์ง€๋ฅผ ํ†ตํ•ด ํ•™์Šต์‹œ์ผœ ์„œ๋กœ ๋‹ค๋ฅธ 6๊ฐœ์˜ ๋ชจ๋ธ์„ ํ˜•์„ฑํ•˜๊ณ , ์—ฌ๊ธฐ์— ๋‹ค์‹œ ์ด๋ฏธ์ง€๋ณ„๋กœ ๊ฐ๊ฐ 50๊ฐœ์˜ augmentation์„ ํ˜•์„ฑํ•˜์—ฌ (์ด๋ฏธ์ง€๋ณ„) ์ด 300๊ฐœ์˜ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•œ๋‹ค. ์ด ์ถ”๋ก  ๊ฒฐ๊ณผ๋“ค์˜ ํ‰๊ท ์„ stream 2์˜ ์ตœ์ข… ์ถ”๋ก  ๊ฒฐ๊ณผ๋กœ ์‚ผ๋Š”๋‹ค.
๋งˆ์ง€๋ง‰์œผ๋กœ ๋‘ stream์˜ ์ฐจ์ด๊ฐ€ 11๋…„ ์ดํ•˜๋ผ๋ฉด ๋‘ stream์„ ํ‰๊ท ํ•˜๊ณ , ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๋ฉด stream 1์„ ํƒํ•จ์œผ๋กœ์จ ์ตœ์ข… ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•œ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ competition์—์„œ 4์œ„๋ฅผ ์ฐจ์ง€ํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

Deep Label Distribution Learning with Label Ambiguity

์ด ํŽ˜์ดํผ์—์„œ๋Š” ๋”ฅ๋Ÿฌ๋‹์„ ํ†ตํ•œ LDL์„ ๋ณด๋‹ค ์ฒด๊ณ„์ ์œผ๋กœ ํ’€์–ด๋‚ธ๋‹ค. ํ•˜์ง€๋งŒ ์—ญ์‹œ ํฌ๊ฒŒ ๋‹ค๋ฅผ ๊ฒƒ์€ ์—†๋Š”๋ฐ, Gaussian distribution์„ ์ƒ์ •ํ•˜์—ฌ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ label distribution์„ ํ˜•์„ฑํ•˜๊ณ , CNN head์˜ softmax layer๋ฅผ ํ†ตํ•ด label distribution์„ ์ถ”๋ก ํ•˜๋ฉฐ, ์ถ”๋ก ๋œ ๋ถ„ํฌ๋ฅผ ๊ฐ€์ง€๊ณ  KL divergence loss๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ label distribution์„ ํ•™์Šตํ•œ๋‹ค. ํŽ˜์ดํผ์—์„œ ์ œ์•ˆํ•˜๋Š” label distribution learning์˜ ์ด์ ์€ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.
โ€ข
Label ambiguity๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๋Š” end-to-end model์ด๋‹ค.
โ€ข
Classification์ด๋‚˜ regression๊ณผ๋Š” ๋‹ฌ๋ฆฌ ๊ทธ ์ฃผ๋ณ€ label๋กœ๋ถ€ํ„ฐ์˜ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ณด๋‹ค robustํ•œ ์„ฑ๋Šฅ์„ ๋‚ด๋ฉฐ ์ ์€ ๋ฐ์ดํ„ฐ๋กœ ํšจ์œจ์ ์ธ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค.
โ€ข
(์ด ๋‹น์‹œ์—) SOTA๋ฅผ ๊ฐฑ์‹ ํ•˜์˜€๋‹ค.
์ข€ ๋” ํ’€์–ด์„œ ์„ค๋ช…ํ•ด๋ณด์ž. ๋งˆ์ง€๋ง‰ FC layer์˜ output zz์— ๋Œ€ํ•ด, y^=softmax(z)\hat{y} = softmax(z)์™€ ๊ฐ™์ด label distribution์„ ์ถ”๋ก ํ•œ๋‹ค. ๊ทธ๋Ÿฌ๋ฉด KL divergence๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ„์‚ฐ๋œ๋‹ค.
KL(y,y^)=ylnโกyy^=ylnโกyโˆ’ylnโกy^KL(y, \hat{y}) = y \ln{\frac{y}{\hat{y}}} = y \ln{y} - y \ln{\hat{y}}
์ด ๋•Œ yy ์ž์ฒด๋Š” parameter์— ์˜ํ•ด ์˜ํ–ฅ์„ ๋ฐ›์ง€ ์•Š์œผ๋ฏ€๋กœ ์ƒ๋žตํ•˜๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์ด loss function์„ ์„ค์ •ํ•  ์ˆ˜ ์žˆ๊ฒ ๋‹ค.
L=โˆ’โˆ‘kyklnโกyk^L = -\sum_k{ y_k \ln{\hat{y_k}} }

Mean-Variance Loss for Deep Age Estimation from a Face

์—ฌ์ „ํžˆ ํ•™์Šต ์‹œ์— label distribution์„ ๊ณ ๋ คํ•จ์œผ๋กœ์จ label ambiguity ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ์ด ํŽ˜์ดํผ์—์„œ๋Š” 1) ๋ถ„ํฌ์˜ ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ํ•จ๊ป˜ ๊ณ ๋ คํ•œ๋‹ค๋Š” ๊ฒƒ๊ณผ 2) ํ‰๊ท ๊ณผ ๋ถ„์‚ฐ์„ ํฌํ•จํ•œ ๋ฐ์ดํ„ฐ์…‹์ด ์—†์–ด๋„ ๋œ๋‹ค๋Š” ์ ์—์„œ ์ฐจ๋ณ„์ ์ด๋‹ค. ์ฆ‰ ์ง์ ‘์ ์œผ๋กœ label distribution์„ ํ•™์Šตํ•˜์ง€๋Š” ์•Š๋Š”๋‹ค. ์ด ํŽ˜์ดํผ์˜ ํ•ต์‹ฌ์€ ๋‘ ๊ฐ€์ง€ loss์ธ mean loss์™€ variance loss์ด๋‹ค.
๋จผ์ € last FC layer์˜ output์„ zz๋ผ ํ•˜์˜€์„ ๋•Œ, softmax(z)softmax(z)๋กœ์จ label distribution์„ ์ถ”๋ก ํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด๋ ‡๊ฒŒ ์ถ”๋ก ๋œ distribution์„ ํ†ตํ•ด, ์ •์˜์— ์˜ํ•ด ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ mean mm๊ณผ variance vv๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋ฆ„์ด ์•„๋‹ˆ๋ผ mean loss๋Š” ์ด๋Ÿฌํ•œ distribution mean๊ณผ ground truth์™€์˜ Euclidean Loss์ด๋ฉฐ, variance loss๋Š” ๊ณ„์‚ฐ๋œ variance ๊ทธ ์ž์ฒด์ด๋‹ค. ์ฆ‰ mean loss๋Š” distribution mean๊ฐ€ ์ตœ๋Œ€ํ•œ GT์— ๊ฐ€๊นŒ์›Œ์ง€๋„๋ก ์œ ๋„ํ•˜๋ฉฐ, variance loss๋Š” ๊ทธ๋Ÿฌํ•œ distribution mean์˜ confidence๊ฐ€ ์ตœ๋Œ€ํ•œ ๊ฐ•ํ•ด์ง€๋„๋ก ์œ ๋„ํ•œ๋‹ค.
์ตœ์ข…์ ์ธ loss๋Š” softmax loss์ธ LsL_s๋ฅผ ํฌํ•จํ•˜์—ฌ L=Ls+ฮฑLm+ฮฒLvL = L_s + \alpha L_m + \beta L_v์™€ ๊ฐ™์ด ๊ตฌํ•œ๋‹ค. Softmax loss์™€ mean loss๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋Š” ์ด์œ ๋Š” ํŽ˜์ดํผ์—์„œ ์–ธ๊ธ‰๋œ ๋ฐ”์— ๋”ฐ๋ฅด๋ฉด "mean loss์™€ variance loss๋งŒ์„ ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ํ•™์Šต์ด ๊ต‰์žฅํžˆ ๋ถˆ์•ˆ์ •ํ•  ์ˆ˜ ์žˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ตœ๋Œ€ํ•œ ๋น ๋ฅธ ์ˆ˜๋ ด์„ ์œ„ํ•ด์„œ"์ด๋‹ค.
์—ญ์‹œ๋‚˜ (์ด ๋‹น์‹œ์—) SOTA๋ฅผ ๊ฐฑ์‹ ํ•˜์˜€๋‹ค๊ณ  ํ•œ๋‹ค. ํ•˜์ง€๋งŒ benchmark dataset๋„ ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅด๊ณ  ๋น„๊ตํ•œ ๋ชจ๋ธ๋„ ์กฐ๊ธˆ์”ฉ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— ์ •ํ™•ํžˆ ์–ด๋–ค label distribution method๊ฐ€ ๋” ๋‚˜์€์ง€ ํŽ˜์ดํผ๋งŒ ๋ณด๊ณ  ๋น„๊ตํ•˜๊ธฐ๊ฐ€ ์–ด๋ ต๋‹ค.
E.O.D.