[๋…ผ๋ฌธ๋ฆฌ๋ทฐ๐Ÿ“„] Learning to Classify Images Without Labels

 

๋“ค์–ด๊ฐ€๊ธฐ์— ์•ž์„œ

์ €๋ฒˆ์— 74ํŽ˜์ด์ง€์ธ๊ฐ€ ํ•˜๋Š” GPT-3๋…ผ๋ฌธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ํ•œ ์„น์…˜์”ฉ ์ •๋ฆฌํ•˜๋ ค๋‹ˆ๊นŒ 2์žฅ๊นŒ์ง€ ํ•˜๋Š” ๋ฐ์—๋„ ๋„ˆ๋ฌด ๋งŽ์€ ์‹œ๊ฐ„์ด ๊ฑธ๋ ธ๋‹ค. ์ด์ œ๋ถ€ํ„ฐ๋Š” ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋งŒ ๋น ๋ฅด๊ฒŒ skimํ•˜๋ฉด์„œ ๋ธ”๋กœ๊ทธ์— ์ •๋ฆฌํ•˜๊ณ , ์ข‹์€ ๋…ผ๋ฌธ์ž„์ด ํŒ๋‹จ๋˜๋ฉด ์ž์„ธํ•˜๊ฒŒ ์‚ดํŽด๋ณด๋ ค๊ณ  ํ•œ๋‹ค. ๋ฌผ๋ก  ์ด์ œ๊นŒ์ง€ ๊ทธ๋ž˜์™”์ง€๋งŒ ์ด๋ ‡๊ฒŒ ๋ธ”๋กœ๊ทธ์— ์ •๋ฆฌ๋ฅผ ํ•˜๋ฉด์„œ ๋…ผ๋ฌธ์„ ์ฝ์œผ๋‹ˆ ๋” ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค ใ…‹ใ…‹

์ด๋ฒˆ์—๋Š” ํ•ด๋‹น ์œ ํŠœ๋ธŒ ์ฑ„๋„์—์„œ ๋จผ์ € ์งš์–ด์ฃผ๋Š” ํฌ์ธํŠธ๋“ค์„ ์‚ดํŽด๋ณด๊ณ , ๊ทธ ๋‹ค์Œ์— ๋‚˜์˜ ๊ด€์ ์—์„œ ๋…ผ๋ฌธ์„ ๋ณด๋ ค๊ณ  ํ•œ๋‹ค.

0.Abstract

๊ณผ์—ฐ annotation ์—†์ด(๋ ˆ์ด๋ธ” ์—†์ด) ์ด๋ฏธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€๋Šฅํ• ๊นŒ? ํ•ด๋‹น ๋…ผ๋ฌธ์—์„œ๋Š” ๋‹ค์Œ์˜ ํ•ต์‹ฌ ์•„์ด๋””์–ด๋ฅผ ํ†ตํ•ด ๊ฐ€๋Šฅํ•˜๋‹ค๊ณ  ํ•œ๋‹ค.

  1. self-supervised learning
  2. clustering
  3. self-labeling

์–ด๋– ํ•œ NN์„ ํ†ตํ•ด์„œ์ด๋“  ์ž˜ ํ‘œํ˜„๋œ ์ž„๋ฒ ๋”ฉ์„ ๊ตฌํ•œ๋‹ค.

์—ฌ๋Ÿฌ ๋ณ€ํ˜•์„ ์ฃผ๊ณ  ๊ฐ™์€ ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์˜€์„ ๋•Œ ๊ฐ€์žฅ ๋งˆ์ง€๋ง‰์— ๋‚˜์˜ค๋Š” ์ž„๋ฒ ๋”ฉ ๊ฐ’์œผ๋กœ K๊ฐœ์˜ ์ฃผ๋ณ€ ์ž„๋ฒ ๋”ฉ์„ ์‚ดํŽด๋ณด๋‹ˆ ์ด๋ฏธ ๊ทธ ์ด๋ฏธ์ง€๊ฐ€ ๋น„์Šทํ–ˆ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด๊ฑธ๋กœ๋Š” ๋ถ€์กฑํ•˜๊ณ  self-labeling์„ ํ†ตํ•ด ๋‹ค์‹œ ํ•™์Šตํ•œ๋‹ค. ๋‚ด๊ฐ€ ๋‚˜์˜ ๋ฐ์ดํ„ฐ์— ๋ ˆ์ด๋ธ”๋งํ•˜๋Š” ๊ฒƒ์ด ์–ด๋–ค ์˜๋ฏธ๊ฐ€ ์žˆ์„๊นŒ? ๊ทธ๋Ÿฌ๋‚˜ ์ •๊ตํ•˜๊ฒŒ ํ•˜๋Š” ๊ฒƒ์€ ์˜๋ฏธ๊ฐ€ ์žˆ๋‹ค.

์งˆ๋ฌธ) ๊ทธ๋Ÿฐ๋ฐ ๋ฌด์Šจ task๋ฅผ ํ†ตํ•ด์„œ ๋งˆ์ง€๋ง‰ ๊ฐ’์„ ์ฐพ์„๊ฑฐ์ง€?

๊ทธ๋Ÿฐ๋ฐ ๊ฒฐ๊ตญ ์„ฑ๋Šฅ ์ธก์ •์€ ground-truth์— ๋Œ€ํ•ด ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ ์˜๋ฏธ๊ฐ€ ์žˆ๋‚˜..? ๋…ธ๋…ธ ๊ทธ๋ž˜๋„ ๋ ˆ์ด๋ธ” ์—†์ด ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋‹ˆ ์•ž์œผ๋กœ๋Š” ์—†์ด ๊ทธ๋ƒฅ ๊ทธ ์ž„๋ฒ ๋”ฉ ๊ฐ’์„ ์‚ฌ์šฉํ•ด๋„ ๋œ๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ๋งŽ์€ hyperparameter ๊ฐ€ ๋งŽ์ด ์žˆ๋‹ค.. pretext model, threshold, .. ๋ฌธ์ œ๋Š” ์ด๋Ÿฌํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ๋“ค์ด ๊ฒฐ๊ตญ์€ ๋ ˆ์ด๋ธ”์„ ์•Œ๊ณ  ์žˆ์–ด์•ผ ์–ด๋Š ์ •๋„ ์ •ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋”œ๋ ˆ๋งˆ์— ๋น ์ง€๊ฒŒ ๋œ๋‹ค.