๋ค์ด๊ฐ๊ธฐ์ ์์
-
๋ ผ๋ฌธ: Language Models are Few-Shot Learners
ํด๋น ํฌ์คํธ๋ ๋ ผ๋ฌธ๊ณผ ๋ค์์ 2๊ฐ์ ์ ํ๋ธ ์์์ ๋ณด๋ฉฐ ์ ๋ฆฌํ์์ต๋๋ค. ๋ ผ๋ฌธ์ ๋ด์ฉ์ ๊ธฐ๋ณธ์ผ๋ก ํ์ง๋ง, ํ์์ ๋ฐ๋ผ ๊ณต๋ถํ ๊ฒ๋ค์ ์ถ๊ฐํ์์ต๋๋ค.
๊ทธ ์ค์์๋ Yannic Kilcher์ ์ฑ๋์ ์ต๊ทผ ์์ฒญ๋ ์๋๋ก ์ต์ ๋ ผ๋ฌธ๋ค์ ๋ฆฌ๋ทฐํด์ฃผ๋ ์ ํ๋ธ ์ฑ๋์ด๋ค.(์ ๋ง ๋ฉ์๋ ์ฐ๊ตฌ์ ๋ฐ ์ ํ๋ฒ) ๋ค๋ฅธ ๋ฌด์๋ณด๋ค ์ต๋ ๊ฐ์ ์ ๋ ผ๋ฌธ์ด ๋์จ์ง 1~2์ผ๋ง์ ๋ฆฌ๋ทฐ๋ฅผ ํด์ฃผ๋ฉฐ, ์ค์ ๋ก ๋ ผ๋ฌธ์ high level์์ ํต์ฌ ์์ด๋์ด๋ง ์ง์ด์ค๋ค๋ ๊ฒ์ด๋ค. ์ด๋ฌํ NLP ์ด์ธ์๋ ์ ๋ง ํฅ๋ฏธ๋ก์ด ๋ฅ๋ฌ๋ ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ๋ค์ด ๋ง์ผ๋ ๊ผญ ํ๋ฒ ๋ฐฉ๋ฌธํด์ ์ดํด๋ณด์ธ์! ๐
- Minsuk Heo ํ๋ฏผ์: [๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] GPT-3
- Yannic Kilcher: GPT-3: Language Models are Few-Shot Learners (Paper Explained)
๋ ผ๋ฌธ ํ ์ค ์์ฝ
์ด๋ง๋ฌด์ํ ํ๋ผ๋ฏธํฐ(1,750์ต๊ฐ)๋ฅผ ๊ฐ์ง๊ณ fine-tuning ์์ด few-shot learning์ ํตํด ๋ช๋ช NLP task์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ค.
0. Abstract
๋ง์ ์ธ์ด ๋ชจ๋ธ๋ค์ ํ์ฌ pre-training โ fine-tuning
ํ๋ ๋ฐฉ์์ผ๋ก ํ์ต๋๊ณ ์๋๋ฐ, ์ด๋ ์ถ๊ฐ์ ์ธ ๋ง์ ๋ ์ด๋ธ๋์ด ์๋ ๋ฐ์ดํฐ์
์ด ํ์ํ๋ค. ๋ง์ ๋ฆฌ์์ค๋ฅผ ํ์๋ก ํ๋ค๋ ๋ฌธ์ ์ ๊ณผ ๋๋ถ์ด ์ ์ด์ ์ฌ๋์ ๋ช ์๋๋ ์์ ๋ฅผ ํตํด์๋ ์๋ก์ด NLP task๋ฅผ ์ํํ ์ ์๋ค.
- ์ด๋ฌํ ๊ด์ ์์ GPT-3๋ ํ๋ฆฌ๋ฏธํฐ์ ์๋ฅผ 1,750์ต๊ฐ๊น์ง ๋๋ฆฌ๊ณ , fine-tuning๊ณผ gradient updates ์์ด few-shot demonstrations๋ง์ ํตํด NLP task์์ ๊ฒฝ์๋ ฅ ์๋ ๊ฒฐ๊ณผ๋ฅผ ์ป์๋ค. (์ ๋ถ ๋ค SOTA๋ฅผ ๋ฌ์ฑํ ๊ฒ์ ์๋๋ค.)
- translation, question-answering, cloze(missing ๋จ์ด๋ฅผ ์ฑ์ ๋ฃ๋ ํ ์คํฌ) task, unscrambling words, 3-digit arithmetic(์ธ์๋ฆฌ ์ฐ์) ๋ฑ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค.
- ๋ํ GPT-3๋ ์ฌ๋์ด ๊ตฌ๋ณ ๋ถ๊ฐ๋ฅํ ์ ๋์ ์ ๋ฌธ ๊ธฐ์ฌ๋ฅผ ์์ฑํ๊ธฐ๋ ํ์๋ค.
- ๊ทธ ์ธ ํด๋น ๋ชจ๋ธ๊ณผ ๊ด๋ จํ ์ฌํ์ ์ด์์ ๋ํด์๋ ๋ค๋ฃฌ๋ค.
1. Introduction
GPT (Generative Pretrained Transformer)๋ Transformer์ Decoder ๋ถ๋ถ์, BERT (Bidirectional Encoder Representations from Transformer)๋ Transformer์ Encoder๋ฅผ ์ฌ์ฉํ๊ณ ์๊ธฐ ๋๋ฌธ์ ๊ทธ ๊ด๊ณ๊ฐ ์๋ฅ์ด ์๋งค์ ๊ฐ๋ค. ์ค์ ๋ก ๊ทธ ๋ฐ์ ์ ์ญ์ฌ๋ฅผ ๋ณด๋ฉด ELMO (2018.02) โ GPT-1 (2018.05) โ BERT (2018.10) โ XLNet (2019.07) โ GPT-2 (2019.02) โ RoBERTa (2019.07) โ ALBERT (2019.09) โ T5 (2019.10) โ ...
์ฒ๋ผ ๊ฐ์ Transformer์์ ์ถ๋ฐํด์ ์๋ก์ ์ฑ๋ฅ์ ์์น๋ฝ ๋ค์น๋ฝํ๋ฉด์ ๋ฐ์ ํด์๋ค. ๊ธฐ๋๊ธด ์ ์์ ๊ฒฝ์ ๋์ ๋ง์นจ๋ด ์ด๋ฒ์๋ GPT๋ฅผ ์ค๊ณง ์ฐ๊ตฌํด์จ OpenAI์์ 2020๋
05์ GPT-3 ๋ชจ๋ธ์ ๋ค๊ณ ๋์๋ค.
GPT โ GPT-2
- Layer normalization์ด ๊ฐ๊ฐ์ input์ sub-block์ผ๋ก ์ฎ๊ฒจ์ก์ผ๋ฉฐ, ๋ง์ง๋ง self-attention block์๋ ๋ํด์ง.
- A modified initialization which accounts for the accumulation on the residual path with model depth is used.
- residual layer์์ initialization ๊ฐ์ค์น๋ฅผ scaling.
- vocabulary 50,257๊ฐ๊น์ง ์ฆ๊ฐ.
- context size๋ฅผ 512์์ 1024๋ก ์ฆ๊ฐ. ๋ฐฐ์น ์ฌ์ด์ฆ๋ฅผ 512๊ฐ๋ก ์ฆ๊ฐ.
GPT-2 โ GPT-3
- Transformer ๋ถ๋ถ์์ dense and locally banded sparse attention pattern๋ฅผ ์ฌ์ฉ.
์์ ์ฌ๋ฌ ์ธ์ด ๋ชจ๋ธ๋ค์ ์ผ๋ฐ์ ์ธ ์ธ์ด์ pre-trained ํ๊ณ , ํน์ task์ ๋ง๊ฒ fine-tuningํ๊ฒ ๋๋๋ฐ ์ ์ด์ ์ด fine-tuningํ๋ ๊ณผ์ ์ด ๋ง๋ง์น ์๋ค.
- fine-tuning์ ์ํด์ pre-trained์ ์ ํ๋ค๊ณ ํด๋, ํด๋น task๋ฅผ ์ํ ๋ ์ด๋ธ๋์ด ์๋ ์์ง์ ๋ฐ์ดํฐ์ ์ด ๋ ๋ค์ ํ์.
- fine-tuning์ ์ํ ๋ฐ์ดํฐ์ ์ ํ์ต์ํค๋ ๋ฐ ๋ ๋ค๋ฅธ ๊ฐ์ค์น ์ ๋ฐ์ดํธ ๊ณผ์ ์ด ํ์ฐ์ .
- ํน์ task์ fine-tuning ํ๋ ๊ฒ์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ๋์ด ์ธ์ด๋ฅผ ์ดํดํ๋ ๋ฐฉ๋ฒ์ ์๋.
- ๊ฑฐ๋ํ ๋ฐ์ดํฐ์ ์ pre-trained ํ ํ, fine-tuning ํ๋ ๊ฒ์ narrow task(ํน์ task์ ๋ํด์๋ง ํ์ต)์๋ง ํ์ตํ๋ ๊ฒ.
์ฆ, pre-trained + fine-tuning ํจ๋ฌ๋ค์์ ์ฌ๋ฌ ๋ฌธ์ ๊ฐ ์๋ค.
-
์ธ์ด ๋ชจ๋ธ์ ํ์ต์ํค๋ ๋์
in-context learning
์ผ๋ก ๋ค์ํ ํจํด ์ธ์ง ๋ฅ๋ ฅ์ ํ์ตํ๋ ๋ฐฉ๋ฒ์ ์ฌ์ฉ -
์ฌ์น์ฐ์ฐ, ์คํ ๊ฒ์, ๋ฒ์ญ ๋ฑ์ ํจํด์ few-shot learning์ผ๋ก ํ์ตํ ์ ์์
- ์์ ๊ทธ๋ํ์์ ํ์ธํ ์ ์๋ฏ์ด, in-context learning์ ๊ฒฝ์ฐ ๊ฑฐ๋ํ ๋ชจ๋ธ(๋ง์ ํ๋ผ๋ฏธํฐ)์ ์ฌ์ฉํ ์ ๋ก ๊ทธ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ํฅ์๋จ.
๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์ ์๊ฐํ๋ GPT-3๋ ํ๋ง๋๋ก Transformer์ decoder ๋ถ๋ถ์ Autoregressive ๋ฐฉ๋ฒ์ผ๋ก few-shot ํ์ตํ fine-tuning ๊ณผ์ ์๋ ๋ค์ฉ๋ ์์ฐ์ด ์ฒ๋ฆฌ ๋ชจ๋ธ ์ด๋ค.
์ธ์ด ๋ชจ๋ธ์ fluidity๊ณผ generality๋ฅผ ๊ฐ์ ธ์ผ ํ๋ค.
๋ค์ ์ ๋ฆฌํ๋ฉด ํด๋น ๋ ผ๋ฌธ์ด ๋ค๋ฃจ๋ ํต์ฌ์ ๋ค์๊ณผ ๊ฐ๋ค.
- ํ๋ผ๋ฏธํฐ 1,750์ต๊ฐ์ Autoregressive(์ ์ ๋์จ ํ ํฐ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ ํ ํฐ์ ์์ธกํ๋ ์ธ์ด ๋ชจ๋ธ ์ข
๋ฅ) ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ in-context learning ๋ฅ๋ ฅ์ ํ๊ฐํ ๋, (24๊ฐ์ NLP dataset๋ค์ ์ด์ฉํ๋ task์ ๊ธฐ์กด์ dataset์ ๋ค์ด์์ง ์์ ์ ๋ณด์ ๋ํ ์๋ก์ด task์ ๋ํด ํ๊ฐ) 3๊ฐ์ง์ ํ์ต ๋ฐฉ๋ฒ์ ์ฌ์ฉ
"few-shot learning"
: ๋ช ๊ฐ์ (10๊ฐ์์ 100๊ฐ) demonstrations(์ค๋ช ์์ )๋ง ๋ณด์ฌ์ค"one-shot learning"
: ํ ๊ฐ์ demonstration๋ง ๋ณด์ฌ์ค"zero-shot learning"
: ์ด๋ demonstration๋ ๋ณด์ฌ์ฃผ์ง ์๊ณ , ์์ฐ์ด์ ๋ํ instruction๋ง ๋ณด์ฌ์ค (์์ง ์ ํํ ์ดํดํ์ง ๋ชปํจ.)
- GPT-3๋ฅผ fine-tuning ํ ์ ์์ง๋ง ๋ณธ ๋ ผ๋ฌธ์์๋ ๋ค๋ฃจ์ง ์๊ณ future work์ผ๋ก ๋จ๊ฒจ๋๋ค.
- zero-shot๊ณผ one-shot์์ promisingํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๊ณ , few-shot๊ฐ ๋ช๋ช์ task์์๋ SOTA๋ฅผ ๋ฌ์ฑ.
- ex) CoQA: 85.0 F1, TriviaQA: 71.2% ์ ํ๋ ๋ฌ์ฑ
- on-the-fly reasoning (๋ฐ๋ก๋ฐ๋ก(์ฌ๋ฌ ๋ฌธ๋งฅ์ ๋ณด์ง ์๊ณ ? ์๋?) ์ถ๋ก ํด์ผํ๋) task์์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์.
- ex) unscrambling words / performing arithmetic / using novel words in a sentence after seeing them defined only once.
-
์ฌ๋์ด ๋ถ๋ณํ ์ ์๋ ๋ด์ค ๊ธฐ์ฌ ์์ฑ.
- ์ด๋ฌํ GPT-3์ ๊ฑฐ๋ํ ํฌ๊ธฐ์๋ few-shot learning์ด ์ ๋๋ก๋ ์ฑ๋ฅ์ ๋ฐํํ์ง ๋ชปํ NLP task๊ฐ ์์.
- ์ถ๋ก ๋ฌธ์ ANLI ๋ฐ์ดํฐ์ ๊ณผ ๋ ํด ๋ฌธ์ RACE, QuAC ๋ฐ์ดํฐ์
-
GPT-3์ ํ๊ณ์ .
-
Commom Crawl ์์ ๋ฐ์ดํฐ ์ค์ผ ๋ฌธ์ ์ ๋๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ ์ ์.
-
๋น๊ต์ ์ ์ ๋ชจ๋ธ(1.25์ต์์ 130์ต๊ฐ์ ํ๋ผ๋ฏธํฐ)๋ค์ ์ฌ์ฉํ์ฌ ์คํ.
- ์ด๋ฌํ ๋์ ํ์ฉ์ฑ์ผ๋ก ์ธํ bias, fairness, broader societal impact๋ฅผ ๋ค๋ฃธ.
2. Approach
๋ณธ ๋ ผ๋ฌธ์ ์ ๊ทผ ๋ฐฉ์์ ๋ชจ๋ธ, ๋ฐ์ดํฐ, ํ์ต ๋ฑ ์ฌ๋ฌ ๋ฉด์์ GPT-2์ ๋น์ทํ์ง๋ง, ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํ์ฅํ๊ณ ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ์ ๋ค์์ฑ, ํ์ต ๊ณผ์ ์ ์ฆ๊ฐ์์ผฐ๋ค. ๋ณธ ๋ด์ฉ์ ์์ํ๊ธฐ ์ ์ ํด๋น ์ฉ์ด๋ค์ ๋ํ ์ ์์ ์ฐจ์ด์ ๋ค์ ๋ค๋ค๋ณธ๋ค.
-
Fine-Tuning (FT)
๋ณดํต ๋ช ์ฒ ๋๋ ๋ช ๋ฐฑ๊ฐ์ ๋ ์ด๋ธ ๋์ด ์๋ ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ๋ค. ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์ฌ๋ฌ benchmark์์ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ธ๋ค๋ ๊ฒ์ด๋ค. ๊ทธ๋ฌ๋ ๊ฐ๊ฐ์ task์ ๋ํด ์๋ก์ด ํฐ ๋ฐ์ดํฐ์ ์ด ํ์ํ ๋ฟ ๋ง ์๋๋ผ ์ผ๋ฐํ๊ฐ ๋ถ์กฑํ๋ค๋ ๊ฒ์ด ์ฝ์ ์ผ๋ก ๋ฝํ๋ค. ๋ํ, ํ์ต ๋ฐ์ดํฐ์ ์ ์๋ชป๋ feature๋ฅผ ์ด์ฉํ ์ง๋ ๋ชจ๋ฅธ๋ค. ๋ฐ๋ผ์ ๋ณธ ๋ ผ๋ฌธ์์๋ task์ ์ํฅ์ ๋ฐ์ง ์๋(task-agnostic) ์ฑ๋ฅ์ ๋ณด์ด๊ธฐ ์ํด FT๋ ์ฌ์ฉํ์ง ์์ผ๋, ์ฐจํ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ ์ค์ ๋ก๋ ์ ๋งํ ๋ฐฉ๋ฒ์ด๋ค. -
Few-Shot (FS)
๋ชจ๋ธ์ ๋ช ๊ฐ์ demonstrations๋ง ๋ณด์ฌ์ฃผ๊ณ , ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ํ์ฉํ์ง ์๋๋ค๊ณ ํ๋๋ฐ, ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธ ํ์ง ์๋๋ค๋ฉด ์ด๋ฅผ learning์ด๋ผ ๋ถ๋ฅผ ์ ์๋ ์ง์ ์ค์ ๋ก ๋ฌด์จ ์๋ฏธ๊ฐ ์๋์ง ์์ง์ ์ดํด๋์ง ์๋๋ค. ์๋ฌธ์ ๋ค์๊ณผ ๊ฐ๋ค.
the model is given a few demonstrations of the task at inference time as conditioning, but no weight updates are allowed.
- ์์ด์์ ๋ถ์ด๋ก ๋ฒ์ญํ๋ ์๋ฅผ ๋ค๋ฉด, $K$๊ฐ์ ์์ด์ ๊ทธ์ ๋์ํ๋ ๋ถ์ด ์์๋ฅผ ๋ชจ๋ธ์๊ฒ ๋ณด์ฌ์ฃผ๊ณ ๋ง์ง๋ง ํ๋์ ์์์์ ์์ด๊ฐ ์ฃผ์ด์ก์ ๋, ๋ถ์ด๋ฅผ ์์ธกํด๋ณด๋๋ก ํ๋ ๊ฒ์ด๋ค. ์ด ๋ถ๋ถ๋ ์์์์ ๊ฐ์ ๋งฅ๋ฝ์ผ๋ก ์๋ฒฝํ ์ดํดํ์ง ๋ชปํ์ผ๋ฉฐ ์๋ฌธ์ ๋ค์๊ณผ ๊ฐ๋ค.
for a typical dataset an example has a context and a desired completion (for example an English sentence and the French translation), and few-shot works by giving K examples of context and completion, and then one final example of context, with the model expected to provide the completion.
-
$K$๋ ๋ณดํต 10์์ 100์ด๋ฉฐ, ๋ชจ๋ธ์ context window์ ๋ฐ๋ผ ๋ค๋ฅด๋ค. FS์ ์ฅ์ ์ ๋น์ฐํ ๋ง์ ๋ฐ์ดํฐ์์ ํ์๋ก ํ์ง ์์ผ๋ฉฐ, ๋ง์ง๋ง ํ์ํ fine-tuning์ฉ ๋ฐ์ดํฐ์ ์ ํ์ตํ๋ ๊ฐ๋ฅ์ฑ์ ์ค์ธ๋ค.
-
One-Shot (1S)
1S์ ํ๋์ demonstration๋ง ๋ณด์ฌ์ฃผ๋ ๊ฒ์ ์ ์ธํ๊ณ ๋ FS์ ๋์ผํ๋ค. -
Zero-Shot (0S)
0S๋ ์ด๋ demonstration๋ ๋ณด์ฌ์ฃผ์ง ์๋ ๋ค๋ ๊ฒ์ ์ ์ธํ๊ณ ๋ 1S์ ๋์ผํ๋ค. ๊ฐ์ฅ ํธ์์ ์ด๊ณ , ๊ฐ๊ฑดํ๋ฉฐ, ์๋ชป๋ ์ ๋ณด๋ฅผ ์ต๋ํ ํ๋ฅ ์ ์ค์ฌ์ฃผ๋ ๋ฐฉ๋ฒ์ด์ง๋ง, ์์ ์ธ ๊ฐ์ง ์ค ๊ฐ์ฅ ์ด๋ ค์ด ๋ฐฉ๋ฒ์ด๊ธฐ๋ ํ๋ค. (์ฌ์ง์ด ์ฌ๋์๊ฒ๋ ์ด๋ ค์ด task์ผ ์ ์๋ค.)
2.1 Model and Architectures
์ฌ์ฉ๋ ๋ชจ๋ธ์ GPT-2๋ ๋์ผํ์ง๋ง (modified initialization, pre-normalization, reversible tokenization), Transformer ๋ถ๋ถ์์ dense and locally banded sparse attention pattern๋ฅผ ์ฌ์ฉํ๋ค. (d์ํคํ ์ณ)
2.2 Training Dataset
Common Crawl dataset์ ์นํฌ๋กค๋ง ๋ฐ์ดํฐ์ ์ ์ฌ์ฉํ์๊ณ , ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ์ ๋ณ๋ก ์ข์ง ์์ ๊ฒฐ๊ณผ๋ฅผ ๋ด์ด ๋ค์ 3๊ฐ์ง ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ์งํํ์๋ค.
- CommonCrawl ๋ฐ์ดํฐ์ ์ high-quality reference corpora๋ก ํํฐ๋งํ๊ณ ,
- ๋ฌธ์ ๋ ๋ฒจ์์ fuzzy deduplication๋ฅผ ์ํํ๊ณ ,
- high-quality reference corpora(WebText ๋ฑ)๋ฅผ ํ์ต์์ ์ถ๊ฐํ์๋ค.
2.3 Training Process
2.4 Evaluation
3. Results
GPT์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ๋ ์๋ฐฉํฅ ์ ๋ณด๋ฅผ ํ๋ํ ์ ์๋ค๋ ๊ฒ์ธ๋ฐ, ์ด ์ ์ด ์ฑ๋ฅ ํ๊ฐ์์ ๊ณ ์ค๋ํ ๋ํ๋ฌ๋ค.