<aside> 💡 간단명료한 방법론 이지만, Decoder를 학습해야 하기 때문에 computational cost가 큼.
→ classification 시 encoder면 충분하지만 학습하기위해 decoder 필요
Representation을 학습함에 있어서, Decoder단은 필요가 없음
</aside>
사용자가 새로운 문제를 정의하는 것으로 이렇게 정의된 새로운 문제를 논문들에서는 'pretext task' 라고 부릅니다. 이러한 pretext task를 학습함으로써 모델은 데이터 '자체'에 대한 이해를 높일 수 있게 되고, 이렇게 pre-train 되어진 모델을 이전학습함으로써 우리는 down stream task (ex. classification) 를 더 잘 해결할 수 있다
<aside> 💡
</aside>
Positive pair와 Negative pair로 구성됩니다. 간단하게 Positive pair 끼리는 거리를 좁히고, Negative pair끼리는 거리를 멀리 띄워놓는 것이 학습 원리