논문명 : Contextual Fine-to-Coarse Distillation for Coarse-grained Response Selection in Open-Domain Conversations, ACL 2022

One-tower: context-response 가 하나의 모델에 들어가서 attention 이 되는 것 cross-encode
Multi-tower: context 와 response 가 각각의 모델에 들어가서 나온 feature vector을 이용하는 것 bi-encoder

일반적으로 cross-encoder가 성능이 더 좋음
coarse는 bi-encoder방식 주로 사용 fine은 cross-encoder방식 주로 사
문제변경
query <-> context문제로 바꾼다
여기서 query는 주어진 response의 context에 해당하는 개념

문제 자체를 바꿔야 하기 때문에 새로운 데이터세트 구축이 필요
논문에서는 데이터를 새로 구축하지만, 현실적으로는 어렵다
distillation

one-tower로 사전 학습 후 학습 x 이후 two-tower로 학습 사전학습이 없으면 유사도가 0, 1로 비교됨 teacher를 통해 0~1의 값을 통해 다양한 분포 확
