Find-to-Coarse

논문명 : Contextual Fine-to-Coarse Distillation for Coarse-grained Response Selection in Open-Domain Conversations, ACL 2022

Untitled

앞단에서 후보 수를 줄이는 과정 연구
Coarse-grained에 관해서는 연구가 덜 되었고, 이 논문에서 이 부분을 탐구한다.
Coarse 부분은 수 많은 후보와 비교를 해야하기 때문에 무거운 모델을 사용하기는 어렵다
따라서 기본적으로 one-tower 보다는 multi-tower 구조의 모델을 사용한다.
- One-tower: context-response 가 하나의 모델에 들어가서 attention 이 되는 것 cross-encode
- Multi-tower: context 와 response 가 각각의 모델에 들어가서 나온 feature vector을 이용하는 것 bi-encoder
  
  일반적으로 cross-encoder가 성능이 더 좋음
  1. 입력이 한번에 들어가기 때문에 관계를 익히기 쉬움
  2. 속도가 느림 ( context -response 쌍이 매번 달라지기 때문) bi-encoder는 속도가 더 빠름
  3. context와 response의 입력을 한번씩만 하면 되기 때문
  coarse는 bi-encoder방식 주로 사용 fine은 cross-encoder방식 주로 사
  - cross-attention을 하는 것이 성능 측면에서 유리함
  - 하지만 coarse 부분은 성능외에도 시간적인 면을 고려해야하기 때문에 bi-encoder 모델을 사용하는 것이 효율적
  bi-encoder의 성능 향상을 위한 방법
  1. 문제변경
    - query <-> context문제로 바꾼다
    - 여기서 query는 주어진 response의 context에 해당하는 개념
      - 기존의 방식은 context와 response와의 비교로 점수가 높은걸 선택
      - response에 해당하는 context를 생성하여 context끼리 비교
      문제 자체를 바꿔야 하기 때문에 새로운 데이터세트 구축이 필요
      
      논문에서는 데이터를 새로 구축하지만, 현실적으로는 어렵다
  2. distillation
    - Teacher 모델은 one-tower로 학습시켜 둔다.
    - Student 모델은 아래의 그림 (a)와 같이 학습시킨다.
    - 이때 teacher 모델의 예측 값을 활용하여 학습에 활용
    one-tower로 사전 학습 후 학습 x 이후 two-tower로 학습 사전학습이 없으면 유사도가 0, 1로 비교됨 teacher를 통해 0~1의 값을 통해 다양한 분포 확
  - BM25는 매우 간단한 모델 (학습 X)
  - BE: bi-encoder
  - TE: tri-encoder
  - CFC > BE, TE • 따라서 distillation이 효과가 있다.

bi-encoder의 성능 향상을 위한 방법