논문원본(ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS)
번역 : 윤효창
번역 일시 : 2022.05.14
※ 이 논문 번역은 직접 논문을 읽고, 기술에 대한 학습 후, 기술의 핵심이 되는 원문의 일부분만 번역이 되었습니다. 최대한 어려운 기술용어에 대해서는 개인적인 견해를 가미하여 자연스럽게 풀어내려고 했지만, 원문의 뉘앙스를 해치지 않는 범위 내에서 번역하려 했기 때문에 다른 번역본들과 상이한 부분이 존재할 수 있음을 미리 고지합니다. 또한 논문의 일부는 파파고 번역기 및 Oxford Dictionary의 도움을 받아 번역에 있어서 실수를 최소화했습니다. 번역에 오타, 오역, 왜곡 혹은 저작권 상 문제 등을 발견하신 분은 yhc9308@naver.com 으로 연락을 주시면 확인 후 수정하겠습니다. 번역된 논문의 원본은 상단 링크에 첨부했습니다.
논문 초록
BERT와 같은 Masked Language Modeling(MLM) 사전 훈련 방법들은 일부 토큰을 [MASK]로 대체하여
입력을 손상시킨 다음 모델을 학습하여 원본 토큰을 재구성합니다.
그 방법들이 후속 자연어 처리 작업으로 전달되면 좋은 결과들을 생성해내긴 하지만,
효과를 보기 위해서 그러한 방법들은 일반적으로 아주 많은 양의 계산을 요구하게 됩니다.
대안으로 우리는 대체된 토큰 탐지(replaced token detection)라는
좀 더 샘플-효율적인 사전 학습 작업을 제안합니다.
입력을 마스킹하는 대신, 우리의 접근 방식은 일부 토큰을 소형
생성자 네트워크(small generator network)에서 샘플링된 그럴싸해보이는
대안들로 대체함으로써 입력을 손상시킵니다.
그런 다음 손상된 토큰의 고유함을 예측하는 모델을 훈련하는 대신,
우리는 손상된 입력의 각 토큰이 생성자 샘플에 의해 대체되었는지
여부를 예측하는 판별자 모델을 훈련합니다.
철저한 실험을 통해 이 새로운 사전 훈련 작업이, 마스크된 작은 부분 집합이 아닌
모든 입력 토큰에 대해 정의되기 때문에, MLM보다 더 효율적이라는 것이 입증되었습니다.
결과적으로, 우리의 접근 방식으로 학습된 상황별 표현(contextual representations)은
동일한 모델 크기, 데이터 및 계산인 경우 BERT가 학습한 것보다 훨씬 우수합니다.
소형 모델의 경우 특히 이점이 큽니다. 예를 들어, GLUE natural language understanding benchmark에서
(30배 더 많은 컴퓨팅을 사용하여 훈련된) GPT를 능가하는 모델을 4일 동안 한 GPU에서 훈련합니다.
우리의 접근 방식은 규모가 있는 곳에서도 잘 작동합니다. RoBERTa 및 XLNet과 비교해봤을때,
1/4 미만으로 컴퓨팅을 사용하고, 같은 양의 컴퓨팅을 사용하면 그 성능을 훨씬 능가합니다.
1. 서론
언어에 대한 최신 표현학습 방법은 노이즈 제거 오토인코더를
학습시키는 것이라고 볼 수 있습니다.(Vincent et al., 2008). 레이블이 지정되지 않은 입력
시퀀스의 작은 부분 집합(일반적으로 15%)을 선택하고 해당 토큰의 ID(예: BERT, Devlin 등(2019) 또는
해당 토큰에 대한 주의(예: XLNet, Yang 등(2019)를 마스킹한 다음
네트워크를 훈련시켜 원래 입력을 복구하도록 합니다.
이러한 마스크 언어 모델링(MLM) 접근 방식은 양방향 표현을 학습하기
때문에 기존 언어 모델 사전 교육보다 효과적이지만 네트워크가 예제당
토큰의 15%에서만 학습하기 때문에 상당한 계산 비용이 발생합니다.
'논문번역' 카테고리의 다른 글
[논문 번역] StackGAN: 텍스트를 실사 합성 이미지로 변환 (2017) (0) | 2023.05.01 |
---|