DEVDAE
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension 본문
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
DEVDAE828 2024. 4. 6. 15:47
https://velog.velcdn.com/images/cdwoong828/post/8d2a90ae-57bd-49af-be68-e34d74c4201a/image.png)
## Introduction
Self-supervised learning에서 문장 내 존재하는 단어를 마스크한 문장을 재복원하는 denoising autoencoder인 Masked Language Model이 NLP에서 주목할만한 성과를 보여줬다.
이러한 방법론은 특정 task 예를들어 span prediction, generation등에서 잘 작동한다. - 하지만 모든 테스크에 적용하기는 어렵다.
BERT는 인코더이기 때문에 Generation task에 대응할 수 없다.
GPT는 디코더만 존재하기 때문에 양방향 문맥정보를 반영하지 못한다.
BART는 Bidirectional과 Auto-Regressive Transfomer을 합쳤고 seq2seq모델로 만들어진 denoising autocnvcvoer로 많은 종류의 downstream taskdㅔ서 잘 동작한다.
**Pretraining**
1. Text가 임의적인 noising 함수를 통해 masked 된다.( 다른 토큰으로 교체, 삭제, 순서 변경)
2. seq2seq모델이 원래의 문장으로 복원을 위해 학습된다.
BART의 핵심적인 장접은 noising의 유연성인데 어떤 임의의 변형이라도 기존 텍스트에 바로 적용될 수 있으며, 심지어 길이도 변화가 가능하다.
많은 noising 방법론을 실험하였는데, 최고의 성능을 보이는것은 기존의 문장의 순서를 랜덤하게 섞고 임의의 길이의 텍스트를 하나의 단일 마스크 토큰으로 교체하는것이다.
이 방법은 BERT의 기존 방법론을 따르는 단어 mask와 next sentence prediction을 일반화 한 것이다.
모델이 전체적인 문장 길이에 대해 학습해야하고, 변형된 입력에 더 많이 집중하는 효과가 있음
BART는 텍스트 생성에 fine-tuning하였을때도 효율적이지만 comprehension 테스크에도 잘 동작한다.
fine-tuning에 대한 새로운 방법을 제안했는데 BAER모델에 추가적인 transformer 레이어에 쌓아 올리는 것으로 기계 번역에 대한 새로은 방법을 제시하였다.
추가적인 레이어는 외국어를 noise가 적용된 영어로 번역하는 것을 학습하여, BART를 사전학습된 target-side 언어 모델로 사용합니다
## Model architecture
- BART는 손상된 문서를 되돌리는 denoising autoencoder이다.
- seq2seq 모델로 구현되오 있고 손상된 텍스트를 bidirectional encoder(BERT)가 엔코딩하고 이를 left-to-right autoregressive decoder(GPT)가 받는다.
- 기존의 negative likelihood를 최적화하였다.
- 표준 seq2seq transformer구조를 사용하였지만, 디코더에서는 GPT에 사용하는 RELU 활성화 함수를 GELU로 바꾸었고 파라미터 초기화를 N(0,0,2)로 하였다.
- N(0,0.2)는 표준 정규분포를 따르는 평균은 0 std는 0.2라는 뜻이다.
- base model: 6 layers, large layer: 12 layers
- BERT와 다른점
- 디코더의 각 레이어가 인코더의 최종 히든 레이어와 cross-attention을 수행한다. (기존 transfomer Decoder와 동일)
- BERT는 단어를 유추해내기 위해 추가적인 feed-forward네트워크를 사용하지만 BART는 사용하지 않는다. (왜냐면 인코더가 바로 masking된 단어를 유추하지 않기 떄문)
- 따라서 BART는 BERT보다 10% 더 많은 파라미터를 가지고 있다.
- 추가적인 레이어, 즉 디코더의 cross attention이 추가되었기 때문
)
'Paper Reviews' 카테고리의 다른 글
Unsupervised Pretraining for Sequence to Sequence Learning (0) | 2023.05.16 |
---|---|
"Distributed Representations of Sentences and Documents" (2) | 2023.04.28 |