Transformer

Transformer는 2017년 Google Research의 "Attention is All You Need" 논문에서 제안된 모델로, 기존 RNN 기반 시퀀스 모델의 한계를 극복하기 위해 등장했다. 핵심은 Attention 메커니즘을 활용해 입력 시퀀스 전체를 한 번에 처리하고, 병렬 연산이 가능하다는 점이다.

1. 전체 구조

Transformer는 크게 Encoder와 Decoder 두 부분으로 나뉜다.

Encoder: 입력 시퀀스를 받아 정보를 추상화한다.
Decoder: Encoder의 정보를 바탕으로 출력 시퀀스를 생성한다.

각각 여러 개의 동일한 레이어(블록)로 구성되어 있다.

2. 입력 처리

Token Embedding: 각 입력 토큰(단어 등)을 고차원 벡터로 변환한다.
Positional Encoding: 시퀀스 내에서 각 토큰의 위치 정보를 더해준다. (사인/코사인 함수 기반)
(선택) Segment Embedding: 두 개 이상의 시퀀스를 구분할 때 사용한다.

3. Encoder 구조

Encoder는 N개의 동일한 블록으로 구성된다(논문에서는 N=6).

각 블록은 다음과 같은 순서로 동작한다:

Multi-Head Self-Attention
- 입력 시퀀스의 각 토큰이 다른 모든 토큰과의 관계(유사도)를 계산한다.
- 여러 개의 Attention Head를 사용해 다양한 관점에서 정보를 추출한다.
Add & Layer Normalization
- 입력과 Attention 출력을 더하고, Layer Normalization을 적용한다.
Position-wise Feed-Forward Network (FFN)
- 각 토큰별로 동일한 2층의 완전연결 신경망을 적용한다.
Add & Layer Normalization
- FFN의 출력과 이전 출력을 더하고, 다시 Layer Normalization을 적용한다.

4. Decoder 구조

Decoder 역시 N개의 동일한 블록으로 구성된다.

각 블록은 다음과 같은 순서로 동작한다:

Masked Multi-Head Self-Attention
- 현재 시점까지의 출력만을 참고하도록 미래 토큰을 마스킹한다.
Add & Layer Normalization
Multi-Head Attention (Encoder-Decoder Attention)
- Encoder의 출력과 Decoder의 출력을 결합해, 입력 시퀀스의 특정 부분을 참고할 수 있게 한다.
Add & Layer Normalization
Position-wise Feed-Forward Network (FFN)
Add & Layer Normalization