Study/자연어처리
3. Glove
우당탕탕코린이
2024. 2. 16. 17:18
GloVe : Global Vectors for Word Representation
- Word2Vec과 더불어 보편적으로 사용되는 word embedding 방법.
- 각 입력 및 출력 쌍이 같은 window 내에 존재하는지에 대한 확률 p를 사전에 계산한 후에, 입력 word의 임베딩 벡터와 출력 word의 임베딩 벡터의 내적 값과 확률 p에 log를 취한 값이 같아지도록 학습 진행.
- u_i : 입력 word의 임베딩 벡터
- v_i : 출력 word의 임베딩 벡터
- word2vec의 경우에는 특정한 입출력 쌍이 자주 발생하는 경우에 계산이 중복되어 진행되지만, 애초에 어떤 단어쌍이 동시에 등장할 횟수를 미리 계산해놓는다는 점에서 차이가 있다.
- 장점 : 중복 계산을 줄일 수 있어서, 빠르게 학습이 진행 가능하고, 더 적은 데이터에서도 잘 작동한다.
Property of GloVe - Linear Substructure
- man - woman