우당탕탕코린이 2024. 2. 16. 17:18

 

GloVe : Global Vectors for Word Representation

  • Word2Vec과 더불어 보편적으로 사용되는 word embedding 방법.
  • 각 입력 및 출력 쌍이 같은 window 내에 존재하는지에 대한 확률 p를 사전에 계산한 후에, 입력 word의 임베딩 벡터와 출력 word의 임베딩 벡터의 내적 값과 확률 p에 log를 취한 값이 같아지도록 학습 진행.

  • u_i : 입력 word의 임베딩 벡터
  • v_i : 출력 word의 임베딩 벡터
  • word2vec의 경우에는 특정한 입출력 쌍이 자주 발생하는 경우에 계산이 중복되어 진행되지만, 애초에 어떤 단어쌍이 동시에 등장할 횟수를 미리 계산해놓는다는 점에서 차이가 있다. 
    • 장점 : 중복 계산을 줄일 수 있어서, 빠르게 학습이 진행 가능하고, 더 적은 데이터에서도 잘 작동한다.

 

Property of GloVe - Linear Substructure

  • man - woman 

성별의 차이가 일정한 크기와 방향을 가지는 벡터로 나타나짐.