'Study/자연어처리' 카테고리의 글 목록

2024.02.19· Study/자연어처리

RNN (Recurrent Neural Network) RNN은 현재 타임스텝에 대해 이전 스텝까지의 정보를 기반으로 예측값을 산출하는 구조의 딥러닝 모델이다. 예를 들어서, I study math라는 문장이 input이면 x0 = I, x1 = study, x2 = math가 된다. A 모델의 output이 다음 time stemp의 input이 된다. 매 타임스텝마다 동일한 파라미터를 가진 모듈을 사용하므로, 재귀적인 호출의 특성을 보여주어 'Recurrent Neural Network'라는 이름을 가지게 되었다. 계산 방법 변수 설명 t : 현재 타임스텝 (time step) w : 웨이트 (weight) h_(t - 1) : old hidden-state vector x_t : time step ..

3. Glove

2024.02.16· Study/자연어처리

GloVe : Global Vectors for Word Representation Word2Vec과 더불어 보편적으로 사용되는 word embedding 방법. 각 입력 및 출력 쌍이 같은 window 내에 존재하는지에 대한 확률 p를 사전에 계산한 후에, 입력 word의 임베딩 벡터와 출력 word의 임베딩 벡터의 내적 값과 확률 p에 log를 취한 값이 같아지도록 학습 진행. u_i : 입력 word의 임베딩 벡터 v_i : 출력 word의 임베딩 벡터 word2vec의 경우에는 특정한 입출력 쌍이 자주 발생하는 경우에 계산이 중복되어 진행되지만, 애초에 어떤 단어쌍이 동시에 등장할 횟수를 미리 계산해놓는다는 점에서 차이가 있다. 장점 : 중복 계산을 줄일 수 있어서, 빠르게 학습이 진행 가능하고,..

2. Word2Vec

2024.02.14· Study/자연어처리

Word Embedding 단어들을 특정한 차원으로 이루어진 공간 상의 한 점의 좌표를 나타내는 벡터로 변환해주는 기법. example cat이라는 단어와 kitty라는 단어를 벡터로 변환했을 때, 두 좌표 간의 거리는 가깝다 hamburger는 cat과 kitty와 의미가 다르므로, 해당 좌표들 간의 거리는 멀다 비슷한 의미를 가진 단어들이 좌표 공간 상에서 가까이 위치하도록 한다. -> 의미를 잘 반영한 표현 방법! word embedding을 학습하는 방법으로는 Word2Vec, GloVe 등이 있다. Word2Vec word embedding을 학습하는 대표적인 방법. 가정 : 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이다. ex The cat purrs. This cat hunt..

1. Bag-of-Words(BoW)

2024.02.13· Study/자연어처리

"John really really loves this movie", "Jane really likes this song" 위와 같은 문장들이 있다고 가정하자. 이 문장들을 표현하기 위해서 우리는 다음과 같은 step들을 거칠 수 있다. step1 : unique한 단어들을 모아 vocabulary 형태로 저장한다. Vocabulary : { "John" , "really", "this", "movie", "Jane", "likes", "song"} step2 : unique한 단어들을 one-hot vector들로 encoding한다. vocabulary의 단어들을 일종의 categorical 변수들로 취급할 수 있다. 컴퓨터가 자연어로 된 categorical 변수들을 이해하도록 하기 위해 해당 변수..

공부 계획

2024.02.11· Study/자연어처리

Bag-of-Words Word2Vec GloVe RNN LSTM GRU Seq2Seq Beam Search BLEU Transformer GPT-1 BERT T5

티스토리툴바