Study

RNN (Recurrent Neural Network) RNN은 현재 타임스텝에 대해 이전 스텝까지의 정보를 기반으로 예측값을 산출하는 구조의 딥러닝 모델이다. 예를 들어서, I study math라는 문장이 input이면 x0 = I, x1 = study, x2 = math가 된다. A 모델의 output이 다음 time stemp의 input이 된다. 매 타임스텝마다 동일한 파라미터를 가진 모듈을 사용하므로, 재귀적인 호출의 특성을 보여주어 'Recurrent Neural Network'라는 이름을 가지게 되었다. 계산 방법 변수 설명 t : 현재 타임스텝 (time step) w : 웨이트 (weight) h_(t - 1) : old hidden-state vector x_t : time step ..
SVM (Support Vector Machine) class 별 데이터를 가장 잘 구분하는 최적의 하이퍼플레인(Hyperplane)을 찾는 알고리즘 하이퍼플레인 (Hyperplane) 데이터가 분포되어 있는 n차원 피처 공간을 두 공간으로 나누는 n-1차원의 평면. ex 2차원 피처 공간에서 하이퍼플레인은 '선' (line) 3차원 피처 공간에서 하이퍼플레인은 '형면' (surface) 하이퍼플레인에 의해 양분된 두 공간 내에 있는 가장 가까운 데이터 포인트(벡터) 간의 거리(Margin)가 최대인 상태 가장 가까운 데이터 포인터 : 서포트 벡터(Support Vector) 작동 알고리즘 단계 1 : 하이퍼플레인 표현하기 하이퍼플레인도 부분공간으로 생각하면 된다. (벡터들의 집합) 2차원 공간의 하이퍼..
GloVe : Global Vectors for Word Representation Word2Vec과 더불어 보편적으로 사용되는 word embedding 방법. 각 입력 및 출력 쌍이 같은 window 내에 존재하는지에 대한 확률 p를 사전에 계산한 후에, 입력 word의 임베딩 벡터와 출력 word의 임베딩 벡터의 내적 값과 확률 p에 log를 취한 값이 같아지도록 학습 진행. u_i : 입력 word의 임베딩 벡터 v_i : 출력 word의 임베딩 벡터 word2vec의 경우에는 특정한 입출력 쌍이 자주 발생하는 경우에 계산이 중복되어 진행되지만, 애초에 어떤 단어쌍이 동시에 등장할 횟수를 미리 계산해놓는다는 점에서 차이가 있다. 장점 : 중복 계산을 줄일 수 있어서, 빠르게 학습이 진행 가능하고,..
조건부 확률 사건 (Event) 예시 내일 비가 올 경우 포커 카드팩에서 2장 뽑았는데 둘 다 킹인 경우 어떤 사람이 암에 걸린 경우 조건부 확률 어떤 사건 B가 발생한다는 것을 알았을 때, A가 일어날 (일어났을) 확률 P(B|A) : 사건 A가 주어졌을 때 사건 B가 발생할 확률 P(B)와 P(A) : 각각 사건 A와 B가 발생할 확률 베이즈 정리 (Bayes' Theorem) 용어 설명 P(A) : 사전(prior) 확률 P(A|B) : 사후(posterior) 확률 P(B) : 증거(Evidence) P(B|A) : 유사가능도 (Likelihood) 예시 두 개의 동전 U, F가 있다고 가정하자. 동전 U는 던져서 앞면이 나올 확률이 90%이고, 동전 F는 앞면이 나오르 확률이 50%이다. 두 동..
Word Embedding 단어들을 특정한 차원으로 이루어진 공간 상의 한 점의 좌표를 나타내는 벡터로 변환해주는 기법. example cat이라는 단어와 kitty라는 단어를 벡터로 변환했을 때, 두 좌표 간의 거리는 가깝다 hamburger는 cat과 kitty와 의미가 다르므로, 해당 좌표들 간의 거리는 멀다 비슷한 의미를 가진 단어들이 좌표 공간 상에서 가까이 위치하도록 한다. -> 의미를 잘 반영한 표현 방법! word embedding을 학습하는 방법으로는 Word2Vec, GloVe 등이 있다. Word2Vec word embedding을 학습하는 대표적인 방법. 가정 : 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이다. ex The cat purrs. This cat hunt..
"John really really loves this movie", "Jane really likes this song" 위와 같은 문장들이 있다고 가정하자. 이 문장들을 표현하기 위해서 우리는 다음과 같은 step들을 거칠 수 있다. step1 : unique한 단어들을 모아 vocabulary 형태로 저장한다. Vocabulary : { "John" , "really", "this", "movie", "Jane", "likes", "song"} step2 : unique한 단어들을 one-hot vector들로 encoding한다. vocabulary의 단어들을 일종의 categorical 변수들로 취급할 수 있다. 컴퓨터가 자연어로 된 categorical 변수들을 이해하도록 하기 위해 해당 변수..
Bias & Variance Bias 가정(추정)이 얼마나 편향되어 있는가? 데이터 내에 있는 모든 정보를 고려하지 않음 Variance 입력 데이터의 변동에 따른 추정값 변화 데이터 내에 있는 에러나 노이즈까지 잘 잡아냄 출력이 얼마나 일관적으로 나오는가? Bias-Variance Tradeoff MSE (Mean Square Error)를 통하여 bias와 variance의 tradeoff를 살펴볼 수 있다. 우리가 흔히 아는 MSE는 수식을 통하여 bias의 제곱, variance, noise 총 3개로 분할될 수 있다. 이 때, noise는 제거할 수 없는 에러이다. 수식을 보면 알 수 있듯이 bias와 variance는 제곱이 포함되어 있어 모두 양수이다. 즉, MSE가 고정되면 하나가 커지면 ..
Bag-of-Words Word2Vec GloVe RNN LSTM GRU Seq2Seq Beam Search BLEU Transformer GPT-1 BERT T5
우당탕탕코린이
'Study' 카테고리의 글 목록 (2 Page)