Word Embedding 단어들을 특정한 차원으로 이루어진 공간 상의 한 점의 좌표를 나타내는 벡터로 변환해주는 기법. example cat이라는 단어와 kitty라는 단어를 벡터로 변환했을 때, 두 좌표 간의 거리는 가깝다 hamburger는 cat과 kitty와 의미가 다르므로, 해당 좌표들 간의 거리는 멀다 비슷한 의미를 가진 단어들이 좌표 공간 상에서 가까이 위치하도록 한다. -> 의미를 잘 반영한 표현 방법! word embedding을 학습하는 방법으로는 Word2Vec, GloVe 등이 있다. Word2Vec word embedding을 학습하는 대표적인 방법. 가정 : 같은 문장에서 나타난 인접한 단어들 간의 의미가 비슷할 것이다. ex The cat purrs. This cat hunt..
전체 글
바보같은 감자가 이것저것 정리하는 블로그"John really really loves this movie", "Jane really likes this song" 위와 같은 문장들이 있다고 가정하자. 이 문장들을 표현하기 위해서 우리는 다음과 같은 step들을 거칠 수 있다. step1 : unique한 단어들을 모아 vocabulary 형태로 저장한다. Vocabulary : { "John" , "really", "this", "movie", "Jane", "likes", "song"} step2 : unique한 단어들을 one-hot vector들로 encoding한다. vocabulary의 단어들을 일종의 categorical 변수들로 취급할 수 있다. 컴퓨터가 자연어로 된 categorical 변수들을 이해하도록 하기 위해 해당 변수..
Bias & Variance Bias 가정(추정)이 얼마나 편향되어 있는가? 데이터 내에 있는 모든 정보를 고려하지 않음 Variance 입력 데이터의 변동에 따른 추정값 변화 데이터 내에 있는 에러나 노이즈까지 잘 잡아냄 출력이 얼마나 일관적으로 나오는가? Bias-Variance Tradeoff MSE (Mean Square Error)를 통하여 bias와 variance의 tradeoff를 살펴볼 수 있다. 우리가 흔히 아는 MSE는 수식을 통하여 bias의 제곱, variance, noise 총 3개로 분할될 수 있다. 이 때, noise는 제거할 수 없는 에러이다. 수식을 보면 알 수 있듯이 bias와 variance는 제곱이 포함되어 있어 모두 양수이다. 즉, MSE가 고정되면 하나가 커지면 ..
Bag-of-Words Word2Vec GloVe RNN LSTM GRU Seq2Seq Beam Search BLEU Transformer GPT-1 BERT T5
머신러닝이라고 카테고리를 이름 붙였지만 사실상 머신러닝+딥러닝! Overfitting & Underfitting Naive Bayes SVM Decision Tree Logistic Regression Linear Regression Cost Function Gradient Descent Regularization Boosting Models Neural Network Optimization Activation Function
최근에 면접을 보고.. 나의 부족함을 아주 많이 느끼며 공부 계획을 세워보기로 했다 공부 순서는 다음과 같이 진행할 예정이다 1. 머신러닝 (2월) 2. 자연어처리 (2월) 3. 선형대수학 (3월) 4. 확률과통계 (3월) 5. 컴퓨터비전 (4월) 6. 그래프 (4월) 7. 자료구조 (4월) 8. 알고리즘 (5월) 9. 파이썬 (6월) 10. 운영체제 (6월) 11. 데이터베이스 (6월) 중요도 순서이고, 아마 4번까지만 해도 다행 아닐까...라는 생각이 들지만 그리고 어디엔가 붙게 된다면 중간부터 공부는 때려칠 것 같은 강렬한 생각이 들지만 우선 당장 공부가 절실한 1~4를 2월 3월 동안 열심히 해보겠다!!
데이터는 더 많이, 모델 크기는 작게 Meta에서 공개한 모델로, 전체적인 컨셉은 모델의 파라미터를 줄였지만, 성능은 올랐다!라는 컨셉이다. 1. Introduction Large Language Models (LLMs)이 텍스트 지시문이나, 굉장히 적은 예시만으로도(few-shot) 좋은 성능을 내는 데에는 충분한 크기의 모델이 조건으로 따라붙는다. 기존의 연구들은 "파라미터가 많아질수록, 더 좋은 성능이 따라온다"라는 가정 아래에서 진행되었다. 그러나, Hoffmann et al에서는 더 작은 모델에 더 많은 데이터를 학습시키면 더 큰 모델보다 좋은 성능을 낼 수 있음을 밝혔다. 본 논문에서는 LLaMA라는 7B부터 65B 사이읭 파라미터들을 지닌 모델을 제안한다. LLaMA-13B는 크기가 10배 ..
현정천 님의 코드입니다. GPT는 transformer의 decoder 부분을 사용한다. 때문에 기존 transformer에서 encdoder의 출력과 decoder의 출력을 attention해주는 두번째 multi-head-attention 부분을 제거해야 한다. 1. config config = Config({ "n_dec_vocab": len(vocab), "n_dec_seq": 256, "n_layer": 6, "d_hidn": 256, "i_pad": 0, "d_ff": 1024, "n_head": 4, "d_head": 64, "dropout": 0.1, "layer_norm_epsilon": 1e-12 }) print(config) 2. Decoder """ decoder layer """ ..