논문 리뷰

[논문 리뷰] LLaMA : Open and Efficient Foundation Language Models

2024.01.28· 논문 리뷰

데이터는 더 많이, 모델 크기는 작게 Meta에서 공개한 모델로, 전체적인 컨셉은 모델의 파라미터를 줄였지만, 성능은 올랐다!라는 컨셉이다. 1. Introduction Large Language Models (LLMs)이 텍스트 지시문이나, 굉장히 적은 예시만으로도(few-shot) 좋은 성능을 내는 데에는 충분한 크기의 모델이 조건으로 따라붙는다. 기존의 연구들은 "파라미터가 많아질수록, 더 좋은 성능이 따라온다"라는 가정 아래에서 진행되었다. 그러나, Hoffmann et al에서는 더 작은 모델에 더 많은 데이터를 학습시키면 더 큰 모델보다 좋은 성능을 낼 수 있음을 밝혔다. 본 논문에서는 LLaMA라는 7B부터 65B 사이읭 파라미터들을 지닌 모델을 제안한다. LLaMA-13B는 크기가 10배 ..

티스토리툴바