ChatGPT에서 GPT가 뭡니까?
페이지 정보
관련링크
본문
ChatGPT가 유행이죠.
현재 IT에서는 난리가 났고 IT와 큰 상관이 없는 분들도 단어는 한번쯤 들어보셨을 겁니다.
그만큼 ChatGPT가 인공지능의 역사에 기여한 바는 크죠.
그런데 ChatGPT에서 Chat 은 채팅이라고 알겠는데.. GPT가 대체 뭐냐..
그래서 찾아봤습니다.
GPT는 OpenAI에서 만든 AI모델이라고 합니다.
GPT는 Generative Pre-trained Transformers의 약자입니다.
Generative는 새로운 내용을 생성한다는 의미이고
Pre-trained는 이 모델이 대량의 데이터를 이용하여 학습되었단 의미입니다.
Transformers 는 이 모델이 Transformer 라는 특정한 종류의 신경망 아키텍쳐를 사용한다는 것을 알려줍니다.
ChatGPT에서 사용한 GPT버전은 GPT3 이고 3.5는 3에서 사용자들에게 해야할말 하지 말아야 할말을 좀더 트레이닝 한것으로 알려져 있습니다.
GPT3 는 알려진 바로는 약 1750개의 파라메터(노드)를 사용한다고 합니다.
Transformers 의 구조가 어떤지는 다음에 알아보기로 하고
GPT는 학습할때 단어를 예측하도록 훈련을 받는다고 합니다.
이를테면 "나는 밥을 _____" 라는 문장을 주고 GPT가 "먹었다" 라는 단어를 맞추는 식이죠.
GPT3는 텍스트로 된 600GB 분량의 학습을 했다고 합니다.
그러면 GPT는 어떤 문장을 구성할때 어떤단어가 가장 적합한지에 대해서 배우게 됩니다.
즉 Generative 는 질문에 대한 가장 적합한 단어를 계속 만들어내는 것이죠.
단순히 단어만 나열해서는 올바른 문장이 나오기는 힘들죠. 문장이란것은 일관성이 있어야 하니까요.
그래서 문맥을 유지하기 위해서 self-attention 이라는 매커니즘을 사용한다 합니다.
이는 모델이 특정 단어를 예측할 때 다른단어들이 얼마나 중요한지를 score를 매겨서 같이 넣어준다 합니다.
이런방식으로 GPT라는 모델은 입력받은 텍스트의 맥락과 문장의 일관성을 유지하면서 텍스트를 생성할 수 있다고 하죠.