요즘 핫하게 뜨고 있는 Chat GPT의 원리를 알아 보기 위해 자연어 처리 부분을 살펴 보겠습니다.
1. 기계의 자연어 처리
컴퓨터는 계산기로 사람 말을 알아 듣는 인공지능이라고 해도 결국은 계산의 처리 결과이다.
그렇다면 기계가 사람 말을 알아 듣는 것 처럼 보이게 하려면 어떤 요소가 필요할까?
입력 -> 처리(모델) -> 출력
어떤 데이터를 입력 받아서 처리 해서 출력하는 기본 요소이다.
이때 인공지능에서는 이러한 처리를 하는 절차를 훈련된 모델을 이용해서 처리하게 된다.
2. 트랜스퍼 러닝(전이학습)
트랜스퍼러닝(transfer learning)란 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 가르킨다. 즉 전이학습이라고도 한다. BERT나 GPT등도 트랜스퍼러닝이 적용되어 있다.
3. 업스트림 태스크(upstream)
트랜스퍼러닝(전이학습)은 업스트림 태스크(먼저 학습한 태스크) 덕분에 주목을 받게 되었는데 자연어의 풍부한 문맥을 모델에 포함시키고 다운스트림(다음으로 학습할 태스크)을 적용해 성능을 대폭 끌어 올렸다.
여기서 업스트림 태스크를 학습하는 과정을 프리트레인(pretrain)이라고 부른다.
업스트림 모델로는 다음단어맞히기,빈칸채우기 가 있는데 예를 들면 다음과 같다.
다음단어맞히기 : 티끌 모아 [MASK] - 앞의 문장을 보고 뒤에 나올 단어를 분류하는 모델 (language model 이라고 한다.)
빈칸채우기 : 티끌 [MASK] 태산 - 앞과 뒤의 문장을 보고 중간에 나올 단어를 분류하는 모델(masked language model 이라고 한다.)
GPT는 language model을 사용하며 BERT는 masked language model 을 사용한다.
이러한 업스트림 태스크는 뉴스,웹문서,백과사전 과 같은 글만 있으면 수작업 없이도 다량의 학습데이터를 싼값에 만들어 낼 수 있게 되었다.
4. 다운스트림 태스크(downstream)
우리가 모델을 업스트림 태스크로 프리트레인 하는 이유는 다운스트림을 잘 하기 위해서이다.
보통 다운스트림 태스크는 프리트레인을 마친 모델을 구조 변경 없이 그래도 사용하거나 태스크 모듈을 덧붙인 형태로 수행한다.
자연어를 입력 받아 해당 입력이 어떤 범주에 해당하는지 확률 형태로 반환하는 분류(classification) 개념이다.
다운 스트림 태스크 학습방식 3가지
- 파인튜닝(fine-tunning)
- 프롬프트튜닝(prompt tunning)
- 인컨텍스트러닝(in-context learning)
참고) Do it! BERT와 GPT로 배우는 자연어 처리
'강의자료 > 머신러닝' 카테고리의 다른 글
딥러닝을 위한 도구 (14) | 2023.06.12 |
---|---|
캐글 학습 코스 정리 (19) | 2023.06.02 |
[머신러닝활용] 컴퓨터 비전을 위한 전이학습 (7) | 2023.04.12 |
[머신러닝활용] 컴퓨터 비전 (9) | 2023.03.20 |
[머신러닝활용] CCTV속 범인얼굴 특정하기 (15) | 2023.03.07 |