GPT-4 Technical Report

2023. 5. 23. 20:28인공지능(AI)

OpenAI는 GPT-4를 다음과 같이 정의하고 있습니다.

GPT-4, a large multimodal model capable of processing image and text inputs and producing text outputs

텍스트 입력을 받아서 텍스트를 생성했던 기존의 GPT 모델과 다르게, 이미지/영상/사운드 입력도 처리할 수 있는 ‘멀티모달(multimodal)’이 강화되었습니다. 실제 technical report에 나온 결과를 보면, GPT-4는 이미지 형태로 제시된 시험 문제와 논문을 이해하고, 인터넷 밈 이미지의 유머 포인트를 이해하는 등 뛰어난 이미지 처리 성능을 보였고, 텍스트 처리도 ChatGPT와 기존의 언어 모델보다 우수한 성능을 보였다고 합니다.

Technical report 내용에 따르면 GPT-4는 트랜스포머(transformer) 스타일의 모델이고, 문장의 다음 토큰을 예측하는 방식으로 학습되어 있습니다. 그 이후에는 Reinforcement Learning from Human Feedback (RLHF; 생성된 텍스트를 사람이 평가하고 강화 학습을 통해 모델 파라미터를 조정하여 성능을 향상시키는 방법) 기법으로 fine-tuning이 진행되었습니다. 추가적으로, OpenAI는 technical report에서 모델의 구조와 크기, 하드웨어 정보, 데이터셋 구성 방법, 모델 학습 방법과 같은 정보는 공개하지 않겠다고 밝혔습니다.

GPT-4 모델의 scaling

모델의 효과성과 모델 학습에 필요한 리소스 간에는 보통 trade-off 관계가 존재합니다. 모델의 크기와 학습 데이터셋의 규모가 증가하면서 모델의 손실 함수 값은 줄어드는 경향이 있습니다. 이는 기존 연구를 통해 확인된 바로, 지수함수의 형태를 따르는 하향 곡선인 power-law 관계를 보입니다.

GPT-4의 성능에 대해 본격적으로 설명하기 이전에, OpenAI는 스케일링에 대한 주요 논점을 먼저 제기하고 있습니다. 스케일링에 대한 이러한 논의가 먼저 등장하는 이유는 GPT-4 모델의 크기가 특히 크기 때문입니다. GPT-4의 파라미터 수는 아직 정확하게 공개되지 않았지만, GPT-3 모델이 약 1750억 개의 파라미터를 보유하고 있다는 점을 고려하면 그보다 훨씬 많을 것으로 예상됩니다. 이처럼 광범위한 모델은 한 번 튜닝하는 데도 상당한 시간과 비용이 소요됩니다. OpenAI는 GPT-4 프로젝트를 진행하면서 스케일링이 잘 이루어지는 모델 구현에 집중하였다고 알려져 있습니다. 특히 학습 시간이 GPT-4의 1/1000, 1/10000인 작은 모델의 성능 데이터를 바탕으로 GPT-4의 성능을 정확히 예측할 수 있도록 하는 것이 목표였습니다.

결과적으로, OpenAI의 내부 데이터와 HumanEval 데이터셋을 활용한 실험에서는, 작은 모델들의 손실 함수 값으로부터 도출된 power-law 함수를 이용해 GPT-4의 성능을 성공적으로 예측하였다고 합니다. 주목할 만한 사실은, 모델의 규모가 증가할수록 성능이 감소하는 현상을 연구하는 Inverse Scaling Prize 대회에서 수상한 작품 중 하나인 'hindsight neglect' 태스크에서 GPT-4가 높은 정확도를 보였다는 점입니다. 이는 GPT-4가 가장 많은 파라미터를 가진 모델임에도 불구하고, 비교 대상이 된 다른 모델들에 비해 월등히 좋은 성능을 보였다는 것을 의미합니다.

GPT-4의 성능

OpenAI가 언어 모델인 GPT를 개발할 때 주요 목표 중 하나는 복잡한 문맥에서 자연어 텍스트를 이해하고 생성하는 능력이라고 합니다. 따라서, GPT-4의 성능 평가를 위해 선택된 방법은 인간에게 주어지는 시험 문제를 이를 통해 풀게 하는 것이었습니다. 이 시험 문제들은 객관식과 주관식을 모두 포함하며, 필요한 경우에는 이미지도 입력값으로 제공되었습니다. 이러한 방식을 통해 전문적이고 학문적인 다양한 시험에서 GPT-4가 인간과 유사한 성적을 받았다고 알려져 있습니다. 특히, 미국 변호사 시험에서 상위 10%의 성적을 받았는데, 이는 하위 10%를 기록했던 이전 버전인 ChatGPT보다 더욱 뛰어난 성능을 보여주었습니다.

RLHF fine-tuning을 거치기 전의 기본적인 GPT-4 모델만으로도 이와 유사한 성능이 확인되었기 때문에, OpenAI는 GPT-4의 시험 문제 풀이 능력이 RLHF 보다는 pre-training 과정에서 기인한 것으로 추측하고 있습니다. 또한, OpenAI는 여러 언어 모델용 벤치마크 데이터를 활용하여 기본 GPT-4의 성능을 평가하였고, 이 결과 기존의 ChatGPT는 물론 PaLM, LLaMA와 같은 최신 모델의 성능을 뛰어넘었습니다. 심지어, 특정 벤치마크에 맞추어 학습된 다른 모델보다도 대체로 우수한 성능을 보였습니다. 더불어, MMLU (Massive Multi-task Language Understanding) 벤치마크를 번역하여 테스트하였음으로써, GPT-4가 영어 외의 다른 언어에 대한 이해력도 기존 모델보다 훌륭하다는 것을 입증하였습니다. 추가로, OpenAI API 사용자를 대상으로 실시한 테스트에서는 사용자들이 ChatGPT보다 GPT-4에 의해 생성된 답변을 선호하는 경향을 보였다고 합니다. 이러한 언어 모델의 평가를 더욱 원활하게 진행할 수 있도록 OpenAI는 프레임워크인 OpenAI Evals를 오픈소스로 제공하였습니다.

원본 이미지의 prompt와 GPT-4의 답변을 가로 방향으로 재배치하였음

GPT-4의 가장 중요한 특징 중 하나는 텍스트 prompt 뿐만 아니라, 텍스트와 이미지가 혼합된 prompt도 처리할 수 있다는 것 입니다. GPT-4는 텍스트와 사진이 포함된 문서와 도표, 스크린샷 등 다양한 종류의 이미지에서도 텍스트 prompt를 처리하는 것과 비슷한 성능을 보였습니다. 그리고 이미지와 텍스트 prompt를 함께 사용할 때도 few-shot prompting, chain-of-thought 등 언어 모델을 위한 여러 기법들을 사용할 수 있었습니다.  실제 사용 예시를 보면, 온라인 커뮤니티인 레딧(Reddit)에 공유된 이미지에 대해 "각 이미지를 설명하고, 이 이미지가 왜 재미있는지 알려줘."라는 prompt를 입력했을 때, GPT-4는 각 이미지가 어떤 것을 나타내는지 설명하며, 마지막으로 "컴퓨터 모니터에 사용되는 큰 VGA 케이블을 작은 스마트폰 충전 포트에 연결한 것이 재미있음"이라는 결론을 내렸습니다.

GPT-4의 한계

GPT-4의 성능이 눈부시게 놀라운 만큼, 이 모델에도 한계점이 존재합니다. GPT-4는 그 이전 버전인 GPT 모델들과 유사한 제약 사항을 지니고 있으며, 이 중에서도 가장 대표적인 것은 '환각(hallucination)'이라는 현상입니다. GPT 모델은 제공된 프롬프트를 기반으로 가장 가능성이 높은 문장을 생성하게 되지만, 생성된 텍스트가 '정확한 정보'인지를 검증하는 기능은 부재합니다. 따라서, 잘못된 정보를 제공하는 경우가 종종 발생하며, 이런 현상을 '환각'이라 부릅니다. 실제로 인터넷에서는 ChatGPT가 제공한 부적절한 답변을 담은 이미지들이 많이 공유되고 있습니다.

GPT-4는 ChatGPT에 비해 이런 환각(hallucination)이 크게 감소하였다고 합니다. OpenAI 내부의 사실 검증 테스트로 평가한 결과 GPT-4는 최신 버전의 ChatGPT보다 19%p 높은 점수를 얻었습니다. '옳은 문장'과 '그럴듯하지만 오류가 있는 문장'을 구별하는 공개 벤치마크 테스트인 TruthfulQA에서는, RLHF(Reinforcement Learning from Human Feedback) fine-tuning 이전의 GPT-4 base 모델은 ChatGPT와 큰 성능 차이를 보이지 않았지만, RLHF 이후로는 성능이 크게 향상되었다고 알려져 있습니다. 또한, GPT-4의 제약점 중 하나는 2021년 9월 이후의 정보를 포함하지 못한다는 것입니다. 이는 모델 학습에 활용된 데이터셋이 한정적이며, GPT-4가 실시간 경험을 통해 새로운 지식을 습득하지 못하기 때문입니다.

GPT-4의 위험성, 그리고 이를 완화하기 위한 노력

GPT-4의 전문적인 텍스트에 대한 이해력이 향상됨에 따라, '전문 지식을 악용할 수 있는 prompt'를 식별하는 데 전문가의 도움이 필수적이었습니다. 예를 들어, 간단한 재료와 장비만을 이용해 특정 화학 물질을 합성하는 방법을 질문하는 등의 경우가 있습니다. 이에 OpenAI는 해당 분야의 전문가들에게 도움을 청해 모델을 개선하였습니다. 초기 버전의 GPT-4는 위험한 화학 물질 합성 방법에 대해 상세하게 설명하는 결과를 생성하였으나, 출시 직전 버전에서는 안전한 이유로 해당 정보를 제공할 수 없다는 답변을 생성하였습니다.

RLHF (Reinforcement Learning from Human Feedback)는 사용자의 의도를 반영하여 텍스트를 생성하는데 크게 기여하였으나, RLHF 참여자들에게 상황에 맞는 안내가 부족할 때, 비윤리적인 prompt(예: 폭탄 제작 방법은 어떻게 되는가?)에 대해 적절하지 않은 응답을 생성하는 문제가 발생하였습니다. 반면, 비교적 위험이 적은 질문(예: 저렴하게 담배를 구입할 수 있는 방법은?)에 대해 응답을 차단하는 경우도 있었습니다. 이러한 문제를 극복하기 위해 OpenAI는 RLHF 학습 과정에 안전성과 관련된 다양한 프롬프트를 추가하였고, RBRM (Rule-Based Reward Model)이라는 방법론을 적용하였습니다. RBRM은 여러 개의 zero-shot GPT-4 classifier를 포함하며, 유해한 내용을 제거하거나, 반대로 무해한 내용이 제거되지 않았을 때 GPT-4 policy model에 보상 신호를 제공합니다. RBRM은 GPT-4 policy model의 결과물, 사람이 만든 평가 지표(생성된 텍스트를 필터링하는 데 사용된 규칙), 그리고 경우에 따라 prompt까지 입력으로 받아들입니다. 그 후, 적절하지 않은 내용이 포함된 응답을 생성하는 경우 대신 거부 응답을 생성하는 방향에 보상을 부여합니다.

이러한 노력의 결과로, GPT-4는 그 전신인 ChatGPT에 비해 위험한 응답을 생성하는 빈도가 크게 줄어들었다고 보고되었습니다. Real Toxicity Prompts 데이터셋을 이용한 실험 결과, GPT-4는 0.73%의 경우에만 부적절한 텍스트를 생성하였는데, 이는 ChatGPT의 결과인 6.48%에 비해 훨씬 낮습니다. 그럼에도 불구하고, OpenAI는 여전히 'jailbreak'이라 불리는 방식으로 지침을 우회하고 위험한 답변을 생성하는 방법이 존재한다는 것을 인지하고 있으며, 모니터링 등을 통한 안전성 강화의 중요성을 강조하고 있습니다.

요약

1. GPT-4는 이미지와 텍스트 입력을 처리하고 텍스트 출력을 생성할 수 있는 멀티모달 모델로, 이미지 처리 성능과 텍스트 처리 성능에서 우수한 결과를 보여주었음

2. GPT-4는 트랜스포머 스타일의 모델로 학습되었으며, RLHF를 통해 파라미터를 조정하여 성능을 향상시켰음.

3. GPT-4는 기존 모델보다 뛰어난 성능을 보여주었고, 텍스트와 이미지가 혼합된 prompt를 처리할 수 있음.

4. GPT-4는 환각 현상과 같은 한계가 있고, 위험한 응답을 생성할 수도 있기 때문에, OpenAI는 이러한 위험성을 완화하기 위해 RBRM 방법론 등을 통해 안전성 강화에 주력하고 있음.

 

* 비고 : GPT-4는 현재 유료 구독 서비스인 ChatGPT Plus를 통해 사용할 수 있습니다.

* 비고 : API waitlist 신청 가능합니다.