GPT가 배웠을 수 있는 7가지 과정

ChatGPT's Seven-Curriculum That It May Have Learned

단순한 호기심에서 GPT가 무엇을 공부했을지 궁금해졌습니다. 전 세계 연구자들이 같은 질문을 연구하고 있다는 뜻인 583가지 자연어 처리 연구 주제를 Papers with Code 웹사이트에서 확인해 보았습니다. 이러한 문제 유형들은 GPT가 다양한 내용과 함께 학습한 작은 교육 과정에 포함되었을 것으로 추측됩니다.

이 중에서 일상생활과 관련이 깊은 7가지 주제를 선택했습니다.

데이터를 텍스트로 생성하기

ChatGPT's Seven-Curriculum That It May Have Learned - Data to Text Generation

이 연구 주제는 흔히 접하는 “테이블” 데이터로부터 설명적인 텍스트를 생성하는 것을 다룹니다. 이는 저와 같은 데이터 분석가들의 생산성을 위한 필수적인 연구이면서 동시에 직업에 영향을 미치는 연구입니다 (GPT가 직업에 영향을 미치는 유일한 요소는 아니겠죠?).

데이터를 기계에게 너무 많은 자유를 부여하여 상상력이나 의도를 주입하면 기계에게는 데이터를 설명하는 것이 어려울 수 있습니다. 무엇을 설명해야 하는지, 어디에 초점을 맞추어야 하는지, 명확성을 높이기 위해 어떤 표현을 사용해야 하는지 등 다양한 하위 주제를 동시에 해결해야 합니다.

텍스트 스타일 전환

ChatGPT's Seven-Curriculum That It May Have Learned - Text Style Transfer

음성 연구에 “목소리 모방”이 있다면 자연어 처리에는 “스타일 변환”이 있습니다. 예를 들어, 문장의 의미는 동일하면서 다른 화자의 말투를 변화시키는 기술입니다.

“편안한 톤”을 “분노로 말하기”, “남성적인 스타일”을 “여성 화자의 스타일”로, “어린이다운 단어와 문장”을 “성인의 문법”으로 바꿀 수 있습니다.

예를 들어, 엘론 머스크의 스페이스X에 대한 기술적 설명을 해리 포터의 말투로 변환하는 것입니다. 문장의 의미를 유지하면서 다른 화자의 스타일을 변경하는 기술입니다.

임상 언어 번역

ChatGPT's Seven-Curriculum That It May Have Learned - Clinical Language Translation

만약 우리의 증상이 가벼운 감기 이상으로 진전되었을 때, 우리에게 의사의 진단이 내어진다 해도 그것은 외계어처럼 느껴질 수 있습니다. 이 간극을 줄이기 위해 전문 용어로 가득 찬 의료 텍스트를 일반 대중이 이해할 수 있는 언어로 번역하는 연구 분야가 있습니다.

의도 분류

ChatGPT's Seven-Curriculum That It May Have Learned - Intent Classification

간단히 말해서, 상대방이 명확하게 말하지 않아도 무슨 의미인지를 이해하는 연구입니다. 예를 들어, 상업 서비스에서는 누군가가 구매를 원하는지, 더 비싼 구독 요금제로 업그레이드하길 원하는지, 아니면 구독을 취소하길 원하는지를 파악하는 데 도움이 될 수 있습니다. 챗봇인 경우 사용자가 남긴 몇 마디의 말에서 관련 주제를 파악하고 사용자가 유용하게 여길 수 있는 정보를 제안할 수 있습니다.

이야기 완성

ChatGPT's Seven-Curriculum That It May Have Learned - Story Completion

이 연구는 이야기의 누락된 부분을 완성하는 것을 목표로 합니다. 이는 단순히 결말뿐만 아니라 본문의 누락된 부분을 추측하고 매끄럽게 연결하는 것을 포함할 수 있습니다. 이야기에 너무 많은 기술 용어가 포함되어 있거나 많은 배경 지식이 필요한 경우 독자가 따라갈 수 있도록 주석을 제공할 수도 있습니다.

이 연구의 유용성은 소설뿐만 아니라 일상 생활에서도 확장할 수 있습니다. 많은 사람들이 “지식의 저주”에 빠져 있어 다른 사람들이 이미 알고 있는 것으로 가정하는 경우가 많습니다. 이야기 완성 모델이 지식의 중재자로 개입할 수 있다면 도움이 될 것입니다.

시각적 이야기 만들기

ChatGPT's Seven-Curriculum That It May Have Learned - Visual Storytelling_01

맨해튼 역에서 뛰어나오는 사람의 사진이 주어진다면 다음과 같이 두 가지 설명을 작성할 수 있습니다.

ChatGPT's Seven-Curriculum That It May Have Learned - Visual Storytelling_02

“맨해튼 역 2번 출구에서 사람이 뛰어나가고 있습니다. 나무와 도로, 그리고 옆에 차가 있습니다.”
“오늘도 늦었네요.”

사람들은 이와 같이 하나의 사진에서 맥락을 이해하고 이야기를 만들어낼 수 있습니다. 그러나 인공지능에게는 어려운 작업이었습니다. 여러 이미지를 하나로 연결하는 데 필요한 맥락을 제공하고 최종적으로 문장을 생성하는 것은 시각적 이야기 만들기 연구에서 다른 수준입니다.

개념에서 텍스트 생성

ChatGPT's Seven-Curriculum That It May Have Learned - Concept-To-Text Generation

“개념을 기반으로 텍스트를 생성하는 것”은 앞에서 언급한 “이야기 완성”과 약간 다릅니다. 이야기 완성 연구는 빈 컨텍스트를 채우는 반면, 이번에 소개하는 연구는 몇 개의 주어진 단어로 타당한 문장을 생성합니다.

이번에도 GPT4에게 과제를 맡겼습니다. “아침, 커피, 빵, 지하철”이라는 네 개의 단어로 문장을 만들어 보라고 했습니다. 이제 GPT에게는 쉬운 과제인 것 같습니다.

그는 아침 일찍 일어나 커피 한 잔을 부엌에서 따르고 따뜻한 빵 한 조각을 한 입 베어 물고 직장으로 향했습니다.

이 글에서 선택된 내용은 다양한 연구 주제 중 일부에 불과합니다. 자연어 처리 외에도 인공지능 연구 분야에는 음성 인식, 이미지/비디오 생성 등 끝이 없는 다양한 주제들이 포함되어 있습니다. 지금까지 연구된 주제들을 살펴보면서 “이런 유형을 배웠으니 그런 유형의 질문으로 확장할 수 있겠다”고 생각해 보면서 아이디어를 고민해 볼 수도 있습니다. 이 사이트를 방문하여 멋진 아이디어를 탐색해 보시기 바랍니다.