인터뷰/예측

OpenAI 연구원 "우리는 AI의 하프타임에 도달했다."

작성자
하이룽룽
작성일
2025-04-14 21:05
조회
10
https://ysymyth.github.io/The-Second-Half/

 



요약: 우리는 AI의 하프타임에 도달했다.

수십 년간 AI는 주로 새로운 학습 방법과 모델 개발에 초점을 맞춰왔다. 그 결과, 체스와 바둑에서 세계 챔피언을 이기고, SAT와 변호사 시험에서 대부분의 인간을 능가하며, IMO와 IOI에서 금메달을 딴 사례들이 나타났다. 이런 역사적 이정표 뒤에는 서치, 심층 강화학습(deep RL), 스케일링, 그리고 추론과 같은 AI 방법론의 근본적인 혁신들이 자리하고 있다. 시간이 지남에 따라 모든 것이 점점 더 나아지고 있다.

그렇다면 지금 갑자기 달라진 점은 무엇일까?

세 단어로 요약하자면: 강화학습(RL)이 드디어 작동한다.
정확히 말하면, 강화학습(RL)이 드디어 일반화된다. 여러 주요 우회로와 중요한 이정표들을 지나, 우리는 언어와 추론을 사용하여 다양한 RL 과제를 해결할 수 있는 작동하는 레시피에 도달했다. 불과 1년 전만 해도, 단 하나의 레시피로 소프트웨어 공학, 창의적인 글쓰기, IMO 수준의 수학, 마우스와 키보드 조작, 그리고 장문의 질문 응답 등 서로 매우 어려운 작업들을 해결할 수 있다고 AI 연구자들에게 말했다면, 대부분은 그 말을 터무니없다고 비웃었을 것이다. 이 작업들 각각은 극도로 어려운 문제였으며, 많은 연구자들이 한정된 영역에 집중하며 전체 박사 과정을 보냈다.

그러나 결과는 달랐다.

그럼 앞으로는 무엇이 올까?
AI의 두 번째 반기는 문제를 해결하는 것에서 문제를 정의하는 것으로 초점이 이동할 것이다. 이 새로운 시대에서는 학습보다 평가가 더욱 중요해진다. “모델을 X 문제를 해결하도록 훈련시킬 수 있을까?”라는 질문 대신, “우리는 AI를 무엇을 위해 훈련시켜야 하며, 진정한 발전은 어떻게 측정할 수 있을까?”라는 질문을 하게 될 것이다. 이 두 번째 반기에서 성공하려면, 제품 매니저에 더 가까운 사고방식과 기술로 제때에 사고방식을 전환할 필요가 있다.



첫 번째 반기

첫 번째 반기를 이해하려면 그 승자들을 바라봐야 한다. 지금까지 가장 영향력 있는 AI 논문은 무엇이라고 생각하는가?

스탠포드 224N에서 진행된 퀴즈를 해보면, 답은 예상대로 Transformer, AlexNet, GPT-3 등이었다. 이 논문들의 공통점은 근본적인 돌파구를 제시하여 더 나은 모델을 훈련시키는 방법을 제안했다는 점이다. 또한, 이들은 어떤 벤치마크에서 (상당한) 개선을 보임으로써 논문을 발표할 수 있었다.

하지만 이들 논문 사이에는 잠재적인 공통점이 있다. 이 “우승자”들은 모두 벤치마크나 작업이 아닌, 학습 방법이나 모델 그 자체를 제안했다. 어쩌면 가장 영향력 있는 벤치마크인 ImageNet조차도 AlexNet의 인용 수의 3분의 1에도 미치지 못한다. Transformer의 경우도 마찬가지이다. Transformer가 처음 자신을 입증한 WMT’14 번역 데이터셋 워크숍 보고서는 약 1,300회의 인용을 기록했지만, Transformer 자체는 160,000회 이상의 인용을 받았다.

이것은 첫 번째 반기의 게임이 무엇이었는지를 보여준다:
  • 새로운 모델과 방법을 구축하고,
  • 벤치마크를 보조적이지만 필수적인 평가 도구로 사용하여 그 성능을 측정한다.
왜 이런 현상이 나타났을까?
그 큰 이유 중 하나는, 첫 번째 반기에서는 방법(method)이 작업(task)보다 더 어렵고 흥미로운 문제였기 때문이다. 처음부터 알고리즘이나 모델 아키텍처를 새로 만드는 일 — 예를 들어 역전파 알고리즘, 합성곱 신경망(AlexNet), 또는 GPT-3에 사용된 Transformer와 같은 혁신들은 놀라운 통찰력과 엔지니어링 역량을 요구했다. 반면, AI에 대한 작업을 정의하는 일은 상대적으로 단순해 보였다. 즉, 인간이 이미 수행하는 작업(번역, 이미지 인식, 체스 등)을 단순히 벤치마크로 전환하는 방식이었기에 많은 통찰이나 엔지니어링이 필요하지 않았다.

또한, 방법은 특정 작업보다 더 일반적이며 폭넓은 적용성을 갖는 경우가 많았기에 더욱 가치 있었다. 예를 들어, Transformer 아키텍처는 처음 증명된 단일 데이터셋(WMT’14 번역)을 훨씬 뛰어넘어 CV, NLP, RL 등 다양한 분야에서 진전을 이끌었다. 훌륭한 새로운 방법은 단순하고 일반적이기 때문에 여러 벤치마크를 상승시킬 수 있고, 그 영향력은 특정 작업 그 이상으로 확장된다.

이와 같이 첫 번째 반기의 게임은 수십 년간 이어져 왔고, 세계를 변화시키는 아이디어와 돌파구들을 낳았으며, 여러 분야에서 벤치마크 성능을 향상시키는 결과로 나타났다. 그런데 왜 이제 게임의 규칙이 바뀌어야 할까?
그것은 이런 혁신들이 누적되어, 문제 해결에 있어서 작동하는 레시피를 만드는 데 질적인 차이를 만들어냈기 때문이다.



레시피

그 레시피는 무엇인가? 당연히 그 구성 요소는, 거대 언어 사전학습(massive language pre-training), 스케일(데이터와 연산), 그리고 추론 및 행동(action) 아이디어이다. 이 단어들은 SF에서 매일 듣는 유행어처럼 들릴지 모르지만, 왜 이것들을 “레시피”라고 부를까?

강화학습(RL)의 관점에서 보면 쉽게 이해할 수 있다. RL은 종종 AI의 “최종 단계”라고 여겨진다. 결국, RL은 이론상으로는 게임에서 반드시 이길 수 있는 방법이며, 실제 경험에서도 AlphaGo와 같이 초인적인 시스템에는 RL이 필수적이다.

강화학습(RL)에는 세 가지 핵심 요소가 있다: 알고리즘, 환경, 그리고 사전 지식(priors). 오랜 기간 RL 연구자들은 알고리즘(예: REINFORCE, DQN, TD-learning, actor-critic, PPO, TRPO 등)에 주로 집중했고, 환경과 사전 지식은 고정되어 있거나 최소한으로 다뤄왔다. 예를 들어, Sutton과 Barto의 고전적인 교과서는 알고리즘에 관한 내용만 다루고, 환경이나 사전 지식에 대해서는 거의 언급하지 않는다.

하지만 딥 RL의 시대에 들어서면서, 환경이 경험적으로 매우 중요하다는 것이 명확해졌다. 알고리즘의 성능은 대개 개발되고 테스트된 환경에 매우 특화되어 있다. 환경을 무시하면 “최적”의 알고리즘이라 하더라도 장난감 수준의 환경에서만 뛰어난 결과를 낼 위험이 있다. 그렇다면 우리는 어떻게 해야 할까?
먼저 우리가 실제로 풀고자 하는 환경을 정의하고, 그 환경에 가장 잘 맞는 알고리즘을 찾는 것이다.

이것이 바로 OpenAI가 처음 내세운 계획이다. OpenAI는 다양한 게임을 위한 표준 RL 환경인 Gym을 구축했고, 이후 World of Bits와 Universe 프로젝트를 통해 인터넷이나 컴퓨터를 하나의 게임으로 전환하려 했다. 좋은 계획이지 않은가? 모든 디지털 세계를 하나의 환경으로 전환하고, 똑똑한 RL 알고리즘으로 이를 해결하면 디지털 AGI를 얻을 수 있다.

좋은 계획이었지만, 완전히 성공한 것은 아니다. OpenAI는 RL을 사용해 도타(Dota), 로봇 손 조작 등에서 엄청난 진전을 이루었지만, 컴퓨터 사용이나 웹 내비게이션 문제를 해결하는 데에는 접근하지 못했다. 한 분야에서 잘 작동한 RL 에이전트가 다른 분야로 일반화되지 않는 문제가 있었다. 뭔가 빠져 있었다.

GPT-2나 GPT-3 이후에야 빠져 있던 요소가 사전 지식(priors)임이 드러났다. 강력한 언어 사전학습은 일반적인 상식과 언어 지식을 모델에 증류시키고, 이를 웹 에이전트(WebGPT)나 채팅 에이전트(ChatGPT)로 미세 조정(fine-tuning)하는 데 필수적이었다. 결국 RL에서 가장 중요한 부분은 RL 알고리즘이나 환경이 아니라, RL이 아닌 방식으로도 얻을 수 있는 사전 지식임이 드러났다.

언어 사전학습은 채팅에 좋은 사전 지식을 제공했지만, 컴퓨터 조작이나 비디오 게임 플레이에는 똑같이 효과적이지 않았다. 왜 그럴까? 이들 분야는 인터넷 텍스트의 분포에서 멀리 떨어져 있기 때문에, 해당 분야에 대해 단순히 지도 학습(SFT)이나 RL을 적용한다고 해도 일반화가 어렵기 때문이다. 나는 GPT-2가 공개된 2019년에 텍스트 기반 게임을 풀기 위해 GPT-2 위에 SFT/​RL을 적용했던 경험이 있다. CALM은 사전학습된 언어 모델을 기반으로 한 세계 최초의 에이전트였지만, 단 하나의 게임에서 고원을 오르기 위해 수백만 스텝의 RL 학습이 필요했고, 새로운 게임으로 일반화되지는 않았다. 이 현상은 RL의 특성이긴 하지만, 인간은 새로운 게임에 접했을 때 보다 쉽게 제로샷(zero-shot)으로 뛰어난 성능을 보인다는 점이 의아했다. 그러던 중 한 가지 깨달음을 얻었다 — 우리는 단순히 “캐비닛 2번으로 가라”, “키 1로 열쇠로 3번 상자를 열어라”, “검으로 던전을 공격하라”라는 행동 외에도, “던전은 위험하니 무기가 필요하다. 눈에 보이는 무기가 없으니 잠긴 상자나 캐비닛에서 찾아야 할지도 모른다. 캐비닛 2번의 3번 상자가 좋을 것 같으니 먼저 그쪽으로 가서 열어보자.”라고 생각할 수 있기 때문이다.

추론(Reasoning)

생각, 즉 추론은 이상한 종류의 행동이다 — 이는 외부 세계에 직접적인 영향을 주지는 않지만, 무한한 조합의 가능성을 가진 열린 공간이다. 단어 하나, 문장 하나, 혹은 전체 문단 또는 10,000개의 무작위 영어 단어에 대해 생각할 수 있지만, 외부 세계는 즉각적으로 변화하지 않는다. 전통적인 RL 이론에서는 이것이 결정(Decision-making)을 불가능하게 만드는 끔찍한 조건으로 작용한다. 예를 들어 두 개의 상자 중 하나를 선택해야 하는 상황을 상상해 보자. 한 상자에는 백만 달러가 있고 다른 상자는 비어 있다면, 선택의 결과는 $50만 달러의 기대 수익이다. 그런데 무한히 많은 빈 상자를 추가하면 기대 수익은 0이 된다. 그러나 RL 환경의 행동 공간에 추론을 추가하면, 언어 사전학습에서 얻은 사전 지식을 일반화할 수 있으며, 다양한 결정에 대해 유연한 테스트 시의 연산 자원을 사용할 수 있다. 이것은 정말 마법 같은 효과를 지니며, 여기서 완벽하게 설명하지 못한 점에 대해 사과한다. 아마도 이와 관련해 또 다른 블로그 글을 써야 할 것이다. “ReAct” 논문에서 에이전트를 위한 추론의 원리에 대해 더 자세히 이야기하고 있으니 참고하면 좋겠다. 지금 내가 전달하고자 하는 직관적 설명은 이렇다: 무한한 빈 상자들이 있어도, 우리는 평생 그들을 다양한 게임에서 접했으며, 그 빈 상자들을 선택하는 경험이 주어진 게임에서 돈이 들어있는 상자를 올바르게 선택할 수 있도록 도와준다. 추상적으로 말하자면, 언어는 에이전트 내에서 추론을 통해 일반화된다.

올바른 RL 사전 지식(언어 사전학습)과 RL 환경(행동으로서의 언어 추론)이 확보되면, RL 알고리즘은 사실상 가장 사소한 부분이 될 수 있다. 이렇게 해서 o-series, R1, 그리고 컴퓨터 사용 에이전트를 비롯한 여러 깊이 있는 연구들이 탄생하게 된다. 아이러니하게도, 오랫동안 RL 연구자들은 알고리즘에 훨씬 더 많은 관심을 기울였으며, 사전 지식은 거의 신경 쓰지 않았다. 결국 모든 RL 실험은 초기부터 다시 시작하는 셈이었다. 그런데 오랜 우회로를 지나면서 어쩌면 우리의 우선순위가 완전히 전환되어야 한다는 깨달음을 얻게 된 것이다.

하지만 스티브 잡스가 말했듯, “점을 연결하려면 뒤를 돌아봐야 한다.”



두 번째 반기

이 레시피는 게임의 판도를 완전히 바꾸고 있다. 첫 번째 반기의 게임을 다시 요약해보자:
  • 우리는 새로운 학습 방법이나 모델을 개발해 벤치마크를 향상시킨다.
  • 점점 더 어려워지는 벤치마크를 만들고, 그 향상을 반복한다.
하지만 이 게임은 이제 한계에 다다랐다. 왜냐하면:
  • 이 레시피는 기존의 벤치마크에 대해 새로운 아이디어 없이 단순히 힐클라임(hillclimbing)만 수행하도록 산업화되어 있기 때문이다. 레시피가 스케일을 확장하고 일반화됨에 따라, 특정 작업에 대해 조금의 개선(예: 5%)을 이루는 새로운 방법보다, o-series 모델이 명시적으로 그 작업을 겨냥하지 않고도 30%의 개선을 이룰 수 있다.
  • 아무리 더 어려운 벤치마크를 만든다 하더라도, 곧 (더욱 빠르게) 레시피에 의해 해결되기 마련이다. 내 동료인 Jason Wei가 이 추세를 시각적으로 아주 아름답게 나타내는 그림을 만들었다.
그렇다면 두 번째 반기에는 무엇을 해야 할까?
새로운 방법이 더 이상 필요하지 않고, 더 어려운 벤치마크들이 레시피에 의해 점점 더 빨리 해결된다면 우리는 무엇을 해야 하는가?

나는 근본적으로 평가 방식을 재고해야 한다고 생각한다. 이는 단순히 새로운, 더 어려운 벤치마크를 만드는 것에 그치지 않고, 기존 평가 환경의 기본 가정들을 본질적으로 의심하고 새롭게 설계하는 것을 의미한다. 그래야만 작동하는 레시피를 넘어서는 새로운 방법론을 발명하도록 강제할 수 있다. 이는 어렵다. 왜냐하면 인간은 관성에 지배받으며, 기본 가정을 당연하게 여기는 경향이 있기 때문이다 — 이것들은 법칙이 아니라 가정일 뿐인데 말이다.

예를 들어, 한때 인간 시험을 기반으로 한 가장 성공적인 평가 방식을 발명했다고 해보자. 2021년에 이는 굉장히 대담한 아이디어였지만, 3년이 흐르자 포화 상태에 다다른다. 그러면 무엇을 할까? 대부분은 더 어려운 시험을 만들 것이다. 또는 코딩 작업을 단순히 해결했다고 치자. 그렇다면 무엇을 할까? 대부분은 IOI 금메달 수준에 도달할 때까지 점점 더 어려운 코딩 작업을 찾아낼 것이다.

이러한 관성은 자연스러운 현상이지만, 문제는 다음과 같다. AI는 체스와 바둑에서 세계 챔피언을 이기고, 대부분의 인간보다 SAT와 변호사 시험에서 뛰어난 성적을 기록하며, IMO와 IOI에서도 금메달을 기록했다. 그러나 현실 세계는 크게 변하지 않았다. 경제 및 GDP로 판단해보면 말이다.

나는 이것을 **유틸리티 문제(utility problem)**라고 부르며, AI 분야에서 가장 중요한 문제라고 생각한다.

어쩌면 우리는 머지않아 유틸리티 문제를 해결할지도 모르고, 어쩌면 그렇지 않을지도 모른다. 어쨌든 이 문제의 근본 원인은 매우 단순해 보인다: 우리의 평가 환경은 현실 세계의 환경과 여러 근본적인 측면에서 다르다. 두 가지 예를 들어보자:
  1. 평가 환경은 “자동으로” 진행되어야 한다고 본다. 보통 에이전트는 작업 입력을 받고 자율적으로 행동한 뒤, 그 결과에 따른 보상을 받는다. 그러나 실제로 에이전트는 과제 수행 도중 인간과 상호작용해야 한다 — 예를 들어, 고객 서비스에 긴 메시지를 보내고 10분 후에 모든 문제가 해결될 만큼 상세한 응답을 받는다는 것은 현실적이지 않다. 이러한 현실을 반영하기 위해, 실제 인간(예: Chatbot Arena)이나 사용자 시뮬레이션(예: tau-bench)을 평가 루프에 포함시키는 새로운 벤치마크들이 발명되고 있다.
  2. 평가 환경은 i.i.d(독립 동일 분포)로 진행되어야 한다고 전제된다. 테스트 세트에 500개의 작업이 있으면, 각 작업을 독립적으로 실행하고 그 결과를 평균하여 전체 성능을 산출한다. 그러나 실제로는 작업들이 병렬이 아니라 순차적으로 수행된다. 예를 들어, 구글 소프트웨어 엔지니어(SWE)는 구글 내부 코드(google3)에 대한 문제들을 해결하면서 점차 레포지토리에 익숙해지고 문제 해결 능력이 향상되지만, SWE 에이전트는 동일 레포지토리의 여러 문제를 해결한다고 해서 그러한 익숙함을 얻지 못한다. 우리는 당연히 장기 기억(long-term memory) 방법이 필요하다는 것을 알고 있으며, 실제로 존재하긴 하지만, 학계에는 이를 정당화할 만한 벤치마크가 부족하고, i.i.d라는 전제에 의문을 제기할 용기가 부족하다.
이러한 전제들은 “항상” 그래왔던 방식이었고, 지능이 낮을 때는 지능의 향상이 곧 유틸리티의 향상으로 이어졌기 때문에 큰 문제가 없었다. 그러나 지금, 이 일반 레시피는 이러한 전제 하에서 반드시 작동한다. 따라서 두 번째 반기에서 해야 할 일은
  • 실제 세계의 유틸리티에 맞는, 새로운 평가 환경이나 작업들을 발명하고,
  • 그 작업들을 해결하기 위해 기존 레시피를 사용하거나, 기존 레시피를 보완하는 새로운 구성 요소들을 도입하는 것.
  • 그리고 이를 반복하는 것이다.
이러한 게임은 낯설고 어려울 수 있다. 하지만 동시에 매우 흥미롭다. 첫 번째 반기에서는 비디오 게임과 시험 문제를 풀었다면, 두 번째 반기에서는 지능을 통해 백억 또는 조 단위의 가치를 창출하는 유용한 제품을 개발하는 것이 과제가 될 것이다. 첫 번째 반기는 점진적인 방법과 모델들로 채워졌다면, 두 번째 반기에서는 그 중에서도 일부만이 살아남게 될 것이다. 만약 새로운 가정들을 창출하지 않고 기존 레시피에만 의존한다면, 단순한 점진적 방법들은 레시피에 의해 누그러질 것이다. 하지만 기존 가정을 깨뜨릴 수 있는 새로운 가정을 만들어낸다면, 그때야말로 혁신적인 연구가 이루어질 수 있다.

두 번째 반기로의 초대!

 
전체 0