인터뷰/예측
그웬 "OpenAI 마지막 임계점을 드디어 넘어서 탈출구를 찾았다고 느끼는 듯해"
작성자
하이룽룽
작성일
2025-01-17 18:58
조회
13
https://www.lesswrong.com/users/gwern
나는 여기서 자기-플레이(self-play) 스케일링 패러다임의 핵심 부분이 빠져 있다고 생각한다. 바로 o1 같은 모델을 배포(deploy)하기보다는, 다음 모델을 훈련시키기 위한 학습 데이터를 생성하기 위해 모델을 사용하는 점이다. 예컨대 o1이 문제를 해결하면, 그 자체가 o3를 위한 학습 데이터 포인트가 된다(예: 어떤 o1 세션이 마침내 정답을 찾아냈다면, 잘못된 시도들을 생략하고 정제된 대화 로그만 남겨 더 정교한 직관을 훈련시키는 용도로 사용 가능). 즉 이 스케일링 패러다임은 결국 현재 우리가 보는 훈련 시대(train-time) 패러다임과 비슷해질 수도 있다. 대형 데이터센터에서 막대한 컴퓨팅 자원을 써 가며 (가장 높은 지능을 가진) ‘마지막 경계(final frontier)’ 모델을 훈련하고, 그 모델은 통상적으로는 탐색(search)을 거의 사용하지 않는 방식으로 쓰이게 되며, 너무 과한 탐색 없이도 충분한 성능을 내는 작은 저비용 모델로 distill해서 사용 가능하다는 식이다. 큰 데이터센터 내부에서라면, 실제 파인튜닝(finetuning)보다 롤아웃(rollouts)에 훨씬 많은 탐색 관련 계산이 소비될지 몰라도, 그건 대중에게는 중요하지 않다. 이전과 마찬가지로, 고성능 GPU와 막대한 전력이 들어가고, 3~6개월을 기다리면 더 똑똑해진 AI가 나온다는 식인 것이다.
개인적으로는, 오픈에이아이(OA)가 굳이 o1-pro를 배포했다는 점에 약간 놀랐다. 차라리 이를 비공개로 두고 o3 훈련 같은 작업에 더 많이 투자했을 법도 하기 때문이다. (이건 앤트로픽(Anthropic)과 클로드(Claude)-3.6-opus의 사례와 유사할지 모른다. 그들은 그 모델이 ‘실패’했다기보다는, 그냥 해당 모델을 비공개로 두고 ‘작고 저렴하지만 이상하게도 똑똑한’ Claude-3.6-sonnet으로 증류(distillation)한 것으로 보인다.)
만약 “왜 OA 쪽 사람들이 갑자기 이상할 정도로 낙관적이 되었나?”라고 궁금해한다면, 아마 4o 모델에서 o3(그리고 그 이후 어디까지 발전했는지)로의 성능 향상을 지켜본 사람들이 있기 때문일 것이다. 알파고(AlphaGo)의 Elo 레이팅 곡선을 보는 것처럼, 점점 오르고, 또 오르고, 계속 오른다…
이제 그들은 ‘탈출구’를 찾았다고 느끼는 듯하다. 마지막 임계점을 드디어 넘어서, 모두가 몇 년 후면 따라잡을 만한 수준의 최첨단 AI 연구가 아니라, ‘자기 자신을 재귀적으로(self-improving) 개선할 수 있는’ 단계에 이르렀다고 생각하는 것 같다. 결국 o4나 o5 같은 모델이 AI 연구·개발(AI R&D)을 자동화하여 나머지 과제를 마무리할 수 있는 지점이다. 2024년 11월 샘 알트먼(Sam Altman)이 “우리가 지난 3년 동안 달성해 온 발전 속도를 앞으로 3년, 6년, 9년 동안 계속 유지할 수 있으리라 보는 경로가 있다”고 말했던 것이, 얼마 전에는 “우리는 전통적인 의미에서의 AGI를 어떻게 만들지 확신하게 되었으며… 우리는 이제 그 너머, 진정한 의미의 초지능(superintelligence)을 향해 나아가려고 한다. 지금의 제품도 좋지만, 우리는 영광스러운 미래를 바라보고 있다. 초지능과 함께라면 무엇이든 가능하다”라고 말하게 된 것이다. (딥시크(DeepSeek)가 그 뒤를 쫓으려 해도, 초지능 연구가 스스로 비용을 감당하기 시작하면 그들은 필요한 거대 컴퓨팅 자원을 구하지 못할 수도 있다.)
그리고 최종적으로는 알파고/제로(AlphaGo/Zero) 모델처럼, 슈퍼휴먼 성능을 내면서도 매우 저렴하게 구동 가능한 모델이 탄생한다. (수 수(手) 몇 수만 미리 탐색해도 이미 인간 프로를 능가하는 수준이고, 전방 패스(forward pass)만으로도 프로급에 필적하는 능력을 보인다!)
관련된 스케일링 곡선을 보면(또다시 Jones 2021을 읽어보길 권한다!), 그 이유가 분명해진다. 추론(inference) 시의 ‘탐색(search)’은, 점수를 즉시 올려주는 각성제와 비슷하지만 금방 한계에 도달한다. 이내, 더 똑똑한 모델을 써서 ‘탐색 자체를 개선’하는 쪽으로 갈 수밖에 없다(만약 단순히 더 많은 탐색만으로 충분했다면, 체스(체커 말고 체스)는 이미 1960년대에 풀렸을 것이다. 그때도 그랜드마스터 인간이 초당 고려하는 수보다 훨씬 많이 탐색할 수 있었으니까. “Hello World” 한 줄만 나오게 하려면 원숭이 몇 마리가 타자 치는 게 비용 효율적일 수 있지만, “햄릿(Hamlet) 전체 대본”을 얻으려면 프로톤이 모두 붕괴하기 전에 셰익스피어를 복제해 두는 것이 훨씬 낫다.) 다행히도, 필요한 학습 데이터와 모델은 이미 자기 손안에 있으니, 그걸 활용해 더 스마트한 모델을 만들면 된다…
샘 알트먼(@sama, 2024-12-20) (강조 추가):
결과적으로, 어떤 경우엔 성능을 더 좋게 만들기 위해서 돈을 사용할 수 있지만, 그 ‘당사자’가 ‘AI 연구소’라면, 그들은 그 돈을 일회성으로 낭비하기보다는 그냥 모델 자체를 개선해버리는 쪽에 투자할 수 있다.
이 말은, 외부 세계에서는 중간 단계의 모델들을 볼 일이 거의 없을 거라는 의미이기도 하다(마치 고(Go) 플레이어들이 알파제로(AlphaZero) 훈련의 중간 체크포인트들을 볼 일이 없었던 것처럼). 또한 “현재보다 1000배 더 비용이 든다”고 한다면, 아예 배포하지 않는 쪽이 더 나을 수도 있다. 굳이 외부 고객에게 서비스하느라 그 컴퓨팅 자원을 소모할 필요가 없다면, 계속 내부 훈련에만 투자해 더 성능 좋은 모델을 만들고, 그러면 그 모델을 distill해서 100배 정도의 비용으로 줄이고, 그 다음엔 10배, 그 다음엔 1배, 나중에는 1배 미만까지… 저렴하게 만들어 배포할 수 있기 때문이다.
결국 이렇게 놓고 보면, 검색/테스트(추론) 시의 새로운 패러다임이라는 게, 2차·3차 효과와 새로운 워크플로가 결합된 뒤에는 의외로 지금과 꽤 비슷한 모습이 될 수도 있다. 알파제로/뮤제로(AlphaZero/MuZero) 훈련과 배포, 그리고 그 이후 컴퓨터 바둑/체스 세계가 어떤 식으로 변했는지를 떠올리면, 그게 좋은 선례가 된다.
* Jones는 여기서 Snell 같은 레퍼런스보다 더 관련성이 높다. Snell은 정적(static)이고 고정된 모델을 전제로 평균적인 난이도의 문제 성능을 논하지만, 실제로 가장 어려운 문제들이 경제적으로도 가장 가치가 큰 경우가 많다. 이미 다른 모델들도 풀 수 있는 쉬운 문제를 푸는 데에는 (더 작은) 모델을 사용하는 것이 비용 대비 효율적일 수 있지만, 장기적으로는 새로운 모델을 훈련해야 하는 상황에서는 이 논리가 적용되지 않는다. (이는 예전에도 자주 보였던, "작은 모델에 과도하게 학습시키는 것이 컴퓨팅 비용 관점에서는 최적이다"라는 주장이, 증류/distill, 양자화/quant, 가지치기(prune) 같은 기법을 전혀 고려하지 않은 가정하에서만 참인 것과 비슷한 오류다.)
나는 여기서 자기-플레이(self-play) 스케일링 패러다임의 핵심 부분이 빠져 있다고 생각한다. 바로 o1 같은 모델을 배포(deploy)하기보다는, 다음 모델을 훈련시키기 위한 학습 데이터를 생성하기 위해 모델을 사용하는 점이다. 예컨대 o1이 문제를 해결하면, 그 자체가 o3를 위한 학습 데이터 포인트가 된다(예: 어떤 o1 세션이 마침내 정답을 찾아냈다면, 잘못된 시도들을 생략하고 정제된 대화 로그만 남겨 더 정교한 직관을 훈련시키는 용도로 사용 가능). 즉 이 스케일링 패러다임은 결국 현재 우리가 보는 훈련 시대(train-time) 패러다임과 비슷해질 수도 있다. 대형 데이터센터에서 막대한 컴퓨팅 자원을 써 가며 (가장 높은 지능을 가진) ‘마지막 경계(final frontier)’ 모델을 훈련하고, 그 모델은 통상적으로는 탐색(search)을 거의 사용하지 않는 방식으로 쓰이게 되며, 너무 과한 탐색 없이도 충분한 성능을 내는 작은 저비용 모델로 distill해서 사용 가능하다는 식이다. 큰 데이터센터 내부에서라면, 실제 파인튜닝(finetuning)보다 롤아웃(rollouts)에 훨씬 많은 탐색 관련 계산이 소비될지 몰라도, 그건 대중에게는 중요하지 않다. 이전과 마찬가지로, 고성능 GPU와 막대한 전력이 들어가고, 3~6개월을 기다리면 더 똑똑해진 AI가 나온다는 식인 것이다.
개인적으로는, 오픈에이아이(OA)가 굳이 o1-pro를 배포했다는 점에 약간 놀랐다. 차라리 이를 비공개로 두고 o3 훈련 같은 작업에 더 많이 투자했을 법도 하기 때문이다. (이건 앤트로픽(Anthropic)과 클로드(Claude)-3.6-opus의 사례와 유사할지 모른다. 그들은 그 모델이 ‘실패’했다기보다는, 그냥 해당 모델을 비공개로 두고 ‘작고 저렴하지만 이상하게도 똑똑한’ Claude-3.6-sonnet으로 증류(distillation)한 것으로 보인다.)
만약 “왜 OA 쪽 사람들이 갑자기 이상할 정도로 낙관적이 되었나?”라고 궁금해한다면, 아마 4o 모델에서 o3(그리고 그 이후 어디까지 발전했는지)로의 성능 향상을 지켜본 사람들이 있기 때문일 것이다. 알파고(AlphaGo)의 Elo 레이팅 곡선을 보는 것처럼, 점점 오르고, 또 오르고, 계속 오른다…
이제 그들은 ‘탈출구’를 찾았다고 느끼는 듯하다. 마지막 임계점을 드디어 넘어서, 모두가 몇 년 후면 따라잡을 만한 수준의 최첨단 AI 연구가 아니라, ‘자기 자신을 재귀적으로(self-improving) 개선할 수 있는’ 단계에 이르렀다고 생각하는 것 같다. 결국 o4나 o5 같은 모델이 AI 연구·개발(AI R&D)을 자동화하여 나머지 과제를 마무리할 수 있는 지점이다. 2024년 11월 샘 알트먼(Sam Altman)이 “우리가 지난 3년 동안 달성해 온 발전 속도를 앞으로 3년, 6년, 9년 동안 계속 유지할 수 있으리라 보는 경로가 있다”고 말했던 것이, 얼마 전에는 “우리는 전통적인 의미에서의 AGI를 어떻게 만들지 확신하게 되었으며… 우리는 이제 그 너머, 진정한 의미의 초지능(superintelligence)을 향해 나아가려고 한다. 지금의 제품도 좋지만, 우리는 영광스러운 미래를 바라보고 있다. 초지능과 함께라면 무엇이든 가능하다”라고 말하게 된 것이다. (딥시크(DeepSeek)가 그 뒤를 쫓으려 해도, 초지능 연구가 스스로 비용을 감당하기 시작하면 그들은 필요한 거대 컴퓨팅 자원을 구하지 못할 수도 있다.)
그리고 최종적으로는 알파고/제로(AlphaGo/Zero) 모델처럼, 슈퍼휴먼 성능을 내면서도 매우 저렴하게 구동 가능한 모델이 탄생한다. (수 수(手) 몇 수만 미리 탐색해도 이미 인간 프로를 능가하는 수준이고, 전방 패스(forward pass)만으로도 프로급에 필적하는 능력을 보인다!)
관련된 스케일링 곡선을 보면(또다시 Jones 2021을 읽어보길 권한다!), 그 이유가 분명해진다. 추론(inference) 시의 ‘탐색(search)’은, 점수를 즉시 올려주는 각성제와 비슷하지만 금방 한계에 도달한다. 이내, 더 똑똑한 모델을 써서 ‘탐색 자체를 개선’하는 쪽으로 갈 수밖에 없다(만약 단순히 더 많은 탐색만으로 충분했다면, 체스(체커 말고 체스)는 이미 1960년대에 풀렸을 것이다. 그때도 그랜드마스터 인간이 초당 고려하는 수보다 훨씬 많이 탐색할 수 있었으니까. “Hello World” 한 줄만 나오게 하려면 원숭이 몇 마리가 타자 치는 게 비용 효율적일 수 있지만, “햄릿(Hamlet) 전체 대본”을 얻으려면 프로톤이 모두 붕괴하기 전에 셰익스피어를 복제해 두는 것이 훨씬 낫다.) 다행히도, 필요한 학습 데이터와 모델은 이미 자기 손안에 있으니, 그걸 활용해 더 스마트한 모델을 만들면 된다…
샘 알트먼(@sama, 2024-12-20) (강조 추가):
요즘은 여러 코딩 과제들에서 o3-mini가 o1보다 훨씬 저렴한 비용으로 더 좋은 성능을 낸다는 사실이 잡음 속에서 다소 묻혀 있는 듯합니다!
이런 추세가 이어질 것으로 예상하지만, 한편으로는 (탐색을 잔뜩 써서) 성능을 약간 더 끌어올리기 위해 기하급수적으로 많은 비용을 쓸 수 있다는 점도 참 이상한 현상이죠.
결과적으로, 어떤 경우엔 성능을 더 좋게 만들기 위해서 돈을 사용할 수 있지만, 그 ‘당사자’가 ‘AI 연구소’라면, 그들은 그 돈을 일회성으로 낭비하기보다는 그냥 모델 자체를 개선해버리는 쪽에 투자할 수 있다.
이 말은, 외부 세계에서는 중간 단계의 모델들을 볼 일이 거의 없을 거라는 의미이기도 하다(마치 고(Go) 플레이어들이 알파제로(AlphaZero) 훈련의 중간 체크포인트들을 볼 일이 없었던 것처럼). 또한 “현재보다 1000배 더 비용이 든다”고 한다면, 아예 배포하지 않는 쪽이 더 나을 수도 있다. 굳이 외부 고객에게 서비스하느라 그 컴퓨팅 자원을 소모할 필요가 없다면, 계속 내부 훈련에만 투자해 더 성능 좋은 모델을 만들고, 그러면 그 모델을 distill해서 100배 정도의 비용으로 줄이고, 그 다음엔 10배, 그 다음엔 1배, 나중에는 1배 미만까지… 저렴하게 만들어 배포할 수 있기 때문이다.
결국 이렇게 놓고 보면, 검색/테스트(추론) 시의 새로운 패러다임이라는 게, 2차·3차 효과와 새로운 워크플로가 결합된 뒤에는 의외로 지금과 꽤 비슷한 모습이 될 수도 있다. 알파제로/뮤제로(AlphaZero/MuZero) 훈련과 배포, 그리고 그 이후 컴퓨터 바둑/체스 세계가 어떤 식으로 변했는지를 떠올리면, 그게 좋은 선례가 된다.
* Jones는 여기서 Snell 같은 레퍼런스보다 더 관련성이 높다. Snell은 정적(static)이고 고정된 모델을 전제로 평균적인 난이도의 문제 성능을 논하지만, 실제로 가장 어려운 문제들이 경제적으로도 가장 가치가 큰 경우가 많다. 이미 다른 모델들도 풀 수 있는 쉬운 문제를 푸는 데에는 (더 작은) 모델을 사용하는 것이 비용 대비 효율적일 수 있지만, 장기적으로는 새로운 모델을 훈련해야 하는 상황에서는 이 논리가 적용되지 않는다. (이는 예전에도 자주 보였던, "작은 모델에 과도하게 학습시키는 것이 컴퓨팅 비용 관점에서는 최적이다"라는 주장이, 증류/distill, 양자화/quant, 가지치기(prune) 같은 기법을 전혀 고려하지 않은 가정하에서만 참인 것과 비슷한 오류다.)
전체 0