인터뷰/예측
OpenAI 다니엘 셀샘 "지능은 압축과 유사"

GPT-4.5 사전 훈련 과정에 대한 OpenAI 팀 대화 요약 (한글 상세 정리)
이 영상은 OpenAI 팀원들이 GPT-4.5 모델의 사전 훈련(Pre-Training) 과정에 대해 논의하는 내용을 담고 있습니다. 단순한 제품 발표가 아닌, 거대 모델 개발의 연구 및 엔지니어링 측면에 초점을 맞춥니다.
주요 참여자:
-
샘 알트만 (진행자 추정): 대화를 이끕니다.
-
알렉스 파이노 (Alex Paino): 기술 스태프 멤버. 사전 훈련 데이터 및 ML 리드 담당.
-
아민 투툰치안 (Amin Tootoonchian): 최고 시스템 아키텍트. 시스템 및 네트워킹 총괄.
-
다니엘 셀샘 (Daniel Selsam): 기술 스태프 멤버. 데이터 효율성 및 알고리즘 담당.
핵심 내용:
-
GPT-4.5 출시와 반응:
-
OpenAI는 GPT-4.5 출시 당시 모델에 자부심이 있었지만, 사용자들의 반응은 예상을 훨씬 뛰어넘었습니다.
-
사용자들은 GPT-4보다 훨씬 뛰어나고, 이전에는 경험하지 못한 상호작용이 가능하다고 평가했습니다.
-
이러한 긍정적 반응으로 인해 GPT-4.5 개발 과정(사전 훈련)에 대한 관심이 높아졌습니다.
-
-
거대 모델 사전 훈련의 어려움 및 과정:
-
장기 프로젝트: GPT-4.5 프로젝트는 약 2년 전에 시작되었습니다.
-
막대한 자원: 수많은 사람, 긴 시간, 그리고 엄청난 양의 컴퓨팅 자원(GPU 클러스터)이 필요합니다.
-
협업의 중요성: ML(머신러닝) 팀과 시스템(인프라, 네트워킹) 팀 간의 긴밀한 협업이 초기 단계부터 필수적입니다. 시스템 아키텍트는 모델의 요구사항을 이해하고 인프라를 설계/구축해야 합니다.
-
계획 및 위험 관리: 새로운 대규모 클러스터 도입을 예상하고, 모델에 포함할 기능을 결정하며, 장기적인 계획을 세우고, 소규모 실행(de-risking run)을 통해 위험을 관리합니다.
-
예측과 현실의 차이: 아무리 계획을 잘 세워도 실제 훈련 과정에서는 예상치 못한 문제들이 발생합니다.
-
하드웨어 결함: 대규모 스케일(예: 1만개 -> 10만개 GPU)로 확장하면, 드물게 발생하던 하드웨어(가속기, 네트워크 패브릭 등) 오류가 치명적인 문제가 될 수 있습니다. 아주 작은 확률의 오류도 스케일이 커지면 빈번하게 발생하여 훈련을 방해합니다.
-
성능 예측과의 차이: 실제 훈련 성능이 예측과 다를 경우, 원인을 파악하고 해결해야 합니다.
-
버그: 코드나 라이브러리(예: PyTorch) 자체의 버그가 발견되기도 합니다.
-
torch.sum 버그 사례: 훈련 막바지에 발견된 PyTorch의 torch.sum 함수 버그는 특정 데이터에서만 드물게 발생했지만, 해결하고 나니 이전에 원인을 알 수 없었던 여러 문제들이 한꺼번에 해결되고 성능이 크게 향상되는 '마법 같은' 순간이 있었습니다. 이 버그는 여러 증상의 근본 원인이었습니다.
-
-
-
실시간 대응: 훈련 중 발생하는 문제들을 해결하기 위해 지속적으로 노력하고, 때로는 더 많은 컴퓨팅 자원을 투입하거나 계획을 수정해야 합니다.
-
팀워크와 사기: 문제 해결 과정은 고통스러울 수 있지만, 문제가 해결되고 성능이 향상될 때 (예: ETA가 급격히 줄어들 때) 팀 전체의 사기가 크게 올라갑니다.
-
-
스케일링과 미래 과제:
-
목표 설정: GPT-4.5의 목표는 GPT-4보다 '10배 더 똑똑한' 모델을 만드는 것이었고, 결과적으로 이 목표를 달성했다고 느낍니다. (여기서 10배는 투입된 유효 컴퓨팅 양을 의미)
-
병목 현상의 변화: 과거에는 컴퓨팅 자원이 주된 병목이었으나, GPT-4.5 수준부터는 데이터 효율성이 더 큰 병목으로 작용하기 시작했습니다. 즉, 단순히 컴퓨팅과 데이터 양을 늘리는 것만으로는 한계가 있습니다.
-
데이터 효율성: 동일한 데이터에서 더 많은 것을 학습하는 더 효율적인 알고리즘 개발이 중요합니다. 현재 알고리즘은 인간의 학습 효율성에 비해 (특히 언어 측면에서) 수십만 배 이상 비효율적입니다.
-
알고리즘 혁신: 데이터 효율성을 높이기 위한 알고리즘 혁신이 다음 단계의 핵심 과제입니다.
-
스케일링 법칙의 유효성: 모델 크기/데이터/컴퓨팅을 늘리면 성능(테스트 손실 감소)이 예측 가능하게 향상된다는 '스케일링 법칙'은 여전히 유효하며, 이는 모델의 지능(상식, 미묘한 차이 이해 등) 향상으로 이어집니다. 이 예측 가능성이 대규모 투자를 가능하게 합니다.
-
측정의 어려움: 단순히 손실(Loss)이나 퍼플렉시티(Perplexity) 외에 모델의 실제 지능이나 유용성을 측정하는 더 나은 지표가 필요합니다. 특히 테스트 데이터셋이 훈련 데이터와 유사할 경우, 모델이 단순히 암기하는 것인지 진짜 일반화 능력을 얻은 것인지 구분하기 어렵습니다.
-
하드웨어 병목: 여전히 프로세서, 메모리 대역폭, 네트워크, 전력 등이 시스템 확장성의 병목이 될 수 있습니다. 특히 메모리 대역폭은 항상 부족합니다. 이상적인 시스템은 아직 멀었습니다.
-
시스템-ML 공동 설계 (Co-design): 하드웨어(시스템)와 모델(ML) 설계를 함께 최적화하는 것이 중요합니다. 모델 구조는 시스템 제약에 맞춰 설계되고, 시스템은 모델 요구사항에 맞게 구축되어야 합니다.
-
미래의 훈련 모습: 1000만 GPU 규모의 훈련이 이루어질 수 있지만, 현재와 같은 완전 동기식(Synchronous) 사전 훈련 방식이 아닐 수도 있습니다. 준동기식(Semi-synchronous) 또는 더 분산된 형태가 될 가능성이 있습니다.
-
-
결론:
-
거대 언어 모델 사전 훈련은 ML, 시스템, 데이터 등 전 분야에 걸친 막대한 노력과 긴밀한 협업, 그리고 끊임없는 문제 해결 과정이 필요한 복잡하고 도전적인 작업입니다.
-
스케일링 법칙은 여전히 유효하지만, 데이터 효율성 향상을 위한 알고리즘 혁신과 시스템과의 공동 설계가 미래 모델 발전에 중요합니다.
-
새로운 스케일에 도달할 때마다 예상치 못한 문제가 발생하며, 이를 해결하는 과정에서 많은 것을 배우고 시스템과 방법론을 개선해 나갑니다.
-
-
버그 해결 과정의 구체적인 사례 (torch.sum): 아민 투툰치안은 훈련 막바지에 발견된 PyTorch의 torch.sum 함수 관련 버그를 언급합니다. 이 버그는 특정 데이터 입력 시에만 매우 드물게 발생하여 찾기 어려웠지만, 근본 원인이었습니다.
-
팀 내 추측과 투표: 버그의 원인을 찾기 위해 팀원들이 모여 각자 가장 유력한 원인에 투표하는 과정도 있었다고 합니다. 재미있게도, 실제 원인이었던 torch.sum 버그는 가장 적은 표를 받았습니다.
-
파급 효과: 이 버그 하나를 수정하자, 그동안 원인을 알 수 없었던 다른 여러 문제들이 한꺼번에 해결되면서 성능이 크게 향상되는 극적인 순간이 있었습니다. 이는 복잡한 시스템에서 하나의 작은 버그가 얼마나 큰 영향을 미칠 수 있는지 보여줍니다.
-
팀 사기 진작: 이처럼 어려운 문제를 해결하고 성능 향상을 목격하는 순간(예: 훈련 완료 예상 시간(ETA)이 급격히 줄어드는 것을 볼 때)은 팀 전체의 사기를 크게 높이는 긍정적인 경험이 됩니다.
-
-
모델 훈련: 예측과 현실의 괴리:
-
아무리 철저하게 계획하고 예측해도 실제 대규모 훈련 과정은 예상과 다르게 흘러가는 경우가 많습니다. 훈련 초기에는 특히 예측치와 실제 성능 간의 차이가 클 수 있습니다.
-
훈련 과정은 이러한 '이상적인 예측'과 '현실' 사이의 간극을 계속해서 좁혀나가는 과정이라고 할 수 있습니다.
-
-
데이터 효율성: 인간과의 엄청난 격차: 다니엘 셀샘은 현재의 사전 훈련 방식이 데이터를 통해 지능을 얻는다는 점에서 '압축'과 유사하다고 설명합니다 (Prequential Compression 개념 언급). 즉, 데이터를 가장 효율적으로 설명(압축)하는 프로그램을 찾는 과정이라는 것입니다. 하지만 인간의 학습 효율성과 비교하면 현재 AI 모델은 여전히 수십만 배 이상 비효율적이라고 지적합니다. (정확한 수치 비교는 어렵지만 'vibes'로는 그렇다는 뉘앙스).
-
기술 스택의 발전: GPT-4.5를 훈련하며 얻은 경험과 개선된 기술 스택 덕분에, 만약 지금 GPT-4를 다시 훈련한다면 훨씬 적은 인원(알렉스 파이노는 5-10명 정도 추정)으로도 가능할 것이라고 언급합니다. 이는 기술 발전 속도를 보여주는 지표입니다.
-
시스템-ML 공동 설계 (Co-design)의 중요성: GPT-4.5 훈련에서는 이전보다 훨씬 더 시스템(하드웨어, 인프라)과 ML(모델 구조, 알고리즘) 설계를 긴밀하게 연동하는 '공동 설계'에 많은 노력을 기울였다고 강조합니다. 이는 모델 성능을 극한으로 끌어올리기 위해 필수적입니다.
요약하자면, 영상은 거대 모델 훈련이 단순히 더 많은 데이터와 컴퓨팅 파워를 투입하는 것을 넘어, 끊임없는 버그 수정, 예측과 현실의 차이 극복, 시스템과 모델 간의 섬세한 조율, 그리고 팀 전체의 협력과 끈기가 필요한 매우 복잡하고 어려운 엔지니어링 과정임을 생생하게 보여줍니다. 또한 데이터 효율성 향상이 앞으로의 중요한 과제임을 시사합니다.