인터뷰/예측

No Priors 113화 | OpenAI의 Eric Mitchell과 Brandon McKinzie와 함께

작성자
하이룽룽
작성일
2025-05-04 20:23
조회
22

 


영상 시작 (00:00)

(인트로 음악 및 그래픽)

사라 구오 (00:06): 안녕하세요, 청취자 여러분. No Priors에 다시 오신 것을 환영합니다.

사라 구오 (00:08): 오늘은 OpenAI의 O3 모델 개발 주역 두 분, 브랜든 맥켄지(Brandon McKenzie)와 에릭 미첼(Eric Mitchell)과 이야기 나눕니다.

사라 구오 (00:10): 두 분은 OpenAI의 O3 모델 개발에 참여했습니다.

사라 구오 (00:12): O3는 OpenAI의 최신 추론 모델 라인업으로,

사라 구오 (00:13): 매우 강력하며, 어떤 도구를 사용할지 파악하고 여러 단계의 작업에 걸쳐 이를 활용하는 능력을 갖추고 있습니다.

사라 구오 (00:17): 어떻게 만들어졌는지, 다음 단계는 무엇인지, 그리고 추론에 대해 어떻게 추론할지에 대해 이야기할 것입니다.

사라 구오 (00:21): 브랜든, 에릭, No Priors에 오신 것을 환영합니다.

브랜든 맥켄지 (00:26): 초대해 주셔서 감사합니다.

에릭 미첼 (00:28): 네, 감사합니다.

엘라드 길 (00:29): O3에 대해 설명해주시겠어요? 무엇이 다른지, 어떤 점에서 혁신적인지, 추론에 초점을 맞춘 점이나 메모리를 추가한 점 등이 일반적인 핵심 파운데이션 모델, LLM과 비교해서 어떻게 다른가요? 그리고 그것은 무엇인가요?

에릭 미첼 (00:41): 네, O3는 응답하기 전에 신중하게 생각하는 데 초점을 맞춘 O 시리즈 모델 라인 중 가장 최신 모델입니다.

에릭 미첼 (00:44): 그리고 이 모델들은, 뭐랄까, 모호하지만 일반적인 의미에서 응답 전에 생각하지 않는 모델보다 더 똑똑합니다.

에릭 미첼 (00:49): 사람과 비슷하게, 응답하기 전에 생각하면 더 정확해지기 쉽죠.

에릭 미첼 (00:52): O3에 대해 정말 흥미로운 점은...

에릭 미첼 (01:08): 단순히 더 똑똑하다는 것뿐만 아니라...

에릭 미첼 (01:12): 수학 문제나 사실적 질문에 대해 정확한 답을 더 잘 제공한다는 것입니다.

에릭 미첼 (01:14): 이것은 사실이고 훌륭합니다. 우리는 계속해서 더 똑똑한 모델을 훈련할 것입니다.

에릭 미첼 (01:18): 하지만 사용자에게 유용한 작업을 수행하는 능력을 향상시키는 많은 도구를 사용하기 때문에 매우 멋지기도 합니다.

에릭 미첼 (01:33): 그래서, 네, 정말 똑똑한 모델을 훈련할 수는 있지만, 만약 웹 브라우징을 통해 최신 정보를 얻을 수 없다면, 그 모델이 당신을 위해 할 수 있는 유용한 일에는 한계가 있습니다.

에릭 미첼 (01:40): 모델이 실제로 코드를 작성하고 실행할 수 없다면,

에릭 미첼 (01:49): LLM이 효율적으로 할 수 있는 일의 종류에는 한계가 있습니다. 반면 비교적 간단한 파이썬 프로그램은 특정 문제를 매우 쉽게 해결할 수 있죠.

에릭 미첼 (01:56): 따라서 O3는 이전 O 시리즈 모델보다 자체적으로 더 똑똑할 뿐만 아니라,

에릭 미첼 (02:02): 능력을 더욱 향상시키는 이 모든 도구를 사용할 수 있습니다.

에릭 미첼 (02:07): 연구를 하거나, 모델이 데이터 분석을 하도록 하거나, 결과를 검토하고 과정을 조정하도록 하는 등...

에릭 미첼 (02:10): 사용자가 일일이 지시할 필요 없이, 모델은 이러한 높은 수준의 요청을 받아 합리적인 일련의 행동을 스스로 추론해 낼 수 있습니다. 예를 들어 '이 회사에 대해 실사(due diligence)를 하고 합리적인 예측 모델을 돌린 다음 요약해줘' 같은 요청처럼요.

엘라드 길 (02:49): 이해가 되네요. 그러니까 기본적으로 핵심 GPT 모델과 비교했을 때 몇 가지 변화가 있는 것 같습니다. 이제는 잠시 멈춰 생각하고, 또 어떤 단계를 밟아야 할지 추론해서 순차적인 단계를 수행할 수도 있다는 거죠.

엘라드 길 (03:05): 핵심 파운데이션 모델이나 GPT-3.5, 4를 만들 때와 비교해서 이걸 어떻게 다르게 구축하거나 훈련했나요?

엘라드 길 (03:16): 실제로 이런 모델을 구성하는 방식에서 무엇이 다른가요?

브랜든 맥켄지 (03:20): 가장 큰 차이점은 강화 학습(Reinforcement Learning, RL)이라고 할 수 있습니다.

브랜든 맥켄지 (03:23): 네, 단순히 대규모 사전 훈련 코퍼스에서 다음 토큰을 예측하는 것 대신, 이제는 모델이 매우 어려운 작업을 해결하고 답을 찾는 데 필요한 만큼 시간을 들이는, 더 집중된 목표를 가지고 있습니다.

브랜든 맥켄지 (03:41): 사용자 경험 측면에서 좀 마법 같은 점은...

브랜든 맥켄지 (03:46): 과거에 추론 시간 스케일링(test-time scaling)에 대해 많이 이야기했었는데요.

브랜든 맥켄지 (03:49): 도구 없이는 많은 문제에 대해 추론 시간 스케일링이 간혹 작동할 수 있지만, 어느 시점부터는 모델이 내부적인 사고 과정에서 그저 장황하게 늘어놓게 될 수 있습니다.

브랜든 맥켄지 (04:03): 특히 일부 시각 인식 문제에서는요.

브랜든 맥켄지 (04:05): 모델이 필요한 것을 볼 수 없다는 것을 알고는 그냥 정신을 잃고 미쳐버리는 것처럼 보일 때도 있습니다.

브랜든 맥켄지 (04:13): 이제 도구 사용은 이러한 추론 시간 스케일링을 지속하는 데 정말 중요한 요소입니다.

브랜든 맥켄지 (04:17): O3와 대화할 때 이를 느낄 수 있습니다. 더 오래 생각할수록 더 나은 결과를 얻을 것이라는 인상을 받게 되죠. 모델이 정말 직관적인 작업을 수행하는 것을 지켜볼 수 있습니다.

브랜든 맥켄지 (04:31): 기다리는 동안 기다릴 만한 가치가 있고, 모델이 완전히 관련 없는 일을 하는 것이 아니라고 신뢰할 수 있다는 것은 매우 다른 경험입니다.

엘라드 길 (04:56): 장기적으로 봤을 때, 빠르고 저렴하고 효율적인 모델과, 법률 M&A 폴더를 업로드하면 하루 종일 생각하고 느리고 비싸지만 팀 전체가 한 달 걸릴 결과물을 내놓는 모델로 세상이 양분될 것이라고 생각하시나요?

엘라드 길 (05:20): 이 모든 것이 어떻게 진화하고 어디로 향하고 있는지에 대해 어떻게 생각하시나요?

에릭 미첼 (05:24): 아시다시피, 저희에게 모델 통합은 샘 알트먼도 공개적으로 이야기했던 부분입니다. ChatGPT에는 복잡한 모델 전환기가 있고 선택지가 많죠.

에릭 미첼 (05:39): 어떤 특정 작업에 능숙한 모델이 있을 수 있지만, 사용자가 '그럼 이 작업에는 어떤 모델을 써야 하지?'라고 쉽게 파악할 수 없다면 별로 도움이 되지 않습니다.

에릭 미첼 (05:52): 그래서 네, 모델이 더 잘 해내도록 만들고, 이 경험을 더 직관적으로 만드는 것은 확실히 가치 있는 일입니다. 그리고 이것은 '두 개의 모델을 가질 것인가, 아니면 수많은 모델을 가질 것인가, 아니면 그 결정을 모델 내부에 넣을 것인가?' 같은 질문에도 적용됩니다.

에릭 미첼 (06:18): 모든 사람이 이것저것 시도해보고 무엇이 잘 작동하는지 알아낼 것입니다. 하지만, 네, 어떻게 그 결정을 가능한 한 효과적이고, 정확하고, 직관적으로 만들 것인가 하는 질문은 분명히 최우선 과제입니다.

사라 구오 (06:39): 연구 관점에서 추론과 사전 훈련을 결합하거나 이를 더 제어하려는 이유가 있나요? 왜냐하면 제품 관점에서만 생각하면 최종 소비자는 신경 쓰지 않거든요. 그들은 단지 최소한의 지능을 사용하여 가능한 한 짧은 시간 안에 올바른 답을 원할 뿐이죠, 그렇죠?

사라 구오 (07:04): 하지만 최종 사용자 제품과 개발자 제품 사이에는 차이가 있지 않나요? 많은 회사가 이 모든 다른 모델의 API를 사용하고, 매우 구체적인 작업에는 더 제어하기 쉬운 저렴한 추론 비용의 오픈 소스 모델을 사용할 수도 있잖아요?

브랜든 맥켄지 (07:05): 이상적인 상황은 직관적인 것입니다. 어, 얼마나 기다려야 할까요? 모델이 정확한 답을 줄 때까지 걸리는 시간만큼 기다려야 합니다. 그리고 저는 우리 모델이 자신의 불확실성 수준을 더 정확하게 이해하는 단계에 도달할 수 있기를 바랍니다.

브랜든 맥켄지 (07:22): 왜냐하면, 아시다시피, 만약 그들이 이미 답을 알고 있다면 그냥 말해주면 되고, 만약 실제로 답을 찾는 데 하루가 걸린다면 하루를 써야 하지만, 항상 필요한 만큼만 시간이 걸린다는 느낌을 받아야 합니다.

사라 구오 (07:40): 도구 사용이 왜 추론 시간 스케일링이 훨씬 더 잘 작동하도록 돕는지에 대한 직관을 여러분에게서 얻을 수 있다면 좋겠네요.

브랜든 맥켄지 (07:45): 아마 시각적 추론 측면에서 매우 구체적인 사례를 들 수 있을 것 같습니다. 많은 경우에 모델은 사고 과정에서 매우 투명하게 '모르겠어요, 당신이 말하는 것을 잘 볼 수가 없어요...'라고 말할 것입니다.

브랜든 맥켄지 (09:32): 자신의 시력이 별로 좋지 않다는 것을 거의 아는 것 같습니다. 그리고 좀 마법 같은 것은 도구에 접근 권한을 주면, '좋아, 뭔가 알아내야 해. 어, 이미지를 조작하거나 여기를 잘라내거나 할 수 있는지 보자...' 이런 식이죠.

브랜든 맥켄지 (09:45): 그 의미는 그렇게 함으로써 토큰을 훨씬 더 생산적으로 사용한다는 것입니다. 그래서 추론 시간 스케일링 기울기가, 아시다시피, 이런 것에서 훨씬 더 가파른 것으로 바뀝니다.

브랜든 맥켄지 (09:55): 그리고 우리는 정확히 그것을 봤습니다. 구체적으로 시각적 추론의 경우 도구 사용 없이와 도구 사용 시의 추론 시간 스케일링 기울기는 매우 눈에 띄게 다릅니다.

에릭 미첼 (10:04): 네, 그리고 예를 들어 무언가를 위해 코드를 작성하는 것과 같이, LLM이 스스로 알아내려고 시도할 수 있지만 많은 시도와 자체 검증이 필요한 많은 것들이 있습니다. 반면 검증 가능하고 훨씬 빠른 방법으로 매우 간단한 프로그램을 작성하여 수행할 수 있죠.

에릭 미첼 (10:28): 그래서, '이 회사에 대해 조사하고 이런 유형의 평가 모델을 사용하여 평가액이 얼마여야 하는지 알려줘'라고 할 때, 모델이 내부적으로 계산하고 계수를 맞추려고 노력하게 할 수도 있고, 아니면 말 그대로 그냥 올바른 방식으로 코드를 작성하게 해서 실제 답을 알게 할 수도 있습니다.

에릭 미첼 (10:52): 그래서, 네, 제 생각엔 이 부분은 모델이 비교 우위가 없는 작업을 그 작업에 정말 잘 맞는 도구에 미룰 수 있기 때문에 컴퓨팅 자원을 훨씬 더 효율적으로 할당할 수 있다는 것입니다.

엘라드 길 (11:05): 제가 O3의 어떤 형태를 많이 사용해 온 방식 중 하나는 심층 연구입니다, 그렇죠? 기본적으로 웹에서 정보를 찾아보고, 정보를 종합하고, 차트를 만들어주는, 여러분이 만든 연구 분석가 AI라고 생각합니다. 그 능력 면에서 정말 놀랍습니다.

엘라드 길 (11:23): 그것이 특정 작업(심층 연구)을 더 잘하도록 하기 위해 특별한 형태의 강화 학습이나 다른 것을 적용해야 했나요?

엘라드 길 (11:34): 그것을 위한 데이터 훈련, 훈련에 사용된 데이터에 대해 어떻게 생각했나요? 그 제품이 이 전체 노력의 한 갈래라면, 구체적으로 그것을 어떻게 구축했는지 궁금합니다.

에릭 미첼 (11:46): 도구 사용에 대해 생각할 때, 브라우징은 가장 자연스러운 시작점 중 하나라고 생각합니다. 아시다시피, 항상 쉬운 것은 아니지만요. 몇 년 전 GPT-4에 포함했던 초기 브라우징 기능처럼, 그것을 신뢰할 수 있고 유용하게 느끼도록 만드는 것은 어려웠습니다.

에릭 미첼 (12:18): 하지만 요즘 시대에는... 작년... 아시다시피 2년 전은 아주 먼 옛날이죠.

에릭 미첼 (12:25): 매우 다양한 종류의 쿼리에 널리 적용 가능하기 때문에 자연스러운 시작점처럼 느껴집니다. 최신 정보가 필요한 모든 것은 브라우징이 도움이 될 것입니다.

에릭 미첼 (12:38): 그래서 RL 방식이 정말 작동하는지 확인하는 테스트베드 측면에서, 혹은 모델이 더 긴 시간 지평을 가진 의미 있는 확장된 행동을 실제로 학습하도록 할 수 있는지 알아보는 측면에서, 어떤 면에서는 자연스러운 시작점처럼 느껴지고, 비교적 짧은 시간 안에 유용할 가능성이 높습니다. 그래서 '네, 한번 해보자'는 거죠.

에릭 미첼 (13:05): 음, 아시다시피 RL에서는 결국 목표를 정의하는 것이고, 누가 이것을 가장 유용하게 사용할지에 대한 아이디어가 있다면, 사용하는 사람, 그들이 원할 것으로 예상되는 것, 그들의 인내심 수준 등을 고려하여 목표를 조정하고 싶을 수 있습니다. 30분짜리 심층 연구 결과를 끝까지 볼 의향이 있을까요? 보고서를 요청할 때 한 페이지를 원할까요, 다섯 페이지를 원할까요, 아니면 엄청나게 많은 페이지를 원할까요?

에릭 미첼 (13:39): 그러니, 네, 확실히 누가 사용할 것인지에 맞춰서 조정하고 싶을 겁니다.

엘라드 길 (13:46): 하지만 정말 작은 뇌를 가진 생물들이 그런 작업(실시간 물리적 상호작용)을 매우 잘한다는 점은 흥미롭습니다. 개구리를 보거나, 다른 유기체들을 보고 상대적인 연산 능력을 비교해 보면, 매우 단순한 시스템, 예를 들어 개미 같은 것들이 그런 작업에 매우 능숙하죠.

엘라드 길 (14:12): 그래서 자연에서 합리적으로 반응해야 하는 이러한 실제 세계 작업 중 일부에 실제로 필요한 기본 능력 수준이 어느 정도인지에 대한 질문은 매우 흥미롭다고 생각합니다.

브랜든 맥켄지 (14:23): 시각적인 부분도 정말 까다롭습니다. 저희 모델에는 아마도 유명할 수도 있는, 제대로 작동하지 않는 몇 가지 엣지 케이스가 있습니다. 혹시 저희 모델에게 시계에 표시된 시간을 물어본 적이 있으신가요? 모델들은 10시 10분이라는 시간을 정말 좋아합니다. 네, 그렇죠.

브랜든 맥켄지 (14:45): 인터넷에 있는 모든 시계 이미지의 90% 이상이 10시 10분을 가리키는 것 같습니다. 아마 웃는 얼굴처럼 보이고 보기 좋아서 그런 것 같아요.

브랜든 맥켄지 (14:53): 하지만 어쨌든 제가 말하려는 것은, 우리의 시각 시스템은 외부 세계와 상호작용하고, 길을 찾고, 포식자를 피하는 등 실제 세계에 능숙해져야 하는 과정에서 발달했습니다. 반면 우리 모델들은 매우 다른 방식으로 시각 정보를 학습했습니다. 그리고 저는 만약 모델들이 실제 세계에서 행동을 취함으로써 불확실성을 줄이는 방식으로, 즉 단순히 생각만 하는 것이 아니라, 피드백 루프를 완성하도록 할 수 있다면 정말 흥미로운 결과들을 많이 보게 될 것이라고 생각합니다.

사라 구오 (25:21): 에릭, 환경에서 무엇을 시뮬레이션할 수 있는지에 대한 아이디어를 언급하셨죠? 이것을 개선하는 것이 얼마나 어려울지에 대한 입력값으로서요.

사라 구오 (25:34): 소프트웨어 엔지니어링처럼 장기 실행 작업으로 가면, 단순히 제가 계속 코드를 커밋하는 것 이상의 많은 상호작용이 있습니다. 예를 들어, 프로젝트에 대해 다른 사람들과 이야기해야 하는데, 이 경우 환경 내에서 다른 사람들이 프로젝트에 대해 당신과 어떻게 상호작용할지를 합리적으로 시뮬레이션할 수 있는지의 문제에 직면하게 됩니다. 그건 정말 까다로워 보입니다, 그렇죠?

사라 구오 (25:57): O3나 현재의 파운데이션 모델들이 합리적으로 반응할 지능이 없다는 말은 아니지만, 이론적으로 환경에 인간을 포함시킬 때 그 시뮬레이션이 실제 현실과 얼마나 유사하게 될지에 대해 어떻게 생각하시나요?

브랜든 맥켄지 (26:17): 제 생각에 좀 더 도발적인 관점은, O3는 어떤 의미에서는 이미 브라우저 같은 도구를 사용하는 한 사람이 무언가를 하는 것을 시뮬레이션하고 있다는 것입니다. 그럼 두 개의 모델을 함께 훈련시켜서 두 사람이 서로 상호작용하도록 할 수도 있겠죠. 그리고 네, 모델들이 서로 협력하는 데 능숙하도록 훈련되도록 이 모든 것을 확장하지 못할 이유가 없습니다. 다중 에이전트 RL에 대한 기존 문헌도 많고요. 만약 모델이 여러 사람과 협력하는 것과 같은 작업을 잘하기를 원한다면, 다른 모델들과 협력하는 데 능숙하게 만드는 것이 그리 나쁘지 않은 시작점일 수 있습니다.

에릭 미첼 (26:57): 와, 누군가 정말 그렇게 해야겠네요.

브랜든 맥켄지 (26:58): 네, 네, 정말 그것에 대해 생각해봐야겠어요, 에릭.

사라 구오 (27:01): 조금 도발적이라고 생각해요. 네, 연구는 진행 중이죠. 그게 유용한 방향이라고 생각하신다니 흥미롭네요. 어, 많은 사람들은 여전히 '나는 아니야, 이 풀 리퀘스트에 대한 내 코멘트가 특별히 좋았어'라고 믿고 싶어 할 것 같아요, 그렇죠?

브랜든 맥켄지 (27:18): 음, 그리고 저도 공감해요. 가끔 우리 모델들이 훈련하는 걸 보면 '으, 뭐하는 거야?' 싶을 때가 있어요. 아시다시피, 이걸 알아내는 데 너무 오래 걸리는 것 같거든요.

브랜든 맥켄지 (27:26): 그리고 실제로 모델을 상호작용 방식으로 훈련할 수 있다면 정말 재미있을 것 같아요. 아시다시피, 그냥 추론 시간뿐만 아니라요. 모델이 그런 작업을 하도록, 즉 필요할 때 개입하고, 네, 그냥 제가 모델에게 '그만해'라고 말할 수 있고, 모델이 사고 과정 중간에 그것으로부터 즉석에서 배울 수 있도록 훈련하는 것은 정말 멋질 것 같아요.

에릭 미첼 (27:47): 네, 제 생각엔 이것이 이 두 가지가 교차하는 지점인 것 같습니다. 즉, 외부 환경과의 접점이면서 동시에 불확실성이 매우 높을 수 있다는 점이죠. 예를 들어 인간은 매우 예측 불가능할 수 있습니다.

에릭 미첼 (28:01): 그리고 실제 인간과 상호작용하려면 실제 세계의 시간 흐름에 의해 제한받습니다. 인간은 고정된, 아시다시피, 머릿속의 클럭 사이클을 가지고 있으니까요.

에릭 미첼 (28:15): 음, 그래서 네, 이것을 문자 그대로 하려면 어렵습니다. 그리고 이것을 확장하고 잘 작동하게 만드는 것은, 아시다시피, 어떻게 해야 할지 명확하지 않습니다.

브랜든 맥켄지 (28:26): 네, 우리는 엄청나게 비싼 도구 호출이죠. 아시다시피, 당신이 모델이라면 여기 있는 저, 미트백(meat bag)에게 도움을 요청할 수도 있고, 그럼 저는 정말 느리게 생각하려고 노력할 겁니다. 그동안 모델은 브라우저를 사용해서 그 주제에 대한 논문 100편을 읽을 수도 있었을 텐데요. 그러니 네, 그 트레이드오프를 어떻게 모델링할지가 문제죠.

에릭 미첼 (28:42): 하지만 인간적인 부분이 중요합니다. 제 생각엔 어떤 연구 프로젝트든 브랜든과의 상호작용이 프로젝트에서 가장 어려운 부분인 것 같아요. 아시다시피, 코드를 작성하는 것은 쉬운 부분이죠.

사라 구오 (28:50): 엘라드는 매주 저와 함께하는 것이 이 팟캐스트를 하는 데 가장 어려운 부분이라고 말하겠죠, 하지만...

엘라드 길 (28:58): 제가 가장 좋아하는 부분인데요.

브랜든 맥켄지 (29:00): 저들의 관계가 얼마나 건강한지 봐요, 에릭. 우리도 배워야 해요.

에릭 미첼 (29:03): 아니에요, 우린 솔직해요. 괜찮아요. 해결해 나가야죠.

엘라드 길 (29:05): 네.

브랜든 맥켄지 (29:06): (웃음)

사라 구오 (29:07): 자율 주행에서 고전적으로 어려운 문제 중 하나는 인간, 아이, 개와 같은 환경 내 에이전트의 행동을 예측하는 것이었습니다. 환경 자체의 상태와는 대조적으로요.

사라 구오 (29:19): 음, 그래서 거기에도 어떤 유사점이 있다고 생각합니다.

사라 구오 (29:25): 여기서부터 O 시리즈 모델을 어떻게 발전시킬지에 대해 다시 이야기해 보면요. 모델의 능력이 더 불규칙하게(spikier) 발전할 가능성이 높다는 일부 사람들의 평가가 합리적일까요? 왜냐하면 어느 정도는 연구팀의 창의성에 더 의존하고, 이러한 환경을 만들고 평가 방법을 결정하는 데 의존하기 때문이죠. 사전 훈련에서 기존 데이터셋을 확장하는 것과는 대조적으로요. 그게 공정한 비교일까요?

브랜든 맥켄지 (29:59): 불규칙하다는 게, 그래프가 어떻게 되나요? X축과 Y축이...

에릭 미첼 (30:03): 도메인이 X축이고 Y가 능력입니다.

사라 구오 (30:06): 네, 왜냐하면 어떤 도메인에서 이 RL 루프를 실제로 만들지 선택하는 것이니까요.

에릭 미첼 (30:13): 제 생각에 이건 매우 합리적인 가설입니다. 하지만 사람들의 직관에 고려되어야 할 반대 증거도 일부 있다고 생각합니다. 예를 들어 샘 알트먼이 우리 모델 중 하나의 창의적인 글쓰기 사례를 트윗했는데요. 제가 전문가는 아니고 이게 출판 가능하거나 획기적이라고 말할 수는 없지만, 아마도 일부 사람들의 '모델이 무엇을 정말 잘하도록 훈련할 수 있는가'에 대한 직관을 업데이트했을 것입니다. 그래서 조직으로서 '좋아, XYZ 작업을 우선시하자'라고 결정해야 하기 때문에 어느 정도 불규칙성이 나타날 구조적인 이유가 있다고 생각합니다.

에릭 미첼 (31:04): 그리고 모델이 더 좋아짐에 따라 모델로 할 수 있는 일의 표면적이 '좋아, 이게 우리가 개척할 틈새시장이고, 이걸 정말 잘하려고 노력할 거야'라고 말할 수 있는 속도보다 더 빠르게 증가합니다. 그래서 불규칙성이 나타나는 데에는 어느 정도 이유가 있다고 생각하지만, 일부 사람들은 아마 이것을 너무 확대 해석해서 '아, 네, 이 모델들은 수학과 코드에만 정말 능숙하고 다른 모든 것은 더 나아질 수 없어'라고 말할 것입니다. 제 생각에 그건 아마 올바른 직관이 아닐 겁니다.

브랜든 맥켄지 (31:35): 네, 그리고 아마 지금 모든 주요 AI 연구소에는 모델이 잘하기를 바라는 데이터 분포를 정의하고 데이터를 쏟아붓는 방식과, 어떤 알고리즘적 변화를 통해 모든 배를 한 번에 끌어올릴 수 있을지 고민하는 방식 사이에 어느 정도 분할이 있을 것입니다. 그리고 네, 저희 OpenAI에도 확실히 두 가지 유형의 노력이 모두 있습니다. 특히 데이터 측면에서는 다른 것보다 훨씬 더 많은 데이터를 가진 영역이 자연스럽게 생길 것입니다. 하지만 이상적으로는, 네, 우리가 RL을 수행한 정확한 데이터 하위 집합에 그렇게 의존하지 않고 더 잘 일반화될 수 있도록 하는 많은 노력을 기울이고 있습니다.

사라 구오 (32:22): 저는 매주, 그리고 엘라드도 그럴 거라고 확신하는데요, 어떤 방식으로든 연구소를 위한 데이터를 생성하려는 회사의 제안을 받습니다. 혹은 인간 전문가에 대한 접근 권한이거나 뭐든 간에요. 아시다시피, 이것에는 무한한 변형이 있습니다. 만약 마법 지팡이를 휘둘러 완벽한 데이터 세트를 가질 수 있다면, 그건 무엇일까요? 오늘날 모델 품질을 향상시킬 수 있는 데이터요.

에릭 미첼 (32:49): 이건 회피하는 답변이지만, 오염되지 않은 평가 데이터(uncontaminated evals)입니다.

에릭 미첼 (32:53): 항상 매우 가치가 있죠. 그리고 그것도 데이터입니다.

에릭 미첼 (32:57): 음, 그리고 제 말은, 네, 훈련에 사용할 좋은 데이터를 원하고, 그것은 물론 모델을 더 좋게 만드는 데 가치가 있지만, 평가(eval)에 있어서는 다른 의미의 고품질인, 고품질 데이터를 갖는 것이 얼마나 중요한지가 종종 간과된다고 생각합니다. 네, 평가 측면은 종종 그만큼 중요합니다. 왜냐하면 무언가를 측정해야 하니까요. 그리고 아시다시피, 사람을 고용하려고 하거나 할 때처럼, 일반적이고 유능한 에이전트의 능력을 엄격한 방식으로 평가하는 것은 정말 어렵습니다. 그래서 네, 평가 데이터는 좀 과소평가되는 것 같아요.

브랜든 맥켄지 (33:39): 하지만 그건 사실이에요. 평가 데이터는, 특히 최근 모델 중 일부는 추적할 만한 신뢰할 수 있는 평가 데이터가 부족해졌습니다. 모델들이 그중 몇 개를 그냥 풀어버렸기 때문이죠. 하지만 훈련 측면에서는 모델 능력의 다음 개척지에 있는 훈련 데이터를 갖는 것이 항상 가치가 있다고 생각합니다. 제 생각에 O3와 O4 Mini가 이미 할 수 있는 많은 것들, 기본적인 도구 사용과 같은 작업 유형에 대해서는 아마도 새로운 데이터가 절실히 필요하지는 않을 것입니다. 하지만 예를 들어 100만 줄짜리 코드 베이스에서 여러 차례의 사용자 상호작용이 있고, 여러 개의 풀 리퀘스트가 필요한 새로운 기능을 추가하는 2주짜리 연구 작업과 같은, 매우 고품질이고 학습할 만한 감독 신호가 풍부한 데이터 세트를 거절하기는 어려울 것 같습니다. 그런 데이터가 있다면 정말 좋을 것 같아요. 확실히 거절하지 않을 겁니다.

사라 구오 (34:40): 모델을 항상 가지고 노시죠. 아마 보통 사람들보다 훨씬 더 많이요. 다른 사람들이 아직 충분히 하지 않는다고 생각하는, 추론 모델로 무엇을 하시나요?

에릭 미첼 (34:48): 같은 프롬프트를 모델에 여러 번, 여러 번, 여러 번 보내서 얻을 수 있는 응답의 분포에 대한 직관을 얻습니다.

에릭 미첼 (34:58): 사람들이 트위터 같은 곳에서 비교하면서 '아, 똑같은 프롬프트를 블라블라와 블라블라에 넣었는데 이게 훨씬 낫네'라고 할 때 정말 미칠 것 같아요. 이건 마치,

에릭 미첼 (35:18): 저희가 출시할 때 좀 이야기했던 것처럼, O3는 여러 도구 호출을 연결할 때 정말 멋진 일을 할 수 있지만, 때로는 같은 프롬프트에 대해 그런 마법 같은 순간이 없거나, 그냥 조금 덜 작동할 수도 있다는 거죠. 그래서 네, 최고 성능은 정말 인상적이지만, 행동에는 분포가 있고, 사람들은 종종 같은 프롬프트를 넣었을 때 결과의 분포가 있다는 것을 잘 인식하지 못하는 것 같아요. 그것에 대한 직관을 얻는 것이 유용합니다.

사라 구오 (35:51): 그래서 최종 사용자로서 저도 그렇게 하는데요, 그리고 제품 조직에 있는 친구들에게 기능 요청도 있습니다. 제 사용량 제한 등이 허용한다고 가정하고, 프롬프트를 매번 자동으로 100번 실행하는 버튼을 원해요. 정말 비싸더라도요. 그런 다음 모델이 순위를 매겨서 상위 한두 개만 보여주고 비싸도 괜찮아요.

엘라드 길 (36:17): 아니면 그 결과들을 종합하는 거죠? 출력을 종합해서 어떤 경향이 있는지 볼 수도 있고요. 물론 그러면 그 분포에 비해 평균으로 회귀하게 될 수도 있겠지만, 흥미로워 보입니다.

사라 구오 (36:27): 아마 여러분이 그 버튼을 주지 않는 좋은 인프라 이유가 있겠죠.

브랜든 맥켄지 (36:31): 글쎄요, 비싸긴 하지만요.

에릭 미첼 (36:32): 하지만

브랜든 맥켄지 (36:33): 좋은 제안이라고 생각합니다.

에릭 미첼 (36:34): 네. 네, 좋은 제안이라고 생각해요.

사라 구오 (36:37): 얼마나 내실 의향이 있으세요?

브랜든 맥켄지 (36:38): 많이요. 하지만 저는 AI에 대해 가격에 둔감한 사용자입니다.

사라 구오 (36:40): 완벽해요. 저희가 가장 좋아하는 유형이죠. (웃음)

엘라드 길 (36:43): 가격 등급 중 하나로 '사라 등급'을 만들어야겠네요.

에릭 미첼 (36:47): 정확해요. 정확해요.

엘라드 길 (36:49): 네.

브랜든 맥켄지 (36:51): 어, 저는 모델들이 할 수 있을 거라고 기대하는 한계점에 있는 프롬프트를 그냥 재미 삼아 보내는 것을 정말 좋아합니다. 예를 들어 프로그래밍 작업을 하기 전에 종종 모델에게 가서 해결할 수 있는지 물어보곤 합니다. 종종 모델이 할 수 있을 거라는 희망 없이요. 그리고 실제로 가끔 모델이 돌아왔을 때 저는 꽤 실망한 아버지처럼 되기도 합니다. 하지만 다른 때에는 모델이 해내고, 정말 놀랍고, 제 시간을 엄청나게 절약해 줍니다. 그래서 저는 우리 모델들을 거의 백그라운드 작업 큐처럼 사용합니다. 그냥 작업을 던져주면 때로는 성공하고 때로는 실패하지만, 어느 경우든 좋은 일이 생기면 항상 좋은 결과죠.

엘라드 길 (37:32): 네, 저도 모델이 작동하지 않을 때 제 기분이 나아지도록 그렇게 합니다. '좋아, 적어도 우울해질 수는 있겠네' 하는 식으로요.

사라 구오 (37:35): (속삭이며) 저는 여전히 가치를 제공하고 있어요.

엘라드 길 (37:39): 네, 정확해요.

브랜든 맥켄지 (37:40): 제가 말하려는 것은, 당신은 저를 더 기분 나쁘게 만든다는 겁니다. 그래서 매우 어, 성공 아니면 실패죠.

(웃음)

사라 구오 (37:44): 이것으로 마치겠습니다. 감사합니다.

엘라드 길 (37:46): 네, 정말 감사합니다.

브랜든 맥켄지 (37:47): 네, 감사합니다.

에릭 미첼 (37:48): 네, 감사합니다.

(아웃트로 음악 및 그래픽)

아나운서 (37:51): 트위터에서 @NoPriorsPod를 찾아보세요. YouTube 채널을 구독하시면 저희 얼굴을 볼 수 있습니다. Apple Podcasts, Spotify 또는 즐겨 듣는 곳에서 쇼를 팔로우하시면 매주 새로운 에피소드를 받아보실 수 있습니다. 각 에피소드의 이메일 알림 신청 및 대본은 no-priors.com에서 확인하세요.

(음악 페이드 아웃)




전체 0