인터뷰/예측
OpenAI Sébastien Bubeck "내년 국제수학올림피아드에서 확실히 금메달을 딸 것"
작성자
하이룽룽
작성일
2024-12-25 19:53
조회
8
https://www.youtube.com/live/H3TnTxVKIOQ?si=7qHFyflQZLhcinrq
“IMO 금메달은 따게 될 거예요—언제라고는 모르겠지만, 아주 가까운 시일 내일 겁니다. 내년쯤이면 분명 가능하다고 생각합니다.
- (00:00) 소개: 아닐 아난타스와미(Anil Ananthaswamy)가 이번 토론을 시작하며, 현재 대규모 언어 모델(LLM)의 스케일링만으로도 P≠NP와 같은 수학의 난제를 해결하기 위한 새로운 증명 기법을 생성할 수 있는지(‘Sparks 대 Embers’ 논쟁) 화두를 제시한다. 그는 토론 형식(상호 방해 없음)과 발제자들을 소개한다.
- (06:55) 세바스티앙 뷔벡(Sebastien Bubeck)의 발제: LLM의 급격한 스케일링과, 추론 포스트 트레이닝 등 새로운 후처리 기법이 고난도 작업(수학적 증명 포함)에 한층 근접하게 만들었다고 주장한다. ‘AGI(인공지능 일반) 걸리는 시간’을 초단위 → 분단위 → 시간단위로 점점 늘려가며, “AGI가 일주일 정도면 대단한 난제를 풀 수 있다”는 기대를 제시한다.
- (15:26) 톰 맥코이(Tom McCoy)의 발제: 현재 LLM들은 ‘창의적 도약(creative leaps)’과 정확성 측면에서 여전히 한계를 보인다고 반박한다. ‘환각(hallucination)’ 문제, 모델 구조상의 한계 등을 지적하며, 단순히 스케일링만으로는 실질적으로 완전히 새로운 증명을 창출하기 어렵다는 점을 강조한다.
- (22:13) 오류 및 창의성에 대한 토론: 뷔벡은 실제로 LLM이 연구자들이 막힌 보조정리(lemma) 해결을 도왔다는 일화적 사례를 제시한다. 맥코이는 모델들이 눈에 띄게 개선되기는 했지만, 예컨대 알파벳 역순 정렬이나 새로운 유추(analogy) 처리 같은 문제에서 여전히 구조적 한계를 드러낸다고 재차 주장한다.
- (34:04) 스케일링의 종류: ‘스케일링’을 구체적으로 어떻게 정의해야 하는가(더 많은 데이터, 학습 에폭 증가, 특수화된 포스트 트레이닝)라는 논의가 이뤄진다. 체인 오브 솟(Chain-of-thought), 합성(인공) 데이터, 혹은 특화된 ‘커리큘럼’ 등 다양한 방법이 성능을 끌어올릴 수 있으나, 진정한 ‘창의성 한계’를 돌파하기 위해 이것만으로 충분한지는 여전히 물음표라는 데 의견이 모인다.
- (42:01) 합성 데이터 & 커리큘럼: 뷔벡은 마이크로소프트의 “Phi” 모델 시리즈처럼 합성 데이터를 활용해 모델에 선별된 정보를 공급하는 사례를 설명한다. 이는 모델에 체계적인 추론이나 수학적 스킬을 가르치는 일종의 ‘커리큘럼’ 방식으로, 스케일링 외에 또 다른 학습 혁신 방법임을 시사한다.
- (50:51) 체스 & 바둑(Go) 비유: 발표자들은 체스나 바둑 같은 게임에서 LLM이 전문 AI(예: 스톡피시, 알파고)보다는 아직 떨어지지만, 어느 정도 가능성을 보여준다는 점을 언급한다. 이를 통해 “수학 난제를 풀기 위해서는 전문화된 모델과 범용 모델 중 어떤 방향이 더 적절한가?”라는 논의가 이어진다.
- (1:19:48) 마무리 & 투표: 질의응답 및 최종 발언으로 토론이 마무리된다. 결론적으로, LLM이 이미 수학적 연구에 큰 도움이 되고 있다는 것에는 모두 공감하지만, 이들이 완전히 독자적으로 ‘차세대 대난제(Big Conjecture)’를 풀어낼 수 있을지에 대해서는 여전히 의견이 갈린다. 토론 전·후에 실시된 청중 투표 결과, 일부 사람들의 의견이 변화했음이 확인되나, LLM이 인류 수준을 뛰어넘어 혁신적인 수학적 창의성을 발휘할 시점이 언제일지는 아직 미지수라는 점이 강조된다.
Next year, will we have AGI day? Day with singular. Yeah, maybe. That's what an agent would be like. Two years from now, we will have AGI days? Yeah, probably. Three years from now, AGI weeks?
“내년에는 AGI 데이가 가능할까요? ‘데이(day)’라고 하면 단수형이죠. 네, 아마도요. 에이전트(인공지능)가 있다면 그럴 겁니다. 그렇다면 2년 뒤에는 AGI 데이들이 될까요? 네, 아마 가능하겠죠. 그리고 3년 뒤에는 AGI 주(weeks)?”
토론 중에 세바스티앙 뷔벡(Sébastien Bubeck)은 LLM 혹은 AGI(범용 인공지능)의 발전 속도를 ‘AGI 초 → 분 → 시간 → 일 → 주…’처럼 표현하면서, “내년에 ‘AGI day(하루 단위의 AGI 수행 능력)’가 도래할 수도 있다”라는 식의 언급을 합니다. 즉, 한 해가 지나면 하루 정도 집중적으로 모델이 추론할 수 있는 능력이 생겨서 난제 해결에 한 걸음 더 가까워질 가능성을 시사하는 내용입니다.
“IMO 금메달은 따게 될 거예요—언제라고는 모르겠지만, 아주 가까운 시일 내일 겁니다. 내년쯤이면 분명 가능하다고 생각합니다.
- (00:00) 소개: 아닐 아난타스와미(Anil Ananthaswamy)가 이번 토론을 시작하며, 현재 대규모 언어 모델(LLM)의 스케일링만으로도 P≠NP와 같은 수학의 난제를 해결하기 위한 새로운 증명 기법을 생성할 수 있는지(‘Sparks 대 Embers’ 논쟁) 화두를 제시한다. 그는 토론 형식(상호 방해 없음)과 발제자들을 소개한다.
- (06:55) 세바스티앙 뷔벡(Sebastien Bubeck)의 발제: LLM의 급격한 스케일링과, 추론 포스트 트레이닝 등 새로운 후처리 기법이 고난도 작업(수학적 증명 포함)에 한층 근접하게 만들었다고 주장한다. ‘AGI(인공지능 일반) 걸리는 시간’을 초단위 → 분단위 → 시간단위로 점점 늘려가며, “AGI가 일주일 정도면 대단한 난제를 풀 수 있다”는 기대를 제시한다.
- (15:26) 톰 맥코이(Tom McCoy)의 발제: 현재 LLM들은 ‘창의적 도약(creative leaps)’과 정확성 측면에서 여전히 한계를 보인다고 반박한다. ‘환각(hallucination)’ 문제, 모델 구조상의 한계 등을 지적하며, 단순히 스케일링만으로는 실질적으로 완전히 새로운 증명을 창출하기 어렵다는 점을 강조한다.
- (22:13) 오류 및 창의성에 대한 토론: 뷔벡은 실제로 LLM이 연구자들이 막힌 보조정리(lemma) 해결을 도왔다는 일화적 사례를 제시한다. 맥코이는 모델들이 눈에 띄게 개선되기는 했지만, 예컨대 알파벳 역순 정렬이나 새로운 유추(analogy) 처리 같은 문제에서 여전히 구조적 한계를 드러낸다고 재차 주장한다.
- (34:04) 스케일링의 종류: ‘스케일링’을 구체적으로 어떻게 정의해야 하는가(더 많은 데이터, 학습 에폭 증가, 특수화된 포스트 트레이닝)라는 논의가 이뤄진다. 체인 오브 솟(Chain-of-thought), 합성(인공) 데이터, 혹은 특화된 ‘커리큘럼’ 등 다양한 방법이 성능을 끌어올릴 수 있으나, 진정한 ‘창의성 한계’를 돌파하기 위해 이것만으로 충분한지는 여전히 물음표라는 데 의견이 모인다.
- (42:01) 합성 데이터 & 커리큘럼: 뷔벡은 마이크로소프트의 “Phi” 모델 시리즈처럼 합성 데이터를 활용해 모델에 선별된 정보를 공급하는 사례를 설명한다. 이는 모델에 체계적인 추론이나 수학적 스킬을 가르치는 일종의 ‘커리큘럼’ 방식으로, 스케일링 외에 또 다른 학습 혁신 방법임을 시사한다.
- (50:51) 체스 & 바둑(Go) 비유: 발표자들은 체스나 바둑 같은 게임에서 LLM이 전문 AI(예: 스톡피시, 알파고)보다는 아직 떨어지지만, 어느 정도 가능성을 보여준다는 점을 언급한다. 이를 통해 “수학 난제를 풀기 위해서는 전문화된 모델과 범용 모델 중 어떤 방향이 더 적절한가?”라는 논의가 이어진다.
- (1:19:48) 마무리 & 투표: 질의응답 및 최종 발언으로 토론이 마무리된다. 결론적으로, LLM이 이미 수학적 연구에 큰 도움이 되고 있다는 것에는 모두 공감하지만, 이들이 완전히 독자적으로 ‘차세대 대난제(Big Conjecture)’를 풀어낼 수 있을지에 대해서는 여전히 의견이 갈린다. 토론 전·후에 실시된 청중 투표 결과, 일부 사람들의 의견이 변화했음이 확인되나, LLM이 인류 수준을 뛰어넘어 혁신적인 수학적 창의성을 발휘할 시점이 언제일지는 아직 미지수라는 점이 강조된다.
Next year, will we have AGI day? Day with singular. Yeah, maybe. That's what an agent would be like. Two years from now, we will have AGI days? Yeah, probably. Three years from now, AGI weeks?
“내년에는 AGI 데이가 가능할까요? ‘데이(day)’라고 하면 단수형이죠. 네, 아마도요. 에이전트(인공지능)가 있다면 그럴 겁니다. 그렇다면 2년 뒤에는 AGI 데이들이 될까요? 네, 아마 가능하겠죠. 그리고 3년 뒤에는 AGI 주(weeks)?”
토론 중에 세바스티앙 뷔벡(Sébastien Bubeck)은 LLM 혹은 AGI(범용 인공지능)의 발전 속도를 ‘AGI 초 → 분 → 시간 → 일 → 주…’처럼 표현하면서, “내년에 ‘AGI day(하루 단위의 AGI 수행 능력)’가 도래할 수도 있다”라는 식의 언급을 합니다. 즉, 한 해가 지나면 하루 정도 집중적으로 모델이 추론할 수 있는 능력이 생겨서 난제 해결에 한 걸음 더 가까워질 가능성을 시사하는 내용입니다.
전체 0