인터뷰/예측
데이비드 실버 "앞으로 AI가 수학 분야를 혁신할 잠재력이 크다"
(시작 시간: 00:00)
해나 프라이: 제 생각에 이건 어떤 면에서는 당신이 테이블을 치면서 이렇게 말씀하시는 것 같아요...
데이비드 실버: 대규모 언어 모델만이 유일한 AI는 아니라고요.
해나 프라이: 우리 AI들이 스스로 무언가를 알아내고 인간이 모르는 새로운 것을 발견하도록 해야 할 겁니다.
데이비드 실버: 그래서 만약 그 인간 피드백 측면을 제거한다면...
해나 프라이: 여전히 현실에 기반한 모델을 얻을 수 있을까요?
데이비드 실버: 저는 거의 반대로 주장하고 싶어요.
해나 프라이: 오.
데이비드 실버: 이것은 때때로 AI의 쓰디쓴 교훈이라고 불립니다.
해나 프라이: 우리는 인간으로서 축적해온 모든 지식이 정말 중요하다고 믿고 싶어 합니다.
판 후이: 알파고는 저에게 기술적으로 새로운 것을 가르쳐 준 것뿐만이 아닙니다. 어쩌면 제 마음을 열어주고, 제 생각을 바꿔주었죠.
(타이틀: Google DeepMind 팟캐스트)
(시작 시간: 00:40)
해나 프라이: Google DeepMind 팟캐스트에 다시 오신 것을 환영합니다. 오늘 제 게스트는 독보적인 데이비드 실버입니다. 초기 딥마인드 멤버이자, 알파고의 경이로운 성공 뒤에 있는 핵심 인물 중 한 명입니다. 세계에서 가장 복잡한 보드 게임을 마스터하고 초인적인 성능을 달성한 최초의 프로그램이죠.
(시작 시간: 00:58)
해나 프라이: 이제, 오늘 팟캐스트 말미에는 여러분께 작은 특별 선물이 있습니다. 데이비드와 판 후이의 대화입니다. AI와 대결한 최초의 프로 바둑 기사죠.
(시작 시간: 01:08)
해나 프라이: 하지만 이제, 데이비드는 AI가 다음으로 나아가야 할 방향에 대한 대담한 아이디어를 가지고 있습니다. 현재 멀티모달 모델에 대한 열기와 흥분, 그리고 성과들 이후에 말이죠. 데이비드는 초인적인 지능으로 가는 길에 대한 계획을 가지고 있습니다. 그가 '경험의 시대'라고 부르는 새로운 단계입니다. 이것은 심오한 아이디어이며 위험이 없는 것도 아닙니다.
(시작 시간: 01:33)
해나 프라이: 데이비드, 팟캐스트에 오신 것을 환영합니다.
데이비드 실버: 안녕하세요, 여기 오게 되어 정말 좋습니다. 정말 기쁩니다. 감사합니다.
해나 프라이: 네, 저는 주말 동안 당신의 포지션 페이퍼를 아주 즐겁게 읽었습니다. 그리고 그 안에서 당신은 '경험의 시대'에 대해 이야기하고 계시죠. 저희를 위해 요약해주시겠어요? 그게 무슨 뜻인가요?
(시작 시간: 01:50)
데이비드 실버: 제 말은, 지난 몇 년간 AI가 어디에 있었는지 살펴보면, 제가 '인간 데이터의 시대'라고 부르는 시대에 있었다는 것입니다. 이 모든 AI 방법들은 하나의 공통된 아이디어에 기반합니다. 즉, 인간이 가진 모든 지식 조각을 추출해서 기계에 입력하는 것이죠. 그리고 그것은 일을 처리하는 한 가지 매우 강력한 방법입니다. 일을 처리하는 또 다른 방법이 있는데, 이것이 우리를 '경험의 시대'로 이끌 것입니다. 이 시대에서는 기계가 실제로 세상과 상호작용하고 자신의 경험을 생성합니다. 세상에서 이것저것 시도해보고 자신의 경험을 쌓기 시작하는 거죠. 그리고 만약 그 데이터를 기계의 연료로 생각한다면, 그것이 우리가 '경험의 시대'라고 생각할 수 있는 차세대 AI로 이어질 것입니다.
(시작 시간: 02:40)
해나 프라이: 이건 어떤 면에서는 당신이 단호하게 주장하시는 것 같아요. 대규모 언어 모델만이 유일한 AI는 아니라고요, 그렇죠? 대안들이 있고, 우리가 이 문제에 접근할 수 있는 다른 방법들이 있다는 거죠.
(시작 시간: 02:50)
데이비드 실버: 저는 우리가 AI 분야에서 대규모 언어 모델을 구축하고, 특히 방대한 양의 인간 자연어 데이터를 활용하는 데 있어서 많은 성과를 거두었다고 생각합니다. 그리고 인간이 기록한 모든 것을 아는 기계에 그 모든 것을 동화시키는 거죠. 하지만 어느 시점에서는 그것을 넘어서야 합니다. 우리는 그것을 넘어서고 싶고, 인간이 아는 것을 넘어서고 싶습니다. 그러기 위해서는 다른 유형의 방법이 필요할 것입니다. 그리고 그런 유형의 방법은 우리 AI들이 스스로 무언가를 알아내고 인간이 모르는 새로운 것을 발견하도록 요구할 것입니다. 그리고 저는 그것이 사회에 믿을 수 없을 만큼 흥미롭고 심오한 영향을 미칠 완전히 새로운 AI 시대가 될 것이라고 생각합니다.
(시작 시간: 03:29)
해나 프라이: 네, 좋습니다. 그럼 다른 유명한 AI, 다른 유형의 방법을 사용했던 유명한 알고리즘들에 대해 이야기해 봅시다. 가장 주목할 만한 것은 알파고와 알파제로인데, 물론 이들은 약 10년 전에 세계 최고의 바둑 기사들을 세상을 놀라게 하며 이겼죠, 그렇죠? 그때 사용된 기술과 오늘날 우리가 보는 대규모 언어 모델과 어떻게 다른지 말씀해 주세요.
(시작 시간: 03:51)
데이비드 실버: 특히 알파제로는 최근에 사용되어 온 인간 데이터 접근 방식과는 매우 다릅니다. 왜냐하면 말 그대로 인간 데이터를 전혀 사용하지 않기 때문입니다. 그것이 알파제로의 '제로'입니다. 그래서 이 시스템에는 사전에 프로그래밍된 인간 지식이 말 그대로 전혀 없습니다. 그렇다면 대안은 무엇일까요? 만약 인간을 모방하지 않고 미리 올바른 플레이 방법을 모른다면 어떻게 바둑 지식을 배울 수 있을까요? 글쎄요, 그 방법은 시행착오 학습의 한 형태를 통하는 것인데, 알파제로는 기본적으로 바둑이나 체스, 또는 플레이하고 싶었던 게임을 수백만 번 스스로 두었습니다. 조금씩 알아냈죠. 아, 이런 상황에서 이런 종류의 수를 두면 결국 더 많은 게임에서 이기는구나. 그리고 그것이 더 강해지기 위한 연료로 사용되는 경험의 조각이 됩니다. 그러면 그것과 조금 더 비슷하게 둘 것입니다. 그리고 다음번에는 새로운 것을 발견하고 말하겠죠. 예를 들어, 어떤 새로운 패턴이 있어서 '아, 이 특정 패턴을 사용하면 게임을 더 많이 이기거나 지는구나' 하고요. 그리고 그것이 다음 세대에 정보를 제공하는 식으로 계속됩니다. 그리고 그 경험으로부터의 학습, 에이전트가 스스로 생성한 경험으로부터의 학습은 알파제로에서 완전히 무작위적인 행동에서부터 세계가 알고 있는 가장 강력한 체스와 바둑 플레이 프로그램에 이르기까지 그 진행을 촉진하기에 충분했고, 실제로 충분했습니다.
(시작 시간: 05:09)
해나 프라이: 하지만 그냥 무작위의 빈 상자처럼 시작한 것은 아니었죠? 아무것도 없는 상태에서 바둑 두는 법을 알아낸 셈이죠. 제 말은, 처음에 당신이 바둑 알고리즘을 설계할 때, 바둑 게임을 인코딩해서 데이터베이스로 입력하는 방법을 알아냈었잖아요, 그렇죠?
(시작 시간: 05:26)
데이비드 실버: 네, 맞습니다. 원래 알파고 버전, 2016년에 이세돌을 유명하게 이긴 그 버전 말이죠. 이 알파고 버전은 실제로 시작 단계에서 약간의 인간 데이터를 사용했습니다. 그래서 우리는 기본적으로 인간 프로 기사들의 수 데이터베이스를 입력했고, 그것은 그 인간의 수를 학습하고 소화했으며, 그것이 시작점이 되었습니다. 그런 다음 그 시점부터 경험을 통해 스스로 학습했죠.
(시작 시간: 05:51)
데이비드 실버: 하지만 1년 후에 우리가 발견한 것은 인간 데이터가 필요하지 않았다는 것입니다. 실제로 인간의 수를 완전히 버릴 수 있었고, 우리가 보여준 것은 결과적으로 나온 프로그램이 이 수준의 성능을 회복할 수 있었을 뿐만 아니라, 실제로는 더 잘 작동했고 원래 알파고보다 훨씬 더 빠르게 학습하여 훨씬 더 높은 수준의 성능을 달성할 수 있었다는 것입니다.
(시작 시간: 06:18)
해나 프라이: 정말 이상한 생각이에요. 인간 데이터를 버렸더니 필요 없을 뿐만 아니라 어떤 면에서는 성능을 적극적으로 제한하고 있었다는 것이 정말 이상한 생각이죠.
(시작 시간: 06:31)
데이비드 실버: AI 분야 사람들에게 어려운 교훈 중 하나, 때때로 AI의 쓰디쓴 교훈이라고 불리는 것은, 우리가 인간으로서 축적해온 모든 지식이 정말 중요하다고 믿고 싶어 한다는 것입니다. 우리는 정말 그렇게 믿고 싶어 합니다. 그래서 우리는 그것을 우리 시스템에 입력하고, 우리 알고리즘에 내장하죠. 실제로 일어나는 일은, 그것이 우리로 하여금 아마도 인간 데이터에 맞춰진 방식으로 알고리즘을 설계하게 만들고, 실제로는 스스로 학습하는 데 덜 능숙하게 만든다는 것입니다. 그리고 만약 당신이 인간 데이터를 버리면, 실제로는 시스템이 어떻게 스스로 학습할 수 있는지 배우는 데 더 많은 노력을 기울이게 됩니다. 그리고 그것이 바로 영원히 배우고 또 배울 수 있는 부분입니다.
(시작 시간: 07:12)
해나 프라이: 쓰디쓴 교훈. 어떤 면에서는 인간보다 더 잘 바둑을 둘 수 있는 무언가가 가능하다는 것을 받아들이는 것이라고 할 수 있겠네요. 어떤 면에서는 그 한계를 제거하는 거죠.
(시작 시간: 07:22)
데이비드 실버: 맞습니다. 아시다시피 인간 데이터는 시작하는 데 정말 도움이 되지만, 인간이 해 온 모든 것에는 한계가 있습니다. 그리고 바둑에서도 볼 수 있듯이, 인간이 달성한 최고 성능 수준이 있었고, 우리는 이러한 한계를 돌파해야 합니다. 그리고 알파제로에서는 자체 대국을 통해 스스로 학습하고 점점 더 나아져서 결국 그 한계를 돌파하고 훨씬 더 멀리 나아간 시스템을 구축함으로써 그 한계를 돌파할 수 있었습니다. 그리고 저는 경험의 시대라는 아이디어가 우리가 모든 곳에서 그 한계를 돌파할 수 있게 해주는 방법들을 찾는 것이라고 생각합니다. 우리는 인간이 그토록 놀랍다고 여기는 모든 능력에서 초인적이 되는 AI 시스템을 구축하지만, 그것을 넘어설 방법을 찾는 거죠.
(시작 시간: 08:03)
해나 프라이: 그 인간 피드백 요소 말인데요, 모델에 어느 정도 현실 기반(grounding)을 제공하는 것 같습니다. 지난번에 우리가 이야기했을 때, 현실 기반은 정말 큰 주제였죠. 우리가 살고 있는 세계에 대해 이러한 알고리즘이 개념적 이해를 갖기를 원한다는 아이디어였습니다. 그래서 만약 그 인간 피드백 측면을 제거한다면, 여전히 현실에 기반한 모델을 얻을 수 있을까요?
(시작 시간: 08:14)
데이비드 실버: 저는 거의 반대로 주장하고 싶습니다. 오. 저는 우리가 인간 피드백으로부터 시스템을 훈련시킬 때, 그것은 현실에 기반하지 않는다고 말하고 싶습니다. 그 이유는 기본적으로 RLHF 시스템이 일반적으로 작동하는 방식은, 시스템이 예를 들어 질문에 대한 응답, 즉 답변을 제시하고 평가자가 그것이 좋은지 나쁜지를 말하는 것인데, 시스템이 실제로 그 정보를 가지고 무언가를 하기 전이라는 것입니다. 그러니까 마치 인간이 시스템의 출력을 미리 판단하는 것과 같습니다. 예를 들어, 만약 당신이 LLM에게 케이크 레시피를 묻는다면, 인간 평가자는 시스템이 출력한 레시피를 보고 그 레시피가 좋은지 나쁜지를 판단할 것입니다. 누군가가 실제로 그 레시피로 케이크를 만들어 먹어보기 전에 말이죠. 그런 의미에서 그것은 현실에 기반하지 않습니다. 현실에 기반한 결과는 누군가가 실제로 케이크를 먹고, 그 케이크가 맛있거나 역겨운 경우일 것입니다. 그러면 당신은 '이 케이크는 정말 좋은 케이크였어' 또는 '이 케이크는 나쁜 케이크였어'라고 말하는 현실 기반 피드백을 얻게 됩니다. 그리고 바로 그 현실 기반 피드백이 시스템으로 하여금 반복하고 새로운 것을 발견하게 해줍니다. 왜냐하면, 예를 들어 전문 셰프들이 역겨울 것이라고 추정하지만 실제로는 맛있게 되는 새로운 레시피를 시도해 볼 수 있기 때문입니다.
(시작 시간: 09:09)
해나 프라이: 네, 뭐 몬스터 먼치 머핀 같은 거요.
(시작 시간: 09:10)
데이비드 실버: 맞아요! 우리가 모르는, 세상에 존재했던 가장 맛있는 음식이죠.
(시작 시간: 09:17)
해나 프라이: 네, 흥미롭네요. 왜냐하면 데미스와의 대화에서도 이런 모델들에 어떻게 현실 기반(grounding)이 들어가는지, 어떻게 일종의 개념적 이해를 구축했는지에 대해 들어봤기 때문입니다. 그리고 당신이 말씀하시는 것은 그들이 가진 현실 기반이 어쩌면 일종의 피상적인 수준의 현실 기반이라는 것처럼 들리네요?
(시작 시간: 09:55)
데이비드 실버: 저는 인간 데이터가 인간 경험에 기반한다고 생각합니다. 그래서 마치 LLM들이 인간이 자신들의 실험, 예를 들어 과학 실험을 통해 알아냈을지도 모르는 그 모든 정보를 물려받는 것과 같습니다. 인간이 물 위를 걸으려다 빠졌다는 것을 발견했을 수도 있고, 배를 만들어 그것이 뜨는 것을 발견했을 수도 있죠. 그리고 그 모든 정보는 인간이 예를 들어 과학에서 자신의 실험을 통해 알아냈을 수 있는 정보입니다. 하지만 만약 우리가 실제로 발견을 하고 물 위를 가르는 완전히 새로운 추진 형태나, 완전히 새로운 수학적 아이디어나, 바다를 가르는 완전히 새로운 방법을 발견하는 시스템을 원한다면, 새로운 의학이나 생물학에 대한 새로운 접근 방식 같은 경우, 데이터가 그냥 존재하지 않습니다. 그리고 시스템은 자체적인 실험, 자체적인 시행착오, 그리고 자체적인 현실 기반 피드백을 통해 그것이 좋은 아이디어인지 나쁜 아이디어인지를 스스로 알아내야 합니다.
(시작 시간: 10:52)
해나 프라이: 네, 그런데 알파프루프에 대해 하신 말씀에 정말 동의합니다. 알파제로도 마찬가지고요. 제 생각엔 강화 학습으로 얼마나 멀리 갈 수 있는지를 보여주는 정말 훌륭한 예시들인 것 같아요. 하지만 그것들은 또한 성공에 대한 매우 명확한 척도가 있는 예시들이기도 합니다. 바둑 게임에서 이기거나 지거나, 증명이 맞거나 틀리거나 하죠. 이런 아이디어들이 훨씬 더 복잡하고 실제로는 이런 명확한 척도가 반드시 존재하지 않을 수도 있는 시스템에는 어떻게 적용될 수 있을까요?
(시작 시간: 11:19)
데이비드 실버: 우선, 이 질문이 아마도 제가 이야기하고 있는 강화 학습 방법이나 이런 종류의 경험 기반 방법들이 아직 우리가 모든 AI 시스템에서 하는 모든 것의 주류로 진입하지 못한 이유일 것이라는 점을 인정하고 싶습니다. 따라서 경험의 시대가 도래하려면 이 문제가 해결되어야 하고, 우리는 이에 대한 답을 가져야 합니다. 하지만 제 생각에는 답이 바로 우리 앞에 있을 수도 있습니다. 왜냐하면 실제로 살펴보면 현실 세계에는 셀 수 없이 많은 신호가 포함되어 있기 때문입니다. 세상이 작동하는 방식에는 방대한 수의 신호가 있습니다. 예를 들어 인터넷에서 우리가 하는 모든 것을 보면, '좋아요'나 '싫어요', 이익이나 손실, 또는 당신이 얻을 수 있는 쾌락/고통 신호, 또는 수확량이나 재료의 특성 등 온갖 종류의 다른 숫자들이 경험의 다른 측면들을 나타냅니다. 그래서 우리에게 정말 필요한 것은 적응할 수 있고, '자, 이 상황에서 최적화해야 할 정말 중요한 것은 무엇인가?'라고 말할 수 있는 시스템을 구축하는 방법입니다. 그래서 다른 말로 하자면, 인간이 원하는 것을 명시할 수는 있지만, 그것이 시스템이 완전히 자율적으로 스스로 최적화할 수 있는 여러 다른 숫자의 집합으로 변환되는 시스템을 가질 수 있다면 좋지 않을까요?
(시작 시간: 12:43)
해나 프라이: 네, 그럼 예시를 들어보죠. 제가 올해 더 건강해지고 싶다고 말했다고 가정해 봅시다. 그건 좀 모호하고 불분명하죠. 하지만 여기서 당신이 말씀하시는 것은 그것이 안정 시 심박수나 BMI 또는 무엇이든 간에 일련의 지표로 변환될 수 있고, 그런 다음 그 지표들의 조합이 강화 학습을 위한 보상으로 사용될 수 있다는 것이죠. 제가 제대로 이해했나요?
(시작 시간: 13:00)
데이비드 실버: 완벽하게 맞습니다.
(시작 시간: 13:01)
해나 프라이: 하지만 우리는 하나의 지표에 대해 이야기하는 건가요, 아니면 여기서 조합에 대해 이야기하는 건가요?
(시작 시간: 13:05)
데이비드 실버: 일반적인 아이디어는 인간이 원하는 한 가지, 예를 들어 '내 건강을 최적화하고 싶다' 같은 것이 있고, 그런 다음 시스템이 어떤 보상이 당신을 더 건강하게 만드는 데 도움이 되는지를 스스로 학습할 수 있다는 것입니다. 그래서 시간이 지남에 따라 적응하는 숫자의 조합이 되는 거죠. 그래서 처음에는 '자, 지금 당장은 당신의 안정 시 심박수가 정말 중요해요'라고 말할 수도 있습니다. 그러다가 나중에 '잠깐만요, 저는 그것만 신경 쓰는 게 아니라 제 불안 수준 같은 것도 신경 써요'라는 피드백을 받으면, 그것을 혼합물에 포함시키고 피드백을 기반으로 적응할 수 있습니다. 그래서 이것을 말하는 한 가지 방법은 아주 적은 양의 인간 데이터가 시스템으로 하여금 경험으로부터 방대한 양의 학습을 가능하게 하는 목표를 스스로 생성하도록 허용할 수 있다는 것입니다.
(시작 시간: 13:52)
해나 프라이: 왜냐하면 이것이 바로 정렬(alignment)에 대한 실제 질문이 나오는 지점이기 때문입니다, 그렇죠? 예를 들어, 만약 당신이 '안정 시 심박수를 최소화하는 강화 학습 알고리즘을 만들자'고 말했다면, 꽤 빠르게 0이 좋은 최소화 전략이 될 수 있는데, 이는 목표는 달성하겠지만 당신이 원했던 방식과는 조금 다를 수 있죠. 분명히 그런 시나리오는 정말 피하고 싶을 겁니다. 그렇다면 당신이 선택하는 지표가 추가적인 문제를 일으키지 않을 것이라고 어떻게 확신할 수 있나요?
(시작 시간: 14:24)
데이비드 실버: 이것을 할 수 있는 한 가지 방법은 지금까지 AI의 다른 분야에서 매우 효과적이었던 동일한 답을 활용하는 것입니다. 즉, 그 수준에서는 약간의 인간 입력을 활용할 수 있다는 것입니다. 만약 우리가 최적화하는 것이 인간의 목표라면, 아마도 그 수준에서는 측정하고 말해야 할 것입니다. '자, 인간이 피드백을 주는데, 사실, 불편해지기 시작했어요'라고요. 그리고 사실, 우리가 답을 가지고 있다고 주장하고 싶지는 않고, 이것을 제대로 하고 이런 종류의 것이 안전하다는 것을 확인하기 위해 엄청난 양의 연구가 필요하다고 생각하지만, 실제로는 이런 종류의 안전과 적응 측면에서 특정 방식으로 도움이 될 수 있습니다. 시스템에게 가능한 한 많은 종이 클립을 만들도록 요청했을 때 온 세상을 종이 클립으로 덮어버리는 유명한 예시가 있습니다. 만약 당신에게 시스템이 있는데, 그 시스템의 전반적인 목표가 인간의 웰빙을 지원하는 것이고, 인간으로부터 피드백을 받고 그들의 고통 신호와 행복 신호 등을 이해한다면, 너무 많은 종이 클립을 만들기 시작하고 사람들에게 고통을 주기 시작하는 순간, 그 조합을 조정하고 다른 조합을 선택하여 세상을 종이 클립으로 덮지 않을 무언가를 위해 최적화하기 시작할 것입니다. 아직 거기까지 도달하지는 못했습니다. 하지만 제 생각에는 이것의 일부 버전은 목표 중심 시스템에 대한 이전 접근 방식이 직면했던 일부 정렬 문제를 해결할 뿐만 아니라, 어쩌면 오늘날 우리가 가진 것보다 더 적응력이 뛰어나고 따라서 더 안전할 수도 있습니다.
(시작 시간: 15:51)
해나 프라이: 하지만 AI 세계 밖에서는, 양적 지표를 성공의 척도로 사용하는 데 문제가 있나요? 제 말은, 시험 점수나 GDP, 또는 너무 신중하게 집중하다가 결국 지표의 폭정에 빠지게 되는 수많은 문제들에 대해 생각하고 있습니다.
(시작 시간: 16:11)
데이비드 실버: 저는 인간 세계에서 지표를 무심코 추구하면 종종 바람직하지 않은 결과로 이어진다는 데 가장 먼저 동의할 것입니다. 동시에, 인간 노력의 전 세계는 우리가 어떤 것들을 위해 최적화하는 것을 중심으로 조직되어 있습니다. 만약 우리가 최적화할 수 있는 것이 아무것도 없다면, 우리는 결코 진보할 수 없을 것입니다. 우리에게는 진보를 이끄는 온갖 종류의 신호와 지표 등이 있고, 그러면 사람들은 '아, 어쩌면 저것은 올바른 지표가 아닐지도 몰라'라고 말하고 그것을 조정합니다.
(시작 시간: 16:40)
해나 프라이: 그렇다면 문제의 일부는 현재 AI와의 상호작용이 시간 내에 정말로 제한되어 있다는 것인가요? 목표가 무엇일지에 대한 장기적인 학습이나 조정 같은 것이 없다는 거죠. 일단 GDP가 당신이 추구하는 것이라고 결정하면, GDP는 영원하고 변화는 없나요?
(시작 시간: 17:00)
데이비드 실버: 저는 그것이 절대적으로 맞다고 생각합니다. 오늘날 우리가 가진 종류의 AI는 생명이 없습니다. 아시다시피, 동물이나 인간이 수년, 수십 년 동안 계속되고 시간이 지남에 따라 계속 적응할 수 있는 방식의 자체적인 경험 흐름을 가진 그런 것이 아닙니다. 그리고 그것은 변해야 합니다. 그리고 그것이 변해야 하는 이유 중 하나는 우리가 시간이 지남에 따라 계속 배우고 배우고 배우며, 적응하고, 우리가 정말로 원하는 종류의 결과를 더 잘 달성하는 방법을 이해하는 시스템을 가질 수 있도록 하기 위함입니다.
(시작 시간: 17:25)
해나 프라이: 인간 데이터로부터 상당한 잠재력을 가진 알고리즘을 분리하는 것에 대해 상당히 위험한 점이 있을까요?
(시작 시간: 17:37)
데이비드 실버: 확실히 위험이 있고 확실히 이점도 있습니다. 그리고 저는 우리가 경험의 시대로 가는 이 여정에서 다음에 올 이 단계들을 밟는 데 있어서 이것을 매우 진지하게 받아들이고 극도로 신중해야 한다고 생각합니다. 그리고 제가 이 포지션 페이퍼를 쓴 이유 중 하나는 사람들이 이 전환이 올 것이고 그 결과가 있을 것이며 이러한 많은 결정에 대해 신중한 생각이 필요하다는 것을 인식하지 못하고 있다고 느끼기 때문입니다. 그리고 너무나 많은 사람들이 여전히 인간 데이터 접근 방식에 대해서만 생각하고 있다는 사실은 충분한 사람들이 이런 종류의 질문을 진지하게 받아들이지 않고 있다는 것을 의미합니다.
(시작 시간: 18:18)
해나 프라이: 지난번에 이 팟캐스트에서 당신과 이야기했을 때, 당신이 막 썼던 다른 포지션 페이퍼인 '보상이면 충분하다(Reward is Enough)'에 대해 이야기했었죠. 본질적으로 강화 학습만 있으면 AGI로 나아가는 데 필요한 전부라고 말씀하셨습니다. 여전히 그렇다고 생각하시나요?
(시작 시간: 18:32)
데이비드 실버: 저는 이것에 답하는 방법은 인간 데이터가 우리에게 유리한 출발점을 줄 수 있다고 말하는 것일 거라고 생각합니다. 비유를 빌리자면, 우리가 지구에서 발견한 화석 연료와 같습니다. 그리고 아시다시피, 이 모든 인간 데이터는 그냥 거기에 있고, 그런 다음 우리는 그것을 채굴하여 우리 LLM에서 태우는 셈입니다. 그리고 그것은 그들에게 공짜로 얻는 특정 수준의 성능을 제공합니다. 하지만 비유적으로 말하자면, 모든 화석 연료가 사라진 후에도 세상을 계속 움직이게 할 일종의 지속 가능한 연료가 필요합니다. 그리고 저는 그것이 강화 학습이라고 생각합니다. 그것은 지속 가능한 연료이며, 계속 생성하고 사용하고 그것으로부터 배우고 더 많이 생성하고 그것으로부터 배우는 이 경험입니다. 그것이 정말로 AI의 진보를 이끌 과정입니다. 그리고 저는 결코 인간 데이터로 이루어진 것을 폄하하고 싶지 않습니다. 저는 그것이 훌륭하다고 생각합니다. 우리가 지금 가진 AI는 놀랍고 경이로운 것들입니다. 저는 그것들을 사랑하고 함께 작업하는 것을 즐기며 제 스스로도 연구합니다. 하지만 그것은 단지 시작일 뿐입니다.
(시작 시간: 19:30)
해나 프라이: 데이브, 정말 감사합니다. 놀라웠어요.
데이비드 실버: 감사합니다. 감사합니다. 언제나 정말, 정말 재미있어요.
해나 프라이: 물론, 현재 진행 중인 이 엄청난 양의 진보가 있습니다. 하지만 멈춰서 생각해보면, AI에 대한 아이디어의 다양성이 실제로 좁혀져 왔습니다. 제 말은, 멀티모달 모델의 성공은 너무나 빨랐고, 너무나 심오했으며, 대부분의 사람들이 예상했던 것 이상이어서 어떤 면에서는 더 넓은 대화에서 많은 산소를 빨아들였습니다. 그리고 우리가 사용 가능한 인간 데이터의 한계에 도달했다는 이런 속삭임들을 지금 계속해서 듣고 있다는 점이 주목할 만합니다. 그리고 물론, AI를 인간 데이터로부터 분리하는 이 접근 방식에는 위험이 따릅니다. 신중한 생각과 주의가 필요한 온갖 영역이 있죠. 하지만 데이비드가 거기서 말한 것에 꽤 설득되지 않을 수 없습니다. 만약 우리가 정말로 초인적인 지능을 원한다면, 어쩌면 이제 인간으로부터 한 걸음 물러설 때일지도 모릅니다.
(시작 시간: 20:31)
해나 프라이: 여러분은 저, 해나 프라이 교수와 함께하는 Google DeepMind 팟캐스트를 듣고 계셨습니다. 그리고 가시기 전에, 오늘 여러분을 위한 아주 특별한 선물이 있습니다. 알파고의 배후 인물인 데이비드 실버와, 알파고와 처음으로 마주했던 프로 바둑 기사인 판 후이의 대화입니다.
(타이틀 전환: 데이비드 실버, 해나 프라이, 판 후이 얼굴 화면 분할)
(시작 시간: 20:50)
해나 프라이: 10년 전, 이세돌을 상대로 한 매우 유명한 4대 1 승리보다 조금 전에, 판 후이는 당신의 알고리즘을 상대로 자신의 실력을 시험한 최초의 프로 바둑 기사가 되었습니다. 함께 해주셔서 정말 감사합니다, 판 후이.
(시작 시간: 21:04)
판 후이: 오, 감사합니다, 감사합니다. 저에게는 매우 특별한 경험입니다.
(시작 시간: 21:07)
해나 프라이: 그와 이야기한 지 얼마나 되었나요?
(시작 시간: 21:08)
데이비드 실버: 꽤 몇 년 되었네요. 네, 판 후이를 만나서 정말 반갑습니다. 네, 알파고 개발에 그렇게 큰 역할을 했던 판 후이를 다시 만나게 되어 정말 놀랍습니다. 정말 진심으로 기쁩니다.
(시작 시간: 21:22)
해나 프라이: 네, 그래서 몇 년 전에 있었던 그 경기에 대해 묻고 싶습니다. 왜냐하면 지금 와서 그 전체 역사를 보면 거의 예정된 결론처럼 보이기 때문입니다. 하지만 그때는, 데이비드 당신도 꽤 긴장했겠죠, 그리고 판 후이 당신은 어땠나요?
(시작 시간: 21:38)
판 후이: 데미스가 흥미로운 바둑 프로젝트에 대해 이메일로 알려줬던 첫 순간을 기억합니다. 알파고와 처음 두었을 때 첫 게임에서 졌던 것도 아직 기억합니다. 뭔가 이상한 느낌이 들었어요. 두 번째 게임에서 졌을 때도 기억합니다. 두려움을 느꼈어요. 왜냐하면 아마 이 프로그램이나 AI를 상대로는 절대 이길 수 없을 것 같다는 느낌이 들었기 때문입니다. 그리고 다섯 번째 게임, 마지막 게임에서 졌을 때, 제 바둑 세계가 무너진 것 같았습니다. 하지만 어쩌면 이것이 좋은 순간일 수도 있었습니다. 제 새로운 바둑 세계가 열렸으니까요. 그래서 저는 알파고가 저에게 기술적으로 새로운 것을 가르쳐 준 것뿐만이 아니라고 생각합니다. 단지 기술만이 아니고요. 어쩌면 그것은 제게 세상을 알려주고, 제 마음을 열어주고, 제 생각을 바꿔준 것입니다. 그 후로 저에게는, 오늘날에도, 저에게는 '나는 할 수 없다'거나 '나는 할 수 있다' 같은 질문을 결코 하지 않습니다. 제 질문은 항상 '나는 원한다' 또는 '나는 원하지 않는다'입니다. 그래서, 저는 이것이 AI나 알파고가 저에게 가르쳐 준 것이라고 생각합니다.
(시작 시간: 22:50)
해나 프라이: 그 대결 전에 그 경기 전에 말이죠. 제 말은, 당신의 알고리즘 성능에 대해 얼마나 확신했었나요?
(시작 시간: 23:00)
데이비드 실버: 우리는 정말 확신하지 못했습니다. 우리가 어디에 있는지 판단하기가 너무 어려웠습니다. 왜냐하면 우리는 딥마인드에 있는 선수들을 넘어섰다는 것을 알았고, 이전에 작성된 모든 프로그램을 넘어섰다는 것을 알았지만, 그 너머에는 판 후이와 같은 프로 선수 수준까지 너무나 큰 격차가 있었기 때문입니다. 그리고 우리는 몰랐습니다. 우리가 그 격차 어딘가에 있는지, 아니면 그 격차를 넘어섰는지 말이죠. 우리는 정말 몰랐습니다. 그래서 이 경기는 우리가 우리의 성능 수준을 측정할 수 있는 첫 번째 기회였습니다. 그리고 우리 중 누구도, 만약 우리가 5게임을 모두 졌더라도 놀라지 않았을 것이고, 그래서 5게임을 모두 이긴 것은 매우 즐거운 놀라움이었습니다. 그리고, 네, 우리는 그저, 저는 진심으로, 그건 마치 세상이 어느 쪽으로든 갈라질 수 있는 순간들 중 하나였고, 우리는 경기가 있기 전까지는 몰랐습니다.
(시작 시간: 23:51)
해나 프라이: 하지만 물론, 판 후이, 이 알고리즘은 그 이후로 발전했고, 사실 당신의 도움으로, 당신의 경기 이후에 당신은 팀에 합류하여 그것을 더욱 발전시키는 데 지원했습니다. 하지만 그 초기 버전은, 그것과 경기하는 것이 어땠나요? 인간 상대를 두는 것과 근본적으로 다른 느낌이었나요?
(시작 시간: 24:08)
판 후이: 아시다시피, 저는 알파고 이전에 다른 프로그램과도 두어봤습니다. 그래서 제가 다른 프로그램과 둘 때는, 음, 이건 프로그램이구나 하는 느낌이 듭니다. 왜냐하면 그들은 인간처럼 두지 않기 때문입니다. 하지만 알파고는, 뭔가 매우 이상한 느낌이 들었습니다. 마치, 어떤 때는 정말 인간처럼 느껴졌습니다.
(시작 시간: 24:24)
해나 프라이: 그때의 영향은 어땠나요, 알파고와 알파제로가 바둑 커뮤니티에 미친 영향 말입니다. 받아들이는 과정이 필요했나요, 아니면 처음부터 긍정적이었나요?
(시작 시간: 24:36)
판 후이: 우선, 제가 알파고에게 졌을 때, 모든 바둑 커뮤니티, 아무도 이것이 사실이라고 믿지 않았습니다. 왜냐하면, 네, 저는 유럽 챔피언일 뿐이니까요. 세계 챔피언은 아니죠. 하지만 알파고가 이세돌을 이겼을 때, 모든 바둑 커뮤니티는 다른 것을 보았습니다. 왜냐하면 알파고는 정말, 정말 잘 두었기 때문입니다. 두 번째 게임에서 37수를 기억합니다. 정말 아름다운 수였습니다. 정말 아름다웠죠. 창의적이었고, 매우 창의적이었습니다. 인간이라면 절대 그런 수를 두지 않았을 것입니다. 그 수 이후로 바둑 세계의 모든 것이 변했습니다. 왜냐하면 우리에게는 모든 것이 가능하기 때문입니다. 오늘날에는 심지어 학생들, 바둑 학생들도 AI를 사용하여 배웁니다. 그래서, 네, 저는 이것이 모든 바둑 커뮤니티에게 정말, 정말 좋은 일이라고 생각합니다. 저는 이것이 단지 바둑 커뮤니티만을 위한 것이 아니라, 세상 전체를 위한 것이라고 생각합니다. 모든 것을 위해서요.
(시작 시간: 25:36)
해나 프라이: 정말 감사합니다. 그것은 정말 특별한 대접이었습니다. 특히 큰 기념일이 다가오는 것을 감안하면요.
(시작 시간: 25:44)
데이비드 실버: 다시 만나서 정말 반갑고, 네, 와주셔서 감사합니다. 그리고 알파고에 대해 해주신 모든 것에 감사합니다. 저는 당신 없이는 같지 않았을 것이라고 생각합니다. 당신의 조언이 없었다면 끔찍한 실수를 저질렀을 것이라고 생각합니다. 우리를 도와주셔서 감사합니다.
(시작 시간: 26:00)
판 후이: 감사합니다, 데이브.
(끝 시간: 26:00.839)
일반인이 발전느낄려면 최소 십년걸릴거같은데
일반인들도 알파고급으로 놀라기까지 1년도 안 걸릴듯