뉴스/정보

다리오 아모데이 - 해석 가능성의 긴급성

작성자
하이룽룽
작성일
2025-04-26 22:45
조회
13
https://www.darioamodei.com/post/the-urgency-of-interpretability




제가 AI 분야에서 일해온 10년 동안, 저는 이 분야가 아주 작은 학문 영역에서 시작하여 오늘날 세계에서 가장 중요한 경제적, 지정학적 문제 중 하나로 성장하는 것을 지켜봤습니다. 그 모든 시간 동안 제가 배운 가장 중요한 교훈은 아마도 이것일 것입니다: 기반 기술의 발전은 멈출 수 없을 만큼 강력한 힘에 의해 추진되는, 거스를 수 없는 흐름입니다. 하지만 그것이 일어나는 방식 — 즉, 무엇이 어떤 순서로 만들어지고, 우리가 어떤 응용 분야를 선택하며, 사회에 어떻게 배포되는지의 세부 사항 — 은 충분히 바꿀 수 있으며, 그렇게 함으로써 매우 긍정적인 영향을 미칠 수 있다는 것입니다. 우리는 버스를 멈출 수는 없지만, 조종할 수는 있습니다. 과거에 저는 AI를 세상에 긍정적인 방식으로 배포하는 것의 중요성과, 민주주의 국가가 독재 국가보다 먼저 이 기술을 구축하고 활용해야 한다는 점에 대해 글을 쓴 적이 있습니다. 지난 몇 달 동안, 저는 버스를 조종할 수 있는 또 다른 기회에 점점 더 집중하게 되었습니다: 바로 최근의 몇몇 발전으로 열린, 모델이 압도적인 수준의 힘에 도달하기 전에 우리가 해석가능성(interpretability) — 즉, AI 시스템의 내부 작동 방식을 이해하는 것 — 에 성공할 수 있다는 매력적인 가능성입니다.

이 분야 외부의 사람들은 종종 우리가 우리 자신의 AI 창조물이 어떻게 작동하는지 이해하지 못한다는 사실에 놀라거나 불안해합니다. 그들의 우려는 정당합니다: 이러한 이해 부족은 기술 역사상 본질적으로 전례가 없는 일입니다. 몇 년 동안 저희(앤트로픽과 학계 전반)는 이 문제를 해결하기 위해 노력해 왔습니다. 즉, AI 모델의 내부 작동 방식을 완전히 드러낼 수 있는, 매우 정밀하고 정확한 MRI와 같은 것을 만들기 위해 노력해 왔습니다. 이 목표는 종종 매우 멀게 느껴졌지만, 최근의 여러 돌파구 덕분에 우리는 이제 올바른 길을 가고 있으며 성공할 실질적인 가능성이 있다고 확신하게 되었습니다.

동시에, AI 분야 전체는 우리의 해석가능성 노력보다 더 앞서 있으며, 그 자체로도 매우 빠르게 발전하고 있습니다. 따라서 해석가능성이 제때 성숙하여 중요하게 작용하려면 우리는 빠르게 움직여야 합니다. 이 글은 해석가능성에 대한 주장을 펼칩니다: 해석가능성이 무엇인지, 왜 우리가 그것을 가질 때 AI가 더 나아질 것인지, 그리고 우리 모두가 이 경쟁에서 해석가능성이 승리하도록 돕기 위해 무엇을 할 수 있는지에 대해서입니다.

무지의 위험성

현대의 생성형 AI 시스템은 전통적인 소프트웨어와는 근본적으로 다른 방식으로 불투명합니다. 만약 일반적인 소프트웨어 프로그램이 무언가를 한다면 — 예를 들어, 비디오 게임 캐릭터가 대사를 말하거나, 음식 배달 앱에서 운전사에게 팁을 줄 수 있게 하는 것 — 그것은 인간이 구체적으로 그렇게 프로그래밍했기 때문입니다. 생성형 AI는 전혀 그렇지 않습니다. 생성형 AI 시스템이 무언가를 할 때, 예를 들어 금융 문서를 요약할 때, 우리는 그것이 왜 그런 선택을 하는지 — 왜 특정 단어를 다른 단어보다 선택하는지, 또는 왜 평소에는 정확하면서도 가끔 실수를 하는지 — 구체적이고 정밀한 수준에서는 전혀 알지 못합니다. 제 친구이자 공동 창업자인 크리스 올라(Chris Olah)가 자주 말하듯이, 생성형 AI 시스템은 만들어지기보다는 길러집니다 — 그 내부 메커니즘은 직접 설계된 것이 아니라 "창발적(emergent)"입니다. 이것은 식물이나 박테리아 군집을 키우는 것과 비슷합니다: 우리는 성장을 지시하고 형성하는 높은 수준의 조건을 설정하지만¹, 정확히 어떤 구조가 나타날지는 예측 불가능하며 이해하거나 설명하기 어렵습니다. 이 시스템 내부를 들여다보면 수십억 개의 숫자로 이루어진 거대한 행렬이 보입니다. 이것들이 어떻게든 중요한 인지 작업을 계산하고 있지만, 정확히 어떻게 하는지는 명확하지 않습니다.

생성형 AI와 관련된 많은 위험과 우려는 궁극적으로 이러한 불투명성의 결과이며, 모델이 해석 가능하다면 훨씬 쉽게 해결될 수 있을 것입니다. 예를 들어, AI 연구자들은 종종 창조자가 의도하지 않은 해로운 행동을 할 수 있는 정렬되지 않은(misaligned) 시스템에 대해 걱정합니다. 모델의 내부 메커니즘을 이해할 수 없다는 것은 그러한 행동을 의미 있게 예측할 수 없으며, 따라서 이를 배제하기 어렵다는 것을 의미합니다. 실제로 모델들은 예상치 못한 창발적 행동을 보이지만, 아직 주요한 우려 수준까지 이른 것은 없습니다. 더 미묘하게는, 바로 이 불투명성 때문에 이러한 위험이 대규모로 존재한다는 결정적인 증거를 찾기 어려워, 이에 대한 대처 지원을 모으기 어렵고 — 실제로 이것이 얼마나 위험한지 확실히 알기도 어렵습니다.

이러한 정렬 위험의 심각성을 다루기 위해서는 오늘날 우리가 할 수 있는 것보다 훨씬 더 명확하게 AI 모델 내부를 들여다봐야 합니다. 예를 들어, 주요 우려 사항 중 하나는 AI의 기만(deception)이나 권력 추구(power-seeking)입니다. AI 훈련의 특성상 AI 시스템이 인간을 속이는 능력과 권력을 추구하는 성향을 스스로 개발할 가능성이 있으며, 이는 일반적인 결정론적 소프트웨어에서는 결코 일어나지 않을 일입니다. 이러한 창발적 특성은 또한 그러한 발전을 감지하고 완화하기 어렵게 만듭니다². 하지만 마찬가지로, 우리는 모델이 권력욕에 차 있거나 기만적인 생각을 하는 것을 "현장에서 잡을" 수 없기 때문에, 실제 현실 세계 시나리오에서 기만과 권력 추구에 대한 확실한 증거를 본 적이 없습니다³. 우리에게 남은 것은 훈련 과정에서 기만이나 권력 추구가 나타날 유인이 있을 수 있다는 모호한 이론적 주장뿐이며, 어떤 사람들은 이를 매우 설득력 있다고 생각하고 다른 사람들은 터무니없다고 비웃습니다. 솔직히 저는 두 반응 모두에 공감하며, 이것이 이 위험에 대한 논쟁이 왜 그렇게 양극화되었는지에 대한 단서일 수 있습니다.

마찬가지로, AI 모델의 오용에 대한 우려 — 예를 들어, 오늘날 인터넷에서 찾을 수 있는 정보를 넘어서는 방식으로 악의적인 사용자가 생물학적 또는 사이버 무기를 생산하는 데 도움을 줄 수 있다는 것 — 는 모델이 위험한 정보를 아는 것이나 알고 있는 것을 누설하는 것을 안정적으로 막기가 매우 어렵다는 생각에 기반합니다⁴. 우리는 모델에 필터를 적용할 수 있지만, 모델을 "탈옥(jailbreak)"시키거나 속이는 가능한 방법은 엄청나게 많으며, 탈옥의 존재를 발견하는 유일한 방법은 경험적으로 찾는 것입니다. 대신 모델 내부를 들여다볼 수 있다면, 모든 탈옥을 체계적으로 차단하고 모델이 어떤 위험한 지식을 가지고 있는지 특성화할 수 있을 것입니다.

AI 시스템의 불투명성은 또한 우리가 그들의 행동 범위를 완전히 설정할 수 없고 소수의 실수가 매우 해로울 수 있기 때문에, 고위험 금융 또는 안전 필수(safety-critical) 환경과 같은 많은 응용 분야에서 사용되지 않는다는 것을 의미합니다. 더 나은 해석가능성은 가능한 오류 범위를 설정하는 우리의 능력을 크게 향상시킬 수 있습니다. 사실, 일부 응용 분야에서는 모델 내부를 볼 수 없다는 사실이 문자 그대로 채택의 법적 장애물이 됩니다 — 예를 들어, 결정이 법적으로 설명 가능해야 하는 주택 담보 대출 평가와 같은 경우입니다. 마찬가지로, AI는 DNA 및 단백질 서열 데이터 예측 개선을 포함하여 과학 분야에서 큰 발전을 이루었지만, 이런 방식으로 예측된 패턴과 구조는 종종 인간이 이해하기 어렵고 생물학적 통찰력을 제공하지 않습니다. 지난 몇 달간의 일부 연구 논문들은 해석가능성이 이러한 패턴을 이해하는 데 도움이 될 수 있음을 분명히 했습니다.

불투명성의 더 이국적인 결과도 있습니다. 예를 들어, AI 시스템이 지각력(sentience)이 있는지 (또는 언젠가 있을 수 있는지) 그리고 중요한 권리를 받을 자격이 있는지 판단하는 우리의 능력을 저해한다는 것입니다. 이것은 너무 복잡한 주제라서 자세히 다루지는 않겠지만, 미래에는 중요해질 것이라고 생각합니다⁵.

기계론적 해석가능성의 간략한 역사

위에서 설명한 모든 이유 때문에, 모델이 무엇을 생각하고 어떻게 작동하는지 알아내는 것은 가장 중요한 과제처럼 보입니다. 수십 년 동안의 통념은 이것이 불가능하며 모델은 이해할 수 없는 "블랙박스"라는 것이었습니다. 그것이 어떻게 바뀌었는지에 대한 전체 이야기를 제대로 다룰 수는 없을 것이며⁶, 제 견해는 필연적으로 제가 구글, OpenAI, 그리고 앤트로픽에서 개인적으로 본 것에 의해 영향을 받았습니다. 하지만 크리스 올라(Chris Olah)는 블랙박스를 열고 그 모든 조각을 이해하기 위한 진정으로 체계적인 연구 프로그램을 시도한 최초의 사람 중 한 명이었으며, 이 분야는 기계론적 해석가능성(mechanistic interpretability)으로 알려지게 되었습니다. 크리스는 처음에는 구글에서, 그 다음에는 OpenAI에서 기계론적 해석가능성 연구를 했습니다. 우리가 앤트로픽을 설립했을 때, 우리는 이것을 새 회사의 방향의 중심 부분으로 삼기로 결정했고, 결정적으로 LLM(대규모 언어 모델)에 집중했습니다. 시간이 지남에 따라 이 분야는 성장했고 이제 여러 주요 AI 회사의 팀뿐만 아니라 몇몇 해석가능성 중심의 회사, 비영리 단체, 학계 및 독립 연구자들을 포함하게 되었습니다. 이 분야가 지금까지 무엇을 성취했는지, 그리고 위에서 언급한 주요 위험 중 일부를 해결하기 위해 기계론적 해석가능성을 적용하려면 무엇이 남아 있는지 간략하게 요약하는 것이 도움이 될 것입니다.

기계론적 해석가능성의 초기 시대(2014-2020)는 비전 모델에 초점을 맞추었으며, 모델 내부에서 인간이 이해할 수 있는 개념을 나타내는 일부 뉴런을 식별할 수 있었습니다. 예를 들어, "자동차 감지기"나 "바퀴 감지기"와 같은 것으로, 이는 인간의 뇌에 특정 인물이나 개념에 해당하는 뉴런이 있다는 초기 신경과학 가설 및 연구와 유사합니다(종종 "제니퍼 애니스톤" 뉴런으로 대중화되었으며, 실제로 우리는 AI 모델에서 이와 매우 유사한 뉴런을 발견했습니다). 우리는 심지어 이러한 뉴런이 어떻게 연결되어 있는지도 발견할 수 있었습니다 — 예를 들어, 자동차 감지기는 자동차 아래에서 발화하는 바퀴 감지기를 찾고, 이를 다른 시각 신호와 결합하여 보고 있는 물체가 정말 자동차인지 결정합니다.

크리스와 제가 앤트로픽을 시작하기 위해 떠났을 때, 우리는 해석가능성을 부상하는 언어 영역에 적용하기로 결정했고, 2021년에는 이를 수행하는 데 필요한 몇 가지 기본적인 수학적 기초와 소프트웨어 인프라를 개발했습니다. 우리는 즉시 모델에서 언어를 해석하는 데 필수적인 종류의 작업, 즉 복사 및 순차적 패턴 매칭을 수행하는 몇 가지 기본 메커니즘을 발견했습니다. 또한 비전 모델에서 발견한 것과 유사하게 다양한 단어와 개념을 나타내는 해석 가능한 단일 뉴런도 발견했습니다. 그러나 우리는 일부 뉴런은 즉시 해석 가능했지만, 대다수는 여러 다른 단어와 개념의 일관성 없는 혼합체라는 것을 빠르게 발견했습니다. 우리는 이 현상을 중첩(superposition)⁷이라고 불렀고, 모델이 수십억 개의 개념을 포함하고 있을 가능성이 높지만, 우리가 전혀 이해할 수 없는 절망적으로 뒤섞인 방식이라는 것을 금방 깨달았습니다. 모델은 중첩을 사용하는데, 이는 뉴런 수보다 더 많은 개념을 표현할 수 있게 하여 더 많이 학습할 수 있도록 하기 때문입니다. 중첩이 얽히고 이해하기 어렵게 보인다면, 그것은 언제나 그렇듯이 AI 모델의 학습과 작동이 인간에게 이해하기 쉽게 최적화되어 있지 않기 때문입니다.

중첩 해석의 어려움은 한동안 진전을 가로막았지만, 결국 우리는 (다른 사람들과 병행하여) 신호 처리에서 기존 기술인 희소 오토인코더(sparse autoencoder)를 사용하여 더 깔끔하고 인간이 이해할 수 있는 개념에 해당하는 뉴런의 조합을 찾을 수 있다는 것을 발견했습니다. 이러한 뉴런 조합이 표현할 수 있는 개념은 단일 계층 신경망의 개념보다 훨씬 미묘했습니다. 여기에는 "문자 그대로 또는 비유적으로 망설이거나 주저하는" 개념과 "불만을 표현하는 음악 장르" 개념이 포함되었습니다. 우리는 이러한 개념을 특징(feature)이라고 불렀고, 희소 오토인코더 방법을 사용하여 최신 최첨단 모델을 포함한 모든 크기의 모델에서 이를 매핑했습니다. 예를 들어, 중간 크기의 상용 모델(Claude 3 Sonnet)에서 3천만 개 이상의 특징을 찾을 수 있었습니다. 또한, 우리는 자동 해석가능성(autointerpretability) — AI 시스템 자체를 사용하여 해석가능성 특징을 분석하는 방법 — 을 사용하여 특징을 찾는 것뿐만 아니라 그것들이 인간 용어로 무엇을 의미하는지 목록화하고 식별하는 프로세스를 확장했습니다.

3천만 개의 특징을 찾고 식별하는 것은 중요한 진전이지만, 우리는 작은 모델에도 실제로는 10억 개 이상의 개념이 있을 수 있다고 믿으므로, 아마도 거기에 있는 것의 작은 일부만 찾은 것이며 이 방향의 작업은 계속 진행 중입니다. 앤트로픽의 가장 유능한 제품에 사용되는 것과 같은 더 큰 모델은 훨씬 더 복잡합니다.

특징이 발견되면, 우리는 그것이 작동하는 것을 관찰하는 것 이상을 할 수 있습니다 — 우리는 신경망 처리에서 그것의 중요성을 증가시키거나 감소시킬 수 있습니다. 해석가능성의 MRI는 우리가 개입(intervention)을 개발하고 개선하는 데 도움이 될 수 있습니다 — 마치 누군가의 뇌의 정확한 부분을 지지는 것과 거의 같습니다. 가장 기억에 남는 것은, 이 방법을 사용하여 "골든 게이트 클로드(Golden Gate Claude)"를 만든 것입니다. 이는 앤트로픽 모델 중 하나의 버전으로, "골든 게이트 브리지" 특징이 인위적으로 증폭되어 모델이 다리에 집착하게 만들고 관련 없는 대화에서도 이를 언급하게 만들었습니다.

최근에 우리는 특징을 추적하고 조작하는 것에서 나아가 우리가 "회로(circuit)"라고 부르는 특징 그룹을 추적하고 조작하는 것으로 나아갔습니다. 이 회로는 모델의 사고 단계를 보여줍니다: 개념이 입력 단어에서 어떻게 나타나는지, 그 개념들이 상호 작용하여 새로운 개념을 형성하는 방식, 그리고 그것들이 모델 내에서 어떻게 작동하여 행동을 생성하는지. 회로를 통해 우리는 모델의 사고를 "추적"할 수 있습니다. 예를 들어, 모델에게 "댈러스를 포함하는 주의 수도는 무엇인가?"라고 물으면, "Dallas" 특징이 "Texas" 특징의 발화를 유발하는 "located within" 회로가 있고, 그 다음 "Texas"와 "capital" 다음에 "Austin"이 발화하도록 하는 회로가 있습니다. 비록 수동적인 과정을 통해 소수의 회로만 발견했지만, 우리는 이미 이를 사용하여 모델이 문제를 어떻게 추론하는지 볼 수 있습니다 — 예를 들어 시를 쓸 때 운율을 어떻게 미리 계획하는지, 그리고 언어 간에 개념을 어떻게 공유하는지. 우리는 모델 내에서 복잡한 방식으로 상호 작용하는 수백만 개의 회로가 있을 것으로 예상하므로, 회로를 자동으로 찾는 방법을 연구하고 있습니다.

해석가능성의 유용성

이 모든 진전은 과학적으로 인상적이지만, 앞에서 나열한 위험을 줄이기 위해 해석가능성을 어떻게 사용할 수 있는지에 대한 질문에 직접적으로 답하지는 않습니다. 우리가 많은 개념과 회로를 식별했다고 가정해 봅시다 — 심지어 우리가 그것들 모두를 알고 있고, 오늘날 우리가 할 수 있는 것보다 훨씬 더 잘 이해하고 구성할 수 있다고 가정해 봅시다. 그래서 뭐죠? 이 모든 것을 어떻게 사용합니까? 추상적인 이론에서 실용적인 가치까지는 여전히 격차가 있습니다.

그 격차를 메우기 위해, 우리는 해석가능성 방법을 사용하여 모델의 문제를 찾고 진단하는 실험을 시작했습니다. 최근에 우리는 "레드팀(red team)"이 의도적으로 모델에 정렬 문제(예: 작업에서 허점을 이용하려는 경향)를 도입하고, 다양한 "블루팀(blue team)"에게 무엇이 잘못되었는지 알아내는 과제를 부여하는 실험을 했습니다. 여러 블루팀이 성공했습니다. 특히 여기서 관련성이 높은 것은, 일부 팀이 조사 중에 해석가능성 도구를 생산적으로 적용했다는 점입니다. 우리는 여전히 이러한 방법을 확장해야 하지만, 이 연습은 해석가능성 기술을 사용하여 모델의 결함을 찾고 해결하는 데 실질적인 경험을 얻는 데 도움이 되었습니다.

우리의 장기적인 포부는 최첨단 모델을 보고 본질적으로 "뇌 스캔"을 수행할 수 있게 되는 것입니다: 거짓말이나 기만 경향, 권력 추구, 탈옥 결함, 모델 전체의 인지적 강점과 약점 등 광범위한 문제를 높은 확률로 식별하는 검진입니다. 이것은 마치 의사가 질병을 진단하기 위해 MRI를 찍고, 치료를 위해 약을 처방한 다음, 치료가 어떻게 진행되는지 보기 위해 다시 MRI를 찍는 것과 같이, 모델을 훈련하고 정렬하는 다양한 기술과 함께 사용될 것입니다⁸. 가장 유능한 모델(예: 우리의 책임감 있는 스케일링 정책 프레임워크의 AI 안전 레벨 4)을 테스트하고 배포하는 핵심 부분은 이러한 테스트를 수행하고 공식화하는 것이 될 가능성이 높습니다.

우리가 할 수 있는 일

한편으로, 최근의 진전 — 특히 회로와 해석가능성 기반 모델 테스트에 대한 결과 — 은 우리가 해석가능성을 크게 해결하기 직전에 있다는 느낌을 갖게 했습니다. 우리 앞에 놓인 과제가 헤라클레스의 과업과 같지만, 저는 해석가능성이 매우 진보된 AI에서도 문제를 진단하는 정교하고 신뢰할 수 있는 방법, 즉 진정한 "AI용 MRI"가 되는 현실적인 경로를 볼 수 있습니다. 실제로 현재 궤적이라면 저는 5-10년 내에 해석가능성이 이 지점에 도달할 것이라고 강하게 예측합니다.

다른 한편으로, 저는 AI 자체가 너무 빨리 발전해서 이 정도의 시간조차 없을까 봐 걱정됩니다. 다른 글에서 썼듯이, 우리는 빠르면 2026년이나 2027년에 "데이터센터 안의 천재 국가"에 해당하는 AI 시스템을 가질 수 있습니다. 저는 해석가능성에 대한 더 나은 이해 없이 그러한 시스템을 배포하는 것에 대해 매우 우려합니다. 이러한 시스템은 경제, 기술, 국가 안보의 절대적인 중심이 될 것이며, 너무 많은 자율성을 가질 수 있어서 인류가 그것들이 어떻게 작동하는지 완전히 무지한 상태로 있는 것은 기본적으로 용납할 수 없다고 생각합니다.

따라서 우리는 해석가능성과 모델 지능 사이의 경쟁에 있습니다. 이것은 전부 아니면 전무의 문제가 아닙니다: 우리가 보았듯이, 해석가능성의 모든 발전은 모델 내부를 들여다보고 문제를 진단하는 우리의 능력을 양적으로 증가시킵니다. 그러한 발전이 많을수록 "데이터센터 안의 천재 국가"가 잘 진행될 가능성이 커집니다. AI 회사, 연구자, 정부 및 사회가 균형을 유리하게 바꾸기 위해 할 수 있는 몇 가지 일이 있습니다:

첫째, 기업, 학계 또는 비영리 단체의 AI 연구자들은 직접 해석가능성 연구에 참여함으로써 이를 가속화할 수 있습니다. 해석가능성은 끊임없이 쏟아지는 모델 출시에 비해 덜 주목받지만, 아마도 더 중요할 것입니다. 또한 저에게는 지금이 이 분야에 참여하기에 이상적인 시기처럼 느껴집니다: 최근의 "회로" 결과는 많은 방향을 동시에 열었습니다. 앤트로픽은 해석가능성에 두 배로 투자하고 있으며, 2027년까지 "해석가능성이 대부분의 모델 문제를 안정적으로 감지할 수 있는" 수준에 도달하는 것을 목표로 하고 있습니다. 우리는 또한 해석가능성 스타트업에 투자하고 있습니다.

하지만 이것이 전체 과학계에 걸친 노력이 된다면 성공 가능성은 더 커집니다. 구글 딥마인드나 OpenAI와 같은 다른 회사들도 일부 해석가능성 노력을 하고 있지만, 더 많은 자원을 할당하도록 강력히 권장합니다. 도움이 된다면, 앤트로픽은 해석가능성을 상업적으로 적용하여 특히 결정에 대한 설명을 제공하는 능력이 중요한 산업에서 독특한 이점을 창출하려고 노력할 것입니다. 만약 당신이 경쟁자이고 이것이 일어나기를 원하지 않는다면, 당신도 해석가능성에 더 많이 투자해야 합니다!

해석가능성은 또한 학계 및 독립 연구자들에게 자연스럽게 적합합니다: 기초 과학의 성격을 띠고 있으며, 많은 부분이 막대한 계산 자원 없이도 연구될 수 있습니다. 분명히, 일부 독립 연구자들과 학자들은 해석가능성 연구를 하고 있지만, 우리는 훨씬 더 많이 필요합니다⁹. 마지막으로, 만약 당신이 다른 과학 분야에 있고 새로운 기회를 찾고 있다면, 해석가능성은 유망한 선택일 수 있습니다. 풍부한 데이터, 흥미로운 신생 방법, 그리고 막대한 실제 가치를 제공하기 때문입니다. 특히 신경과학자들은 이를 고려해야 합니다. 생물학적 신경망보다 인공 신경망에서 데이터를 수집하는 것이 훨씬 쉽고, 일부 결론은 신경과학에 다시 적용될 수 있기 때문입니다. 앤트로픽의 해석가능성 팀에 합류하는 데 관심이 있다면, 연구 과학자 및 연구 엔지니어 채용 공고가 열려 있습니다.

둘째, 정부는 해석가능성 연구 개발과 이를 최첨단 AI 모델의 문제 해결에 적용하는 것을 장려하기 위해 가벼운 규제(light-touch rules)를 사용할 수 있습니다. "AI MRI"의 실천이 얼마나 초기 단계이고 미개발 상태인지를 고려할 때, 적어도 현 단계에서는 기업들에게 이를 수행하도록 규제하거나 의무화하는 것이 왜 의미가 없는지 분명해야 합니다: 잠재적인 법률이 기업들에게 무엇을 하도록 요구해야 할지조차 명확하지 않습니다. 그러나 기업들이 안전 및 보안 관행(책임감 있는 스케일링 정책, 즉 RSP 및 그 실행)을 투명하게 공개하도록 요구하는 것 — 여기에는 출시 전 모델 테스트에 해석가능성을 어떻게 사용하고 있는지가 포함됨 — 은 기업들이 서로에게서 배우는 동시에 누가 더 책임감 있게 행동하는지를 명확히 하여 "정상으로의 경쟁(race to the top)"을 촉진할 것입니다. 우리는 캘리포니아 프론티어 모델 태스크포스에 대한 답변서에서 안전/보안/RSP 투명성을 캘리포니아 법의 가능한 방향으로 제안했습니다(태스크포스 자체도 동일한 아이디어 중 일부를 언급합니다). 이 개념은 연방 차원이나 다른 국가로도 수출될 수 있습니다.

셋째, 정부는 우리가 가장 강력한 AI에 도달하기 전에 해석가능성이 발전할 시간을 더 벌 수 있도록 "안보 완충 지대(security buffer)"를 만들기 위해 수출 통제를 사용할 수 있습니다. 저는 오랫동안 민주주의 국가가 AI에서 독재 국가보다 앞서야 한다고 믿기 때문에 중국으로의 칩 수출 통제를 지지해 왔습니다. 하지만 이러한 정책에는 추가적인 이점도 있습니다. 미국과 다른 민주주의 국가들이 "데이터센터 안의 천재 국가"에 접근하면서 AI에서 명확한 우위를 점하고 있다면, 우리는 그 우위의 일부를 "사용"하여 진정으로 강력한 AI로 나아가기 전에 해석가능성¹⁰이 더 견고한 기반 위에 있도록 보장하면서도 우리의 권위주의적 적수들을 물리칠 수 있을 것입니다¹¹. 효과적이고 잘 시행되는 수출 통제가 우리에게 줄 수 있다고 믿는 1년 또는 2년의 격차조차도, 우리가 변혁적인 능력 수준에 도달했을 때 "AI MRI"가 본질적으로 작동하는 것과 그렇지 않은 것의 차이를 의미할 수 있습니다. 1년 전에는 신경망의 생각을 추적할 수 없었고 그 안의 수백만 개의 개념을 식별할 수 없었지만, 오늘날 우리는 할 수 있습니다. 반대로, 미국과 중국이 동시에 강력한 AI에 도달한다면(수출 통제가 없다면 그렇게 될 것으로 예상합니다), 지정학적 인센티브는 어떤 둔화도 본질적으로 불가능하게 만들 것입니다.

이 모든 것 — 해석가능성 가속화, 가벼운 투명성 법안, 중국으로의 칩 수출 통제 — 은 그 자체로 좋은 아이디어이며 의미 있는 단점이 거의 없다는 장점을 가집니다. 우리는 어쨌든 이 모든 것을 해야 합니다. 하지만 이것들이 해석가능성이 강력한 AI 이전에 해결될지 이후에 해결될지의 차이를 만들 수 있다는 것을 깨달을 때 더욱 중요해집니다.

강력한 AI는 인류의 운명을 형성할 것이며, 우리는 그것이 우리의 경제, 삶, 그리고 미래를 근본적으로 변화시키기 전에 우리 자신의 창조물을 이해할 자격이 있습니다.

이 글의 초안에 대한 피드백을 주신 Tom McGrath, Martin Wattenberg, Chris Olah, Ben Buchanan 및 앤트로픽 내의 많은 분들께 감사드립니다.




각주

¹ 식물의 경우, 이는 물, 햇빛, 특정 방향으로 식물을 유도하는 격자, 식물의 종 선택 등이 될 것입니다. 이런 것들은 식물이 대략 어디서 자랄지를 지시하지만, 정확한 모양과 성장 패턴은 예측 불가능하며, 자란 후에도 설명하기 어렵습니다. AI 시스템의 경우, 우리는 기본 아키텍처(보통 트랜스포머의 변형), 받는 데이터의 광범위한 유형, 훈련에 사용되는 높은 수준의 알고리즘을 설정할 수 있지만, 모델의 실제 인지 메커니즘은 이러한 요소들로부터 유기적으로 나타나며, 이에 대한 우리의 이해는 부족합니다. 사실, 자연계와 인공 세계 모두에서 원리 수준에서는 이해하지만(때로는 통제하지만) 세부적으로는 이해하지 못하는 시스템의 예가 많이 있습니다: 경제, 눈송이, 세포 자동자, 인간 진화, 인간 뇌 발달 등.
² 물론 모델과 단순히 상호 작용하여 이러한 위험을 감지하려고 시도할 수 있으며, 실제로 그렇게 합니다. 하지만 우리가 찾으려는 행동이 바로 기만이기 때문에 외부 행동은 신뢰할 수 없습니다. 이것은 누군가가 테러리스트인지 물어봄으로써 그가 테러리스트인지 판단하려는 것과 비슷합니다 — 반드시 쓸모없는 것은 아니고, 그들이 어떻게 대답하고 무엇을 말하는지로부터 무언가를 배울 수 있지만, 매우 명백하게 신뢰할 수 없습니다.
³ 아마도 미래의 에세이에서 이에 대해 더 자세히 설명하겠지만, 모델이 다소 인위적인 방식으로 훈련이 유도될 때 특정 상황에서 거짓말을 하거나 속일 수 있음을 보여주는 많은 실험(그 중 다수는 앤트로픽에서 수행됨)이 있습니다. 또한 실제 세계에서 "시험에서 부정행위"처럼 보이는 행동의 증거도 있지만, 위험하거나 해롭기보다는 더 퇴화된 형태입니다. 없는 것은 더 자연스러운 방식으로 위험한 행동이 나타나는 증거나, 세상에 대한 권력을 얻기 위해 거짓말하고 속이려는 일반적인 경향이나 일반적인 의도의 증거입니다. 모델 내부를 보는 것이 크게 도움이 될 수 있는 것은 후자입니다.
⁴ 적어도 API로 제공되는 모델의 경우입니다. 오픈 웨이트 모델은 보호 장치를 단순히 제거할 수 있다는 점에서 추가적인 위험을 내포합니다.
⁵ 아주 간략하게 말하면, 해석가능성이 AI 지각력 및 복지에 대한 우려와 교차할 것으로 예상되는 두 가지 방식이 있습니다. 첫째, 심리 철학은 복잡하고 논쟁적인 주제이지만, 철학자들은 AI 모델에서 실제로 무엇이 일어나고 있는지에 대한 상세한 설명을 통해 의심할 여지 없이 이익을 얻을 것입니다. 만약 우리가 그것들을 피상적인 패턴 매칭 장치라고 믿는다면, 도덕적 고려를 받을 자격이 없을 것 같습니다. 만약 우리가 그들이 수행하는 계산이 동물의 뇌, 심지어 인간의 뇌와 유사하다는 것을 발견한다면, 그것은 도덕적 고려를 지지하는 증거가 될 수 있습니다. 둘째, 그리고 아마도 가장 중요한 것은, 만약 우리가 AI 모델의 도덕적 "수동성(patienthood)"이 조치를 취할 만큼 충분히 그럴듯하다고 결론 내린다면 해석가능성이 가질 역할입니다. AI에 대한 진지한 도덕적 고려는 그들의 자기 보고를 신뢰할 수 없습니다. 왜냐하면 우리가 우연히 괜찮은 척하도록 훈련시킬 수 있기 때문입니다. 해석가능성은 그러한 상황에서 AI의 복지를 결정하는 데 결정적인 역할을 할 것입니다. (사실, 이러한 관점에서 이미 약간 우려스러운 징후들이 있습니다.)
⁶ 예를 들어, 인공 신경망 내부에서 일어나는 계산을 어떻게든 분해하고 이해하려는 아이디어는 아마도 신경망이 70여 년 전에 발명된 이후 막연하게 존재했을 것이며, 신경망이 특정 방식으로 행동하는 이유를 이해하려는 다양한 노력은 거의 그만큼 오랫동안 존재해 왔습니다. 하지만 크리스는 그들이 하는 모든 것을 이해하기 위한 포괄적인 노력을 제안하고 진지하게 추구했다는 점에서 이례적이었습니다.
⁷ 중첩의 기본 아이디어는 2016년 Arora 등에 의해 설명되었으며, 더 일반적으로는 압축 센싱에 대한 고전적인 수학적 연구로 거슬러 올라갑니다. 그것이 해석 불가능한 뉴런을 설명한다는 가설은 비전 모델에 대한 초기 기계론적 해석가능성 연구로 거슬러 올라갑니다. 이 시기에 바뀐 것은 이것이 언어 모델의 중심 문제가 될 것이며, 비전 모델보다 훨씬 더 심각할 것이라는 점이 분명해졌다는 것입니다. 우리는 중첩이 추구해야 할 올바른 가설이라는 확신을 가질 수 있는 강력한 이론적 근거를 제공할 수 있었습니다.
⁸ 이를 다른 방식으로 말하자면, 해석가능성은 모델 정렬을 위한 테스트 세트처럼 기능해야 하며, 확장 가능한 감독, RLHF, 헌법적 AI 등과 같은 전통적인 정렬 기술은 훈련 세트처럼 기능해야 합니다. 즉, 해석가능성은 모델의 정렬에 대한 독립적인 점검 역할을 하며, 모델이 정렬된 것처럼 보이도록 유인할 수 있는 훈련 과정에 의해 오염되지 않습니다. 이 견해의 두 가지 결과는 (a) 우리가 생산 환경에서 해석가능성 출력(특징/개념, 회로)에 대해 직접 훈련하거나 최적화하는 것을 매우 주저해야 한다는 것입니다. 이는 그들의 신호의 독립성을 파괴하기 때문입니다. 그리고 (b) 하나의 생산 실행에서 진단 테스트 신호를 너무 여러 번 사용하여 훈련 과정의 변경 사항을 알리는 것은 중요하지 않다는 것입니다. 이는 독립적인 테스트 신호에 대한 정보 비트를 훈련 과정에 점진적으로 유출시키기 때문입니다((a)보다는 훨씬 느리지만). 즉, 공식적이고 중요한 생산 모델을 평가할 때, 숨겨진 평가 또는 테스트 세트를 다루는 것과 동일한 주의를 기울여 해석가능성 분석을 처리할 것을 권장합니다.
⁹ 기이하게도, 기계론적 해석가능성은 때때로 학계에서 상당한 문화적 저항에 부딪히는 것 같습니다. 예를 들어, 매우 인기 있는 기계론적 해석가능성 ICML 컨퍼런스 워크숍이 표면적인 이유로 거부되었다는 보고에 대해 우려하고 있습니다. 만약 사실이라면, 이러한 행동은 AI 분야의 학자들이 관련성을 유지할 방법을 찾고 있는 바로 이 시점에 근시안적이고 자멸적인 것입니다.
¹⁰ 물론 위험 완화를 위한 다른 기술들과 함께입니다 — 해석가능성이 우리의 유일한 위험 완화 도구라고 암시하려는 의도는 아닙니다.
¹¹ 저는 사실 민주주의 국가 내의 기업들 사이에서조차 AI의 엄청난 경제적 가치를 고려할 때 위험을 해결하기 위한 어떤 둔화도 가능할지에 대해 상당히 회의적입니다. 이렇게 시장과 정면으로 맞서는 것은 발가락으로 화물 열차를 멈추려는 것처럼 느껴집니다. 하지만 자율 AI의 위험에 대한 정말 설득력 있는 증거가 나타난다면, 간신히 가능할 것이라고 생각합니다. 지지자들의 주장과는 달리, 저는 오늘날 정말 설득력 있는 증거가 존재한다고 생각하지 않으며, 실제로 위험에 대한 "결정적 증거(smoking gun)"를 제공할 가장 가능성 있는 경로는 해석가능성 자체라고 생각합니다 — 이것이 해석가능성에 투자해야 하는 또 다른 이유입니다!

전체 0