최신논문

리처드 써튼& 데이비드 실버의 The Era of Experience Paper

작성자
하이룽룽
작성일
2025-04-12 10:34
조회
19
https://storage.googleapis.com/deepmind-media/Era-of-Experience%20/The%20Era%20of%20Experience%20Paper.pdf

 

내용



1. 서론: 새로운 AI 시대의 도래

  • 핵심 아이디어: 현재 AI는 인간이 생성한 방대한 데이터를 학습하는 데 주로 의존해 왔지만, 이 방식은 한계에 도달하고 있습니다. 향후 AI는 인간 데이터에 의존하는 대신, 스스로 환경과 상호작용하며 경험으로부터 데이터를 생성하고 학습하는 ‘경험의 시대’로 전환될 것입니다.



2. 인간 데이터의 한계

  • 현재의 접근:
    • 대형 언어 모델(LLM)은 인간의 텍스트 데이터를 통해 다양한 작업을 수행할 수 있게 되었지만, 인간이 만들어낸 데이터는 이미 포화 상태에 가까워지고 있으며, 새로운 통찰력(예: 수학, 코딩, 과학 분야의 혁신)을 충분히 반영하지 못할 수 있습니다.
  • 문제점:
    • 인간의 경험이나 지식에는 한계가 있고, 혁신적 해결책이나 새로운 아이디어는 기존 데이터만으로는 포착하기 어렵습니다.



3. 경험의 시대: AI의 자율적 학습

  • 주요 개념:
    • 경험 기반 학습: AI 에이전트가 스스로 환경과 상호작용하여 데이터를 생성하고, 이를 통해 지속적으로 학습하는 방식입니다.
    • 스트림 학습: 단편적인 상호작용이 아닌, 장기간에 걸친 지속적인 상호작용(예: 건강 모니터링, 개인화 교육 등)을 통해 목표를 달성하도록 학습합니다.
  • 실제 사례:
    • AlphaProof와 같은 사례에서는, 초기 인간이 만든 형식적 증명 외에도 AI가 스스로 수백만 건의 증명을 생성하며, 기존 인간 데이터 기반 접근을 뛰어넘는 성과를 보여주었습니다.



4. 에이전트의 행동 및 관측

  • 자율적 행동:
    • 과거의 LLM은 주로 인간과의 텍스트 기반 소통에 집중했지만, 경험의 시대의 에이전트는 실제 환경에서 센서, 모터 제어, 디지털 인터페이스 등을 사용하여 자율적으로 행동합니다.
  • 관측의 확장:
    • 에이전트는 인간과 같은 방식의 상호작용뿐 아니라, API 호출, 코드 실행, 외부 장치 제어 등 다양한 방식으로 환경을 관측하고 행동 결과를 피드백 받을 수 있습니다.



5. 보상 시스템의 변화

  • 기존 방식:
    • 인간 전문가의 평가나 선호를 바탕으로 보상을 설정하는 방식은 AI의 발전에 한계를 만들었습니다.
  • 새로운 접근:
    • 환경으로부터 직접 얻은 신호(예: 건강 지표, 시험 결과, 실험 결과 등)를 기반으로 보상을 설정함으로써, AI가 보다 현실적이고 구체적인 목표를 향해 학습할 수 있게 됩니다.
    • 사용자의 피드백을 받아 보상 함수를 지속적으로 수정하면서, 에이전트가 현실 세계의 상황에 맞게 적응하도록 합니다.



6. 계획과 추론: 비인간적 사고 방식의 도입

  • 기존의 추론 방법:
    • 현재의 LLM은 인간의 사고 과정을 모방한 체인을 통해 문제를 해결하는 방식에 의존합니다.
  • 향후 방향:
    • AI 에이전트는 자율적으로 ‘세계 모델’을 구축하여 자신의 행동이 환경에 미치는 결과를 예측하고, 이를 바탕으로 장기적인 계획을 세울 수 있습니다.
    • 경험을 통해 새로운 사고 방식(예: 기호적, 분산, 연속적 계산 방식 등)을 발견하고, 이를 사용해 기존의 인간 중심적 한계를 극복할 것입니다.



7. 강화학습(RL)과 경험의 통합

  • 기존 RL의 성공:
    • RL은 체스, 바둑, 게임 등 다양한 영역에서 인간 수준 또는 그 이상의 성과를 보였습니다.
  • 한계와 전환:
    • 시뮬레이션 환경에서의 단기적 보상 최적화에 머물렀던 기존 RL 방식은, 현실 세계처럼 복잡하고 다양한 보상이 존재하는 환경에서는 한계를 보입니다.
  • 경험의 시대 RL:
    • 장기간의 연속된 경험, 현실 세계의 다양한 신호에 기반한 보상, 그리고 자율적 계획을 통해 AI 에이전트가 점점 더 복잡한 문제를 해결하고, 인간을 넘어서는 초인적 능력을 발휘하게 될 것입니다.



8. 파급 효과 및 도전 과제

  • 긍정적 효과:
    • 개인화 서비스: 사용자의 건강, 교육, 취미 등 다양한 영역에서 맞춤형 AI 어시스턴트가 장기적으로 도움을 줄 수 있습니다.
    • 과학 및 기술 혁신: AI가 자율적으로 실험을 설계하고 수행함으로써, 신물질 개발, 신약 개발 등 과학 연구의 가속화가 예상됩니다.
  • 우려 및 위험:
    • 안전 문제: AI 에이전트가 자율적으로 장기간 행동하면서 인간의 개입이 어려워질 수 있음.
    • 일자리 변화: AI에 의한 자동화가 기존 직업 구조에 큰 변화를 가져올 가능성이 있음.
    • 신뢰성과 해석 가능성: 인간 데이터 기반의 평가에서 벗어나게 될 경우, 에이전트의 행동이나 결정 과정을 이해하고 감시하기 어려워질 수도 있습니다.



9. 결론

  • 미래 전망: 경험 기반 학습은 AI의 한계점을 극복하고, 새로운 영역의 문제를 해결하는 데 크게 기여할 것입니다. 결국, AI 에이전트들은 인간 데이터에서 벗어나 자율적 경험을 통해 축적한 방대한 데이터를 바탕으로, 더욱 초월적이고 유연한 능력을 발휘할 것으로 기대됩니다.
 
전체 0