인터뷰/예측

장고 웹 프레임워크 개발자 "향후 1년, 3년, 6년 동안의 AI/LLM 예측"

작성자
하이룽룽
작성일
2025-01-12 12:58
조회
37
https://simonwillison.net/2025/Jan/10/ai-predictions/

 

여기 제가 팟캐스트에서 떠올린 생각들을 조금 더 정리한 예측들이에요.

다만, 여러 해에 걸쳐 AI/LLM의 미래를 예측한다는 시도 자체가 정말 터무니없다고 생각한다는 점을 강조하고 싶습니다! 일주일 뒤 일을 예측하기도 어려운데, 6년 후쯤은 완전히 다른 세계죠.

이런 전제를 깔고, 제가 말했던 내용을 확장해서 정리해봤습니다.



1년 후: 에이전트(Agents)는 이번에도 실패

1년 후: … 단, 코드 및 리서치 보조 에이전트는 예외

3년 후: AI 보조를 받아 조사보도를 한 기자가 퓰리처상을 수상

3년 후 (다른 예측): 강력한 개인정보 보호법 도입

6년 후 유토피아 시나리오: 놀라운 예술 작품

6년 후 디스토피아 시나리오: AGI/ASI로 인해 대규모 사회 불안

그리고 제 확신 부족에 대하여




1년 후: 에이전트(Agents)는 이번에도 실패

2024년 LLM 동향에 대한 리뷰에서도 언급했지만, “에이전트”라는 개념은 여전히 실현되지 못하고 있다고 생각합니다.

2025년에는 에이전트에 대한 논의가 더 활발해질 테지만, 그 결과가 이 용어에 열광하는 사람들에게는 크게 실망스러울 것 같아요. 이 분야에 상당한 자금이 투입될 테지만, “에이전트”라는 이름을 공유하는 여러 불분명한 아이디어들에 대해 적지 않은 돈이 낭비될 듯합니다.

에이전트가 뭔지 물어보면, 열두 명에게서 열두 가지 다른 정의가 나오리라 생각해요. 저는 그 정의들을 모아서 AI로 요약한 적이 있습니다(링크 참고).

그렇지만 여기서는 제 예측을 위해 특정 정의 하나만 짚고 넘어가면, 이 정의는 “반자동으로 세상에 나가 사용자를 대신해 행동하는 AI 비서” 같은 것입니다. 여행사 직원처럼 항공권, 숙박, 일정 계획 등을 대행해주는 AI를 떠올리면 됩니다.

그런데 현재 세대의 LLM에게 돈을 어떻게 쓸지 등의 “중요 결정을” 맡기는 건 정말 나쁜 아이디어예요. 이 모델들은 여전히 신뢰도가 낮고(잘못된 정보를 제시하거나), 그보다 더 큰 문제는 너무 “잘 속는다”는 겁니다.

AI 비서에게 신용카드를 쥐여주고 세상에 내보낼 때, “가장 좋은 할인 혜택을 준다”고 주장하는 사이트라면 누구든 속아 넘어가 바로 결제해 버릴지도 모릅니다!

지금까지 LLM 기반 에이전트가 대중화되지 못한 이유는 결국 신뢰성 문제라고 확신합니다. ChatGPT가 처음 나왔을 때부터 이 아이디어에 대한 엄청난 기대가 있었는데도 말이죠.

앞으로 12개월 동안 출시되는 모델 중에서 이 문제를 해결해줄 만큼 신뢰도가 크게 개선된 모델이 나올 가능성은 매우 낮다고 봅니다. ‘잘 속지 않는 모델’을 만드는 건 정말 어려운 과제예요.

(“디지털 트윈”을 회의에 대신 보낸다는 아이디어가 얼마나 말도 안 되는지, 저는 특히 열변을 토한 적이 있습니다.)



1년 후: … 단, 코드와 리서치 보조 에이전트는 예외

에이전트 중에서 제가 실제로 가능성이 있다고 보는 건 두 가지입니다.
  1. 코딩 보조 에이전트 LLM이 코드를 작성하고, 실행하고, 수정하는 과정을 반복하는 패턴입니다.

    처음 이 패턴을 본 건 2023년 3~4월쯤 OpenAI가 ChatGPT에 Code Interpreter 기능을 추가했을 때였습니다.

    Python을 사용해 문제를 해결해달라고 요청하면, ChatGPT가 Python 코드를 작성하고 이를 보안된 샌드박스(아마 쿠버네티스 환경)에서 실행한 뒤, 결과(또는 오류 메시지)를 확인하여 목표 달성 여부를 판단하는 방식이죠.

    2023년 초반 모델(원본 GPT-4로 추정)에서도 이 패턴은 잘 작동했고, 지금도 마찬가지입니다.

    Claude는 2023년 10월에 JavaScript를 브라우저에서 실행하는 방식으로 비슷한 기능을 선보였고, Mistral과 Gemini를 비롯해 다른 곳들도 이 패턴을 구현한 사례가 많습니다.
  2. 리서치 보조 에이전트 LLM이 여러 번 검색을 실행해 정보를 모으고, 그걸 바탕으로 답변을 구성하거나 보고서를 작성하는 유형입니다.

    Perplexity와 ChatGPT Search는 이 기능을 꽤 일찍부터 지원해왔습니다. 하지만 제가 본 것 중 가장 인상적인 건, Google Gemini의 “Deep Research” 툴입니다. 몇 주 정도 사용해볼 기회가 있었는데 아주 훌륭했어요.

    Deep Research에는 예를 들어 이런 요청을 할 수 있습니다.
    Pillar Point Harbor는 북미 서해안에서 가장 큰 갈색펠리컨 공동 휴식지 중 하나입니다.
    다른 사례들도 찾아주세요.

    그러면 Gemini가 계획을 세우고, Google 검색으로 수십 개의 웹사이트를 조사한 뒤, (무엇보다 중요한) 출처를 첨부해가며 종합적인 보고서를 만들어줍니다.

    다음은 Gemini가 뽑아낸 연구 계획 예시예요:
    1. 북미 서해안의 갈색펠리컨 휴식지 목록을 찾는다.
    2. 갈색펠리컨 휴식지와 그 규모에 대한 논문이나 기사 등을 찾는다.
    3. 조류 관련 단체나 정부 기관에서 제공하는 갈색펠리컨 휴식지 정보를 찾는다.
    4. 3번에서 찾은 휴식지 규모를 Pillar Point Harbor와 비교한다.
    5. 갈색펠리컨 휴식지와 개체수에 대한 최신 소식이나 보고서를 찾는다.
    이 과정에서 아주 유용한 정보를 많이 찾았고, 제가 가장 흥미로웠던 건 2016~2019년 사이에 Audubon 네트워크와 파트너들이 실시한 ‘태평양 갈색펠리컨 조사’(PDF)였어요. 이 문서에는 이런 리스트가 있었습니다:
    전통적으로 500마리 이상 펠리컨이 서식하는 메가루스트(Megaroost) 상위 10곳 (가을 평균 집계):

    1. Alameda Breakwater, CA (3,183)
    2. Pillar Point Harbor, CA (1,481)
    3. East Sand Island, OR (1,121)
    4. Año Nuevo State Park, CA (1,068)
    5. Salinas River mouth, CA (762)
    6. Bolinas Lagoon, CA (755)
    7. Morro Rock, CA (725)
    8. Moss landing, CA (570)
    9. Crescent City Harbor, CA (514)
    10. Bird Rock Tomales, CA (514)
    제가 사는 근처 항구가 두 번째로 큰 ‘메가루스트’였네요!

    현재 세대의 LLM으로도 이런 리서치 보조 기능을 만들 수 있다는 게 아주 말이 됩니다. 툴을 사용하는 능력, “논문이든 뉴스 기사든 찾아봐야 한다” 같은 상식적인 리서치 계획 수립, 그리고 검색으로 수집한 컨텍스트를 바탕으로 그럴듯한 답변을 요약해서 제시하는 역량을 갖추고 있기 때문이죠.

    구글은 세계에서 가장 큰 검색 인덱스를 보유하고 있고, Gemini 모델은 200만 토큰짜리 컨텍스트를 사용합니다. 앞으로 Deep Research가 더 발전할 것이고, 경쟁 서비스도 많이 나올 거라고 예상합니다.



3년 후: AI 보조를 받아 조사보도를 한 기자가 퓰리처상을 수상

조금 자기 홍보적인 예측이긴 합니다만, 3년 안에 어떤 기자가 생성형 AI 툴을 활용해 조사보도를 하고, 그 결과로 퓰리처상을 받게 될 거라고 생각합니다.

물론 LLM이 기사를 대신 작성한다는 얘기가 아닙니다! 저는 여전히 “LLM이 글을 대신 써준다”는 아이디어가 이 기술의 가장 덜 흥미로운 활용 중 하나라고 봅니다.

이 예측이 자기 홍보적이라는 건, 제가 이걸 직접 돕고 싶기 때문이에요! 제 오픈소스 데이터 저널리즘 툴 모음(Datasette)은 데이터에 AI 기능을 접목하는 방향으로 발전 중인데, 예컨대 LLM을 이용해 텍스트에서 구조화된 데이터를 뽑아 테이블로 정리한다거나, 반대로 데이터를 보강·정제하는 등의 기능을 연구하고 있습니다.

제 꿈은, 이런 툴(또는 이와 유사한 다른 툴)이 어떤 수상 경력의 조사보도에 쓰이는 겁니다.

3년이라는 시간 설정은, 이 기술을 “책임감 있고 효과적으로” 활용하는 노하우가 더 널리 퍼지는 데 걸리는 시간이 그 정도 아닐까 싶어서예요.

언뜻 보면 LLM은 저널리즘과 잘 안 맞는 듯합니다. 기자들은 사실관계를 철저히 확인해야 하는데, LLM은 잘못된 내용을 지어내는(“환각(hallucination)”) 경향이 있으니까요. 하지만 기자들은 원래부터 신뢰할 수 없는 소스를 다루는 데 익숙하잖아요. 그게 기자 업무의 큰 부분이기도 합니다.

저는 저널리즘 영역에서 LLM이 특히 도움이 될 만한 두 가지 분야가 있다고 봅니다.
  1. 구조화된 데이터 추출 10,000개의 PDF 문서를 정보공개청구(FOIA)를 통해 입수했다고 생각해보죠. 누군가는 그 문서를 일일이 훑어봐야 기사 소재를 발견할 텐데, 이 과정을 LLM이 상당히 도와줄 수 있습니다. 대량의 데이터를 훑어보고, 어디를 주목해야 하는지를 제안해줄 수 있죠. 중요한 부분을 찾는 ‘리드 제너레이터’로 작동할 수 있어요.
  2. 코딩 보조 데이터 분석에 코드를 쓰는 건 현대 데이터 저널리즘에서 아주 중요합니다. 예를 들어 SQL 쿼리, 데이터 정제 스크립트, 웹 스크래퍼, 시각화 도구 등을 이용해 대량 데이터를 다뤄야 하죠. 언론사 대부분은 프로그래머가 많지 않은데, 3년 후에는 프로그래밍 경험이 없는 기자들도 이런 AI 코딩 보조 툴을 이용해 기사에 필요한 분석을 해낼 수 있게 될 거라고 봅니다.
저도 이 분야 툴들을 직접 만들어보고 싶어요!

그래서 3년 후의 구체적인 예측:
“AI의 약간의 도움을 받아 조사보도를 한 기자가 퓰리처상을 탄다.”

그리고 좀 더 일반화해서 보면, 3년 안에 대부분의 ‘정보 업무 종사자’들이 일상 업무에서 LLM을 활용하는 게 당연해질 거라고 생각해요. 어떤 작업 방식이 효과적이고, 어떻게 설명해야 사람들이 쉽게 배울 수 있는지도 명확해질 겁니다. 이 스킬 자체가 매우 보편화할 거예요.



3년 후 (다른 예측): 강력한 개인정보 보호법 도입

제가 예측한 다른 3년 후 시나리오는 개인정보 보호 입법의 강화입니다.

정교하게 타겟팅되는 광고나, 사람들이 모델에 입력한 데이터가 어떻게 사용되는지에 대한 의혹 등은 계속 커지고 있습니다.

얼마 전에도 “애플이 아이폰 마이크로 도청하고 광고를 송출한다”는 근거 없는 음모론이 절대 사라지지 않는다고 썼고, LLM 업체들이 “유저 입력 데이터는 학습용으로 사용하지 않는다”고 아무리 강조해도 사람들이 도무지 믿지 않는 “AI 신뢰 위기” 이야기도 남긴 적이 있어요.

결국 사용자들이 모델을 학습시키는 데 자기 데이터가 쓰이지 않는다는 점을 확실히 이해할 수 있도록, 관련 입법이 마련되면 AI 업계도 이익을 볼 거라고 봅니다.
더 나아가, 개인정보 저장 기간(data retention)이나 타겟 광고 같은 문제도 규제가 필요한 상황이고요.

미국 연방 정부가 향후 4년 동안 법안을 효과적으로 제정할 수 있을지 확신은 못 하겠지만, 주 단위나 국제적인 차원에서는 훨씬 강력한 개인정보 보호법이 나올 수 있을 거라 예상합니다. 그저 제발 쿠키 동의 배너 같은 게 더 늘어나는 식은 아니었으면 좋겠습니다!



6년 후 유토피아: 놀라운 예술 작품

6년 후 예측은 긍정적인 것 하나와 부정적인 것 하나, 두 가지를 제시했습니다.

먼저 낙관적인 시나리오: “이 기술을 제대로 활용해 정말 멋진 예술을 만들어내는 방법”을 6년 안에는 발견해낼 거라고 봅니다.

개인적으로, 이미지·영상·음악 생성형 AI는 텍스트 기반 LLM만큼 “유용성” 면에서 존중받을 만한 도구가 아니라는 생각이 들었어요. 지금의 생성형 아트 도구는 잠깐 써보기는 재밌지만, 결과물에 대한 세밀한 통제가 어렵고, 그래서 개인 취미나 대충 얼버무린 결과물을 만드는 데 쓰이는 정도죠.

더 큰 문제는 사회적 합의가 안 되어 있다는 겁니다. 많은 예술가들이 크게 반발하고 있고, “AI”라는 단어가 부정적인 뉘앙스를 풍기는 상황이기도 해요.

또 이미지·영상 모델은 AI 학습 데이터 윤리 논쟁의 최전선에 있는데, 그럴 만한 이유가 있죠. 어떤 예술가도 “내 작품을 무단으로 학습해, 나와 경쟁하는 모델”이 만들어지는 걸 반기지 않을 겁니다!

하지만 6년이라는 시간은 이런 논란들이 어느 정도 마무리되어, 사람들의 예술적 표현을 진정으로 끌어올릴 만한 사용 방식들이 자리 잡기에 충분한 기간이라고 봅니다. 저는 재능 있고 창의적인 예술가들이, 그 당시 더 발전한 AI 도구를 이용해 기존에는 불가능했던 새로운 예술을 선보일 수 있으리라 기대해요.

팟캐스트에서 제가 예로 든 영화가 ‘에브리씽 에브리웨어 올 앳 원스(Everything Everywhere All at Once)’인데, 이 영화가 받은 7개의 오스카 트로피는 전부 다 그럴 자격이 있었다고 생각해요. 이 영화의 핵심 VFX 팀은 단 5명이었는데, 만약 6년 후의 생성형 AI 툴이 있었다면, 이 팀이 어떤 기가 막힌 연출을 할지 상상해보면 정말 흥미롭죠!

녹음 이후 Swyx라는 분의 이야기를 들어보니, 실제로 ‘에브리씽 에브리웨어 올 앳 원스’ 제작에 Runway ML이라는 AI 도구가 쓰였다고 하더군요.
에반 핼렉(Evan Halleck)이 이 팀에 있었는데, Runway의 AI 툴을 사용해 반복적이고 지루한 편집 작업을 자동화하는 데 활용했다고 합니다. 예를 들어 바위가 나오는 장면에서 날리는 모래와 먼지를 빠르게 잘라내기 위해 Runway의 로토스코핑(피사체 분리) 기능을 써서, 며칠씩 걸릴 작업을 몇 분 만에 끝냈다는 거죠.

결국 AI가 쓰인 작품이 이미 오스카를 수상한 셈이니, 제가 말한 “6년 안에 AI가 활용된 영화가 오스카를 받을 것”이라는 예측은 오히려 8년이나 늦은 셈이네요!



6년 후 디스토피아: AGI/ASI로 인한 대규모 사회 불안

2031년의 부정적 시나리오입니다. 여기서 “AGI”라는 단어도 에이전트와 마찬가지로 계속 재정의되고 있죠. 얼마 전 The Information 기사(그리고 The Verge도 인용)에서 Microsoft와 OpenAI는 AGI를 “1000억 달러의 이익을 창출할 수 있는 시스템”이라고 정의한다고 합니다!

‘AGI’를 “현재 인간이 맡는 모든 직무를 대체할 정도의 범용 능력을 갖춘 AI” 정도로 간주해 보면, 부정적 결과가 떠오르지 않을 수 없습니다.

샘 알트먼은 기본소득(UBI)을 실험했다곤 하지만, 미국은 여전히 제대로 된 의료보험조차 해결하지 못한 나라예요. 인간이 일하지 않아도 되는 미래의 경제체제를, 미국이 과연 대중에게 유리하게 설계해낼 수 있을까요?

제 2031년 디스토피아 예측은, 만약 그 정도 수준의 AGI가 현실화된다면, 막대한 경제적 혼란과 대규모 사회 불안이 뒤따를 거라는 시나리오입니다.

저는 “인간을 보조해주는 AI”가 계속 발전해왔던 지금까지의 흐름이 좋습니다. 이상적으로는 이런 도구가 더 정교해져서, 사람들이 더 도전적인 과업을 해낼 수 있는 방향으로 가면 참 좋겠어요.

만약 AGI가 그런 식으로 사람들을 강화해주는 유토피아적 버전이라면, 저는 대환영입니다.



제 확신 부족에 대하여

제가 이런 예측을 해본 적이 거의 없는 이유가 있습니다. 미래 예측 능력에 대해 저는 스스로 확신이 거의 없어요. 이미 제 예측 중 하나는 8년이나 늦었다는 사실도 있잖아요!

어쨌든 이 예측들은 공식 기록으로 남았고(제가 pull request도 넣었습니다).

앞으로 1년, 3년, 6년 뒤에 지금 이 글을 되돌아보며 얼마나 맞았는지 확인해보는 것도 흥미로울 것 같네요.
전체 2

  • 2025-01-12 13:57

    다음주에 큰거 오셈?


    • 2025-01-12 16:42

      Gemini Pro 0111 버전 있었으니 다음 주 출시 가능할지도???
      앤트로픽 차세대 모델이랑 xai 그록 3.0도 있으니깐 비슷한 시기에 우르르 출시될 듯