최신논문

대규모 언어모델은 튜링 테스트를 통과했습니다.

작성자
하이룽룽
작성일
2025-04-01 22:22
조회
15
https://arxiv.org/abs/2503.23674

우리는 두 개의 무작위 통제 전실험(Turing test)을 독립된 모집단을 대상으로 수행하여 ELIZA, GPT-4o, LLaMa-3.1-405B, GPT-4.5 이렇게 네 가지 시스템을 평가했다. 참가자들은 5분 동안 다른 인간 참가자 한 명과 이 중 하나의 시스템 각각과 동시에 대화를 나눈 뒤, 어떤 대화 상대가 인간인지 판별했다. 인간과 유사한 페르소나를 취하도록 지시했을 때, GPT-4.5는 73%의 확률로 인간으로 판정되었는데, 이는 실제 인간 참가자가 인간으로 판정된 빈도보다도 통계적으로 유의미하게 높은 수치였다. 같은 프롬프트를 적용한 LLaMa-3.1은 56%의 확률로 인간으로 판정되어, 인간과 비교했을 때 통계적으로 유의미하게 높지도 낮지도 않은 수준이었다. 한편, 베이스라인 모델(ELIZA와 GPT-4o)은 기회수준(단순 추측)보다도 유의미하게 낮은 승률(각각 23%, 21%)을 보였다. 이 결과는 어떤 인공지능 시스템이 표준적인 ‘3인 Turing test’를 통과했다는 최초의 경험적 증거로서, 대규모 언어 모델(LLM)이 어떤 종류의 지능을 갖추었는지에 대한 논의와, 이러한 시스템들이 가져올 사회적·경제적 영향에 중요한 함의를 갖는다.

 
전체 0