대규모 언어모델은 튜링 테스트를 통과했습니다.

작성자

하이룽룽

작성일

2025-04-01 22:22

조회

https://arxiv.org/abs/2503.23674

우리는 두 개의 무작위 통제 전실험(Turing test)을 독립된 모집단을 대상으로 수행하여 ELIZA, GPT-4o, LLaMa-3.1-405B, GPT-4.5 이렇게 네 가지 시스템을 평가했다. 참가자들은 5분 동안 다른 인간 참가자 한 명과 이 중 하나의 시스템 각각과 동시에 대화를 나눈 뒤, 어떤 대화 상대가 인간인지 판별했다. 인간과 유사한 페르소나를 취하도록 지시했을 때, GPT-4.5는 73%의 확률로 인간으로 판정되었는데, 이는 실제 인간 참가자가 인간으로 판정된 빈도보다도 통계적으로 유의미하게 높은 수치였다. 같은 프롬프트를 적용한 LLaMa-3.1은 56%의 확률로 인간으로 판정되어, 인간과 비교했을 때 통계적으로 유의미하게 높지도 낮지도 않은 수준이었다. 한편, 베이스라인 모델(ELIZA와 GPT-4o)은 기회수준(단순 추측)보다도 유의미하게 낮은 승률(각각 23%, 21%)을 보였다. 이 결과는 어떤 인공지능 시스템이 표준적인 ‘3인 Turing test’를 통과했다는 최초의 경험적 증거로서, 대규모 언어 모델(LLM)이 어떤 종류의 지능을 갖추었는지에 대한 논의와, 이러한 시스템들이 가져올 사회적·경제적 영향에 중요한 함의를 갖는다.

전체 0

« 그래프 신경망은 최단 경로 문제에서 분포 밖(Out-of-Distribution)까지 일반화한다

목록보기 답글쓰기

글수정 글삭제

N World Model을 통한 다양한 제어 작업 마스터하기	12:27
N 컴퓨터 사용 일반 에이전트 Ace 발표	12:24
N OpenAI 페이퍼벤치 발표	07:18
N 일론 머스크 "인간은 초지능의 부트로더"	07:12
N 딥마인드 "앞으로 몇 년 안에 AGI 등장할 것" (1)	07:06
N AI R&D 자동화가 소프트웨어 인텔리전스의 폭발적인 증가를 가져올 것인가? (2)	2025.04.02
N 하..하 (2)	2025.04.02
대규모 언어모델은 튜링 테스트를 통과했습니다.	2025.04.01
MS 케빈 스콧 "현재 AI 발전 속도가 충분히 빠르지 않다고 생각하며, 더 빨라질 수 있다" (4)	2025.04.01
먼가... (2)	2025.04.01

N 이제 2025년이니 풀가속이셈!!!	12:28
N 큰맵에 여러가지 만들고 불러오고 노는것임 마인드크래프트 같은 그런거	11:52
N 오고 있다고 못을 박아버리네. 맘 편히 기다리겠으셈	10:47
N 난 준비다했셈!!	2025.04.02
N 이게 뭐셈??	2025.04.02
아직 너무 느림	2025.04.02
더욱 더 가속해야함	2025.04.02
프랙탈이셈	2025.04.01
재귀개선이셈	2025.04.01
다리오 아모데이는 3~6개월 내 90% 대체랬는데 너무 선형인 듯	2025.04.01

지미애플의 오리온	2024.08.28
전 OpenAI GTM 잭 캐스 "트랜스포머로 AGI 달성 가능" (5)	2024.07.04
전 구글 차이나 사장 리 카이푸 "AI는 2025년에 박사 학위 수준을 넘어설 것"	2024.07.29
로건 킬패트릭 "2025"	2024.08.06
선형들이 짖어대지만 (4)	2024.08.21
OpenAI 오리온 출시 예정 (7)	2024.08.27
gpt-4o 설명 바뀜	2024.08.31
샘 알트만 "지능의 시대 도래" (2)	2024.09.24
다리오 아모데이 "2~5년 내에 sf영화 수준의 ai 출현" (4)	2024.07.04
오픈AI “현재 AI기술, AGI로 가는 5단계 중 2단계 직전 수준” (2)	2024.07.12