뉴스/정보
OpenAI 페이퍼벤치 발표
작성자
하이룽룽
작성일
2025-04-03 07:18
조회
10
https://openai.com/index/paperbench/
최첨단 AI 연구를 복제하는 AI 에이전트의 능력을 평가하는 벤치마크인 PaperBench를 소개합니다. 상담원은 논문 기여 이해, 코드베이스 개발, 성공적인 실험 실행을 포함하여 20개의 ICML 2024 스포트라이트 및 구두 논문을 처음부터 복제해야 합니다. 객관적인 평가를 위해 우리는 각 복제 작업을 명확한 채점 기준이 있는 더 작은 하위 작업으로 계층적으로 분해하는 루브릭을 개발합니다. PaperBench에는 개별적으로 채점 가능한 총 8,316개의 작업이 포함되어 있습니다. 루브릭은 정확성과 현실감을 위해 각 ICML 논문의 저자와 공동으로 개발되었습니다. 확장 가능한 평가를 가능하게 하기 위해 LLM 기반 심판을 개발하여 루브릭에 대한 반복 시도를 자동으로 평가하고 심판을 위한 별도의 벤치마크를 만들어 심판의 성과를 평가합니다. PaperBench에서 여러 프론티어 모델을 평가한 결과, 오픈 소스 스캐폴딩을 사용한 최고 성능의 테스트 에이전트인 Claude 3.5 Sonnet (New)가 평균 21.0%의 복제 점수를 달성한 것으로 나타났습니다. 마지막으로, 최고의 ML 박사를 모집하여 PaperBench의 하위 집합을 시도한 결과, 모델이 아직 인간 기준선을 능가하지 못한다는 것을 발견했습니다. 우리 오픈 소스(새 창에서 열림) AI 에이전트의 AI 엔지니어링 기능을 이해하기 위한 향후 연구를 촉진하기 위한 코드입니다.
최첨단 AI 연구를 복제하는 AI 에이전트의 능력을 평가하는 벤치마크인 PaperBench를 소개합니다. 상담원은 논문 기여 이해, 코드베이스 개발, 성공적인 실험 실행을 포함하여 20개의 ICML 2024 스포트라이트 및 구두 논문을 처음부터 복제해야 합니다. 객관적인 평가를 위해 우리는 각 복제 작업을 명확한 채점 기준이 있는 더 작은 하위 작업으로 계층적으로 분해하는 루브릭을 개발합니다. PaperBench에는 개별적으로 채점 가능한 총 8,316개의 작업이 포함되어 있습니다. 루브릭은 정확성과 현실감을 위해 각 ICML 논문의 저자와 공동으로 개발되었습니다. 확장 가능한 평가를 가능하게 하기 위해 LLM 기반 심판을 개발하여 루브릭에 대한 반복 시도를 자동으로 평가하고 심판을 위한 별도의 벤치마크를 만들어 심판의 성과를 평가합니다. PaperBench에서 여러 프론티어 모델을 평가한 결과, 오픈 소스 스캐폴딩을 사용한 최고 성능의 테스트 에이전트인 Claude 3.5 Sonnet (New)가 평균 21.0%의 복제 점수를 달성한 것으로 나타났습니다. 마지막으로, 최고의 ML 박사를 모집하여 PaperBench의 하위 집합을 시도한 결과, 모델이 아직 인간 기준선을 능가하지 못한다는 것을 발견했습니다. 우리 오픈 소스(새 창에서 열림) AI 에이전트의 AI 엔지니어링 기능을 이해하기 위한 향후 연구를 촉진하기 위한 코드입니다.
전체 0