Agentic AI 구축/Agentic AI 트렌드

작업의 길이 관점에서 본 AI Agent (METR Evaluation)

gksyb4235 2026. 1. 26. 15:55

AI Agent 연구의 핵심 트렌드


최근 AI Agent 연구의 흐름은 크게 두 가지 방향으로 수렴하고 있다.

첫째는 다양한 작업을 하나의 에이전트가 수행할 수 있는 범용 에이전트의 등장이다.

둘째는 단일 질의에 응답하는 수준을 넘어, 더 긴 시간 동안 상태를 유지하며 지속적으로 작동하는 에이전트로의 진화다.

이번에는 두 번째 트렌드에 대한 흥미로운 평가 지표에 대해 설명하고자 한다.

 

 

 

현재 최전선 AI 모델들은 텍스트 예측과 지식 기반 과업에서 이미 인간을 크게 능가하고 있다.

특히 의사, 변호사 시험과 같은 전문가 수준의 시험형 문제 대부분에서 훨씬 적은 비용으로 인간보다 나은 성과를 낸다.

이러한 점은 AI Agent가 다양한 응용 분야에서 매우 유용한 도구로 활용될 수 있음을 보여준다.

 

그러나 이와 동시에 분명한 한계도 존재한다.

최고의 AI Agent조차 아직은 스스로 의미 있는 프로젝트를 완결하거나 인간 노동을 직접적으로 대체할 수 있는 수준에는 도달하지 못했다. 실제로 원격 비서 업무와 같은 비교적 저수준의 컴퓨터 기반 작업조차 안정적으로 수행하지 못하는 경우가 많다.

이는 AI Agent의 역량이 빠르게 증가하고 있음에도 불구하고, 그 성장이 실제 세계의 영향과 어떻게 연결되는지는 여전히 불분명하다는 점을 시사한다.

 

 

 

작업 길이 관점에서 본 AI Agent 역량 (METR의 Evaluation)


이러한 맥락에서, 모델이 완료할 수 있는 작업의 길이를 측정하는 관점은 현재 AI Agent의 역량을 이해하는 데 매우 유용하다.

AI Agent들은 단일 단계의 문제를 해결하는 데 필요한 기술이나 지식이 부족하다기보다는, 여러 단계를 거치는 긴 행동의 연쇄를 안정적으로 이어가는 데에서 어려움을 겪는 경우가 많기 때문이다.

 

 

METR의 문제의식과 실험 설계


 

 

METR에서는 이러한 문제의식에 기반해 다단계 소프트웨어 및 추론 과업을 대상으로 실험을 수행했다.

적절한 전문성을 갖춘 인간이 해당 과업을 완료하는 데 걸리는 시간을 측정하고, 이를 기준으로 AI 모델의 성공 여부를 분석했다.

그 결과, 인간 전문가가 소요하는 시간은 해당 과업에서 모델이 성공할지를 매우 강하게 예측하는 지표임이 확인되었다.

 

 

 

인간 수행 시간과 모델 성공률의 관계


 

구체적으로, 현재 모델들은 인간이 4분 미만에 수행하는 과업에서는 거의 100%에 가까운 성공률을 보인다.

반면 인간에게 4시간 이상이 소요되는 과업에서는 성공률이 10% 미만으로 급격히 떨어진다.

이를 통해 모델의 역량을 인간 기준으로 x% 확률로 성공적으로 완료할 수 있는 과업의 길이라는 지표 하나로 특성화할 수 있다.

 

 

 

METR 벤치마크와 Task 길이의 지수적 증가


https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

 

 

이러한 방식으로 정의된 METR 벤치마크는 AI가 수행할 수 있는 작업의 길이를 시간 단위로 측정한다.

흥미로운 점은 이 작업 길이가 지난 6년간 매우 일관되게 증가해 왔다는 것이다.

과거 데이터를 살펴보면, 최첨단 모델들이 (성공 확률 50% 기준으로) 완료할 수 있는 과업의 길이는 극적으로 증가해 왔다.

 

이를 위 그림과 같이 로그 스케일로 시각화를 해보면, 인간이 해당 작업을 수행하는 데 걸리는 시간을 기준으로 보면, AI가 처리 가능한 작업의 길이는 약 7개월마다 두 배씩 증가하는 지수적 추세를 보인다.

이 추세가 앞으로도 유지된다면, 10년 이내에 현재 인간이 며칠 또는 몇 주가 걸려 수행하는 상당수의 소프트웨어 과업을 AI Agent가 독립적으로 수행할 수 있을 것으로 예측된다.

 

 

 

Full Research 자료: https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

 

Measuring AI Ability to Complete Long Tasks

 

metr.org