Agentic AI 구축/Agentic AI 트렌드

Context Management의 중요성 (긴 Context는 반드시 실패한다)

gksyb4235 2026. 1. 27. 11:55

긴 Context는 실패한다


 

최첨단 LLM의 Context Window는 빠르게 확장되고 있다.

최근 모델들은 최대 100만, 심지어 1000만 토큰까지 처리할 수 있다.

이로 인해 “이제는 Context만 충분히 길다면 우리가 꿈꾸던 에이전트를 만들 수 있다”는 기대가 자연스럽게 따라붙는다.

충분히 긴 컨텍스트 창만 있다면, 도구 설명, 문서, 지시사항, 히스토리까지 전부 프롬프트에 넣고 모델이 알아서 판단하게 하면 된다는 생각이다. 검색도 필요 없고, 선택도 필요 없으며, 그저 모든 것을 넣으면 된다는 접근이다.

하지만 이 기대는 여러 한계에 부딪힌다.

 

 

Context Window가 커진다는 것의 의미


 

 

LLM에서 Context Window는 모델이 한 번에 처리할 수 있는 최대 토큰 수를 의미한다.

이것이 커질수록 모델은 더 많은 정보를 동시에 고려할 수 있고, 더 긴 대화, 더 많은 문서, 더 복잡한 지시를 한 번에 처리할 수 있다.

참고로 10만 토큰 분량의 텍스트는 약 325KB 정도이며, 1000만 토큰은 약 32MB에 해당한다.

이론적으로는 한 번의 쿼리로 책 한 권, 혹은 여러 문서를 통째로 넣을 수 있는 수준이다.

 

하지만 문제는 “처리할 수 있다”와 “잘 처리한다”는 전혀 다른 이야기라는 점이다.

컨텍스트가 길어질수록 연산량은 급격히 증가하고, 이는 지연 시간 증가와 비용 상승으로 이어진다.

더 중요한 문제는, 컨텍스트가 길어질수록 모델이 입력 전체에 걸쳐 주의와 관련성을 유지하기가 점점 어려워진다는 점이다.

결과적으로 출력 품질이 오히려 떨어지는 현상이 발생한다.

 

 

 

이와 관련해 AI 연구자 Andriy Burkov는 “10M 컨텍스트는 사실상 가상에 가깝다. 256k 토큰보다 긴 프롬프트로 실제 훈련된 모델은 거의 없다”고 지적한 바 있다.

즉, 일정 길이를 넘어가면 모델은 구조적으로 해당 입력을 잘 다루도록 학습되지 않았으며,
품질 저하는 자연스러운 결과라는 것이다.

 

 

긴 Context가 만들어낸 착각들


긴 컨텍스트는 몇 가지 잘못된 기대를 낳았다.

  1. 첫째, 가장 적절한 문서를 찾을 필요 없이 전부 프롬프트에 넣으면 된다는 생각이다. 이는 RAG에 대한 관심을 약화시켰다.
  2. 둘째, 모든 도구를 연결하기만 하면 모델이 어떤 일이든 할 수 있을 것이라는 MCP에 대한 과도한 기대다.
  3. 셋째, 충분히 많은 정보를 넣어주면 에이전트가 스스로 판단하고 진화할 것이라는 낙관론이다.

하지만 실제로 긴 컨텍스트는 더 나은 응답을 보장하지 않는다.

오히려 컨텍스트를 과도하게 쌓으면 에이전트와 애플리케이션은 예상치 못한 방식으로 실패하기 시작한다.

컨텍스트는 오염될 수 있고, 주의를 분산시키며, 혼란을 유발하거나 내부적으로 충돌할 수 있다.

특히 에이전트는 정보를 수집하고, 결과를 종합하고, 행동을 조율하기 위해 컨텍스트에 강하게 의존하기 때문에 이러한 문제에 훨씬 취약하다.

 

 

 

 

Context의 실패 유형 4가지


Context 오염 (Context Poisoning) :
Hallucination이나 기타 오류가 Context에 포함되어, 이후 계속 참조되는 상황.


컨텍스트 오염은 환각이나 잘못된 정보가 컨텍스트에 포함된 뒤, 이후 계속 참조되는 상황을 의미한다.

DeepMind는 Gemini 2.5 기술 보고서에서 이 문제를 명확히 지적했다.

포켓몬을 플레이하던 Gemini 에이전트는 간헐적으로 게임 상태를 잘못 인식했고, 이 잘못된 인식이 목표나 요약 섹션에 반영되면서 컨텍스트가 오염되었다.

한 번 목표가 잘못 설정되면, 에이전트는 달성 불가능한 목표를 전제로 전략을 세우고 행동을 반복하게 된다.

이 상태는 쉽게 회복되지 않으며, 오히려 잘못된 방향으로 더욱 깊이 고착된다.

 

참고 : https://storage.googleapis.com/deepmind-media/gemini/gemini_v2_5_report.pdf

 

 

 

Context 분산 (Context Distraction) :
Context가 지나치게 길어져서, 모델이 학습을 통한 지식보다 Context 자체에 과도하게 집중하는 현상


컨텍스트 분산은 컨텍스트가 지나치게 길어져 모델이 학습을 통해 얻은 지식보다 컨텍스트 자체에 과도하게 집중하는 현상이다.

에이전트형 워크플로우에서는 시간이 지날수록 컨텍스트가 누적된다.

문제는 이 누적된 히스토리가 더 이상 도움이 되지 않고, 오히려 모델의 사고를 방해하기 시작한다는 점이다.

 

Gemini 2.5 Pro는 100만 토큰 이상의 컨텍스트를 지원하지만, 실제 실험에서는 컨텍스트가 10만 토큰을 크게 초과할 경우 새로운 계획을 수립하기보다는 과거 행동을 반복하는 경향이 관찰되었다.

즉, 모델이 학습된 일반화 능력을 활용하기보다 “기억”에 매달리게 되는 것이다.

 

https://www.databricks.com/blog/long-context-rag-performance-llms

 

 

이 문제는 작은 모델일수록 더 심각하다.

Databricks 연구에 따르면 Llama 3.1 405B는 약 32k 토큰 부근부터 정확도가 떨어지기 시작했으며, 더 작은 모델은 훨씬 더 이른 시점에서 성능 저하를 보였다.

결국 초대형 컨텍스트의 실질적 용도는 요약이나 단순한 사실 검색에 가깝다.

다단계 추론이나 에이전트 제어에는 오히려 독이 될 수 있다.

 

 

 

Context 혼란 (Context Confusion) :
Context에 포함된 불필요한 정보가 모델의 응답 품질을 저하시킬 때 발생한다.


컨텍스트 혼란은 불필요한 정보나 도구 정의가 모델의 응답 품질을 직접적으로 저하시킬 때 발생한다.

한동안 모든 서비스가 MCP를 만들 것처럼 보였다.

모든 도구 설명을 프롬프트에 넣고, 모델이 알아서 적절한 도구를 선택하길 기대하는 방식이다.

하지만 도구는 많을수록 좋은 것이 아니었다.

https://gorilla.cs.berkeley.edu/leaderboard.html

 

Berkeley Function Calling Leaderboard는 이를 명확히 보여준다.

이 벤치마크에 따르면, 제공되는 도구 수가 늘어날수록 모든 모델의 성능은 일관되게 저하된다.

심지어 “어떤 도구도 사용하지 않는 것이 정답인 상황”에서도 모델은 종종 무관한 도구를 호출한다.

 

https://arxiv.org/abs/2404.15500

 

 

GeoEngine 벤치마크에서는 이 문제가 극단적으로 드러난다.

46개의 도구를 모두 제공했을 때 Llama 3.1 8B 모델은 실패했지만, 도구 수를 19개로 줄이자 동일한 모델이 성공했다.

컨텍스트에 포함된 모든 정보는 모델의 주의 대상이 된다. 불필요한 정보라도 예외는 없다.

 

 

 

Context 충돌 (Context Clash) :
Context에 새로 추가된 정보나 도구가 기존 정보와 직접적으로 모순될 때 발생한다.


컨텍스트 충돌은 새로 추가된 정보나 도구가 기존 컨텍스트와 직접적으로 모순될 때 발생한다.

최근 연구들은 정보를 한 번에 제공하는 프롬프트보다,
여러 턴에 걸쳐 정보를 누적하는 방식이 성능을 크게 저하시킨다는 점을 보여준다.

 

이유는 단순하다.

초기 턴에서 모델이 세운 잘못된 가정과 중간 답변이 컨텍스트에 남아, 이후의 추론을 왜곡하기 때문이다.

에이전트 환경에서는 이 문제가 더욱 치명적이다.

문서, 도구, 서브에이전트, 외부 시스템에서 수집한 정보들이 서로 다른 가정과 표현을 가지기 때문이다.

 

 

 

 

 

Full Research 자료

2025년 7월 14일 : https://research.trychroma.com/context-rot

 

Context Rot: How Increasing Input Tokens Impacts LLM Performance

 

research.trychroma.com

 

2025년 7월 22일 : https://www.dbreunig.com/2025/06/22/how-contexts-fail-and-how-to-fix-them.html

 

How Long Contexts Fail

Taking care of your context is the key to building successful agents. Just because there’s a 1 million token context window doesn’t mean you should fill it.

www.dbreunig.com