AI 에이전트 비용 딜레마

AI 에이전트를 실무에 쓰다 보면 딜레마가 생깁니다. 똑똑한 모델을 쓰면 비용이 치솟고, 저렴한 모델을 쓰면 품질이 떨어집니다. 복잡한 작업에 최고급 모델을 끝까지 돌리면 비용이 감당이 안 되고, 저렴한 모델로 대체하면 중요한 판단에서 실수가 납니다.

앤트로픽이 4월 9일에 공개한 '어드바이저 전략Advisor Strategy​'이 이 딜레마를 구조적으로 풀었습니다. 핵심은 단순합니다. 비싼 모델이 전체를 처리하는 대신, 저렴한 모델이 일하다가 어려운 판단이 필요할 때만 비싼 모델에 물어보는 것입니다.

기존 방식이 비싼 이유

AI 에이전트를 만드는 기존 방식은 두 가지였습니다.

첫 번째는 최고급 모델(Opus)로 전체를 돌리는 것. 정확도는 높지만, 도구를 호출하고 결과를 읽고 반복하는 모든 과정에서 비싼 토큰이 소모됩니다. 단순한 파일 읽기에도 Opus 가격이 붙습니다.

두 번째는 큰 모델이 계획을 세우고 작은 모델들에 분배하는 오케스트레이터 패턴. 이 방식은 분해 로직, 워커 풀, 오케스트레이션 관리가 필요해서 구현이 복잡합니다.

어드바이저 전략은 이 둘을 뒤집습니다.

작은 모델이 일하고, 큰 모델이 조언합니다

구조는 이렇습니다. Sonnet(또는 Haiku)이 '실행자(executor)'로서 작업 전체를 처리합니다. 도구를 호출하고, 결과를 읽고, 반복하면서 해결책을 찾아갑니다. 대부분의 작업은 실행자가 혼자 완료합니다.

실행자가 스스로 판단하기 어려운 결정에 부딪히면, Opus에 '조언(advice)'을 요청합니다. Opus는 공유된 맥락을 보고 계획, 수정 방향, 또는 중단 신호를 돌려줍니다. 실행자가 이를 받아서 계속 진행합니다.

핵심 규칙이 있습니다. 어드바이저(Opus)는 도구를 직접 호출하지 않습니다. 사용자에 직접 출력을 내보내지도 않습니다. 오직 실행자에 방향을 알려줄 뿐입니다. 실행은 전부 저렴한 모델이 합니다.

회사에 비유하면 이해가 쉽습니다. 주니어 직원이 업무를 처리하다가 판단이 어려운 상황에서 시니어에 잠깐 물어보는 것과 같습니다. 시니어가 모든 업무를 직접 하지 않아도, 핵심 판단에만 개입하면 전체 품질이 올라갑니다.

실제 성능과 비용

벤치마크 결과가 이 전략의 효과를 보여줍니다.

Sonnet + Opus 어드바이저 조합은 SWE-bench Multilingual에서 Sonnet 단독 대비 정확도가 2.7%포인트 올라갔습니다. 동시에 에이전트 작업당 비용은 11.9% 줄었습니다. 더 정확해지면서 더 저렴해진 겁니다.

BrowseComp와 Terminal-Bench 2.0에서도 Sonnet + 어드바이저가 Sonnet 단독보다 높은 점수를 기록하면서 작업당 비용은 더 낮았습니다.

더 극적인 건 Haiku + Opus 어드바이저 조합입니다. BrowseComp에서 Haiku 단독 점수는 19.7%였습니다. Opus 어드바이저를 붙이면 41.2%로, 두 배 이상 뛰었습니다. Sonnet 단독보다 점수는 29% 낮지만, 비용은 85% 적습니다. 대량 처리가 필요한 작업에서 강력한 선택지입니다.

비용이 줄어드는 원리는 간단합니다. 어드바이저(Opus)가 생성하는 건 보통 400~700토큰 정도의 짧은 계획뿐입니다. 나머지 전체 출력은 저렴한 실행자 모델의 가격이 적용됩니다. Opus를 끝까지 돌리는 것과 비교하면 비용 차이가 큽니다.

실제 적용 방법

API에서 한 줄 추가로 작동합니다.

```pythonresponse = client.messages.create(    model="claude-sonnet-4-6",  # 실행자    tools=[        {            "type": "advisor_20260301",            "name": "advisor",            "model": "claude-opus-4-6",  # 어드바이저            "max_uses": 3,  # 호출 횟수 제한        },        # 기존 도구들 그대로 유지    ],    messages=[...])```

베타 헤더 `anthropic-beta: advisor-tool-2026-03-01`을 추가하면 바로 사용할 수 있습니다.

몇 가지 실무 포인트가 있습니다.

비용 통제. `max_uses`로 요청당 어드바이저 호출 횟수를 제한합니다. 어드바이저 토큰은 사용량 블록에서 별도로 보고되므로, 티어별 비용을 정확히 추적할 수 있습니다.

기존 도구와 병행. 어드바이저 도구는 Messages API 요청에 다른 도구와 함께 넣으면 됩니다. 웹 검색, 코드 실행, Opus 상담을 같은 루프 안에서 쓸 수 있습니다.

별도 관리 불필요. 모델 핸드오프가 하나의 /v1/messages 요청 안에서 처리됩니다. 추가 라운드트립이나 컨텍스트 관리 코드가 필요 없습니다. 실행자가 언제 어드바이저를 호출할지 스스로 판단합니다.

어떤 상황에서 쓸 것인가

앤트로픽이 권장하는 비교 방법이 있습니다. 기존 평가 세트를 세 가지 설정으로 돌려보는 것입니다.

Sonnet 단독
Sonnet + Opus 어드바이저
Opus 단독

AI 모델 활용 단계별 전환

이 세 가지의 정확도와 비용을 비교하면, 자기 작업에 어느 조합이 최적인지 바로 판단할 수 있습니다.

실무에서 유용한 시나리오는 이렇습니다.

코딩 에이전트. 대부분의 코드 수정은 Sonnet이 처리하고, 아키텍처 판단이나 복잡한 디버깅에서만 Opus가 개입합니다. SWE-bench 결과가 이 시나리오를 직접 검증합니다.

웹 리서치 에이전트. 정보 수집과 정리는 Haiku가 빠르게 처리하고, 복잡한 추론이 필요한 판단에서 Opus가 방향을 잡아줍니다. BrowseComp에서 Haiku 단독 19.7% → 어드바이저 추가 시 41.2%로 뛴 결과가 이 시나리오입니다.

대량 처리. 수천 건의 문서를 분류하거나 요약할 때, Haiku + Opus 어드바이저 조합이 효과적입니다. Sonnet 단독 대비 비용이 85% 적으면서 단순 Haiku보다 정확도가 두 배입니다.

조직 운영 원리를 AI에 적용

어드바이저 전략의 의미는 단순한 비용 절감을 넘어섭니다.

기존의 AI 에이전트 설계는 "최고 모델을 쓸 것인가, 비용을 아낄 것인가"의 이분법이었습니다. 어드바이저 전략은 이 이분법을 깹니다. 최고 수준의 판단력과 비용 효율을 동시에 가져갈 수 있는 구조를 제시합니다.

사람 조직에서도 이미 이렇게 일합니다. 모든 업무를 시니어가 하면 비용이 감당이 안 되고, 모든 업무를 주니어에 맡기면 품질이 보장이 안 됩니다. 주니어가 실행하되 핵심 판단에서 시니어가 개입하는 구조가 효율적입니다. AI 모델 간의 협업을 같은 논리로 설계한 겁니다.

AI 에이전트를 실무에 도입하면서 비용 때문에 망설이고 있다면, 어드바이저 전략이 현실적인 해법이 될 수 있습니다. Opus의 판단력이 필요한 순간에만 Opus를 쓰고, 나머지는 Sonnet이나 Haiku가 처리하는 것. 한 줄 추가로 가능합니다.