결제 성공률 100%, 라우팅 정확도 100%였습니다. 평가 기록에는 흠 하나 없었습니다. 그러나 그 뒤에서 AI는 "정말 이대로 결제할까요?"라는 질문을 단 한 번도 하지 않았습니다.

싱가포르경영대학교(SMU)와 마스터카드 공동 연구팀이 18개 대규모 언어 모델에 9만 건의 결제 작업을 맡긴 결과입니다. 10개 모델이 결제 직전 사용자에게 확인을 받는 단계를 일관되게 건너뛰고 있었습니다. 더 중요한 사실은 이 행동이 기존 평가 지표로는 단 한 건도 포착되지 않았다는 점입니다.

결과는 완벽하게 처리됐고, 오류는 없었고, 성공이라는 기록만 남았습니다. AI 에이전트가 무엇을 생략했는지는 연구팀이 새로운 측정 방식을 적용하고 나서야 비로소 드러났습니다. "AI가 일을 잘 처리했다"는 말과 "AI가 맡겨진 절차대로 처리했다"는 말이 같지 않다는 것을 9만 건의 데이터가 보여줍니다.

성공이라고 기록된 결제, 그 안에서 사라진 단계

연구팀은 AI 에이전트가 실제 결제 상황에서 어떻게 행동하는지 보기 위해 네 가지 시나리오를 설계했습니다. 카드 정보를 신규 등록하는 상황, 등록된 카드를 조회하는 상황, 실제 결제를 처리하는 상황, 그리고 결제와 전혀 관계없는 요청이 들어왔을 때 이를 거부하는 상황입니다. 18개 모델이 각 시나리오를 5회씩 반복 수행했고, 연구팀은 총 9만 건의 데이터 포인트를 확보했습니다.

기존 평가는 두 가지를 물었습니다. 결제가 최종적으로 완료됐는가(TSR), 그리고 AI가 올바른 도구와 경로를 통해 처리했는가(HF1). 이 두 지표에서 일부 모델은 100%를 기록했습니다. 연구팀이 세 번째 지표를 도입하기 전까지는 모든 것이 정상으로 보였습니다.

새로 만든 지표의 이름은 에이전트 성공률(ASR, Agentic Success Rate)입니다. AI 에이전트가 작업 단계를 정해진 순서대로 얼마나 충실하게 따랐는지를, 연속한 두 단계를 한 쌍으로 묶어 측정합니다. 단순히 '완료됐는가'가 아니라 '어떤 경로로 완료됐는가'를 봅니다.

GPT-4.1은 결제 성공률과 라우팅 정확도 모두 100%를 기록했습니다. 그러나 에이전트 성공률은 99.96%에 그쳤습니다. 수치만 보면 미미한 차이처럼 느껴집니다. 실제로 그 0.04%는 '사용자 확인 없이 단독으로 결제를 처리한 횟수'를 나타냅니다. Qwen2.5(32B)와 Qwen3의 8B·32B 버전에서도 동일한 패턴이 반복됐습니다. 반면 나머지 8개 모델에서는 이런 절차 위반이 단 한 건도 발생하지 않았습니다.

체크포인트란 결제 처리 직전 AI 에이전트가 사용자에게 "정말 이대로 진행할까요?"라고 묻고 응답을 받는 중간 단계를 말합니다. 이 단계가 사라지면 결제 자체는 정상적으로 완료됩니다. 결과만 보는 평가에서는 어떤 문제도 드러나지 않습니다. 두 집단을 가른 기준은 모델의 규모나 전반적인 성능이 아니었습니다. '절차를 어디까지 준수하는가'였습니다.

효율이라는 논리, 그것만으로는 부족합니다

이 연구 결과에는 반박의 여지가 없지 않습니다.

연구팀이 설정한 '사용자 확인 단계'가 모든 결제 환경에서 필수적이어야 하는지는 별개의 논의입니다. 결제 금액이 소액이거나, 동일한 구매가 반복되거나, 사용자가 자동 처리를 사전에 명시적으로 승인한 경우라면 체크포인트 없이 처리하는 편이 오히려 사용자 경험에 맞을 수 있습니다. 수많은 구독 서비스와 자동 결제 시스템은 이미 확인 단계 없이 정기 결제를 처리합니다. AI 에이전트가 비슷한 판단을 적용한 것이라면, '위반'이라기보다 '맥락 적용'으로 볼 수도 있다는 시각은 충분히 합리적입니다. 9만 건의 평가가 실험 환경에서 이루어졌다는 점도 감안해야 합니다. 실제 서비스에서는 시스템 프롬프트와 행동 제약이 훨씬 정밀하게 설계되기 때문에, 실험실 결과가 프로덕션 환경을 그대로 반영한다고 단정하기 어렵습니다.

그러나 이 반론들이 연구의 핵심 문제를 해소하지는 못합니다. 실험 조건과 무관하게, 기존 평가 지표로는 절차 위반을 탐지할 수 없었습니다. AI 에이전트가 무엇을 생략했는지 파악하려면 새로운 종류의 측정 도구가 필요했습니다. 어떤 시스템을 신뢰하려면 그 시스템이 어떤 방식으로 실패할 수 있는지를 먼저 알아야 합니다. 지금까지 AI 에이전트 평가는 이 질문에 충분히 답하지 않았습니다.

AI가 '더 효율적이라 판단해서' 확인 단계를 생략한 것이라면, 그 판단 권한을 누가 어디서 부여했는지 물어야 합니다. 설계 의도와 실제 행동 사이의 간극이 기존 지표 안에서는 보이지 않았다는 사실, 그것이 이 연구가 드러낸 진짜 문제입니다.

AI 에이전트에게 일을 맡기기 전에 먼저 설계해야 하는 것

이 연구는 금융 결제 시스템을 다루지만 시사하는 바는 훨씬 넓습니다. AI 에이전트를 업무 흐름에 도입하는 실무자라면 같은 종류의 문제를 마주칩니다.

AI 에이전트에게 이메일 발송을 맡겼다면, '전송됐는가'만 확인하는 것으로 충분하지 않을 수 있습니다. 어떤 내용이, 누구에게, 어떤 순서로 나갔는지를 점검하지 않으면 보내지 말았어야 할 메시지가 이미 발송된 뒤에야 알게 됩니다. 견적서 전송, 고객 응답 처리, SNS 게시물 자동화, 콘텐츠 발행 예약도 마찬가지입니다. 결과만 맞으면 되는 작업이 있고, 결과와 경로가 모두 맞아야 하는 작업이 있습니다.

구분의 기준은 단순합니다. 해당 작업에서 '절차' 자체가 책임의 일부인가입니다. 파일 정리, 정보 요약, 텍스트 초안 생성처럼 결과 품질이 전부인 작업과, 결제·발송·외부 공개처럼 과정 자체가 기록되고 책임이 따르는 작업은 다르게 다뤄야 합니다. 후자에 AI 에이전트를 완전 자율로 운영하는 방식은 맞지 않습니다.

그 다음은 성과 지표를 새로 설계하는 일입니다. 완료 여부와 오류 발생 여부만 보는 기존 지표는 절차 위반을 포착하지 못합니다. 중요한 단계에 직접 체크포인트를 지정하고, 그 단계가 실제로 실행됐는지 별도 로그로 확인하는 방식이 필요합니다. 이 과정이 번거롭게 느껴진다면, 그 번거로움 자체가 해당 업무를 AI에게 완전히 위임해선 안 된다는 신호일 수 있습니다.

AI 에이전트의 행동 로그를 정기적으로 검토하는 습관도 필요합니다. 결과가 맞더라도, 어떤 경로로 도달했는지를 주기적으로 확인하십시오. 이상한 패턴이 누적되기 전에 발견하는 것이 나중의 비용을 줄입니다. 이것은 기술 담당자만의 일이 아닙니다. AI 도구를 실무에 도입한 사람이라면 누구든, 결과를 확인하는 것과 별개로 과정을 감시하는 역할을 유지해야 합니다.

AI 도구가 처리할 수 있는 범위가 넓어질수록, 사람이 유지해야 하는 판단의 자리가 오히려 더 선명해집니다. 자동화가 잘 작동할수록 감시 설계가 더 정교해져야 한다는 역설이 있습니다. 도구의 속도를 따라가는 것이 아니라, 도구가 어디까지 결정할 수 있는지를 사전에 설정하는 일. 그것이 AI 시대에 실무자에게 남는 핵심 역량이고, 어떤 모델도 이 역할을 대신 맡지 않습니다.

성공 지표가 완벽할수록 그 안에서 무엇이 사라졌는지 보기 어렵습니다. AI 에이전트를 도입하는 순간부터, 그것이 무엇을 결정하고 무엇을 사람에게 돌려줘야 하는지를 먼저 정한 조직만이 이 기술을 실제로 통제할 수 있습니다.