GPT-5.5와 0.3점 차이, 가격은 3분의 1

6월 25일, 구글은 제미나이 3.5 플래시에 '컴퓨터 유즈'를 기본 도구로 심었습니다. AI가 화면을 보고 클릭하고, 양식을 채우고, 지도를 열고, 검색 결과를 참조해 다음 단계를 결정하는 일을 사람 없이 수행합니다. 컴퓨터 조작 능력을 측정하는 OSWorld-Verified 벤치마크에서 이 모델은 78.4점을 기록했습니다. GPT-5.5가 78.7점이니 0.3점 차이입니다. 가격은 GPT-5.5의 3분의 1 수준입니다. 100만 토큰 입력 기준으로 구글은 1.5달러를 받고, 오픈AI는 5달러를 청구합니다. 출력 토큰도 마찬가지입니다. 구글은 9달러, 오픈AI는 30달러입니다.

수치만 놓고 보면 이야기는 단순합니다. 비슷한 성능을 훨씬 싸게 쓸 수 있게 됐습니다. 그런데 AI 에이전트를 실제 업무에 도입하는 일은 수치만으로 결정하기 어려운 면이 있습니다.

여러 모델을 이어 붙이던 복잡성이 하나로 모였습니다

기존에 컴퓨터 유즈 기능을 쓰려면 별도 모델을 따로 불러와야 했습니다. 제미나이 2.5 컴퓨터 유즈 모델이 화면을 처리하는 동안, 다른 모델이 검색 결과를 다루고, 또 다른 파이프라인이 지도 데이터를 받아 정리하는 식이었습니다. 개발자 입장에서는 여러 모델을 이어 붙이는 작업이 뒤따랐고, 연결 지점마다 오류 가능성이 생겼습니다.

이번 통합은 그 구조를 단순화했습니다. 제미나이 3.5 플래시 하나가 화면 인식, 검색 그라운딩, 지도 연동을 모두 처리합니다. 에이전트가 업무 흐름 안에서 맥락을 유지한 채 여러 작업을 연속으로 처리할 수 있게 됐습니다. 여러 모델 사이를 오가면서 생기던 맥락 손실과 오류 가능성이 줄었습니다.

구글의 움직임은 경쟁 구도 안에서 읽어야 합니다. 오픈AI의 오퍼레이터, 앤트로픽 클로드의 화면 조작 기능이 시장에 먼저 나와 있습니다. 구글은 제미나이 3.5 프로 출시를 7월로 미룬 상황에서, 플래시 라인업의 기능을 강화해 개발자 생태계를 먼저 확보하는 방향을 택했습니다. 정확도를 비슷하게 맞추고 가격으로 격차를 만드는 전략입니다.

이 전략이 개발자 생태계에 미치는 파급력은 벤치마크 수치 이상입니다. 구글 API를 이미 사용하는 개발자라면 새로운 모델을 추가로 계약하거나 프레임워크를 교체하지 않아도 됩니다. 기존 파이프라인에 컴퓨터 유즈 호출 한 줄을 추가하는 수준으로 기능을 얹을 수 있습니다. 전환 비용이 낮을수록 이동은 빨라집니다.

AI 에이전트가 실수하면 무슨 일이 생깁니까

화면을 보고 직접 클릭하는 에이전트는 웹 양식 입력, 사내 시스템 조작, 데이터 복사·붙여넣기 같은 반복 업무를 자동화 대상으로 끌어들입니다. API가 없어서 접근하기 어려웠던 레거시 시스템도 화면 조작 에이전트 앞에서는 자동화 후보가 됩니다. 인력이 부족한 소규모 팀에게는 이 변화가 더 넓은 의미를 갖습니다.

그러나 이 기능에 회의적인 시선도 적지 않습니다. 에이전트가 실제 시스템을 조작한다는 사실은 오류의 결과가 다르다는 의미이기도 합니다. 텍스트를 생성하다 틀린 문장은 삭제하면 그만이지만, 에이전트가 잘못된 버튼을 누르거나 잘못된 필드에 데이터를 입력하면 시스템 상태 자체가 바뀝니다. 오픈AI의 오퍼레이터 초기 테스트 과정에서도 예상치 못한 화면 전환이나 의도하지 않은 폼 제출 사례가 보고됐습니다. 에이전트의 처리 능력이 정교해질수록, 실수 하나가 더 깊숙이 파고들 수 있습니다.

보안 연구자들이 제기하는 위협도 있습니다. 화면을 직접 읽고 조작하는 에이전트는 인증 정보, 개인정보, 내부 데이터에 접근하는 경로가 됩니다. 공격자가 화면에 특정 내용을 심어 에이전트의 행동을 유도하는 프롬프트 인젝션 공격이 그중 대표적입니다. 성능 수치와 가격 경쟁력만 보고 도입을 결정하는 것은 이 위험을 검토하지 않겠다는 선택에 가깝습니다.

에이전트가 처리할 수 있는 업무 범위가 넓어질수록, 오작동 하나가 영향을 미치는 시스템 범위도 함께 커집니다. 오퍼레이터 초기 테스트에서 의도하지 않은 폼 제출이 보고된 것처럼, 에이전트에게 허용된 권한의 범위가 실수 하나의 결과를 결정합니다. 제어 절차를 미리 갖춰둔 팀과 그렇지 않은 팀의 차이는 사고가 발생한 시점에 나타납니다.

에이전트를 맡기기 전에 경계를 먼저 그려야 합니다

컴퓨터 유즈 기능이 API와 엔터프라이즈 플랫폼에 먼저 공개된 만큼, 개발 환경 없이 오늘 당장 업무에 얹기는 어렵습니다. 그러나 이 기능이 노코드 서비스나 업무 자동화 플랫폼으로 내려오는 시점은 예상보다 빠를 수 있습니다. 기술이 손에 닿기 전에 미리 정해두어야 할 것이 있습니다.

오류가 났을 때 되돌릴 수 있는 업무와 그렇지 않은 업무를 먼저 구분해두십시오. 에이전트가 실수했을 때 수정 가능한 업무는 자동화 대상으로 적합합니다. 송장 초안 작성, 데이터 정리처럼 사람이 검토 후 확정하는 방식으로 흐름을 설계할 수 있는 작업이 여기에 해당합니다. 계약서 전송, 고객 알림 발송처럼 한 번 실행하면 외부로 나가는 작업에는 에이전트가 최종 결정을 내리지 못하도록 사람 확인 단계를 끼워넣어야 합니다.

에이전트에게 어디까지 접근 권한을 줄 것인지 미리 정하십시오. 같은 작업을 시키더라도 전체 계정 권한을 부여하는 것과 특정 폴더나 특정 시스템만 허용하는 것은 오작동 피해 범위에서 차이가 납니다. 권한을 좁게 설계할수록 에이전트가 예상 밖의 행동을 했을 때 피해를 통제하기 쉬워집니다.

에이전트 로그를 어디서 확인할 수 있는지 파악해두십시오. 도입 도구가 어떤 화면에서 무엇을 클릭했는지 기록을 남기지 않는다면, 문제가 생겼을 때 원인을 추적하기 어렵습니다. 로그 기록과 감사 경로가 없는 에이전트 도구는 도입 계약 전에 제공사에 먼저 물어봐야 합니다.

이 세 가지 점검 항목은 특정 모델에 묶이지 않습니다. 구글의 컴퓨터 유즈든, 오픈AI의 오퍼레이터든, 앤트로픽의 화면 조작 기능이든, 에이전트가 실제 시스템에 손을 대는 순간부터 동일하게 유효합니다.

가격이 3분의 1이라는 수치는 에이전트 도입의 비용 장벽을 낮춥니다. 그 장벽이 낮아질수록 더 많은 팀에서 더 많은 실험이 시작됩니다. 실험이 늘면 오류 사례도 늘어납니다. 절차를 갖추고 시작하는 팀과 그렇지 않은 팀의 결과는 그 시점에 갈립니다.

에이전트가 마우스를 쥐기 전에, 어디를 클릭해도 되는지 먼저 정해두는 것이 지금 해야 할 일입니다.

GPT-5.5와 0.3점 차이, 가격은 3분의 1

여러 모델을 이어 붙이던 복잡성이 하나로 모였습니다

AI 에이전트가 실수하면 무슨 일이 생깁니까

에이전트를 맡기기 전에 경계를 먼저 그려야 합니다

참고 및 인용

리브레토의 인기글

리브레토 인사이트 구독

여러 모델을 이어 붙이던 복잡성이 하나로 모였습니다

AI 에이전트가 실수하면 무슨 일이 생깁니까

에이전트를 맡기기 전에 경계를 먼저 그려야 합니다

참고 및 인용

추천 인사이트

리브레토의 인기글