Vernor Vinge가 1993년 쓴 논문 한 편이 있습니다. 지능이 일정 수준을 넘으면 그 지능이 스스로 더 나은 지능을 설계하고, 새로 만들어진 지능이 다시 다음 단계를 설계하는 순환이 이어진다는 내용이었습니다. 그는 이것을 기술적 특이점이라 불렀고, 당시 컴퓨터공학계에서 이 논문은 흥미롭지만 사변적인 텍스트로 분류되었습니다. 32년 뒤, Anthropic 연구소는 그 순환이 어느 단계에 와 있는지를 추적한 보고서를 내놓았습니다. AI 시스템이 다음 세대 AI를 훈련시키는 작업의 일부에 실제 투입되고 있다는 내용이었습니다.

이 보고서가 Hacker News에 올라왔을 때 489개의 댓글이 달렸습니다. 단순한 기술 기사 하나에 이 수의 반응이 쏟아지는 경우는 드뭅니다. 댓글의 방향도 일정하지 않았습니다. "이것은 경고 신호다"라는 입장과 "현재 단계를 과장하고 있다"는 입장이 같은 단어를 전혀 다른 방향으로 사용했습니다. 합의된 해석이 없다는 것은, 이 변화가 아직 이름 붙이기 어려운 단계에 있다는 신호이기도 합니다.

도구가 다음 도구를 만드는 작업에 참여하기 시작했을 때, 그 도구를 쓰는 사람에게는 어떤 일이 일어납니까. 이 질문에서 이 글은 출발합니다.

AI가 다음 AI를 훈련시킨다는 것의 실제 의미

재귀적 자기개선RSI, Recursive Self-Improvement​이라는 표현은 기술적으로 정밀하게 사용해야 합니다. Anthropic의 보고서가 현재 단계라고 부르는 것은, AI가 완전 자율 방식으로 다음 버전을 혼자 만들어낸다는 의미가 아닙니다. 인간 연구자의 설계 아래에서, AI 시스템이 다음 세대 모델 훈련에 필요한 데이터를 생성하거나, 평가 기준을 세우거나, 실험 설계를 검토하는 작업에 기여하고 있다는 것입니다.

그럼에도 이 기여가 일정 수준을 넘으면 개선 속도의 성격이 달라집니다. 인간이 직접 하는 작업과 달리, AI가 보조하는 작업은 병렬로 처리되고 하루 24시간 실행됩니다. 연구자 50명이 3개월에 걸쳐 할 실험 설계를 AI가 보조하면, 같은 기간 안에 실험 수를 훨씬 늘릴 수 있습니다. 더 많은 실험이 돌아가면 다음 모델의 개선 방향을 찾는 속도도 빨라집니다. RSI 초기 단계에서 일어나는 가장 실질적인 변화가 여기에 있습니다.

사용자 입장에서 이 변화는 도구 교체 주기와 직접 연결됩니다. GPT-3가 공개된 것이 2020년 6월이었고, GPT-4가 나온 것이 2023년 3월이었습니다. 약 32개월 간격입니다. 그 뒤 GPT-4o가 2024년 5월, o1이 같은 해 9월에 나왔습니다. 4~5개월 주기로 이전 버전과 성격이 다른 모델이 등장하기 시작했습니다. Claude, Gemini, Llama 계열도 비슷한 속도로 버전을 올렸습니다. 이것이 전부 RSI 덕분이라고 말하기는 어렵습니다. 하지만 AI가 AI 개발을 보조하기 시작한 시점과 이 주기 단축이 겹친다는 점은 주목할 만합니다.

숙련도의 기준이 이동합니다

지난 3년간 AI 도구를 잘 쓴다는 평가를 받은 사람들에게는 공통점이 있었습니다. 정밀한 프롬프트를 작성하는 능력, 어떤 모델이 어떤 작업에 적합한지 아는 감각, 출력물을 빠르게 편집하는 속도. 정작 이 중에서 프롬프트 정밀도가 가장 빠르게 가치를 잃을 능력입니다.

이유는 간단합니다. 지금의 정밀한 프롬프트는 대부분 현재 모델의 한계를 우회하기 위한 방법입니다. 맥락을 넓게 이해하지 못하면 배경을 길게 설명해야 하고, 역할 설정에 민감하면 페르소나를 명시해야 합니다. 모델이 발전해서 그 한계가 줄어들면, 그 한계를 우회하기 위해 쌓은 기술도 함께 낡아집니다. 3년간 연마한 프롬프트 패턴이 다음 버전 모델에서는 오히려 출력 품질을 낮추는 잡음이 될 수 있습니다.

모델 선택 감각은 조금 더 천천히 사라집니다. Claude는 긴 문서 분석에, GPT-4o는 대화 맥락 유지에 강점이 있다는 식의 차이를 아는 것은 현재 시점에서 유용합니다. 그러나 모델들이 점차 범용화되면 이 구분도 흐려집니다. 지금의 차이가 다음 버전에서도 그대로 유지된다는 보장이 없습니다.

가장 오래 유효한 것은 편집 능력입니다. 더 정확히 말하면, 무엇이 좋은 결과물인지 판단하고, 어디가 틀렸는지 찾고, 어느 방향으로 고쳐야 하는지 결정하는 능력입니다. 이것은 도구의 성격과 무관하게 사람 안에 남습니다. 도구가 아무리 빠르게 바뀌어도, 좋은 글과 나쁜 글을 구분하는 감각, 적절한 전략과 부적절한 전략을 구분하는 안목은 도구 바깥에 있습니다.

이 논의를 회의적으로 보는 입장

489개의 댓글 중 상당수는 회의적이었습니다. "AI가 AI를 훈련시킨다"는 표현이 현재 실제 수준보다 훨씬 강한 이미지를 만들어낸다는 비판이었습니다. 현재 RSI의 기여는 인간 연구자의 철저한 감독 아래에서 일어나며, 자율적인 자기개선과는 거리가 있다는 것입니다.

더 구체적인 반박도 있었습니다. RSI 보고서의 지표들이 주로 통제된 연구 환경의 실험 결과이며, 이것이 실제 제품 개발 사이클에 얼마나 빠르게 반영되는지는 별개의 문제라는 것입니다. GPT-3에서 GPT-4까지 걸린 2년 동안, 병목은 알고리즘보다 데이터 품질과 안전 검증에 있었습니다. AI가 알고리즘 반복 속도를 높인다 해도, 데이터 수집과 안전 검증 병목은 여전히 사람의 시간이 필요합니다. RSI가 가속 효과를 낸다 해도, 그 가속이 어느 단계에서 막히느냐는 열린 질문입니다.

이 반론은 타당합니다. 변화 속도를 과장해서 불안을 만드는 것은 이 글의 목적이 아닙니다. 다만 "아직 완전한 RSI가 아니니 지금 방식을 그대로 써도 된다"는 방향으로 결론을 내리기에는, 지난 3년의 실제 변화 속도가 이미 과거와 다릅니다. 2021년에 1인 기획자 대부분은 AI 도구를 작업 흐름에 포함시키지 않았습니다. 2024년에는 포함시키지 않으면 경쟁력을 의심받습니다. 이 전환이 3년 만에 일어났습니다. 그 속도를 기준으로 앞을 보면, "아직 여유 있다"는 말을 쉽게 하기 어렵습니다.

1인 기획자가 지금 점검해야 할 것

이 변화 앞에서 무엇을 해야 하는지 묻는다면, 새로운 도구를 더 빨리 배우는 것이 먼저는 아닙니다. 도구가 빠르게 바뀐다면, 도구 사용법을 빠르게 흡수하는 능력보다 도구 독립적인 판단 능력이 더 오랫동안 쓸모 있습니다.

지금 당신이 AI에 위임한 작업 중에 판단이 섞여 있는지 확인할 필요가 있습니다. 문서 요약, 글 교정, 아이디어 나열은 위임해도 됩니다. 그러나 "이 방향이 맞는가"를 AI 출력물이 사실상 결정하는 구조가 되어 있다면, 도구가 바뀔 때 판단 근거도 함께 흔들립니다. 도구에게 판단을 맡긴 사람은 도구가 바뀌면 새 판단 기준도 도구에게서 받아야 합니다. 기준이 도구 안에 있는 사람과 자신 안에 있는 사람은, 도구가 교체될 때 전혀 다른 처지가 됩니다.

지금 쓰는 도구의 한계를 말로 설명할 수 있는지도 점검할 만합니다. 어떤 유형의 질문에서 잘못 대답하는지, 어떤 맥락에서 출력을 신뢰하기 어려운지. 이것을 설명할 수 있다면, 다음 버전에서 한계가 달라졌을 때 빠르게 파악할 수 있습니다. 사용법만 아는 사람은 한계가 이동했을 때 눈치채지 못하고 같은 방식을 계속 씁니다. 그러다 이전 모델의 한계를 우회하기 위해 개발한 프롬프트 구조를 새 모델에 그대로 적용해서 오히려 성능을 낮추기도 합니다.

주기적으로 AI 없이 같은 작업을 해보는 것도 유용합니다. 도구에 의존하는 시간이 길어질수록 자신의 기준선이 어디에 있는지 잊기 쉽습니다. 그 기준선을 알아야, 도구가 어디까지 보조하고 있는지 정확히 가늠할 수 있습니다. 기준선을 모르면 도구가 만들어 준 결과가 자신의 수준인지 도구의 수준인지 구분하지 못하고, 도구가 없어지거나 바뀌었을 때 당황합니다.

카페를 운영하며 수년간 커피 맛을 판단하는 감각을 키운 사람은 에스프레소 머신이 어떻게 바뀌어도 자신의 기준이 남아 있습니다. 머신 조작법만 익힌 사람은 머신이 교체되면 다시 처음부터 배웁니다. AI 도구를 쓰는 기획자에게도 같은 갈림길이 있습니다. 도구가 아무리 빠르게 자신을 다시 쓴다 해도, 그 도구를 어느 방향으로 쓸지, 어느 순간 멈출지를 결정하는 사람의 판단은 도구 바깥에 있습니다.