지금 이 순간에도 AI 크롤러 한 대가 당신의 블로그를 읽고 있을 가능성이 높습니다. 그것도 두 번째로 말이죠. Cloudflare가 공개한 데이터에 따르면, 전 세계 AI 크롤러 트래픽의 절반 이상이 이미 한 번 수집한 페이지를 다시 방문하는 데 소비됩니다. 당신의 뉴스레터 아카이브, 칼럼, 블로그 포스트는 여러 AI 기업의 서버에 들어가 있을 가능성이 크고, 그 대가로 청구된 금액은 한 번도 없었습니다.

7월 1일, Cloudflare는 그 계산을 바꿀 수 있는 날짜를 공표했습니다. 2026년 9월 15일이 기한입니다.

참고: Cloudflare는 웹 사이트의 속도를 높이고 사이버 공격으로부터 서버를 보호하는 미국의 글로벌 정보통신기술(ICT) 기업입니다. 전 세계 웹사이트의 약 20% 이상이 이 서비스를 이용하고 있으며, 사용자와 원본 서버 사이에서 '방패' 역할을 하는 리버스 프록시(Reverse Proxy) 기반으로 작동합니다.

9월 15일, 크롤러가 분리됩니다

Cloudflare의 새 정책은 AI 기업들에게 검색 인덱싱용 크롤러와 AI 학습·에이전트용 크롤러를 명확히 분리하도록 요구합니다. 기한까지 분리 조치를 취하지 않으면, 광고를 운영하는 퍼블리셔 사이트에서 해당 크롤러는 기본으로 차단됩니다. 적용 대상은 신규 Cloudflare 가입자, 기존 고객의 새 사이트, 그리고 무료 플랜 이용자 전체입니다. 세계 웹 트래픽의 상당 비중이 Cloudflare 인프라를 통과한다는 점에서, 이 정책이 닿는 범위는 생각보다 넓습니다.

지금까지 대부분의 AI 학습 크롤러는 검색 인덱싱 봇과 같거나 유사한 식별자를 사용해왔습니다. 퍼블리셔 입장에서는 어느 봇이 검색 노출을 위한 것이고 어느 것이 대형 언어 모델 학습을 위한 것인지 구분하기 어려웠습니다. robots.txt에 특정 크롤러 식별자를 명시적으로 차단하지 않는 한, 사실상 모든 크롤러에게 열린 문이었습니다. Cloudflare는 이 불투명함을 정책의 근거로 삼았습니다. 식별 가능한 크롤러만 통과시키고, 나머지는 막겠다는 것입니다.

여기에 Cloudflare는 'Pay Per Use' 수익 모델을 함께 제안했습니다. AI 검색 서비스 Ceramic.ai와 You.com이 초기 파트너로 참여하며, 콘텐츠가 AI 검색 결과에 실제로 활용되거나 프리미엄 접근이 발생할 때마다 퍼블리셔에게 수익이 배분됩니다. Cloudflare는 이 과정에서 CDN 사업자를 넘어 콘텐츠 거래 중개자 역할을 맡으려는 셈입니다. 또한 Cloudflare는 Google이 다른 AI 기업들보다 약 두 배 많은 데이터에 접근하고 있다는 수치를 공개했는데, 이 격차가 지금의 공정한 경쟁 환경인지 퍼블리셔 스스로 판단해보라는 의도도 담겨 있습니다.

Google이 이 틀에 동의하지 않는 이유

이 정책에 반박 입장을 공개적으로 밝힌 것은 Google입니다. Google은 자사의 'Google Extended' 봇이 이미 퍼블리셔에게 AI 학습 거부 옵션을 별도로 제공하고 있으며, 학습을 거부해도 검색 결과 노출에는 영향을 주지 않는다고 밝혔습니다. 분리된 수단을 이미 운영하고 있는데, Cloudflare의 일방적 기한 설정이 자사를 부당하게 묶는다는 것입니다.

이 반박을 단순한 방어로 흘려듣기 어려운 이유가 있습니다. Cloudflare의 정책이 실질적으로 작동하려면 AI 기업들이 Cloudflare가 설정한 분류 기준을 따라야 합니다. 그런데 Google처럼 자사 기준이 별도로 있다고 주장하는 대형 사업자가 이 틀 밖에 머무를 수 있다면, 가장 많은 데이터를 수집하는 사업자를 실제로 막아내는 효과는 제한적입니다. 퍼블리셔 보호 정책이 가장 큰 참여자를 포괄하지 못하는 상황이 벌어질 수 있습니다.

Cloudflare의 사업 맥락도 함께 읽어야 합니다. 콘텐츠 유통 거래가 Cloudflare 인프라 위에서 이뤄지면, Cloudflare는 새로운 중개 수수료 수익을 가져갑니다. 퍼블리셔 보호라는 명분과 자체 수익 모델 실험이라는 동기가 함께 작동하는 정책입니다. 저는 이 두 동기가 반드시 충돌하지는 않는다고 생각합니다. 그러나 Cloudflare가 퍼블리셔 편에 서는 이유가 순수한 선의에서만 비롯되지 않는다는 점은 읽고 가는 편이 좋습니다.

한국 1인 퍼블리셔가 9월 15일 전에 살펴볼 것들

경쟁 전략 이론에서 오래 논의되어 온 관찰이 하나 있습니다. 자신이 보유한 자산이 얼마나 귀한지를 정확히 인식하고, 그 가치를 지키는 데 의도적인 비용을 치르는 사업자가 협상 테이블에서 더 오래 살아남습니다. 특정 포지션을 유지하는 데 드는 비용을 아끼려다 포지션 자체를 잃는 경우가 그 반대편에 있습니다. 당신의 콘텐츠가 AI 기업들의 반복 수집 대상이 된다는 사실은, 그 콘텐츠가 귀하다는 신호입니다. 그 신호를 수동적으로 받을지, 능동적으로 활용할지는 다른 선택입니다.

한국의 뉴스레터 발행인, 블로그 운영자, 콘텐츠 디렉터 상당수는 Cloudflare를 사용하지 않거나, 사용하더라도 AI 크롤러 관련 설정을 따로 확인한 적이 없을 것입니다.

Cloudflare를 사용하는 사이트라면, 대시보드 보안 메뉴에서 'AI Scrapers and Crawlers' 항목을 찾아볼 수 있습니다. 이 항목은 2024년 하반기부터 무료 플랜에도 제공되고 있으며, 한 번의 토글로 주요 AI 학습 크롤러를 일괄 차단할 수 있습니다. 9월 15일 이후에는 미분리 크롤러가 기본으로 막힐 예정이지만, 그 전에 설정을 직접 확인해두는 것이 더 주도적입니다.

Cloudflare를 쓰지 않더라도 robots.txt를 활용할 수 있습니다. GPTBot(OpenAI), ClaudeBot(Anthropic), CCBot(Common Crawl) 등 주요 크롤러 식별자는 공개되어 있으며, 차단 항목으로 추가하는 것은 기술 지식이 없어도 가능한 작업입니다. 이것이 완전한 방어는 아닙니다. robots.txt를 무시하는 크롤러를 기술적으로 막을 방법은 없고, 새로 등장하는 크롤러는 차단 목록에 잡히지 않습니다. 그러나 아무 조치도 하지 않은 것과 명시적으로 의사를 밝혀둔 것 사이에는, 나중에 교섭 상황이 왔을 때 의미 있는 차이가 생깁니다.

Pay Per Use 모델이 한국 소규모 퍼블리셔에게 즉시 현실적인 수익 수단이 될 가능성은 낮습니다. Ceramic.ai와 You.com은 영미권 중심 서비스이고, Cloudflare의 수익 배분 네트워크가 한국어 콘텐츠까지 포괄하려면 시간이 걸립니다. 그러나 콘텐츠에 스스로 값을 매기려는 시도 없이는, 시장이 그 값을 0원으로 고정하는 것을 막기 어렵습니다.

AI가 반복해서 수집하고 싶어 하는 글을 쓰는 사람이라면, 한 번쯤 이 질문을 스스로에게 던져볼 때가 됐습니다. 내 글이 AI 학습에 쓰여도 괜찮은가, 괜찮다면 어떤 조건에서 괜찮은가. 그 답을 미리 정해두지 않으면, 언젠가 다른 누군가가 대신 정합니다.

9월 15일은 기술 정책의 데드라인입니다. 그 날짜가 꺼내든 질문은 설정 메뉴 한참 너머에 있습니다. 당신의 콘텐츠는 지금 얼마짜리입니까.