AI가 못 베끼는 데이터로 4,000만 달러를 받았습니다

2026년 5월 말, 미국 헬스케어 기업 CVS가 한 데이터 스타트업에 4,000만 달러를 투자했습니다. 회사 이름은 H1. AI 붐 이후 SaaS 스타트업 투자가 눈에 띄게 줄어들었던 시점에 나온 소식이라 업계 안팎에서 주목받았습니다. 그런데 투자 규모보다 더 인상적인 것은 CEO 아리엘 카츠가 투자를 설명하면서 꺼낸 한 마디였습니다.

"AI는 워크플로 SaaS를 복제할 수 있습니다.
그러나 H1이 가진 고유한 의사 데이터는 그렇지 않습니다."

이 문장은 지금 소프트웨어 업계 전반에서 벌어지는 전환을 짧게 압축합니다. AI 도구가 빠르게 퍼지는 환경에서, 무엇이 계속 가치를 갖고 무엇이 그렇지 않은지의 구분선이 선명해지고 있습니다. 그리고 그 구분선이 의외로 단순한 자리에 있다는 것을, CVS가 4,000만 달러를 쓰면서 확인했습니다.

AI가 빠르게 따라잡는 것과 그렇지 않은 것

H1은 미국 의료진 정보를 모아 제약사·바이오텍·의료기기 기업에 제공하는 데이터 회사입니다. 의사 한 명 한 명의 전문 분야, 처방 패턴, 학술 출판 실적, 컨퍼런스 발표 이력, 병원 내 영향력 구조를 정제된 형태로 제공합니다. 영업 자동화나 마케팅 기능도 있지만, 회사가 실질적으로 내세우는 자산은 그 기능이 아니라 데이터 자체입니다.

이 구분이 최근 들어 중요해진 배경이 있습니다. GPT-4o, Claude 같은 범용 AI 모델이 자리를 잡으면서 "AI가 곧 워크플로 소프트웨어 대부분을 대체한다"는 전망이 조금씩 현실로 다가오고 있습니다. 일정 관리, 이메일 초안 작성, 계약서 요약, 미팅 메모 정리 같은 작업은 이미 AI가 상당 부분 처리하기 시작했습니다. 이른바 '도구 레이어'가 빠르게 상품화되고 있고, 특정 워크플로 기능 하나를 구현하는 데 걸리는 시간은 전과 비교하기 어려울 만큼 짧아졌습니다.

반면 H1의 의사 데이터베이스는 이 흐름과 다른 층위에 있습니다. 미국 전역 의사들의 처방 이력, 학술 네트워크, 병원 내 의사결정 역할 같은 정보는 수년에 걸쳐 개별 기록을 수집하고 정합성을 검증해야만 구성됩니다. 하루아침에 모으기 어렵고, 법적 제약도 있으며, 신뢰도는 축적 기간이 짧을수록 현장 채택률이 낮아집니다. CVS가 4,000만 달러를 투자한 것은 그 축적 과정 자체에 베팅한 것입니다.

방어선이 기능에서 데이터로 이동하는 이유

AI 이전에는 소프트웨어의 경쟁력을 흔히 기능 우위로 설명했습니다. UI가 더 직관적이거나, 연동 기능이 더 많거나, 처리 속도가 더 빠르다는 식이었습니다. 이 논리가 흔들리기 시작한 것은 범용 AI를 API 하나로 연결하면 기능 상당 부분을 수주 안에 따라잡을 수 있게 됐기 때문입니다. 스타트업이든 개인 개발자든 오픈소스 모델을 활용하면 전에는 몇 년이 걸렸을 기능 구현이 몇 주로 줄어들었습니다.

경영학에서 '지속 가능한 경쟁 우위'를 설명할 때 핵심 잣대로 쓰는 개념이 모방 비용입니다. 경쟁자가 당신의 강점을 베끼려면 실제로 얼마나 많은 시간과 자원이 드는가. 이 비용이 높을수록 방어선이 두텁고, 낮을수록 빠르게 잠식됩니다. H1의 경우 방어선의 두께는 의사 데이터의 축적 기간 자체입니다. 기능 우위는 경쟁자가 6개월 안에 따라잡을 수 있습니다. 3년치 임상·처방 데이터는 3년이 걸립니다.

국내에서도 이 구조가 보이는 사례들이 있습니다. 부동산 정보 플랫폼이 대형 포털보다 특정 용도에서 더 높은 신뢰를 받는 이유 중 하나는 기능 차이가 아니라, 사용자들이 수년간 직접 입력하고 검증한 실거래 정보의 밀도였습니다. 패션 이커머스가 대형 플랫폼과의 경쟁에서 버텨온 것도, 패션 특화 리뷰와 사이즈 데이터가 커뮤니티 활동으로 오랫동안 쌓인 덕분이었습니다. 기능이 비슷해 보여도 데이터 밀도가 다르면 체감이 달라집니다. 저는 이것이 단순한 기술 트렌드의 이야기가 아니라, 사업 운영의 기본 설계 문제라고 생각합니다.

그래도 '데이터가 있으면 살아남는다'는 공식은 과잉입니다

이 지점에서 반론을 정직하게 짚어야 합니다. H1의 논리는 설득력이 있지만, '독점 데이터를 가지면 AI 시대에도 경쟁 우위를 유지한다'는 식의 일반 공식으로 확장하면 조심해야 할 지점들이 생깁니다.

첫째, 데이터가 있어도 활용 역량이 없으면 그냥 방치됩니다. 국내 일부 대기업은 수년치 고객 데이터를 갖고 있지만, 그것으로 새로운 서비스를 만들거나 기존 의사결정을 개선하는 데 쓰지 못한 경우가 적지 않습니다. 데이터를 쌓는 것과 그것을 정제해서 실제로 가치 있게 만드는 것은 전혀 다른 종류의 역량입니다.

둘째, 데이터 해자 전략은 처음 사업을 시작하는 1인 사업자에게 즉각 열려 있는 경로가 아닙니다. H1이 다년간 구축한 의사 데이터베이스를 소규모 팀이 단기간에 비슷하게 구성하기는 어렵습니다. 이 전략은 이미 데이터를 축적해온 사람에게 유효한 방어 논리이지, 처음 진입하는 사람에게 즉각 적용되는 공격 전략이 아닐 수 있습니다.

셋째, 개인정보 보호 규제가 강해질수록 독점 데이터를 구성하고 유지하는 비용과 법적 리스크도 함께 올라갑니다. H1이 미국 헬스케어 시장의 특수한 규제 구조 안에서 구축한 모델이 다른 나라·다른 업종에서 그대로 작동한다는 보장은 없습니다.

그럼에도 이 문제를 완전히 옆으로 밀어두기 어렵습니다. AI가 도구 레이어를 빠르게 잠식하는 상황에서, 자신이 제공하는 가치가 오직 기능과 워크플로에만 있다면 그 자리는 점점 좁아집니다.

1인 사업자에게 남은 질문

H1의 사례를 한국 1인 사업자·소규모 실무자 맥락으로 옮겨볼 때, 점검해볼 만한 범주들이 있습니다.

관계 데이터입니다. 특정 고객사 담당자의 의사결정 스타일, 그들이 선호하는 보고서 형식, 업종 안에서 누가 실제 영향력을 갖고 있는지에 대한 정보입니다. 머릿속에만 있거나 메모 앱에 파편화된 채로 있으면 다음 프로젝트에서 재사용이 안 됩니다. 체계적으로 기록해두면 동일 업종에서 경쟁자가 갖지 못한 시작점이 됩니다.

도메인 특화 사례 모음입니다. 특정 업종·지역·고객군에서 반복해서 관찰한 패턴들입니다. "30평대 독립 카페 창업 초기 3개월 동안 공통으로 나타나는 손익 구조의 특징"이나 "B2B 영업에서 결재 라인이 3단계를 넘는 기업은 초기 의사결정에 평균 6주가 더 걸린다"는 식의 정보는 범용 AI 학습 데이터에 들어 있지 않습니다. 이것이 쌓이면 컨설팅이든 콘텐츠든 근거의 성격이 달라집니다.

고객 피드백의 원문입니다. 설문조사 평균 점수가 아니라, 고객이 직접 쓴 문장 그 자체입니다. "처음에 이 부분에서 이런 이유로 헷갈렸습니다"라는 문장들이 쌓이면, 기능을 어떻게 개선하고 마케팅 방향을 어떻게 잡을지에 대해 다른 근거가 생깁니다. 평균은 방향을 잃게 만들고, 원문은 방향을 잡게 만듭니다.

이 모든 것의 전제는 기록입니다. 아무리 좋은 관계와 경험이 있어도 기록되지 않으면, 팀이 커지거나 AI 도구를 연결하는 순간 재사용이 안 됩니다. 사업 운영을 데이터 축적 과정으로 다시 설계한다는 발상이 지금 이 맥락에서 의미를 갖는 이유입니다.

H1의 CEO가 CVS 투자를 설명하면서 꺼낸 논리는 단순합니다. 소프트웨어 기능이 아니라 누적된 데이터가 방어선이라는 것입니다. 지금 당신이 운영하는 사업에서, 경쟁자가 시간을 들여도 바로 따라오기 어려운 자리는 어디입니까. 기능과 도구에 투자하는 만큼, 기록과 데이터에도 투자하고 있습니까.